TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
Pavyzdinis metodologinis mokomasis studijų paketas
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
Autorus Prof. habil. dr. Vydas Čekanavičius |
|
9. MODIFIKUOTI SKAIČIUOJAMIEJI MODELIAI
9.1. Perteklinių nulių Puasono regresijos modelis
9.1.1. Modelio paskirtis
Kai modeliuojame retus įvykius, gana dažnai nulių būna daug daugiau, nei tiktų Puasono regresijai. Pavyzdžiui, turimų samdomų darbuotojų skaičiaus Švedijoje dažnių grafikas aiškiai rodo, kad dauguma respondentų samdomų darbuotojų neturi.

Perteklinių nulių Puasono regresijos (angl. zero-inflated Poisson regression) idėja glūdi samprotavime, kad nulis nuliui nelygus. Galbūt dalis respondentų yra tokie, kad jie iš principo negali turėti samdomų darbuotojų (pavyzdžiui, dirba valstybinėje tarnyboje). Todėl juos reikėtų atskirti nuo galinčių turėti samdomų darbuotojų (pavyzdžiui, užsiimančių privačia veikla) respondentų. Idėjiniame lygmenyje šis reikalavimas nusako kokiems duomenims skirtas modelis – visi respondentai skirstytini į dvi grupes: tuos, kuriems kintamojo reikšmė visada nulis ir tuos, kuriems kintamasis dar gali įgyti ir kitokias reikšmes. Jeigu hareme klausinėjame apie vaikų skaičių, tai reikia skirti eunuchus ir žmonas.
Problema ta, kad realybėje nežinome, kurie respondentai kokiai grupei priklauso. Matematiškai tai reiškia, kad bendrasis modelis sudaromas, apjungus dvinarę logistinę regresiją su standartine Puasono regresija. Dvinarė logistinė regresija turi padėti rasti respondentus, kuriems priklausomas kintamasis visada lygus nuliui (nulinukų grupę). Tiems, kurie į šią grupę nepateko, taikomas Puasono regresijos modelis.
Regresoriai naudojami viename modelyje gali skirtis nuo kito modelio regresorių. |
Kitais žodžiais tariant, visai nebūtina (bet leistina) į abudu modelius įtraukti tuos pačius regresorius. Formaliai kiekvieną modelio tikimybę galime užrašyti, kaip tikimybių mišinį:
P( Y = 0) = P(priklauso nulinukų grupei) + P(nepriklauso nulinukų grupei)P( Y= 0, o respondentas yra iš antrosios grupės),
P( Y=k) = P(nepriklauso nulinukų grupei)P( Y=k, o respondentas yra iš antrosios grupės). |
Nustatant modelio tikimą reikia:
- Pažiūrėti, ar statistiškai reikšminga didžiauso tikėtinumo chi kvadrato reikšmė. Geruose modeliuose p < 0,05.
- Su Voldo testu patikrinti, ar visi kintamieji statistiškai reikšmingi Puasono regresijos modelyje, skirtame ne nulinukams. Geruose modeliuose visiems regresoriams p < 0,05. Konstantai p reikšmės nežiūrime.
- Su Voldo testu patikrinti, ar visi kintamieji statistiškai reikšmingi logistiniame modelyje, atskiriančiame nulinukus. Geruose modeliuose visiems regresoriams p < 0,05. Konstantai p reikšmės nežiūrime.
- Vuongo testu patikrinti, ar perteklinių nulių Puasono regresijos modelis statistiškai reikšmingai skiriasi nuo paprasto Puasono regresijos modelio. Skiriasi, jeigu p < 0,05.
Perteklinių nulių Puasono regresijos nerekomenduojama taikyti labai mažoms imtims (n< 100).
