Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Ankstesnis dokumentas Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

4. DVINARĖ LOGISTINĖ REGRESINĖ ANALIZĖ
4.3. Dvinarė logistinė regresinė analizė su STATA
       4.3.2. Modelio tyrimas

Logistinę regresiją STATA programa galima atlikti, naudojant logit ir logistic komandas. Didelio skirtumo tarp šių komandų nėra, todėl apsiribosime komanda logit. Tirsime modelį country = f(stfgov, freehms, imsb2). Modelyje yra vienas dvireikšmis regresorius imsb2 (reikšmės 0 ir 1). Įvykdome komandą:

logit  country freehms stfgov imsb2


Chi kvadrato kriterijaus statistika ir p reikšmė pateikiamos lentelės viršuje dešinėje pusėje. Matome, kad chi kvadrato statistka yra didelė (lygi 118,96) ir statistiškai reikšminga (jos p reikšmė 0,000..).  Faktiškai tai informacija, kad su pasirinktais regresoriais modelis gerai tinka duomenims, nors neaišku, ar visi kintamieji modelyje reikalingi. Kuo chi kvadrato reikšmė didesnė, tuo labiau tikėtina, kad logistinės regresijos modelis tinka. Ji ypač informatyvi tada, kai turime labai daug duomenų. Tada net ir statistiškai reikšminga, bet maža chi kvadrato reikšmė, kelia įtarimų dėl modelio gerumo.

Determinacijos pseudokoeficiento reikšmė nėra didelė (Pseudo R2 = 0.3061), bet logistinei regresijai šis rodiklis yra nelabai svarbus. Juolab, kad vis tiek viršija 0,20 – tradicinę determinacijos koeficientams taikomą tinkamumo ribą. STATA pateikia Makfadeno determinacijos pseudokoeficientą.

Užrašysime modelį, įstatydami koeficientų įverčius (exp{x}, tai trumpas ex žymėjimas).

 Įsitikiname modelio logiškumu. Didėjant skliaustuose esančiam reiškiniui (tikimybių santykio logit funkcijai), kartu didėja ir tikimybė, kad respondentas iš Portugalijos. Ir priešingai, mažėjant skliaustuose esančiam reiškiniui, didėja tikimybė, kad respondentas iš Lietuvos. Koeficientas prie freehms ir yra neigiamas, o koeficientas prie stfgov teigiamas. Todėl, didėjant freehms reikšmei didėja tikimybė, kad respondentas iš Lietuvos. Taigi, kuo respondentas priešiškiau nusistatęs seksualinių mažumų atžvilgiu (freehms didesnis), tuo tikėtiniau, kad jis iš Lietuvos. Analogiškai darome išvadą, kad kuo repondentas palankiau vertina vyriausybę, tuo didesnė tikimybė, kad jis iš Portugalijos. Koeficientas prie imsb2 yra neigiamas. Kai įstatome vienetą (imsb2 = 1 atitinka neigiamą požiūrį į imigrantus), visas reiškinys sumažėja ir padidėja tikimybė, kad respondentas iš Lietuvos.

Modelio regresorių galimybių santykiai gaunami, įvykdžius komandą:

logit  country freehms stfgov imsb2, or

Kintamojo imsb2 galimybių santykis yra lygus 0,181. Todėl galime padaryti tokią išvadą:  nepalankus požiūris į socialines lengvatas imigrantams (imsb2 = 2), lyginant su palankiu, sumažina santykį

0,181 karto. Kaip jau minėta aukščiau, labiau tampa tikėtina, kad respondentas buvo iš  Lietuvos. Analogiškai interpretuojami galimybių santykiai ir tolydiems kintamiesiems. Pavyzdžiui,  kiekvienas papildomas balas, palankiau vertinant vyriausybę (stfgov) padidina tikimybių santykį 1,42  karto. Labiau tampa tikėtina, kad respondentas iš Portugalijos. Kiekvienas papildomas balas neigiamiau vertinant seksualines mažumas freehms, sumažina tikimybių santykį 0,44 karto. Tampa labiau tikėtina, kad respondentas iš Lietuvos.  Be pačių galimybių santykių lentelėje dar pateikiami ir jų 95% pasikliautinųjų intervalų apatiniai ir viršutiniai rėžiai. Matome, kad intervaliniams kintamiesiems rėžiai yra pakankamai maži.
Norėdami gauti klasifikacinę lentelę, įvykdome komandą:

lstat

D kategorija atitinka Portugaliją ( country ≠ 0). Matome, kad iš 123 Portugalijos atstovų, teisingai atpažinti 89. Tai sudaro 72,36 % teisingų klasifikavimų. Analogiškai nustatome, kad iš 161 Lietuvos atstovų teisingai klasifikuoti 128 (79,5%). Bendrasis teisingų klasifikavimų procentas (89+128 iš 123+161) yra 76,41%. Ankstesniame skyrelyje buvo nustayta, kad imtyje respondentai iš Portugalijos sudaro 43,31% , o iš Lietuvos – 56,69%. Būtent toks būtų ir prognozės tiklsumas, jeigu visą laiką, kaip papūgos kartotume “PT” (“LT”). Taigi, taikant logistinę regresiją, klasifikavimas labai pagerėja. Vienas svarbiausių reikalavimų keliamų geriems logistinės regresijos modeliams patenkintas.

Norėdami gauti informaciją apie Hosmerio – Lemešou statistiką, įvykdome komandą:

lfit, group(10)

Gerai, kai Hosmerio – Lemešou statistikos p ≥ 0,05. Šiuo atveju p = 0,0512. Šis rodiklis irgi rodo priimtiną modelio tikimą duomenims. Šiaip jau Hosmerio – Lemešou kriterijus yra pagalbinis ir taikomas tik  nedidelėms imtims. Imtis n = 284, nėra itin maža, todėl galima buvo apsieiti ir be jo.

Išskirčių nustatymas STATA programoje nėra labai gerai realizuotas ir taikomas retai (išskirtis turi būti labai „piktybinė“, kad logistinė regresija į ją reaguotų). Todėl žemiau pateikiamas aprašymas skaitytinas tik, kaip labai neprimygtina rekomendacija. Visa ankstenė informacija rodo, kad logistinės regresijos modelis duomenims gerai tinka.

Vienas išskirčių nustatymo  būdų – sukurti kintamuosius, kuriuose atsispindėtų liekamosios paklaidos ir pažiūrėti, ar nėra labai išsiskiriančių reikšmių. Ištirsime standartizuotasias paklaidas ir deviacijos statistikos paklaidas. Deviacija – rodiklis, taikomas apibendrintuose tiesiniuose modeliuose (logistinė regresija – atskiras tokių modelių atvejis). Įvykdome komandas:

predict dev, deviance
predict rstandart, rstandard

Nusibraižome liekamųjų paklaidų grafikus:

scatter rstandart idno
scatter  dev idno

Abudu grafikai nerodo kažkokių labai išsiskiriančių reikšmių. Vis dėlto, jeigu laikysime, kad standartinės paklaidos viršijančios 3 rodo išskirtį (ši labai pritempta prielaida siejasi su regresorių normalumu, kuris logistinei regresijai nėra svarbus), tai keletą tokių taškų rasime. Kaip nustatyti, kur jie? Galima tiesiog įvykdyti komandą:

list rstandart if rstandart> 3

Galima šias išskirtis pašalinti ir pažiūrėti, ar labai keičiasi modelis. Alternatyva  aptarta kitame skyrelyje.

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2015-06-18