Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Ankstesnis dokumentas Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

3. TIESINĖS REGRESIJOS ALTERNATYVOS
3.4. Medianos regresija
     3.4.2. Medianos regresija su STATA

Visų pirma, išbandysime, kaip medianos regresija atrodo duomenims, kurie tenkina tiesinės regresijos prielaidas. Jiems taikyti medianos regresiją tikrai galima.Tiriame A duomenis. Įvykdome:

qreg  satisfaction trust_all


Palyginę su 3.3.1 skyrelyje pateiktu tiesinės regresijos modeliu, matome, kad regresoriaus trust_all koeficiento įvertis (0.961) nedaug skiriasi nuo tiesinės regresijos įverčio (0,892). Nedaug keitėsi ir atitinkamas pasikliautinis intervalas. Konstantos įvertis skiriasi radikaliai (2.95e-08, tai užrašas, kuris reiškia, kad 2,95 reikia padalinti iš 108. Gausime praktiškai 0, todėl ir atitinkama p reikšmė lygi 1). Žodžiu, rekomendacija pašalinti iš modelio konstantą, šįkart labai primygtina. Pseudo R2 = 0,355 yra  priimtino didumo, nors gerokai mažesnis, nei buvo (0,557).

Modelio gerumą visada verta patikrinti ir grafiškai. Sukuriame prognozuojamų satisfaction reikšmių stulpelį duomenyse (pavadiname jį PRED )  įvykdydami komandą:

predict PRED

Braižydami grafiką, pasinaudosime duomenyse esančiu respondento identifikaciniu numeriu idno. Įvykdome:

graph twoway line  satisfaction PRED  idno

Prognozuojamų ir tikrųjų kintamojo satisfaction reikšmių grafikai skiriasi nedaug. Matome, kad ir medianos regresijos modelis gerai aprašo duomenų elgesį. Žinoma, galima ir kitaip pateikti duomenų tikimo grafiką. Pavyzdžiui, išdėliosime visas reikšmes pagal satisfaction  augimą. Įvykdome komandas:

sort satisfaction
gen id = _n
graph twoway line  satisfaction PRED  id


Sumodeliuokime 75% kvantilio elgesį. Apytikslė tokio modelio interpretacija skambėtų taip: „modelis, aprašantis respondentus, kurie pagal pasitenkinimą politika yra tarp ketvirtadalio labiausiai patenkintų“ . Ši interpretacija yra tik apytikslė (bet lengviau suprantama), nei tikslesnis pasakymas, kad modelis sudarytas respondentams, už kurios tiksliai 75% respondentų yra mažiau patenkinti, o 25 % labiau patenkinti.  Įvykdome

qreg  satisfaction trust_all, q(0.75)

Pasikeitė ne tik konstantos įvertis (daugiklis prie trust_all  liko panašus į tiesinės regresijos modelio daugiklį), bet ir pseudo R2 .  Analogiškai galima suskaičiuoti ir kitų kvantilių regresijas. Kada yra prasmė skaičiuoti kvantilio regresiją? Kai norime iš visos respondentų grupės pasirinkti dalį, o duomenis panaudoti visus. Pavyzdžiui, sumodeliuoti priklausomybę labiausiai patenkintiems politika respondentams. Tada ir interpretuosime, kad pasitenkinimas politika nuo trust_all respondentams, kurie yra tarp labiausiai politika patenkintųjų,priklauso štai taip:

satisfaction = 1,39 + 0,89 trust_all.

Analogiškai galima sumodeliuoti priklausomybę 25% labiausiai nepatenkintų politika respondentų. STATA yra numatyta galimybė pateikti kelių kvantilių regresijos modelius iškart. Įvykdome

sqreg  satisfaction trust_all, q(0.25, 0.5, 0.75)

Liekamosios paklaidos, vykdant šią komandą, buvo vertinamos savirankos metodu. Matome, kad koeficientai prie trust_all daug nesiskiria, o jų pasikliautinieji intervalai labai persidengia. Tai leidžia įtarti, kad modeliuose reikšmingai skiriasi tik konstantos. Parodysime, kad 75% ir 25% kvantilių regresijų koeficientai prie trust_all statistiškai reikšmingai nesiskiria. Įvykdome:

test[q25]trust_all = [q75]trust_all

Matome, kad p = 0,68 > 0,05. Analogiškai įsitikiname, kad statistiškai reikšmingai nesiskiria ir medianos regresijos modelio koeficientas prie trust_all. Konstantas palyginame, įvykdydami:

test[q25]_cons = [q75]_cons

Matome, kad p = 0,00< 0,05. Taigi modelių konstantos skiraisi statistiškai reikšmingai.
Tyrimo prasme šie rezultatai nėra labai įdomūs. Kur kas įdomiau būtų, jeigu būtų pavykę nustatyti, kad labiau politika patenkintiems trust_all įtaka yra silpnesnė, nei politika nepatenkintiems. Taigi, tirtiems duomenims 75% arba 25% kvantilių regresijų išskyrimas ir aprašymas nėra prasmingas.
Be modelio konkrečiam kvantiliui, galima sumodeliuoti ir skirtumą tarp pirmojo ir trečiojo kvartilių (t.y. skirtumą tarp 0,75 ir 0,25 kvantilių). Toks modelis gali turėti prasmę, jeigu norime išryškinti modelių skirtumus tarp palankiai ir nelabai palankiai vertinančius politinę padėtį. Įvykdome

iqreg  satisfaction trust_all, q(0.25, 0.75)

Labai politika patenkintų ir mažai patenkintų požiūrio į politiką skirtumas nuo trust_all priklauso štai taip:

Skirtumas satisfaction = 2,27 - 0,044 trust_all.

Regresorius trust_all tapo statistiškai nereikšmingu. Tai dar kartą patvirtina jau anksčiau gautą išvadą, kad priklausomybė nuo trust_all tokia pati ir labiau politika patenkintiems ir menkiau patenkintiems respondentams. Kvartilių skirtumo regresiją nagrinėti reikia tik tada, jeigu manome, kad atotrūkis tarp požiūrių kinta. Šiuo atveju tai buvo neaktualu. Apskritai socialiniuose tyrimuose kvartilių skirtumo regresija naudojama retai.

Pritaikysime medianos regresiją B duomenims. Primename, kad jiems neišpildyta homoskedastiškumo prielaida. Įvykdome

qreg  K37suminis K32 K33_4

Matome, kad koeficientų įverčiai gana žymiai skiriasi nuo tiesinės regresijos modelio (pvz. konstantos įvertis 5,5 daug mažesnis už 7,412 iš tiesinės regresijos).

Minėjome, kad medianos regresijoje irgi galima taikyti savirankos opciją. Galima įvykdyti 1000 replikacijų saviranką taip:

bsqreg  K37suminis K32 K33_4, reps(1000)

Vis dėlto, toks metodas skaičiuoti pasikliautiniams intervalams nėra labai geras. Nors standartinės paklaidos ir surandamos savirankos metodu, pasikliautiniai intervalai apskaičiuojami pagal formules, tinkančias normaliems  duomenims. O pati medianos regresija skirta duomenims, kurie nėra normalūs. Todėl geriau ir pačius intervalus konstruoti, atsižvelgiant į saviranką. Įvykdome:

bootstrap "qreg  K37suminis K32 K33_4" _b[K32] _b[K33_4]  _b[_cons], reps(1000)

Nesunku suprasti, kad „_b[regresorius]“ nurodo, kuriam regresoriui bus konstruojamas pasikliautinis intervalas. Savirankos replikacijų skaičius nurodomas reps(....). Nereikia pasirinkti labai didelio skaičiaus, nes skaičiavimai užims daug laiko. Manoma, kad saviranka su 1000 replikacijų yra visiškai pakankama.


Gavome trimis būdais įvertintus  koeficientų pasikliautinuosius intervalus. Didelių skirtumų tarp rezultatų vis dėlto nėra. Dažniausiai rekomenduojama cituoti (BC) metodu gautuosius pasikliautinius intervalus. BC (bias corrected) metodas, pateikia įverčius, kai atsižvelgiama į galimą jų paslinktumą.

Reziumuodami galime konstatuoti, kad heteroskedastiškiems B duomenims medianos regresija yra tinkama alternatyva tiesinei regresijai. Primename, kad B duomenims galima naudoti ir stabilizuotų liekamųjų paklaidų regresiją. Kurį regresijos modelį pasirinkti priklauso nuo tik nuo tyrėjo.  Labiau įprasta taikyti tiesinę regresiją ir jos modifikacijas.

Skyrelio pabaigai ištirsime, kaip medianos regresijos modelis tinka C duomenims:

 

Gauname, kad praktiškai visi koeficientai yra panašūs į tiesinės regresijos koeficientus, o ne į B duomenų medianos regresijos koeficientus. C duomenys nuo B duomenų skyrėsi ryškia išskirtimi.  Medianos regresija jos „nenukenksmino“.

Medianos regresija nėra tinkama duomenims, kuriuose yra didelių išskirčių.

Jeigu duomenys nėra normalūs ir turi dideles išskirtis, jokio gero regresijos modelio sudaryti nepavyks. .

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2015-06-18