Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Ankstesnis dokumentas Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

2. TIESINĖ REGRESINĖ ANALIZĖ
2.1. Tiesinės regresijos modelis
     
2.1.4. Modelio tinkamumas

Regresinį modelį aprašo tokie rodikliai:

  • Determinacijos koeficientas (R kvadratas). Tai svarbiausia modelio tikimo duomenims charakteristika, kuri privaloma visuose regresijos modelių aprašymuose.  Determinacijos koeficientas lygina skirtumus tarp  Y reikšmių, kai atsižvelgiama į regresijos modelį, su  skirtumais tarp Y reikšmių, kai į modelį neatsižvelgiama. Labai apytikslė R2 interpretacija, padedanti geriau suvokti jo prasmę, yra tokia – kiek procentų Y elgesio paaiškina kintamųjų X, Z, W elgesys. Determinacijos koeficientas įgyja  reikšmes iš intervalo  [0, 1].  Kuo koeficiento reikšmė didesnė, tuo modelis geriau tinka duomenims.  Blogai, kai  R2 <0,20. Apskritai nėra ko labai džiaugtis ir tada, kai R2 = 0,25 (modelis tinka tik iš bėdos). O štai, jei R2 = 0,89, tai modelis labai gerai aprašo duomenis. Tiesa, tai dar neužtikrina, kad visi kintamieji jame būtini, o pats modelis yra prasmingas.

  • Koreguotas  determinacijos koeficientas (angl. Adjusted R square). Tai alternatyva determinacijos koeficientui, kai  modelyje yra  daug regresorių ir mažai stebėjimų. Jeigu respondentų yra bent 7 kartus daugiau, nei regresorių, tai nereikia jokių koreguotų determinacijos koefecientų, nes visiškai pakanka standartinio R2. Pavyzdžiui, jeigu turime 15 respondentų duomenis, o modelyje jų IQ modeliuojame pagal socialinį statusą, tėvo IQ, motinos IQ, brolių ir seserų IQ, mokytojų IQ vidurkį, respondento amžių ir perskaitytų knygų per metus skaičių, tai tikrai reikia koreguoto R2. O jeigu apsiribosime tik tėvų IQ, tai užteks įprasto determinacijos koeficiento. Rezultatų aprašyme pateikiamas tik vienas (koreguotas arba paprastas) determinacijos koeficientas.

  • ANOVA p-reikšmė. Ji parodo, ar modelyje yra su priklausomu kintamuoju susijusių regresorių. Jeigu p reikšmė didesnė už 0,05, tai regresijos modelio tinkamumas labai abejotinas (faktiškai gauname, kad Y  nepriklauso nuo X, Z ir W). Jeigu p reikšmė mažesnė už 0,05, tai gavome patvirtinimą, jog modelis nėra beviltiškas (o gal ir visai geras – reikia tirti toliau). Dažniausiai apie ANOVA p reikšmę regresijos modelio aprašyme neužsimename. Jeigu jau regresijos modelis pristatomas, kaip duomenims tinkamas, tai visi ir taip supranta, kad ši reikšmė buvo maža.

  • T (Stjudento) testai atskiriems regresoriams. Padeda nuspręsti ar kintamasis šalintinas iš modelio. Jeigu atitinkamo testo p reikšmė < 0,05, tai sakome, kad kintamasis yra statistiškai reikšmingas ir dažniausiai (jei nėra multikolinearumo) jį modelyje paliekame. Jeigu p reikšmė ≥ 0,05, tai kintamasis yra statistiškai nereikšmingas ir modelyje jis paliekamas tik ypatingais atvejais (žr. modelio tobulinimą žemiau). Dažniausiai modelio konstanta  C paliekama net ir tada, kai ji statistiškai nereikšminga.

Ar patenkintos regresijos modelio prielaidos parodo:

  1. Dispersijos mažėjimo daugiklis (VIF). Parodo ar regresoriai stipriai tarpusavyje koreliuoja (yra multikolinearumo problema). VIF skaičiuojamas kiekvienam regresoriui. Multikolinearumas yra, kai VIF > 4. Vietoje VIF galima naudoti per jį išsireiškiantį rodiklį – toleranciją. Kintamojo tolerancija = 1/VIF.  Blogai, kai tolerancija < 0,25.

  2. DFB (betos pokyčio, angl. difference in beta) statistika. Parodo, ar duomenyse yra išskirčių. DFB skaičiuojama kiekvienam regresoriui ir konstantai atskirai. Jeigu imties didumas n, o regresorių yra k, tai DFB statistikų bus  n (k + 1). Blogai (konkreti regresoriaus reikšmė yra išskirtis), kai DFB > 1.

  3. Kuko matas. Parodo, ar duomenyse yra išskirčių. Alternatyva DFB. Skaičiuojama kiekvienam regresorių rinkiniui. Jeigu imties didumas n, tai ir Kuko matų bus n. Blogai, kai Kuko matas viršija 1. Itin griežti (ir negausūs) statistikai mano, kad blogai, kai viršija 4/n. Skirtingai nei DBF, nenurodo išsiskiriančios regresoriaus reikšmės. Norodo tik kurio respondento duomenys  išsiskiria.

  4. Durbino-Vatsono statistika. Norime nustatyti, ar skirtingų stebėjimų liekamosios paklaidos koreliuoja (yra autokoreliacija). Faktiškai tai reiškia, kad vieno respondento stebėjimai daro įtaką kito respondento atsakymams. Durbino – Vatsono statistika tiriama tik tada, kai kyla toks įtarimas (pvz. respondentai atsakinėdami žiūrėjo kaimynams per petį; matavome biržos indeksus kelias dienas iš eilės ar pan.). Visais kitais atvejais šios statistikos nereikia. Praktiškai Durbino – Vatsono statistika reikalinga tik tada, kai duomenys sudaro laiko eilutę (duomenys yra laikiniai, t.y. stebime kintamųjų elgesį, bėgant laikui), o norime taikyti paprastą tiesinę regresiją, o ne sudėtingą laiko eilučių modelį. Socialiniuose tyrimuose tokios situacijos retos ir Durbino – Vatsono statistikos taikymas juose yra gryna egzotika. Jeigu Durbino – Vatsono statistika yra tarp 1,5 ir 2,5, tai dažniausiai tariama, kad auto-koreliacijos nėra.

  5. Standartizuotosios liekamosios paklaidos (angl. standardized residuals)naudojamos patikrinimui, ar Y normaliai pasiskirstęs. Dažniausiai tiriama histograma, kuri lyginama su normaliąja kreive (turi nedaug skirtis) ir standartizuotojų liekamųjų paklaidų ir normaliojo atsitiktinio dydžio santykiniai procentinai dažniai (angl. P-P plot). Kuo taškai arčiau nubrėžtos tiesės (idealiu atveju visi taškai yra ant tiesės), tuo duomenys normalesni.

  6. Šapiro – Vilko (Shapiro – Wilk)  testo p reikšmė ≥ 0,05 rodo, kad standartizuotosios paklaidos yra normalios. Reikia nepamiršti, kad didelėms imtims šis kriterijus  gali normalumo hipotezę nepagrįstai atmesti. Didelėms imtims grafikai (žr. ankstesnį punktą) informatyvesni.

  7. Liekamųjų paklaidų diagramos kiekvienam kintamajam parodo, kurie kintamieji (regresoriai) modelyje reikalingesni. Geri tie kintamieji, kuriems diagramos rodo tiesinę priklausomybę. Nereikia stebėtis, kad x ir y ašys įgyja keistas reikšmes.  Mums svarbi tik grafiko forma. Grafike neatidedamos kintamųjų reikšmės.  Iš tikro vienoje ašyje atidedamos liekamosios paklaidos, gautos iš regresijos modelio be tikrinamojo kintamojo, o kitoje ašyje – liekamosios paklaidos iš regresijos modelio, kai pats kintamasis modeliuojamas pagal likusius regresorius.

  8. Standartizuotųjų prognozuojamų reikšmių  (angl. standardized predicted values) grafikas, kai y-ašyje atidedamos standartizuotosios liekamosios paklaidos, naudojamos homoskedastiškumui tikrinti. Gerai, kai grafikas primena vienodo storio juostelę. Blogai, kai grafiko taškų išsibarstymas rodo, kažkokį kitą reguliarumą. Galimos blogos situacijos pateiktos a) – c) paveikslėliuose.

  9. Breušo – Pagano (Breusch – Pagan ) testo p reikšmė ≥ 0,05 rodo, kad homoskedastiškumo prielaida patenkinta. SPSS šio testo (kol kas) nėra. Reikia nepamiršti, kad didelėms imtims šis kriterijus  gali homoskedastiškumo prielaidą nepagrįstai atmesti. Didelėms imtims grafikai (žr. ankstesnį punktą) informatyvesni.

 Apibendrindami galime nusakyti, kokie turi būti gero regresijos modelio rodikliai.


Geram regresijos modeliui:
  • R2 ≥ 0,20.
  • ANOVA   p < 0,05.
  • Visų t testų   p < 0,05.
  • Visi  VIF ≤ 4 (nėra multikolinearumo problemos).
  • Visos Kuko mato (arba DFB)  reikšmės ≤  1.
  • Koeficientų ženklai atitinka koreliacijas.
  • Sprendžiant pagal histogramą ir P-P grafiką, liekamosios paklaidos normalios.
  • Šapiro – Vilko testo p ≥ 0,05 (liekanos normalios).
  • Sprendžiant pagal liekamųjų paklaidų grafiką (ir Breušo – Pagano testo p ≥ 0,05 ) nėra heteroskedastiškumo problemos

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2015-06-18