Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Ankstesnis dokumentas Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

2. TIESINĖ REGRESINĖ ANALIZĖ
2.1. Tiesinės regresijos modelis
     
2.1.3. Reikalavimai duomenims

Visi duomenys skaitiniai. Net ir nominaliųjų kintamųjų reikšmės užkoduotos skaičiais. Be to:

  1. Priklausomas kintamasis Y yra normaliai pasiskirstęs. Visi kiti kintamieji  yra intervaliniai, išskyrus dalį dvireikšmių kintamųjų.

  2. Klasikiniame modelyje tariama, kad regresoriai matuojami be paklaidų ir yra neatsitiktiniai. Pastarasis reikalavimas praktikoje dažniausiai nėra logiškas, todėl visuotinai priimta regresorius irgi laikyti atsitiktiniais dydžiais. Regresoriai tuo geriau tinka modeliui, kuo jie panašesni į normaliuosius atsitiktinius dydžius. Faktiškai, tai reikalavimas, kad visų kintamųjų histogramos būtų „varpo formos“.  Neretai, siekiant didesnio kintamųjų panašumo į normaliuosius, kintamieji transformuojami. Pavyzdžiui, ekonominiuose regresijos modeliuose itin dažnai taikoma logaritminė transformacija, t.y. surandami kintamųjų logaritmai ir regresijos modelis  sudaromas šiems logaritmams. Pradinis modelis Darbo užmokestis = C+ b1BVP+e gali būtikeičiamas modeliu  log(Darbo užmokestis) = C+ b1log(BVP)+e. Regresorių normalumo nereikia suabsoliutinti. Socialiniuose moksluose masiškai taikomi regresiniai modeliai, kai joks kintamųjų normalumas netiriamas  ir pasitenkinama tuo, kad jie yra intervaliniai.

  3. Kartais į modelį įtrukiami ir kategoriniai kintamieji, vadinami pseudokintamieji. Visi jie turi būti perkoduoti taip, kad įgytų tik dvi reikšmes –  0 ir 1. Pavyzdžiui, galima į modelį įtraukti pseudokintamąjį lytis (1 – vyr., 0 – mot.). Bendrojoje regresijos modelio lygtyje įstatę vietoje lyties  reikšmę 1, gausime regresijos modelio lygtį vyrams. Įstatę  0, gausime regresijos modelio lygtį moterims. Vis dėlto pseudokintamieji naudotini tik iš didelės bėdos, kai duomenų mažoka. Daug tikslesni regresijos modeliai bus gauti, kai atskirai tirsime vyrus ir moteris. Jeigu kategorinis kintamasis įgyja tris reikšmes (pvz., lietuvis, latvis, estas), tai įvedami du pseudokintami  P1 ir P2 (lietuviams P1 = 0, P2 = 0, latviams P1 = 0, P2 = 1, o estams P1 = 1, P2 = 0). Kodavimo sistema tokia: vieną kategoriją atitinka visi nuliai, kiekvieną kitą kategoriją atitinka vienas vienetas ir nuliai. Kaip taisyklė, regresijos modeliai, kai visi regresoriai yra pseudokintamieji, nenagrinėjami.

  4. Skirtingų stebėjimų liekamosios paklaidos e neturi koreliuoti. Praktikoje tai reiškia, kad  stebėjimai nesusiję. Dažniausiai tai labai natūralus reikalavimas – mes nemanome, kad Petro IQ priklauso nuo Jono IQ, arba, kad pirmojo respondento ištikimybė Europos Sąjungai kažkaip paveikia kitų respondentų požiūrį. 

  5. Regresoriai neturi stipriai koreliuoti. Priešingu atveju iškyla vadinamoji multikolinearumo problema. Tada modelis tampa nestabiliu, t.y.  keli papildomi stebėjimai gali radikaliai pakeisti vertinamų koeficientų   reikšmes. Sudarius regresijos modelį 100 stebėjimų, natūralu tikėtis, kad  vienas papildomas stebėjimas radikaliai modelio nepakeis. Priešingu atveju darosi problematiškas regresijos lygties koeficientų reikšmių komentavimas.  Kita problema, kuri gali kilti dėl regresorių multikolinearumo, yra  neteisingi jų ryšiai modelyje. Pavyzdžiui, gali būti taip, kad iš tikro koreliacija tarp X ir Y yra teigiama ( t.y.  X didėjant, didėja ir Y ), o regresijos modelis neteisingai rodo, kad  didėjant X, kintamasis Y mažėja.

  6. Duomenyse neturi būti išskirčių. Išskirtis – tai tokia Y, X, Z arba W reikšmė, kuri stipriai skiriasi nuo kitų stebėjimų. Modelis, sudarytas duomenims su išskirtimis nėra patikimas.

  7. Duomenys turi būti homoskedastiški. Reikalaujama, kad liekamosios paklaidos dispersija nepriklausytų nuo regresorių reikšmių. Jeigu taip nėra, tai sakome, kad iškilo heteroskedastiškumo problema. Praktiškai hetroskedastiškumas pasireiškia tuo, kad vienoms regresorių reikšmėms priklausomas kintamasis Y  įgyja labai skirtingas reikšmes, o kitoms – ne.  Nubraižykime  Y priklausomybės nuo  kiekvieno regresoriaus grafikus (angl. scatter plot) ir pažiūrėkime, ar gauti Y reikšmių išsibarstymo „debesėliai“ yra daugmaž vienodo storio visoms X reikšmėms. Jeigu taip, tai duomenys homoskedastiški ( a) pav. ). Jeigu  ne, tai – heteroskedastiški ( b) pav.). Modelis, sudarytas labai heteroskedastiškiems duomenims nėra patikimas.

 

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2015-06-18