Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

PRATARMĖ

Įsivaizduokime, kad nusipirko žmogus naują televizorių ir nori truputį pareguliuoti spalvas ir garsą.  O vietoje pultelio gauna atsuktuvą ir elektroninę televizoriaus schemą. Skaityk, analizuok ir daryk!  O jei neišmanai fizikos, tai ir nagų nekišk!  Vargu ar toks pirkėjas būtų laimingas. O štai dauguma statistikos vadovėlių yra, kaip ta elektroninė schema – viskas juose matematiškai tikslu ir teisinga, bet praktines problemas spręsti nelabai padeda . Kokie klausimai dažniausiai kyla, atliekant statistinę analizę? Tikrai ne apie įverčių gavimo metodo subtilybes, ar Gauso-Markovo teoremos įrodymą. Svarbiausias klausimas  – ar šįkart gerą modelį gavau, ar (ir vėl) kažkokią nesąmonę? Išmintingos vadovėlinės tiesos – dviejų deviacijų skirtumas turi asimptotinį chi kvadrato skirstinį ir pan. – labiau ugdo neapykantą matematikai, nei padeda į jį atsakyti.

Šio studijų paketo tikslas – padėti įgyti tinkamus praktinius regresinio modeliavimo ir analizės įgūdžius. Vadovėlių , kuriuose išdėstyta regresinių modelių teorija,  šie konspektai tikrainepakeis, bet uždavinius spręsti pagelbės. Sąmoningai vietoje tikslių ir baisių (gražių) matematinių formulių pateikiami itin supaprastinti pagrindinių teorinių idėjų atpasakojimai.

Studijų paketas yra skirtas šiems regresijos modeliams ir jų apibendrinimams:

  • Tiesinė regresija.  Modelyje vieną intervalinį kintamąjį veikia vienas arba keli kiti kintamieji. Pavyzdžiui, tiriame, kaip kraujospūdį veikia per dieną surūkytų cigarečių skaičius ir kūno masės indeksas. Aiškinamės, kaip migracija priklauso nuo BVP augimo.
  • Stabilizuotų liekamųjų paklaidų regresija. Tiesinės regresijos alternatyva, kai duomenys nėra tolygiai išsibarstę (duomenys heteroskedastiški).
  • Atsparioji regresija. Tiesinės regresijos alternatyva, kai yra labai išsiskiriančių stebėjimų (išskirčių).
  • Medianos regresija. Tiesinės regresijos alternatyva, kai duomenys nėra normaliai pasiskirstę.
  • Netiesinė regresija. Įvairios tiesinės regresijos alternatyvos, kai kintamųjų priklausomybės nėra tiesinės.
  • Dvinarė logistinė regresija. Modelyje dvireikšmis kintamasis priklauso nuo  vieno arba kelių kitų kintamųjų. Pavyzdžiui, tiriame, kaip politiko apsisprendimą kandidatuoti veikia jo turtinė padėtis ir „politinis stažas“. Dvinarė logistinė regresija padeda įvertinti tikimybę susirgti diabetu, atsižvelgus į kūno masės indeksą ir paveldimumo faktorius.
  • Daugianarė logistinė regresija. Tai dvinarės logistinės regresijos apibendrinimas, kai modeliuojamas kintamasis gali įgyti daugiau nei dvi kategorines reikšmes. Pavyzdžiui, bandome išsiaiškinti nuo ko priklauso, kaip balsuos rinkėjas.
  • Ranginė logistinė regresija. Modelis  analogiškas daugianarei logistinei regresijai, tik kintamieji ranginiai. Pavyzdžiui, bandome nustatyti, kaip požiūris į baigtas studijas (labai palankus –  palankus –  nepalankus) priklauso nuo  gaunamo atlyginimo.
  • Puasono regresija. Modeliuojame retų įvykių skaičiaus arba įvykių dažnio priklausomybę nuo vieno arba kelių kitų kintamųjų. Pavyzdžiui, tiriame, kaip vaikų skaičius šeimoje susijęs su tėvų išsilavinimu bei brolių/seserų skaičiumi.
  • Neigiama binominė regresija.  Modeliuojame įvykių skaičiaus arba įvykių dažnio priklausomybę nuo vieno arba kelių kitų kintamųjų. Alternatyva Puasono regresijai.
  • Perteklinių nulių modeliai. Puasono regresijos modifikacijos, kai duomenys daug nulinių reikšmių. Pavyzdžiui, modeliuojame respondento pavaldinių skaičių.
  • Probit regresija. Alternatyva dvireikšmei logistinei regresijai. Klasikinis probit regresijos taikymas – dozavino modelis. Pavyzdžiui, bandome nustatyti, kiek pesticidų reikia, kad būtų išnaikinta 90% kenkėjų.
  • Logtiesiniai modeliai. Keleto kategorinių kintamųjų tarpusavio priklausomybių analizė. Pavyzdžiui, norime nustatyti, kaip požiūris į mirties bausmę priklauso nuo respondento lyties, tikėjimo ir tautybės. Apibendrina chi kvadrato kriterijų.

Norime atkreipti dėmesį, kad konspektuose aptariama tik klasikinė situacija, kai pasirenkamas vienas mus dominantis reiškinys, ir tiriama kas jam daro įtaką. Statistikoje yra taikomi ir sudėtingesni regresijos modelių apibendrinimai. Kai tyrėjo sudarytame modelyje yra net keli vienas kitą veikiantys kintamieji (kai kurie iš jų  gali būti latentiniai, t.y. tiesiogiai nestebimi), naudojamos struktūrinės lygtys (SEM). Pavyzdžiui, modeliuodami šešėlinę ekonomiką, nurodome nuo ko šis tiesiogiai nestebimas  kintamasis priklauso (nuo mokesčių, nedarbo lygio), ir kam daro įtaką (BVP, užimtumui). Duomenims, turintiems griežtą hierarchinę struktūrą, taikomi hierarchiniai tiesiniai modeliai (HLM). Pavyzdžiui, modeliuodami mokinių matematikos egzamino rezultatus, atsižvelgiame ne tik į jų pačių socialinį – ekonominį  satusą, bet ir į mokyklos charakteristikas (geri mokytojai, griežta drausmė ir pan.). Lietuviškos literatūros apie HLM ir SEM yra labai nedaug .

Savo pobūdžiu šie konspektai yra iš serijos „Gaminame patys. Receptai žaliems“. Kokio žalumo skaitytojams ji skirta? Skaitytojams apie statistiką pakanka turėti tik labai  bendrą (ir miglotą) supratimą. Vis dėlto, tikėtis, kad  nieko apie statistiką nežinojau (tik girdėjau, kad žmonės ją taiko, rašydami disertacijas bei straipsnius), o štai dabar paskaitinėsiu knygelę ir tapsiu regresijos ekspertu, –   nevertėtų. (Pavartysiu anatomijos vadovėlį ir – tik žybt – sėkmingai išpjausiu kaimynui apendicitą). Ekspertu tampama praktikuojantis. Šie konspektai padės įgyti pradinius modeliavimo įgūdžius. Siekiama, kad tie įgūdžiai iš tikro būtų praktiniai. Kaip analizę atlikti SPSS ir STATA programomis aprašyta itin detaliai. Sąmoningai vengta patarimų „pasidaryk pats“  .

Pavyzdžiams tirti naudotos IBM SPSS 19 ir STATA 10 (su SPost priedu) programos. Kitos šių programų versijos skiriasi tik detalėmis. Todėl neturėtų kilti kliūčių, tiriant regresijos modelius senesnėmis ir (tikėkimės) naujesnėmis programų versijomis. Analizei ir uždaviniams naudoti ESS4 ir LiDA duomenų bazės duomenys. Į pavyzdžiuose gautus rezultatus nereikia žiūrėti, kaip į didžiai rimtus mokslinius tyrimus. Nebandėme aiškinti, kodėl atsirado viena, ar kita kintamųjų priklausomybė.Tai jau būtų sociologų duona. O mūsų tikslas – kitas. Siekiame išmokyti tas priklausomybes pastebėti, kitaip tariant, išmokti statistinės tyrimo technikos. Maždaug –  kaip taisyklingai kalti vinis, nenusimušant pirštų ir neišdaužant žiūrovų. O ką kalti –  kėdę prie stalo,  vinį į sieną, kryžių, prie kryžiaus, – čia jau skaitytojo reikalas (kartais ir problema).

Regresijos modelių yra įvairiausių. Vis dėlto, nereikia turėti iliuzijų, kad bet kokiems duomenims pavyks sudaryti tinkamą regresijos modelį. Net labai stengiantis, nepavyks regresijos modeliu susieti Lietuvos BVP augimą su kapibarų skaičiumi Argentinoje. Yra duomenų, kuriems jokie regresiniai modeliai netinka.
Nuoširdžiai dėkojame R. Rauleckui už pastabas, padėjusias pagerinti šiuos konspektus.
Pabaigai – labai svarbi žinia:

O ką tai reiškia, paaiškinta įvade.

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2015-06-18