Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Ankstesnis dokumentas Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

5. DAUGIANARĖ LOGISTINĖ REGRESINĖ ANALIZĖ
5.1. Daugianarės logistinės regresijos modelis
       5.1.5. Modelio tinkamumas

Modelio tinkamumas nustatomas, atsižvelgus į keletą rodiklių. Svarbiausieji yra šie:

  • Klasifikacinė lentelė. Tai viena svarbiausių modelio tinkamumo duomenims charakteristikų.Jeigu jau sudarėme logistinės regresijos modelį duomenims, kuriems žinomos Y reikšmės, tai natūralu pasitikrinti, ar gerai veikia klasifikavimas. Konkretiems stebėjimams prognozuojama Y reikšmė ir žiūrima, ar spėjimas sutapo su tikrąja Y reikšme. Kuo daugiau sutapimų, tuo modelis geresnis. Įprasta reikalauti, kad teisingai klasifikuojamų kiekvienos kategorijos stebėjimų procentas būtų ne mažesnis, nei tos kategorijos procentas tarp Y reikšmių. Kodėl? Logika čia tokia: tarkime visą laiką spėjame, kad Y = 1. Teisingų sprendimų bus toks procentas, kokį tarp visų Y reikšmių sudaro vienetai. Modelis turėtų užtikrinti ne blogesnį klasifikavimą.

  • Modelio tikimo didžiausio tikėtinumo santykio chi kvadrato statistika. (angl. model fit likelihood ratio Chi-square).  Parodo, ar modelyje yra bent vienas reikalingas regresorius. Jeigu p reikšmė didesnė už 0,05, tai regresijos modelio tinkamumas labai abejotinas.

  • Pirsono ir deviacijos chi kvadratai. Tai alternatyvos didžiausio tikėtinumo kriterijui. Modelis tinka duomenims, kai Pirsono ir deviacijos chi kvadratų p  ≥ 0,05. Kai modelyje yra intervalinių regresorių,  Pirsono ir deviacijos chi kvadrato statistikos taikomos retai.

  • Regresorių didžiausio tikėtinumo santykio chi kvadratas. Padeda nuspręsti, ar kintamasis šalintinas iš modelio. Jeigu p reikšmė < 0,05, tai sakome, kad kintamasis yra statistiškai reikšmingas ir dažniausiai jį modelyje paliekame. Jeigu p reikšmė ≥ 0,05, tai kintamasis yra statistiškai nereikšmingas ir modelyje jis paliekamas tik ypatingais atvejais (kai be to kintamojo labai suprastėja teisingų klasifikavimų procentas).

  • Voldo testai. Aukščiau buvo parodyta, kad daugianarės logistinės regresijos matematinį modelį sudaro daug dalinių modelių skirtų visoms Y kategorijoms, išskyrus kontrolinę kategoriją. Voldo kriterijus taikomas kiekvienam iš šių dalinių modelių (submodelių). Jis padeda nustatyti, kurie kintamieji statistiškai reikšmingi, tuose daliniuose modeliuose (jiems p < 0,05). Pavyzdžiui, gali būti, kad modelyje, skirtam santykiui P(Y=1)/P(Y=4),  kintamasis X bus statistiškai reikšmingas, o modelyje skirtam P(Y=3)/P(Y=4), kintamasis X bus statistiškai nereikšmingas. Tai leis padaryti išvadą, kad kintamasis X labiau skiria Y=1 nuo Y= 4, nei Y=3 nuo Y= 4. Manoma, kad Voldo kriterijus yra silpnesnis už didžiausio tikėtinumo chi kvadrato kriterijų. Todėl, darant išvadas apie bendrąjį kintamųjų statistinį reikšmingumą, reikėtų remtis ankstesniu punktu.

  • Determinacijos (pseudo) koeficientai (angl. pseudo R square). Parodo bendrąjį modelio tikimą.  Įgyja  reikšmes iš intervalo  [0, 1].  Kuo reikšmė didesnė, tuo modelis geriau tinka duomenims. Nelabai gerai, kai  R2 < 0,20. Daugianarėje logistinėje regresijoje determinacijos pseudokoeficientai vaidina tik pagalbinį vaidmenį. Koeficientų yra net keli: Kokso-Snelo, Nagelkerkės, Makfadeno. Kurį iš jų naudoti, pasirenka pats tyrėjas (STATA naudoja Makfadeno). Aprašant rezultatus privalu nurodyti tikslų determinacijos koeficiento pavadinimą.

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2015-06-18