Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Ankstesnis dokumentas Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

4. DVINARĖ LOGISTINĖ REGRESINĖ ANALIZĖ
4.2. Dvinarė logistinė regresinė analizė su SPSS
       4.2.3. Rezultatai

Lentelėje Dependent variable Encoding pateikiama informacija, kad cntry = EE(t.y. šalis Estija) modelyje atitiks Y = 0, o  cntry = PT(t.y., Portugalija) modelyje atitiks Y = 1.

Dependent Variable Encoding         
Original Value Internal Value
EE Estonia 0
PT Portugal 1

Nurodėme, kad kintamasis imsclbn yra kategorinis. Kintamasis įgyja 5 reikšmes. Todėl modelyje jis keičiamas 4 pseudokintamaisias  imsclbn(1), imsclbn(1), imsclbn(1), imsclbn(1), galinčiais įgyti reikšmes 0 ir 1. Lentelėje Categorical Variables Codings pateikiama informacija, kokia pesudokintamųjų reikšmių kombinacija atitiks įvairias kintamojo imsclbn kategorijas. Kai visi pseudokintamieji įgis nulines reikšmes, tai atitiks kintamojo imsclbn  reikšmę 5. Kai imsclbn(1)=0, imsclbn(2)=0, imsclbn(3)=1, imsclbn(4)=0, tai atitiks kintamojo imsclbn  reikšmę 3 ir t.t.

Categorical Variables Codings

 

Frequency

Parameter coding

(1)

(2)

(3)

(4)

imsclbn When should
immigrants obtain rights
to social benefits/services

1 Immediately on arrival

26

1.000

.000

.000

.000

2 After a year, whether or not have worked

25

.000

1.000

.000

.000

3 After worked and paid taxes at least a year

128

.000

.000

1.000

.000

4 Once they have become a citizen

63

.000

.000

.000

1.000

5 They should never get the same rights

6

.000

.000

.000

.000

Surandame Block 0:Beginning block : Classification Table. Tai NĖRA klasifikacinė lentelė, kuri rodo klasifikavimo tikslumą, naudojant logistinę regresiją.

SPSS pateikia dvi klasifikacines lenteles:

  • Pirmoji skirta atsitiktinio spėjimo efektyvumui įvertinti.
  • Antroji rodo modelio gerumą (būtent ji ir yra svarbiausia).

Pirmoje lentelėje yra informacija apie klasifikavimo tikslumą, jeigu respondento šalį spėjame aklai. Imtyje yra 125 respondentai iš Estijos ir 123 respondentai iš Portugalijos. Jeigu visą laiką sakysime, kad respondentas iš Estijos, tai turėsime 50,4 % teisingų sprendimų. Logistinės regresijos modelis bus geras tik tada, jeigu modeliuojant atitinkamas teisingų sprendimų procentas bus didesnis.

Classification Tablea,b

 

Observed

Predicted

 

cntry Country

Percentage Correct

 

EE Estonia

PT Portugal

Step 0

cntry Country

EE Estonia

125

0

100.0

PT Portugal

123

0

.0

Overall Percentage

 

 

50.4

Lentelėje Classification Table (tai antroji klasifikacinė lentelė, ji yra rezultatų išklotinės gale) yra informacija apie tai, kaip gerai pavyksta atpažinti respondento šalį, taikant logistinės regresijos modelį imties duomenims. Matome, kad teisingai buvo atpažinti 77,6%   Estijos respondentų ir 78,9%  Portugalijos respondentų. Bendrasis teisingai klasifikuotų atvejų procentas yra 78,2%. Paaiškinsime, kaip šie procentai suskaičiuojami. Pirmojoje lentelės eilutėje yra pažymėta, kad iš 125 Estijos respondentų  97   buvo teisingai klasifikuoti, kaip Estijos atstovai, o 28 respondentai klaidingai priskirti Portugalijai.   97 iš 125 ir sudaro 77,6 %. Prisiminę (žr. aukščiau), kad aklas spėjimas duotų tik 50,4 procento teisingų Estijos respondentų klasifikavimų, darome išvadą, kad modelis pakankamai geras.

Classification Tablea

 

Observed

Predicted

 

cntry Country

Percentage Correct

 

EE Estonia

PT Portugal

Step 1

cntry Country

EE Estonia

97

28

77.6

PT Portugal

26

97

78.9

Overall Percentage

 

 

78.2

a. The cut value is .500

Chi kvadrato kriterijaus statistika ir p reikšmė pateikiamos lentelėje  Omnibus Tests of Model Coefficients. Mes pasirinkome tiesioginę (ne žingsninę) regresiją, todėl visos trys eilutės lentelėje yra identiškos. Gerai, kai p < 0,05. Kadangi p = 0,000.., tai modelis gerai tinka. Nors neaišku, ar visi kintamieji modelyje reikalingi.

Omnibus Tests of Model Coefficients

 

Chi-square

df

Sig.

Step 1

Step

122.047

7

.000

Block

122.047

7

.000

Model

122.047

7

.000

Lentelėje Model Summary pateikiami du determinacijos pseudokoeficientai. Kokso ir Snelo R2 = 0,389,  Nagelkerkės R2 = 0,518. Abudu determinacijos koeficientai rodo neblogą modelio tikimą duomenims. Blogai būtų, jeigu R2 < 0,20. (Tiesa, logistinėje regresijoje, jeigu viskas tinka, o determinacijos koeficientai < 0,20, tai modelis dar visai tinkamas).

Model Summary

Step

-2 Log likelihood

Cox & Snell R Square

Nagelkerke R Square

1

221.738a

.389

.518

Lentelėje Hosmer and Lemeshow Test yra Hosmerio-Lemešou chi kvadrato statistika ir kriterijaus p reikšmė. Imtis  buvo vidutinio didumo (n=248), todėl į p  atsižvelgsime. Gerai, kai p > 0,05. Kadangi  p = 0,665 > 0,05, tai darome išvadą, kad modelio duomenims tinka.

Hosmer and Lemeshow Test

Step

Chi-square

df

Sig.

1

5.846

8

.665

Lentelėje Variables in the Equation yra pačių koeficientų reikšmės, o taip pat informacija apie jų statistinį reikšmingumą ir galimybių santykius. Statistiškai reikšmingi tie kintamieji, kuriems stulpelyje Sig. pateiktos Voldo kriterijaus p reikšmės < 0, 05. Matome, kad yra nemažai statistiškai nereikšmingų kintamųjų. Todėl darome išvadą, kad modelį reikia tobulinti. Modelio užrašą, galimybių santykius ir praktinį prognozavimą aptarsime nagrinėdami galutinį modelį.

Variables in the Equation

 

B

S.E.

Wald

df

Sig.

Exp(B)

95% C.I.for EXP(B)

Lower

Upper

Step 1a

freehms

-.730

.160

20.938

1

.000

.482

.352

.659

happy

.314

.099

10.025

1

.002

1.369

1.127

1.663

stfedu

-.564

.092

37.329

1

.000

.569

.475

.682

imsclbn

 

 

15.751

4

.003

 

 

 

imsclbn(1)

1.849

1.284

2.075

1

.150

6.354

.513

78.647

imsclbn(2)

-.039

1.197

.001

1

.974

.962

.092

10.046

imsclbn(3)

.195

1.123

.030

1

.862

1.215

.134

10.977

imsclbn(4)

-1.057

1.168

.819

1

.366

.347

.035

3.430

Constant

2.599

1.422

3.341

1

.068

13.445

 

 

a. Variable(s) entered on step 1: freehms, happy, stfedu, imsclbn.

Rezultatų išklotinė baigiama ganėtinai neišvaizdžiu prognozuotų tikimybių grafiku. Galimos tikimybės reikšmės (nuo 0 iki 1) atidėtos x-ų ašyje. Mūsų modelyje Y = 1 ekvivalentu teiginiui, kad respondentas yra iš Portugalijos. Todėl, jeigu P(Y=1)> 0,5, tai prognozuojame, kad respondentas yra iš Portugalijos. Jeigu P(Y=1) < 0,5, tai prognozuojame, kad  respondentas yra iš Estijos. Norint tą pabrėžti, x-ų ašyje iki 0,5 prirašyta raidžių E, o nuo 0,5 – raidžių P. Kiekvienam respondentui suskaičiuojama tikimybė, kad jis yra iš Portugalijos. Atitinkamoje vietoje virš x-ų ašies atidedama raidė E, jeigu tai buvo Estijos atstovas, ir P – jeigu Portugalijos. Raidė E atsidūrusi virš x-ų ašies į kairę nuo 0,5, žymi teisingą esto klasifikavimą. Raidė E atsidūrusi už 0,5 – jau yra Estijos atstovas klaidingai priskirtas portugalams. Analogiškai yra su Portugalijos atstovais – gerai, kai P raidės yra į dešinę nuo 0,5, ir blogai – kai į kairę.

Jeigu logistinės regresijos modelis gerai tinka duomenims, tai matysime daug E raidžių į kairę nuo 0,5 ir daug P raidžių – į dešinę nuo 0,5. Taip šiame grafike ir yra. Todėl darome išvadą, kad prognozuotų tikimybių grafikas irgi rodo, kad logistinės regresijos modelis gerai tinka. Reikia atkreipti dėmesį į tai, kad kiekvienas simbolis atitinka 0,5 respondento, todėl raidžių grafike dvigubai daugiau nei respondentų.

Norint nustatyti, ar imtyje nėra išskirčių reikia patikrinti, ar duomenyse (ne rezultatų išklotinėje) atsiradusio stulpelio COO_1  ir visų DFB stulpelių reikšmės neviršija vieneto.

Kuko mato reikšmė yra viena vienam respondentui. Joje atsispindi informacija apie visus to respondento duomenis (cntr, freehms, happy, stfedu, imsclbn). Tuo tarpu DFB rodikliai skirti kiekvienam regresoriui ir konstantai atskirai: DFB0_1 – konstantai, DFB1_1 – freehms, DFB2_1 – happy, DFB3_1 – DFB6_1 skirti kintamiesiems imsclbn(1) – imsclbn(4). Peržiūrėti visas stulpelio reikšmes nebūtina. Panaudojame komandą Analyze  Descriptive Statistics Descriptives. Sukeliame visus kintamuosius į Variable(s). Pasirenkame Options ir paliekame pažymėtą tik parinktį Maximum. Renkamės Continue ir OK.

Descriptive Statistics

 

N

Maximum

COO_1 Analog of Cook's influence statistics

248

.83938

DFB0_1 DFBETA for constant

248

1.03108

DFB1_1 DFBETA for freehms

248

.04821

DFB2_1 DFBETA for happy

248

.02601

DFB3_1 DFBETA for imsclbn(1)

248

.77091

DFB4_1 DFBETA for imsclbn(2)

248

.77503

DFB5_1 DFBETA for imsclbn(3)

248

.77403

DFB6_1 DFBETA for imsclbn(4)

248

.77786

DFB7_1 DFBETA for stfedu

248

.03491

Valid N (listwise)

248

 

Matome, kad maksimali Kuko mato reikšmė 0,839 < 1. Visos DFB reikšmės, išskyrus DFB0_1, neviršija vieneto. O ir DFB0_1 = 1,03108, t.y. reikšmė praktiškai lygi 1. Be to, tai reikšmė skirta konstantai, t.y. mažiausiai svarbiam iš visų koeficientų. Todėl darome išvadą, kad duomenyse išskirčių nėra.
Nors dauguma rodiklių rodė gerą modelio  tikimą, buvo daug statistiškai nereikšmingų kintamųjų. Todėl darome išvadą, kad modelį reikia tobulinti.

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2018-05-02