Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Ankstesnis dokumentas Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

6. RANGINĖ LOGISTINĖ REGRESINĖ ANALIZĖ
6.2. Ranginė logistinė regresinė analizė su SPSS
        6.2.3. Rezultatai


Rezultatų išklotinė prasideda nuo įspėjimo, kad 28,6 % langelių tušti.

Warnings

There are 18 (28.6%) cells (i.e., dependent variable levels by combinations of predictor variable values) with zero frequencies.

Apie kokius langelius čia kalbama? Tai tikrinimas, ar bent kelios Bakna3 reikšmės yra įgyjamos kiekvienai regresorių reikšmių kombinacijai (pvz., ar yra bent viena Bakna3 reikšmė, kai K11_1 = 1, K33_1 = 1, o algl2 = 1). Šis rodiklis gali būti informatyvus, kai regresoriai yra kategoriniai. Tada didelis tuščių langelių procentas rodo, kad vertėtų dalį kategorinių kintamųjų iš modelio arba pašalinti, arba sustambinti jų kategorijas. Kai modelyje yra intervalinių kintamųjų, šis įspėjimas ignoruojamas. Nors regresoriai K11_1, K33_1 tik labai „pritemptai“ laikytini intervaliniais, šį įspėjimą mes irgi ignoruosime. Didelis tuščių langelių procentas, taip pat rodo, kad nelabai galima pasitikėti Pirsono ir deviacijos chi kvadrato statistikos p  reikšmėmis.

Lentelėje Case Processing Summary yra informacija apie tai, kokias reikšmes įgyja modelio kategoriniai kintamieji. Visų pirma, įsitikiname, kad pakankamai daug (žr. atitinkamas rekomendacijas duagianarei logistinei regresijai) stebėjimų atitinka kiekvieną kintamųjų Bakna3 ir regresorius algl2 kategoriją. Modelis nebūtų labai logiškas, jeigu būtų informacija tik apie kelis respondentus, uždirbančius daugiau nei 1500 LTL, beveik nebūtų dažnai studijų žinias darbe taikiusių respondentų ir pan.

Case Processing Summary

 

N

Marginal Percentage

Bakna3 Studijų panaudojimas darbe

1.00 menkas naudojimas

51

30.7%

2.00 vidutinis naudojimas

50

30.1%

3.00 dažnas naudojimas

65

39.2%

algl2 alga per men.

1.00 iki 1500

52

31.3%

2.00 virš 1500

114

68.7%

Valid

166

100.0%

Missing

2

 

Total

168

 

Priklausomo kintamojo Bakna3 įgyjamų reikšmių procentai naudotini ir tiriant klasifikavimo tikslumą. Pavyzdžiui, visą laiką spėdami, kad studijų panaudojimas darbe yra vidutinis (Bakna3 = 2), teisingai klasifikuotume 30,1% atsakymų. Logiška reikalauti, kad pasiūlytas ranginės logistinės regresijos modelis užtikrintų ne blogesnį klasifikavimo procentą.

Lentelėje Model Fitting Information yra didžiausio tikėtinumo chi kvadrato kriterijaus statistikos reikšmė ir atitinkama p reikšmė. Kadangi p = 0,000...< 0,05, tai gavome vieną iš svarbiausių patvirtinimų, jog modelis duomenims tinka.

Model Fitting Information

Model

-2 Log Likelihood

Chi-Square

df

Sig.

Intercept Only

147.472

 

 

 

Final

82.100

65.372

3

.000

Link function: Logit.

Lentelėje Goodness-of-Fit yra Pirsono ir deviacijos chi kvadrato statistikų reikšmės ir p reikšmės. Kadangi abidvi  p > 0,05, tai gavome dar vieną patvirtinimą jog modelis duomenims tinka. Primename, kad šios p reikšmės svarbios tik tada, kai imtys nedidelės. Taip ir yra tiramu atveju, nes imtį sudaro tik 166 respondentai (žr. lenteles aukščiau).  Determinacijos koeficientai (lentelė Pseudo R-Square) nėra itin dideli. Vis dėlto du iš jų yra didesni už 0,20, o ir trečiasis nedaug  mažesnis. Taigi ir šie rodikliai nerodo labai blogo modelio tikimo.

Pseudo R-Square

Cox and Snell

.326

Nagelkerke

.367

McFadden

.180

Link function: Logit.

Goodness-of-Fit

 

Chi-Square

df

Sig.

Pearson

25.434

37

.925

Deviance

26.579

37

.898

Link function: Logit.

Parametrų įverčiai ir jų 95% pasikliautiniai intervalai yra lentelėje Parameter Estimates. Prisimename, kad teigiamas kintamojo koeficientas rodo, jog didėjant kintamojo reikšmėms, labiau tikėtinomis taps ir didesnės Bakna3 reikšmės. Teigiami kintamųjų K11_1 ir K33_1 koeficientai (1,182 ir 0,979) visiškai atitinka modelio logiką: kuo geriau respondentas(ė) mokėsi bakalauro studijų metu ir kuo svarbesne laikoma išsilavinimo įtaka karjerai, tuo labiau tikėtina, kad jis(ji) palankiau įvertins studijų medžiagos naudojimą darbe. Analogiškai interpretuojamas ir kategorinio kintamojo algl2 koeficientas. SPSS pakete ši informacija pateikiama ne itin patogiu pavidalu. Manoma, kad algl2 = 2 yra pagrindinė kategorija (jos koeficiento nėra), ir stebima, kaip viskas keisis, jeigu algl2 = 1. Matome, kad prie algl2 = 1 koeficientas yra neigiamas (-1,277). Prisimename, kad neigiamas koeficientas rodo, jog didėjant kintamojo reikšmėms, labiau tikėtinomis taps ir mažesnės Bakna3 reikšmės. Taigi, informacija, kad respondentas(ė) uždirba iki 1500 LTL, padaro labiau tikėtiną tikimybę, kad jis(ji) mažiau naudojasi studijų metu sukauptomis žiniomis.

Parameter Estimates

 

Estimate

Std. Error

Wald

df

Sig.

95% Confidence Interval

Lower
Bound

Upper Bound

Threshold

[Bakna3 = 1.00]

7.567

1.426

28.177

1

.000

4.773

10.362

[Bakna3 = 2.00]

9.286

1.490

38.850

1

.000

6.366

12.206

Location

K11_1

1.182

.264

20.098

1

.000

.665

1.698

K33_1

.979

.205

22.866

1

.000

.578

1.380

[algl2=1.00]

-1.277

.360

12.565

1

.000

-1.984

-.571

[algl2=2.00]

0a

.

.

0

.

.

.

Link function: Logit.

a. This parameter is set to zero because it is redundant.

Tikimybių skaičiavimui naudotina tokia formulė (i = 1, 2):

Beliktų į šią formulę įstatyti konkretaus respondento duomenis.

Lentelėje Test of Parallel Lines tikrinama hipotezė, kad  regresorių koeficientai yra tie patys visiems tikimybių santykiams (taip, kaip aukščiau pateiktoje formulėje – kintant i, keičiasi tik poslinkio konstanta, o daugikliai prie K11_1  ir K33_1 nesikeičia). Kadangi p = 0,566 > 0,05, tai ši hipotezė neatmetama.

Test of Parallel Linesa

Model

-2 Log Likelihood

Chi-Square

df

Sig.

Null Hypothesis

82.100

 

 

 

General

80.070

2.030

3

.566

The null hypothesis states that the location parameters (slope coefficients) are the same across response categories.

Taigi visos pagrindinės modelio charakteristikos rodo gerą modelio tikimą duomenims. Vis dėlto,  rekomenduotina patikrinti, ar modelis tinkamai klasifikuoja respondentus.

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2015-06-18