Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Ankstesnis dokumentas Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

4. DVINARĖ LOGISTINĖ REGRESINĖ ANALIZĖ
4.2. Dvinarė logistinė regresinė analizė su SPSS
       4.2.11. Apibendrintas tiesinis modelis su logit jungtimi

Formuluodami rekalavimus duomenims (žr., 4.1.4 skyrelį), minėjome, kad logistinės regresijos modelis naudojamas ir tada, kai dauguma regresorių kategoriniai. Tiesiog tokį modelį labiau įprasta vadinti apibendrintuoju tiesiniu modeliu su logit jungtimi, o, jį aprašant, pateikti deviacijos ir jos laisvės laipsnių santykį. Kiekvieną logistinės regresijos modelį galima tirti, kaip atskirą apibendrintojo tiesinio modelio atvejį, tiesiog tai nėra patogu. Parodysime tai, tirdami 4.2.4 skyrelio modelį:

cntry = f(stfedu, happy, freehms, imsb3).

Tirsime 20 – 30 metų vyrus (atrenkame agea ≥  20 & agea ≤ 30 & gndr = 1). Pasirenkame Analyze Generalized Linear Models →Generalized Linear Models…

Lange  Type of Model  pažymime Binary logistic.


Renkamės Response. Į langelį Dependent Variable  įkeliame cntry.


Renkamės Predictors. Į langelį Factors įkeliame imsb3, į langelį Covariates įkeliame regresorius freehms, happy, stfedu.
Renkamės Model. Perkeliame visus regresorius į lauką Model.

 

Renkamės Statistics. Papildomai pažymime Include exponential parameter estimates.
Renkamės Save ir pažymime Predicted category ir Cook‘s distance. Spaudžiame OK.

Rezultatų išklotinėje nesunkiai randame dalį tos informacijos, kurią jau aprašėme 4.2.4 skyrelyje. Pavyzdžiui, modelio parametrai (kategorinis kintamasis imsb3 keičiamas pseudokintmaisiais), jų statistinis reikšmingumas, galimybių santykiai ir galimybių santykių pasikliautinieji intervalai surašyti lentelėje Parameter Estimates.

Parameter Estimates

Parameter

B

Std. Error

95% Wald Confidence Interval

Hypothesis Test

Exp(B)

95% Wald Confidence Interval for Exp(B)

Lower

Upper

Wald Chi-Square

df

Sig.

Lower

Upper

(Intercept)

-1.833

.9922

-3.778

.111

3.415

1

.065

.160

.023

1.118

[imsb3=.00]

-1.661

.5080

-2.656

-.665

10.688

1

.001

.190

.070

.514

[imsb3=1.00]

-1.137

.4256

-1.971

-.303

7.132

1

.008

.321

.139

.739

[imsb3=2.00]

0a

.

.

.

.

.

.

1

.

.

freehms

.760

.1581

.450

1.070

23.117

1

.000

2.139

1.569

2.916

happy

-.300

.0985

-.493

-.107

9.258

1

.002

.741

.611

.899

stfedu

.564

.0906

.387

.742

38.819

1

.000

1.759

1.472

2.100

(Scale)

1b

 

 

 

 

 

 

 

 

 

Dependent Variable: Country
Model: (Intercept), imsb3, freehms, happy, stfedu

Didžiausio tikėtinumo chi kvadrato reikšmė ir jos p reikšmė (0,00) pateikiama lentelėje Omnibus Test. Kaip jau buvo nurodyta 4.2.4 skyrelyje visos šios charakteristikos rodo gerą modelio tikimą.

Omnibus Testa

Likelihood Ratio Chi-Square

df

Sig.

115.195

5

.000

Rezultatų išklotinėje nėra determinacijos pseudokoeficientų (nedidelė bėda) ir klasifikacinės lentelės (rimtas trūkumas). Užtat lentelėje Goodness of Fit pateikiama deviacija. Deviacija parodo, kiek tiriamas modelis skiriasi nuo pilnai duomenis  aprašančio (bet labai sudėtingo ir todėl naudoti netinkamo) modelio. Dar reikia atsižvelgti į imties didumą ir regresorių skaičių, kuriuos nusako vadinamieji laisvės laipsniai (angl. degrees of freedom, df).       

Gerai duomenims tinkančio apibendrintojo tiesinio modelio deviacijos ir laisvės laipsnių santykis turi būti artimas vienetui.

Deviacijos ir laisvės laipsnių santykį surandame grafoje Value/df. Šis santykis lygus 0,976. Tai patvirtina gerą modelio tikimą duomenims.

Goodness of Fitb

 

Value

df

Value/df

Deviance

180.584

185

.976

Scaled Deviance

180.584

185

 

Pearson Chi-Square

191.020

185

1.033

Scaled Pearson Chi-Square

191.020

185

 

Log Likelihooda

-100.038

 

 

Akaike's Information Criterion (AIC)

212.076

 

 

Finite Sample Corrected AIC (AICC)

212.424

 

 

Bayesian Information Criterion (BIC)

233.156

 

 

Consistent AIC (CAIC)

239.156

 

 

Dependent Variable: Country
Model: (Intercept), imsb3, freehms, happy, stfedu

a. The full log likelihood function is displayed and used in computing information criteria.
b. Information criteria are in small-is-better form.

Rezultatų išklotinėje pateikiamas ir didžiausio tikėtinumo santykio chi kvadrato statistikos  reikšmės ir p reikšmės kiekvienam regresoriui. Tai gera alternatyva Voldo kriterijui, pateiktajam lentelėje Parameter Estimates. Įsitikiname, kad visi regresoriai yra statistiškai reikšmingi, taigi svarbūs modeliui.

Tests of Model Effects

Source

Type III

Wald Chi-Square

df

Sig.

(Intercept)

9.067

1

.003

imsb3

11.371

2

.003

freehms

23.117

1

.000

happy

9.258

1

.002

stfedu

38.819

1

.000

Dependent Variable: Country
Model: (Intercept), imsb3, freehms, happy, stfedu

Mes parinkome tokias SPSS Save opcijas, kad duomenyse atsirado du nauji stulpeliai: CooksDistance su Kuko mato reikšmėmis ir PredictedValue  su prognozuojama respondento šalimi kiekvienam respondentui. Norėdami įsitikinti, kad duomenyse nėra išskirčių, renkamės Analyze Descriptive Statistics Descriptives. Perkeliame CooksDistance  į laukelį Variable(s)  ir spaudžiame OK.

Matome, kad maksimali Kuko mato reikšmė neviršija 1, todėl darome išvadą, kad duomenyse išskirčių nėra.

Descriptive Statistics

 

N

Minimum

Maximum

Mean

Std. Deviation

CooksDistance_4 Cook's Distance

248

.000

.050

.00439

.008036

Valid N (listwise)

248

 

 

 

 

Gauti klasifikacinę lentelę yra kiek sunkiau, nes SPSS į prognozuojamas reikšmes įtraukia ir tuščius langelius, t.y. tuos 29 respondentus, kurių duomenys  buvo nepilni ir modeliuojant nebuvo naudojami. Todėl duomenyse kairiame apatiniame kampe paspaudžiame Variable View, kintamųjų sąrašo apačioje randame PredictedValue, jam atidarome langelį Missing Values ir pažymime Discrete missing values. Su pele „kliktelime“ ant pirmo langelio ir paspaudžiame tarpo klavišą (įvedame tučią lauką). Ekrane niekas nepasikeičia, tik pelės kursorius kiek atsitraukia nuo langelio krašto.

Paspaudžiame OK. Grįžtame į duomenų langą Data View. Pasirenkame Analyze Descriptive Statistics Crosstabs. Į langelį Row(s) perkleiame kintamąjį cntry, į langelį Column(s) – kintamąjį PredictedValue.

Renkamės Cells ir pažymime Row. Spaudžiame Continue  ir  OK. Gauname klasifikacinę lentelę.

cntry Country * PredictedValue Predicted Category Value Crosstabulation

 

PredictedValue Predicted Category Value

Total

EE Estonia

PT Portugal

cntry Country

EE Estonia

Count

95

30

125

% within cntry Country

76.0%

24.0%

100.0%

PT Portugal

Count

26

97

123

% within cntry Country

21.1%

78.9%

100.0%

Total

Count

121

127

248

% within cntry Country

48.8%

51.2%

100.0%

Taikant modelį, teisingai klasifikuojama 76%  Estijos respondentų ir 78,9% Portugalijos respondentų.
Skyrelio pabaigoje dar kartą pakartosime savo asmeninį požiūrį, kad SPSS programa logistinę regresiją daryti, naudojantis apibendrintuoju tiesiniu modeliu su logit jungtimi, verta tik tada, kai turime daug kategorinių regresorių. Šiaip jau daug lengviau tyrimą atlikti su Regression Binary Logistic.

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2015-06-18