Svečias
Titulinis Mokymai Mokymų medžiaga Metodologiniai paketai Taikomoji regresija
Apie mokymus
Mokomieji duomenys
E. mokymai
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE
TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Pavyzdinis metodologinis mokomasis studijų paketas

TAIKOMOJI REGRESINĖ ANALIZĖ SOCIALINIUOSE TYRIMUOSE

Autorus Prof. habil. dr. Vydas Čekanavičius

Ankstesnis dokumentas Turinys  Literatūros sąrašas Duomenų šaltiniai Sekantis dokumentas

5. DAUGIANARĖ LOGISTINĖ REGRESINĖ ANALIZĖ
5.2. Daugianarė logistinė regresinė analizė su SPSS
        5.2.3. Rezultatai

Rezultatų išklotinė parsideda įspėjimu, kad 899 (65%) langelių turi nulinius dažnius.

Warnings

There are 899 (65.0%) cells (i.e., dependent variable levels by subpopulations) with zero  frequencies.

Nesigilinant į detales, galima pasakyti, kad tai įspėjimas jog Pirsono ir deviacijos chi kvadrato kriterijai  šiam modeliui netaikytini. Tiesiog buvo sudarytos visos įmanomos regresorių reikšmių kombinacijos ir patikrinta, ar joms yra pakankamai cntry reikšmių. Pirsono ir deviacijos kriterijai taikytini tik tada, kai nulinius dažnius turi mažai (pvz., ne daugiau 5%) regresorių rekšmių kombinacijų. Kai modelyje yra bent keli intervaliniai regresoriai, tokia situacija yra reta. Taigi, spręsdami apie modelio tinkamumą duomenims, Pirsono ir deviacijos chi kvadrato kriterijus ignoruosime. Beje, žemiau suradę lentelę Goodness-of-Fit, galime įsitikinti abiejų kriterijų neadekvačiu elgesiu: Pirsono chi kvadrato p reikšmė lygi nuliui (modelis duomenims absoliučiai netinka), o deviacijos chi kvadrato p reikšmė lygi vienetui (modelis duomenims absoliučiai tinka).

Goodness-of-Fit

 

Chi-Square

df

Sig.

Pearson

1072.259

910

.000

Deviance

611.343

910

1.000

Lentelėje Case Processing Summary pateikiama informacija apie kategorinių kintamųjų reikšmes. Žinome, kad nė viena kategorija neturi labai stipriai dominuoti. Įsitikiname, kad taip ir yra: imtyje yra 158 Čekijos gyventojai, 221 izraelietis ir 142 Švedijos gyventojai. Iš tirtųjų respondentų palankią nuomonę apie socialines lengvatas imigrantams pareiškė apie pusę.

Case Processing Summary

 

N

Marginal Percentage

cntry Country

CZ Czech Republic

158

30.3%

IL Israel

221

42.4%

SE Sweden

142

27.3%

imigrantbf Social benfits for immigrants

.00 positive attitude

283

54.3%

1.00 negative attitude

238

45.7%

Valid

521

100.0%

Missing

71

 

Total

592

 

Subpopulation

461a

 

a. The dependent variable has only one value observed in 439 (95.2%) subpopulations.

Lentelė Case Processing Summary dar naudojama, sprendžiant apie klasifikavimo gerumą. Klasifikacinėje lentelėje teisingų klasifikavimų procentas turi būti ne mažesnis, nei jų procentas imtyje (šie procentai yra lentelėje Case Processing Summary stulpelyje Marginal Percentage). Logika čia tokia: jeigu užsimerksime ir apie kiekvieną respondentą sakysime „švedas“,  tai teisingai klasifikuosime 27,3 %  respondentų. Tinkamas diaugianarės logitinės regresijos modelis turi duoti didesnį švedų atpažinimo procentą. Pačiame rezultatų išklotinės gale yra klasifikacinė lentelė:

Classification

Observed

Predicted

CZ Czech Republic

IL Israel

SE Sweden

Percent Correct

CZ Czech Republic

111

23

24

70.3%

IL Israel

23

177

21

80.1%

SE Sweden

27

19

96

67.6%

Overall Percentage

30.9%

42.0%

27.1%

73.7%

Iš jos išplaukia, kad, taikydami daugianarės logistinės regresijos modelį, teisingai atpažinome (klasifikavome) 70,3% Čekijos gyventojų, 80,1% izraeliečių ir 67,6% Švedijos gyventojų. Taigi, gavome vieną svarbiausių modelio tinkamumo patvirtinimo įrodymų. Trumpai aptarsime kitus lentelės Classification skaičius. Pirmoje eilutėje parašyta, kad iš visų imties Čekijos atstovų, modelis teisingai atpažino 111, klaidingai 23 Čekijos respondentus palaikė izraeliečiais, o 24 – Švedijos gyventojais. Analogiškai interpretuojamos likusios eilutės.  Bendras teisingai klasifikuotų imties respondent procentas 73,7%. 
Lentelėje Pseudo R-Square yra determinacijos pseudokoficientai. Kaip ir dvinarėje logistinėje regresijoje jie nevaidina bent kiek svarbesnio vaidmens. Vis dėlto, koeficientai turėtų būti nelabai maži. Pavyzdžiui, jie turėtų būti nemažesni už 0,20 (ar bent nedaug mažesni). Kaip taisyklė, modelio aprašyme cituojamas tik vienas determinacijos pseudokoeficientas (kuris – tyrėjo įgeidis). Pavyzdžiui, šiuo atveju galima konstatuoti, kad „gerą modelio tikimą duomenims rodo ir pakankamai didelis Nagelkerkės determinacijos pseudokoeficientas R2 = 0,65“.

Pseudo R-Square

Cox and Snell

.575

Nagelkerke

.650

McFadden

.397

Modelio tikimo didžiausio tikėtinumo santykio chi kvadrato statistikos p reikšmė yra lentelės Model Fitting Information Sig. stulpelyje. Darome išvadą, kad modelis duomenims tinka (bent vienas regresorius modelyje reikalingas), nes p = 0,000 < 0,05.

Model Fitting Information

Model

Model Fitting Criteria

Likelihood Ratio Tests

-2 Log Likelihood

Chi-Square

df

Sig.

Intercept Only

1090.376

 

 

 

Final

644.039

446.337

10

.000

Kurie regresoriai modelyje reikalingi, sprendžiama pagal lentelę Likelihood Ratio Tests. Joje yra didžiausio tikėtinumo santykio chi kvadrato kriterijaus rezultatai kiekvienam regrersoriui. Jeigu  p reikšmė (jos visos yra stulpelyje Sig,) yra mažesnė už 0,05, tai sakysime, kad regresorius (kintamasis) yra statistiškai reikšmingas. Toks regresorius, kaip taisyklė, modelyje paliekamas. Jeigu modelyje būtų statistiškai nereikšmingų kintamųjų, juos reikėtų pabandyti iš modelio pašalinti. Pašalinus bent vieną regresorių, visa analizė pradedama iš pradžių, nes keičiasi ir klasifikacinė lentelė ir visos p reikšmės. Regresorių galima šalinti iš modelio, jeigu teisingų klasifikavimų procentas keičiasi nedaug. Mūsų nagrinėjamo pavyzdžio atveju visi regresoriai yra statistiškai reikšmingi. Tai dar vienas įrodymas, kad modelis tinka.

Likelihood Ratio Tests

Effect

Model Fitting Criteria

Likelihood Ratio Tests

-2 Log Likelihood of Reduced Model

Chi-Square

df

Sig.

Intercept

644.039

.000

0

.

pray

713.761

69.722

2

.000

stfedu

771.837

127.798

2

.000

trstprl

723.584

79.545

2

.000

hhmmb

706.825

62.786

2

.000

imigrantbf

663.956

19.917

2

.000

Lentelėje Parameter Estimates yra informacija apie dalinius modelius (submodelius), kai kiekviena kategorija lyginama su kontroline.

Parameter Estimates

cntry Countrya

B

Std. Error

Wald

df

Sig.

Exp(B)

95% Confidence Interval for Exp(B)

Lower Bound

Upper Bound

CZ Czech Republic

Intercept

.502

.977

.263

1

.608

 

 

 

pray

.011

.122

.008

1

.927

1.011

.796

1.284

stfedu

.299

.069

18.908

1

.000

1.348

1.178

1.543

trstprl

-.487

.062

61.777

1

.000

.614

.544

.694

hhmmb

.216

.105

4.252

1

.039

1.241

1.011

1.524

[imigrantbf=.00]

-1.212

.281

18.661

1

.000

.298

.172

.516

[imigrantbf=1.00]

0b

.

.

0

.

.

.

.

IL Israel

Intercept

5.077

.877

33.477

1

.000

 

 

 

pray

-.573

.108

28.098

1

.000

.564

.456

.697

stfedu

-.379

.072

27.700

1

.000

.685

.595

.789

trstprl

-.250

.065

14.987

1

.000

.779

.686

.884

hhmmb

.704

.106

43.903

1

.000

2.023

1.642

2.491

[imigrantbf=.00]

-.821

.306

7.226

1

.007

.440

.242

.801

[imigrantbf=1.00]

0b

.

.

0

.

.

.

.

a. The reference category is: SE Sweden.
b. This parameter is set to zero because it is redundant.

Mūsų atveju viršutinė lentelės dalis yra skirta tikimybės, kad respondentas yra iš Čekijos, palyginimui su tikimybe, kad jis – iš Švedijos. Visų pirma, peržvelgę Voldo kriterijaus p reikšmes (konstantai p reikšmės nežiūrime), įsitikiname, kad kintamasis pray yra statistiškai nereikšmingas. Darome išvadą, kad maldingumo laipsnis nėra reikšmingas faktorius, padedantis atskirti Čekijos gyventojus nuo Švedijos gyventojų. Ar reikia bandyti iš modelio šalinti kintamąjį pray? Nesunku pastebėti, kad šis kintamasis yra statistiškai reikšmingas antrajame modelyje, t.y. padeda atskirti izraelietį nuo Švedijos gyventojo. Todėl tikėtina, kad apskritai modelyje kintamasis pray reikalingas. Visi kiti kintamieji statistiškai reikšmingi. Pasižiūrėję į stulpelį B ir  prisiminę kaip koduojamos šalys, užrašome pirmąjį dalinį logistinį modelį taip:

Koeficientų ženklai rodo, kad didėjant stfedu ir hhmmb reikšmėms (respondentui išreiškiant didesnį pasitikėjimą švietimo sistema ir gyvenant didesnėje šeimoje) didėja tikimybė, kad jis iš Čekijos, o ne iš Švedijos. Didėjant pasitikėjimui parlamentu (trstprl), tikimybė, kad respondentas iš Čekijos, o ne iš Švedijos mažėja. Galų gale dviguba koeficiento imigrantbf  reikšmė, rodo, kad repondentui pareiškus palankesnę nuomonę apie socialines lengvatas imigrantams (imigrantbf = 0), tikimybė, kad jis iš Čekijos, o ne iš Švedijos mažėja. Šią informaciją galima patikslinti, pateikiant galimybių santykius (stulpelis Exp(B))  kartu su jų pasikliautiniais intervalais (stulpelis 95% Confidence Interval for Exp(B)). Pavyzdžiui, galimybių santykis (angl. odds ratio) kintamjam stfedu yra 1,348  (95% pasikl. int.  1,178 – 1,543). Tai reiškia, kad kintamajam sfedu padidėjus vienetu tikimybių santykis P(cntry = CZ) / P(cntry =SE)  padidės 1,348 karto:

Analogiškai interpretuojami visi likę galimybių santykiai.
Visiškai analogiškai ištiriamas antrasis lentelės Parameter Estimates modelis, skirtas Izraelio ir Švedijos lyginimui. Gauname

Parametrų ženklai ir galimybių  santykiai aptariami analogiškai Čekijos-Švedijos modeliui.

NAUJIEMS VARTOTOJAMS
NAUJIENOS
Naujienlaiškis

Nr.1  2009 07-11
Nr.2  2009 12-2010 02
Nr.3  2010 03-05
Nr.4  2010 06-08
Nr.5  2010 09-11
Nr.6  2010 12-2011 02
Nr.7 2011 03-05
Nr.8 2011 06-08
 
© KTU Politikos ir viešojo administravimo institutas
Atnaujinta 2018-05-02