Fəsil 11 Multinomial Logistik Reqressiya

Göndərildi: 08.09.2021
Məqalənin müəllifi Adəm Quliyev

11.1 Multinomial Logistik Reqressiyaya Giriş

Logistika reqressiyası, asılı dəyişənin kateqoriyalı (və ya nominal) olduqda istifadə olunan bir texnikadır. İkili logistik reqressiya üçün asılı dəyişənlərin sayı ikidir, multinomial logistik reqressiya üçün asılı dəyişənlərin sayı ikidən çoxdur.

Nümunələr: İstehlakçılar almaq və ya almamaq qərarına gəlirlər, bir məhsul keyfiyyət nəzarətindən keçə bilər və ya uğursuz ola bilər, yaxşı və ya pis kredit riskləri var və işçinin yüksəlişi ola bilər.

11.2 Tənlik

Logistika reqressiyasında, nisbətlərin logistik çevrilməsi (logit adlanır) asılı dəyişən kimi xidmət edir:

\ [\ log (odds) = \ operator adı (P) = \ ln \ sol (\ frac

\ sağ) = a+b_ x_ +b_ x_ +b_ x_ +\ ldots \]

p = bir işin müəyyən bir kateqoriyaya aid olma ehtimalı,

a = tənliyin sabitidir və

b = proqnozlaşdırıcının və ya müstəqil dəyişənlərin əmsalı.

Logits və ya Log Oran

Oran dəyəri 0 -dan sonsuza qədər dəyişə bilər və bir müşahidənin digər qrupun üzvü deyil, hədəf qrupunun üzvü olması ehtimalı nə qədər çox olduğunu sizə xəbər verə bilər.

  • Oran = p/(1-p)

Ehtimal 0.80 olarsa, əmsal 4 ilə 1 və ya .80/.20; ehtimal 0,25 olarsa, əmsallar .33 (.25/.75).

Oran nisbəti (OR), proqnozlaşdırıcının bir vahid artması üçün hədəf qrupuna üzv olma ehtimalının dəyişməsini təxmin edir. Eksponent və ya ekspektor kimi proqnozlaşdırıcının reqressiya əmsalından istifadə etməklə hesablanır.

Hesablamanın müvəffəqiyyətini riyaziyyat səriştəsi proqnozlaşdırıcısı ilə b = 2.69 olduğunu əvvəlcədən təxmin etdiyimiz nümunədə götürək. Beləliklə, əmsal nisbəti exp (2.69) və ya 14.73 -dir. Buna görə də keçmə şansı, məsələn, test imtahanı 5 bal alan bir tələbə üçün, test əvvəli test balı 4 olan bir tələbəyə nisbətən 14.73 dəfə çoxdur.

11.3 Katsayıların Hipotez Testi

Logistik reqressiyada hipotezlər maraq doğurur:

Reqressiya tənliyindəki bütün əmsalların sıfır dəyərini aldığı sıfır hipotezi.

Hal -hazırda nəzərdən keçirilən modelin dəqiq olduğu və sıfır sıfırdan əhəmiyyətli dərəcədə fərqləndiyi, yəni sıfır hipotezinin təsadüfi və ya təsadüfi proqnozlaşdırma səviyyəsindən əhəmiyyətli dərəcədə daha yaxşı olduğunu göstərən alternativ hipotez.

Hipotezin qiymətləndirilməsi

Daha sonra bu hipotezlərin hər biri altında əslində müşahidə etdiyimiz məlumatları müşahidə etmək ehtimalını araşdırırıq. Nəticədə adətən çox kiçik bir sayı, və daha asan idarə etmək üçün təbii logarithm bir istehsal istifadə log ehtimalını (LL) . Ehtimallar həmişə birdən azdır, buna görə LL -lər həmişə mənfi olur. Log ehtimalı bir logistika modelinin sınaqları üçün əsasdır.

11.4 Ehtimal nisbəti testi

Ehtimal nisbəti testi -2LL nisbətinə əsaslanır. Tədqiqatçının modeli üçün ehtimal nisbəti (-2LL) arasındakı fərqin əhəmiyyəti, yalnız sabit olan bazal model üçün ehtimal nisbətini (proqnozlaşdırıcı model xi kvadrat adlandırılır) olan bir testdir.

.05 və ya daha aşağı səviyyədəki əhəmiyyət, tədqiqatçının proqnozlaşdırıcıları olan modelinin yalnız sabit (bütün 'b' əmsalları sıfıra bərabər olan) modeldən əhəmiyyətli dərəcədə fərqlidir. Açıqlayıcı dəyişənlərin sıfır modeli ilə müqayisədə etdiyi uyğunluğu yaxşılaşdırır.

Bu nisbətin əhəmiyyətini qiymətləndirmək üçün Ki kvadrat istifadə olunur (SPSS çıxışında Model Uyğunlaşdırma Məlumatına baxın).

\ (H_0 \): Null model ilə son model arasında heç bir fərq yoxdur.

\ (H_1 \): Null model ilə son model arasında fərq var.

11.5 Varsayımın yoxlanılmasıL: Multikollinerlik

Kateqoriyalı asılı dəyişəni davamlı dəyişən kimi qəbul etdikdən sonra "xətti reqressiya" işlədin

Ən böyük VIF (Varyans İnflyasiya Faktoru) 10 -dan böyükdürsə, narahatlıq doğurur (Bowerman & O'Connell, 1990)

0.1 -dən aşağı tolerantlıq ciddi bir problem olduğunu göstərir.

0.2 -dən aşağı tolerantlıq potensial problemi göstərir (Menard, 1995).

Şərt indeksi 15 -dən çox olarsa, multikollinearlıq qəbul edilir.

11.6 Multinomial logistik reqressiyanın xüsusiyyətləri

İki kateqoriyadan çox üzvlüyünü proqnozlaşdırmaq üçün çoxnomial logistik reqressiya. (Əsasən) ikili logistik reqressiya ilə eyni şəkildə işləyir. Təhlil nəticə dəyişənini iki kateqoriya arasında bir sıra müqayisələrə ayırır.

Məsələn, üç nəticə kateqoriyanız varsa (A, B və C), onda analiz seçdiyiniz iki müqayisədən ibarət olacaq:

Hər şeyi birinci kateqoriyanızla müqayisə edin (məsələn, A ilə B və A ilə C arasında),

Və ya son kateqoriyanız (məsələn, A ilə C və B ilə C arasında),

Və ya xüsusi bir kateqoriya (məsələn, B - A və B - C).

Analizin və çıxışın vacib hissələri, ikili logistik reqressiya üçün gördüyümüz kimidir.

11.7 R Labs: R -də Multinomial Logistik Reqressiya Çalışır

11.7.1 Verilənləri Anlamaq: Proqram Seçimi

Məlumat toplusu (hsbdemo.sav) 200 şagird üzrə dəyişənləri ehtiva edir. Nəticə dəyişicisi prog, proqram növüdür (1 = ümumi, 2 = akademik və 3 = peşə). Proqnozlaşdırıcı dəyişənlər ses, sosial iqtisadi vəziyyət (1 = aşağı, 2 = orta və 3 = yüksək), riyaziyyat, riyaziyyat balı və elm, elm balı: hər ikisi davamlı dəyişənlərdir.

(Araşdırma Sualı): Lisey şagirdləri proqramı (ümumi, peşə və akademik proqramları) seçərkən, riyaziyyat və elm puanları və sosial iqtisadi vəziyyətləri (SES) qərarlarına necə təsir edir?

11.7.2 Məlumatları hazırlayın və nəzərdən keçirin

İndi təsviri təhlili edək

11.7.3 "nnet" paketindən istifadə edərək Multinomial Modeli işə salın

Aşağıda, çoxnomial bir logistik reqressiya modelini qiymətləndirmək üçün nnet paketindəki multinom funksiyasından istifadə edirik. Digər R paketlərində multinomial reqressiya qabiliyyətinə malik digər funksiyalar mövcuddur. Məlumatın yenidən formalaşdırılmasını (mlogit paketində olduğu kimi) və Hilbenin Logistik Regresiya Modellərində olan nümunə kodu əks etdirməyi tələb etmədiyi üçün çoxlu funksiyanı seçdik.

Birincisi, başlanğıc olaraq istifadə etmək istədiyimiz nəticənin səviyyəsini seçməliyik və bunu relevel funksiyasında göstərməliyik. Sonra modelimizi multinom istifadə edərək işə salırıq. Multinom paketinə reqressiya əmsalları üçün p dəyər hesablaması daxil deyil, buna görə də Wald testlərindən istifadə edərək p dəyərlərini hesablayırıq (burada z-testləri).

Bunlar istinad kateqoriyasına nisbətən logit əmsallarıdır. Məsələn, 'riyaziyyat' altında, -0.185, 'elm' skorunda bir vahid artım üçün 'orta' nisbətinə görə 'aşağı' üçün logit əmsalının bu məbləğə -0.185 düşəcəyini göstərir.

11.7.4 Modelə uyğun məlumatları yoxlayın

Model Fit məlumatlarının təfsiri

Giriş ehtimalı, məlumatlarda nə qədər açıqlanmayan dəyişkənliyin olduğunu göstərən bir ölçüdür. Buna görə də, log ehtimalındakı fərq və ya dəyişiklik, model tərəfindən nə qədər yeni varyansın izah edildiyini göstərir.

Ki -kvadrat testi, 408.1933 - 333.9036 = 74.29 fərqi olan əsas modeldən (408.1933) son modelə (333.9036) qədər izah olunmayan varyansın azalmasını sınayır. Bu dəyişiklik əhəmiyyətlidir, yəni son modelimiz orijinal dəyişkənliyin əhəmiyyətli bir hissəsini izah edir.

P-dəyəri

11.7.5 Uyğunluğun yaxşılığını hesablayın

11.7.6 Pseudo R-Square hesablayın

R-Meydanının təfsiri:

Bunlar üç yalançı R kvadrat dəyərləridir. Logistik reqressiyanın OLS reqressiyasında olan R kvadratına ekvivalenti yoxdur; lakin, bir çox insan bir fikirlə qarşılaşmağa çalışdı. Bu statistika, OLS reqressiyasında R kvadratının nə demək olduğunu ifadə etmir (proqnozlaşdırıcıların izah etdiyi cavab dəyişəninin dispersiya nisbəti), bunları çox ehtiyatla şərh etməyi təklif edirik.

Cox və Snell-in R-Kvadratı 'ehtimala' əsaslanan çoxsaylı R-Kvadratı təqlid edir, lakin maksimumu 1,0-dən az ola bilər (və adətən), şərh etməyi çətinləşdirir. Burada asılı dəyişənlə müstəqil dəyişənlər arasında 31% əlaqənin olduğunu göstərir. Və ya asılı dəyişənin 31% -nin dəyişməsinin logistika modeli ilə izah edildiyini göstərir.

0 ilə 1 arasında dəyişən Nagelkerke modifikasiyası əlaqənin daha etibarlı bir ölçüsüdür. Nagelkerke'nin R2 normal olaraq Cox və Snell ölçüsündən daha yüksək olacaq. Bizim vəziyyətimizdə 0.357, proqnozlaşdırıcılarla proqnoz arasındakı əlaqənin 35.7% olduğunu göstərir.

McFadden = / LL (sıfır). Bizim vəziyyətimizdə 0.182, proqnozlaşdırıcılarla proqnoz arasındakı əlaqənin 18.2% olduğunu göstərir.

11.7.7 Ehtimal nisbəti testləri

Ehtimal nisbəti testlərinin təfsiri

Proqnozlaşdırıcıların model üçün əhəmiyyətini müəyyən etmək üçün ehtimal nisbəti testlərinin nəticələri istifadə edilə bilər. Bu cədvəl SES və riyazi hesabın proqram seçiminə əhəmiyyətli əsas təsirləri olduğunu söyləyir, \ (X^2 \) (4) = 12.917, p = .012 SES və \ (X^2 \) (2) = 10.613, p = .005 SES üçün.

Bu ehtimal statistikası, hansı proqnozlaşdırıcıların nəticələr kateqoriyasını proqnozlaşdırmağımıza əhəmiyyətli dərəcədə imkan verdiyini izah edən ümumi statistikalar kimi qəbul edilə bilər, amma bunun bizə təsirinin nə olduğunu konkret olaraq söyləmirlər. Bunu görmək üçün fərdi parametr hesablamalarına baxmaq lazımdır.

11.7.8 Parametr təxminləri

Qeyd edək ki, cədvəl iki sətrə bölünür. Bunun səbəbi, bu parametrlərin nəticə kateqoriyalarının cütlərini müqayisə etməsidir.

İkinci kateqoriyanı (2 = akademik) istinad kateqoriyamız olaraq təyin etdik; buna görə də, General etiketli cədvəlin birinci sətri bu kateqoriyanı 'Akademik' kateqoriyası ilə müqayisə edir. Peşə etiketli cədvəlin ikinci satırı da bu kateqoriyanı 'Akademik' kateqoriyası ilə müqayisə edir.

Sadəcə iki kateqoriyanı müqayisə etdiyimiz üçün təfsir ikili logistik reqressiya ilə eynidir:

SES -in ən yüksək səviyyəsindən (SES = 3) SES -in ən aşağı səviyyəsinə (SES = 1), b = -1.125, Wald χ2 1) = -5.27, p

Exp (-1.1254491) = 0.3245067, şagirdlərin SES-in ən yüksək səviyyəsindən (SES = 3) SES-in ən aşağı səviyyəsinə (1 = SES) keçdikləri zaman əmsal nisbəti 0.325 dəfə yüksəkdir və buna görə də ən aşağı səviyyəli tələbələr SES, ən yüksək SES səviyyəsinə malik olan tələbələrdən daha çox akademik proqrama qarşı ümumi proqramı seçməyə meyllidir.

Ən yüksək SES (SES = 3) səviyyəsindən SES -in ən aşağı səviyyəsinə (SES = 1), b = -0.56, Wald χ2 1) = -2.82, p

Exp (-0.56) = 0.57, şagirdlərin SES-in ən yüksək səviyyəsindən (SES = 3) SES-in ən aşağı səviyyəsinə (SES = 1) keçdikdə, əmsal nisbəti 0.57 dəfə yüksəkdir və buna görə də ən aşağı səviyyəli tələbələr SES, akademik proqrama nisbətən ən yüksək SES dərəcəsi olan tələbələrdən daha çox peşə proqramı seçməyə meyllidir.

11.7.9 Proqnozlaşdırıcı tənliyin təfsiri

Ətraflı məlumat üçün zəhmət olmasa slaydlarınızı yoxlayın. Bütün dəyərləri yuxarıdakı R nəticələrində tapa bilərsiniz.

11.7.10 Təsnifat cədvəli qurun

11.8 Əlavə Tədris Materialları

Sahə, A (2013). IBM SPSS statistikasından istifadə edərək statistikanın kəşf edilməsi (4 -cü nəşr). Los Angeles, CA: Sage Nəşrləri

Agresti, A. (1996). Kateqoriya məlumat analizinə giriş. New York, NY: Wiley və Sons.