姜阿麗
(云南財經(jīng)大學(xué) 云南 昆明 650000)
Logistic回歸模型原理介紹及實例分析
姜阿麗
(云南財經(jīng)大學(xué) 云南 昆明 650000)
我們知道,在日常處理的回歸模型中,大多數(shù)都屬于線性回歸模型,然而有一些研究的問題中,其因變量是二分類變量,此時我們則需要用到logistic模型,本篇文章我們主要來介紹Logistic模型的原理以及其優(yōu)缺點,并研究其適用的范圍,然后我們利用高校就業(yè)去向的例子來加深對模型的理解,并根據(jù)模型的結(jié)果進行分析。
logistic模型;實例分析
(一)Logistic回歸模型原理
在我們的日常處理的回歸模型中,大多數(shù)都屬于線性回歸模型,他們可以用線性表達式進行表達,y=βTx+b,但是,有些時候,我們接觸的問題,它們的因變量為二分類變量,即因變量是非連續(xù)變量,這個時候我們就需要對模型進行一些簡單的調(diào)整與變換,此時就要引出另一個概念:logistic回歸模型。
logistic回歸是通過函數(shù)Ln將因變量y來對應(yīng)一個概率p,然后將其結(jié)果間接轉(zhuǎn)化成一個連續(xù)變量。比如我們研究一些現(xiàn)象,其發(fā)生的概率為p,很明顯它為概率值,有[0,1]的取值范圍,我們就會很難去用線性模型描述概率p與自變量的關(guān)系,因此我們需要利用Logit變換來進行處理,我們通常的把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比作為比值,然后再把取值進行取對數(shù)處理,變換如下:
其中當(dāng)p從0→1時,Logit(p)從-∞→+∞,另外從函數(shù)的變形可得如下等價的公式:
此時我們稱滿足上面條件的回歸方程為Logistic線性回歸。
(二)Logistic模型優(yōu)缺點
對于logistic模型,我們也說到它可以解決一些普通線性回歸模型解決不了的問題,存在一定的優(yōu)點,例如:模型不需要樣本數(shù)據(jù)作嚴(yán)格的假設(shè)條件并且可以對每個變量進行顯著性檢驗,另外,logistic模型對于用來判別二分類變量問題有良好的效果,且使用該模型還可以顯著降低犯第一類錯誤的概率。但是
Logistic模型也有一定的缺點,例如:它在采用極大似然法進行參數(shù)估計時要求樣本的數(shù)量要足夠,并且對中間區(qū)域判別敏感性較強,導(dǎo)致判別結(jié)果不穩(wěn)定。而且當(dāng)概率接近1或者0的時候還會出現(xiàn)低估的現(xiàn)象,因此我們?nèi)匀恍枰^續(xù)研究新的方法來對模型進行改進。
我們對本科畢業(yè)生的去向做了一個調(diào)查,調(diào)查了40個學(xué)生,分析影響畢業(yè)去向的相關(guān)因素,我們自變量主要四個,分別為x1為專業(yè)課成績,x2為英語成績,x3為性別,x4為月生活費(單位:元),其中性別取值“1”=男生,“0”=女生。因變量為畢業(yè)去向,取值分別為0和1,“1”=工作,“0”=繼續(xù)深造,
對于這種因變量為二分類變量的情況,我們選擇用logistic回歸來進行擬合,分析影響畢業(yè)去向的因素。
我們利用R3.3.3軟件來建立logistic模型,因為我們的被解釋變量為二分類變量,因此我們需要首先將其轉(zhuǎn)化為因子,然后模型1中我們加入所有的解釋變量來檢驗各解釋變量的顯著性,回歸系數(shù)的顯著性檢驗我們選用的統(tǒng)計量為Z統(tǒng)計量,結(jié)果顯示:變量x1、x2、x3、x4檢驗的p值分別為0.01105、0.10839、0.95211、0.04368,因此可以看出在顯著性水平α=0.05的水平下,解釋變量x2、x3檢驗的結(jié)果是不顯著的,因此我們選擇將其剔除,重新對模型進行擬合,擬合結(jié)果如下表所示:
表1 回歸系數(shù)
我們從表1可以看出,刪除解釋變量x2、x3之后,解釋變量x1、x4檢驗的p值分別為0.01062、0.12592,在顯著性水平α=0.05的條件下,勉強通過檢驗,我們又計算了比較全模型與剔除變量x2、x3后的模型的AIC值,分別為48.444、46.448,發(fā)現(xiàn),剔除變量之后的模型較優(yōu),下面我們根據(jù)擬合結(jié)果寫出模型表達式:
所謂模型過散布,它是指觀測到的響應(yīng)變量的方差大于期望的二項分布的方差。過散布將會導(dǎo)致奇異的標(biāo)準(zhǔn)誤檢驗以及不精準(zhǔn)的顯著性檢驗,檢驗過散布的一種方法是比較二項分布模型的殘差偏差與殘差自由度,即:
我們擬合出的模型進行過散布檢驗,發(fā)現(xiàn)在指定參數(shù)為family和binomial時,我們可以看到默認(rèn)的散布系數(shù)φ為1,檢驗結(jié)果看出其φ的估計值明顯小于1,因此我們能判定該模型沒有出現(xiàn)過散布的情況。
因此對于被解釋變量為二分類變量,我們不能用到傳統(tǒng)的回歸模型解決時,我們可以選擇logistic回歸模型進行擬合,并且使用logistic模型預(yù)測還能夠降低犯第一類錯誤的概率。我們利用logistic模型進行實例分析結(jié)果可以看出,影響畢業(yè)去向的主要因素為專業(yè)課成績以及每月生活費的數(shù)量,且一個人專業(yè)課成績每增加一分,則就業(yè)與繼續(xù)深造的比值變?yōu)樵瓉淼膃xp(-0.106222)倍,約為0.899倍,說明了專業(yè)課成績越好的人就業(yè)的可能性越小,繼續(xù)深造的可能性越大。另外一個人每月的生活費每增加一分,則就業(yè)與繼續(xù)深造的比值變?yōu)樵瓉淼膃xp(-0.003988)倍,約為0.996倍,說明了每月生活費越多的人就業(yè)的可能性越小,繼續(xù)深造的可能性越大。
[1]劉小秦,林元,楊冬華,晁麗麗,李娟生.兩水平logistic回歸模型在高血壓患病影響因素分析中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2013,673-675.
[2]賈鵬芳.高職會計專業(yè)就業(yè)影響因素分析——基于Logistic回歸的研究[J].價值工程,2015,228-230.
姜阿麗(1996-),女,漢族,安徽阜陽人,碩士研究生,云南財經(jīng)大學(xué),統(tǒng)計與數(shù)學(xué)學(xué)院學(xué)院,應(yīng)用統(tǒng)計專業(yè)。