常振海,劉薇
(天水師范學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,甘肅 天水741001)
Logistic回歸模型及其應(yīng)用
常振海,劉薇
(天水師范學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,甘肅 天水741001)
為了利用Logistic模型提高多分類定性因變量的預(yù)測準(zhǔn)確率,在二分類Logistic回歸模型的基礎(chǔ)上,對實際統(tǒng)計數(shù)據(jù)建立三類別的Logistic模型.采用似然比檢驗法對自變量的顯著性進(jìn)行檢驗,剔除了不顯著的變量;對每個類別的因變量都確定了1個線性回歸函數(shù),并進(jìn)行了模型檢驗.分析結(jié)果表明,在處理因變量為定性變量的回歸分析中,Logistic模型具有很好的預(yù)測準(zhǔn)確度和實用推廣性.
定性變量;Logistic回歸模型;預(yù)測
Logistic回歸屬于概率型非線性回歸,是分析因變量為定性變量的常用統(tǒng)計分析方法.由于Logistic回歸模型對數(shù)據(jù)的正態(tài)性、方差齊性以及自變量類型不做要求,并且具有系數(shù)的可解釋性等優(yōu)點,使得其在醫(yī)學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域得到了廣泛的應(yīng)用[1-4].目前,對Logistic回歸模型的研究已取得很多好的結(jié)果[5-6],但這些結(jié)果多側(cè)重于二分類Logistic回歸模型.本文在二分類Logistic回歸模型的基礎(chǔ)上,以實例為背景討論了較為復(fù)雜的多分類Logistic回歸模型.
通常意義上的Logistic回歸要求因變量y只有2種取值(二分類),但當(dāng)y的取值有2種以上時,就要用多分類Logistic回歸分析(Multinomial Logistic Regression).
1)模型及其背景.在許多情形下,Logistic回歸的因變量是二分類的.下面考慮一般的多元回歸模型i(1-πi)1-yi,yi=0,1.顯然有E(yi)=πi=f(xi1,xi2,…,xip),故當(dāng)因變量為0-1型隨機(jī)變量時,因變量均值表示給定自變量時y=1的概率.又因為0≤E(yi)=πi≤1,所以因變量均值受到限制.另外,誤差項εi=y(tǒng)i-f(xi1,xi2,…,xip)為具有異方差性的兩點型離散分布.事實上,Var(εi)=Var(yi)=πi(1-πi)=f(xi1,xi2,…,xip)[1-f(xi1,xi2,…,xip)],εi的方差依賴于xi= (xi1,xi2,…,xip),且具有異方差性,這時當(dāng)yi=1時,εi=y(tǒng)i-f(xi1,xi2,…,xip)=1-πi;當(dāng)yi=0時,εi=y(tǒng)i-f(xi1,xi2,…,xip)=-πi.
其中:εi滿足E(εi)=0;yi為0-1型隨機(jī)變量,其概率分布為P(yi)=πyi
針對0-1型因變量產(chǎn)生的問題,對回歸模型做2個方面的改進(jìn):首先,回歸函數(shù)改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線g(x).限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,其中常用的是Logistic函數(shù).其次,因變量yi本身只取0和1兩個離散值,不適合于直接作為回歸模型中的因變量.由于回歸函數(shù)E(yi)=πi=f(xi1,xi2,…,xip)表示在自變量為xi1,xi2,…,xip的條件下yi等于1的比例,所以可以用yi等于1的概率代替yi本身作為因變量.于是得到了Logistic回歸方程:
2)參數(shù)形式的Logistic回歸.若式(1)中的f(·)為多元線性函數(shù),則上述模型可寫成
模型的參數(shù)估計分2種情形:①在大樣本下,常把數(shù)據(jù)分成若干組,比如c組,每組的個數(shù)為ni,i=因為異方差性的存在,一般采用加權(quán)最小二乘法來估計其中的參數(shù).又因πi=E(yi),故可以選擇權(quán)函數(shù)為ωi=nipi(1-pi).因該算法和普通最小二乘估計十分相近,故省略具體的算法過程.當(dāng)ni較大時,π*i的近似方差為其證明參見文獻(xiàn)[7].② 在小樣本下,可以把yi的概率函數(shù)合寫為P(yi)=πyii(1-πi)1-yi,其中yi=0,1;i=1,2,…,n.于是,y1,y2,…,yn的似然函數(shù)為,取自然對數(shù)可得
對于Logistic回歸,得到
采用極大似然估計方法估計式(4)中參數(shù)β=(β0,β1,…,βp)T,但此時無法用封閉形式找到此估計,故通常采用迭代方法,即選擇初始值=(,,…,)T,i=1,2,…,n,利用方程(3)計算πi,把βj用估計的代替,經(jīng)過迭代至收斂,其具體步驟為:①設(shè)令β的新估計為=(XTW X)-1XTWZ,其中W 為對角矩陣,其第(i,j)個元素等于πi(1-πi),即相當(dāng)于做Z在X上的1個加權(quán)線性回歸;③以目前的^β,利用方程(3)計算πi.
記yj(j=1,2,…,k)為定性因變量y取的k個類別,πj為y取第j個類別的概率.因變量y取值于每個類別的概率與1組自變量x1,x2,…,xp有關(guān).對于樣本數(shù)據(jù)(xi1,xi2,…,xip),i=1,2,…,n,多類別Logistic回歸模型第i組樣本的因變量yi取第j個類別的概率為
上式中各回歸系數(shù)不是唯一確定的,每個回歸系數(shù)同時加減1個常數(shù)后的數(shù)值保持不變.為此,把分母的第一項中的系數(shù)都可設(shè)為0,稱為參照系數(shù),其他類別回歸系數(shù)值的大小都以系數(shù)設(shè)為0的類別的回歸系數(shù)為參照,于是得到回歸函數(shù)的表達(dá)式:
實例數(shù)據(jù)資料來源于軟件SPSS 13.0的自帶數(shù)據(jù).某快餐公司讓隨機(jī)抽選的880名顧客品嘗了公司的3種早餐套餐:y1-Breakfast Bar,y2-Oatmeal,y3-Cereal.然后讓每位顧客選定自己最喜歡的套餐,并記錄下顧客的年齡、性別、婚姻情況和健身運動情況(1周至少2次).以Preferred breakfast為因變量(用bfast簡記為相應(yīng)變量名稱,下同,并用“-”連接),以定性變量age category-agecat,gender-gender,marital status-marital,active lifestyle-active為自變量做統(tǒng)計分析,結(jié)果見表1(利用SPSS軟件運算).
表1給出了分類變量各類別的頻數(shù)和頻率,其中頻率僅是從數(shù)據(jù)直接做出的統(tǒng)計結(jié)果.下面采用多類別的Logistic模型做比較分析.首先采用似然比檢驗法進(jìn)行自變量顯著性檢驗,其中對定性變量的檢驗是整體檢驗,結(jié)果見表2.由表2可知變量gender不顯著,說明在該調(diào)查中性別對套餐的影響可以忽略,故剔除后再做檢驗,結(jié)果見表3.
表1 變量總結(jié)
表2 似然比檢驗結(jié)果
表3 似然比檢驗結(jié)果
表3顯示各變量均顯著.本例因變量共有3個類別:1-Breakfast Bar,2-Oatmeal,3-Cereal,其中第1個類別作為基準(zhǔn),回歸系數(shù)取為0.對于第2和第3類別,每個類別都需要確定1個線性回歸函數(shù),因此每個自變量都有2個回歸系數(shù),自由度為2.每1個定性自變量要用其類別數(shù)減去1個示性變量表示,如Age category共有4個變量取值,要用3個示性變量表示,因此有2×3=6個回歸系數(shù),把Age category作為1個整體時的自由度為6.從表3中可以看出,自變量agecat的相伴概率為Sig.=0.000,說明該變量作為1個整體檢驗是顯著的;但整體顯著并不表示該自變量的每個取值都顯著,如在表4的參數(shù)估計結(jié)果中,對因變量的類別2(Oatmeal),當(dāng)agecat=3時Sig.=0.177,所以其就不顯著,其余可類似參閱.
表4 參數(shù)估計
盡管從整體上對變量和其各個類別做了探討,但為確定該組數(shù)據(jù)擬合Logistic回歸模型是否合適,需要進(jìn)行有效性檢驗,其結(jié)果見表5.其中原假設(shè)是回歸模型無效,所有系數(shù)均為0.
表5 模型的擬合優(yōu)度信息
模型檢驗表明回歸模型顯著有效,可用于預(yù)測.對每個樣品計算出因變量y取第j個類別的概率πj,因變量的預(yù)測值是πj最大的類別,結(jié)果見表6.
表6 預(yù)測結(jié)果
表6顯示:Breakfast Bar類別的231個觀測值中,有116個預(yù)測正確,正確率為50.2%;Oatmeal類別的310個觀測值中,有239個預(yù)測正確,正確率為77.1%;Cereal類別的339個觀測值中,有150個預(yù)測正確,正確率為44.2%;在全部880個觀測值中,有505個預(yù)測正確,總正確率為57.4%.
從以上的分析可以分別得出對因變量y的3個類別(y1-Breakfast Bar,y2-Oatmeal,y3-Cereal)的預(yù)測概率的提高情況:①若沒有任何信息資料,全憑猜測,可能有4種情形,分別為y1,y2,y3或都不是,由隨機(jī)性知每個類別的預(yù)測概率均為25%,預(yù)測總正確率為25%;②若據(jù)現(xiàn)有數(shù)據(jù)信息,做一般的頻數(shù)頻率統(tǒng)計(表1),因變量3個類別y1,y2,y3的頻率分別為26.3%、35.2%和38.5%,與情況①相比,預(yù)測的正確率分別提高1.3%、10.2%和13.5%;③通過回歸分析,y1,y2,y3的預(yù)測正確率能在情況②的基礎(chǔ)上分別提高23.9%、41.9%和5.7%(表6).因變量y的3個類別中,第2個類別(Oatmeal)的預(yù)測效果最好,正確率為77.1%;第3個類別(Cereal)的預(yù)測效果最差,正確率僅為44.2%,說明現(xiàn)有數(shù)據(jù)不能很好地解釋該類變量,若想進(jìn)一步提高預(yù)測率,需要對該類別的客戶群做進(jìn)一步的研究,以便找出相關(guān)的解釋變量.但總的來說,在處理因變量為定性變量的回歸分析中,Logistic模型具有很好的預(yù)測準(zhǔn)確度和實用推廣性.
[1]王昊.Logistics回歸模型在廣東省房價預(yù)測中的應(yīng)用研究[J].現(xiàn)代商貿(mào)工業(yè),2010(16):304-306.
[2]袁建林,陳立文,景楠.基于Logistic模型的房地產(chǎn)上市公司經(jīng)濟(jì)效益風(fēng)險評價研究[J].統(tǒng)計與決策,2010(18):77-79.
[3]楊茜.基于Logistic回歸模型的航運業(yè)上市公司投資價值評價[J].科技創(chuàng)業(yè)月刊,2010(8):99-101.
[4]董曉萌.Logistic回歸模型診斷肺癌病人的生存時間[J].科學(xué)技術(shù)與工程,2010,10(26):6519-6521.
[5]何曉群,劉文卿.應(yīng)用回歸分析[M].北京:中國人民大學(xué)出版社,2009:242-266.
[6]李江輝,曹素華.多分類屬性反應(yīng)變量分析方法初探[J].中國衛(wèi)生統(tǒng)計,2000,17(5):287-289.
[7]張堯庭.定性資料的統(tǒng)計分析[M].桂林:廣西師范大學(xué)出版社,1991:111-165.
Logistic regression model and its application
CHANG Zhen-h(huán)ai,LIU Wei
(School ofMathematics andStatistics,TianshuiNormal University,Tianshui741001,China)
To improve the forecasting accuracy of the multinomial qualitative dependent variable by using logistic model,ternary logistic model is established for actual statistical data based on binary logistic regression model.The significance of independent variables is tested by using the likelihood ratio test method to remove the non-significant variable.A linear regression function is determined for each category dependent variable,and the models are tested.The analysis results sho wthat logistic regression model has good predictive accuracy and practical promotional value in handling regression analysis of qualitative dependent variable.
qualitative variable;logistic regression model;prediction
1004-4353(2012)01-0028-05
O212.1
A
2011-12-22
天水師范學(xué)院中青年教師科研基金資助項目(TSA1007)
常振海(1979—),男,講師,研究方向為應(yīng)用概率統(tǒng)計.