范圣崗 奚書靜
摘 要: 存在多個指標的多元線性回歸模型容易發(fā)生多重共線性問題,利用手動剔除法、逐步回歸法、主成分回歸法解決此問題,并構造人口遷移對教育資源沖擊測定模型對比三者差異。輸出結果顯示手動剔除法與逐步回歸法剔除無效指標后對模型的預測更具真實性,而主成分回歸法雖保留了各項指標,但其結果可能是偏離現(xiàn)實的。
關鍵詞: 多重共線性;手動剔除法;逐步回歸法;主成分回歸法
1 教育資源指標的選定與多元線性回歸方程
1.1 教育資源沖擊問題簡介與指標選取
人口大量向城鎮(zhèn)進行遷移必然會給當?shù)氐慕逃Y源帶來巨大沖擊,當發(fā)生教育資源失衡時,可能導致教師負擔加重和教學場地供應不足,最終地區(qū)的教育持續(xù)惡性發(fā)展。表1給出我國某縣教育資源的相關數(shù)據(jù),指標“師生比”開始從左至右依次設為x1,x2,…,x6,Y。
1.2 多元線性回歸模型與共線性問題
多元回歸模型Y? ^ -β0+β1x1+β2x2+…+βnxn+ε利用最小二乘法(minQ=min∑ m j=1 [Yj-(β0+∑ n i=1 βixij)]2)得的參數(shù)是真實值的無偏估計。對數(shù)據(jù)輸出得到方程:
Y? ^ =-0.015+0.545x1+0.008x2+0.034x3-0.002x4-0.005x5+0.104x6
輸出結果顯示人均教學面積與人均圖書冊數(shù)對Y成反比,即學生的人均擁有圖書越多則學生成績越差,這與基本邏輯不符。利用模型輸出方差膨脹系數(shù)VIFi= 1 1-R2i 判斷出多個指標存在多重共線性問題(VIF≥10),出現(xiàn)此原因可能是選取的指標存在著高度相關關系。
2 共線性問題的改進與比對
2.1 手動剔除變量
對兩個VIF值偏大的指標x5,x6進行剔除,得到多元回歸方程:
Y? ^ =-0.035+0.932x1-0.009x2+0.032x3+0.003x4
在手動剔除了VIF值偏大的指標后,剩余四個變量做多元回歸擬合后的VIF值均呈現(xiàn)下降趨勢:VIF1=4.616,VIF2=5414,VIF3=9.884,VIF4=16.292,并且此模型的統(tǒng)計量p=000,R2=0.959表明方程有較好的顯著性及對模型很好的解釋性。根據(jù)x4的VIF值,進一步剔除x4得多元回歸模型:Y? ^ =-0039+1.009x1+0.012x2+0.033x3,各系數(shù)均與正常邏輯相符。
2.2 逐步回歸法
逐步回歸中的前進法:對各指標與Y? ^ 的一元回歸系數(shù)并進行F檢驗,記F值的集合為 F(1)1,F(xiàn)(1)2,…,F(xiàn)(1)m ,則F(1)max=max F(1)1,F(xiàn)(1)2,…,F(xiàn)(1)m ,若F(1)max大于給定顯著性水平α下F分布的分位數(shù)Fα(1,n-2),則將F(1)max對應指標xiγ作為最終回歸指標之一,再將xiγ與其他指標兩兩組合對Y? ^ 做二元回歸方程,并記各二元回歸方程對應F值集合 F(2)1,F(xiàn)(2)2,…,F(xiàn)(2)m-1 的最大值為F(2)max,若F(2)max≤Fα(1,n-3)則停止篩選,選對應的回歸方程為最終結果,若F(2)max>Fα(1,n-3),再選入下一個指標配對并做關于Y? ^ 做三元回歸方程,重復上述步驟。
利用SPSS軟件進行逐步回歸得到最佳的多元回歸方程:Y? ^ =-0.039+1.011x1+0.033x3,逐步回歸的結果顯示學生的成績主要與師生比例、教育投入有關。
2.3 主成分回歸法
主成分回歸法將相關性強的一組指標x1,x2,…xn通過替換Z=AX生成一組滿足協(xié)方差Cov(Zi,Zj)=0(i≠j)的綜合指標Z1,Z2,…Zm,其中Z=(Z1,Z2,…Zm)T,A=(αi,j)m×n,X=(α1,α2,…,αn)T。通過指標的協(xié)方差矩陣的特征值大小順序確定主成分Z1,Z2,…Zm,使其累計貢獻率∑ m j=1 γj/∑ m i=1 γi≥0.8。主成分進行多元回歸有Y? ^ =μ0+μ1Z1+μ2Z2+…+μnZn+ε,再結合各指標在主成分上的載荷系數(shù)得到最終結果。由于各指標呈高度相關性,此處較為特殊的是僅提取一個累計貢獻率為86.70%的主成分Z,下表為各指標對Z的載荷系數(shù):
給出Z與Y的回歸方程Y? ^ =0.064+0.011Z,再代入上表中的載荷系數(shù)得Y? ^ =0.064+0.009735x1+0.00979x2+0.010318x3+0.010824x4+0.010153x5+0.010604x6。主成分回歸雖然保留了六個指標,但是明顯的缺陷是Y? ^ 的下限為0.064。
3 人口遷移對教育資源沖擊測定
設X1,X2,…,X6分別為地區(qū)原有教師數(shù)、高級教師數(shù)、教育經(jīng)費投入(千元)、教學面積、圖書數(shù)、設備數(shù),原有學生數(shù)為Q0,則xi= Xi Q (i≠2),x2= X2 X1 ,學生增加ΔQ后有Q1=Q0+ΔQ,則人口遷移的沖擊率為 |Y? ^ Q-Y? ^ Q1| Y? ^ Q 。
例:某地區(qū)原有學生數(shù)為Q0=2000人,X1=100,X2=5,X3=2500,X4=1000,X5=2500,X6=300,學生增加量為ΔQ=500,對沖擊率測定:
4 結語
通過測定發(fā)現(xiàn)手動剔除法與逐步回歸法有著一定的相似性,而主成分回歸法與其他兩方法差異較大。其主要原因是主成分回歸法雖然保留了各項指標,但對各項指標賦予的系數(shù)較小,導致結果對于各項指標不敏感。在改進多重共線性問題時,若主成分回歸法賦予常數(shù)項系數(shù)過大時,應該考慮慎用此方法。
參考文獻:
[1]蔡素麗.多元線性回歸模型應用實證分析[J].廊坊師范學院學報(自然科學版),2017,17(04):5-8.
[2]魏紅燕.回歸分析中多重共線性的診斷與處理[J].周口師范學院學報,2019,36(02):11-15.
項目: 大學生創(chuàng)新創(chuàng)業(yè)訓練計劃:201910602262
作者簡介: 范圣崗(1998—),男,漢族,廣西柳州人,本科,研究方向:生物數(shù)學、應用概率統(tǒng)計。