李佳琳
摘要:本文以某高校對本科畢業(yè)生去向調(diào)查的樣本數(shù)據(jù)為例,建立了廣義線性模型中的多類別logistic回歸模型,并通過逐步回歸優(yōu)化回歸方程的選擇,針對影響高校畢業(yè)生去向的因素進行探討。
關(guān)鍵詞:畢業(yè)去向;多類別Logistic回歸;逐步回歸
由表可知,畢業(yè)生去向和性別之間的相關(guān)性較弱。通過計算條件數(shù),可以度量多重共線性的嚴重程度。一般來說,若條件數(shù)k<100,則認為多重共線性的程度很??;若100≤k≤1000,則認為存在中等程度或較強的的多重共線性;若k>1000,則認為存在嚴重的多重共線性。利用R語言中的kappa函數(shù)計算得條件數(shù)為1.98601,遠小于100,故可以認為自變量之間不存在多重共線性。
由于定性因變量有三種不同的結(jié)果,且用虛擬變量1、2、3表示,只是名義代號,并沒有大小順序的含義,且并不是所有自變量都對因變量y有顯著的影響。綜合分析后選用多類別Logistic回歸模型,隨后通過逐步回歸篩選最優(yōu)回歸子集。
利用R語言中的step函數(shù)得到逐步回歸選取的最優(yōu)回歸子集{},即不考慮x3性別變量對因變量y的影響,與相關(guān)性檢驗結(jié)果相符合??梢詫懗鼋?jīng)逐步回歸選出最優(yōu)回歸子集后的多類別Logistic回歸模型等式:
由逐步回歸所得的回歸子集必定是最優(yōu)回歸子集,這一點從AIC值同樣可以看出,在確定回歸子集{}的條件下AIC值為72.85965,而無論剔除中的任何一個自變量得到的回歸子集AIC值都會增加,依次為85.13389,74.44935,77.91824,因此可以說明此時得到的回歸子集{}就是最優(yōu)回歸子集。
=0.0003, =0.0611, =0.0108,這三個值均小于0.1,說明均值相等的概率很小,即認為自變量x1、x2、x4=的多個水平效應(yīng)之間有顯著差異。此外我們還可以看到,若剔除了自變量x1、x2、x4,方程的Residual Deviance依次為73.13389、62.44935、65.91824,均比回歸子集為{}時的值56.85965大,同樣反映出此時的擬合優(yōu)度最佳。
根據(jù)逐步回歸最終得到的多類別logistic回歸模型等式,我們可以對樣本中40名畢業(yè)生的畢業(yè)去向做出預測。
由上表可知,樣本中實際y=1(工作)的畢業(yè)生共有17人,預測的結(jié)果中c(2|1)=4,c(3|1)=1;實際y=2(讀研)的畢業(yè)生共有16人,預測的結(jié)果中c(1|2)=3,c(3|2)=2;實際y=3(出國留學)的畢業(yè)生共有7人,預測的結(jié)果中c(1|3)=1,c(2|3)=3。
在40名畢業(yè)生組成的樣本中,總的誤判概率=14÷40=0.35,樣本整體的預測結(jié)果與實際情況對比如下圖。
得到以下結(jié)論:
(1)高校畢業(yè)生的去向與其性別x3幾乎沒有相關(guān)性,與專業(yè)課成績x1、英語成績x2和經(jīng)濟狀況(月生活費x4)具有一定的相關(guān)關(guān)系;(2)與y=1(工作)的同學相比,y=2(讀研)的同學其專業(yè)課成績x1相對更好,而外語成績x2和經(jīng)濟狀況x4沒有顯著差異;(3)y=3(出國留學)的同學其專業(yè)課成績x1和參加工作的同學沒有顯著差異,但外語成績x2和經(jīng)濟狀況x4相比之下更好。
綜上,高校畢業(yè)生的去向問題受到個人和家庭等多方面的因素影響,因此在臨近畢業(yè)之際,畢業(yè)生應(yīng)當結(jié)合實際情況,選擇適合自身條件的發(fā)展方向。
參考文獻:
[1]于春波.基于多分類Logistic回歸模型的會計舞弊影響因素研究[D].吉林大學,2011.
[2]何宜慶,白彩全.基于結(jié)構(gòu)方程模型的當代大學生畢業(yè)去向選擇行為研究[J].數(shù)學的實踐與知識,2015,45(3): 22-29.