徐靜安 徐淑惠
技術(shù)講壇
第四講回歸分析中的變量篩選技術(shù)及統(tǒng)計檢驗
徐靜安徐淑惠
回歸分析中的變量篩選技術(shù)是回歸分析技術(shù)得到廣泛應(yīng)用的一個突破,它將方差分析中的F檢驗和回歸分析技術(shù)進(jìn)行集成,形成一個新的算法,為工程應(yīng)用開拓了廣泛的前景。
在筆者藏書中,涉及回歸分析中變量篩選技術(shù)的專著有:《概率統(tǒng)計計算》(中國科學(xué)院計算中心概率統(tǒng)計組編著,科學(xué)出版社,1979);《回歸分析及其試驗設(shè)計》(上海師范大學(xué)數(shù)學(xué)系概率統(tǒng)計教研組編,上海教育出版社,1978);《回歸分析方法》(中國科學(xué)院數(shù)學(xué)研究所數(shù)理統(tǒng)計組編,科學(xué)出版社,1974);《試驗優(yōu)化技術(shù)》(任露泉主編,機械工業(yè)出版社,1987);《應(yīng)用回歸分析》(盛承懋、李慧芬、錢君燕編譯,上??茖W(xué)技術(shù)文獻(xiàn)出版社,1989);《技術(shù)數(shù)理統(tǒng)計方法》(曾秋成編著,安徽科學(xué)技術(shù)出版社,1982);《均勻設(shè)計與均勻設(shè)計表》(方開泰著,科學(xué)出版社,1994);《正交與均勻試驗設(shè)計》(方開泰、馬長興著,科學(xué)出版社,2001);《生物統(tǒng)計學(xué)》(李春喜、姜麗娜、邵云、王文林編著,科學(xué)出版社,2005)。
上述專著討論變量篩選技術(shù)均采用逐步回歸法,從逐步回歸的基本思想、數(shù)學(xué)模型、線性代數(shù)、計算框架、源程序等不同角度加以描述,各有側(cè)重。對于非應(yīng)用數(shù)學(xué)專業(yè)的工程技術(shù)人員,其遇到的困難可能在線性代數(shù)方面。20世紀(jì)70年代末筆者自學(xué),初次接觸矩陣轉(zhuǎn)置、求逆……時,也是“一頭霧水”。為了知道一點“所以然”,自行編寫程序,進(jìn)行工程應(yīng)用,花了不少時間、精力學(xué)習(xí)線性代數(shù)。
新世紀(jì),隨著數(shù)據(jù)處理軟件的推廣應(yīng)用,逐步回歸法篩選變量技術(shù)得到進(jìn)一步的普及應(yīng)用,現(xiàn)已不需要自行編寫計算程序,所以從應(yīng)用角度推薦水泥凝固放熱的案例,資料摘錄自《六西格瑪管理統(tǒng)計指南——MINITAB使用指導(dǎo)》(馬逢時、周暐、劉傳冰編著,中國人民大學(xué)出版社,2007)。
該案例是著名統(tǒng)計學(xué)家Hald于1952年給出的,被多本專著引用,采用不同的軟件計算,結(jié)果相同。該案例把逐步回歸的基本思想、自變量的篩選過程、回歸模型的評價等描述得比較清晰,所以本文僅作簡單解讀。
計算響應(yīng)值y的發(fā)熱量。
13組不同成分組合水泥凝固時的發(fā)熱量數(shù)據(jù)見表1。首先要對自變量有專業(yè)的認(rèn)識,自變量之間可能存在相關(guān)性。
表1 不同成分組合水泥凝固時散熱量數(shù)據(jù)記錄
方法一:采用一般的多元回歸分析方法
線性全回歸方程為:
散熱量=62.4+1.55x1+0.510x2+0.102x3-0.144x4回歸系數(shù)顯著性檢驗:
回歸總效果度量:
回歸方程顯著性檢驗:
從對回歸方程的顯著性檢驗結(jié)果來看,P值=0<α=0.05,說明回歸方程總效果是顯著的。但從回歸系數(shù)檢驗輸出來看,自變量x1,x2,x3,x4的P值都大于α=0.05,都不顯著,這就牽涉到如何分析各回歸變量系數(shù)檢驗結(jié)果的問題。在各回歸變量的系數(shù)檢驗中,P>0.05為不顯著,相對應(yīng)變量x應(yīng)予刪除,而不進(jìn)入統(tǒng)計模型。本例先刪除x3,又刪除x4,修整后回歸方程為:
散熱量=52.6+1.47x1+0.662x2
方法二:采用逐步回歸法
逐步回歸分析方法的基本思想就是讓計算機參與多元回歸分析中的自變量篩選工作。篩選的方法有三種:
(1)“向前選擇法”。思路是:逐個引入自變量,先選入對y影響最大(P值最?。┱撸購钠溆嘧宰兞恐袑ふ矣绊懘巫畲螅≒值次最?。┱?,直到無任何變量P值小于指定的“選入α值”可以被引入為止。在向前選擇方法中,自變量一旦被加進(jìn)回歸模型就不再被刪除。
(2)“向后消除法”。思路是:一開始引入全部自變量,對于P值大于指定的“刪除α值”者,進(jìn)行逐個刪除,直至不能再刪除為止(該方法就如同方法一的修整)。
(3)“逐步法(向前和向后)”。思路是:自變量逐個引入,邊引入邊檢查已引入自變量中最大的P值是否已大于指定的“刪除α值”,若大于,則從模型中刪除該項,再重復(fù)上述過程。如果沒有任何自變量可以刪除,則會嘗試再加入一個新的自變量,重復(fù)上述過程,直至不能再引入乜不能再刪除為止。
分析證明,幾種方法的最終結(jié)果可能略有不同,以逐步法為最優(yōu)。該案例是采用MINITAB軟件進(jìn)行計算。
逐步回歸:散熱量與x1,x2,x3,x4
入選用Alpha:0.15;刪除用Alpha:0.15(計算機默認(rèn))
響應(yīng)為4個自變量上的散熱量,N=13
原案例采用多元線性(一次項)回歸方法,對計算機輸出解讀非常重要、非常精彩,值得一讀,本文不重復(fù)?,F(xiàn)對回歸方程顯著性檢驗、回歸總效果度量、回歸系數(shù)、顯著性檢驗的相關(guān)指標(biāo)進(jìn)行說明(數(shù)據(jù)取自方法一線性全回歸模型)。
(1)P值一般和顯著性水平一致,取其值為α=0.05,0.01,P>0.05,不顯著。
(2)回歸方程的方差為:
按回歸方程變量自由度DFA=4,誤差自由度DFE=8,查F分布表,其相應(yīng)臨界值為:,高度顯著。
R(2決定系數(shù))是傳統(tǒng)回歸總效果變量值,其臨界值也可查相關(guān)系數(shù)臨界值表。
回歸方程自變量個數(shù)m=4,樣本量n=13,
查表得R=0.811,R2=0.652<0.982,回歸方程有顯著意義。
此處P為進(jìn)入模型的變量個數(shù)(包括常數(shù)項)。當(dāng)前,度量回歸模型的擬合效果時,很看重R2(調(diào)整)值,它能反映模型總項數(shù)的影響。
此處,S為回歸方程擬合殘差標(biāo)準(zhǔn)差。
概念上,在同類型回歸模型擬合時,希望S越小越好;數(shù)量上,它是上述討論的各指標(biāo)中唯一沒有臨界值的一個指標(biāo)。但相對指標(biāo)還是有的,由于正態(tài)分布的誤差,在(y±2S)范圍內(nèi)包含95%的數(shù)據(jù);同時變異系數(shù),不同專業(yè)有不同的要求,本案例為CV=2%~4%,可以接受。
(6)該案例回歸總效果變量、回歸方程顯著性檢驗均有顯著性意義,但自變量回歸系數(shù)顯著性檢驗均不顯著,原因在于自變量之間存在相關(guān)性。相關(guān)分析:x1,x2,x3,x4
結(jié)果說明:x1與x3,x2與x4都高度負(fù)相關(guān),原本在4個變量都包含在方程中時,刪除任何一個變量對整個方程的影響都不大,但刪除x3之后,x1就是顯著的了;同理,刪除x4之后,x2可能就顯著了。
從案例的相關(guān)分析可以看出,X1與X3相關(guān)系數(shù)r=-0.824、P值=0.001<0.05;X2與X4的相關(guān)系數(shù)r=-0.973、P值=0,都是高度顯著負(fù)相關(guān)。相關(guān)分析結(jié)果和化學(xué)組分的專業(yè)認(rèn)識是一致的。
1從所有可能的變量組合中人工挑選最優(yōu)我們首先估計工作量,本案例有4個變量。如果按普適性的二次多項式考慮,可形成項,可能形成的回歸方程有214-1=16 383個組合,事實上難以操作。案例根據(jù)經(jīng)驗只考慮一次項的多項式回歸,可能形成24-1=15個回歸方程。計算結(jié)果見資料《回歸分析及其試驗設(shè)計》、見表2。在15個方程中σ2=S2=MSE最小的為第12個方程,但b2有一定的影響,b4不顯著,經(jīng)過綜合檢驗,確定第5個方程為“最優(yōu)”。
2逐個刪除不顯著變量
案例方法一很清晰地演示、解讀了刪除過程,得到了:
這里需要強調(diào)指出的是,如果按普適性的二次多項式考慮,形成m=14大于實驗樣本量n=13,就無法進(jìn)行逐個刪除。案例僅考慮一次項m=4,小于n=13,可逐個刪除不顯著變量。
由此可以看出,如果自變量較多,再考慮二次多項式,人工逐個刪除不顯著變量的工作量也是非常大的。
表2 考慮一次項的多項式回歸方程計算結(jié)果
3采用逐步回歸法
前進(jìn)法是“只進(jìn)不出”,后退法是“只出不進(jìn)”,在自變量相關(guān)性復(fù)雜的情況下,還是“有進(jìn)有出”的逐步法為優(yōu)選。
MINITAB軟件在逐步回歸計算結(jié)果輸出時,有一個Mallows Cp值。該值以接近進(jìn)入模型的變量項數(shù)(包括常數(shù)項)為好。
案例采用逐步回歸法,Mallows Cp值的變化為138.7→5.5→3.0→2.7,此時進(jìn)入模型的量有x1,x2及常數(shù)項共3項,Cp值最為接近。Cp值可以輔助判斷變量的引入或刪除。
案例采用前進(jìn)法、后退法及逐步法時,選用了不同的引入、刪除變量F檢驗的顯著性水平α值,分別為0.25,0.10,0.15,事實上不同軟件設(shè)置的默認(rèn)值也不相同。但是不影響回歸方程顯著性及回歸系數(shù)顯著性檢驗時,公認(rèn)的標(biāo)準(zhǔn)為p=α≤0.05。
對于離散性較大的工程數(shù)據(jù)、宏觀統(tǒng)計數(shù)據(jù),也有α=0.10的報道。
逐步回歸法獲得模型y=52.58+1.47x1+0.662x2,結(jié)果見表3。
為了進(jìn)一步的討論,筆者和在讀研究生徐淑惠同學(xué)采用DPS軟件進(jìn)行計算、解讀。
表3 DPS逐步回歸法計算結(jié)果
點擊:多元分析——回歸分析——逐步回歸,計算輸出結(jié)果和MINITAB等計算結(jié)果一致。
需要說明的是:
(1)DPS系統(tǒng)在逐步回歸計算時,采用浮動Fα臨界值的方法,計算軟件自動調(diào)整Fα值以保證選入一個自變量因子。然后軟件在α=0.10條件下逐步引入或剔除變量。
如果入選的自變量數(shù)目不多,可以人為干預(yù)降低引入門檻,如在α=0.15等條件下篩選變量,反之亦然。
(2)DPS系統(tǒng)在逐步回歸計算輸出時,除了①回歸系數(shù)顯著性檢驗;②回歸總效果變量;③回歸方程顯著性檢驗;還給出了④擬合誤差(殘差)表。在統(tǒng)計檢驗具有顯著性意義的前提下,由擬合誤差表可以大致分析出是否存在可疑的異常點、特殊地位的杠桿點,以免影響模型的穩(wěn)定性。本案例擬合誤差最大的樣本6擬合誤差的絕對值為4.047 5<2~2.5 S,且CV=s=2%~4%,相對于本模型觀察數(shù)據(jù)yˉ正常。如果不正常,則需要進(jìn)行進(jìn)一步的分析討論。
(3)DPS系統(tǒng)在逐步回歸計算輸出時,還輸出了Durbin-Watson統(tǒng)計量d,這是當(dāng)前回歸分析統(tǒng)計檢驗中殘差診斷的一個重要統(tǒng)計量(0<d<4)。如果d接近0,表示殘差存在正相關(guān);d接近4,表示殘差存在負(fù)相關(guān);d接近2,表示殘差相互獨立。本案例d=1.92,模型正常。如果不正常,就要對自變量進(jìn)行變換,修正模型,如選用高次方程等。結(jié)果見表4。
討論解讀至此,本文的重點是在多元回歸分析中如何采用一種較優(yōu)的方法——逐步回歸法篩選因子變量,獲得“最優(yōu)”的回歸統(tǒng)計模型。多項統(tǒng)計檢驗證明,本模型是有顯著性意義的、正常的、合理的。這些討論解讀還只是局限在模型對實驗觀察值的擬合效果范圍內(nèi)的。我們求取統(tǒng)計模型(求取理論模型、半經(jīng)驗?zāi)P偷南鄳?yīng)系數(shù))的目的一是求得極值,二是將模型用于控制或仿真,這均涉及到模型預(yù)測結(jié)果的整體估計。
表4 擬合結(jié)果
擬合不好的模型,預(yù)報效果一定不好;擬合好的模型,預(yù)測效果可能好,也可能不好。對于模型預(yù)測結(jié)果的整體估計Press及驗證實驗,另有案例討論。此外,本案例統(tǒng)計建模沒有混料配才約束∑xi=1,甚為可惜,另行專題討論。