陳崇雙,唐家銀,何 平
(西南交通大學 數(shù)學學院,成都 611756)
回歸分析與方差分析是數(shù)理統(tǒng)計學中廣泛應用的兩種統(tǒng)計分析方法。回歸分析是用統(tǒng)計推斷的方法研究變量之間可能存在的相關(guān)關(guān)系。相關(guān)關(guān)系表現(xiàn)在,因變量(也稱預測變量)不能隨自變量(也稱響應變量)的確定而完全確定,但在統(tǒng)計平均意義下仍有一定的定量關(guān)系。根據(jù)相關(guān)關(guān)系形式的不同,可分為線性回歸和非線性回歸。其中,線性回歸模型是數(shù)理統(tǒng)計學中重要的統(tǒng)計模型[1]。方差分析(Analysis of Variance,ANOVA),能夠鑒別可控因素(可以定量控制或者直接測定)對試驗結(jié)果是否有顯著影響以及影響大小,常見有單因素方差分析和雙因素方差分析。
現(xiàn)有教材[1-3]關(guān)于回歸分析與方差分析的敘述,基本都單獨介紹而沒有強調(diào)二者間的內(nèi)在關(guān)聯(lián)。期刊論文方面,文獻[4]對比了二者在概念、假設條件、方法等方面的聯(lián)系與區(qū)別。文獻[5-7]都通過引入虛擬變量建立回歸模型來刻畫方差分析,闡述出二者都是線性統(tǒng)計模型,但仍存在一些不足:一是,只分析了雙因素無重復試驗或簡單特殊情形的等重復試驗;二是,沒有分析單因素和雙因素試驗(無重復和等重復)之間的關(guān)聯(lián)。為此,本文通過合理引入虛擬變量,采用多元線性回歸理論分析一般情形的單因素和雙因素試驗。
多元線性回歸模型所刻畫的對象為,因變量(記為Y)受到兩大類因素共同影響,其一是確定性的自變量(記為X1,X2,…,Xp),影響效果為線性疊加;其二是隨機因素(記為ε),影響效果可正可負,一般假定為零均值的隨機變量。即有數(shù)學模型:
其中待定參數(shù)β0,β1,β2,…,βp稱為回歸系數(shù),需以觀測數(shù)據(jù)進行估計。記因變量和自變量的觀測值為(xi1,xi2,…,xip;yi),i=1,2,…,n,滿足:
其 中εi為 隨 機 波 動 項 ,一 般 有 假 設
引入矩陣:
從而可以表示成矩陣形式:
回歸系數(shù)的最小二乘估計:
回歸方程的顯著性檢驗,即考察因變量與自變量之間是否存在線性關(guān)系,相當于檢驗假設β1=β2=…=βp=0是否成立。樣本離差分解是突破口。
對于給定的顯著性水平α,若n-p-1),則認為Y與X1,X2,…,Xp之間存在顯著的線性相關(guān)關(guān)系;否則無顯著的線性相關(guān)關(guān)系。
可控因素既可以是定量的,也可是定性的。一般而言,方差分析需將可控因素取值嚴格控制在有限的幾個狀態(tài)或等級(稱為水平)。
先考慮單因素方差分析模型,即僅關(guān)注一個可控因素(記為U)而保持其他可控因素相同。設該因素共有u個水平。假設:(1)同一水平下的觀測結(jié)果為來自同一正態(tài)總體的隨機樣本;(2)隨機因素對所有水平下結(jié)果的影響程度都相同,即方差齊性。記第i個水平下第j個試樣為Yij,相應觀測值為yij,i=1,2,…,u,j=1,2,…,ni。故Yij~N(μi,σ2),其中μi為第i個水平的均值,σ2為方差。
從而,鑒別因素U水平差異是否對結(jié)果產(chǎn)生顯著影響的問題,就轉(zhuǎn)化為檢驗假設μ1=μ2=…=μu是否成立。試驗結(jié)果的差異直接體現(xiàn)在觀測結(jié)果的波動上,這也正是檢驗該假設的關(guān)鍵。全部樣本的離差滿足分解:
單因素試驗的方差分析,其運算步驟可在表1中方便進行。若比值F>Fα(u-1,n-u),則認為U對試驗有顯著影響;否則無顯著影響。
表1 單因素方差分析表
在兩個可控因素的試驗中,單獨每一個都可能對結(jié)果起作用。除此之外,二者搭配可能還會產(chǎn)生一定的合作效應,ANOVA稱之為交互效應。
不妨設因素U有u個水平,因素V有v個水平,對兩種因素的任意組合都觀測K次。假設:(1)同一水平組合下的觀測結(jié)果為來自同一正態(tài)總體的隨機樣本;(2)方差齊性。記因素U的第i個水平、因素V的第j個水平組合下的均值為μij,第k次觀測為試樣Yijk,相應觀測值yijk,i=1,2,…,u,j=1,2,…,v,k=1,2,…,K,則Yijk~N(μij,σ2) 。
帶交互效應的雙因素方差分析,可按表2進行計算。若FU>Fα(u-1,uv(K-1)),則推斷U對試驗有顯著影響;若FV>Fα(v-1,uv(K-1)),則推斷對V有顯著影響;若FU×V>Fα((u-1)(v-1),uv(K-1)),則U和V存在顯著的交互效應。
表2 有交互效應的雙因素方差分析表
單因素方差分析能夠解決可控因素水平的差異是否會顯著影響試驗結(jié)果的問題。該問題也可表述為,試驗結(jié)果與可控因素之間是否存在顯著的相關(guān)關(guān)系。若考察線性的相關(guān)形式,為此引入虛擬變量(Dummy Variable)[2,3]。
其中i=1,2,…,u-1。
需要說明的是,含有u個水平的因素只需u-1個變量。若引入u個變量X1,X2,…,Xu分別對應u個水平,由于可控因素每次觀測當且僅當取其中一個水平,即X1+X2+…+Xu≡1,從而導致自變量間線性相關(guān),也意味著回歸系數(shù)最小二乘估計將不唯一。
試驗結(jié)果與可控因素之間有線性回歸模型:
觀測數(shù)據(jù)符號仍與2.1節(jié)相同,則滿足:
引入矩陣:
從而觀測數(shù)據(jù)也有形如式(3)的矩陣形式:
經(jīng)計算有:
代入式(4)有回歸系數(shù)的估計:
式(12)表明,引入的u-1個虛擬變量相當于,將某個水平(根據(jù)本文的定義,為第u個)作為參照或基準,其余u-1個水平都與其進行比較。
將式(12)代入式(5)有因變量的估計:
根據(jù)式(7)有多元線性回歸模型中樣本離差分解:
對比單因素方差分析的樣本離差分解有:
除了隨機因素,雙因素試驗的結(jié)果(Y)不僅受到兩個可控因素(U有u個水平,V有v個水平)各自單獨影響,可能還包括二者共同影響。共需引入三類變量分別表述,定義如下。
其中i=1,2,…,u-1,j=1,2,…,v-1。試驗結(jié)果與可控因素之間有線性回歸模型:
其中δ,αi,βj,γij為回歸系數(shù)。觀測數(shù)據(jù)符號仍與2.2節(jié)相同,則滿足:
引入矩陣:
算子Vec將矩陣重排成一個列向量,即矩陣γ的元素γij排在向量Vec(γ)的第 (i-1)(v-1)+j個位置。并記1K為元素全為1的K維列向量,0K×u元素全為0的K行u列矩陣,IK1×K2(K3)表示K1行K2列的矩陣,其中第K3列為1,其余全為0。
式(15)可分別表示成矩陣形式:
其中i=1,2,…,u-1,j=1,2,…,v-1。再引入分塊矩陣
則式(16)可在形式上統(tǒng)一表示為:
容易得到回歸系數(shù)的最小二乘估計:
具體地:
式(19)表明,引入的uv-1個虛擬變量相當于,將某個水平組合(根據(jù)本文的定義,為因素U的第u個水平因素V的第v個水平)作為參照,其余都與其進行比較。
從而有因變量的估計:
將式(19)代入到上式并整理有:
根據(jù)式(7)有多元線性回歸模型的樣本離差分解:
進一步地,回歸平方和還可繼續(xù)分解:
從而,回歸方程顯著性檢驗也細分為三部分:
(1)若檢驗因素U對應系數(shù)αi,i=1,2,…,u-1的顯著性,需判斷是否成立;
(2)若檢驗因素V對應系數(shù)βj,j=1,2,…,v-1的顯著性,需判斷是否成立;
(3)若檢驗交互效應對應系數(shù)γij,i=1,2,…,u-1,j=1,2,…,v-1的顯著性,需判斷是否成立。
顯然,上述結(jié)論與帶交互效應雙因素方差分析的F檢驗完全一致。
事先根據(jù)實踐經(jīng)驗和相關(guān)專業(yè)知識,如果知道兩可控因素間不存在或者不具有明顯的交互效應,則每種因素組合只需安排一次試驗,也可按照此思路建立多元線性回歸模型。只需令交互效應項對應的系數(shù)恒取零即可。具體過程此處不予贅述。
本文針對方差分析中常見的單因素試驗和雙因素試驗,通過引入必要的虛擬變量描述可控因素的水平,從線性回歸角度重構(gòu)方差分析模型,并進一步得到以下結(jié)論:
(1)回歸系數(shù)的最小二乘估計,常數(shù)項系數(shù)為某個水平(或水平組合)下因變量的均值,因素單獨效應項的系數(shù)為相應水平下因變量均值與常數(shù)項之差,而交互效應項的系數(shù)需減掉該水平組合下兩因素各自的單獨效應項系數(shù)和常數(shù)項系數(shù)。
(2)水平或水平組合下因變量的均值即為相應因變量的估計。
(3)可控因素的單獨影響或與組合影響之和都為樣本總變差分解中的回歸平方和。
(4)因素顯著性的F檢驗等價于回歸方程的顯著性檢驗。
參考文獻:
[1]王松桂,陳敏,陳立萍.線性統(tǒng)計模型:線性回歸與方差分析[M].北京:高等教育出版社,1999.
[2]Fox J.Applied Regression Analysis and Generalized Linear Models[M].California:SAGE Publications Incorporated,2016.
[3]Kleinbaum D G,Kupper L L,Nizam A,et al.Applied Regression Anal?ysis and Other Multivariable Methods[M].California:Thomson Learn?ing Incorporated,2008.
[4]白雪梅,趙松山.回歸分析與方差分析的異同比較[J].江蘇統(tǒng)計,2000,(10).
[5]陳凌宇,王桂明.虛擬變量在方差分析中的應用[J].統(tǒng)計與決策,2009,(11).
[6]甘倫知.虛擬變量回歸與方差分析的聯(lián)系[J].統(tǒng)計與決策,2011,(8).
[7]劉曉華,許啟發(fā).方差分析與虛擬變量回歸模型的比較研究[J].統(tǒng)計與決策,2012,(7).