陳壽雨
【摘要】針對(duì)統(tǒng)計(jì)學(xué)教學(xué)過(guò)程中有關(guān)方差分析教學(xué)內(nèi)容的重點(diǎn)和難點(diǎn)問(wèn)題,通過(guò)結(jié)合一個(gè)具體的例子來(lái)講解方差分析的概念、原理和前提條件等知識(shí)點(diǎn),有助于克服方差分析教學(xué)內(nèi)容較為抽象、理論性較強(qiáng)的難點(diǎn),從而更好地幫助學(xué)生理解和掌握方差分析的知識(shí)。
【關(guān)鍵詞】統(tǒng)計(jì)學(xué)、教學(xué)方法? 方差分析(ANOVA )? 萊文方差等同性檢驗(yàn)
一、引言
方差分析是一種常用的統(tǒng)計(jì)分析方法,屬于統(tǒng)計(jì)學(xué)教學(xué)中的重點(diǎn)和難點(diǎn)之一。從統(tǒng)計(jì)方法上課,方差分析是較為復(fù)雜的一種假設(shè)檢驗(yàn)的方法,回歸分析的結(jié)果中也涉及到方差分析的內(nèi)容,所以對(duì)學(xué)習(xí)統(tǒng)計(jì)學(xué)課程的學(xué)生來(lái)說(shuō),正確理解和掌握方差分析的思想和原理顯然非常重要。但從授課教師的角度,一些教師往往會(huì)發(fā)現(xiàn)方差分析的內(nèi)容不好講,也講不好,無(wú)法讓學(xué)生較好地理解方差分析的原理。本文基于筆者多年統(tǒng)計(jì)學(xué)課程教學(xué)的經(jīng)驗(yàn)總結(jié),圍繞方差分析的概念、原理和前提條件等教學(xué)內(nèi)容,與同行探討教學(xué)方法。
二、方差分析的概念
方差分析(Analysis of Variance,縮寫(xiě)為ANOVA),是由英國(guó)統(tǒng)計(jì)與遺傳學(xué)家,現(xiàn)代統(tǒng)計(jì)科學(xué)的奠基人之一,R.A.Fisher發(fā)明的,用于檢驗(yàn)多個(gè)總體均值是否全相等的一種統(tǒng)計(jì)推斷方法。例如,一個(gè)國(guó)家不同地區(qū)的成年男性平均身高是否相等呢?對(duì)于該問(wèn)題的分析就可以使用方差分析的方法。假設(shè)該國(guó)分為北部、中部和南部等三個(gè)區(qū)域,成年男性平均身高分別用來(lái)表示,則相應(yīng)零假設(shè)和備擇假設(shè)為:
H0:μ1=μ2=μ3? ?H1:μj不相等,j=1,2,3
如果最后零假設(shè)無(wú)法被拒絕,可以得出三個(gè)地區(qū)成年男性的平均身高不存在顯著差異,即地區(qū)因素對(duì)身高沒(méi)有影響;反之,如果最后拒絕零假設(shè),從而支持被擇假設(shè),則可以得出三個(gè)地區(qū)成年男生的平均身高存在顯著差異,至少有一個(gè)地區(qū)的平均身高與另一個(gè)地區(qū)不一樣,說(shuō)明地區(qū)因素對(duì)身高有影響。因此,方差分析也可以用于研究一個(gè)自變量(通常為分類變量)對(duì)別一個(gè)變量(數(shù)值變量)是否有影響的問(wèn)題。如果只涉及到一個(gè)自變量,該方差分析方法稱為單因素方差分析,涉及兩個(gè)自變量則稱為雙因素方差分析。本文主要圍繞單因素方差分析的教學(xué)。方差分析的名稱容易造成學(xué)生的誤解,使一些學(xué)生誤認(rèn)為方差分析是比較多個(gè)總體方差。其實(shí),方差分析是用來(lái)比較總體均值是否相同的,但由于使用計(jì)算“方差”的方法,故把該方法稱作方差分析。
三、方差分析的原理
為了比較多個(gè)總體的均值是否相等,方差分析將通過(guò)計(jì)算樣本數(shù)據(jù)的方差大小進(jìn)行判斷。假設(shè)在北部、中部和南部分別隨機(jī)、獨(dú)立地抽取一定樣本容量的樣本,這里為了便于分析,從三地分別抽取3名成年男性,樣本容量為9,并記錄身高的樣本數(shù)據(jù),如下圖所示。
方差分析就是比較樣本數(shù)據(jù)中北部、中部和南部這三組數(shù)據(jù)的組間方差和各組數(shù)據(jù)的組內(nèi)方差的大小,并構(gòu)造F檢驗(yàn)統(tǒng)計(jì)量進(jìn)行檢驗(yàn)。組間方差度量樣本數(shù)據(jù)中組與組之間的變異,從數(shù)據(jù)結(jié)構(gòu)的角度看表現(xiàn)為數(shù)據(jù)的橫向差異。造成組間數(shù)據(jù)變異有兩個(gè)因素,一個(gè)是地區(qū)因素,另一個(gè)是隨機(jī)因素。組內(nèi)方差度量樣本數(shù)據(jù)中各組內(nèi)部的數(shù)據(jù)變異,是由于抽樣的隨機(jī)性導(dǎo)致,表現(xiàn)為數(shù)據(jù)的縱向差異。如果組間數(shù)據(jù)的方差明顯地超過(guò)組內(nèi)數(shù)據(jù)的方差,很可能表明地區(qū)因素會(huì)顯著影響成年男性的身高,從而不同地區(qū)成年男性的平均身高存在差異。
為了計(jì)算組間方差(MSA),需要先求組間平方和(SSA)和相應(yīng)的自由度(C-1),其中C為組數(shù),這里為3。組間方差等于組間平方和與相應(yīng)自由度的比值。
MSA=
組間平方和用每組的均值與所有數(shù)據(jù)的均值之差的平方再乘以該組觀測(cè)值的個(gè)數(shù)來(lái)表示。組間平方和越大,說(shuō)明各組之間的數(shù)據(jù)差異越大,當(dāng)然如果組數(shù)越多組間平方和也會(huì)越大,因此這里不用直接用平方和直接進(jìn)行比較。
為了計(jì)算組內(nèi)方差(MSW),需要先求組內(nèi)平方和(SSW)和相應(yīng)的自由度(N-C),其中N為所有觀測(cè)值的個(gè)數(shù),這里為9。組內(nèi)方差等于組內(nèi)平方和與相應(yīng)自由度的比值。
MSA=
組內(nèi)平方和用每組的觀測(cè)值與該組數(shù)據(jù)的均值之差的平方和來(lái)表示。組內(nèi)平方和越大,說(shuō)明各組內(nèi)部的數(shù)據(jù)差異越大,當(dāng)然如果各組的觀測(cè)值越多,則組內(nèi)平方和也會(huì)越大。
有了組間方差和組內(nèi)方差,就可以造成出F檢驗(yàn)統(tǒng)計(jì)量,再與臨界值比較,可以就以做出統(tǒng)計(jì)決策。
FSTAT=
其中,服從分子自由度為C-1,分母自由度為N-C的F分布,其臨界值可以在指定顯著性水平下通過(guò)查表獲得。
在樣本量較大情況下,手工計(jì)算顯然耗時(shí)耗力,方差分析的相關(guān)
算一般需要通過(guò)統(tǒng)計(jì)軟件來(lái)完成。以下是用EXCEL進(jìn)行方差分析的輸出結(jié)果。
EXCEL共輸出2個(gè)表格,第一個(gè)表格是對(duì)樣本數(shù)據(jù)進(jìn)行描述分析,從中可以發(fā)現(xiàn)各組觀測(cè)值的個(gè)數(shù)、均值和方差。第二個(gè)表格為方差分析的結(jié)果。方差分析把數(shù)據(jù)的差異區(qū)分為組間差異和組間差異,SS為平方差,從表中可以SSA=0.020,SSW=0.018,df為自由度,組間平方和對(duì)應(yīng)的自由度C-1=2,組內(nèi)平均和對(duì)應(yīng)的自由度為N-C=6。MS為均方,組間均方MSA=0.010,組內(nèi)均方MSW=0.003。F為檢驗(yàn)統(tǒng)計(jì)量,其值為MSA/MSW=3.307。在0.05顯著性水平下,F(xiàn)的臨界值約為5.14。如果使用P值法進(jìn)行假設(shè)檢驗(yàn),EXCEL也給了相應(yīng)的P值,約為0.108。根據(jù)EXCEL單因素方差分析的輸出結(jié)果,不管使用臨界值還是P值法,在0.05的顯著性水下,我們都可以得出不拒絕零假設(shè)的結(jié)論,即三個(gè)地區(qū)成年男性的平均身高不存在顯著差異,同時(shí)也表明地區(qū)因素沒(méi)有顯著地影響成年男生的身高。
四、方差分析的前提條件
在統(tǒng)計(jì)方法的教學(xué)過(guò)程中,都要強(qiáng)調(diào)使用某種統(tǒng)計(jì)方法的前提假設(shè)條件,如果條件滿足,就不能使用相應(yīng)的統(tǒng)計(jì)方法。在方差分析的教學(xué)過(guò)程中,同樣需要強(qiáng)調(diào)方差分析的三個(gè)前提假設(shè),即樣本是隨機(jī)、獨(dú)立抽樣的,每個(gè)總體是正態(tài)分布并且方差相等。其中抽樣的隨機(jī)性和獨(dú)立性相對(duì)容易做到,總體是否為正態(tài)分布可以通過(guò)直方圖等方法進(jìn)行判斷。最后總體方差相等是一個(gè)非常重要的條件,如果該條件不滿足,就不能進(jìn)行方差分析。如果各總組(各組)本身方差大小存在顯著差異,就不能從數(shù)據(jù)中發(fā)現(xiàn)由于地區(qū)因素造成的數(shù)據(jù)變異到底有多大。關(guān)于總體同方差假設(shè)是否成立可能用萊文方差等同性檢驗(yàn)來(lái)解決。
萊文方差等同性檢驗(yàn)第一步是對(duì)各組樣本數(shù)據(jù)排序,找中位數(shù);第二步計(jì)算各組觀測(cè)值與其中位數(shù)之差的絕對(duì)值;第三步對(duì)絕對(duì)值做單因素方差分析;第四步得出結(jié)論。
根據(jù)萊文方差等同性檢驗(yàn)的EXCEL輸出結(jié)果,可以得出三個(gè)地區(qū)成年男性身高的方差不存在顯著差異,可以進(jìn)行方差分析。
五、小結(jié)
針對(duì)統(tǒng)計(jì)學(xué)課程教學(xué)中相關(guān)方差分析的內(nèi)容較為抽象、理論性較強(qiáng)的特點(diǎn),為了幫助學(xué)生更好地掌握方差分析的知識(shí),筆者通過(guò)多輪的教學(xué)實(shí)踐,認(rèn)為從具體例子出發(fā),進(jìn)行啟發(fā)示教學(xué),比起一開(kāi)始就講授方差分析的理論知識(shí),能更利于學(xué)生的理解和掌握方差分析的內(nèi)容。
參考文獻(xiàn):
[1]萊文.商務(wù)統(tǒng)計(jì)學(xué)[M].中國(guó)人民大學(xué)出版社, 2017.
[2]安德森.經(jīng)濟(jì)與商務(wù)統(tǒng)計(jì)[M]. 機(jī)械工業(yè)出版社, 2017.
[3]賈俊平.統(tǒng)計(jì)學(xué)[M]. 中國(guó)人民大學(xué)出版社, 2018.