田 兵
(包頭師范學(xué)院 《陰山學(xué)刊》編輯部,內(nèi)蒙古 包頭 014030)
方差分析是研究一種或多種因素的變化對實驗結(jié)果的觀測值是否有顯著影響,從而找出較優(yōu)的試驗條件或生產(chǎn)條件的一種常用數(shù)理統(tǒng)計的方法.其被廣泛的應(yīng)用到社會各個領(lǐng)域.方差分析過程需要滿足若干條件F檢驗才能進行.但是在實際研究工作中,觀測得到的數(shù)據(jù)往往不能滿足這些條件.
在現(xiàn)實的研究中,我們遇到的數(shù)據(jù)常常具備以下特點:
(1)數(shù)據(jù)的總體分布類型未知;或
(2)數(shù)據(jù)的總體分布類型已知,但不符合正態(tài)分布;或
(3)某些變量可能無法精確測量.
對于類似的數(shù)據(jù),除了將數(shù)據(jù)進行變量替換或者是t檢驗以外,還可以使用非參數(shù)統(tǒng)計方法.參數(shù)統(tǒng)計是總體分布類型已知,用樣本值來對總體參數(shù)進行估計或者是做出假設(shè)檢驗的統(tǒng)計方法.非參數(shù)統(tǒng)計是拋開總體分布類型不考慮,對總體參數(shù)不做比較,比較的是總體分布的位置是否相同的統(tǒng)計方法.秩和檢驗是非參數(shù)統(tǒng)計中一種經(jīng)常使用的檢驗方法.這里的“秩”又可被稱為等級,即按照數(shù)據(jù)大小排定的次序號.此次序號的總和被稱為“秩和”.如果將所觀測的數(shù)據(jù)轉(zhuǎn)化為秩統(tǒng)計量,由于秩統(tǒng)計量的分布與總體分布無關(guān),這樣就可以避開總體分布的要求.上述問題就可以通過數(shù)據(jù)的秩統(tǒng)計量就解決了.
在比較兩個以上的總體時經(jīng)常使用Kruskal-Wallis秩和檢驗,它是對于兩個以上樣本進行比較的非參數(shù)檢驗方法.
Ri1,Ri2,…,Rini,i=1,2,…,m,
假設(shè)觀測值中無結(jié)點,即Ri1 H0:各處理方法的效果無顯著差異 能否接受. 為了構(gòu)造合適的檢驗統(tǒng)計量,只有原假設(shè)是不夠的,還應(yīng)對相應(yīng)的備擇假設(shè)有足夠的了解.Kruskal-Wallis秩和檢驗考慮的是最常見的一種備擇假設(shè),即各方法的處理效果如果有差異,其差異主要反映在各組個體處理效果的度量值的分離上.也就是說,如果這些方法的實際效果有明顯的區(qū)別,那么接受各種方法試驗的個體的秩之間有一個排序,其中某些方法中個體的秩趨于取較小值,另一些方法中個體的秩趨于取較大的值.下面針對此類備擇假設(shè)構(gòu)造檢驗統(tǒng)計量.令 其中Ri·是第i組個體的秩的平均值(i=1,2,…,m),R··是總的平均值.如果這些方法的實際效果之間有明顯的區(qū)別,按上述備擇假設(shè),則Ri·(i=1,2,…,m)相互差異較大.反之,若H0為真,由于分組時是隨機的,則各Ri·(i=1,2,…,m)差異應(yīng)較小,且都分散在R··附近.因此,可以用(Ri·-R··)2的加權(quán)來度量各Ei·與R··的接近程度.令 稱K為Kruskal-Wallis統(tǒng)計量.若H0不真,則K有偏大的趨勢.因此,其拒絕域形式為 K≥c 或者計算出相應(yīng)的P值.當(dāng)P值小于相應(yīng)的顯著性水平,則拒絕原假設(shè).上述檢驗方法稱為Kruskal-Wallis秩和檢驗. (1)等級數(shù)據(jù). (2)偏態(tài)分布數(shù)據(jù).當(dāng)觀察得到的數(shù)據(jù)表現(xiàn)出明顯的偏態(tài)分布卻沒有作變量變換,或變量變換后依舊未達到正態(tài)或近似正態(tài)分布,比較兩個以上的總體時宜用Kruskal-Wallis秩和檢驗. 公司背靠萬達商業(yè),跨區(qū)域開發(fā)能力突出,兼具高流量和低成本優(yōu)勢。大部分依托于萬達商業(yè)地產(chǎn),選址風(fēng)險和租金成本均低于行業(yè)平均。隨著萬達商業(yè)在三四線城市加速下沉,公司有望在三四線市場提高影響力。公司票房市占穩(wěn)定在13-15%,領(lǐng)先的放映技術(shù)和觀影體驗帶來高票價,NOC系統(tǒng)和大數(shù)據(jù)分析助力科學(xué)排片,提升上座率。隨著行業(yè)擴張回歸理性、中小院線出清,經(jīng)營效率高的龍頭有望提升盈利能力和市場占有率。 (3)方差不齊,且不能通過變量變換達到齊性. (4)個體數(shù)據(jù)偏離過大,一端或兩端無界的數(shù)據(jù). (5)分布類型不明. (1)對樣本所來自的總體分布形式?jīng)]有要求,不受總體分布限制,適用面廣. (2)收集資料方便,可用“等級”或“符號”來記錄觀察結(jié)果. (3)操作比較簡便,易于理解、掌握,容易計算. (1)不能充分利用信息,檢驗效能低,適用于參數(shù)檢驗的資料用Kruskal-Wallis秩和檢驗會降低檢驗效能. (2)得出的是各總體分布不同或不全相同的結(jié)論.若要對每兩個總體分布做出有無不同的推斷,需要作組間的兩兩比較. (3)編秩時相同值要取平均秩次;相同秩次較多時,統(tǒng)計量要校正. 以小白鼠為對象研究正常肝核糖核酸(RNA)對癌細胞的生物作用,試驗分別為對照組(生理鹽水),水層RNA組和酚層RNA組,分別用此3種不同處理方法誘導(dǎo)肝癌細胞的果糖二磷酸酯(FDP酶)活力,數(shù)據(jù)如表1所示,那么3種不同處理的誘導(dǎo)作用是否相同? 表1 3種不同處理的誘導(dǎo)結(jié)果 解 根據(jù)題意,原假設(shè) H0:試驗中3種誘導(dǎo)作用的效果無顯著差異,H1:試驗中3種誘導(dǎo)作用的效果有顯著差異. R軟件提供了Kruskal-Wallis秩和檢驗,對應(yīng)的函數(shù)為kruskal.test(),使用方法如下 kruskal.test(x,g,...) kruskal.test(formula,data,subset,na.action,...) 其中x是由數(shù)據(jù)構(gòu)成的向量或者是列表;g是由因子構(gòu)成的向量,當(dāng)x是列表時,此項無效;formula是方差分析的公式;data是數(shù)據(jù)框. 我們根據(jù)R軟件中的kruskal.test函數(shù)來解決這個問題. RNA<-data.frame( X=c(2.79,2.69,3.11,3.47,1.77,2.44,2.83,2.52, 3.83,3.15,4.70,3.97,2.03,2.87,3.65,5.09, 5.41,3.47,4.92,4.07,2.18,3.13,3.77,4.26), A=factor(rep(1:3,c(8,8,8))) ) kruskal.test(X~A,data=RNA) Kruskal-Wallis rank sum test data:X by A Kruskal-Wallis chi-squared=7.9322,df=2,p-value=0.01895 P=0.01895<0.05,H1為真,所以認為試驗中3種誘導(dǎo)作用的效果有顯著差異,3種誘導(dǎo)作用不同. 參考文獻: [1]何書元.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2006. [2]薛毅,陳立萍.統(tǒng)計建模與R軟件[M].北京:清華大學(xué)出版社,2007. [3]王松桂,陳敏,陳立萍.線性統(tǒng)計模型[M].北京;高等教育出版社,1999. [4]黃水平.多樣本資料的秩和比法與秩和檢驗的比較[J].中國衛(wèi)生統(tǒng)計,2002(6). [5]孫國強,馮長煥.關(guān)于秩和檢驗的一點討論[J].太原師范學(xué)院學(xué)報,2013(2). [6]王率濱.秩和檢驗的可靠性及其應(yīng)用[J].統(tǒng)計與咨詢,1994(4). [7]于長春.秩和檢驗-Kruskal-Wallis法和Nemenyi法在科室醫(yī)療質(zhì)量動態(tài)監(jiān)測中的應(yīng)用[J].中國醫(yī)院統(tǒng)計,2009(1). [8]王俊.實際應(yīng)用中方差分析與秩和檢驗結(jié)果比較[J].中國衛(wèi)生統(tǒng)計,2008(1).2 Kruskal-Wallis秩和檢驗的適用范圍及其優(yōu)缺點
2.1 適用范圍
2.2 優(yōu)點
2.3 缺點
3 實例