張?jiān)葡? 蘭凌
【摘要】在生物醫(yī)學(xué)以及質(zhì)量測評(píng)等領(lǐng)域中,時(shí)常會(huì)遇到兩獨(dú)立樣本的對(duì)比問題,而經(jīng)常會(huì)用到的參數(shù)檢驗(yàn)方式就是通過u檢驗(yàn)和t檢驗(yàn)。若所掌控的數(shù)據(jù)沒有達(dá)到u檢驗(yàn)或是t檢驗(yàn)的要求,那么采取非參數(shù)檢驗(yàn)的方式就能更好的解決此類問題。本文是通過教學(xué)案例以及R軟件對(duì)兩獨(dú)立樣本位置的非參數(shù)檢驗(yàn)進(jìn)行分析、說明。
【關(guān)鍵詞】非參數(shù)統(tǒng)計(jì) ?非參數(shù)檢驗(yàn) ?R軟件 ?Mann-Whit-ney-Wilcoxon檢驗(yàn)
【中圖分類號(hào)】G64 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2015)05-0253-02
1.前言
在生物醫(yī)學(xué)以及質(zhì)量測評(píng)等領(lǐng)域中,時(shí)常會(huì)遇到兩獨(dú)立樣本的對(duì)比問題,而經(jīng)常會(huì)用到的參數(shù)檢驗(yàn)方式就是通過u檢驗(yàn)和t檢驗(yàn)。u檢驗(yàn)和t檢驗(yàn)都是假設(shè)整體分布為正態(tài)分布,并且u檢驗(yàn)需要事先知曉總體的方差,而t檢驗(yàn)則需要滿足相同的總體方差。在進(jìn)行實(shí)際操作的過程中,因?yàn)榉N種原因,所要進(jìn)行分析的數(shù)據(jù)常常不能達(dá)到u檢驗(yàn)抑或是t檢驗(yàn)的標(biāo)準(zhǔn),從而導(dǎo)致了無法使用u檢驗(yàn)或者t檢驗(yàn)進(jìn)行參數(shù)檢驗(yàn)對(duì)比。如若依舊使用u檢驗(yàn)或t檢驗(yàn)的方法,那么將會(huì)得到錯(cuò)誤的判斷數(shù)據(jù)。因此在尚未得知數(shù)據(jù)的整體分布或整體分布是非正態(tài)分布的時(shí)候,應(yīng)怎么解決兩獨(dú)立樣本的對(duì)比問題呢?非參數(shù)檢驗(yàn)即是解決此類問題的最科學(xué)有效的辦法。
2.通過案例分析R軟件在非參數(shù)檢驗(yàn)的實(shí)用性
通過觀察到的樣本數(shù)據(jù)去估算出整體的分布數(shù)據(jù),這是統(tǒng)計(jì)推理的重點(diǎn)問題。比如整體的平均數(shù)的有關(guān)系數(shù)與回歸系數(shù)、區(qū)間估計(jì)或者是點(diǎn)估計(jì)的假設(shè)檢驗(yàn)等。統(tǒng)計(jì)推斷是為了對(duì)未知的參數(shù)進(jìn)行檢驗(yàn)或是估計(jì)。對(duì)統(tǒng)計(jì)分析方法來說,非參數(shù)檢驗(yàn)屬于其重要的形成部分。參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)共同形成了統(tǒng)計(jì)分析的基礎(chǔ)。參數(shù)檢驗(yàn)是在整體分列已經(jīng)明確的狀況下,對(duì)整體分列的數(shù)據(jù)進(jìn)行分析,但在實(shí)際操作的過程中,常常會(huì)因種種原因無法對(duì)整體分列的形態(tài)作出假設(shè),這時(shí)候就需要非參數(shù)檢驗(yàn)運(yùn)用樣本數(shù)據(jù)對(duì)整體分列的形態(tài)作出判斷,從而解決問題。R軟件里的Wilcox.test( )函數(shù)能夠運(yùn)用在Wilcoxon符號(hào)秩檢驗(yàn),在R軟件中輸進(jìn)help(Wilcox.tes)就能夠詳細(xì)了解它的使用方法和功能。接下來筆者將結(jié)合案例來說明R軟件在兩獨(dú)立樣本位置的非參數(shù)檢驗(yàn)中的實(shí)用性。例:甲公司有9名員工,乙公司有11名員工,他們的工資(單位:千元)如下表:
問:哪家公司的員工工資較高?
解法1:運(yùn)用t檢驗(yàn),假設(shè)甲公司(X)和乙公司(Y)的員工工資分別符合正態(tài)分布N(μ1,σ2)和N(μ2,σ2),假設(shè)檢驗(yàn)問題:H0∶μ1=μ2;H1∶μ1≠μ2,運(yùn)用R軟件中的函數(shù)t.test( )進(jìn)行以下分析:
X=c(2,3,4,5,6,7,8,9,25)
Y=c(9,10,11,12,13,14,15,16,18,36,54)
t.test(X,Y,var.equal=TRUE)
從而運(yùn)算得出p值為0.2315>0.05,無法拒絕原假設(shè),因此認(rèn)為兩公司的員工工資基本無差異。
解法2:運(yùn)用Mann-Whitney-Wilcoxon檢驗(yàn),不對(duì)甲公司(X)和乙公司(Y)的分布進(jìn)行假設(shè),假設(shè)檢驗(yàn)問題:H0∶MX=MY;H1∶MX≠M(fèi)Y,運(yùn)用R軟件中的函數(shù)Wilcox.test( ? )進(jìn)行以下分析:
wilcox.test(X,Y)
從而運(yùn)算得出p值為 0.009016<0.05, 拒絕原假設(shè),因此認(rèn)為兩公司的員工工資有著明顯差異。
通過運(yùn)用t檢驗(yàn)和Mann-Whitney-Wilcoxon檢驗(yàn)對(duì)該組數(shù)劇進(jìn)行分析,得出了不同的結(jié)果。根據(jù)數(shù)據(jù)來看,甲公司的員工工資明顯要比乙公司的低,t檢驗(yàn)得到的結(jié)果與數(shù)據(jù)不相符,根本原因就在于運(yùn)用t檢驗(yàn)的時(shí)候假設(shè)了整體的分布是正態(tài)分布,但是兩個(gè)企業(yè)的員工工資并不屬于正態(tài)分布。所以當(dāng)假設(shè)違逆了實(shí)際數(shù)據(jù)的時(shí)候,運(yùn)用t檢驗(yàn)得出的分析結(jié)論是不正確的。由于Mann-Whitney-Wilcoxon檢驗(yàn)沒有對(duì)數(shù)據(jù)進(jìn)行任何的假設(shè),從而得出了更加科學(xué)合理的分析結(jié)果。
3.結(jié)束語
在解決問題的過程中,想要選擇出準(zhǔn)確的方案來對(duì)比分析兩獨(dú)立樣本,值得關(guān)注的是要分析的數(shù)據(jù)有沒有滿足所選擇的檢驗(yàn)方法的假設(shè)要求,比如在選用t檢驗(yàn)方法的時(shí)候,運(yùn)用柯爾莫哥洛夫檢驗(yàn)方法對(duì)數(shù)據(jù)進(jìn)行分析它是否為正態(tài)分布,兩樣本的正態(tài)整體的方差相不相等,唯有滿足了這些條件,才能夠使用t檢驗(yàn)方法。如若完全不知曉兩樣本的整體分列,那就不妨運(yùn)用非參數(shù)檢驗(yàn)方式來進(jìn)行分析數(shù)據(jù)。值得一提的是,如果所要分析的數(shù)據(jù)可以運(yùn)用參數(shù)檢驗(yàn)方式進(jìn)行檢驗(yàn)的時(shí)候,仍舊采取非參數(shù)檢驗(yàn)方式解析該數(shù)據(jù),會(huì)造成檢驗(yàn)成果的丟失,這是因?yàn)榉菂?shù)檢驗(yàn)沒有將數(shù)據(jù)信息充分使用。
參考文獻(xiàn):
[1]吳喜之,趙博娟.非參數(shù)統(tǒng)計(jì)[M].北京:中國統(tǒng)計(jì)出版社.2010:350-461.