孫豐霖,類淑河
(中國(guó)海洋大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山東 青島 266100)
社會(huì)調(diào)查往往會(huì)收集到大量的定性數(shù)據(jù),一般分為無(wú)序的名義數(shù)據(jù)(Nominal Data)和有順序概念的有序數(shù)據(jù)(Ordinal Data)[1],它們所代表的總體分別是名義變量和有序變量。“有序”是指對(duì)變量進(jìn)行分類并按照一定的順序排列,不同類別之間的距離并不需要相等的一種測(cè)量尺度[2]。對(duì)于有序數(shù)據(jù)的數(shù)據(jù)分析,以一種定量的方式,比如按照順序的概念進(jìn)行賦值在數(shù)據(jù)處理中十分有益[3]。雖然可以簡(jiǎn)單的將有序變量賦值1,2,…,k,但這些數(shù)字除了有次序關(guān)系以外并沒(méi)有實(shí)際意義。均值、方差以及協(xié)方差對(duì)這類數(shù)據(jù)也是沒(méi)有意義的[4]。例如:對(duì)一種商品售后服務(wù)的滿意程度有:1很滿意、2滿意、3尚可、4不滿意、5十分不滿意。雖然“1很滿意”和“2滿意”的差距與“3尚可”和“4不滿意”之間數(shù)字差距都為1,但不能認(rèn)為二者之間的真實(shí)差距是相同的。因此,用于連續(xù)型數(shù)據(jù)的方法不能簡(jiǎn)單地應(yīng)用到有序數(shù)據(jù)上,否則,所得到結(jié)果往往是粗糙甚至完全錯(cuò)誤的。如果能夠?qū)τ行蜃兞窟M(jìn)行合理的賦值,找到各個(gè)類別真實(shí)的代表值,有序數(shù)據(jù)就變成了一種特殊的計(jì)數(shù)數(shù)據(jù)(取值離散、有限但非整數(shù)),此時(shí),均值、方差以及協(xié)方差等量就存在意義,應(yīng)用于連續(xù)數(shù)據(jù)的模型和方法就能夠應(yīng)用到各類別的代表值上來(lái)。丁元林、孔丹莉(2005)[5]借助層次分析法來(lái)對(duì)各類別進(jìn)行量化,雖然能夠一定程度上解決各類別之間等距的問(wèn)題,但還是存在較強(qiáng)的主觀性。因此,一種客觀的賦值方法對(duì)于有序變量的處理十分關(guān)鍵。
多總體均值的比較問(wèn)題在實(shí)際數(shù)據(jù)分析中十分常見(jiàn)。在許多領(lǐng)域,ANOVA是最常用的統(tǒng)計(jì)方法之一[6]。當(dāng)數(shù)據(jù)滿足正態(tài)性和方差齊性時(shí),ANOVA的F檢驗(yàn)被認(rèn)為是最簡(jiǎn)單也是最優(yōu)的方法。不過(guò)當(dāng)假定不滿足時(shí),F(xiàn)檢驗(yàn)就會(huì)變得無(wú)效。針對(duì)正態(tài)異方差情況,已經(jīng)有許多檢驗(yàn)方法可以使用,如Weerahandi(1995)[7],Krishnamoorthya、Lu、Mathew(2007)[8]等。對(duì)于非正態(tài)異方差情況,Luh和Guo(1999)[6]提出了一種具有較好穩(wěn)健性的方法。此外,還可以對(duì)數(shù)據(jù)進(jìn)行正態(tài)化,不過(guò)正態(tài)化的方法有多種多樣,往往難以做出最優(yōu)的選擇,有時(shí)還會(huì)存在解釋上的困難[9]。其他處理非正態(tài)的方法還有使用更加穩(wěn)健的位置參數(shù)代替均值或者使用秩方法[10],比如Wilcoxon秩和檢驗(yàn)、Kruskal-Wallis秩和檢驗(yàn)等。不過(guò)需要注意到,從連續(xù)型數(shù)據(jù)轉(zhuǎn)化為秩數(shù)據(jù)時(shí)會(huì)令原始數(shù)據(jù)損失一部分信息。
以上方法都是針對(duì)連續(xù)型數(shù)據(jù)而言的方法,當(dāng)數(shù)據(jù)來(lái)自有序變量時(shí),數(shù)據(jù)的不連續(xù)性和打結(jié)現(xiàn)象(數(shù)據(jù)中存在相同的數(shù)字)會(huì)使得前面的方法都不夠穩(wěn)健或者無(wú)法使用,這就對(duì)新的檢驗(yàn)方法提出了要求。Lu、Poon、Cheung(2015)[11]提出了針對(duì)有序數(shù)據(jù)的多重比較方法,通過(guò)正態(tài)潛變量模型解決有序數(shù)據(jù)的一元多總體期望是否一致的問(wèn)題,該方法假定觀測(cè)到的有序數(shù)據(jù)是對(duì)某一潛在的連續(xù)正態(tài)變量的一種粗略度量,通過(guò)對(duì)潛變量總體均值的兩兩比較來(lái)得出結(jié)果。魯統(tǒng)宇等(2016)[4]在實(shí)際的社會(huì)調(diào)查數(shù)據(jù)中應(yīng)用了此方法,并通過(guò)Bonferroni校正來(lái)控制總體錯(cuò)誤率,由于沒(méi)有考慮檢驗(yàn)統(tǒng)計(jì)量之間的相關(guān)性,檢驗(yàn)的功效比較低。
本文提出了一種針對(duì)有序數(shù)據(jù)的一元單因素方差分析方法。首先通過(guò)潛變量模型對(duì)有序數(shù)據(jù)進(jìn)行客觀合理的賦值,計(jì)算各個(gè)類別真實(shí)的代表值。此時(shí),有序數(shù)據(jù)就轉(zhuǎn)化為可以進(jìn)行數(shù)學(xué)運(yùn)算的量。然后,通過(guò)ANOVA來(lái)檢驗(yàn)多組別數(shù)據(jù)總體期望是否一致。鑒于ANOVA要求各組別數(shù)據(jù)應(yīng)滿足正態(tài)性和方差齊性,因此采用Bootstrap方法重抽樣進(jìn)行重構(gòu)數(shù)據(jù)。根據(jù)中心極限定理,合適的自助樣本容量可以保證重構(gòu)后的數(shù)據(jù)滿足正態(tài)性,在保證正態(tài)性的基礎(chǔ)上對(duì)各總體的自助樣本容量進(jìn)行調(diào)整,可以令各組重構(gòu)數(shù)據(jù)的方差近似相等,這樣重構(gòu)數(shù)據(jù)就滿足了正態(tài)性和方差齊性。該過(guò)程保證了重構(gòu)數(shù)據(jù)與原始數(shù)據(jù)有相同的總體均值,接下來(lái)利用一元單因素ANOVA方法檢驗(yàn)重構(gòu)數(shù)據(jù)的均值是否一致,對(duì)重構(gòu)數(shù)據(jù)進(jìn)行的方差分析也就是對(duì)原始數(shù)據(jù)均值信息的假設(shè)檢驗(yàn)。
對(duì)于有序變量z,假定存在一個(gè)潛在的連續(xù)變量x。連續(xù)變量x代表z在各類別下潛在的真實(shí)值,通常假設(shè)x的取值范圍是從-∞到+∞,潛變量x可以用于有連續(xù)性要求的統(tǒng)計(jì)方法和模型。如果z有m個(gè)類別,標(biāo)記為1,2,…,m,則有序變量z和潛變量x的關(guān)系是:
其中:
τi(i=0,1,…,m)稱為臨界值。因?yàn)樵谟行驍?shù)據(jù)中所獲得的都是z的信息,而潛變量x的分布并沒(méi)有任何信息。原則上來(lái)說(shuō),可以選擇任何連續(xù)型分布作為潛變量的分布函數(shù)。但在實(shí)際應(yīng)用中,正態(tài)分布應(yīng)該是潛變量最常見(jiàn)的分布,因此假設(shè)潛變量x服從標(biāo)準(zhǔn)正態(tài)分布對(duì)處理問(wèn)題是十分方便的[12]。記標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)為φ(x),分布函數(shù)為Φ(x)。有序變量z取值為i的概率為:
于是:
Φ-1是標(biāo)準(zhǔn)正態(tài)分布的逆變換。由于在實(shí)際中,pi是未知總體的量,一般用的所對(duì)應(yīng)的類別的樣本頻率 pi來(lái)代替,即:
各個(gè)類別的臨界值確定后,可以通過(guò)計(jì)算積分平均值的方法得到各類別的代表值,即:
接下來(lái)就可以將ai作為各類別的真實(shí)代表值計(jì)算均值、方差、協(xié)方差等。當(dāng)假設(shè)潛變量服從[0,c]區(qū)間上的均勻分布時(shí),就簡(jiǎn)化為陳民肯(2007)[13]中的秩分析方法。
得到各類別的代表值后,k組有序數(shù)據(jù)就可以表達(dá)成來(lái)自k個(gè)服從離散分布的隨機(jī)變量的樣本。設(shè)ξi(i=1,2,…,k)是相互獨(dú)立的隨機(jī)變量,概率分布為:
下面進(jìn)行數(shù)據(jù)重構(gòu):給定自助樣本容量m1,m2,…,mk和自助樣本數(shù)量n1,n2,…,nk,從x1中有放回的隨機(jī)抽取m1個(gè)樣本,求所抽出樣本的均值上述步驟重復(fù)n1次,可以從x1中得到重構(gòu)數(shù)據(jù),當(dāng)m1足夠大時(shí),由中心極限定理可得。對(duì)總體G2至Gk也進(jìn)行上述步驟,可以得到各個(gè)總體的重構(gòu)數(shù)據(jù)y2,…,yk。當(dāng)m2,…,mk足夠大時(shí),各總體的重構(gòu)數(shù)據(jù)服從相應(yīng)的正態(tài)分布。事實(shí)上,當(dāng)m1,m2,…,mk足夠大時(shí),可以保證各組數(shù)據(jù)正態(tài)性,在此基礎(chǔ)上調(diào)整m1,m2,…,mk的取值可以令各重構(gòu)樣本的方差相近,這樣重構(gòu)數(shù)據(jù)就滿足數(shù)據(jù)正態(tài)性和方差齊性條件。在實(shí)際應(yīng)用中,總體方差一般是未知的,可以用樣本方差替代。下面對(duì)重構(gòu)數(shù)據(jù)y1,y2,…,yk進(jìn)行方差分析。記:
當(dāng)原假設(shè)成立時(shí),由yij之間的獨(dú)立性和正態(tài)性,可以得到:
假設(shè)變量已經(jīng)能夠得到客觀合理的賦值,驗(yàn)證上文中重構(gòu)數(shù)據(jù)和ANOVA方法。以組別k=2,3,5為例,簡(jiǎn)單起見(jiàn),假設(shè)各組別的原始樣本量s和自助樣本數(shù)量n相同。以s=50,100,150,200,250,300;n=10,15,20,25,30為例,隨機(jī)生成k組總體均值相同相互獨(dú)立的隨機(jī)樣本,計(jì)算在α=0.05和0.01兩種情況下,該方法對(duì)原假設(shè)的拒絕率,即實(shí)際error I(每個(gè)s和n的組合進(jìn)行105次實(shí)驗(yàn)),結(jié)果見(jiàn)下頁(yè)表1。
表1 k=2,3,5時(shí)實(shí)際error I
從表1可以發(fā)現(xiàn):無(wú)論自助樣本數(shù)量和樣本量取何值,實(shí)際error I都會(huì)發(fā)生不同程度“膨脹”現(xiàn)象。不過(guò)隨著樣本量的增大,實(shí)際error I會(huì)越來(lái)越接近名義error I。隨著自助樣本數(shù)量增加,實(shí)際error I會(huì)逐漸增大,這是因?yàn)樽灾鷺颖緮?shù)量增大會(huì)導(dǎo)致檢驗(yàn)的均值越來(lái)越趨近于樣本均值,如果樣本均值與總體均值有一定差距的話,會(huì)傾向于拒絕原假設(shè)。當(dāng)類別數(shù)增大時(shí),實(shí)際error I也會(huì)有一定程度的增加。在實(shí)際應(yīng)用中,可以采取如下方法控制實(shí)際error I:
(1)增大原始樣本量。樣本量的增大會(huì)使得樣本與總體差距越來(lái)越小,樣本代表總體的程度也越來(lái)越好,實(shí)際的兩類錯(cuò)誤都會(huì)得到控制。現(xiàn)如今,數(shù)據(jù)量往往不再成為限制統(tǒng)計(jì)的一個(gè)難題,科技的發(fā)展讓大量樣本的獲取成為可能,使得該方法有一定的應(yīng)用空間。當(dāng)樣本量由于獲取手段、環(huán)境等因素不可增加時(shí),可采取方法(2)、方法(3)。
(2)減小名義error I。雖然該方法的實(shí)際error I無(wú)法達(dá)到名義error I,但可以通過(guò)降低名義error I來(lái)控制實(shí)際error I。例如表1中,當(dāng)k=2、s=300、n=10時(shí),給定α=0.05,但此時(shí)實(shí)際error I達(dá)到0.14,但如果將α減小到0.01時(shí),實(shí)際error I就可以控制到0.05。
(3)進(jìn)行多次檢驗(yàn)。由于本文方法的核心是通過(guò)重抽樣進(jìn)行重構(gòu)樣本,所以允許進(jìn)行多次抽樣和假設(shè)檢驗(yàn)。例如制定策略:進(jìn)行10次重抽樣和假設(shè)檢驗(yàn),當(dāng)有6次或者6次以上拒絕原假設(shè)時(shí),得出拒絕原假設(shè)的結(jié)論。當(dāng)k=2、s=300、n=10、α=0.05時(shí),實(shí)際error I為0.29,如果采用該策略,實(shí)際error I就會(huì)降低到0.04<α=0.05。
秩方法和潛變量模型都可以對(duì)有序變量進(jìn)行客觀地賦值,雖然前者更加簡(jiǎn)單和易于理解,但在實(shí)際中,后者應(yīng)該是更為合適的選擇。重構(gòu)數(shù)據(jù)的過(guò)程將有序數(shù)據(jù)轉(zhuǎn)化為連續(xù)數(shù)據(jù),在轉(zhuǎn)換過(guò)程中把原始數(shù)據(jù)的總體均值的信息保留下來(lái)。在這一過(guò)程中,確定合適的自助樣本容量m、自助樣本數(shù)量n和名義error I十分關(guān)鍵,前者保證了重構(gòu)數(shù)據(jù)的正態(tài)性和方差齊性,后兩者保證了假設(shè)檢驗(yàn)結(jié)論的正確性,防止誤判的發(fā)生。由于Bootstrap方法是可放回的隨機(jī)抽樣,該方法對(duì)原始樣本數(shù)量并沒(méi)有要求。當(dāng)樣本質(zhì)量較高時(shí),即樣本均值、方差等與總體一致,即使是小樣本情況,該方法在控制實(shí)際error I和error II方面都有很好的效果。不過(guò),更穩(wěn)妥的適用范圍應(yīng)該是在大樣本情況。雖然在普通樣本下,會(huì)導(dǎo)致該方法的實(shí)際error I明顯偏大,但可以通過(guò)增大原始樣本量、降低名義error I和進(jìn)行多次試驗(yàn)來(lái)解決出現(xiàn)的“膨脹”現(xiàn)象。如果一味地選擇降低名義error I,雖然可以使得實(shí)際error I降低到給定值,但這樣做可能會(huì)使實(shí)際error II增加,所以解決方法(2)和方法(3)配合使用時(shí)往往能產(chǎn)生很好的效果,這也是該方法的優(yōu)勢(shì)所在。
本文實(shí)際上為多總體一元有序數(shù)據(jù)提供了一種簡(jiǎn)單的比較總體均值一致性的參數(shù)方法,為社會(huì)調(diào)查數(shù)據(jù)分析者提供了一種解決多組別比較問(wèn)題的手段。由于本文只考慮了單因素情況的ANOVA,如何將其應(yīng)用到多因素甚至多元ANOVA中及該方法的效果有待進(jìn)一步研究。
參考文獻(xiàn):
[1]張堯庭等.定性資料的統(tǒng)計(jì)分析[M].南寧:廣西師范大學(xué)出版社,1991.
[2]Vogt W P,Johnson R B.Dictionary of Statistics&Methodology:A Nontechnical Guide for the Social Sciences[M].Newcastle:Sage,2011.
[3]Agresti A.An Introduction to Categorical Data Analysis[M].New Jersey:John Wiley&Sons,2007.
[4]魯統(tǒng)宇,劉春雨,王珮.社會(huì)調(diào)查數(shù)據(jù)中的多組別比較分析[J].統(tǒng)計(jì)與決策,2016,(12).
[5]丁元林,孔丹莉.對(duì)比標(biāo)度權(quán)重法在量化有序多分類變量中的應(yīng)用[J].數(shù)理醫(yī)藥學(xué)雜志,2005,18(1).
[6]Luh W M,Guo J H.A Powerful Transformation Trimmed Mean Method for One-way Fixed Effects ANOVA Model Under Non-normality and Inequality of Variances[J].British Journal of Mathematical and Statistical Psychology,1999,52(2).
[7]Weerahandi S.Anova Under Unequel Error Variances[J].Biometrics,1995.
[8]Krishnamoorthy K,Lu F,Mathew T.A Parametric Bootstrap Approach for ANOVA With Unequal Variances:Fixed and Random Models[J].Computational Statistics&Data Analysis,2007,51(12).
[9]鮑貴.方差分析穩(wěn)健性的蒙特卡羅研究[J].外語(yǔ)研究,2004,(1).
[10]吳喜之.非參數(shù)統(tǒng)計(jì)[M].北京:中國(guó)統(tǒng)計(jì)出版社,1999.
[11]Lu T Y,Poon W Y,Cheung S H.Multiple Comparisons With a Control for a Latent Variable Model With Ordered Categorical Responses[J].Statistical Methods in Medical Research,2015,24(6).
[12]J?reskog K G.Structural Equation Modeling With Ordinal Variables Using LisrEL[R].Technical Report,Scientific Software International,Inc.,Lincolnwood,IL,2005.
[13]陳民肯.多分類有序變量間距差異的統(tǒng)計(jì)分析與實(shí)際應(yīng)用[D].廈門:廈門大學(xué)碩士學(xué)位論文,2007.