南方醫(yī)科大學(xué)公衛(wèi)學(xué)院生物統(tǒng)計學(xué)系(510515) 陳 靖 何春拉 潘建紅 陳平雁
生存數(shù)據(jù)通??煞譃橛袆h失和無刪失兩類。對于兩組或多組生存時間的比較,存在刪失數(shù)據(jù)時,logrank檢驗常作為首選方法;而無刪失數(shù)據(jù)時,除logrank檢驗外,不少學(xué)者推薦用Wilcoxon秩和檢驗〔1〕。那么,對于無刪失生存數(shù)據(jù)的比較,用logrank檢驗和Wilcoxon秩和檢驗?zāi)姆N方法更好?這是應(yīng)用中一個令人感興趣的問題。為此,我們采用Monte-Carlo模擬方法〔2,3〕,旨在比較兩種檢驗方法的統(tǒng)計性能,為此類數(shù)據(jù)處理提供依據(jù)。
(1)模擬方法及參數(shù)設(shè)置
比較Ⅰ型錯誤率時,從同一總體中獨(dú)立抽取2個樣本(模擬組數(shù)為2),模擬 Weibull分布,Gamma分布,lognormal分布和 loglogistic分布4種分布情形〔4〕。參數(shù)設(shè)置:Weibull分布和Gamma分布下,設(shè)定刻度參數(shù) λ1=λ2=1,形狀參數(shù) γ1=γ2=0.5;lognormal分布和loglogistic分布下,設(shè)定刻度參數(shù)μ1=μ2=1,形狀參數(shù)σ1=σ2=0.5。所有假設(shè)檢驗均為雙側(cè)檢驗,檢驗水準(zhǔn)為0.05。樣本量n按照均衡設(shè)計考慮,分別取10、20、30、40、50、60…180、190 和 200。對每一種總體分布和樣本量的組合,用SAS9.1.3軟件〔5〕產(chǎn)生來自同一總體的兩組獨(dú)立的生存數(shù)據(jù),每種組合的模擬次數(shù)均為10 000次,分別計算兩種統(tǒng)計方法檢驗結(jié)果P<0.05的次數(shù)在總的模擬次數(shù)10 000次中所占比例,即Ⅰ型錯誤率。
(2)模擬結(jié)果
圖1為四種不同分布下,Wilcoxon秩和檢驗和logrank檢驗隨樣本量變化的Ⅰ型錯誤率。可見,Wilcoxon秩和檢驗的Ⅰ型錯誤率的曲線絕大多數(shù)情形在logrank檢驗的下方,尤以n≤50時兩者的相差明顯,個別情形兩者重疊;此外,Wilcoxon秩和檢驗的Ⅰ型錯誤率基本上是在檢驗水準(zhǔn)0.05的附近波動,且幅度不大。由此可見,logrank檢驗有擴(kuò)大Ⅰ型錯誤率的風(fēng)險,尤其在n≤50情形下。
(1)模擬方法及參數(shù)設(shè)置
比較檢驗效能時,從不同總體中獨(dú)立的抽取2個樣本;模擬 Weibull分布(γ=0.5),Gamma分布(γ=1.5),lognormal分布(σ =1)和 loglogistic分布(σ =0.5)4種分布情形,檢驗水準(zhǔn)設(shè)為0.05。兩組樣本量n按照均2衡設(shè)計考慮,分別取10、30、50、70和100。設(shè)定刻度參數(shù) λ1(或 μ1)為 0.5,λ2(或 μ2)分別取0.65、0.80、0.95、1.10 和1.25,則兩總體差值(λ2- λ1或 μ1-μ2)分別為 0.15、0.30、0.45、0.60 和 0.75。每種組合模擬次數(shù)為10 000次,分別計算兩種統(tǒng)計方法統(tǒng)計推斷結(jié)果P<0.05的次數(shù)在總的模擬次數(shù)10000次中所占比例,即檢驗效能(1-β),并計算兩種檢驗方法檢驗效能的相對比,以logrank檢驗的檢驗效能為參照。
(2)模擬結(jié)果
模擬結(jié)果見表1(Weibull分布和Gamma分布)和表2(lognormal分布和loglogistic分布),當(dāng)兩總體差值一定時,Wilcoxon秩和檢驗與logrank檢驗都表現(xiàn)出檢驗效能隨樣本量增大而增大的趨勢;樣本量一定時,檢驗效能隨兩總體差值的增大而增大。
由表1見,Weibull分布和Gamma分布下兩種統(tǒng)計方法的檢驗效能比值≤1,說明以logrank檢驗的檢驗效能較高,兩者的差別以n≤50情況為甚。
由表2見,lognormal分布和loglogistic分布下兩種統(tǒng)計方法的檢驗效能比值除了n=10外基本在1以上,說明除了n=10外以Wilcoxon秩和檢驗的效能較高。
圖1 四種分布不同樣本量下Ⅰ型錯誤率比較
表1 Weibull和Gamma分布下兩種方法檢驗效能比較
表2 lognormal和loglogistic分布下兩種方法檢驗效能比較
Ⅰ型錯誤率和檢驗效能是反映統(tǒng)計方法之性能是否優(yōu)良的兩個重要指標(biāo),Ⅰ型錯誤率越接近檢驗水準(zhǔn)(本例取0.05),檢驗效能越高,說明此種檢驗方法越可靠和穩(wěn)健,效率越高。通常,對于Ⅰ型錯誤率和檢驗效能,我們首先考慮的是Ⅰ型錯誤率的控制,其次才是檢驗效能的比較。本研究模擬發(fā)現(xiàn),在n≤50情形下,不論何種分布,Wilcoxon秩和檢驗的Ⅰ型錯誤率均小于logrank檢驗的Ⅰ型錯誤率,在接近檢驗水準(zhǔn)的附近波動且幅度不大,說明logrank檢驗有擴(kuò)大Ⅰ型錯誤率的風(fēng)險。logrank檢驗是 Mantel(1966)對 Savage(1956)檢驗作出的推廣〔6〕,是基于每個觀測值均賦予一定的分值而制定出來的,這些分值是生存函數(shù)的對數(shù)的函數(shù),與Wilcoxon秩和檢驗相比,更容易得到較大的檢驗統(tǒng)計量,從而導(dǎo)致較大的Ⅰ型錯誤率。對于兩種統(tǒng)計方法的檢驗效能比較,在Weibull分布和Gamma分布下,以logrank檢驗較高;在lognormal分布和loglogistic分布下,以Wilcoxon秩和檢驗較高。綜合來看,Wilcoxon秩和檢驗不僅Ⅰ型錯誤率控制得更好,而且在四種分布的兩種分布中檢驗效能較高,應(yīng)該說其統(tǒng)計性能較logrank檢驗優(yōu)越。
早期Lee和Wang等曾提出當(dāng)沒有刪失數(shù)據(jù)時,普通的非參數(shù)檢驗(如Wilcoxon秩和檢驗或Mann-Whitney檢驗)可以用于生存時間的比較〔6〕。而logrank檢驗是存在刪失數(shù)據(jù)情況下對Savage檢驗作出的推廣,且當(dāng)比較的總體間風(fēng)險函數(shù)比例近似不變時采用該檢驗較好〔7〕。Darilay(2011)〔8〕等人模擬了 n=20和n=50時3種分布(Weibull分布、lognormal分布和loglogistic分布)下,幾種秩檢驗方法分析生存資料的Ⅰ型錯誤率和檢驗效能,當(dāng)刪失為0時,模擬結(jié)果與本研究相似。
綜上所述,對無刪失生存時間數(shù)據(jù)的比較,尤其是小樣本情形(如n≤50),我們建議采用Wilcoxon秩和檢驗。
1.Gibbons JD,Chakraborti S.Nonparametric Statistical Inference.4th Edition.New York:Marcel Dekker,2003,298-307.
2.Burton A,Altman DG,Royston P,et al.The design of simulation studies in medical statistics.Statistics in Medicine,2006,25(24):4279-4292.
3.Kroese DP,Taimre T,Botev ZI.Handbook of Monte Carlo Methods.New York:John Wiley and Sons,2011,301-343.
4.Kleinbaum DG.Survival Analysis:A Self-Learning Text.2nd Edition.New York:Springer,2005,263-286.
5.Delwiche LD,Slaughter SJ.The Little SAS Book:A Primer.3rd Edition.Cary:SAS Institute,2003,200-212.
6.Lee ET,Wang JW.Statistical methods for survival data analysis.3rd Edition.New York:John Wiley and Sons,2003,127-132.
7.Kalbfleisch JD,Prentice RL.The statistical analysis of failure time data.2nd Edition.New York:John Wiley and Sons,2002,20-23.
8.Darilay AT,Naranjo JD.A pretest for using logrank or Wilcoxon in the two-sample problem.Computational Statistics and Data Analysis,2011,