哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150086) 李路路 侯 艷 吳 瑩 李 康
臨床試驗(yàn)中等級(jí)資料的記分分析方法的適用性*
哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150086) 李路路 侯 艷 吳 瑩 李 康△
在臨床試驗(yàn)中,經(jīng)常會(huì)遇到主要療效指標(biāo)為等級(jí)的情況,如將臨床療效的評(píng)價(jià)結(jié)果分為“痊愈、顯效、有效、無(wú)效”幾個(gè)等級(jí)。對(duì)此,通常可以使用兩種統(tǒng)計(jì)方法進(jìn)行分析,一種分析方法是將結(jié)果“痊愈”和“顯效”合并,轉(zhuǎn)化成“愈顯率”二分類指標(biāo),然后對(duì)兩組率進(jìn)行檢驗(yàn);另一種方法是對(duì)等級(jí)資料直接采用Wilcoxon-Mann-Whitney秩和檢驗(yàn)[1]。前者對(duì)等級(jí)試驗(yàn)結(jié)果進(jìn)行了合并,可能會(huì)損失一定的信息,降低檢驗(yàn)效能;而后一種方法只考慮到資料的分級(jí)情況,卻沒有考慮各等級(jí)之間的歸屬程度。為此,本文探討根據(jù)各等級(jí)歸屬程度的2×K等級(jí)資料的記分分析方法,并給出了這種方法的檢驗(yàn)統(tǒng)計(jì)量。記分分析方法在基因表達(dá)數(shù)據(jù)分析中有應(yīng)用[2-6],對(duì)于臨床試驗(yàn)是否可以采用這種方法尚存在一定的爭(zhēng)議,主要問(wèn)題是對(duì)不同級(jí)別打分具有一定的主觀性,分析結(jié)果的可靠性難以判斷。事實(shí)上,對(duì)于具體的臨床試驗(yàn),各級(jí)別之間的差別并非等距,例如很多情況“痊愈”和“顯效”的結(jié)果更為相近,如果把“有效”定義為有一定的改善,則“有效”和“無(wú)效”更為接近,因?yàn)楹芏嗉膊〉陌l(fā)展具有一定的自限性。如果能夠從專業(yè)意義上對(duì)不同級(jí)別給定合適的分?jǐn)?shù),在此基礎(chǔ)上進(jìn)行統(tǒng)計(jì)檢驗(yàn)更為合理,為此本文在介紹該方法的基礎(chǔ)上,通過(guò)模擬實(shí)驗(yàn)和實(shí)例,探討使用該方法檢驗(yàn)的準(zhǔn)確性,并對(duì)其檢驗(yàn)效能進(jìn)行研究。
假設(shè)等級(jí)資料為2×K的列聯(lián)表形式,列聯(lián)表的行為處理因素Ti(i=1,2),列為等級(jí)療效指標(biāo)Xk(k=1,…,K),nik表示在處理因素為i,療效為k的受試者例數(shù),ni表示接受處理因素i的受試者的例數(shù),其中n1=n11+…+n1K,n2=n21+…+n2K,n=n1+n2。現(xiàn)假設(shè)各療效屬于第k分類的歸屬度為wk(k=1,…,K)∈[0,1];則等級(jí)資料的記分分析方法的無(wú)效假設(shè)和備擇假設(shè)分別為
其中,π1k和π2k分別為兩處理組出現(xiàn)第k級(jí)療效的概率,這一假設(shè)相當(dāng)于兩組得分的期望值相同。此時(shí),模型對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì)量為[3]
容易證明,在大樣本下Z近似服從標(biāo)準(zhǔn)正態(tài)分布。是處理組1為第k級(jí)療效時(shí)的概率估計(jì)是處理組2為第k級(jí)療效時(shí)的概率估計(jì)為第k級(jí)療效兩組合并概率估計(jì)值。當(dāng)|Z|>Z1-α/2時(shí),可在α(如α=0.05)檢驗(yàn)水準(zhǔn)上拒絕H0,得到兩組療效不同的結(jié)論。
1.Ⅰ類錯(cuò)誤的控制
研究等級(jí)資料的記分分析方法對(duì)I類錯(cuò)誤的控制情況。假設(shè)兩樣本均來(lái)自同一個(gè)總體X~N(0,1),將其按(-∞,-1.5],(-1.5,0],(0,1.5],(1.5,∞)分成四個(gè)等級(jí)[7],分別表示無(wú)效、有效、顯效、痊愈。樣本量分別為100例,進(jìn)行2000次模擬實(shí)驗(yàn)。表1是總體在正態(tài)分布下I類錯(cuò)誤和給定得分w1,w2,w3,w4的關(guān)系。假設(shè)兩樣本均來(lái)自另一個(gè)總體lnX~N(0,0.5),將其按(0,0.25],(0.25,0.5],(0.5,1.5],(1.5,∞)分成四個(gè)等級(jí),分別表示無(wú)效、有效、顯效、痊愈。樣本量分別為100例,進(jìn)行2000次模擬實(shí)驗(yàn)。表2是總體為對(duì)數(shù)正態(tài)分布下I類錯(cuò)誤和w1,w2,w3,w4的關(guān)系。結(jié)果顯示,當(dāng)w1=0,w4=1時(shí),對(duì)于不同的w2,w3,在給定的檢驗(yàn)水平下,I類錯(cuò)誤會(huì)有所變化,但是均能很好地控制在設(shè)定的檢驗(yàn)水平附近。
2.檢驗(yàn)效能的變化情況
在評(píng)價(jià)指標(biāo)為等級(jí)變量的臨床試驗(yàn)中,可以將等級(jí)變量看作是由潛在連續(xù)變量分組后得到的變量,其分布可能是正態(tài)的,也可能是偏態(tài)的。當(dāng)潛在變量服從正態(tài)分布時(shí),構(gòu)造X1~N(0,1),X2~N(Δ,1),X3~N(0,σ2)的三個(gè)總體,將其按(-∞,-1.5],(-1.5,0],(0,1.5],(1.5,∞)分成四個(gè)等級(jí)[7],分別表示無(wú)效、有效、顯效、痊愈。
表1 樣本來(lái)自的總體服從正態(tài)分布時(shí)記分分析方法對(duì)I類錯(cuò)誤的控制情況(α=0.05)
表2 樣本來(lái)自的總體服從偏態(tài)分布時(shí)記分分析方法對(duì)I類錯(cuò)誤的控制情況(α=0.05)
當(dāng)潛在變量服從偏態(tài)分布時(shí),構(gòu)造lnX1~N(0,1),lnX2~N(Δ,1),lnX3~N(0,σ2)三個(gè)總體,將其按(0,0.25],(0.25,0.5],(0.5,1.5],(1.5,∞)分成四個(gè)等級(jí),分別表示無(wú)效、有效、顯效、痊愈。模擬實(shí)驗(yàn)按照正態(tài)、偏態(tài)兩種不同情況,考察方差相同、不同時(shí)兩總體位置變化的檢驗(yàn)效能(圖1-圖6)。
從圖1(a)、1(b)和圖2(a)、2(b)可以看出,當(dāng)兩樣本來(lái)自的總體方差相同時(shí),隨著均值Δ的升高,記分分析方法和Wilcoxon秩和檢驗(yàn)的檢驗(yàn)效能都在升高,并且兩種方法的檢驗(yàn)效能幾乎相同。
圖1 正態(tài)分布下隨著Δ的變化兩種方法檢驗(yàn)效能的變化圖
從圖3(a)和圖3(b)可以看出,如果兩樣本來(lái)自的正態(tài)總體均值相同,方差不同,兩種方法都無(wú)法檢驗(yàn)出來(lái)。從圖4(a)和圖4(b)可以看出,如果兩樣本來(lái)自的對(duì)數(shù)正態(tài)總體的均值相同、方差不同,當(dāng)0<σ≤1時(shí),Wilcoxon秩和檢驗(yàn)的檢驗(yàn)效能隨著方差的增加而降低,記分分析方法的檢驗(yàn)效能隨著方差的增加是先增加后降低;當(dāng)1<σ≤2時(shí),隨著方差的增加,兩種方法的檢驗(yàn)效能都在增加,但記分分析方法明顯比Wilcoxon秩和檢驗(yàn)具有更高的檢驗(yàn)效能。此外,可以看到記分分析方法的檢驗(yàn)效能也和給定的各等級(jí)的得分有關(guān)。
圖2 對(duì)數(shù)正態(tài)分布下隨著Δ的變化兩種方法檢驗(yàn)效能的變化圖
圖3 正態(tài)分布下隨著σ的變化兩種方法的檢驗(yàn)效能變化圖
圖4 對(duì)數(shù)正態(tài)分布下隨著σ的變化兩種方法的檢驗(yàn)效能變化圖
從圖5(a)、5(b)和圖6(a)、6(b)可以看出,如果兩樣本來(lái)自的總體方差不同,隨著Δ均值的增加,兩種方法的檢驗(yàn)效能都有所增加,但是記分分析方法的檢驗(yàn)效能明顯比Wilcoxon秩和檢驗(yàn)的效能高。
欲比較某試驗(yàn)藥物和對(duì)照藥物燈盞細(xì)辛注射液治療恢復(fù)期腦梗死(淤血阻滯證)的療效,采用平行對(duì)照、隨機(jī)、雙盲的方法進(jìn)行臨床試驗(yàn)研究,其中醫(yī)證候療效的評(píng)價(jià)指標(biāo)為臨床控制、顯效、有效和無(wú)效,試驗(yàn)數(shù)據(jù)見表3。
根據(jù)表3,用Wilcoxon秩和檢驗(yàn)得到P=0.1023>0.05,不能拒絕原假設(shè),即不能認(rèn)為試驗(yàn)藥的療效與對(duì)照藥的療效不同。現(xiàn)用記分分析方法,由于“顯效”與“臨床控制”的臨床意義更為相近,“有效”與“無(wú)效”的臨床意義較為相近,因此對(duì)試驗(yàn)結(jié)果“臨床控制、顯效、有效、無(wú)效”分別設(shè)置分值1、0.8、0.2、和0,記分分析方法對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì)量Z=2.1392,P=0.0324<0.05,拒絕原假設(shè),可以認(rèn)為試驗(yàn)藥和對(duì)照藥的療效不同,即得出試驗(yàn)藥的療效優(yōu)于對(duì)照藥物的結(jié)論。
圖5 正態(tài)分布下隨著Δ的變化兩種方法檢驗(yàn)效能的變化圖
圖6 對(duì)數(shù)正態(tài)分布下隨著Δ的變化兩種方法檢驗(yàn)效能的變化圖
表3 試驗(yàn)藥和對(duì)照藥療效的比較
1.本文提出使用記分分析方法對(duì)有序終點(diǎn)指標(biāo)的臨床試驗(yàn)數(shù)據(jù)進(jìn)行分析,該方法不僅考慮到了有序資料的分級(jí)情況,同時(shí)按照不同等級(jí)之間的實(shí)際歸屬程度進(jìn)行假設(shè)檢驗(yàn),能夠綜合數(shù)據(jù)結(jié)果和專業(yè)意義進(jìn)行假設(shè)檢驗(yàn)。
2.模擬實(shí)驗(yàn)結(jié)果表明:在[0,1]之間對(duì)各等級(jí)進(jìn)行打分,同時(shí)在大樣本情況下,無(wú)論如何設(shè)定分值,都能很好地控制Ⅰ類錯(cuò)誤。另一方面,在兩組潛變量分布方差相同的情況下,記分分析的檢驗(yàn)效能近似等于Wilcoxon秩和檢驗(yàn);而在兩組潛變量分布的方差不同時(shí),記分分析的檢驗(yàn)效能明顯高于傳統(tǒng)的Wilcoxon秩和檢驗(yàn)。
3.記分分析需要事先根據(jù)專業(yè)知識(shí)對(duì)各等級(jí)設(shè)定分值,否則會(huì)給檢驗(yàn)結(jié)果帶來(lái)一定的任意性,增加Ⅰ類錯(cuò)誤的概率。為了避免爭(zhēng)議,這種方法最好應(yīng)用于Ⅱ期探索性的臨床試驗(yàn)研究,而在Ⅲ期確證性臨床試驗(yàn)研究中則需要慎重使用。
1.Moses LE,Emerson,Hosseini H.Analyzing data from ordered categories.New England Journal of Medicine,1984,311:442-448.
2.Graubard BI,Korn EL.Choice of column scores for testing independence in ordered 2×K contingency tables.Biometrics,1987,43:471-476.
3.Gang Z.Analysis of Ordered Categorical Data:Two Score-Independent Approaches.Biometrics,2008,64:1276-1279.
4.Freidlin B,Zheng G,Li Z,et al.Trend tests for case-control studies of genetic markers:power,sample size and robustness.Human heredity,2009,53(3):146-152.
5.Slager SL,Schaid DJ.Case-control studies of genetic markers:Power and sample size approximations for Armitage′s test for trend.Human heredity,2001,52(3):149-153.
6.Cochran WG.Some methods for strengthening the commonχ2tests.Biometrics,1954,10(4):417-451.
7.王陵,夏結(jié)來(lái),李嬋娟.單項(xiàng)有序二維表的統(tǒng)計(jì)分析方法比較.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(3):236-238.
(責(zé)任編輯:郭海強(qiáng))
*國(guó)家青年自然科學(xué)基金(81102201);哈爾濱醫(yī)科大學(xué)伍連德青年基金(WLD-QN1105)
Δ通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn