中國人民解放軍軍事醫(yī)學科學院醫(yī)學統(tǒng)計學教研室(100850) 周詩國 柳偉偉 陶麗新 胡良平
對基于均差作推斷的成組設計非劣效性試驗功效分析及樣本量估計公式正確性的探討
中國人民解放軍軍事醫(yī)學科學院醫(yī)學統(tǒng)計學教研室(100850) 周詩國 柳偉偉 陶麗新 胡良平△
△通訊作者:胡良平,E-mail:LPHu812@sina.com
樣本量的估計是在試驗設計階段要考慮的一個重要問題。以對兩正態(tài)總體均數(shù)差值作統(tǒng)計推斷的成組設計非劣效性試驗樣本量估計為例,目前國內(nèi)外已有一些教材、專著或論文介紹了一些公式〔1-11〕,但這些公式不盡相同,而且絕大多數(shù)公式都是直接給出或引用的,沒有給出詳細、具體的理論推導過程,因此,讀者并不清楚哪些公式正確,哪些公式不正確,難免會給實際工作者帶來一些困惑。本文將根據(jù)對均差作統(tǒng)計推斷的成組設計一元定量資料的非劣效性檢驗原理及檢驗功效的定義,從非劣效性檢驗的拒絕域或兩均數(shù)差值的置信區(qū)間出發(fā),對相應的檢驗功效分析及樣本量估計公式進行理論推導,并采用Monte Carlo模擬方法對推導出來的公式進行正確性驗證。
假設成組設計非劣效性試驗中試驗組與對照組的樣本量分別為nT和nR,樣本均值分別為和,總體均值分別為μT和μR,樣本方差分別為S2T和S2R,總體方差分別為和,試驗組與對照組的樣本混合方差為S2,總體混合方差為σ2;總體均數(shù)差值置信區(qū)間的下限為 CL。假設 XT~ N(μT,),XR~ N(μR,),且XT與XR相互獨立。
假設效應指標均為高優(yōu)指標,即:效應指標取值越大,效應越好;取值越小,效應越差。
為了便于敘述,用δ(δ<0)表示非劣效界值。
非劣效性檢驗犯Ⅰ型(即假陽性)錯誤的概率為α,犯Ⅱ型(即假陰性)錯誤的概率為β。
用 u1-α表示標準正態(tài)分布的分位數(shù),且有 Φ(u1-α)=1-α,即 Φ(u1-α)是標準正態(tài)分布概率密度曲線下u=u1-α左側(cè)的面積,其值正好等于分位數(shù)u1-α的右下標值1-α,因為整個標準正態(tài)分布曲線下的面積被定義為1。這一規(guī)定與SAS軟件系統(tǒng)中的標準正態(tài)分布函數(shù)PROBNORM(X)及標準正態(tài)分布分位數(shù)函數(shù)PROBIT(P)的定義完全一致。因此,有PROBNORM(u1-α)=1- α ,PROBIT(1- α )=u1-α。用 t1-α,v表示自由度為v的中心t分布的分位數(shù),且自由度為v的中心t分布概率密度曲線下t=t1-α,v左側(cè)的面積等于分位數(shù)t1-α,v的第1個右下標值1-α。這一規(guī)定也與SAS軟件系統(tǒng)中的中心t分布函數(shù)PROBT(X,v)及中心t分布分位數(shù)函數(shù)TINV(P,v)的定義完全一致。因此,也有 P ROBT(t1-α,v,v)=1- α ,TINV(1- α ,v)=t1-α,v。
根據(jù)非劣效性的概念,基于兩總體均數(shù)差值的成組設計非劣效性試驗的檢驗假設為H0:μT-μR≤δ,即劣效;H1:μT-μR>δ,即非劣效;單側(cè)檢驗,檢驗水準為α。
當H0在α水準上被拒絕時,即可認為試驗組效應非劣于對照組效應,否則為劣效。
對基于兩均數(shù)差值作統(tǒng)計推斷的成組設計非劣效性試驗資料的假設檢驗來說,根據(jù)檢驗功效的含義,μT-μR的上(或右)單側(cè)100(1-α)%置信區(qū)間在H1成立時落入非劣效界值區(qū)間(δ,∞)內(nèi)的概率就等于檢驗功效 power,即 power=1-β=P(CL>δ|H1)。根據(jù)這個關(guān)系式即可對相應的非劣效性試驗檢驗功效分析或樣本量估計公式進行推導。
經(jīng)嚴密推導,對兩正態(tài)總體均數(shù)差值作統(tǒng)計推斷時成組設計非劣效性試驗的檢驗功效分析及樣本量估計公式如下:
這就是以均差為效應指標的成組設計非劣效性試驗的檢驗功效分析通用公式。
令nR=knT,由式(1)可導出:
式(2)和式(3)就是以均差為效應指標的成組設計非劣效性試驗的樣本量估計通用公式。
利用式(9)~式(14)估計樣本量時,都需要采用迭代嘗試法。第 1 次迭代時,可取 t1-α,2(n-1)=t1-α,∞=u1-α,t1-β,2(n-1)=t1-β,∞=u1-β。當前后兩次迭代結(jié)果無明顯差別時,即可停止迭代。
式(13)和式(14)都是在μT=μR這一特殊前提條件下的樣本量估計公式。當然,當μT與μR相差不大時,這兩個公式仍可用于近似計算。但是,一旦前提條件與實際情況相差較大,利用這兩個公式所進行的樣本量估計將會產(chǎn)生很大的誤差,甚至還可能導致錯誤。
為了驗證上面所推導出來的公式的正確性,這里給出了Monte Carlo模擬的結(jié)果,供讀者參考。
(1)假設從某項關(guān)于輕中度原發(fā)性高血壓患者的降血壓治療方法(試驗藥治療法與標準對照藥治療法)的非劣效性試驗預實驗數(shù)據(jù)(測量指標為仰臥舒張壓SDBP的降低值,計量單位為mmHg,并假定資料服從正態(tài)分布)得到=14,=12,sT=8,sR=7。此外,假定已知試驗組與對照組的總體標準差σT=σR=8,規(guī)定非劣效區(qū)間(δ,∞)=(-3,∞),假定非劣效性檢驗允許犯Ⅰ、Ⅱ型錯誤的概率分別為α=0.05、β=0.20,并要求兩組樣本量相等,即nT=nR=n。用樣本均值作為總體均值的估計,用樣本均值的差值作為總體均值差值的估計,即diff=-=2。又u1-α=1.645,power=1-β=0.80,采用式(5)求得每組所需的樣本量nT=nR=n=32。接下來,根據(jù)上述數(shù)據(jù),進行10萬次隨機模擬抽樣,并進行非劣效性檢驗,以便驗證實際的檢驗功效是否達到了估計樣本大小時所要求達到的最低值。每次抽樣都是試驗組從正態(tài)總體N(14,82)中隨機抽取32個數(shù),對照組從正態(tài)總體 N(12,82)中隨機抽取32個數(shù),然后對10萬次抽樣中每次抽樣所得到的數(shù)據(jù)進行非劣效性推斷,并記錄這10萬次非劣效性推斷中得出試驗組非劣于對照組的次數(shù),該次數(shù)除以10萬即為檢驗功效。模擬結(jié)果為:power=0.7991(其漸近標準誤差為0.0013,95%CI為[0.7966,0.8016]),與 0.80 的差別無統(tǒng)計學意義(Z=-0.7194,P=0.4719),實際的檢驗功效基本達到了估計樣本大小時所要求達到的最低值0.80。
(3)若前述降血壓治療方法研究的試驗組與對照組總體平均降壓值相等,并假定μT=μR=(14+12)/2=13,其他條件和要求同(1),采用式(5)進行樣本量估計,得nT=nR=n=88。隨后進行10萬次隨機模擬,每次抽樣都是試驗組從正態(tài)總體N(13,82)中隨機抽取88個數(shù),對照組從正態(tài)總體N(13,82)中隨機抽取88個數(shù),其他處理同(1)。模擬結(jié)果為:power=0.7982(其漸近標準誤差為 0.0013,95%CI為[0.7957,0.8006]),與 0.80 的差別無統(tǒng)計學意義(Z=-1.4546,P=0.1458),實際的檢驗功效基本達到了估計樣本大小時所要求達到的最低值0.80。
(4)若前述降血壓治療方法研究的試驗組與對照組總體平均降壓值相等,并假定μT=μR=(14+12)/2=13,其他條件和要求同(2),采用式(9)進行樣本量估計,得nT=nR=n=79。隨后進行10萬次隨機模擬,每次抽樣都是試驗組從正態(tài)總體N(13,82)中隨機抽取79個數(shù),對照組從正態(tài)總體N(13,72)中隨機抽取79個數(shù),其他處理同(1)。模擬結(jié)果為:power=0.8056(其漸近標準誤差為 0.0013,95%CI為[0.8031,0.8080]),略大于 0.80(Z=4.3956,P <0.0001),實際的檢驗功效達到了估計樣本大小時所要求達到的最低值0.80。
上面的Monte Carlo模擬結(jié)果表明,筆者所推導出來的公式是正確的。
對兩正態(tài)總體均數(shù)差值作統(tǒng)計推斷時成組設計非劣效性試驗的檢驗功效分析或樣本量估計公式是否正確,主要取決于以下7個方面:第一、有沒有交代清楚公式中有關(guān)符號的具體含義;第二、有沒有交代清楚公式是在什么條件下成立,在什么條件下不成立;第三、公式中用到的分位數(shù)的右下標是否使用正確;第四、有沒有考慮到兩組真實效應差值的影響;第五、有沒有給出明確、具體的兩組真實效應差值的估計方法;第六、有沒有交代清楚公式中用到的非劣效界值的表達形式及取值范圍;第七、公式編輯有無錯誤。
從式(2)~式(7)、式(11)~式(14)可以清楚地看到,由于平方項“[(μT-μR)-δ]2”或“δ2”位于樣本量估計公式的分母上,因此,當試驗組與對照組的總體均數(shù)相差較大、不可以被近似為“0”時,如果仍然按照假定μT=μR時所推導出來的公式進行樣本量估計,將兩組真實效應的差值(μT-μR)忽略或近似為“0”,則會低估或者高估樣本量。當[(μT- μR)- δ]2> δ2,即(μT-μR)(μT-μR-2δ) >0時,將兩組真實效應的差值(μT-μR)忽略或近似為“0”,則會高估樣本量;當[(μT-μR)-δ]2< δ2,即(μT- μR)(μT- μR-2δ) <0時,將兩組真實效應的差值(μT-μR)忽略或近似為“0”,則會低估樣本量。因此,當試驗組與對照組的總體均數(shù)相差較大、不可以被近似為“0”時,估計樣本量必須考慮兩組總體均數(shù)差值的影響,千萬不可盲目假設μT= μR。
本文所推導出來的公式中所涉及到的兩組真實效應的差值可以用預試驗的樣本均值之差作為估計,也可以依據(jù)既往研究或通過其他方法進行估計。采用含有t分布分位數(shù)的公式進行樣本量估計時,需要采用迭代嘗試算法;具體迭代時,可先取 t1-α,v=t1-α,∞=u1-α,t1-β,∞=t1-β,v=u1-β,計算得到樣本量的一個初始值,然后在此基礎上進行迭代,當前后兩次迭代計算的結(jié)果無明顯差別時,迭代過程即可停止。
由于 u1-α= -uα,u1-β= -uβ,所以有(u1-α+u1-β)2=(uα+uβ)2成立。同理,有(t1-α,v+t1-β,v)2=(tα,v+tβ,v)2成立。
此外,采用本文所推導出來的公式計算得到的樣本量n是在扣除了實際試驗過程中受試對象的不依從性、失訪等因素的影響之后所需要的有效樣本量。實際抽樣時必須考慮試驗過程中受試對象的不依從性、失訪等因素的影響〔10,12〕,所需抽取的實際樣本例數(shù)需要在此基礎上進行校正。假定受試對象的不依從率為pm,失訪率為pl,其他因素的影響可忽略不計,則經(jīng)校正后的樣本量應為nadj=n/[(1-pm)(1-pl)]。而文獻〔10〕給出的校正公式 nadj=n/[(1-pm)2(1-pl)]則更為保守。
1.吳圣賢,王成祥主編.臨床研究樣本含量估算.北京:人民衛(wèi)生出版社,2008,7-8.
2.Chow SC,Shao J,Wang HS.Sample Size Calculation in Clinical Research.New York:Marcel Dekker,Inc.,2003:47-59.
3.Steven A.Julious.Tutorial in biostatistics:Sample sizes for clinical trials with Normal data.Statistics in Medicine,2004,23:1921-1986.
4.Jones B,Jarvis P,Lewis JA,et al.Trials to assess equivalence:the im-portance of rigorousmethods.BMJ,313:36-39.
5.王楊,李衛(wèi),成小如,等.隨機模擬法驗證非劣效臨床試驗樣本量計算公式.中國衛(wèi)生統(tǒng)計,2008,25(1):26-28.
6.鄭青山,孫瑞元,陳志揚.新藥臨床非劣及等效性試驗中的例數(shù)估計和等效標準.中國新藥雜志,2003,12(5):368-371.
7.劉玉秀,姚晨,陳峰,等.臨床非劣效性/等效性評價的統(tǒng)計學方法.中國臨床藥理學與治療學,2000,5(4):344-349.
8.劉玉秀,姚晨,陳峰,等.非劣性/等效性試驗中的統(tǒng)計學分析.中國臨床藥理學雜志,2000,16(6):448-452.
9.劉玉秀,姚晨,陳峰,等.非劣效/等效性試驗的樣本含量估計及統(tǒng)計推斷.中國新藥雜志,2003,12(5):371-376.
10.劉玉秀,姚晨,陳峰,等.非劣性/等效性試驗的樣本含量估計及把握度分析.中國衛(wèi)生統(tǒng)計,2004,21(1):31-35.
11.袁小紅,莊嚴,陳平雁.兩均數(shù)比較的優(yōu)效性/等效性和非劣性驗證的樣本量估計.中國新藥雜志,2009,18(23):2205-2209.
12.黃欽,趙明.對臨床試驗統(tǒng)計學假設檢驗中非劣效、等效和優(yōu)效性設計的認識.中國臨床藥理學雜志,2007,23(1):63-67.