南方醫(yī)科大學(xué)南京臨床醫(yī)學(xué)院 南京軍區(qū)南京總醫(yī)院(210002) 劉麗霞 劉玉秀 陳 林 成 琪
采用以陽性藥(R)和安慰劑(P)作為對照進行試驗藥(E)非劣效評判的三臂臨床試驗,彌補了僅以陽性藥作為對照的兩臂臨床試驗不能評估檢測敏感性和難以確保假設(shè)恒定性的先天性不足〔1〕,ICH E10將其視為非劣效評判的“金標(biāo)準(zhǔn)”設(shè)計〔2〕。
2003年,Pigeot等在正態(tài)分布且方差齊性的條件下提出了一種基于均差之比的假設(shè)檢驗,在預(yù)先給定的閾值(θ)的條件下,若試驗藥與安慰劑療效之差大于陽性藥與安慰劑療效之差的100θ%,即可得出非劣效的結(jié)論〔3〕。2008年,Mario等研究發(fā)現(xiàn)在方差不齊時,此假設(shè)檢驗式會偏離預(yù)先給定的第一類錯誤水平,因此提出了正態(tài)分布下方差不齊時,采用Welch校正t檢驗的假設(shè)檢驗式〔4〕。
本文以Silva-Costa-Gomes等報道的一篇三臂臨床試驗結(jié)果為基礎(chǔ)〔5〕,通過隨機模擬實驗探討以對數(shù)正態(tài)分布和Gamma分布為代表的偏態(tài)分布下,三臂臨床試驗基于bootstrap再抽樣技術(shù)的非劣效評判問題。
記 XE=(XE1,…,XE,nE)、XR=(XR1,…,XR,nR)、XP=(XP1,…,XP,nP)分別為三臂臨床試驗的試驗組、陽性對照組及安慰劑組的樣本觀測值,nE、nR、nP分別為三組的觀測例數(shù)。假設(shè)這些隨機變量相互獨立,其對應(yīng)的總體均數(shù)分別為 μE、μR、μP,方差分別為、、。假定觀測值越大,療效越好。
基于bootstrap再抽樣技術(shù),進行的三臂臨床試驗非劣效評判的具體實施步驟如下:
第一步,在三組原始樣本中進行bootstrap抽樣,獲得bootstrap樣本,記為
第二步,對bootstrap樣本X*b計算試驗組與安慰劑組均數(shù)之差與陽性對照組與安慰劑組均數(shù)之差的比值。
第三步,重復(fù)第一步、第二步B次獲得bootstrap樣本統(tǒng)計量b構(gòu)成的bootstrap分布,用百分位數(shù)法求出該分布2.5%的分位點,記為(2.5)。該量即為公式(1)對應(yīng)參數(shù)的97.5%置信區(qū)間的下限估計值。
第四步,以θ作為非劣效判定的界值,一般取θ≥0.8,即試驗組與安慰劑組的均數(shù)之差至少應(yīng)保證是陽性對照組與安慰劑均數(shù)之差的80%以上才可判定為非劣效。在預(yù)先給定的第一類錯誤α=0.025水平下,若存在(2.5)>θ則可得出非劣效的結(jié)論。
對于三組隨機變量相互獨立且服從均數(shù)為μE、μR、μP,方差為、、的正態(tài)分布的三臂臨床試驗可建立如下假設(shè):
該零假設(shè)可以轉(zhuǎn)換為μE-θμR-(1-θ)μP≤0。在此假設(shè)下,當(dāng)方差不齊時,Welch校正t檢驗統(tǒng)計量計算式為:
若 t> t1-α,^v即可得出非劣效的結(jié)論。
Silva-Costa-Gome等報道在開胸手術(shù)后,應(yīng)用阿米三嗪聯(lián)合一氧化氮(ALM+NO)預(yù)防單側(cè)肺通氣缺氧的三臂臨床試驗研究中,以30分鐘后單側(cè)肺通氣氧分壓的觀測值為觀測指標(biāo).考察低劑量ALM(ALM4)相對于高劑量ALM(ALM16)的非劣效性,研究結(jié)果見表1。該組數(shù)據(jù)服從正態(tài)分布但方差不齊,Mario等以此數(shù)據(jù)為例,在α=0.05、θ=0.8的條件下經(jīng)Welch校正t檢驗得出試驗組(ALM4+NO)非劣于陽性對照組(ALM16+NO)的結(jié)論。本文的隨機模擬實驗即基于該試驗結(jié)果進行模擬。
表1 開胸手術(shù)30分鐘后各組單側(cè)肺通氣氧分壓的統(tǒng)計描述
本文的Monte Carlo模擬實驗均借助于SAS 9.1統(tǒng)計分析系統(tǒng),因該系統(tǒng)沒有提供根據(jù)均數(shù)和標(biāo)準(zhǔn)差直接產(chǎn)生對數(shù)正態(tài)分布和Gamma分布的隨機函數(shù),需間接實現(xiàn),這里分別給予說明。
產(chǎn)生對數(shù)正態(tài)分布隨機樣本的基本步驟為:根據(jù)欲產(chǎn)生的對數(shù)正態(tài)分布的均數(shù)(μ)和標(biāo)準(zhǔn)差(σ),求得其對數(shù)轉(zhuǎn)換后所對應(yīng)的正態(tài)分布下的均數(shù)(mean),和標(biāo)準(zhǔn)差(std),[std=ln利用正態(tài)分布的隨機函數(shù)產(chǎn)生服從均數(shù)為mean,標(biāo)準(zhǔn)差為std的正態(tài)分布的隨機樣本后,再進行指數(shù)轉(zhuǎn)換即獲得服從均數(shù)μ、標(biāo)準(zhǔn)差為σ的對數(shù)正態(tài)分布的隨機樣本。
產(chǎn)生Gamma分布隨機樣本的基本步驟為:根據(jù)欲產(chǎn)生的Gamma分布的均數(shù)(μ)和標(biāo)準(zhǔn)差(σ),求得產(chǎn)生Gamma分布的兩參數(shù),形狀參數(shù)a,(a=σ2/μ)和尺度參數(shù) b,(b= μ2/σ2)〔7〕。利用 Gamma 分布的隨機函數(shù)產(chǎn)生服從形狀參數(shù)為a、尺度參數(shù)為b的Gamma分布的隨機樣本,即均數(shù)為μ、標(biāo)準(zhǔn)差為σ的Gamma分布的隨機樣本。
在 μR=36.7,μP=16.5,σE=10.4,σR=13.2,σP=7.5,α=0.025,θ=0.8的條件下,進行 α 模擬。根據(jù)θ=0.8,可得出無效假設(shè)下的μE=32.66。固定其中兩組的樣本量為50,第三組的樣本量分別取25、50、75、100、125,按三組各自的均數(shù)和標(biāo)準(zhǔn)差分別產(chǎn)生100000個服從正態(tài)分布、對數(shù)正態(tài)分布和Gamma分布的隨機樣本,采用Welch校正t檢驗法在α=0.025檢驗水準(zhǔn)下進行非劣效統(tǒng)計推斷,由于bootstrap法模擬耗時較長,這里僅產(chǎn)生2000個隨機樣本進行bootstrap法的模擬。隨機模擬的Welch校正t檢驗法和bootstrap法的第一類錯誤率,結(jié)果見表2。
表2 不同分布下的三臂臨床試驗非劣效推斷模擬實驗的第一類錯誤率(名義檢驗水準(zhǔn)為α=0.025)
由表2可知,數(shù)據(jù)服從正態(tài)分布時,Welch校正t檢驗的第一類錯誤率始終保持在預(yù)先給定的α=0.025水平,波動范圍不超過3%,而bootstrap法的第一類錯誤率,在樣本量大于50時,也基本保持在α=0.025的水平,波動范圍不超過8%。
數(shù)據(jù)服從對數(shù)正態(tài)分布時,固定試驗組和陽性對照組的樣本量nE=nR=50,改變安慰劑組樣本量nP=25、50、75、100、125,Welch 校正 t檢驗的第一類錯誤率非常接近α=0.025的水平,波動范圍不超過4%。bootstrap法在樣本量大于50時,第一類錯誤率在α=0.025的水平上下波動,范圍不超過10%。固定陽性對照組和安慰劑組的樣本量nR=nP=50,改變試驗組的樣本量 nE=25、50、75、100、125,Welch 校正 t檢驗的第一類錯誤率隨著樣本量的增加而逐漸增大,偏離了α=0.025的水平,而bootstrap法的第一類錯誤率在樣本量大于50時,基本保持在α=0.025的水平,波動范圍不超過2%。固定試驗組和安慰劑組的樣本量nE=nP=50,改變陽性對照組的樣本量 nR=25、50、75、100、125,Welch校正t檢驗的第一類錯誤隨著樣本含量的增加而逐漸減小,偏離了α=0.025的水平,而bootstrap法的第一類錯誤率在樣本量大于50時,在α=0.025的水平上下波動,波動范圍不超過8%。可見,在各組樣本量較大時(n>50),bootstrap置信區(qū)間法較Welch校正t檢驗法能更好地控制第一類錯誤,具有較好的穩(wěn)健性。
數(shù)據(jù)服從Gamma分布時,固定試驗組和陽性對照組的樣本量nE=nR=50,改變安慰劑組樣本量nP=25、50、75、100、125,Welch 校正 t檢驗法的第一類錯誤率始終保持在低于α=0.025的水平,偏離較大。而bootstrap法的第一類錯誤率在α=0.025的水平上下波動,波動范圍不超過4%。固定陽性對照組和安慰劑組樣本量nR=nP=50,改變試驗組的樣本量nE=25、50、75、100、125,Welch 校正 t檢驗法的第一類錯誤率隨著樣本量的增加而逐漸增大,偏離了α=0.025的水平,而bootstrap法的第一類錯誤率在α=0.025的水平上下波動,范圍不超過10%。固定試驗組和安慰劑組的樣本量nE=nP=50,改變陽性對照組的樣本量nR=25、50、75、100、125,Welch 校正 t檢驗法的第一類錯誤率隨著樣本含量的增加而逐漸減小,偏離了α=0.025的水平,而bootstrap法的第一類錯誤率在樣本量大于50時,在α=0.025的水平上下波動。范圍不超過6%。可見,在各組樣本量較大時(n>50),bootstrap置信區(qū)間法比Welch校正t檢驗法能更好的控制第一類錯誤,具有較好的穩(wěn)健性。
基于正態(tài)分布,在 μR=36.7,μP=16.5,σE=10.4,σR=13.2,σP=7.5,nE=nR=nP=50、60、70,α=0.025,θ=0.8的條件下,(μE-μP)/(μR-μP)分別取 0.8、0.9、1.0、1.1、1.2 時,μE分別取 32.66、34.68、36.7、38.72、40.74,進行 Welch 校正 t檢驗法和 bootstrap法的power模擬實驗,計算出推斷結(jié)論為非劣效的百分比即為所謂的power,模擬結(jié)果見圖1。
同理,可以得出數(shù)據(jù)服從對數(shù)正態(tài)分布及Gamma分布下的模擬結(jié)果,分別見圖2和圖3。
圖1 正態(tài)分布時校正t檢驗與bootstrap法power模擬比較(a)、(b)、(c)分別對應(yīng)各組等樣本量為50、60、70的情形
圖2 對數(shù)正態(tài)分布時校正t檢驗法與bootstrap法的power模擬比較(a)、(b)、(c)分別對應(yīng)各組等樣本量為50、60、70的情形
從圖1、圖2和圖3可以看出,隨各組樣本量的增加,同一(μE-μP)/(μR-μP)條件下的 power逐漸增大,固定各組的樣本量,隨著(μE-μP)/(μR-μP)的增加,power也逐漸增大的特性。
圖3 Gamma分布時校正t檢驗法與bootstrap法power模擬比較(a)、(b)、(c)分別對應(yīng)各組等樣本量為50、60、70的情形
bootstrap法是一種基于樣本數(shù)據(jù)再抽樣的方法,在總體分布不明、存在極端值、方差不齊以及無具體假設(shè)檢驗式等特殊情況下,能幫助研究者進一步的探討數(shù)據(jù)的結(jié)構(gòu)及其內(nèi)在的信息〔8〕。本文建立了一種適用于三臂臨床試驗非正態(tài)分布的非劣效評判的bootstrap法,并從第一類錯誤率和power進行了模擬驗證。模擬實驗顯示,在數(shù)據(jù)服從正態(tài)分布,樣本量較大時,Welch校正t檢驗法和bootstrap法均表現(xiàn)出較好的統(tǒng)計性能。但當(dāng)數(shù)據(jù)呈偏態(tài)分布時,Welch校正t檢驗法和bootstrap法的power模擬結(jié)果基本相同,但Welch校正t檢驗法的第一類錯誤率會隨著樣本量的變化而偏離預(yù)先給定的第一類錯誤水平,而bootstrap法在樣本量較大時,第一類錯誤率基本保持在預(yù)先給定的水平。第一類錯誤的控制對于新藥研發(fā)的非劣效評判是極為重要的。因此,當(dāng)三臂臨床試驗的樣本量較大時,若數(shù)據(jù)服從正態(tài)分布且方差不齊時最好應(yīng)用Welch校正t檢驗法進行統(tǒng)計推斷,而當(dāng)數(shù)據(jù)呈偏態(tài)分布時,在目前無具體的檢驗統(tǒng)計式的情況下,則可考慮采用bootstrap法進行非劣效判定。
早期國內(nèi)及國外的非劣效試驗研究主要集中在非劣效界值的確定和兩臂非劣效試驗的設(shè)計、數(shù)據(jù)分析和解釋等研究〔9-11〕,但隨著研究的發(fā)展和深入,一些研究發(fā)現(xiàn)兩臂非劣效試驗由于缺乏安慰劑對照組在研究設(shè)計、數(shù)據(jù)分析、結(jié)果解釋方面存在一定的缺陷〔12,13〕。并且以歷史研究數(shù)據(jù)為基準(zhǔn)設(shè)計的兩臂試驗,存在試驗與試驗之間,試驗組內(nèi)和試驗組外等多種誤差,而Hung在研究中指出這些誤差對非劣效界值的確定影響很大,而目前的假設(shè)檢驗統(tǒng)計式還無法消除這些誤差的干擾。因此,Tang在研究中指出,在倫理條件允許的情況下,應(yīng)該使用三臂臨床試驗進行非劣效的研究〔14〕。
本文是以θ作為非劣效評判的標(biāo)準(zhǔn),但是由于θ是基于試驗藥和陽性對照藥與安慰劑相比療效大小比值而確定的,如果轉(zhuǎn)化為試驗藥與陽性對照藥差值的非劣效界值,顯然該界值將隨著試驗結(jié)果的不同而存在不確定性,因此,有學(xué)者提出了三臂臨床試驗時仍采用類似于兩臂非劣效臨床試驗事先固定試驗藥與陽性對照藥效應(yīng)差值的非劣效界值的方法進行非劣效的判定,并給出了正態(tài)分布且方差齊性條件下的統(tǒng)計檢驗式〔15〕。數(shù)據(jù)服從正態(tài)分布且方差不齊或數(shù)據(jù)服從非正態(tài)分布的三臂臨床的固定界值法目前尚未見報道,有待進一步的研究和探討。
對于數(shù)據(jù)不服從正態(tài)分布的三臂臨床試驗的非劣效判定,在目前無具體的統(tǒng)計檢驗式的情況下,建議應(yīng)用bootstrap法進行數(shù)據(jù)的分析和判定。
1.Brown D,Volkers P,Day S.An introductory note to the CHMP guideline:Choice of the non-inferiority margin and monitoring committees.Statistical in Medicine,2006,25:1623-1627.
2.ICH GuidelineE10:Choice of control group and related issues in clinical trials.International Conference on Harmonization of Technical Requirements for Registration of Pharmaceuticals for Human Use(ICH),2000.
3.Pigeot I,Sch?fer J,R?hmel J,et al.Assessing non-inferiority of a new treatment in a three-arm clinical trial including a placebo.Statistics in Medicine,2003,22:883-899.
4.Mario H,Richardus V,Ludwig A.Assessing non-inferiority of a new treatment in a three-arm trial in the presence of heteroscedasticity.Statistics in Medicine,2008,27:490-503.
5.Silva-Costa-Gomes T,Gallart L,Valles J,et al.Low-vs-h(huán)igh-dose almitrine combined with nitrc oxide to prevent hydroxia during open-chest one-lung ventilation.British Journal of Anaesthesia,2005,95(3):410-416.
6.Welch BL.The significance of the difference between two means when the population variances are unequal.Biometrika,1938,29:350-362.
7.Laster LL,Wang SJ,Tsong Y,et al.Some fundamental issues with noninferiority testing in active controlled trials.Statistics in Medicin.,2003,22:213-225.
8.Efron B,Tibshirani RJ.An introduction to the bootstrap.Chapman &Hall:New York,1993.
9.Thomas R,F(xiàn)leming.Current issues in non-inferiority trial.Statistics in Medicine,2008,27:317-332.
10.馬玉全,周俊,周愛平,等.非劣效試驗中對照的選擇和界值確定方法.中國臨床藥理學(xué)雜志,2009,14(9):961-965.
11.劉玉秀,姚晨,陳峰,等.非劣效等效性試驗樣本含量估計及把握度分析.中國衛(wèi)生統(tǒng)計,2004,21(1):31-35.
12.Hung HMJ,Wang SJ,O’Neill R.A regulatory perspective on choice of margin and statistical inference issue in non-inferiority trials.Biometrical Journal,2005,47:28-36.
13.Hung HMJ,Wang SJ,O’Neill R.Challenges and regulatory experiences with non-inferiority trial design without placebo arm.Biometrical Journal,2009,51:324-334.
14.Tang ML,Tang NS.Tests of non-inferiority via rate difference for three-arm clinical trials with placebo.Journal of Biopharmaceutical Statistics,2004,14:337-347.
15.Hida E,Tango T.On the three-arm non-inferiority trial including a placebo with a pre-specified margin.Statistics in Medicine,2011,30:224-231.