陳 誠,林善冬,胡 飛,劉楚君
(中國石油大學(xué)(北京)理學(xué)院,北京102249)
臨床試驗通常是用來說明所研究的治療方法相對于對照組或另一種治療方法的等效性和非劣效性.具體來講,等效性試驗是指所研究的治療方法相對于對照組或另一種治療方法是否有相同的效果,而非劣效性試驗則指所研究的治療方法是否優(yōu)于相對照的治療或至少不會比它差.
等效性檢驗的假設(shè)檢驗形式如下:
其中:δ1>0,δ2>0,θ是所涉及概率分布的相似度的合理度量,θ0是當(dāng)兩分布完全相同情況下的的參考值.例如,為了檢驗治療方案A與治療方案B的等效性,我們需要設(shè)計標(biāo)準(zhǔn)的平行對照組.顯然,可選擇 θ=μ1- μ2,其中 μ1和 μ2分別為治療方案A和治療方案B的端點變量分布的位置參數(shù).在這個例子中,θ0=0.設(shè) δ1= δ2= δ(>0),則等效性檢驗是關(guān)于參考值θ0對稱的.那么假設(shè)檢驗問題(1)就轉(zhuǎn)變?yōu)?
一般來講,非劣效性檢驗可表示為如下形式:
通常,我們把等效性和非劣效性檢驗中的參數(shù)δ1,δ2和 δ稱為“等效界限值”.
大量文獻(xiàn)都對等效性和非劣效性的檢驗假設(shè)方法的予以論述討論,具體請參考文獻(xiàn)[1-9].其中大多數(shù)都是假設(shè)等效界限值已經(jīng)被合理地選取.不幸的是,等效界限值δ的選取是非常困難的.如果δ選取太大,拒絕零假設(shè)就會變得毫無意義(即只會選擇備擇假設(shè)).相反,若δ選取太小或太過保守時,則檢驗效能將大大減小.資源也會被浪費來達(dá)到一個給定的功效.關(guān)于等效界限的討論是非常之多的,但僅僅只有少數(shù)學(xué)者給出選擇等效界限值具體的步驟.例如,參考文獻(xiàn)[10]對關(guān)于如何選擇δ的文獻(xiàn)進(jìn)行了綜述研究,并表明在實際應(yīng)用中只有少數(shù)實驗給出了實質(zhì)性的理由.文獻(xiàn)[11]中以表格形式給出了常見情況下的百分比原則.基于一些統(tǒng)計特性,文獻(xiàn)[12]提出了設(shè)定等效界限值的一種新方法.這種方法能為臨床試驗者提供輔助信息,但卻忽視了臨床經(jīng)驗的重要性.
基于以上的困難,本文提出了一種新的基于當(dāng)前樣本的進(jìn)行等效性或非劣效性檢驗的方案.這一方案無需對等效界限值事先指定.新方法的關(guān)鍵是提出等效參考值(ERV)這個觀點.它可以幫助臨床試驗者做出決策判斷.此外,如果治療方案A和治療方案B被證實是等效的,我們可以基于ERV的分布為以后類似的試驗提供等效界限值.
對于對稱的等效檢驗問題(2)和非劣效性檢驗問題(3),傳統(tǒng)的方法是:首先選擇一個適當(dāng)?shù)摩闹担缓蟾鶕?jù)從樣本中獲得的p值來做出決定.然而,δ值有時候并未給定,而且很難從實踐中確定該值.因此,任意給定的或者站不住腳的δ值會削弱檢驗結(jié)論的可信度和可靠度.本文通過探索δ值對檢驗結(jié)論的影響,試圖解決這個問題.從而為臨床試驗者提供一個非常有效的方法,使他們做出正確的決定.
眾所周知,對于一個給定的樣本和檢驗方法,p值越小,δ值就會越大,反之亦然.對于一個給定的顯著性水平α(0<α<1),則一定存在一個δ*(δ*>0)使得其p值等于α.顯然,當(dāng)δ>δ*時p值小于α;當(dāng) δ<δ*時 p值就大于 α.因此,若 δ> δ*,則我們應(yīng)該做出拒絕H0的決定,否則我們就沒有足夠的證據(jù)拒絕H0.作為用來做出決策的δ的臨界值δ*,它可以告訴我們什么樣的δ值可以做出什么樣的結(jié)論.因此,δ*值可以作為臨床試驗者決策判斷的重要參考.我們將 δ*稱之為等價參考值(ERV).
為精確計算 ERV,假設(shè) X=(X1,X2,…,Xm)和Y(Y1,Y2,…,Yn)是等效性和非劣性試驗的樣本,這里X和Y分別屬于治療方案A和治療方案B.通過某種檢驗方法,可以獲得相應(yīng)的統(tǒng)計量T(X,Y).記 x=(x1,x2,…,xm)和 y=(y1,y2,…,yn)為試驗的觀測值,t(x,y)為檢驗統(tǒng)計量.然后,p值pδ則可根據(jù)T(X,Y)的分布和t(x,y)的值計算出來.為了獲得ERVδ*,需要求解關(guān)于δ*的方程,即,
在某些情況下,方程(4)是復(fù)雜的,δ*的近似值可以通過如下步驟迭代計算出來:
步驟 1:選擇初始值 δ(1)和 δ(2),使得,ρδ(1)> α,ρδ(2)> α;
步驟3:重復(fù)步驟 2 直到|pδ(1)- α|≤l.
顯然,對ERV的計算不是太復(fù)雜的.更重要的是臨床試驗者可以借助EVR作決定.此外如果我們已經(jīng)知道治療方案A與治療方案B是等效的,那么ERV的分布在選擇等效界限值將會起到很大作用.例如,我們可以選擇0.95分位數(shù)作為等效界限值.然而,因為和真實分布是未知的,所以我們不可能得到EVR的分布.在這種情況下自助法是獲得EVR分布的一個有力工具.利用自助法,從觀測數(shù)據(jù)中有放回的反復(fù)抽取樣本,然后利用重復(fù)取樣估計EVR的抽樣分布.基于自助分布,選擇0.95分位數(shù)作為等效界限值,也會為未來類似試驗提供指導(dǎo).
在這個例子中,我們考慮配對試驗數(shù)據(jù).假設(shè)(X1,Y1),(X2,Y2)…,(Xn,Yn)是非劣效性檢驗的一個樣本,其中 X和Y分別表示對任意選擇的相同的觀測單元施加治療方案A和B的結(jié)果.除了治療方案外,其他條件保持嚴(yán)格相同,這樣試驗者就能解釋不同治療方案對受試者作用的差異記做D=X -Y.就相應(yīng)的個體差異 Di=Xi- Yi,i=1,2,…,n而言,統(tǒng)計推斷是基于以下的假設(shè)進(jìn)行的:
(i)D1,D2,…,Dn獨立同分布
(ii)假設(shè)對?d∈R,i=1,2,…,n,有 P{D <d}=F0(d-θ).其中 F0(·)未知,F(xiàn)0(-d)=1-F0(d).
當(dāng)θ0=0時,非劣性問題為:
H0:θ≤ - δ vs H1:θ> - δ.
由于F0未知,所以很難根據(jù)參數(shù)θ位置的百分比來確定δ的值.因此,很難繼續(xù)這個檢驗方法,除非我們根據(jù)一些專家的意見選擇選擇δ的值.但這樣可能得出不可靠的結(jié)論.幸運的是,我們可以基于ERV想法實施檢驗計劃.
為說明獲取ERV的方法,我們重新分析文獻(xiàn)[13]中用于研究脂肪替代品olestra替代高吸收口服避孕藥數(shù)據(jù).所招募該試驗的樣本包括28名健康的沒有絕經(jīng)的婦女.在用藥階段,每人服用18g/d的 olestra共用28 d,同時服用 norgestrel(300 μg)和 ethinyl stradiol(300 μg)的組合作為口服避孕藥.取血樣的周期為12~14 d,并對其中ethinyl和estradiol的濃度進(jìn)行分析.在安慰劑階段,實驗和測量程序是完全一樣的,只需把每次用的olestra換為triglycerides.表1給出了以norgestrel的最大濃度作為藥物動力學(xué)參數(shù)對個體的作用效果.分別服用olestra(xi)和含有普通triglycerides(yi)后28位絕經(jīng)婦女血清中norgestrel(ng/mL)最大濃度.di=xi-yi,ri為第i個個體關(guān)于|di|的秩=di+1.5;ri為第i個個體關(guān)于|di|的秩.
表1 olestra的e_ect統(tǒng)計試驗觀察數(shù)據(jù)
由于分布函數(shù)未知,所以我們要根據(jù)第2節(jié)中的步驟迭代以找到ERV.
步驟 1:設(shè)定初始值 δ(1)=0,δ(2)=1.5.根據(jù)公式能計算出相應(yīng)的P值 pδ(1),pδ(2),其中的一個觀測值.在本例中,=n(n+1)(2n+1)/24=28×29×(2×28+1)/24=1928.5.δ(1)=0.當(dāng)時,根據(jù)表1 中第3列和第4列的數(shù)據(jù)可得=155;當(dāng) δ(2)=1.5時,根據(jù)表1中第5列和第6列的數(shù)據(jù)可得359.故 pδ(1)= Φ((203 - 155+0.5)/0.8628,pδ(2)= Φ((203 -359+0.5)/0.0002;
步驟 2:設(shè) 定 α =0.05,l=10-4.δ(3)=時,我們有=261,pδ(3)= Φ((203 -261+0.5=0.4880 > α.由于pδ(3)- α < l,我們設(shè)定 δ(1)= δ(3),δ(2)=δ(2);
步驟3:由于|pδ(3)- α|> l,所以我們要重復(fù)步驟2 直到|pδ(k)- α|≤l.
最終我們得到ERV=0.82617.因此,如果δ≥0.82617,p值≤α;而 δ<0.82617 時,p值 > α.我們可根據(jù)這些信息分別對相應(yīng)的情形作出決定.例如:如果等價區(qū)間是[0.7,0.8],我們會選擇接受決定 H0.
在這個例子中,將引入給定的樣本用兩樣本t檢驗來說明等效性檢驗中的等效參考值(ERV).這里我們假設(shè) Xi-N(ζ,σ2),i=1,2,…,m,Yj~ N(η,σ2),j=1,2,…,n,ζη∈R,σ2∈R+.設(shè)有關(guān)參數(shù)θ=(ζ-η)/σ,考慮等效檢驗問題:
H0:|θ|≥δ vs H1:|θ|<δ.
我們采用常用的t檢驗統(tǒng)計量
顯然,P 值為 pδ=P{|T(X,Y)|≤|t(x,y)|}.等式(4)等價于
表2給出了要分析的樣本,這個樣本從moxonodin(一種α受體塊ING劑)與captopril(中血管緊張素轉(zhuǎn)化酶抑制劑)比較的試驗中獲得.試驗比較的是這兩種成分在對患抑郁癥的患者進(jìn)行降壓治療時的成效.
表2 關(guān)于moxonodin和captopril比較性臨床試驗的觀測值和統(tǒng)計量
每天服用0.2~0.4 mg moxonodin(xi)和25 ~50 mg captopril(yi),并且持續(xù)四周后,遭受抑郁患者的低血壓的減少量.
取 α =0.05,根據(jù)式(6)可得|t(x,y)|.根據(jù)第2節(jié)中步驟迭代計算可得到ERV.用與3.1節(jié)例子中類似的方法,得到了EVR=1.1184.從而當(dāng)δ≥1.1184時p值≤α,當(dāng) δ<1.1184時 p值 >α.例如,如果已知等價區(qū)間為[1.0,1.2],我們就能夠與生物藥劑學(xué)或藥物學(xué)相關(guān)領(lǐng)域的專家討論出更準(zhǔn)確的等價區(qū)間.
從數(shù)值示例得知ERV對于臨床醫(yī)師具有很重要的參考價值.
一方面,當(dāng)?shù)刃Ы缦拗郸目稍趯嵺`中確定時,ERV與p值效用相當(dāng).作為使得p值等于顯著性水平α的標(biāo)準(zhǔn)值,它表現(xiàn)出了在做決策判斷時的可信度,這點很類似于p值和顯著性水平α的關(guān)系.此外,同p值一樣,ERV也只能在采樣后計算.
另一方面,當(dāng)給定樣本時,ERV能提供有用的信息同時讓我們對等效界限值有一個直觀的了解,方便我們快速的作出決策,從而可以避免事先設(shè)置等效界限值.ERV直接揭示了在給定的觀察和顯著水平情況下,等效界限值對決策的影響,并能對更多的采樣結(jié)果進(jìn)行解釋.此外,當(dāng)兩種治療方案被驗證是等效的情況下,在今后類似的試驗中,我們也可以通過選擇0.95分位數(shù)自助法確定等效界限值.
從上述的例子中可知ERV的計算不難,復(fù)雜性只在于計算p值.因此,ERV可以在實踐中很容易的獲得.
[1]WINDELER J,TRAMPISCH H J.Recommendations concerning studies on therapeutic equivalence[J].Drug Inf J,1996,30:195-200.
[2]TEMPLE R.Problems in interpreting active control equivalence trials[J].Accountability in Research,1996,4:267 -275.
[3]JONES B,JARVIS P,LEWIS J A,et al.Trials to assess equivalence:the importance of rigorous methods [J].BMJ,1996,313:36-39.
[4]ROSENKRANZ G.Can wereduce the dose of vaccine[J].Control Clin Trials,1997,18:43 -53.
[5]CALIFF R M.A perspective on the regulation of the evaluation of new antithrombotic drugs[J].The American Journal of Cardiology,1998,82(8):25 -35.
[6]EBBUTT A F,F(xiàn)RITH L.Practical issues in equivalence trials[J].Stat Med,1998,17:1691-1701.
[7]HAUCK W W,ANDERSON S.Some issues in the design and analysis of equivalence trials[J].Drug Inf J,1999,33:109 -118.
[8]HUANG I K,MORIKAWA T.Design issues in noninferiority/equivalence trials[J].Drug Inf J,1999,33:1205 -1218.
[9]SIEGEL J P.Equivalence and noninferiority trials[J].Am Heart J,2000,139,166 -170.
[10]LANGE S,F(xiàn)REITAG G.Choice of delta:requirements and reality - results of a systematic review [J].Biometrical journal,2005,47:12-27.
[11]WELLEK S.Testing statistical hypotheses of equivalence[M].CHAPMAN&HALL/CRC,2003.
[12]WIENS B L.Choosing an equivalence limit for noninferiority or equivalence studies[J].Controlled Clinical Trials,2002,23:2-14.
[13]MILLER K W,WILLIAMS D S,CARTER S B.The effect of olestra on systemic levels of oral contraceptives[J].Clinical Pharmacology Theory,1990,48:34 -40.