胡海霞 王 陵 李 晨 李 凡 朱 典 康其傳 李嬋娟 夏結來△
【提 要】 目的 在入組間期長的生存資料臨床試驗中,受試者入組速率可能受招募廣告宣傳等多因素影響而存在反復波動,本文采用截斷混合高斯分布擬合這種入組速率變化并估計該入組模式下需要的樣本量。方法 在指數分布生存時間和指數失訪假設下,采用多重積分法推導受試者入組速率服從截斷混合高斯分布時的事件發(fā)生率及樣本量計算公式;分別計算截斷混合高斯分布中均值、方差、權重分配變化時樣本量變化情況;通過Monte Carlo模擬對采用均勻分布估計波動入組速率可能引起的試驗檢驗效能損失及對提出樣本量計算公式的穩(wěn)健性進行評價。結果 截斷混合高斯入組模式下各高斯組分的均值越小、均值較小高斯組分的方差越小、權重越大,需要的樣本量越小,即受試者入組速率高峰出現較晚或早期入組速率波峰窄小時需要更多的樣本量;采用均勻分布擬合波動入組速率可能會引起不同程度的試驗檢驗效能不足,而在截斷混合高斯入組模式計算的樣本量下試驗檢驗效能基本能穩(wěn)定在預期水平;截斷混合高斯入組模式還可以近似恒定入組速率,單調增或減入組速率等情況。結論 截斷混合高斯入組模式及提出的樣本量計算公式具有較好的穩(wěn)健性,適用性更廣,可以用于生存資料臨床試驗樣本量估計。
生存資料臨床試驗設計時,需要對受試者入組速率、生存時間分布、失訪等進行合理假設或估計。目前在估計試驗需要的樣本量時,多假設入組間期內受試者入組速率恒定,即均勻入組[1-3]。為避免受試者入組速率比預計慢,受試者集中在入組間期后期入組,平均隨訪時間不足引起試驗檢驗效能不足,Lachin等人[4]提出了截斷指數分布入組模式,通過調整截斷指數分布的參數近似不同的受試者入組速率變化。在多中心臨床試驗中,各個分中心開始招募受試者時間不統(tǒng)一,受試者入組速率可能會因各試驗中心的陸續(xù)啟動呈現階梯上升,因此有學者提出分段常數入組模式[5-8]。為了擬合實踐過程中可能出現的多種入組速率改變,Yateman[9]提出了分段線性入組模式,將入組間期分割為若干小間隔,分間隔分別描述受試者入組速率。Maki[10]將截斷指數分布作為分段分布內的某一段分布使得分段入組模式更靈活。此外,線性遞增和線性遞減分布[2]也被用于受試者入組速率估計。在同質和非同質泊松分布入組模式[11-12]下,有學者提出運用貝葉斯理論預測入組速率分布,但理論相對復雜,尚未被廣泛應用。
臨床實踐中受試者入組可能受多個因素影響,因而入組速率可能會出現波動變化,如試驗啟動時,由于前期累積受試者的存在,入組速率呈現遞增趨勢,隨著目標受試者的消耗,入組速率降低。Gesualdo[13]等人的研究發(fā)現視頻宣傳能有效促進受試者入組,因此在入組間期長,需要受試者多的大型臨床試驗中,由于招募受試者受廣告宣傳的影響,入組速率可能呈現緊隨廣告效應變化的波動趨勢。針對這一可能的情形,目前存在的入組速率模型均不能很好的進行擬合。
混合高斯分布(Gaussian mixture distribution,GMD)是由多個獨立高斯分布加權獲得的混合函數,可以對各種形狀的密度函數曲線進行光滑擬合,現已被廣泛應用于信號處理[14]和醫(yī)學遺傳領域[15]。其波浪形的密度曲線形狀與多因素影響下(如受廣告效應影響)的入組速率變化情形類似,因此本文擬利用這一特性,采用截斷后的混合高斯分布對波動的受試者入組速率進行擬合,在此基礎上推導指數分布生存時間和指數失訪假設下該入組模式需要的樣本量估計公式。
假定一個雙臂隨機對照生存試驗,受試者1∶1隨機分配到試驗組和對照組。rij為第i組(i=1表示試驗組,i=2表示對照組)第j個(j=1,2,…N/2,N為試驗總人數)受試者入組時間(0 受試者若在試驗期間失訪,則無法觀察到其興趣事件(死亡),故當受試者均勻入組,即入組時間分布服從概率密度函數g(r)=1/R時,第i組受試者死亡的概率為在隨訪期間內可能發(fā)生失訪的時間點前發(fā)生興趣事件的累積概率,公式表示如下: (1) 其中,δ為死亡指示變量,δij=1表示第i組的第j個受試者在試驗隨訪期間死亡,δij=0表示沒有死亡;τ為最長隨訪時間,τij=T-rij,(T-R≤τij≤T)。同理,第i組失訪受試者的比例表示為: 其中,ξ為失訪指示變量,ξij=1表示第i組的第j個受試者在試驗隨訪期間失訪,ξij=0表示沒有失訪;根據預先估計的失訪比例迭代計算(2)式可獲得兩組受試者失訪時間的指數分布參數ηi。 當受試者入組速率不恒定并且有波動時,如受招募廣告宣傳及目標受試者消耗等影響時入組速率表現為多峰分布,此時可以采用GMD進行擬合,GMD表達式如下: (3) (4) (5) (6) 為探討截斷混合高斯分布中各高斯組分的均值、方差、權重對該入組模式下樣本量的影響,為試驗設計時入組速率模型參數設定提供直觀的依據,我們以兩組分截斷GMD為例(參數Θ={μ1,σ12,ω1,μ2,σ22,ω2},μ1<μ2),計算并比較設定背景下改變不同參數值時需要的樣本量N。假定一個入組間期為3年,總研究時長為5年的雙臂隨機對照生存試驗,試驗組中位生存時間為3.5年,試驗組和對照組死亡風險比為0.7,兩組均有10%的隨機指數失訪,在雙側α=0.05,1-β=0.9時按照公式(6)分別計算:(1) 兩高斯組分均值變化;(2) 兩高斯組分方差相等時方差值變化;(3) 兩高斯組分方差不等時方差值變化;(4) 兩高斯組分權重分配變化,而其他參數固定不變時樣本量N的變化情況,結果見圖1。根據Lachin和Foulkes[4]提出的樣本量計算公式,上述背景下受試者均勻入組時需要的樣本量為652,為便于對比,將均勻入組樣本量作為對照標注在圖中。 圖1 不同截斷GMD入組參數設置下樣本量變化情況 由圖1(a)可以看出,兩高斯組分方差相等、權重平均分配時,樣本量隨截斷GMD各高斯組分均值的增大而增大;此時若兩高斯組分均值和為R(μ1+μ2=R),即兩組分在入組間期內對稱分布時,截斷GMD入組與均勻入組需要的樣本量接近;若兩高斯組分均值和小于R(μ1+μ2 在廣告宣傳影響受試者入組速率的背景下,截斷GMD各高斯組分均值表示入組速率達到最大的時間點,權重和方差表示廣告宣傳對持續(xù)入組的影響,即單個高斯組分入組速率波動峰越寬,方差越大,波動峰越高大,權重越大。各高斯組分均值越小,均值較小高斯組分的權重越大、方差越小,表示越多的受試者在早期進入試驗,受試者平均隨訪時間較長,因此需要較少的樣本量即能達到期望的檢驗效能。即廣告宣傳越早,持續(xù)強度越大,需要的樣本量越小,這與實際經驗一致。在實踐中,試驗設計者可根據受試者入組速率可能出現的波動峰個數、各入組速率峰值出現的大約時點及各波動峰的大小選擇合適的截斷混合高斯參數。在預計入組速率波動情況下,截斷GMD參數設置相對靈活,如一定程度上,增大方差和增大權重會產生相同的效果,故操作者不必拘泥于參數的絕對準確。設計階段,可以多設置一些參數進行敏感性分析,以尋求最合適的樣本量。但需要注意,由于目標研究對象數量的限制,廣告宣傳對入組的影響是有限的,即受試者入組速率不會隨著廣告宣傳的強度持續(xù)增大,試驗設計者應該理性評估這種影響并設置合理的截斷GMD參數以獲得較科學的樣本量估計。 生存資料臨床試驗設計時常假設受試者以恒定速率進入試驗,即均勻入組。在這部分我們通過Monte Carlo模擬探討受試者入組速率存在不同形式波動,尤其是入組波動峰集中在入組后期時,在均勻入組假設估計的樣本量下試驗的檢驗效能。同時,用截斷GMD入組模型對波動入組速率進行擬合,并根據公式(6)計算需要的樣本量,產生相應數量的隨機數進行模擬研究以評價該計算方法的表現。所有模擬均采用SAS 9.2統(tǒng)計分析軟件完成,模擬次數均為5000次,結果如表1所示。試驗設計參數見注釋。 如表1所示,在均勻入組假設下,當受試者入組速率出現波動,尤其是波動幅度較大,入組速率高峰出現較晚、持續(xù)強度較小時,試驗檢驗效能均會出現不同程度的降低,且當試驗隨訪間期較短時,檢驗效能降低更為明顯。而采用本文提出的截斷GMD入組模式估計受試者入組速率存在波動的樣本量時,在各種情形下試驗檢驗效能基本在88%以上,能達到預期水平,表現較為穩(wěn)定。 表1 不同樣本量估計方法下波動入組速率對試驗檢驗效能的影響 *:試驗組中位生存期為3.5年,風險比為0.7,α=0.05(雙側),1-β=0.9,兩組均有10%指數失訪。 混合高斯分布的密度曲線在不同參數下可以表現為多種形狀,其靈活性為其擬合各種入組模式下受試者入組速率提供了可能。在均勻入組模式下,受試者入組速率近似為常數。根據上文得出的結論,隨著各高斯組分方差的增大,截斷GMD入組模式下需要的樣本量與均勻入組需要的樣本量越來越接近,因為此時在入組間期(0,R]內截斷GMD的形狀近似為均勻分布。令截斷混合高斯分布h(r)高斯組分個數為1,均值為R/2,當h(0)/h(R/2)≥99%時在(0,R]內截斷GMD分布可視為均勻分布,經推導得σ≥3.5R。即當截斷GMD參數設置為{μ=0.5R,σ>3.5R,ω=1.0}時在(0,R]內可以用來擬合均勻入組速率。例如,在總研究時長T=5年的雙臂隨機對照生存資料臨床試驗中,試驗組中位生存期為3.5年,試驗組和對照組死亡風險比為0.7,兩組各有10%指數失訪,在雙側α=0.05檢驗水準下,欲獲得90%的檢驗效能,在不同的入組間期長度時均勻入組和采用{μ=0.5R,σ>3.5R,ω=1.0}參數設置的截斷GMD入組需要的樣本量均相等(表2)。 表2 擬合恒定入組速率的截斷GMD入組和均勻入組需要的樣本量比較 圖2 截斷GMD入組擬合不同變化強度的單調增入組速率(p=h(0)/h(3)) 在固定入組間期和試驗總時長的生存資料臨床試驗設計中,受試者入組速率估計是樣本量估計的重要影響因素,目前已有多種入組速率模型相繼被提出,但均存在不同程度的局限性。均勻入組假設受試者入組速率在整個入組間期內恒定,這在臨床試驗中是很難實現的,而入組速率比預計慢會造成試驗的檢驗效能不足,甚至在規(guī)定入組間期內不能完成入組,試驗必須被延長[16]。單調增或減入組速率假設忽略了速率的波動性,限制了其應用。在入組間期較長的臨床試驗中,受試者入組速率受多個因素影響,如受試者招募廣告宣傳,目標受試者總數的消耗和積累,疾病發(fā)病率的季節(jié)性變化等,入組速率多呈現為波動變化。如Coronary Drug Project試驗[16]中,為在既定間期內完成受試者招募,采用了廣播、廣告、報紙宣傳等手段,最終受試者入組速率呈現為多峰波浪形變化。因此在樣本量大,入組間期長的大型臨床試驗中,受試者入組速率波動并不罕見,為了對這種入組速率進行較好的擬合及對該入組模式下需要的樣本量進行更準確的估計,本文提出了截斷GMD入組模式并推導了指數分布生存時間和指數失訪時截斷GMD入組模式下需要的樣本量計算公式。 截斷GMD入組模式下,當各高斯組分均值較小,早期高斯組分所占權重較大,方差較小時,需要的樣本量較小。忽略受試者入組速率的波動,簡單按照均勻入組計算樣本量可能會造成試驗檢驗效能不同程度的損失,且這種損失對隨訪時間短的試驗尤其明顯。因此試驗設計時需要對欲采取的宣傳策略、各試驗中心啟動時間、受試者數量進行評估,從而對受試者最大入組速率時間點及入組速率的波動情況進行預估,對試驗需要的樣本量進行較準確的估計。 截斷GMD入組模型除可以對波動的入組速率進行描述外,還可以擬合入組速率恒定的情形和單調增或減的入組速率,因此可以作為均勻入組模型、截斷指數入組模型,線性增或減入組模型的替代模型,用一種模型實現多種入組速率模式的擬合。但當截斷GMD含有多個高斯組分時,由于參數較多,需要綜合考慮各種因素對入組速率的影響,按照預估的入組速率變化情況進行合適的參數設置。截斷混合高斯分布參數對樣本量的影響
波動入組速率對試驗檢驗效能的影響
截斷GMD入組與其他入組模式的比較
討 論