陳少科 趙 倩,2 張 羿,2 程 毅,2 曹 芳,2 嚴衛(wèi)麗,2
近年來循證醫(yī)學(xué)領(lǐng)域中療效比較研究(comparative effectiveness research,CER)越來越受到關(guān)注[1]。CER 采用多種方法[2,3],對“真實世界(real world)”中臨床疾病不同治療方法的治療效果進行科學(xué)的分析比較,產(chǎn)生對臨床決策有重要參考價值的證據(jù)[1]。對疾病治療有關(guān)的觀察性數(shù)據(jù)進行不同治療策略或方法間的療效比較分析時,平衡對比組間混雜因素和對偏倚進行定量的估計,是保障結(jié)果可靠性的重要手段,也是統(tǒng)計分析的最大難題。傳統(tǒng)的控制混雜因素的方法有多因素的分析方法,傾向性評分(propensity score,PS)對于平衡對比組間混雜因素也很有幫助[4]。尋找更好的控制混雜因素的方法進行更加有效的療效比較分析,一直是統(tǒng)計學(xué)、臨床流行病學(xué)和循證醫(yī)學(xué)專家研究的方向[5]。本研究探索發(fā)明了一種新的數(shù)據(jù)分析方法,通過對研究對象進行反復(fù)模擬隨機化分組、借用RCT 的原理、應(yīng)用新的統(tǒng)計量,對真實醫(yī)療過程中產(chǎn)生的疾病結(jié)局變量進行不同治療方法之間的療效比較分析,為臨床決策提供一種新的證據(jù)類型,將之命名為模擬隨機對照試驗方法(simulated randomized controlled trials),簡稱sRCT。
1.1 設(shè)計原理 本研究設(shè)計原理如圖1 所示。圖1 描述了一個統(tǒng)計量odds 值產(chǎn)生的過程。圖中淺綠色框架內(nèi)為同一疾病狀態(tài)下分別接受A(A 樣本)或B(B 樣本)治療的患者經(jīng)過100 次隨機分組后每次的結(jié)局變量和混雜因素的處理方式;淺綠色框架外為經(jīng)過100 次隨機分組后結(jié)局變量的odds 值計算方式。需要說明的是:①圖1 中A 樣本和B 樣本的樣本量可以相等亦可不相等;②圖1 中每1 次隨機化分組后產(chǎn)生的兩組樣本與其實際接受治療不符的理論概率為50%;③圖1 中剔除的含義為:利用RCT 統(tǒng)計分析的符合方案集分析(per-protocol analysis,PP)策略,將每1次隨機化分組后產(chǎn)生的兩組樣本與其實際接受治療不符樣本,即將分在A 組中的部分B 樣本(圖1 中用B-Bn表示)或分在B 組中的部分A 樣本(圖1 中用A-An表示)作為脫失處理;④由于每次隨機化分組后利用PP 策略剔除了部分樣本,可能導(dǎo)致混雜因素在組間失衡,故進行混雜因素組間均衡性比較,當100 次混雜因素假設(shè)檢驗結(jié)果中,拒絕H0的頻數(shù)≥5 次,說明混雜因素組間不均衡為非小概率事件,不能用sRCT 進行結(jié)局變量比較分析,反之可以進行結(jié)局變量的比較分析;⑤根據(jù)檢驗假設(shè)的不同,對結(jié)局變量可以進行等效性檢驗、優(yōu)效性檢驗或非劣性檢驗。
為了解統(tǒng)計量odds 值的理論分布,重復(fù)100 次圖1 中一個odds 值產(chǎn)生的過程,可產(chǎn)生100 個odds 值。如果odds值的分布或者經(jīng)轉(zhuǎn)換后的分布符合或近似正態(tài)分布,可應(yīng)用正態(tài)曲線下面積分布的原理計算odds 值的95%CI,實現(xiàn)對odds 值點估計值的假設(shè)檢驗。
以odds 值及其95%CI 作為最終判斷不同治療方式治療效果是否存在差異的依據(jù)。當odds 值<1 或其95%CI的上限<1 時,認為兩種治療方式的治療效果無差異。當odds 值>1 或其95%CI 的下限>1,認為兩種治療方式的治療效果有差異。當odds 值=1 或其95%CI 包含1,暫時不能給出明確結(jié)論。
圖1 odds 值計算過程示意圖Fig 1 The diagram of calculation of odds
1.2 技術(shù)路線 通過對模擬數(shù)據(jù)庫進行分析的方法說明sRCT 的原理、可行性、穩(wěn)定性及判斷結(jié)果與真實情況的一致性。以結(jié)局變量和混雜因素均為連續(xù)變量,每組樣本量取50、100、500 和1 000,療效分析以優(yōu)效性檢驗為例。
1.2.1 數(shù)據(jù)庫的創(chuàng)建 利用統(tǒng)計分析軟件Stata 11.0 模擬研究對象接受不同治療(實驗組和對照組)的相關(guān)數(shù)據(jù)。并模擬創(chuàng)建療效無差異數(shù)據(jù)庫和療效有差異數(shù)據(jù)庫。每類數(shù)據(jù)庫創(chuàng)建過程中均涉及3 個參數(shù):樣本量、把握度和效應(yīng)量。
利用PS(power and sample size program)軟件計算出上述兩類數(shù)據(jù)庫中不同樣本量下(n1 = n2 =50、100、500 和1 000),把握度(0. 5、0. 55、0. 6、0. 65、0. 7、0. 75、0. 8 和0.85)所對應(yīng)效應(yīng)量的大小(表1);再利用計算機模擬產(chǎn)生包含治療方式、混雜因素(連續(xù)性變量)和結(jié)局變量(連續(xù)性變量)數(shù)據(jù)。以結(jié)局變量為例,進行療效差異比較;以實驗過程中可能存在的混雜因素為例,評價保留下來樣本中的混雜因素在組間是否均衡可比。
表1 模擬數(shù)據(jù)庫的特征:樣本量、效應(yīng)量和假設(shè)檢驗把握度Tab 1 Characteristics of simulated datasets:sample size,effect size and power
1.2.1.1 結(jié)局變量數(shù)據(jù)的產(chǎn)生 設(shè)定每組樣本量為100、均數(shù)和標準差分別為27.5 和6,利用invnorm(uniform())* σ+μ 命令產(chǎn)生符合正態(tài)分布的實驗組結(jié)局變量數(shù)據(jù),并計算標準差。根據(jù)實驗組結(jié)局變量標準差、把握度(0.50)和效應(yīng)量(0.42),產(chǎn)生符合正態(tài)分布的對照組結(jié)局變量數(shù)據(jù)。
1.2.1.2 混雜因素數(shù)據(jù)的產(chǎn)生 設(shè)定每組樣本量為100、均數(shù)和標準差分別為174.5 和4,同樣利用invnorm(uniform())* σ+μ 命令分別產(chǎn)生符合正態(tài)分布的對照組和實驗組的混雜因素數(shù)據(jù)。由于未設(shè)定種子數(shù),因此產(chǎn)生的實驗組和對照組的混雜因素數(shù)據(jù)并不相等。
1.2.1.3 總數(shù)據(jù)庫形成 利用stack、merge 等命令,將上述產(chǎn)生的實驗組和對照組數(shù)據(jù)合并形成總數(shù)據(jù)庫。
1.2.2 隨機化方法 采用簡單隨機化分組方式,以記錄號作為隨機序列對總數(shù)據(jù)庫進行隨機化分組。
1.2.3 統(tǒng)計學(xué)分析 數(shù)據(jù)分析采用Stata 11.0 統(tǒng)計軟件。計量數(shù)據(jù)以±s表示。兩組間比較采用兩獨立樣本t 檢驗,以α=0.05 為檢驗水準,P <0.05 為差異有統(tǒng)計學(xué)意義。
1.2.3.1 療效差異比較 首先對總數(shù)據(jù)庫進行100 次隨機化分組,再根據(jù)PP 策略對保留下來樣本中的結(jié)局變量進行假設(shè)檢驗(雙側(cè)檢驗)。檢驗假設(shè)為:H0:兩種治療方式治療效果無差異;H1:兩種治療方式治療效果有差異。根據(jù)100 次結(jié)局變量假設(shè)檢驗的結(jié)果,計算得到拒絕H0頻數(shù)與不拒絕H0頻數(shù)的比值(odds 值)。根據(jù)odds 值分布求得其95%CI。
1.2.3.2 混雜因素均衡性比較 ①兩組樣本量相等:對兩組樣本量相等且均為100 的總數(shù)據(jù)庫進行100 次隨機化分組,并對每次隨機化分組后根據(jù)PP 策略保留下來樣本中的混雜因素進行假設(shè)檢驗(雙側(cè)檢驗)。檢驗假設(shè)為:H0:混雜因素在組間均衡;H1:混雜因素在組間不均衡。然后分別計算出100 次混雜因素假設(shè)檢驗結(jié)果中拒絕H0和不拒絕H0的頻數(shù),以此作為判斷混雜因素組間均衡性的依據(jù)。②兩組樣本量不相等:對創(chuàng)建的兩組樣本量分別為30和70 的總數(shù)據(jù)庫進行100 次隨機化分組,同樣對根據(jù)PP策略保留下來樣本中的混雜因素進行假設(shè)檢驗。最后分別計算出100 次混雜因素假設(shè)檢驗結(jié)果中拒絕H0和不拒絕H0的頻數(shù),以此作為判斷混雜因素組間均衡性的依據(jù)。
2.1 基本情況 表2 描述了根據(jù)表1 中的相應(yīng)參數(shù)創(chuàng)建的每組樣本量為50,100,500,1 000 時模擬數(shù)據(jù)庫的基本特征。在數(shù)據(jù)庫中,混雜因素在組間差異均無統(tǒng)計學(xué)意義(P >0.05);在療效有差異數(shù)據(jù)庫中,結(jié)局變量在組間存在差異(P <0.05);在療效無差異數(shù)據(jù)庫中,結(jié)局變量在組間差異無統(tǒng)計學(xué)意義(P >0.05)。
2.2 odds 值及其95%CI odds 值呈偏態(tài)分布(圖2A),對數(shù)轉(zhuǎn)換后呈正態(tài)(圖2B),在此基礎(chǔ)上根據(jù)正態(tài)分布曲線下面積分布的原理計算95%CI。表3 顯示了對全部模擬數(shù)據(jù)庫分析得到的odds 值及其95%CI。從表3 可以看出,對療效有差異數(shù)據(jù)庫分析得到的odds 值均>1;對療效無差異的數(shù)據(jù)庫分析得到的odds 值均<1。
?
?
圖2 odds 值分布圖Fig 2 The histogram graph of the odds
圖3 描述了對療效無差異和有差異數(shù)據(jù)庫分析得到的odds 值及其95%CI 隨把握度變化的趨勢。如圖3A1 ~4 所示,不同樣本量中療效無差異數(shù)據(jù)庫的odds 值及其95%CI 均隨著把握度增加呈下降趨勢。如圖3B1 ~4 所示,不同樣本量中療效有差異數(shù)據(jù)庫的odds 值及其95%CI 均隨著把握度增加呈上升趨勢。
圖3 療效無差異和有差異數(shù)據(jù)庫的odds 值及其95%CI 隨把握度變化趨勢Fig 3The trends of odds and its 95% CI varying with power for nonsignificant and significant between-group differences
2.3 混雜因素組間均衡性 當模擬數(shù)據(jù)庫的兩組樣本量相等且均為100 時,在100 次混雜因素假設(shè)檢驗的結(jié)果中,不拒絕H0的頻數(shù)為97 次,拒絕H0的頻數(shù)為3 次。當實驗組樣本量為30、對照組樣本量為70 時,在100 次混雜因素假設(shè)檢驗的結(jié)果,不拒絕H0的頻數(shù)為99 次,拒絕H0的頻數(shù)為1 次。說明當兩組樣本量相等和不相等的情況下,每次隨機化分組后無錯分進入分析的樣本中混雜因素組間均衡的可能性均超過95%。
sRCT 設(shè)計的初衷是對臨床實踐產(chǎn)生的觀察性數(shù)據(jù)進行療效比較分析時,采用新的方法對可能引起偏倚的潛在混雜因素進行科學(xué)合理的統(tǒng)計學(xué)處理,最大限度地降低混雜偏倚對療效比較分析的影響,從而為臨床決策提供值得信賴的和較高水準的研究證據(jù)。sRCT 對混雜因素的處理借用了RCT 研究的原理,即通過“事后”的模擬隨機化分組使混雜因素在組間達到均衡后進行結(jié)局變量的組間比較。考慮到采用類似PP 策略刪除了隨機分組與實際接受治療矛盾的數(shù)據(jù)后,混雜因素在組間的均衡性可能遭到破壞,sRCT 設(shè)定了100 次模擬隨機化分組后混雜因素均衡性檢驗拒絕H0的頻率是否<5%作為判斷依據(jù)。當拒絕H0的頻率<5%時,說明刪除理論治療與實際治療不符的數(shù)據(jù)后混雜因素在組間均衡性遭到破壞是小概率事件,結(jié)局變量的比較才得以進行。本文判斷療效差異的統(tǒng)計量為odds值,是針對同一案例進行100 次模擬隨機化分組試驗后,拒絕H0的頻率和不拒絕H0的頻率的比值,通過計算其點估計值和95%CI,實現(xiàn)odds 值的假設(shè)檢驗,并對療效比較的結(jié)果進行解釋。sRCT 方法可應(yīng)用于優(yōu)效性檢驗、等效性檢驗以及非劣效性檢驗等不同的情況。
sRCT 均衡混雜因素在組間的分布借用了RCT 的原理,RCT 是將研究對象納入后通過隨機化分組使已知的和未知的混雜因素在組間達到均衡,使組間達到完全的可比,療效比較的差異可以肯定地歸因于分組后不同治療所產(chǎn)生的差異,前瞻性的RCT 因此成為干預(yù)研究的最佳設(shè)計。sRCT 的基本屬性是觀察性研究而非前瞻性的干預(yù)研究,是對臨床實踐不同治療方案或方法實施后已經(jīng)產(chǎn)生的結(jié)局變量采用反復(fù)模擬隨機化分組均衡混雜因素、應(yīng)用PP 策略和計算新的統(tǒng)計量odds 值及其95%CI 來反映療效比較的結(jié)果和假設(shè)檢驗。sRCT 與RCT 不同之處在于:①RCT 的研究對象的納入和排除主要考慮疾病診斷因素和試驗的安全性因素,后者的考慮常使其限制過于嚴格。而sRCT 研究是臨床已產(chǎn)生的數(shù)據(jù),研究對象已經(jīng)接受過治療,因此納入僅需考慮對疾病診斷和治療的定義,對特殊人群如幼兒、孕婦等沒有特別限制。②CER 的過程是對混雜因素作斗爭的過程。sRCT 理論上將產(chǎn)生一半的研究對象其分組與實際接受的治療相反,采用PP 策略后混雜因素在組間均衡性是進行結(jié)局變量比較的先決條件。sRCT 僅適用于混雜因素平衡的情況,這樣的設(shè)計可以杜絕濫用數(shù)據(jù),產(chǎn)生低質(zhì)量的證據(jù)。通過模擬兩組樣本量相等或不相等,證明了PP 策略原理分析混雜因素均衡性被破壞的概率很小(P <0.05)。
應(yīng)用觀察性數(shù)據(jù)的療效比較研究中,PS 也是排除混雜因素影響的一種常用方法[6,7],PS 方法中以匹配法應(yīng)用最為廣泛,但不論是全局匹配還是局部匹配(卡鉗匹配)[8],均為“事后隨機化”,均衡可觀測的和已知的變量,達到“接近隨機化數(shù)據(jù)”的效果,但對觀察性數(shù)據(jù)中潛在的未知混雜因素引起的偏倚無能為力[9]?;祀s因素在組間不均衡性,與不同組間的樣本量是否相等可能有一定的關(guān)系,本研究中當兩組樣本量相等情況下混雜因素組間分布是均衡的,同時本研究也嘗試了當實驗組樣本量為30、對照組樣本量為70 時,在100 次混雜因素假設(shè)檢驗不拒絕H0的頻率為99 次,說明組間樣本量不相等情況下混雜因素組間分布也是均衡的,說明sRCT 雖然也是“事后隨機化”,但通過模擬隨機化分組的方法均衡了潛在的混雜因素。而PS 受觀察組和對照組樣本量的限制,較難實現(xiàn)充分的匹配以消除組間的混雜因素不均衡。sRCT 通過模擬數(shù)據(jù)和反復(fù)的模擬分析,描述了統(tǒng)計量odds 值的分布特征(對數(shù)正態(tài)分布),以及與模擬產(chǎn)生的已知組間療效差異結(jié)果的良好的線性關(guān)系,使計算odds 點估計值及其95%CI 來判斷療效比較結(jié)果成為可能。
總之,sRCT 吸收了RCT 思想的精髓,期望作為觀察性研究中繼PS 和多元分析后,又一種可以有效控制混雜因素的新的CER 方法。該方法尚有待于理想的真實數(shù)據(jù)加以驗證,但開創(chuàng)一種用于觀察性數(shù)據(jù)療效比較研究的新方法,意義重大。
在本研究中未模擬創(chuàng)建不同樣本量下把握度為0.9 和0.95 情況下的數(shù)據(jù)庫,因為當把握度為0.9 或0.95 時,100次檢驗結(jié)果中,按照α 的檢驗水準平均有90 或95 次能夠得出差異有統(tǒng)計學(xué)意義的結(jié)論。與此同時在本研究預(yù)實驗過程中,對把握度分別為0.9 和0.95 療效有差異/療效無差異數(shù)據(jù)庫進行分析時,在100 次結(jié)局變量假設(shè)檢驗結(jié)果中有超過95 次的結(jié)果是拒絕原假設(shè)/不拒絕原假設(shè)。即當把握度為0.9 或0.95 時,利用sRCT 有超過95%的概率判斷兩種治療方式治療效果的真實差異。
sRCT 有以下特點:①有效的控制混雜因素。②建立了odds 值及其95%CI 作為sRCT 的統(tǒng)計量,作為判斷療效是否存在差異的依據(jù)。odds 值的計算原理為通過100 次結(jié)局變量假設(shè)檢驗結(jié)果中拒絕H0的頻數(shù)與不拒絕H0的頻數(shù)之比計算得到。這種針對多個同一目的假設(shè)檢驗結(jié)果綜合進行二次分析的做法與Meta 分析有類似之處。較單次假設(shè)檢驗結(jié)果而言,用odds 值及其95%CI 來判斷療效差異更精確,可靠性更高。③較好的外延性:在進行設(shè)計較為嚴謹?shù)呐R床試驗前,需按照嚴格的納入排除標準選擇研究對象,使得研究結(jié)論的應(yīng)用人群受到限制[10]。而本研究是對基于真實醫(yī)療過程中產(chǎn)生的數(shù)據(jù)進行分析,研究對象為一組同一疾病狀態(tài)下分別接受兩種不同治療的患者,這些研究對象的選擇可能經(jīng)過或未經(jīng)過嚴格的納入排除標準的篩選,因此運用sRCT 分析得到的結(jié)論將會適用于更廣的人群。④小樣本量即可實施:對每組樣本量分別為50 和1 000療效有差異數(shù)據(jù)庫分析得到的odds 值均>1,odds 值及其95%CI 均隨著把握度的增加呈近似線性上升趨勢。相反,對每組樣本量分別為50 和1 000 療效無差異數(shù)據(jù)庫分析得到的odds 值均<1,odds 值及其95%CI 均隨著把握度增加呈近似線性下降趨勢。一方面說明sRCT 穩(wěn)定性較高,同時也說明sRCT 在樣本量較小的情況下也適用,當然更小的樣本量有待今后進一步嘗試。⑤結(jié)局指標的確定:在前瞻性研究設(shè)計階段需要明確定義研究的主要和次要結(jié)局指標,因此研究結(jié)果只能表明待研究治療方式對某個特定結(jié)局指標的療效,sRCT 可根據(jù)臨床研究目的的不同,對觀察性數(shù)據(jù)中兩組均存在的結(jié)局指標進行分析,可根據(jù)臨床需要選取關(guān)注的結(jié)局指標。
本研究中無論模擬數(shù)據(jù)庫兩組樣本量是否相等,每次隨機化分組后根據(jù)PP 策略進入分析的樣本中,混雜因素組間均衡的頻率都超過了95%,混雜因素在組間不均衡的可能性非常小,均提示能進行后續(xù)的療效分析。但模擬數(shù)據(jù)與真實臨床數(shù)據(jù)仍有區(qū)別,仍需復(fù)雜環(huán)境下的臨床真實數(shù)據(jù)驗證,仍有很長的探索之路要走。
作者已將sRCT 實現(xiàn)過程編寫為Stata 11.0 可執(zhí)行的do 文件,有意索取者請與本文通訊作者聯(lián)系。
[1]Marko NF, Weil RJ. An introduction to comparative effectiveness research. Neurosurgery,2012,70(2): 425-434
[2]Armstrong K. Methods in comparative effectiveness research. J Clin Oncol,2012,30(34): 4208-4214
[3]Sox HC, Goodman SN. The methods of comparative effectiveness research. Annu Rev Public Health,2012,33:425-445
[4]Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika,1983,70(1): 41-55
[5]Concato J, Peduzzi P, Huang GD, et al. Comparative effectiveness research: what kind of studies do we need? J Investig Med,2010,58(6):764-769
[6]Austin PC, Grootendorst P, Anderson GM. A comparison of ability of different propensity score models to balance measured variables between treated and untreated subjects:a Monte Carlo study. Stat Med,2007,26(4):734-753
[7]Austin PC. A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003. Stat Med,2008,27(12): 2037-2049
[8]Austin PC, Mamdani MM. A comparison of propensity score methods:A case-study estimating the effectiveness of post-AMI statin use. Stat Med,2006,25(12): 2084-2106
[9]Brookhart MA, Schneeweiss S, Rothman KJ, et al. Variable selection for propensity score models. Am J Epidemiol,2006,163(12): 1149-1156
[10]McLeod RS, Wright JG, Solomon MJ, et al. Randomized controlled trials in surgery: Issues and problems. Surgery,1996,119(5): 483-486