趙延延 許毓君 王 楊 李 衛(wèi)△
兩階段設(shè)計在醫(yī)療器械非隨機臨床試驗中的應(yīng)用
趙延延1?許毓君2?王 楊1李 衛(wèi)1△
目的介紹兩階段設(shè)計的概念、使用流程和注意事項,并以某外周血管支架臨床試驗為例介紹其在醫(yī)療器械非隨機臨床試驗中的應(yīng)用。方法基于傾向性評分的兩階段設(shè)計能使醫(yī)療器械非隨機臨床試驗滿足隨機化和前瞻性的原則。我們以某外周血管支架的非劣效試驗為例,介紹兩階段設(shè)計的流程和細節(jié)。結(jié)果兩階段設(shè)計解決了非隨機臨床試驗由于非隨機所帶來的可能的研究偏倚及傾向性評分方法使用過程中的主觀不確定性,實現(xiàn)了對隨機臨床試驗的模擬,從而保障了非隨機臨床試驗研究設(shè)計和統(tǒng)計分析的客觀性和前瞻性。結(jié)論兩階段設(shè)計能夠增加臨床試驗的可行性,整合高質(zhì)量的外部數(shù)據(jù),縮短試驗周期,提高試驗效率,最終得到可靠的結(jié)論,具有較大的推廣價值。
兩階段設(shè)計 傾向性評分 醫(yī)療器械 非隨機臨床試驗
設(shè)計科學(xué)、實施嚴(yán)謹(jǐn)?shù)碾S機對照試驗是評價醫(yī)療產(chǎn)品安全性和有效性的金標(biāo)準(zhǔn)。然而出于倫理學(xué)或臨床可行性的考慮,許多醫(yī)療器械臨床試驗無法采用嚴(yán)格的隨機對照研究設(shè)計[1];此外,隨機對照試驗往往耗時很長,如醫(yī)療器械臨床試驗的周期是3~7年,而隨著醫(yī)療技術(shù)的發(fā)展,器械產(chǎn)品的更替周期要短于隨機對照試驗的周期,如心臟支架產(chǎn)品的生命周期約為2年。為了能夠使好產(chǎn)品盡早上市,造福于廣大病患,急需一種既能夠作為隨機臨床試驗補充,又符合統(tǒng)計學(xué)規(guī)范的研究設(shè)計方法。
非隨機臨床試驗(non-randomized clinical trial)是指在臨床試驗中受試者所分配的干預(yù)不是由機會決定,而由受試者或研究者指定[2],根據(jù)對照組的不同可以分為非隨機同期對照試驗和非隨機歷史對照試驗。相比于傳統(tǒng)的隨機對照試驗,這類試驗?zāi)軌蚩朔嶋H研究開展過程中面臨的倫理學(xué)或可行性問題,整合高質(zhì)量的外部數(shù)據(jù),高效地回答臨床實踐問題,在國外已有不少被用于醫(yī)療器械上市前的申報中[3-4]。但非隨機臨床試驗本身缺少隨機化的環(huán)節(jié),會導(dǎo)致組間基線變量不均衡,帶來效應(yīng)估計的偏倚;同時結(jié)局評價不具有前瞻性,即研究者在獲得試驗結(jié)局?jǐn)?shù)據(jù)之后再進行評分建模,通過大量重復(fù)的事后分析得到有利于試驗產(chǎn)品的結(jié)果,這使得試驗結(jié)果的可靠程度備受質(zhì)疑,目前在國內(nèi)尚無以非隨機對照臨床試驗的結(jié)果作為上市前確證性證據(jù)而獲得審批的產(chǎn)品。傾向性評分的方法本身雖然在解決隨機化問題時顯示出極大的優(yōu)越性[5],但在臨床試驗中多被用于事后分析,存在數(shù)據(jù)導(dǎo)向、人為操控數(shù)據(jù)獲得陽性結(jié)果的嫌疑,分析結(jié)果通常亦不被認可。
兩階段設(shè)計是指在利用傾向性評分方法的基礎(chǔ)上,對試驗的流程進行人為的劃分[6],從而模擬試驗的隨機化過程,保障試驗設(shè)計和統(tǒng)計分析的前瞻性,進而獲得較為客觀可靠的試驗結(jié)果,被美國食品藥品監(jiān)督管理局(FDA)推薦用于非隨機臨床試驗中[7]。本文將詳細介紹兩階段設(shè)計的基本原理和在醫(yī)療器械臨床試驗中的應(yīng)用,并以某外周血管支架產(chǎn)品安全性和有效性評價為例,闡述其使用流程和注意事項。
兩階段設(shè)計的本質(zhì)是實現(xiàn)非隨機臨床試驗對隨機對照臨床試驗隨機化和前瞻性的模擬。隨機化保證了觀測到和未觀測到的變量在試驗組和對照組間的分布是均衡的,進而依據(jù)因果推斷的原理得到效應(yīng)的無偏估計。前瞻性原則,即在方案設(shè)計階段研究者無法提前接觸到結(jié)局?jǐn)?shù)據(jù),使得試驗結(jié)果客觀可靠[8-9]。
1.傾向性評分與隨機化原則
非隨機臨床試驗的基線變量若未經(jīng)處理,往往存在組間不均衡的情況。這些不均衡變量的維數(shù)很高且不少為連續(xù)型變量,此時觀察性研究中常用的混雜校正方法如匹配、分層、回歸并不適用:匹配能夠校正的因素非常有限;即便進行了分層,當(dāng)每層的人數(shù)很少甚至沒有時,無法進行效應(yīng)估計;多因素校正則要求有足夠數(shù)量的結(jié)局事件,而許多臨床試驗并不滿足條件。此時隨機化的效果可以通過傾向性評分來實現(xiàn),該方法最早由Rosenbaum和Rubin于1983年提出[5],在2002年被美國FDA采納用于醫(yī)療器械上市前的非隨機臨床試驗及藥物和器械上市后的監(jiān)管研究中[10]。
傾向性評分定義為在觀察到的協(xié)變量(Xi)條件下,研究對象i(i=1,2,…,n)被分配到試驗組(Zi=1)而非對照組(Zi=0)的條件概率,可表達為:
e(Xi)=P(Zi=1|Xi)
該方法基于降維的思想,當(dāng)模型中納入了全部的混雜變量時,每個試驗對象的基線信息便能夠被整合至一維的傾向性評分中,可通過logistic回歸模型實現(xiàn)。進一步地,只需對傾向性評分進行分析,如匹配、分層、回歸或逆概率加權(quán)等,便能同時均衡兩組間全部混雜變量,實現(xiàn)隨機化的模擬。
2.兩階段設(shè)計與前瞻性原則
在非隨機臨床試驗中,為確保傾向性評分估計與最終的結(jié)局分析獨立進行,避免前瞻性原則遭到破壞,需要利用兩階段設(shè)計(two-stage design)[7-8]對試驗流程進行人為的劃分,如圖1所示。
圖1 兩階段設(shè)計的基本流程
兩階段設(shè)計包含兩個層次,首先試驗被嚴(yán)格地分成方案設(shè)計階段(design phase)和結(jié)局分析階段(analysis phase)。方案設(shè)計階段主要包括傾向性評分建模、模型評價和調(diào)整、制定和完善統(tǒng)計分析計劃等步驟,在此期間試驗正式開展,但所有結(jié)局?jǐn)?shù)據(jù)(特別是當(dāng)采用外部數(shù)據(jù)作為對照時)均需由防火墻隔離,在整個方案設(shè)計階段統(tǒng)計師都無法獲得。當(dāng)數(shù)據(jù)庫鎖定,進入結(jié)局分析階段,傾向性評分模型不得更改,統(tǒng)計師在校正傾向性評分的基礎(chǔ)上對結(jié)局?jǐn)?shù)據(jù)進行分析,得到最終統(tǒng)計分析結(jié)果。數(shù)據(jù)防火墻的建立是劃分方案設(shè)計階段與結(jié)局分析階段的關(guān)鍵,也是兩階段設(shè)計在實際應(yīng)用中的最大挑戰(zhàn),可通過第三方機構(gòu)如數(shù)據(jù)安全監(jiān)查委員會(DSMB/DMC)[11]的介入、數(shù)據(jù)分析平臺的訪問權(quán)限控制、留痕功能[12]或其他方式實現(xiàn),但無論采用何種方法,都必須在制定方案之初與臨床試驗法規(guī)監(jiān)管部門充分溝通達成一致。
在此基礎(chǔ)上,方案設(shè)計階段被進一步分為第一階段和第二階段。從開始方案設(shè)計到試驗正式開始為第一階段,主要任務(wù)包括選定獨立的統(tǒng)計師,確定采集的基線變量,選擇適合的對照組和估算樣本量。另外,需要在方案中明確傾向性評分模型納入變量的原則、組間平衡的評價標(biāo)準(zhǔn)和結(jié)局分析階段校正評分的方法,在方案定稿并交由CFDA備案后,這些信息便不可更改。當(dāng)完成受試者入組與基線信息采集,基線數(shù)據(jù)清理完畢,第一階段即完成,進入第二階段。統(tǒng)計師進行傾向性評分估計,根據(jù)評分進行匹配或者分層,對組間基線變量的均衡情況進行評價。當(dāng)兩組評分的重疊部分過小時,可能需要對模型進行調(diào)整和優(yōu)化,直至兩組基線變量均衡可比,并最終完善統(tǒng)計分析計劃。研究者在方案設(shè)計階段應(yīng)當(dāng)與法規(guī)監(jiān)管部門進行充分溝通,并于第一階段和第二階段結(jié)束后及時進行備案,缺少這些環(huán)節(jié)將嚴(yán)重影響最終試驗結(jié)果的可靠性。
選取真實臨床試驗中的部分?jǐn)?shù)據(jù)作為案例,對兩階段設(shè)計的具體流程加以闡述。某外周血管支架新一代產(chǎn)品的非劣效臨床試驗,假設(shè)試驗組與對照組主要終點指標(biāo)術(shù)后12個月無靶血管或靶病變再次血運重建發(fā)生率均為92%,非劣效界值δ為-5%,統(tǒng)計檢驗的顯著性水平(α)取單側(cè)0.025,考慮脫落率10%,當(dāng)每組受試者525例時,得到非劣效結(jié)論的檢驗效能(1-β)超過80%。本案例中由于試驗支架的前代產(chǎn)品已上市,兩代產(chǎn)品相似度高,適用人群一致,且前代產(chǎn)品的隨機對照試驗開展時間接近,積累了高質(zhì)量的試驗數(shù)據(jù),故選擇這部分?jǐn)?shù)據(jù)作為本次試驗的對照。研究者對于試驗數(shù)據(jù)的全部操作均在可留痕的數(shù)據(jù)分析平臺上進行,并根據(jù)不同的角色分工和試驗的不同階段給予不同的平臺訪問權(quán)限。同時,在方案中明確了試驗需要采集的關(guān)鍵變量,入選及排除標(biāo)準(zhǔn)等信息?;谂R床經(jīng)驗及既往文獻,在第一階段我們確定了12個對主要終點指標(biāo)有影響的混雜變量。此外,傾向性評分模型還將納入組間有顯著差異的基線變量。傾向性評分采用1:1最鄰近法(nearest neighbor)進行匹配,當(dāng)模型調(diào)整后標(biāo)準(zhǔn)化均數(shù)差小于0.1時認為變量在組間分布均衡,在結(jié)局分析階段傾向性評分通過分層進行校正。
表1 試驗組和對照組納入傾向性評分模型基線定性變量比較
表2 試驗組和對照組納入傾向性評分模型基線定量變量比較
表1及表2展示了最終納入模型的21個基線變量在試驗組和對照組的分布情況。選擇logistic回歸模型估計兩組的傾向性評分,并對評分進行匹配,匹配后試驗組和對照組各525例。比較分析匹配后的基線變量,得到標(biāo)準(zhǔn)化均數(shù)差均小于0.1(圖2),說明匹配后的基線指標(biāo)組間均衡。
在結(jié)局分析階段,對匹配后的人群進行傾向性評分分層(表3),分別在每層進行比較并通過CMH卡方計算總效應(yīng)估計值,試驗組術(shù)后12個月無靶血管或靶病變再次血運重建發(fā)生率為94.48%,對照組為96.76%,率差(試驗組-對照組)為-1.76%(95%CI:-4.09%~0.63%),由于下限-4.09%大于方案中預(yù)先設(shè)定的非劣效界值-5.0%,可以認為試驗組的有效性非劣于對照組(P=0.007)。
圖2 傾向性評分調(diào)整前后基線變量的標(biāo)準(zhǔn)化均數(shù)差
傾向性評分五分位分層12345合計試驗組1111141149195525對照組999696119115525
由于醫(yī)療器械隨機對照試驗的特殊性,在實際開展過程中往往會面臨不少倫理學(xué)和可行性問題。對于市場上已有成熟同類產(chǎn)品的試驗產(chǎn)品,當(dāng)知情同意獲取困難、受試者可能不同意隨機分配等情況出現(xiàn)時,非隨機臨床試驗可以作為隨機對照試驗的補充,從一定層面上提供產(chǎn)品的安全性和有效性證據(jù)。此外,非隨機臨床試驗具有控制時間和經(jīng)濟成本、充分利用高質(zhì)量外部數(shù)據(jù)等優(yōu)勢。兩階段設(shè)計為非隨機臨床試驗提供了嚴(yán)謹(jǐn)?shù)牧鞒桃?guī)范。本文在介紹兩階段設(shè)計原理的基礎(chǔ)上,以實際臨床試驗數(shù)據(jù)為案例,闡述了其在醫(yī)療器械非隨機臨床試驗中的具體使用步驟。
在實際運用兩階段設(shè)計時,應(yīng)當(dāng)注意如下問題:
1.從監(jiān)管角度而言,建立合理的防火墻機制,避免已有的結(jié)局?jǐn)?shù)據(jù)發(fā)生泄漏、統(tǒng)計師在獲取結(jié)局?jǐn)?shù)據(jù)后進行重復(fù)分析是確保非隨機臨床試驗前瞻性的關(guān)鍵。通過第三方機構(gòu)如DSMB/DMC介入、數(shù)據(jù)分析平臺的訪問權(quán)限控制與留痕功能來實現(xiàn)前期的數(shù)據(jù)保密是可取的,此外也可以采用其他方式建立數(shù)據(jù)防火墻,但均需要在試驗方案中寫明,并于試驗正式開展前與臨床試驗法規(guī)部門進行溝通、達成一致。
2.兩階段設(shè)計對非隨機臨床試驗的流程進行了嚴(yán)格的劃分,當(dāng)某階段結(jié)束后,方案中早已明確的傾向性評分模型納入變量原則、結(jié)局評價過程中評分校正方法等信息便不能更改。因此在整個試驗期間,研究者需要與臨床試驗法規(guī)部門進行多次溝通,并在每一階段結(jié)束后及時備案,否則將嚴(yán)重損害試驗的可靠性,導(dǎo)致最終結(jié)果不被認可。
3.對照組數(shù)據(jù)可以是已上市同類產(chǎn)品的同期試驗數(shù)據(jù)、同類產(chǎn)品的既往臨床試驗數(shù)據(jù)或注冊登記研究,其中同期試驗數(shù)據(jù)可靠性最高。若采用既往臨床試驗數(shù)據(jù),應(yīng)當(dāng)注意兩組人群的入組時間應(yīng)盡可能接近,入選和排除標(biāo)準(zhǔn)盡量一致,否則指南的更新、醫(yī)療實踐和技術(shù)的發(fā)展都會造成人群選擇和臨床結(jié)局定義及判斷的差異,影響數(shù)據(jù)可比性。此外,關(guān)鍵變量缺失會造成潛在的混雜效應(yīng)無法處理,增加結(jié)果評價的不確定性,因此在方案設(shè)計第一階段應(yīng)當(dāng)明確需要采納的變量,選擇包含關(guān)鍵變量的對照組數(shù)據(jù)。
4.當(dāng)兩組數(shù)據(jù)可比性不高時,在校正傾向性評分的過程中試驗樣本量會發(fā)生較大變化,檢驗功效亦會受損。因此在方案設(shè)計的第二階段,統(tǒng)計師應(yīng)當(dāng)基于當(dāng)前的傾向性評分模型對樣本量和檢驗功效進行重新估計,并在統(tǒng)計分析報告中寫明。
5.對于隨訪周期很短或被試產(chǎn)品的主要評價指標(biāo)為即刻終點的臨床試驗,由于較難進行明確的流程劃分,因此不建議采用傾向性評分的兩階段設(shè)計方法。
總體來說,兩階段設(shè)計能夠克服非隨機臨床試驗的主觀性問題,類似于隨機臨床試驗,并獲得客觀可靠的結(jié)論,該方法具有一定的應(yīng)用價值。
[1] Yue LQ.Statistical and regulatory issues with the application of propensity score analysis to nonrandomized medical device clinical studies.Journal of Biopharmaceutical Statistics,2007,17(1):1-13.
[2] Sedgwick P.What is a non-randomised controlled trial.BMJ,2014:348.
[3] Fairman RM,Criado F,Farber M,et al.Pivotal results of the medtronic vascular talent thoracic stent graft system:the VALOR trial.Journal of vascular surgery,48(3):546-554.
[4] Troisi N,Torsello G,Donas KP,et al.Endurant stent-graft:a 2-year,single-center experience with a new commercially available device for the treatment of abdominal aortic aneurysms.Journal of Endovascular Therapy,17(3):439-448.
[5] Rosenbaum PR,Rubin DB.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70(1):41-55.
[6] Yue LQ,Lu N,Xu Y.Designing premarket observational comparative studies using existing data as controls:challenges and opportunities.Journal of biopharmaceutical statistics,2014,24(5):994-1010.
[7] Yue LQ,Campbell G,Lu N,et al.Utilizing national and international registries to enhance pre-market medical device regulatory evaluation.Journal of biopharmaceutical statistics,26(6):1136-1145.
[8] Rubin DB.For objective causal inference,design trumps analysis.The Annals of Applied Statistics,2008:808-840.
[9] Rubin DB.Using propensity scores to help design observational studies:application to the tobacco litigation.Health Services and Outcomes Research Methodology,2001,2(3):169-188.
[10]Yue LQ.Regulatory considerations in the design of comparative observational studies using propensity scores.Journal of Biopharmaceutical Statistics,2012,22(6):1272-1279.
[11]Fleming TR,DeMets DL,Roe MT,et al.Data monitoring committees:Promoting best practices to address emerging challenges.Clinical Trials,2017,14(2):115-123.
[12]Krishnankutty B,Bellary S,Kumar NB,et al.Data management in clinical research:an overview.Indian journal of pharmacology,2012,44(2):168.
Two-stageDesigninNon-randomizedMedicalDeviceClinicalTrials
Zhao Yanyan,Xu Yujun,Wang Yang,et al
(StateKeyLaboratoryofCardiovascularDisease,F(xiàn)uwaiHospital,NationalCenterforCardiovascularDiseases,ChineseAcademyofMedicalSciencesandPekingUnionMedicalCollege(100037),Beijing)
ObjectiveThis article introduces the concept,process as well as considerations of two-stage design.The application to non-randomized medical device clinical trials is further illustrated by example of aperipheral vascular stent study.MethodsTwo-stage design based on propensity score serves to make non-randomized clinical trials randomized and prospectively.The details of design process are presented through a non-inferiority trial evaluating the efficacy of a peripheral vascular stent.ResultsTwo-stage design handles the issue of potential biases due to non-randomization and subjective uncertainty when applying propensity score to non-randomized clinical trials,aiming to mimic randomized clinical trials and ensure the objectivity and prospectiveness of both trial design and statistical analysis.ConclusionWith great potential,two-stage design enhances the feasibility of clinical trial and makes it possible to get full use of existing data of high quality,shorten the duration of a trial,improve trial efficiency and draw a reliable conclusion ultimately.
Two-stage design; Propensity score; Medical device; Non-randomized clinical trial
1.中國醫(yī)學(xué)科學(xué)院,北京協(xié)和醫(yī)學(xué)院,國家心血管病中心,阜外心血管病醫(yī)院,心血管疾病國家重點實驗室(100037) 2.國家心血管病中心
?共同第一作者:趙延延,許毓君
△通信作者:李衛(wèi),E-mail:liwei@mrbc-nccd.com
郭海強)