武珊珊,楊智榮,董圣杰,張?zhí)灬?,田金徽,孫鳳
臨床預(yù)測(cè)模型或預(yù)后評(píng)分近年來應(yīng)用越來越廣泛,它們通過對(duì)個(gè)體某些特征指標(biāo)如實(shí)驗(yàn)室檢驗(yàn)或癥狀、體征等的利用來估計(jì)現(xiàn)在或未來發(fā)生某特定事件的風(fēng)險(xiǎn),為醫(yī)療決策提供一定的科學(xué)依據(jù)[1,2]。目前,在很多疾病領(lǐng)域針對(duì)同一個(gè)研究結(jié)局都已發(fā)表了為數(shù)不少的預(yù)測(cè)模型或預(yù)后評(píng)分,但大多數(shù)預(yù)測(cè)模型長期處于“多數(shù)被建立,少數(shù)被驗(yàn)證,極少被應(yīng)用”的情況[2,3]。以心血管疾病發(fā)生的預(yù)測(cè)模型為例,截止2013年6月已有363個(gè)預(yù)測(cè)模型被建立,其中僅36%的預(yù)測(cè)模型進(jìn)行了外部驗(yàn)證;而在進(jìn)行了外部驗(yàn)證的預(yù)測(cè)模型中,僅65%和58%的研究分別報(bào)告了模型的區(qū)分度和校準(zhǔn)度,大多數(shù)模型都未被臨床廣泛應(yīng)用[4]。一方面是因?yàn)榇蠖鄶?shù)預(yù)測(cè)模型缺乏足夠的外部驗(yàn)證,且外部驗(yàn)證研究大多存在研究設(shè)計(jì)的缺陷或報(bào)告不規(guī)范,導(dǎo)致模型的外推性不高;另一方面是因?yàn)獒槍?duì)同一個(gè)研究結(jié)局的模型太多且缺乏對(duì)不同模型之間預(yù)測(cè)準(zhǔn)確度的比較研究,無法識(shí)別各個(gè)模型的預(yù)測(cè)準(zhǔn)確度孰優(yōu)孰劣,從而導(dǎo)致臨床的選擇困難[5]。
為解決這一問題,Haile等學(xué)者[6]對(duì)經(jīng)典的網(wǎng)絡(luò)Meta分析(network meta-analysis,NMA)進(jìn)行擴(kuò)展,提出了針對(duì)預(yù)測(cè)模型的N M A,即(Multiple score comparison network metaanalysis,MSC),該方法根據(jù)每一個(gè)原始隊(duì)列研究中驗(yàn)證比較的模型分為不同的組別,各組間選擇同一個(gè)模型作為共同參照,采用Lu等[7]提出的兩階段Meta回歸方法,先計(jì)算每個(gè)組內(nèi)直接比較Meta分析的結(jié)果,再將第一階段計(jì)算出的各組直接比較結(jié)果采用Meta回歸的方法進(jìn)行合并,從而得到針對(duì)同一結(jié)局的所有模型之間預(yù)測(cè)準(zhǔn)確度的比較結(jié)果。本文將介紹MSC方法的具體理論基礎(chǔ),并通過案例對(duì)該方法的結(jié)果進(jìn)行詳細(xì)解讀。
1.1 預(yù)測(cè)模型研究的效應(yīng)指標(biāo)簡介預(yù)測(cè)模型準(zhǔn)確度包含區(qū)分度和校準(zhǔn)度兩個(gè)方面。一個(gè)好的預(yù)測(cè)模型,不僅要有很好的區(qū)分度,同時(shí)還應(yīng)具備良好的校準(zhǔn)度。所謂區(qū)分度,指模型能夠把未來發(fā)病風(fēng)險(xiǎn)高低不同的人群正確的區(qū)分開來,通過設(shè)置一定風(fēng)險(xiǎn)界值,高于界值則判斷為發(fā)病,低于界值則判斷為不發(fā)病,從而正確區(qū)分個(gè)體是否會(huì)發(fā)生某結(jié)局事件。評(píng)價(jià)預(yù)測(cè)模型區(qū)分能力的指標(biāo),最常用的就是大家非常熟悉的ROC曲線下面積(Area under Receiver Operating Characteristics curve,AUC),也叫C統(tǒng)計(jì)量(C-statistics)。AUC越大,說明預(yù)測(cè)模型的判別區(qū)分能力越好。一般AUC<0.60認(rèn)為區(qū)分度較差,0.60~0.75認(rèn)為模型有一定區(qū)分能力,>0.75認(rèn)為區(qū)分能力較好。校準(zhǔn)度則是定量評(píng)價(jià)一個(gè)疾病風(fēng)險(xiǎn)模型預(yù)測(cè)未來某個(gè)個(gè)體發(fā)生結(jié)局事件概率精確性的重要指標(biāo),反映了模型預(yù)測(cè)風(fēng)險(xiǎn)與實(shí)際發(fā)生風(fēng)險(xiǎn)的一致程度。校準(zhǔn)度好,提示預(yù)測(cè)模型的精確性高;校準(zhǔn)度差,則模型有可能高估或低估疾病的發(fā)生風(fēng)險(xiǎn)。通常用擬合優(yōu)度檢驗(yàn)(Hosmer-Lemeshow good of fit test)、Brier評(píng)分、校準(zhǔn)圖來進(jìn)行判斷[8]。此外,還可從其他方面如基于確定的cut-off值來評(píng)價(jià)各模型的靈敏度、特異度、陰性預(yù)測(cè)值、陽性預(yù)測(cè)值、凈重新分類指數(shù)(net reclassification improvement,NRI)和綜合判別改善指數(shù)(integrated discrimination improvement,IDI)等[9]。因此,在預(yù)測(cè)模型的NMA中,效應(yīng)指標(biāo)通常為區(qū)分度指標(biāo)如AUC,也可為校準(zhǔn)度指標(biāo)或其他指標(biāo)如NRI等指標(biāo)。本研究以不同預(yù)測(cè)模型間的AUC差值即ΔAUC作為效應(yīng)指標(biāo),進(jìn)行后續(xù)基礎(chǔ)理論的介紹和案例解讀。本文以下所提及的預(yù)測(cè)模型準(zhǔn)確度默認(rèn)為AUC。
1.2 預(yù)測(cè)模型NMA的證據(jù)結(jié)構(gòu)在經(jīng)典干預(yù)性研究NMA中,我們通常按照納入的每個(gè)隨機(jī)對(duì)照試驗(yàn)(randomized controlled trial,RCT)的干預(yù)措施來進(jìn)行分組,進(jìn)而繪制網(wǎng)狀證據(jù)圖,以明確整個(gè)NMA中不同干預(yù)措施之間是否有直接比較,從而判斷某兩種干預(yù)措施之間的療效比較是間接或混合比較的結(jié)果。而預(yù)測(cè)模型的外部驗(yàn)證研究多為基于某個(gè)隊(duì)列人群來驗(yàn)證一個(gè)或多個(gè)已有預(yù)測(cè)模型的準(zhǔn)確度,并沒有傳統(tǒng)意義上的干預(yù)措施。因此,在預(yù)測(cè)模型NMA中,我們將每個(gè)原始隊(duì)列研究(本文中均指預(yù)測(cè)模型的外部驗(yàn)證研究)驗(yàn)證比較的預(yù)測(cè)模型暫定為NMA中的“干預(yù)措施”,將預(yù)測(cè)模型準(zhǔn)確度(如AUC)作為合并的效應(yīng)指標(biāo),只納入驗(yàn)證比較的預(yù)測(cè)模型數(shù)目≥2個(gè)的隊(duì)列研究(即類似于傳統(tǒng)NMA納入的兩臂研究或多臂研究),最終所有隊(duì)列研究中驗(yàn)證比較的預(yù)測(cè)模型的并集即為該NMA中所有的“干預(yù)措施”,進(jìn)而根據(jù)各隊(duì)列研究中驗(yàn)證比較的模型組合分為不同的組別,每個(gè)組別內(nèi)的預(yù)測(cè)模型之間即認(rèn)為存在直接比較,并可在此基礎(chǔ)上進(jìn)一步繪制網(wǎng)狀證據(jù)圖。
1.3 兩階段Meta回歸模型Haile等學(xué)者[6]對(duì)經(jīng)典的NMA進(jìn)行了擴(kuò)展,在Lu(2011)等[7]的基礎(chǔ)上提出了采用兩階段Meta回歸模型對(duì)預(yù)測(cè)模型NMA進(jìn)行統(tǒng)計(jì)分析。該方法根據(jù)每一個(gè)原始隊(duì)列研究中驗(yàn)證比較的模型分為不同的組別,各組之間選擇同一個(gè)模型作為共同參照,采用“兩階段”策略進(jìn)行分析。具體理論基礎(chǔ)如下:
設(shè)預(yù)測(cè)模型N M A 證據(jù)網(wǎng)絡(luò)中共納入N(i=1,2,……N)個(gè)隊(duì)列研究,M(j=1,2, 3,……M)種預(yù)測(cè)模型(M通?!?),N個(gè)隊(duì)列研究根據(jù)驗(yàn)證模型組合的不同可分為G(g=1, 2,……G)個(gè)組別。令Mg表示第Gg個(gè)組別中預(yù)測(cè)模型(即“干預(yù)措施”)的數(shù)目,Ng表示第Gg個(gè)組別中納入的隊(duì)列研究的個(gè)數(shù),則以只包含X、Y和Z三種預(yù)測(cè)模型共計(jì)44個(gè)隊(duì)列研究的NMA為例,可整理為如下表1,即該NMA中N=44,M=3,G=3,其中N1=20,N2=16,N3=8,M1=M2=2,M3=3。
表1 X、Y和Z三種預(yù)測(cè)模型共計(jì)44個(gè)隊(duì)列研究的NMA示例
①Ⅰ階段
選擇預(yù)測(cè)模型X作為共同參照,則可分別計(jì)算出第1組和第2組每個(gè)隊(duì)列i中預(yù)測(cè)模型Y和Z與共同參照預(yù)測(cè)模型X的ΔAUC及其方差,分別記為ΔiXY、Var(ΔiXY)和ΔiXZ、Var(ΔiXY)。而在第3組中,由于涉及X、Y和Z三種預(yù)測(cè)模型,類似于經(jīng)典NMA中多臂研究之間存在一定的相關(guān)性,我們還需估計(jì)與共同參照預(yù)測(cè)模型X之間ΔAUC的協(xié)方差,即:
在以上研究集合數(shù)據(jù)的層面上,我們可基于傳統(tǒng)Meta分析的倒方差法對(duì)每個(gè)組別內(nèi)的Ng個(gè)隊(duì)列研究的結(jié)果進(jìn)行加權(quán)合并,從而獲得每個(gè)組別內(nèi)各預(yù)測(cè)模型與共同參照模型X之間的預(yù)測(cè)效果差值ΔAUC及其方差,以第3組為例,其加權(quán)合并公式為:
②Ⅱ階段
基于Ⅰ階段計(jì)算出的各組直接比較的效應(yīng)值和方差,采用Meta回歸的方法即加權(quán)最小二乘法進(jìn)行合并,從而得到針對(duì)同一結(jié)局的各預(yù)測(cè)模型與共同參照模型預(yù)測(cè)準(zhǔn)確度的混合比較結(jié)果。具體公式如下,其中y為Ⅰ階段計(jì)算出的各組直接比較的效應(yīng)值,var(y)為Ⅰ階段計(jì)算出的各組直接比較效應(yīng)值的方差,X為根據(jù)不同的預(yù)測(cè)模型比較所設(shè)置的啞變量,不同X啞變量對(duì)應(yīng)的系數(shù)db即為我們所要估計(jì)的各預(yù)測(cè)模型與共同參照模型預(yù)測(cè)準(zhǔn)確度的混合比較結(jié)果。
1.4 異質(zhì)性、相似性和一致性的評(píng)估異質(zhì)性、相似性和一致性是NMA中非常關(guān)鍵的三個(gè)假設(shè),只有數(shù)據(jù)滿足這三個(gè)假設(shè)的情況下,我們才能進(jìn)行下一步的NMA分析,NMA分析的結(jié)論才是可靠的。在預(yù)測(cè)模型NMA中,三個(gè)關(guān)鍵假設(shè)的含義和檢驗(yàn)方法與經(jīng)典NMA類似。①異質(zhì)性:在I階段直接比較Meta分析的計(jì)算過程中,各組別中各個(gè)隊(duì)列研究之間的異質(zhì)性因子τ2的計(jì)算公式與傳統(tǒng)Meta分析類似,可根據(jù)計(jì)算結(jié)果采用各組別特異的來進(jìn)行后續(xù)分析,也可如經(jīng)典NMA分析一般采用結(jié)構(gòu)化方差模型即采用統(tǒng)一的異質(zhì)性因子進(jìn)行后續(xù)分析[7]。Haile SR等通過慢性阻塞性肺疾?。–OPD)患者死亡預(yù)測(cè)模型的NMA實(shí)例研究[6]顯示,在可獲取多個(gè)隊(duì)列研究的個(gè)體資料數(shù)據(jù)的情況下,使用統(tǒng)一的異質(zhì)性因子進(jìn)行后續(xù)分析更容易得到無偏的結(jié)果。②相似性:Haile SR等建議從臨床角度選取一些可能會(huì)對(duì)預(yù)測(cè)模型準(zhǔn)確度產(chǎn)生影響的關(guān)鍵因素,建議采用Meta回歸的方法評(píng)估這些因素對(duì)模型預(yù)測(cè)準(zhǔn)確度的影響,并對(duì)其中可產(chǎn)生影響的因素進(jìn)行了單因素方差分析,若各因素在各組間分布均衡(P>0.05),即可認(rèn)為符合相似性假設(shè);反之,若單因素方差分析顯示P值<0.05,則可能該NMA不符合相似性假設(shè)。③一致性:可采用Q統(tǒng)計(jì)量(即直接比較和間接比較的殘差平方和)對(duì)整個(gè)NMA的進(jìn)行全局一致性檢驗(yàn),Q統(tǒng)計(jì)量服從自由度為N-K+1的卡方分布,其中N為各組別中比較的數(shù)目之和,K為NMA中預(yù)測(cè)模型的總數(shù),若P>0.05,則可認(rèn)為全局滿足一致性假設(shè)[7];可采用節(jié)點(diǎn)拆分法(Node-splitting method)[10]進(jìn)行局部的一致性檢驗(yàn),以評(píng)估各預(yù)測(cè)模型之間的直接比較與間接比較的結(jié)果是否有顯著性差異。
以COPD患者的死亡預(yù)測(cè)模型研究為例,基于COPD國際隊(duì)列聯(lián)盟(Cohorts Collaborative International Assessment consortium,3CIA)的個(gè)體資料數(shù)據(jù)[11,12],進(jìn)行NMA分析,以獲得各預(yù)測(cè)模型之間的預(yù)測(cè)準(zhǔn)確度比較結(jié)果。該NMA共納入24個(gè)隊(duì)列研究,包含15 762例COPD患者,共計(jì)隨訪42 203人·年,其中1871例COPD患者發(fā)生了死亡。各隊(duì)列在研究地區(qū)、樣本量、結(jié)局事件數(shù)及研究對(duì)象的重要臨床特征上存在一定的差異:如COPD患者的平均年齡范圍跨度較大,在58~72歲;平均一秒用力呼氣容積(Forced expiratory volume in one second,F(xiàn)EV1)的范圍在30%~70%之間;改良呼吸困難評(píng)估(Modified Medical Research Council)量表mMRC評(píng)分平均值的范圍在1.0~2.8之間;6分鐘步行試驗(yàn)的平均距離在218~487米。各隊(duì)列的隨訪時(shí)間不一,本次NMA分析以最短隨訪時(shí)間即3年的死亡作為研究結(jié)局。24個(gè)隊(duì)列研究涉及GOLD、GOLD(2011)、ADO、BODE、BODEupd、eBODE、BODEx、DOSE、SAFE和BAED共計(jì)10個(gè)預(yù)測(cè)模型[13-18]。根據(jù)驗(yàn)證比較的預(yù)測(cè)模型組合不同可將24個(gè)隊(duì)列研究分為6組,各組分別包含4、5、3、1、7和4個(gè)研究,各組比較的預(yù)測(cè)模型、總樣本量、死亡事件數(shù)等具體情況詳見表2。
應(yīng)用R軟件ggplot2軟件包繪制網(wǎng)狀證據(jù)圖(圖1),每個(gè)組別中驗(yàn)證比較的各預(yù)測(cè)模型之間用直線連接,不同組別之間的線條用不同的顏色區(qū)分,6個(gè)組別共計(jì)有6條顏色各不相同的連線。例如:粉色線條代表組別1,該線條連接了GOLD和ADO,即表示Copenhagen、HUNT、Japan和SEPOC四個(gè)隊(duì)列研究驗(yàn)證比較了GOLD和ADO兩個(gè)預(yù)測(cè)模型的準(zhǔn)確度;紫色線條代表組別6,該線條連接了GOLD、GOLD(2011)、ADO、BODE、BODEupd、eBODE、BODEx、DOSE和BAED九個(gè)預(yù)測(cè)模型,即表示La Princesa Madrid、Requena Ⅱ、Tenerife和Terrassa Ⅱ四個(gè)隊(duì)列研究均驗(yàn)證比較了前述9個(gè)預(yù)測(cè)模型的準(zhǔn)確度。該網(wǎng)狀證據(jù)圖中不同線條的粗細(xì)與各組別總計(jì)的死亡事件數(shù)成正比,即采用死亡事件數(shù)加權(quán),死亡事件數(shù)越多,則線條越粗。當(dāng)然,該作圖較為靈活,線條的粗細(xì)也可采用各組別總計(jì)的樣本量進(jìn)行加權(quán)。由圖1可見,該NMA涉及10個(gè)預(yù)測(cè)模型之間的共計(jì)45個(gè)比較的結(jié)果,其中包含41個(gè)直接比較,另外SAFE與eBODE、BODEx、DOSE和BAED四個(gè)模型之間尚無直接比較結(jié)果,只有間接比較結(jié)果。
關(guān)于NMA三個(gè)關(guān)鍵假設(shè)的評(píng)估:①異質(zhì)性:表2展示了各組別中各個(gè)隊(duì)列研究之間的異質(zhì)性因子τ的數(shù)值,由表2可見各組的異質(zhì)性因子大小不一,在本研究的NMA分析中,我們采用了結(jié)構(gòu)化方差模型,即各組之間采用統(tǒng)一的異質(zhì)性因子τ2pooled=0.00015,提示該NMA的異質(zhì)性較小,可認(rèn)為滿足同質(zhì)性假設(shè);②相似性:研究者從臨床角度選取了7個(gè)可能會(huì)對(duì)預(yù)測(cè)模型準(zhǔn)確度產(chǎn)生影響的關(guān)鍵因素,包括平均年齡及方差、樣本量、死亡比例、肺部阻塞的程度FEV1%的預(yù)測(cè)值及其方差和運(yùn)動(dòng)后肺功能,采用Meta回歸的方法評(píng)估了這些因素對(duì)模型預(yù)測(cè)準(zhǔn)確度的影響,并對(duì)其中可產(chǎn)生影響的5個(gè)因素(肺部阻塞的程度FEV1%的預(yù)測(cè)值及其方差、平均年齡、死亡比例和運(yùn)動(dòng)后肺功能)進(jìn)行了單因素方差分析,結(jié)果顯示以上5個(gè)關(guān)鍵因素在各組間分布均衡,即可認(rèn)為符合相似性假設(shè);③一致性:采用與傳統(tǒng)NMA類似的一致性檢驗(yàn)方法,全局檢驗(yàn)結(jié)果顯示Q統(tǒng)計(jì)量=22.1,P=0.14;節(jié)點(diǎn)拆分法(Nodesplitting method)結(jié)果顯示各預(yù)測(cè)模型之間的直接比較與間接比較結(jié)果無顯著性差異,故可認(rèn)為該NMA符合一致性假設(shè)。
在滿足異質(zhì)性、相似性和一致性三個(gè)關(guān)鍵假設(shè)的基礎(chǔ)上,選取GOLD預(yù)測(cè)模型作為共同參照,利用24個(gè)隊(duì)列研究中每個(gè)預(yù)測(cè)模型與共同參照GOLD模型之間的ΔAUC及其方差和協(xié)方差矩陣作為原始數(shù)據(jù),其中根據(jù)3CIA聯(lián)合隊(duì)列的個(gè)體資料數(shù)據(jù)進(jìn)行協(xié)方差的計(jì)算,采用隨機(jī)效應(yīng)模型的兩階段Meta回歸進(jìn)行統(tǒng)計(jì)分析,具體代碼可參考文獻(xiàn)附件[12],運(yùn)行結(jié)果見表3。
由表3可見,前6行為I階段每個(gè)組別直接比較的Meta分析結(jié)果,第7行為Ⅱ階段混合比較的結(jié)果。GOLD模型作為共同參照,其預(yù)測(cè)COPD患者3年死亡率的準(zhǔn)確度即AUC的范圍為0.481至0.731,中位數(shù)為0.614(四分位間距:0.587,0.641)。由混合比較的結(jié)果可見,所有模型中ADO模型對(duì)COPD患者3年死亡率的預(yù)測(cè)準(zhǔn)確度最高,其準(zhǔn)確度顯著高于GOLD模型,與GOLD模型的差值ΔAUC為+0.083(95%CI:0.069,0.097);其次為BODEupd、eBODE和BODE模型,與GOLD模型預(yù)測(cè)準(zhǔn)確度的差值ΔAUC分別為+0.072(95%CI:0.051,0.093)、+0.069(95%CI:0.044, 0.093)和+0.064(95%CI:0.045,0.082);SAFE、BODEx、DOSE和GOLD(2011)四個(gè)模型的表現(xiàn)也顯著優(yōu)于GOLD模型,ΔAUC的范圍為+0.014至+0.052;BEAD模型與GOLD模型的預(yù)測(cè)準(zhǔn)確度之間無顯著性差異,ΔAUC為+0.016(95%CI:-0.007,0.038)。在滿足一致性假設(shè)的情況下,根據(jù)表3中Ⅱ階段混合比較結(jié)果中的9個(gè)基本參數(shù),我們則可以推算出NMA中的所有功能參數(shù),即9個(gè)模型中任意兩個(gè)預(yù)測(cè)模型之間的預(yù)測(cè)準(zhǔn)確度差值ΔAUC及其95%CI,因篇幅有限不再展示相應(yīng)結(jié)果,有興趣的讀者可自行去推導(dǎo)計(jì)算。
臨床預(yù)測(cè)模型或預(yù)后評(píng)分近年來在臨床實(shí)踐中的應(yīng)用越來越廣泛,目前在很多疾病領(lǐng)域針對(duì)同一個(gè)研究結(jié)局都已發(fā)表了為數(shù)不少的預(yù)測(cè)模型或預(yù)后評(píng)分,但大多數(shù)模型缺乏外部驗(yàn)證研究,且缺乏各預(yù)測(cè)模型之間準(zhǔn)確度的相互比較結(jié)果,難以確定最佳預(yù)測(cè)模型,從而導(dǎo)致臨床實(shí)踐中的選擇困難,出現(xiàn)大多數(shù)預(yù)測(cè)模型長期處于“多數(shù)被建立,少數(shù)被驗(yàn)證,極少被應(yīng)用”的情況。Haile SR等[6]學(xué)者提出的基于兩階段Meta回歸的預(yù)測(cè)模型NMA解決了這一問題,該方法將隊(duì)列研究中驗(yàn)證的多個(gè)預(yù)測(cè)模型作為“干預(yù)措施”,借用經(jīng)典NMA的間接比較理論,獲得針對(duì)同一結(jié)局的各預(yù)測(cè)模型準(zhǔn)確度(如AUC)兩兩比較的結(jié)果,從而確定最佳預(yù)測(cè)模型,以指導(dǎo)臨床實(shí)踐,輔助臨床決策,具有重要的臨床意義。
表2 COPD死亡預(yù)測(cè)模型NMA研究分組情況
圖1 COPD死亡預(yù)測(cè)模型NMA證據(jù)結(jié)構(gòu)圖
表3 兩階段Meta回歸的MSC結(jié)果(以GOLD作為共同參照,效應(yīng)指標(biāo)為ΔAUC)
預(yù)測(cè)模型NMA是在經(jīng)典NMA基礎(chǔ)上的擴(kuò)展,但又與經(jīng)典NMA有著不同之處,主要表現(xiàn)在以下三個(gè)方面。首先,兩者的效應(yīng)指標(biāo)不同,經(jīng)典NMA的效應(yīng)指標(biāo)多為logOR、logRR或均數(shù)差(mean difference,MD)等,來表示不同干預(yù)措施之間的療效差別;而預(yù)測(cè)模型NMA的效應(yīng)指標(biāo)一般為ΔAUC,即表示不同預(yù)測(cè)模型之間準(zhǔn)確度的差值。其次,經(jīng)典NMA納入的RCT研究中試驗(yàn)組和對(duì)照組的研究對(duì)象通常是完全獨(dú)立的;而預(yù)測(cè)模型NMA納入的原始研究則通常是基于同一個(gè)隊(duì)列人群同時(shí)驗(yàn)證兩個(gè)或多個(gè)預(yù)測(cè)模型,換言之,不同預(yù)測(cè)模型準(zhǔn)確度的結(jié)果所基于的研究對(duì)象是完全重復(fù)的。第三,考慮到可行性及統(tǒng)計(jì)把握度和樣本量的問題,經(jīng)典NMA納入的RCT研究大多數(shù)為2臂研究,3臂及以上的研究較少;而預(yù)測(cè)模型NMA納入的隊(duì)列研究通常會(huì)基于該隊(duì)列同時(shí)驗(yàn)證多個(gè)不同的預(yù)測(cè)模型,驗(yàn)證預(yù)測(cè)模型個(gè)數(shù)≥4的隊(duì)列研究很常見,即在預(yù)測(cè)模型NMA中“多臂研究”更為常見。
鑒于預(yù)測(cè)模型的外部驗(yàn)證研究中研究對(duì)象的完全重復(fù)利用及“多臂研究”的情況,在進(jìn)行預(yù)測(cè)模型NMA時(shí)需要特別關(guān)注各預(yù)測(cè)模型準(zhǔn)確度結(jié)果之間的相關(guān)性,即前述方差-協(xié)方差矩陣的計(jì)算是關(guān)鍵。由于各個(gè)隊(duì)列人群之間人口學(xué)及臨床特征往往存在一定的差異,因而解決這一問題的最佳辦法是利用多個(gè)大型隊(duì)列研究整合在一起的個(gè)體資料數(shù)據(jù)進(jìn)行相關(guān)系數(shù)的計(jì)算,如同上述COPD患者死亡預(yù)測(cè)模型的NMA研究一樣,利用3CIA整合隊(duì)列[11]的個(gè)體資料數(shù)據(jù)進(jìn)行了各預(yù)測(cè)模型ΔAUC之間相關(guān)系數(shù)的計(jì)算,從而獲得各“多臂研究”的方差-協(xié)方差矩陣,進(jìn)一步通過兩階段Meta回歸模型進(jìn)行混合比較的計(jì)算。當(dāng)然,若無法獲取到整合隊(duì)列的個(gè)體資料數(shù)據(jù),則可采用經(jīng)典NMA中類似的假設(shè),如假定相關(guān)系數(shù)R=0.4或0.5來進(jìn)行方差-協(xié)方差矩陣的計(jì)算。此時(shí),建議采用不同的相關(guān)系數(shù)分別進(jìn)行敏感性分析,通過判斷不同相關(guān)系數(shù)假設(shè)下的結(jié)果是否一致來衡量結(jié)果的穩(wěn)定性。
此外,本研究中只用ΔAUC作為效應(yīng)指標(biāo)進(jìn)行了NMA分析。事實(shí)上,我們還可用其他指標(biāo)如NRI或校準(zhǔn)度指標(biāo)等作為效應(yīng)指標(biāo)進(jìn)行分析,以從不同方面對(duì)各預(yù)測(cè)模型的優(yōu)劣進(jìn)行評(píng)價(jià),幫助我們篩選出最佳預(yù)測(cè)模型,從而進(jìn)一步指導(dǎo)臨床實(shí)踐[6]。
本文針對(duì)預(yù)測(cè)模型NMA實(shí)現(xiàn)的基礎(chǔ)理論進(jìn)行了介紹,并通過案例進(jìn)行了詳細(xì)解讀。該方法以所有預(yù)測(cè)模型的外部驗(yàn)證研究為基礎(chǔ),選擇同一個(gè)預(yù)測(cè)模型作為共同參照,通過大規(guī)模個(gè)體資料數(shù)據(jù)來計(jì)算各預(yù)測(cè)模型結(jié)果之間的相關(guān)性,進(jìn)而采用兩階段Meta回歸模型,可得到針對(duì)同一結(jié)局的任意兩個(gè)模型之間預(yù)測(cè)準(zhǔn)確度的比較結(jié)果,對(duì)最終選擇最佳預(yù)測(cè)模型應(yīng)用到臨床實(shí)踐以更好地指導(dǎo)臨床決策有較大意義。然而,該方法目前還不太成熟,尚處在發(fā)展階段,Haile SR等開發(fā)的mscpredmodel R package目前只能針對(duì)個(gè)體資料數(shù)據(jù)的預(yù)測(cè)模型MSC進(jìn)行分析,且關(guān)于發(fā)表偏倚、一致性假設(shè)等各方面的方法學(xué)還在摸索中。筆者于Web of Science數(shù)據(jù)庫中檢索,迄今為止該論文[11]被引用4次,均為COPD死亡預(yù)測(cè)模型的相關(guān)研究,目前未見到其他疾病領(lǐng)域預(yù)測(cè)模型NMA的應(yīng)用實(shí)例,一方面可能與個(gè)體資料的隊(duì)列數(shù)據(jù)不易獲取無法計(jì)算各預(yù)測(cè)模型結(jié)果之間的相關(guān)性有關(guān),另一方面可能與該方法需要事先進(jìn)行較為復(fù)雜的數(shù)據(jù)預(yù)處理,尤其是方差-協(xié)方差的計(jì)算有關(guān),未來可加快各疾病領(lǐng)域的數(shù)據(jù)共享和隊(duì)列整合,并開發(fā)相應(yīng)的程序包來更高效快捷地進(jìn)行數(shù)據(jù)預(yù)處理,以促進(jìn)該方法的推廣應(yīng)用,從而更好地輔助臨床實(shí)踐。