張?zhí)灬?/p>
上海市靜安區(qū)中醫(yī)醫(yī)院,200272 上海
meta分析(meta-analysis)可定量、科學(xué)地整合研究結(jié)果,在眾多學(xué)科領(lǐng)域已發(fā)揮了革命性的作用,有助于建立循證實(shí)踐和解決看似相互矛盾研究結(jié)果的問(wèn)題,已成為循證醫(yī)學(xué)中證據(jù)整合的重要工具[1]。近年來(lái),針對(duì)2個(gè)干預(yù)措施頭對(duì)頭比較傳統(tǒng)meta分析的統(tǒng)計(jì)模型,大量國(guó)外研究已更新了既往的觀點(diǎn)[2-4],雖然在我國(guó)已有學(xué)者對(duì)這些理念和方法進(jìn)行了一定范圍的推廣[5-7],但仍未能很好地得到應(yīng)用,系統(tǒng)評(píng)價(jià)員在實(shí)際工作中還存在方法學(xué)誤用問(wèn)題。本文在結(jié)合國(guó)內(nèi)外相關(guān)文獻(xiàn)基礎(chǔ)上,主要介紹傳統(tǒng)meta分析統(tǒng)計(jì)模型的新觀點(diǎn)和新認(rèn)識(shí),及其假設(shè)、結(jié)果解釋,探討合理選擇模型時(shí)應(yīng)考慮的因素,以及如何合理選擇應(yīng)用。
傳統(tǒng)meta分析合并數(shù)據(jù)最主要的統(tǒng)計(jì)模型是固定效應(yīng)(fixed-effect,FE)模型和隨機(jī)效應(yīng)(random-effects,RE)模型[8-9]。一般有2種誤用情形:
一是,在既往meta分析實(shí)踐中,一些研究者首先選用FE模型,然后針對(duì)效應(yīng)量進(jìn)行異質(zhì)性檢驗(yàn),若異質(zhì)性檢驗(yàn)無(wú)統(tǒng)計(jì)學(xué)意義,則采用FE模型分析;若異質(zhì)性檢驗(yàn)有統(tǒng)計(jì)學(xué)意義,則轉(zhuǎn)為使用RE模型分析[8]。這種模型選擇思路在考科藍(lán)圖書(shū)館10余年前所載系統(tǒng)評(píng)價(jià)文獻(xiàn)中亦可見(jiàn)到,如:
Afixedeffectsmodelwasusedunlessstatisticallysignificantheterogeneityexistsbetweenthestudies,thereinarandomeffectsmodelwasemployed.Achi-squaretestwasusedtoassessheterogeneity(aPvalueof0.10willberegardedasstatisticallysignificant)[10];
Weusedafixed-effectmodelthroughoutthereviewexceptintheeventofsignificantheterogeneitybetweenthetrials(P<0.10),whenwechosetherandom-effectsmodel[11]。
二是,根據(jù)異質(zhì)性檢驗(yàn)結(jié)果選擇統(tǒng)計(jì)模型,這是當(dāng)前國(guó)內(nèi)醫(yī)學(xué)統(tǒng)計(jì)學(xué)和循證醫(yī)學(xué)等教材、國(guó)內(nèi)期刊和國(guó)外低影響力期刊刊載文獻(xiàn)通用的模型選擇思路;甚至,10余年前某些國(guó)外高影響力期刊如JAMA等所刊載文獻(xiàn)亦根據(jù)異質(zhì)性大小選擇模型。如:
ThevalueoftheI2statisticwasusedtoselecttheappropriatepoolingmethod:fixed-effectsmodelswereusedforI2lessthan50%andrandom-effectsmodelsforI2greaterthan50%[12]。
對(duì)納入的不同研究采用χ2檢驗(yàn)(檢驗(yàn)水準(zhǔn)α=0.1),并聯(lián)合I2定量判定異質(zhì)性大小。若P>0.10,I2<50%,表明各研究間具有同質(zhì)性,采用FE模型分析;若P≤0.10,I2≥50%,表明各研究異質(zhì)性較大,進(jìn)一步通過(guò)亞組分析或敏感性分析確定異質(zhì)性來(lái)源,在排除明顯臨床異質(zhì)性的影響因素后,采用RE模型進(jìn)行meta分析[13]。
傳統(tǒng)meta分析是典型的二步過(guò)程,基本原理是[14]:第一步,計(jì)算納入meta分析的每個(gè)研究的觀測(cè)效應(yīng)量;第二步,通過(guò)對(duì)每個(gè)研究的觀測(cè)效應(yīng)量進(jìn)行加權(quán)(如倒方差法)取平均數(shù)來(lái)獲得總的合并干預(yù)效應(yīng),并進(jìn)行相關(guān)統(tǒng)計(jì)推斷。
既往觀點(diǎn)中[9,15],FE模型假設(shè)納入meta分析的所有研究均有一個(gè)相同的干預(yù)效應(yīng)(量級(jí)和方向均相同),不同研究的觀測(cè)效應(yīng)量之間的差異均由抽樣誤差所示;而RE模型假設(shè)納入分析的研究間干預(yù)效應(yīng)可以不同,觀測(cè)效應(yīng)量不同是由于隨機(jī)誤差和真實(shí)干預(yù)效應(yīng)不同。傳統(tǒng)meta分析的統(tǒng)計(jì)模型對(duì)于計(jì)算和解釋meta分析的結(jié)果非常重要,但由于FE和RE統(tǒng)計(jì)模型采用相似的公式計(jì)算統(tǒng)計(jì)量,有時(shí)可能得到相似的結(jié)果,以至于被誤認(rèn)為2個(gè)模型可以相互替換使用。但實(shí)際,不同的模型基于不同的假設(shè),并且提供不同的參數(shù)估計(jì)值。
新近的觀點(diǎn)[2-4],根據(jù)研究目的和假設(shè)等將meta分析統(tǒng)計(jì)模型拓展為3個(gè):共同效應(yīng)(common-effect,CE)模型、FE模型和RE模型,請(qǐng)注意此處的固定效應(yīng)模型與傳統(tǒng)的“固定效應(yīng)(fixed-effect)模型”的英文表達(dá)方式不同,這些模型在當(dāng)前流行的統(tǒng)計(jì)學(xué)軟件中得以實(shí)現(xiàn),如Stata官方meta分析模塊、R軟件metafor包等。假設(shè)納入分析的第i(i=1,2,…,k)個(gè)研究的觀測(cè)效應(yīng)量為yi,其相應(yīng)方差為νi,真實(shí)效應(yīng)量為θi,研究間異質(zhì)性方差為τ2;描述第i個(gè)研究的抽樣誤差的隨機(jī)變量為εi,描述研究間異質(zhì)性的隨機(jī)變量為δi,合并效應(yīng)量為θ,則3個(gè)模型的表達(dá)、假設(shè)、效應(yīng)量估計(jì)及解釋、異質(zhì)性、一致性等比較如表1所示。
可以發(fā)現(xiàn),CE模型和FE模型雖然各自的特定假設(shè)不同,但效應(yīng)量估計(jì)計(jì)算公式相同,因此結(jié)果亦要相同。請(qǐng)注意,對(duì)于效應(yīng)模型的相關(guān)術(shù)語(yǔ)目前尚未完全統(tǒng)一,在不同國(guó)外文獻(xiàn)、專著和統(tǒng)計(jì)軟件中可見(jiàn)有不同的名稱,如CE模型也稱為相等效應(yīng)(equal-effect)模型、fixed-effect模型(effect是單數(shù)形式)等;FE模型也稱為獨(dú)立效應(yīng)模型,如在R軟件meta包中將common effect模型和fixed effect模型互稱,在解釋分析結(jié)果時(shí)應(yīng)當(dāng)注意不要混淆。
從上述2種模型誤用情形中可以發(fā)現(xiàn),它們都涉及“異質(zhì)性”這一重要概念。所謂異質(zhì)性[14]是指系統(tǒng)評(píng)價(jià)/meta分析中研究間變異性,一般可分為臨床異質(zhì)性(研究對(duì)象、干預(yù)措施、測(cè)量結(jié)局等方面的變異性)、方法學(xué)異質(zhì)性(研究設(shè)計(jì)、測(cè)量工具、風(fēng)險(xiǎn)偏倚等方面的變異性)、統(tǒng)計(jì)學(xué)異質(zhì)性(不同研究間干預(yù)效應(yīng)方面的變異性)等。請(qǐng)注意,在meta分析相關(guān)文獻(xiàn)中使用異質(zhì)性檢驗(yàn)結(jié)果中的“異質(zhì)性”通常是指統(tǒng)計(jì)學(xué)異質(zhì)性。雖然臨床異質(zhì)性和方法學(xué)異質(zhì)性可以導(dǎo)致統(tǒng)計(jì)學(xué)異性,但從邏輯上講,統(tǒng)計(jì)學(xué)異質(zhì)性有無(wú)顯著性并不能完全代表或反映出有無(wú)臨床異質(zhì)性和方法學(xué)異質(zhì)性;且當(dāng)前針對(duì)統(tǒng)計(jì)學(xué)異質(zhì)性檢驗(yàn)方法的統(tǒng)計(jì)效能都比較低,異質(zhì)性檢驗(yàn)結(jié)果無(wú)顯著性并不能說(shuō)明即是真的無(wú)異質(zhì)性。因此,如果僅以異質(zhì)性檢驗(yàn)結(jié)果來(lái)選擇則可能導(dǎo)致模型選擇錯(cuò)誤。而在實(shí)踐中,一般應(yīng)當(dāng)基于抽樣框架選擇統(tǒng)計(jì)模型,因此在選擇模型時(shí)應(yīng)該關(guān)注納入meta分析中的研究是如何抽樣的,而不是基于異質(zhì)性檢驗(yàn)的統(tǒng)計(jì)學(xué)結(jié)果。
本節(jié)采用1篇評(píng)估抗抑郁藥治療癌癥伴有抑郁癥患者療效的系統(tǒng)評(píng)價(jià)[16]為例探討模型合理選擇的思路。該研究共納入14篇文獻(xiàn)含1 363名患者,以有效性為研究目的的研究共有7個(gè),有1個(gè)是3臂研究(即圖1中的“Musselman 2006”研究),作者在提取數(shù)據(jù)時(shí),將該研究中2個(gè)抗抑郁藥“共享”安慰劑組(安慰劑組樣本量平均分成2組、測(cè)量指標(biāo)均數(shù)和標(biāo)準(zhǔn)差不變),分為2個(gè)抗抑郁藥與安慰劑對(duì)照的“研究”;干預(yù)措施為抗抑郁藥劑,對(duì)照干預(yù)為安慰劑,根據(jù)抗抑郁藥不同分為選擇性血清素再吸收抑制劑、三環(huán)類抗抑郁藥、其他抗抑郁藥等3個(gè)亞組;測(cè)量指標(biāo)為HAM-D、MADRS等連續(xù)型數(shù)據(jù),因此標(biāo)化均數(shù)差(standardized mean difference,SMD)為效應(yīng)量;作者因考慮到異質(zhì)性而事先設(shè)定使用RE模型合并數(shù)據(jù),并根據(jù)抗抑郁藥種類不同進(jìn)行亞組分析,結(jié)果如圖1所示。本文使用R軟件(ver 4.2.1)中的meta擴(kuò)展包(ver 6.2-1)對(duì)圖1中的數(shù)據(jù)重新分析,仍選擇SMD為效應(yīng)量,但分別擬合CE和RE模型,輸出森林圖為RveMan5格式。圖2。
圖2 R軟件meta包繪制的森林圖
根據(jù)meta分析效應(yīng)模型的假設(shè),似乎應(yīng)將RE作為首選模型為宜,因?yàn)樗试S不同研究間的效應(yīng)量可以相同或不同。如,“SSRIs vs 安慰劑”亞組共有5個(gè)研究,異質(zhì)性檢驗(yàn)結(jié)果提示可能存在輕度異性,根據(jù)作者事先制定的模型選擇策略可以首先考慮使用RE模型,所得合并效應(yīng)量點(diǎn)估計(jì)為-0.40(-0.79,-0.01)。而“TCAs vs 安慰劑”亞組只含有1個(gè)研究、“其他抗抑郁藥 vs 安慰劑”亞組只含有2個(gè)研究,如果選用RE模型可能會(huì)存在問(wèn)題。從圖2中可以看出,R軟件meta包對(duì)只有1個(gè)研究的“TCAs vs 安慰劑”亞組不進(jìn)行數(shù)據(jù)合并;對(duì)含有2個(gè)研究的“其他抗抑郁藥 vs 安慰劑”亞組,CE模型和RE模型合并數(shù)據(jù)的結(jié)果方向不同,CE模型為陽(yáng)性結(jié)果,合并SMD點(diǎn)估計(jì)及95%CI為-0.55(-0.81,-0.30),而RE模型為陰性結(jié)果,合并SMD點(diǎn)估計(jì)及95%CI為-1.01(-2.44,0.41),提示我們?cè)谶M(jìn)行系統(tǒng)評(píng)價(jià)或meta分析時(shí),應(yīng)重視效應(yīng)模型的合理使用。
本節(jié)中,選取國(guó)外高影響力期刊或考科藍(lán)圖書(shū)館刊載的文獻(xiàn),作為正確使用效應(yīng)模型策略的實(shí)例參考。引文中的FE模型為既往效應(yīng)模型分類術(shù)語(yǔ),與新分類中的CE模型相同。
一是,根據(jù)模型假設(shè)合理選擇,因研究對(duì)象和方法不同而假設(shè)研究間效應(yīng)不同來(lái)選擇RE模型。如:Weusedarandom-effectsmodelforallanalyses,asweexpectedvariationineffectsduetodifferencesinstudypopulationsandmethods[17]?;蛘J(rèn)為每個(gè)研究在研究對(duì)象、干預(yù)措施和測(cè)量結(jié)局定義等方面相似而采用FE模型。如:Modelswereadjustedfortrialasafixedeffectbecausethemethodsusedfortheprospectivemeta-analysismeantall5trialswereverysimilarwithrespecttotheirincludedparticipants,interventions,andoutcomedefinitions[18]。
二是,基于方法學(xué)、臨床和統(tǒng)計(jì)學(xué)異質(zhì)性考慮,首選RE模型;若因納入meta分析的研究數(shù)量少則可選擇FE模型。如:Duetomethodological,clinical,andstatisticalheterogeneityamongincludedtrials,weusedarandom-effectsmodelinmeta-analysestoestimatefive-yearoutcomes.Webasedmeta-analysesofoutcomesonafixed-effectmodelwheneverdatawereavailablefromonlytwostudies[19]。
三是,基于RE模型在meta分析時(shí)融入了研究間異質(zhì)性的特性而首選RE模型。如:Wepooleddatausingarandom-effectsmodeltoincorporatebetween-studyheterogeneityintothemeta-analysis[20]。
四是,首選RE模型,再加FE模型作為敏感性分析。如:Weusedarandom-effectsmodelforallmeta-analysesandperformedasensitivityanalysiswithafixed-effectmodel[21]。請(qǐng)注意,如果該2種模型估計(jì)到的結(jié)果不一致,建議都要報(bào)告FE模型和RE模型的合并結(jié)果。
meta分析中如何選擇統(tǒng)計(jì)模型,歷來(lái)存有爭(zhēng)議。不同的統(tǒng)計(jì)學(xué)家和臨床研究人員可能偏愛(ài)不同的統(tǒng)計(jì)模型[22],即使是第6版《考克藍(lán)干預(yù)措施系統(tǒng)評(píng)價(jià)手冊(cè)》也未能提供權(quán)威的統(tǒng)一推薦意見(jiàn)[14]。根據(jù)meta分析各種效應(yīng)模型特點(diǎn)和基于正誤兩方面的文獻(xiàn)復(fù)習(xí),筆者認(rèn)為應(yīng)從統(tǒng)計(jì)模型假說(shuō)、meta分析目的、納入meta分析的研究數(shù)量和樣本量、研究間異質(zhì)性、抽樣框架等不同方面綜合考慮來(lái)選擇合適的統(tǒng)計(jì)模型[5]。建議如下:
1)不應(yīng)基于異質(zhì)性統(tǒng)計(jì)檢驗(yàn)結(jié)果選擇統(tǒng)計(jì)模型[5,14]。
2)一般情況下,基于以下原因,首選RE模型。一是,從模型假設(shè)來(lái)考慮,RE模型更符合實(shí)際,因其允許納入meta分析的研究間效應(yīng)量不同;而CE模型假定不同研究具有共同的效應(yīng)量,實(shí)際上研究間干預(yù)效應(yīng)完全相同是難以置信的[5,14],這也是CE模型最主要的局限[2],若假定研究具有不同的干預(yù)效應(yīng),但效應(yīng)量是“固定的”,則可選用FE模型[5]。二是,從研究對(duì)象抽樣來(lái)考慮,在系統(tǒng)評(píng)價(jià)或meta分析研究中納入的研究人群一般不同來(lái)自同一個(gè)群體,從邏輯上講,選擇RE模型來(lái)擬合數(shù)據(jù)更合適。三是,從研究目的來(lái)考慮,如果研究者的意圖僅僅是獲得納入meta分析研究干預(yù)效應(yīng)的平均值,則選用FE模型;如果意圖不僅僅是獲得納入meta分析研究干預(yù)效應(yīng)的平均值,而是要了解推廣應(yīng)用到更為廣泛的人群的效應(yīng),則可選用RE模型[5]。四是,從模型特性來(lái)考慮,CE模型沒(méi)有考慮異質(zhì)性;而FE模型和RE模型均考慮了異質(zhì)性,當(dāng)可以預(yù)料到一定程度的異質(zhì)性,但合并研究的結(jié)果重要時(shí),可以選擇RE模型,對(duì)醫(yī)師更好地解讀研究結(jié)果很有幫助[22]。五是,從數(shù)學(xué)角度來(lái)考慮,CE和FE模型是RE模型的特例。
3)在使用RE模型不可能或不合理的情況下,可以考慮選擇CE或FE模型。一是,納入meta分析的研究數(shù)量少時(shí),雖然RE模型通常情況下是合適的模型,但當(dāng)研究數(shù)量非常少(k<5個(gè))時(shí),因難以準(zhǔn)確估計(jì)研究間方差或異質(zhì)性參數(shù)估計(jì)不可靠,宜選擇FE模型[8,22];特別是,當(dāng)研究數(shù)量k=1或k=2時(shí),可以采用CE模型或FE模型,但更傾向于選擇CE模型,除非有違背CE模型假設(shè)的強(qiáng)假設(shè)[2]。二是,針對(duì)同一研究問(wèn)題,當(dāng)一項(xiàng)研究樣本量非常大且比其他的一個(gè)或多個(gè)小樣本研究結(jié)果更可靠時(shí),宜選擇FE模型[22]。
總之,傳統(tǒng)meta分析合并數(shù)據(jù)時(shí),合理選擇模型非常重要,若模型選擇錯(cuò)誤可影響到整合研究結(jié)果的準(zhǔn)確性,會(huì)導(dǎo)致誤導(dǎo)性的結(jié)果,因此,系統(tǒng)評(píng)價(jià)員和meta分析人員必須重視模型的合理選擇和使用。附錄A(實(shí)例辨析所用R軟件實(shí)現(xiàn)的代碼),附錄B(思考題)請(qǐng)掃描本文開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)。