復(fù)旦大學(xué)公共衛(wèi)生學(xué)院流行病學(xué)教研室,公共衛(wèi)生安全教育部重點(diǎn)實(shí)驗(yàn)室(200032) 施婷婷 劉振球 袁黃波 吳學(xué)福 吳明山 張鐵軍
隨機(jī)對(duì)照試驗(yàn)(randomized controlled trial,RCT)是最理想的金標(biāo)準(zhǔn)設(shè)計(jì)方案[1]。但在實(shí)際工作中,由于倫理學(xué)等因素的影響以及研究設(shè)計(jì)的理想性,RCT的應(yīng)用受限。而非隨機(jī)對(duì)照研究(包括觀察性研究和非隨機(jī)試驗(yàn)研究)的研究對(duì)象所具有的各種特征與真實(shí)世界研究(real world study,RWS)結(jié)果更為接近,實(shí)用性更廣。但由于無法隨機(jī)化,如何處理混雜偏倚成為此類研究亟待解決的難題[2]。
傳統(tǒng)的控制混雜偏倚的方法包括在研究設(shè)計(jì)階段進(jìn)行配比,或在數(shù)據(jù)分析階段按照混雜因素分層,或采用多因素?cái)?shù)學(xué)模型進(jìn)行調(diào)整等。但是當(dāng)混雜變量較多或處理組與對(duì)照組的某些變量差異較大時(shí),傳統(tǒng)方法便不再適用,傾向性評(píng)分(propensity score,PS)法由此應(yīng)運(yùn)而生,廣泛應(yīng)用于醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)等多個(gè)領(lǐng)域的非隨機(jī)對(duì)照研究中[3-4]。
1.傾向性評(píng)分原理與方法
1983年,Rosenbaum和Rubin首次提出傾向性評(píng)分這一概念,他們將PS定義為被研究的個(gè)體在控制可觀測到的混雜變量(confounding variables)的情況下,通過將混雜變量納入logistic回歸模型來產(chǎn)生一個(gè)預(yù)測個(gè)體受到自變量影響的概率[5-6]。PS的基本原理是指在一定可觀察協(xié)變量(Xi)的條件下,研究對(duì)象i(i=1,2,…,n)被分配到特定處理組(Zi=1)或?qū)φ战M(Zi=0)的條件概率。因此,第i個(gè)研究對(duì)象被分配到處理組的概率可以表示為:e(xi)=Pr(Zi=1|Xi=xi),若給定的特征變量(xi)與分組變量(Zi)是相互獨(dú)立的,則:
其中,xi為個(gè)體i的協(xié)變量,e(xi)為個(gè)體i被分入處理組的概率,也叫做傾向性評(píng)分值[3]。
傾向性評(píng)分是一個(gè)平衡評(píng)分,在傾向評(píng)分的條件下,觀察到的基線協(xié)變量在處理組和對(duì)照組之間的分布是相似的[2],從而排除混雜變量的影響,獲取“凈效應(yīng)”。但傾向性評(píng)分法本身不能控制混雜,而是通過匹配、分層、利用回歸模型直接調(diào)整混雜變量以及逆概率加權(quán)等方式,不同程度地提高兩組間的可比性,削弱或平衡協(xié)變量對(duì)所估計(jì)效應(yīng)的影響,達(dá)到“類隨機(jī)化”的效果[6]。其中,傾向性評(píng)分匹配法在分析和結(jié)果的呈現(xiàn)及解釋方面比較簡單,并且平衡結(jié)果可靠[7],因而越來越多地應(yīng)用于非隨機(jī)對(duì)照研究中。傾向性評(píng)分匹配是通過多變量logistic回歸模型,根據(jù)眾多基線協(xié)變量對(duì)處理組與對(duì)照組中PS值相同或相近的研究對(duì)象進(jìn)行匹配,理論上,匹配后的兩組研究對(duì)象在各個(gè)特征變量的分布趨于均衡,從而削弱或抵消混雜因素的分布不均衡對(duì)研究結(jié)果的干擾[8]。
2.傾向性評(píng)分匹配常用匹配方法
(1)最近鄰配比法(nearest-neighbor matching)
最近鄰配比法是PSM最常用的一種匹配方法,具體方法是:首先將兩組研究對(duì)象分開,根據(jù)協(xié)變量計(jì)算PS值;然后,依據(jù)PS值大小分別對(duì)兩組研究對(duì)象進(jìn)行排序,從處理組中依次選出1個(gè)研究對(duì)象,從對(duì)照組中找出1個(gè)(或多個(gè))與處理組個(gè)體傾向評(píng)分值最相近的個(gè)體作為匹配對(duì)象[12]。從源人群中移去匹配成功的對(duì)子,再依次進(jìn)行處理組剩余研究對(duì)象的匹配過程。最鄰近匹配法按處理組研究對(duì)象進(jìn)行匹配,所有個(gè)體都可以成功匹配,可以充分利用處理組信息,但如果配對(duì)組與處理組的PS值分布差距較大,將影響匹配質(zhì)量,降低研究精確度[13]。
(2)馬氏矩陣配比法(Mahalanobis metric matching)
馬氏矩陣配比法是將評(píng)分值作為一個(gè)變量同其他重點(diǎn)平衡的變量一起,利用矩陣計(jì)算兩個(gè)研究對(duì)象的馬氏距離的一種匹配辦法[14]。馬氏距離是由印度統(tǒng)計(jì)學(xué)家Mahalanobis提出的,表示m維空間中2點(diǎn)間的協(xié)方差距離,不受量綱的影響,還可以排除變量間相關(guān)性的干擾。
(3)卡鉗匹配(caliper matching)
卡鉗值是指當(dāng)兩組研究對(duì)象根據(jù)PS值進(jìn)行匹配時(shí)所允許的誤差范圍,卡鉗匹配是在最近鄰匹配法的基礎(chǔ)上應(yīng)用的匹配法。該方法解決了最近鄰匹配法在配對(duì)組與處理組的PS值分布差距較大時(shí)難以保證匹配質(zhì)量的問題,但也可能使部分觀察對(duì)象落在卡鉗值范圍外而被剔除,導(dǎo)致無法充分有效利用數(shù)據(jù),產(chǎn)生抽樣偏倚[4]。
傾向性評(píng)分匹配的實(shí)施可以通過R軟件的MatchIt程序包實(shí)現(xiàn)[10]。數(shù)據(jù)選擇R軟件內(nèi)置的由Dehejia和Wahba(1999)創(chuàng)建的數(shù)據(jù)集“l(fā)alonde”。該數(shù)據(jù)集是用于評(píng)估傾向評(píng)分匹配的經(jīng)典數(shù)據(jù)集,包括研究對(duì)象共614例(處理組185例,對(duì)照組429例),其分組變量為treat(是否接受培訓(xùn)),定義“1”為處理組,“0”為對(duì)照組;基線協(xié)變量包括age(年齡),educ(教育年限),black(是否為黑人)等共9個(gè)協(xié)變量。
實(shí)施傾向性評(píng)分匹配的具體步驟如下:
(1)根據(jù)臨床經(jīng)驗(yàn)或?qū)嶋H要求,以處理因素(分組變量)作為因變量(y),混雜因素作為自變量(x)來構(gòu)建logit或probit回歸模型;
(2)擬合回歸模型的參數(shù);
(3)根據(jù)擬合的回歸模型計(jì)算每個(gè)研究對(duì)象的傾向性評(píng)分值(即條件概率);
(4)以傾向性評(píng)分為依據(jù),通過相應(yīng)匹配方法來均衡混雜因素(協(xié)變量)在兩組的分布[9]。
使用logistic回歸對(duì)前述9個(gè)基線變量的匹配前后情況進(jìn)行回歸分析[11],結(jié)果見表1。在匹配前,僅變量“age”、“re75”(1975年收入)在兩組間均衡,其他協(xié)變量在兩組間均不均衡。通過最鄰近匹配法進(jìn)行匹配,匹配比例為1∶1,結(jié)果顯示,僅“black”變量未能在兩組間達(dá)到均衡。樣本匹配前后均衡性檢驗(yàn)及匹配效果見圖1-3。圖1為傾向性評(píng)分分布QQ圖,表示處理組與對(duì)照組間變量“age”、“educ”、“black”的PS分布,可看出單個(gè)變量匹配前后的均衡情況,如“educ”變量在匹配后更接近正態(tài)分布,說明匹配效果較好;圖2為傾向性評(píng)分分布抖點(diǎn)圖,其中點(diǎn)的位置表示個(gè)體的得分情況,匹配后處理組與對(duì)照組點(diǎn)的分布相似,表示兩組間PS值分布均衡;圖3為傾向性評(píng)分分布直方圖,表示處理組與對(duì)照組間匹配前后PS值的分布,可以看出匹配前兩組間PS值分布差異較大,匹配后的對(duì)照組PS值分布更接近對(duì)照組。以上結(jié)果的R軟件實(shí)現(xiàn)過程見附錄。
圖1 傾向性評(píng)分分布QQ圖
圖2 傾向性評(píng)分分布抖點(diǎn)圖
圖3 傾向性評(píng)分分布直方圖
表1 傾向性評(píng)分匹配前后研究對(duì)象基線特征情況分布
傾向性評(píng)分匹配法作為一種均衡基線混雜因素的半?yún)?shù)方法,在非隨機(jī)對(duì)照研究中的應(yīng)用越來越廣泛,常用于處理組研究對(duì)象較少且對(duì)照組樣本量遠(yuǎn)大于處理組的研究中。本研究選取R軟件內(nèi)置經(jīng)典數(shù)據(jù)集“l(fā)alonde”,通過構(gòu)建logistic回歸模型將9個(gè)協(xié)變量“降維”轉(zhuǎn)化為傾向性評(píng)分值,采用1∶1匹配的最鄰近匹配法從對(duì)照組中選取與處理組可比性更佳的研究對(duì)象。結(jié)果表明,經(jīng)匹配后,兩組間“educ”(教育年限)等5個(gè)基線協(xié)變量的分布差異不再具有統(tǒng)計(jì)學(xué)意義,兩組之間具有較好的均衡可比性。傾向性評(píng)分匹配法可以使研究設(shè)計(jì)階段無法實(shí)現(xiàn)隨機(jī)化的非隨機(jī)對(duì)照研究獲得“類隨機(jī)化”的效果,也可以降低協(xié)變量較多帶來的數(shù)據(jù)分析難度,這對(duì)于公共衛(wèi)生領(lǐng)域中基于人群的研究具有較好的應(yīng)用前景,在除醫(yī)學(xué)外的其他領(lǐng)域也可發(fā)揮獨(dú)特的作用。
但是,傾向性評(píng)分匹配也有限制因素。對(duì)于樣本量較小的研究,傾向性評(píng)分匹配法便無法解決兩組之間協(xié)變量失衡的問題,因而不再適用。當(dāng)存在重要混雜因素?zé)o法測量或者未知時(shí),PSM法也難以應(yīng)用。在匹配過程中,處理組與對(duì)照組間的傾向性評(píng)分重疊范圍常稱為“共同支持域”(common support region),“共同支持域”的大小是影響匹配方法估計(jì)效果的重要因素[15]。PSM根據(jù)重疊范圍剔除對(duì)照組個(gè)體,會(huì)丟失部分觀測值,導(dǎo)致剩下樣本的代表性減弱。若期望達(dá)到高質(zhì)量的匹配效果,則需要較大的樣本量來產(chǎn)生較大的PS值范圍。只有當(dāng)不存在未觀測到的混雜因素且兩組共同支持域夠大時(shí),才能保證PSM結(jié)果的正確性。此外,PSM多應(yīng)用于結(jié)局為分類變量研究,如果存在缺失值,傾向性評(píng)分同樣無法處理。
傾向性評(píng)分匹配有多種匹配方法,每種方法都有各自的優(yōu)缺點(diǎn),在實(shí)際應(yīng)用中,研究者一定要根據(jù)樣本數(shù)據(jù)的情況選擇適合的方法,科學(xué)運(yùn)用傾向性評(píng)分匹配法,才能有效控制混雜因素,提高研究結(jié)果的準(zhǔn)確性。