高維情況下基于傾向性評(píng)分的因果推斷方法*

2022-01-19 08:40:10山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室030001

中國(guó)衛(wèi)生統(tǒng)計(jì) 2021年6期

山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(030001) 高倩王彤

【提要】目的觀察性研究中使用傾向性評(píng)分法估計(jì)因果效應(yīng)依賴于不存在未測(cè)量混雜假設(shè)。隨著大數(shù)據(jù)時(shí)代的到來，越來越多的處理前協(xié)變量可被測(cè)量并納入分析中，使得這一假設(shè)更合理，但同時(shí)也導(dǎo)致標(biāo)準(zhǔn)的傾向性評(píng)分法不再適用，這就促使了高維情況下因果推斷方法的發(fā)展。本研究對(duì)現(xiàn)有的高維情況下基于傾向性評(píng)分的因果推斷方法進(jìn)行概述，為實(shí)際應(yīng)用提供參考依據(jù)。方法從變量選擇和協(xié)變量組間均衡性兩個(gè)角度出發(fā)，對(duì)現(xiàn)有方法做歸類和總結(jié)，系統(tǒng)回顧各方法的基本原理、方法步驟及優(yōu)缺點(diǎn)等。結(jié)果基于變量選擇的方法可分為Screening、懲罰和貝葉斯三類；基于均衡性的方法有明確的機(jī)制確保協(xié)變量的組間均衡性。結(jié)論實(shí)際應(yīng)用中研究者應(yīng)根據(jù)自身數(shù)據(jù)特點(diǎn)結(jié)合各方法的優(yōu)缺點(diǎn)選擇合適的方法進(jìn)行分析，從而得到一致有效的因果效應(yīng)估計(jì)量。

因果推斷的金標(biāo)準(zhǔn)是隨機(jī)對(duì)照試驗(yàn)，然而完全隨機(jī)化試驗(yàn)費(fèi)時(shí)費(fèi)力，且在很多場(chǎng)景下不可行[1]。相對(duì)而言，觀察性研究容易實(shí)現(xiàn)且更接近現(xiàn)實(shí)情況，因此有必要發(fā)展統(tǒng)計(jì)學(xué)方法以從觀察性研究中獲得因果效應(yīng)估計(jì)值。Rosenbaum和Rubin于1983年提出的傾向性評(píng)分(propensity score，PS)方法廣泛應(yīng)用于觀察性研究的因果推斷[2]。常用的基于PS的方法主要包括匹配、分層、回歸校正及逆概率加權(quán)(inverse propensity weighting，IPW)，其中IPW方法應(yīng)用最廣，從屬于因果模型家族中的邊際結(jié)構(gòu)模型[3-8]。將IPW與回歸方法結(jié)合發(fā)展出雙穩(wěn)健估計(jì)方法(doubly robust，DR)，這類方法的優(yōu)點(diǎn)是只要PS模型和結(jié)局模型之一正確設(shè)定，那么所得估計(jì)量就是一致且漸近正態(tài)的[9]。

使用基于PS的方法估計(jì)因果效應(yīng)值需要滿足不存在未測(cè)量混雜假設(shè)，即校正充分混雜變量集后，處理組和對(duì)照組個(gè)體是可比的。這一假設(shè)無法檢驗(yàn)，一般認(rèn)為分析中包含的協(xié)變量越多那么這一假設(shè)越合理，然而因果效應(yīng)估計(jì)值對(duì)PS模型中納入的協(xié)變量敏感，如遺漏重要的混雜變量會(huì)導(dǎo)致偏倚；模型中包含僅預(yù)測(cè)處理因素的協(xié)變量或無關(guān)變量會(huì)導(dǎo)致因果效應(yīng)估計(jì)值的方差膨脹而不能降低偏倚[10-11]。從這個(gè)意義上說，選擇一組適當(dāng)?shù)幕祀s因素進(jìn)行控制對(duì)于可靠的因果推斷是至關(guān)重要的。另一方面，觀察性研究中因果效應(yīng)估計(jì)值的偏倚主要是由協(xié)變量在處理組和對(duì)照組間不均衡引起的，從這一角度講，確保協(xié)變量實(shí)現(xiàn)充分的組間均衡性是獲得因果效應(yīng)一致估計(jì)的另一關(guān)鍵因素[12-13]。隨著大數(shù)據(jù)時(shí)代的到來，成百上千甚至數(shù)以萬計(jì)的處理前協(xié)變量可被收集測(cè)量，在這種情況下如何使用基于PS的方法得到因果效應(yīng)的一致有效估計(jì)是一個(gè)亟待解決的問題。目前已針對(duì)這一問題發(fā)展出諸多方法，本文將從變量選擇及協(xié)變量均衡性兩個(gè)方面介紹高維情況下基于PS的因果推斷方法。

基于變量選擇的方法

遺漏重要的混雜變量會(huì)導(dǎo)致因果效應(yīng)估計(jì)值有偏，因此，研究者們一直提倡將所有觀測(cè)到的變量均加入到PS模型中[14]。但在高維情況下這一策略不再適用甚至不可行，這是因?yàn)閷⒋罅繜o關(guān)的變量加入到PS模型中會(huì)導(dǎo)致有效性的損失，同時(shí)可能由于維度過高而無法擬合PS模型。因此，當(dāng)存在大量可能的混雜因素時(shí)，需要某種類型的變量選擇以實(shí)現(xiàn)無偏的有效的估計(jì)。Brookhart等的模擬研究表明，校正所有的混雜變量足以去除混雜偏倚，且額外的校正僅預(yù)測(cè)結(jié)局的協(xié)變量可改善方差估計(jì)[15]。這意味著，一種有效的因果推斷變量選擇方法應(yīng)同時(shí)考慮協(xié)變量與結(jié)局及處理因素之間的關(guān)系?；诖?，Schneeweiss等于2009年提出高維傾向性評(píng)分方法(high-dimensional propensity score，HDPS)，該方法首先根據(jù)協(xié)變量可能造成的偏倚對(duì)協(xié)變量進(jìn)行排序，隨后取前k個(gè)協(xié)變量構(gòu)建PS模型并估計(jì)因果效應(yīng)[16]。這一方法存在兩個(gè)缺陷：一是沒有明確的標(biāo)準(zhǔn)以確定進(jìn)入PS模型中的最優(yōu)協(xié)變量數(shù)，為了解決這一問題，Wyss等提出將HDPS方法與超級(jí)算法(super learner)或與協(xié)作目標(biāo)最大似然估計(jì)(collaborative targeted maximum likelihood estimation，C-TMLE)聯(lián)合使用[17]；二是計(jì)算協(xié)變量可能造成的偏倚時(shí)依賴于協(xié)變量與結(jié)局及協(xié)變量與處理因素間的邊際相關(guān)，這可能把與結(jié)局條件獨(dú)立的協(xié)變量排在前面。在實(shí)際中，HDPS類方法常用于分析電子醫(yī)療數(shù)據(jù)。

無論是screening方法還是懲罰類的方法，最終都是利用一個(gè)統(tǒng)計(jì)模型估計(jì)因果效應(yīng)，這一過程并沒有考慮“校正不確定性”，即模型中包含哪些協(xié)變量可恰當(dāng)?shù)匦Ｕ祀s偏倚所帶來的不確定性。貝葉斯模型平均(Bayesian model averaging，BMA)類方法試圖通過對(duì)整個(gè)模型空間的效應(yīng)估計(jì)進(jìn)行平均來考慮這一不確定性[28]。簡(jiǎn)單來說，這類方法將協(xié)變量是否包含在模型中轉(zhuǎn)化為一個(gè)指示變量α，并將其視為未知的冗余參數(shù)。隨后計(jì)算各模型對(duì)應(yīng)估計(jì)值的加權(quán)平均作為最終估計(jì)值，權(quán)重依賴于每個(gè)模型的后驗(yàn)分布概率[29-30]。傳統(tǒng)的BMA方法在效應(yīng)估計(jì)上存在局限性。Dominici和Parmigiani指出，BMA方法對(duì)包含所有混雜變量的模型子空間和沒有包含所有混雜變量的模型子空間進(jìn)行平均(兩類模型估計(jì)的效應(yīng)值解釋不同)，這導(dǎo)致了估計(jì)偏倚[31]。BAC(Bayesian adjustment for confounding)方法通過側(cè)重考慮校正了所有必要混雜變量的模型來避免這一問題[32]。這一方法的核心是定義了一個(gè)依賴先驗(yàn)(dependence prior)參數(shù)ω，先驗(yàn)地假定如果一個(gè)協(xié)變量對(duì)處理因素具有高度的預(yù)測(cè)性，那么相同的協(xié)變量將有很大的先驗(yàn)概率被納入結(jié)局模型。這使得在計(jì)算效應(yīng)估計(jì)值的加權(quán)平均時(shí)，對(duì)可能包含所有必要混雜因素的模型賦予較高的權(quán)重。Zigler和Dominici提出的貝葉斯模型平均方法借用PS回歸校正的思想，通過將PS以線性預(yù)測(cè)變量的形式加入結(jié)局模型中來控制混雜[33]。此外，還將包含在PS模型中的變量也以線性形式加入到結(jié)局模型中以解決“feedback”問題。該方法通過使用聯(lián)合貝葉斯PS估計(jì)(joint Bayesian PS estimation)將模型選擇的不確定性整合入因果效應(yīng)估計(jì)的后驗(yàn)分布中。無論是BAC還是Zigler和Dominici提出的貝葉斯模型平均方法都依賴于參數(shù)假設(shè)，如假設(shè)協(xié)變量以線性組合形式加入結(jié)局模型中，這導(dǎo)致二者對(duì)模型誤設(shè)不穩(wěn)健。為解決這一問題，Cefalu等人提出了MA-DR(model averaged double robust)方法[34]。與BAC方法類似，MA-DR也定義了一個(gè)依賴先驗(yàn)，將PS模型中包含的協(xié)變量強(qiáng)制為結(jié)局模型中包含的協(xié)變量的子集。不同之處在于MA-DR使用DR法估計(jì)因果效應(yīng)值。Wilson和Reich于2014年提出Bayesian credible region方法，主要思想是在所有的可行模型中識(shí)別最簡(jiǎn)單的模型[28]?？尚心Ｐ投x為包含在PS模型和結(jié)局模型(PS模型和結(jié)局模型均為貝葉斯回歸全模型)中協(xié)變量系數(shù)的(1-α)×100%的后驗(yàn)可信區(qū)域內(nèi)的模型。通過懲罰不包含混雜因素的可行模型識(shí)別最簡(jiǎn)單的模型。Bayesian credible region方法同時(shí)適用于處理因素為二分類和連續(xù)型的情況，但值得注意的是該方法是保守的，它能選出更多的協(xié)變量[11]。

基于均衡性的方法

基于PS的方法旨在通過均衡處理組和對(duì)照組間的協(xié)變量實(shí)現(xiàn)因果效應(yīng)的無偏估計(jì)，然而傳統(tǒng)的PS估計(jì)方法，如最大似然估計(jì)，并沒有正式的機(jī)制可以保證協(xié)變量最終得到平衡[35]。針對(duì)這一問題，有學(xué)者提出使用calibrated estimation(CAL)替代最大似然估計(jì)擬合PS模型。CAL的主要思想是構(gòu)建一個(gè)新的損失函數(shù)lCAL使其對(duì)應(yīng)的估計(jì)方程為協(xié)變量均衡條件，即處理組或?qū)φ战M子樣本協(xié)變量的加權(quán)均數(shù)等于樣本協(xié)變量均數(shù)[36]。Tan通過在lCAL上增加一個(gè)LASSO懲罰項(xiàng)提出RCAL(regularized calibrated estimation)，將CAL推廣到高維情況[35]。顯然，CAL方法除了可以得到令人滿意的協(xié)變量組間均衡性外，對(duì)模型誤設(shè)也更加穩(wěn)健。但RCAL中由于引入了懲罰項(xiàng)導(dǎo)致PS估計(jì)值不能嚴(yán)格滿足協(xié)變量組間均衡性，這可能引發(fā)估計(jì)偏倚。Zhao提出了一個(gè)分析框架(covariate balancing scoring rules，CBSR)用于統(tǒng)一和推廣基于協(xié)變量均衡性擬合PS的方法[13]。在實(shí)際應(yīng)用中，研究者可根據(jù)感興趣的因果參數(shù)及PS模型的鏈接函數(shù)推導(dǎo)對(duì)應(yīng)的得分方程(score function)。與RCAL及CBSR不同，高維協(xié)變量均衡傾向性評(píng)分(high-dimensional covariate balancing propensity score，hdCBPS)通過最優(yōu)化協(xié)變量的均衡性對(duì)PS模型進(jìn)行修正，包含四步：第一步構(gòu)建初始的PS模型，該過程使用最大化懲罰廣義偽似然函數(shù)估計(jì)參數(shù)；第二步采用加權(quán)最小二乘法擬合結(jié)局模型；前兩步的權(quán)重函數(shù)至關(guān)重要，影響模型錯(cuò)誤設(shè)定時(shí)hdCBPS的表現(xiàn)，作者給出一組權(quán)重可供使用；第三步是通過均衡結(jié)局模型的預(yù)測(cè)變量校正PS模型，這一步保證PS的估計(jì)值滿足弱的協(xié)變量均衡性；最后采用IPW估計(jì)平均處理效應(yīng)[37]。與RCAL類似，hdCBPS對(duì)模型誤設(shè)也相對(duì)穩(wěn)健。使用懲罰回歸方法校正高維混雜會(huì)導(dǎo)致大的偏倚，一方面是由于遺漏弱混雜變量引起的，另一方面是由于懲罰估計(jì)是有偏的。Athey等發(fā)現(xiàn)可通過實(shí)現(xiàn)協(xié)變量組間近似平衡去除這一偏倚，并基于此提出approximate residual balancing算法，包括兩步[12]，第一步是使用彈性網(wǎng)或LASSO擬合結(jié)局模型；第二步是對(duì)第一步的殘差進(jìn)行加權(quán)，該權(quán)重使得所有協(xié)變量在處理組與對(duì)照組間近似均衡。這一算法將回歸與加權(quán)的方法結(jié)合起來，克服單獨(dú)使用其中一種方法去除混雜偏倚的局限性。然而，盡管該算法不要求PS模型是可估計(jì)的，但其一致估計(jì)依賴于結(jié)局模型的線性稀疏假設(shè)，這一假設(shè)在高維情況下很難被滿足。

總結(jié)

在觀察性研究中，為了估計(jì)因果效應(yīng)，研究者有時(shí)需要考慮大量的處理前協(xié)變量以使得不存在未測(cè)量混雜假設(shè)合理。隨著可使用數(shù)據(jù)的增多，如電子病歷的出現(xiàn)等，高維情況下如何使用基于PS的方法估計(jì)因果效應(yīng)成為如今研究的熱點(diǎn)。本研究從變量選擇和協(xié)變量均衡性兩方面對(duì)現(xiàn)有的方法進(jìn)行了闡述。兩類方法有各自的優(yōu)勢(shì)和不足。基于變量選擇的方法大多從現(xiàn)有的方法發(fā)展而來，易于理解且有夯實(shí)的理論基礎(chǔ)，但因果效應(yīng)的一致估計(jì)往往依賴于混雜變量的正確識(shí)別及其進(jìn)入模型的函數(shù)形式。基于均衡性的方法有明確的機(jī)制確保協(xié)變量在處理組和對(duì)照組間實(shí)現(xiàn)均衡，且對(duì)模型誤設(shè)相對(duì)穩(wěn)健。然而，在不同高維數(shù)據(jù)結(jié)構(gòu)下，這兩類方法的表現(xiàn)如何仍需進(jìn)一步研究，這對(duì)于實(shí)際應(yīng)用中如何選擇最優(yōu)的方法估計(jì)因果效應(yīng)值有指導(dǎo)意義。此外，在實(shí)際應(yīng)用尤其是公共衛(wèi)生研究中，我們所關(guān)注的處理因素往往不是二分類的，因此，將上述方法擴(kuò)展到處理因素為連續(xù)型的情況、處理因素為隨時(shí)間變化的情況等將是未來的一個(gè)研究方向。

高維情況下基于傾向性評(píng)分的因果推斷方法*

基于變量選擇的方法

基于均衡性的方法

總 結(jié)

總結(jié)