文 高
(廣州大學(xué) 經(jīng)濟(jì)與統(tǒng)計(jì)學(xué)院,廣東 廣州 510006)
因果推斷一直以來(lái)便是經(jīng)濟(jì)學(xué)、醫(yī)學(xué)、生物學(xué)等領(lǐng)域研究的重點(diǎn)問(wèn)題,其中,虛擬事實(shí)模型(Rubin Causal Mode,RCM)是因果推斷中應(yīng)用非常廣泛的一種模型.然而,由于RCM不完全由觀測(cè)數(shù)據(jù)間的相關(guān)性決定,導(dǎo)致在討論因果效應(yīng)時(shí)存在可識(shí)別的問(wèn)題.
基于RCM 模型進(jìn)行因果推斷時(shí),由于反事實(shí)效應(yīng)的存在,個(gè)體的因果效應(yīng)無(wú)法識(shí)別.但是,如果假設(shè)實(shí)驗(yàn)組和對(duì)照組的被研究個(gè)體是完全隨機(jī)分配的,那么總體的平均因果效應(yīng)(Average Causal Effect, ACE)是可以識(shí)別的.然而,在實(shí)際研究中,被研究的個(gè)體可能會(huì)出現(xiàn)不依從、提前離開(kāi)等情況.例如,對(duì)于相對(duì)保守的病人,無(wú)論醫(yī)生將其分配到實(shí)驗(yàn)組還是對(duì)照組,該病人實(shí)際上最終都選擇在對(duì)照組,這就出現(xiàn)了不依從的現(xiàn)象;又比如,當(dāng)采用雙盲試驗(yàn)時(shí),假如某些病人已經(jīng)了解到實(shí)驗(yàn)組中病人的結(jié)果明顯好于對(duì)照組,則該病人可能會(huì)提前離開(kāi)試驗(yàn),并去其他醫(yī)院選擇治療.當(dāng)被研究的個(gè)體不依從或者提前離開(kāi)時(shí),就會(huì)導(dǎo)致出現(xiàn)不依從和不可忽略缺失值的數(shù)據(jù)存在.
當(dāng)存在不依從與不可忽略缺失值的隨機(jī)對(duì)照試驗(yàn)數(shù)據(jù)時(shí),基于“主分層(Principal stratification)”潛在框架分析依從者的平均因果效應(yīng)(Complier Average Causal Effect, CACE)是相對(duì)成熟且比較流行的方法[1].當(dāng)使用“主分層”潛在框架分析CACE時(shí),關(guān)于 CACE的可識(shí)別性引起了廣泛的關(guān)注.并且,不同缺失數(shù)據(jù)的機(jī)制對(duì)于CACE的可識(shí)別性以及CACE模型的估計(jì)具有相當(dāng)大的影響.在可忽略缺失機(jī)制下,O′Malley等[2]以及Zhou等[3]給出了在某些寬松的假設(shè)條件下,CACE是可識(shí)別的.在不可忽略機(jī)制下,Chen等[4]研究了當(dāng)因變量是離散的情形下,CACE是可識(shí)別的.在2016年,Chen等[5]研究了當(dāng)因變量是連續(xù)的情形下,CACE是可識(shí)別的.然而,他們研究的重點(diǎn)都在于CACE本身的可識(shí)別問(wèn)題,并沒(méi)有對(duì)CACE進(jìn)行參數(shù)化建模,進(jìn)而說(shuō)明模型中的參數(shù)是可識(shí)別的.模型中的參數(shù)可識(shí)別是指,若有兩組參數(shù)向量θ,θ*描述了同樣觀測(cè)數(shù)據(jù)的概率分布,即似然函數(shù)L(θ)=L(θ*)=L(θ),則這兩個(gè)參數(shù)向量必須相等,即θ=θ*.模型的可識(shí)別是估計(jì)量滿足相合性和漸近正態(tài)性的前提條件.
在基于似然方法的不可忽略缺失數(shù)據(jù)研究中,Kim等[6]于2011年提出了指數(shù)傾斜似然的方法,假設(shè)了缺失模型是Logistic 模型.Yang等[7]與 Shao等[8]的研究是基于工具變量的方法,即假設(shè)存在工具變量使得它僅與因變量相關(guān)或者僅與缺失數(shù)據(jù)的傾向相關(guān).Miao等[9]于2016年的研究中指出,在因變量滿足正態(tài)分布的前提下,當(dāng)使用logistic模型建立缺失機(jī)制時(shí),只要缺失關(guān)于因變量參數(shù)的符號(hào)已知,則可以保證模型是可識(shí)別的.2017年Cui等[10]說(shuō)明了,即使將因變量從正態(tài)分布擴(kuò)展成指數(shù)族分布時(shí),Miao的結(jié)論依然成型.本文基于 Logistic模型對(duì)CACE進(jìn)行參數(shù)建模,在假設(shè)不存在協(xié)變量的情況下,使用聯(lián)合似然的方法進(jìn)行模型估計(jì),得出兩點(diǎn)結(jié)論:①如果描述缺失機(jī)制模型中的參數(shù)可識(shí)別,則整個(gè)模型中的參數(shù)可識(shí)別;②如果描述缺失機(jī)制模型中的參數(shù)的可識(shí)別性未知,則整個(gè)模型中的參數(shù)是不可識(shí)別的.
對(duì)于個(gè)體i,Zi=1表示個(gè)體i被隨機(jī)分配到實(shí)驗(yàn)組,Zi=0表示個(gè)體i被隨機(jī)分配到對(duì)照組.Di(z)=1表示個(gè)體i實(shí)際接受治療,Di(z)=0表示個(gè)體i實(shí)際接受對(duì)照.Yi(z)=1表示個(gè)體i的結(jié)果滿意,Yi(z)=0表示個(gè)體i的結(jié)果不滿意.Ri(z)=1表示Yi(z)沒(méi)有缺失,Ri(z)=0表示Yi(z)缺失.這里需要注意的是,Di(z),Yi(z),Ri(z)都是個(gè)體i在假設(shè)Z=z的潛在結(jié)果.本文記Di,Yi,Ri為個(gè)體i實(shí)際觀測(cè)的結(jié)果.
當(dāng)Zi≠Di時(shí),就稱(chēng)為“不依從”.本文用Yi表示個(gè)體i的因變量.基于這種數(shù)據(jù),傳統(tǒng)的分析要么直接基于變量Z作為自變量,忽略變量D的存在;要么直接基于變量D作為自變量,忽略變量Z的存在.前一種方法雖然滿足隨機(jī)性,但由于忽略實(shí)際處理變量D,因而沒(méi)有實(shí)際意義;而后一種不滿足隨機(jī)性,導(dǎo)致結(jié)果沒(méi)有說(shuō)服力.
因此,本文采用Frangakis等[1]提出的“主分層”的框架來(lái)分析.記Ui為個(gè)體的潛在結(jié)果,則
(1)Ui=c, 如果Di(1)>Di(0);
(2)Ui=n, 如果Di(0)=0且Di(1)=0;
(3)Ui=a, 如果Di(0)=1且Di(1)=1;
(4)Ui=d, 如果Di(1) 其中,c,n,a,d分別代表個(gè)體i是依從者、永遠(yuǎn)放棄治療的人、永遠(yuǎn)接受治療的人,以及反對(duì)者.這里需要注意,Ui是一個(gè)無(wú)法觀測(cè)的潛在變量.本文研究的對(duì)象是: CACE=E(Y(1)-Y(0)│Ui=c), 其中,Y(1)表示在實(shí)驗(yàn)組中的因變量,Y(0)表示在對(duì)照組中的因變量. 假設(shè)1:在實(shí)驗(yàn)組或?qū)φ战M中的被研究個(gè)體相互獨(dú)立; 假設(shè)2:Z是隨機(jī)的; 假設(shè)3:?jiǎn)握{(diào)性假設(shè)P{Di(1)≥Di(0)}=1; 假設(shè)4:對(duì)于Ui=n和Ui=a的個(gè)體采用類(lèi)似雙盲試驗(yàn)的假定 P{Yi(1)|Ui=n}=P{Yi(0)|Ui=n}, P{Yi(1)│Ui=a}=P{Yi(0)│Ui=a}; 假設(shè)5:對(duì)于Ui=n和Ui=a的個(gè)體,采用混合雙盲試驗(yàn)的假定 P{Yi(1),Ri(1)|Ui=n}=P{Yi(0),Ri(0)|Ui=n}, P{Yi(1),Ri(1)|Ui=a}=P{Yi(0),Ri(0)|Ui=a}; 假設(shè)6:對(duì)于z=0或z=1滿足 P{Ri(z)│Yi(z),Di(z),U=u}= P{Ri(z)│Yi(z),Di(z)}, 且在實(shí)驗(yàn)組與對(duì)照組的缺失機(jī)制相同,即 P{Ri(1)│Yi(1)=y,Di(1)=d}= P{Ri(0)│Yi(0)=y,Di(0)=d}. 假設(shè)1說(shuō)明本文研究的樣本是隨機(jī)的,Angrist等[11]的研究以及Imbens等[12]的研究均采用了該假設(shè).假設(shè)2說(shuō)明分組Z與個(gè)體的潛在結(jié)果無(wú)關(guān).假設(shè)3說(shuō)明反對(duì)者(Ui=d)不存在.假設(shè)4是對(duì)Ui=n和Ui=a的個(gè)體進(jìn)行了額外的限制,即Ui=n和Ui=a的個(gè)體中,分組Z對(duì)因變量Y沒(méi)有產(chǎn)生影響.Angrist等[11]于1996年的研究中采用了假設(shè)4.假設(shè)5比假設(shè)4的條件更嚴(yán)謹(jǐn),除了具有與假設(shè)4相同的含義外,假設(shè)5還意味著P{Ri(1)|Zi=1,Ui=n}=P{Ri(0)|Zi=0,Ui=n},P{Ri(1)|Zi=1,Ui=a}=P{Ri(0)|Zi=0,Ui=a},Chen等[4]于2009年的研究中也采用了該假設(shè).假設(shè)6因變量Y的缺失不僅可以與Y自身相關(guān),也可以與D相關(guān),且實(shí)驗(yàn)組與對(duì)照組中的缺失機(jī)制相同. 本文采用聯(lián)合似然函數(shù)的方法,并基于logistic模型進(jìn)行建模,得到的聯(lián)合似然函數(shù)如下: Di(0)}]Zi Ri(1)[P{(1-Zi)Ri(0)=1,Yi(1), 1,y(1),Di(1)>Di(0)}dy(1)]Zi(1-Ri(1)) Di(0)}dy(0)](1-Zi)(1-Ri(1)) (1) 在不可忽略缺失機(jī)制下,似然函數(shù)(1)的可識(shí)別性問(wèn)題引起了廣泛的關(guān)注.等式(1)的可識(shí)別性轉(zhuǎn)化為[P{ZR(1)=1,Yi(1),D(1)>D(0)}]Z與[P{(1-Z)R(0)=1,Y(0),D(1)>D(0)}]1-Z兩者的乘積可識(shí)別即可[10].本文將它們的乘積記為Q,并對(duì)其進(jìn)行整理可得: Q=[P{R(1)=1,Y(1),D(1)>D(0)}]Z× [P{R(0)=1,Y(1),D(1)>D(0)}]1-Z= [P{R(1)=1,Y(1),D(1)=1,Z=1}- P{R(0)=1,Y(0),D(0)=1,Z=0}]Z [P{R(0)=1,Y(0),D(0)=0,Z=0}- P{R(1)=1,Y(1),D(1)=0,Z=1}]1-Z (2) 等式(2)的成立依賴(lài)于先前的5個(gè)基本假設(shè)條件,它的存在使得CACE可以依據(jù)觀測(cè)的數(shù)據(jù)進(jìn)行計(jì)算,該等式的具體證明參見(jiàn)附錄一. 對(duì)等式(2)進(jìn)行參數(shù)化建模,記 P(Z=1)=π,P(D=1│Z=1)=ν, P(D=1│Z=0)=η. 這里假定上述的三個(gè)概率已知,并記 P(R(z)=1│Y(z)=y(z),D(z)=d,Z=z)= F(αy(z)+θ0+θ1d), P(Y(1)│D(1)=d,Z=1)={F(β0+ β1d)}Y(1){1-F(β0+β1d)}1-Y(1), P(Y(0)│D(0)=d,Z=0)={F(γ0+ γ1d)}Y(0){1-F(γ0+γ1d)}1-Y(0). 其中,F(xiàn)(x)=expit(x)=exp(x)/exp(1+x).這里假定β1,γ1>0, 這是由于本文假定分組Z與治療D對(duì)因變量都有正效應(yīng).通過(guò)以上記號(hào),等式(2)可以轉(zhuǎn)化為 Q(α,β,γ,θ,π,ν,η)={F(αy(1)+θ0+θ1)· {F(β0+β1)}Y(1){1-F(β0+β1)}1-Y(1)·ν· π-F(αy(0)+θ0+θ1)·{F(γ0+γ1)}Y(0) {1-F(γ0+γ1)}1-Y(0)·η·(1-π}Z· {F(αy(0)+θ0)·{F(γ0)}Y(0)· {1-F(γ0)}1-Y(0)·(1-η)·(1-π)- F(αy(1)+θ0)·{F(β0)}Y(1)· {1-F(β0)}1-Y(1)·(1-ν)·π}1-Z (3) 此時(shí),等式(1)中的參數(shù)可識(shí)別可以轉(zhuǎn)化為Q(α,β,γ,θ,π,ν,η)中的參數(shù)可識(shí)別.因此,證明等式(1)中的參數(shù)可識(shí)別,則只需證明:若Q(α,β,γ,θ,π,ν,η)=Q(α*,β*,γ*,θ*,π,ν,η),則α=α*,β=β*,γ=γ*,θ=θ*即可. 定理1假設(shè)因變量是二分類(lèi)的,且不存在協(xié)變量的情況下,基于logistic模型,使用聯(lián)合似然的方法,可以證明得到的結(jié)論是:模型中的參數(shù)是不可識(shí)別的. 定理1的詳細(xì)證明參見(jiàn)附錄二. 基于似然函數(shù)的方法在沒(méi)有個(gè)體其他信息(協(xié)變量),如身高、血壓等協(xié)變量的前提下,模型是不可識(shí)別的.因此,本文采用文獻(xiàn)[4]中的估計(jì)方法進(jìn)行模擬,具體計(jì)算方法可參見(jiàn)附錄三.參考文獻(xiàn)[4]中的符號(hào)設(shè)計(jì),令θyzu=P(Y=y|Z=z,U=u),ρy=P(R=1|Y=y),則CACE=θ11c-θ10c.在本次模擬中,采用的樣本量為500,重復(fù)1 000次.其中,個(gè)體隨機(jī)分配到實(shí)驗(yàn)組的概率為0.5,且個(gè)體永遠(yuǎn)放棄治療的概率是0.3,永遠(yuǎn)接受治療的概率是0.2,依從者的概率是0.5.當(dāng)Y=0時(shí),其缺失的概率設(shè)定為0.7;當(dāng)Y=1時(shí),其缺失的概率設(shè)定為0.8.由于假設(shè)4的存在,有θ10a=θ11a,θ11n=θ10n.通過(guò)矩的估計(jì)方法,計(jì)算了感興趣參數(shù)的偏差、標(biāo)準(zhǔn)差、置信區(qū)間,以及覆蓋率,詳細(xì)結(jié)果見(jiàn)表1. 表1 CACE值模擬表 本文首先介紹了基于 Frangakis等[1]提出的“主分層”框架得到的CACE,并通過(guò)提出的6個(gè)基本假設(shè)條件,使得CACE可以依據(jù)觀測(cè)的數(shù)據(jù)進(jìn)行估計(jì).其次,在不存在協(xié)變量的前提下,基于Logistic模型,使用聯(lián)合似然的方法對(duì)CACE進(jìn)行參數(shù)建模,得到的結(jié)論是:模型中的參數(shù)是不可識(shí)別的.最后,采用Chen等[4]文章中的估計(jì)方法對(duì)CACE 涉及到的感興趣的參數(shù)進(jìn)行了模擬,計(jì)算了它們的偏差、標(biāo)準(zhǔn)差、置信區(qū)間,以及覆蓋率. 附錄一 等式(2)的證明與 Chen等[4]附錄中的證明類(lèi)似,主要為了說(shuō)明5個(gè)基本假設(shè)條件在CACE的可識(shí)別問(wèn)題上分別起到的具體作用.已知 Q=[P{Ri(1)=1,Yi(1),Di(1)>Di(0)}]Zi[P{Ri(0)=1,Yi(0),Di(1)>Di(0)}]1-Zi= [P{Ri(1)=1,Yi(1),Di(1)=1,Zi=1}-P{Ri(1)=1,Yi(1),Di(0)=1,Zi=1}]Zi· [P{Ri(0)=1,Yi(0),Di(0)=0,Zi=0}-P{Ri(0)=1,Yi(0),Di(1)=0,Zi=0}]1-Zi. 這一步利用假設(shè)3,即P{Di(1)≥Di(0)}=1,有Di(0)=1等價(jià)于Di(0)=Di(1)=1,以及有Di(1)=0等價(jià)于Di(1)=Di(0)=0.接下來(lái)證明P{Ri(1)=1,Yi(1),Di(0)=1,Zi=1}=P{Ri(0)=1,Yi(0),Di(0)=1|Z=0}·P(Z=1).容易得到 P{Ri(1)=1,Yi(1)=y,Di(0)=1,Zi=1}= P{Yi(1)=y,Di(0)=1,Zi=1}·P{Ri(1)=1|Yi(1)=y,Di(0)=1,Zi=1}= P{Yi(1)=y,Di(0)=1,Zi=1}·P{Ri(0)=1|Yi(0)=y,Di(0)=1,Z=0}, 其中,上式中的第二個(gè)等號(hào)成立依賴(lài)于假設(shè)5.而 P{Yi(1)=y,Di(0)=1,Zi=1}=P{Yi(1)=y,U=a,Zi=1}= P{Yi(1)=y|U=a,Zi=1}·P{U=a|Zi=1}·P{Zi=1}= P{Yi(1)=y|U=a,Zi=1}·P{U=a|Zi=0}·P{Zi=1}= P{Yi(0)=y|U=a,Zi=0}·P{U=a|Zi=0}·P{Zi=1}= P{Yi(0)=y,U=a|Zi=0}·P{Zi=1}, 其中,上式中的第一個(gè)等號(hào)成立依賴(lài)于假設(shè)3,第三個(gè)等號(hào)成立依賴(lài)于假設(shè)2,第四個(gè)等號(hào)成立依賴(lài)于假設(shè)4.所以,P{Ri(1)=1,Yi(1)=y,Di(0)=1,Zi=1}=P{Ri(0)=1,Yi(0)=y,Di(0)=1|Z=0}·P(Z=1)成立,同理可得,P{Ri(0)=1,Yi(0)=y,Di(1)=0,Zi=0}=P{Ri(1)=1,Yi(1)=y,Di(1)=0|Z=1}·P(Z=0).等式(2)成立. 附錄二 基于等式(3),令Q(α,β,γ,θ,π,ν,η)=Q(α*,β*,γ*,θ*,π,ν,η).當(dāng)Z=0時(shí),通過(guò)整理可以得到如下兩個(gè)等式: (1-π)·(1-η)·F(θ0)·{1-F(γ0)}-(1-π)·(1-ν)·F(θ0)·{1-F(β0)}= (4) (1-π)·(1-η)·F(α+θ0)·F(γ0)-(1-π)·(1-ν)·F(α+θ0)·F(β0)= (5) 當(dāng)Z=1時(shí),通過(guò)整理亦可以得到如下兩個(gè)等式: π·ν·F(θ0+θ1)·{1-F(β0+β1)}-π·η·F(θ0+θ1)·{1-F(γ0+γ1)}= (6) π·ν·F(α+θ0+θ1)·F(β0+β1)-π·η·F(α+θ0+θ1)·F(γ0+γ1)= (7) (8) (9) 附錄三 (1)如果P(Y=1|Z=1,U=n)≠P(Y=1|Z=1,U=a)(i.e.,11n≠10a),那么 (2)如果P(Y=1|Z=1,U=n)=P(Y=1|Z=1,U=a)(i.e.,11n=10a),且P(Y=1|Z=1,U=c)≠P(Y=1|Z=0,U=c)(i.e.,11c≠10c),那么 (3)如果P(Y=1|Z=1,U=n)=P(Y=1|Z=1,U=a)(i.e.,11n=10a),且P(Y=1|Z=1,U=c)=P(Y=1|Z=0,U=c)(i.e.,11c=10c),那么1.2 基本假設(shè)條件
2 聯(lián)合似然函數(shù)及模型的可識(shí)別性
3 估計(jì)與模擬
4 結(jié) 論