第四軍醫(yī)大學(xué)口腔醫(yī)院信息科
蔡宏偉
·學(xué)術(shù)討論·
統(tǒng)計(jì)推斷與平均組間效應(yīng)*
第四軍醫(yī)大學(xué)口腔醫(yī)院信息科
蔡宏偉
統(tǒng)計(jì)學(xué)的主要目的之一是借助已經(jīng)發(fā)生的事件對(duì)未來事件發(fā)生的可能性做出統(tǒng)計(jì)推斷[1]。現(xiàn)代統(tǒng)計(jì)學(xué)理論框架的產(chǎn)生和發(fā)展與隨機(jī)化方法的應(yīng)用推廣密不可分[2-3],隨機(jī)對(duì)照臨床試驗(yàn)是公認(rèn)的評(píng)價(jià)臨床干預(yù)措施的金標(biāo)準(zhǔn),隨著信息技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用,電子數(shù)據(jù)越來越多,觀察性數(shù)據(jù)的獲取成本不斷降低,由觀察性研究數(shù)據(jù)做出統(tǒng)計(jì)推斷越來越受到重視[4]。觀察性研究的基本思路是盡量模擬隨機(jī)化研究的特性,通過“匹配”或“調(diào)整協(xié)變量”等統(tǒng)計(jì)學(xué)方法對(duì)混雜因素進(jìn)行“均衡”。我們?cè)诮y(tǒng)計(jì)推斷中使用“研究群體”的平均組間效應(yīng)(average treatment effect,ATE)推斷“目標(biāo)個(gè)體(或群體)”的ATE。不論是隨機(jī)對(duì)照臨床試驗(yàn)還是觀察性研究,試驗(yàn)人群、調(diào)整后人群與擬推斷目標(biāo)人群的“同質(zhì)性”都是一個(gè)需要考慮的重要問題[5]。如果沒有遵循正確的基本“原則”,就很有可能得出錯(cuò)誤的結(jié)論。
假設(shè)一個(gè)個(gè)體u,有兩種治療方式可供選擇,T={1,0}。當(dāng) t=1時(shí),個(gè)體接受治療干預(yù);當(dāng) t=0時(shí),個(gè)體接受對(duì)照干預(yù)。Y1(u)表示個(gè)體u接受治療干預(yù)的效應(yīng),Y0(u)表示個(gè)體u在同一時(shí)間接受對(duì)照干預(yù)的效應(yīng)。則對(duì)于每一個(gè)受試個(gè)體u,治療干預(yù)相對(duì)于對(duì)照干預(yù)的治療效應(yīng)差異
因?yàn)閭€(gè)體u不可能在同一時(shí)間既接受治療干預(yù),又接受對(duì)照干預(yù),這就導(dǎo)致個(gè)體u在某個(gè)特定時(shí)間段的治療效應(yīng)與對(duì)照效應(yīng)的差值(即個(gè)體治療干預(yù)與對(duì)照干預(yù)的對(duì)比)無法直接求出。這就是Rubin提到的統(tǒng)計(jì)推斷中的基本問題[6],幾乎所有的統(tǒng)計(jì)推斷工作都圍繞如何解決這一問題展開。
我們很容易想到,需要找到一個(gè)與個(gè)體u類似的人群,用U表示,也就是我們需要做出統(tǒng)計(jì)推斷的目標(biāo)人群,用PATE來代表目標(biāo)人群的平均組間效應(yīng)。而我們推斷PATE時(shí)候,總是需要一個(gè)試驗(yàn)樣本的,即我們只能根據(jù)一個(gè)試驗(yàn)樣本求出SATE。當(dāng)這個(gè)試驗(yàn)樣本是從總體人群中隨機(jī)抽樣得到時(shí),SATE=PATE。雖然實(shí)際上,我們可能永遠(yuǎn)也無法證明這一點(diǎn)[1]。
表1 分兩組情況下,個(gè)體u治療組效應(yīng)和對(duì)照組效應(yīng)的可觀測(cè)值和反事實(shí)值
在將樣本受試者分為兩組的情況下,如表1所示,這4種效應(yīng)中,只有效應(yīng)A和效應(yīng)D是可以觀測(cè)到的。效應(yīng)B和效應(yīng)C理論上存在,但是實(shí)際上觀察不到,也被稱作反事實(shí)。
樣本平均組間效應(yīng)SATE,是試驗(yàn)樣本中所有受試者的治療組與對(duì)照組的平均組間效應(yīng)差值,如公式2所示,
于是所有統(tǒng)計(jì)學(xué)的推斷問題集中到兩點(diǎn):
(1)如何利用實(shí)際可測(cè)的數(shù)據(jù)替換公式(2)中的反事實(shí)數(shù)據(jù),求出τ,即SATE。
(2)由SATE推斷PATE時(shí),試驗(yàn)人群與目標(biāo)人群是否具有同質(zhì)性。
隨機(jī)對(duì)照臨床試驗(yàn)被稱作評(píng)價(jià)治療干預(yù)措施的金標(biāo)準(zhǔn),而隨機(jī)化原則是這一金標(biāo)準(zhǔn)的核心和基礎(chǔ)[3,7]。隨機(jī)化有2個(gè)特性,即不可預(yù)測(cè)和機(jī)會(huì)均等,不可預(yù)測(cè)可以避免選擇偏倚,機(jī)會(huì)均等可以使組間均衡可比。在隨機(jī)化均衡組間基線水平的基礎(chǔ)上,對(duì)不同的組分別實(shí)施不同的干預(yù),就可以推斷出不同干預(yù)的效果差別。
在隨機(jī)分組的情況下,治療組與對(duì)照組的基線水平在理論上完全一致,所以可以分別用治療組的治療效應(yīng)A代替總?cè)巳旱闹委熜?yīng)(A+C),用對(duì)照組的對(duì)照效應(yīng)D代替總?cè)巳旱膶?duì)照效應(yīng)(B+D),此時(shí),有
治療組的治療效應(yīng) E(y1(u)|t=1)和對(duì)照組的對(duì)照效應(yīng) E(y0(u)|t=0)都是可測(cè)的,所以 SATE是可以直接求出的。此時(shí)治療組與對(duì)照組的平均組間效應(yīng)ATE也就是組間的邊際治療效應(yīng)(marginal treatment effect,MTE)[8]。
在我們需要均衡的因素中,可以分為已知的可以觀測(cè)到的混雜因素和未知的無法觀測(cè)到的混雜因素。而實(shí)際上,我們無法評(píng)判隨機(jī)化是否對(duì)所有的已知和未知因素都均衡得很好[1]。在小樣本情況下,簡單隨機(jī)化并不能夠嚴(yán)格做到組間的“均衡可比”,比如將20個(gè)受試者分到兩組,則兩組受試?yán)龜?shù)比值差別大于12:8的可能性為0.19。當(dāng)需要均衡的因素很多時(shí),如,有6個(gè)影響因素,每個(gè)因素有3個(gè)水平,則共有36個(gè)=729個(gè)水平,如果每個(gè)水平上的病例數(shù)不是足夠多,那么即使用分層區(qū)組隨機(jī)化也無法保證在所有水平上各組間都均衡可比[9-10]。由此,我們希望首先控制好那些通過實(shí)踐已經(jīng)被證明的重要的混雜因素。因此,動(dòng)態(tài)隨機(jī)化方法(最著名的如最小化法)因?yàn)槟茉谙嗤那闆r下,均衡更多的混雜因素,所以在現(xiàn)代臨床試驗(yàn)中得到越來越廣泛的應(yīng)用[9,11-12]。
通過隨機(jī)化的結(jié)果進(jìn)行統(tǒng)計(jì)推斷,關(guān)鍵還要看上文所指出的第2個(gè)問題,即試驗(yàn)人群與目標(biāo)人群的同質(zhì)性。以新藥臨床試驗(yàn)(要求最嚴(yán)格的臨床研究)中的隨機(jī)對(duì)照臨床研究為例,受試個(gè)體一般需要經(jīng)過“納入/排除”標(biāo)準(zhǔn)的篩選。比如;排除掉懷孕婦女、兒童以及危重患者。此外,由于人種基因型、生活習(xí)俗以及自然環(huán)境等的差異,由北美或歐洲人群得出的SATE與我國人群中的SATE很可能是不一致的。因此,將“試驗(yàn)人群”得到的SATE推論到“目標(biāo)人群”受到限制,這也是我們國內(nèi)醫(yī)院的臨床科室不能直接使用國外的臨床指南,而需要在其基礎(chǔ)上做出調(diào)整的根本原因。
在觀察性研究中,由于沒有“納入/排除”標(biāo)準(zhǔn)等限制,因此其人群更接近“真實(shí)世界”的目標(biāo)人群。但是通過觀察性研究得到的數(shù)據(jù)可能有偏倚或混雜因素的影響,我們?cè)诜治鰰r(shí)一般需要進(jìn)行“匹配”或者“協(xié)變量調(diào)整”[13]。各種不同的調(diào)整方法,實(shí)際是通過排除掉一些“因差異較大無法匹配”的受試個(gè)體或者虛擬出“假定的標(biāo)準(zhǔn)人群”,然后進(jìn)行統(tǒng)計(jì)推斷。
以目前比較流行的非隨機(jī)數(shù)據(jù)研究方法傾向評(píng)分匹配(propensity score matching,PSM)為例[14],在計(jì)算傾向評(píng)分的過程中,傾向評(píng)分的值會(huì)因納入模型協(xié)變量的不同而有所變化。在實(shí)際中,只能納入“已知的”并且是“被觀測(cè)到的”協(xié)變量,而未知協(xié)變量在組間的分布情況是未知的。也就是說,雖然PSM方法做了類似“事后隨機(jī)化”的處理,均衡了組間已知的混雜因素,但是對(duì)于未知的協(xié)變量對(duì)研究結(jié)果的影響仍然是無能為力的[15]。對(duì)于上文中提到的第一個(gè)關(guān)鍵問題,在觀察性研究中,利用實(shí)際可測(cè)的數(shù)據(jù)替換公式(2)中的反事實(shí)情況時(shí),可能因未知因素的影響,得到的τ與實(shí)際的τ不同。
在某些情況下,SATE的子集SATT(sample average treatment effect for the treated)更受到關(guān)注。如患肺癌的病人根據(jù)是否使用某種較昂貴的抗癌藥物被分為2組,選擇使用該抗肺癌藥物的治療組病人與不使用該抗癌藥物的對(duì)照組病人在構(gòu)成上可能不同(如經(jīng)濟(jì)條件不同)。此時(shí),我們更關(guān)注的是接受抗癌藥物治療的病人群體的平均組間效應(yīng)SATT,可以用公式(4)表示。假設(shè)治療組個(gè)體數(shù)量遠(yuǎn)小于對(duì)照組個(gè)體數(shù)量,就可以通過以治療組個(gè)體為基準(zhǔn),通過匹配構(gòu)建用于估計(jì)“治療組病人”組間效應(yīng)的試驗(yàn)虛擬人群。如公式4所示,E(y1(u)|t=1)是實(shí)際可測(cè)的,E(y0(u)|t=1)是通過匹配得到的。
而且,如果在 PSM中使用“卡鉗匹配法”[16-17],則匹配后得到的“虛擬人群樣本”排除了治療組和對(duì)照組中PS值不能重疊匹配的個(gè)體,因此匹配后得到的“虛擬人群樣本”的 NSATE(new sample average treatment effect)可能與原始人群的SATE不同。使用其它的方法如分層調(diào)整、模型調(diào)整或者加權(quán)法調(diào)整等與匹配法調(diào)整的情況類似[18-19]。不論使用哪種方法,“樣本試驗(yàn)人群”的構(gòu)成已經(jīng)發(fā)生變化。因此由觀察性研究得出的結(jié)論,在推廣到其他人群時(shí),除了關(guān)注組間的已知的混雜因素外,還需要對(duì)試驗(yàn)樣本的人群及調(diào)整后人群的基本特征做出說明,以方便讀者自己判斷試驗(yàn)得出的結(jié)論對(duì)自己實(shí)踐的指導(dǎo)意義。
在需要做出統(tǒng)計(jì)推斷時(shí),隨機(jī)化研究對(duì)比觀察性研究的優(yōu)勢(shì)在于:隨機(jī)化研究可以同時(shí)均衡樣本組間的“已知混雜因素”和“未知混雜因素”,而觀察性研究最多可以通過統(tǒng)計(jì)模型在事后均衡“已知混雜因素”,而對(duì)“未知混雜因素”則無能為力。因此,隨機(jī)化研究可以較準(zhǔn)確得出SATE(樣本平均組間效應(yīng));而觀察性研究因納入的混雜因素不全,使得到的SATE可能與實(shí)際的SATE有一定的差異。但這種差異會(huì)隨著在模型中納入更準(zhǔn)確的混雜因素而逐漸減小。
在由SATE做出推斷的過程中,隨機(jī)化研究與觀察性研究都各有短板。隨機(jī)化研究因?yàn)榻?jīng)過納入排除標(biāo)準(zhǔn)的篩選,而與總體發(fā)病人群存在差異。而觀察性研究在調(diào)整混雜因素的同時(shí),原有人群中的構(gòu)成發(fā)生了變化。對(duì)于觀察性研究,由于需要對(duì)混雜因素進(jìn)行調(diào)整,而所有的調(diào)整(包括隨機(jī)化方法中的限制性隨機(jī)化模型)都建立在模型的基礎(chǔ)上,如果模型正確,則混雜因素效應(yīng)減少;如果模型不能反映實(shí)際情況,則混雜效應(yīng)仍會(huì)存留,所得的SATE與實(shí)際的SATE存在差異。而且,試驗(yàn)組和對(duì)照組的混雜因素是否全部被納入模型,我們永遠(yuǎn)也無法確認(rèn)。
人體本身很復(fù)雜,與外界環(huán)境等因素相互作用就更復(fù)雜。在臨床研究中,有我們認(rèn)識(shí)到的因素,還有很多我們尚未認(rèn)識(shí)到的因素。在由試驗(yàn)樣本對(duì)目標(biāo)人群做出推斷時(shí),除了需要考慮有無混雜因素的影響,還需要考慮試驗(yàn)樣本與目標(biāo)個(gè)體或人群是否具有同質(zhì)性。
[1]Holland PW.Statistics and Causal Inference.Journal of the American Statistical Association,1986,81(396):945-960.
[2]Jacquez JA,Jacquez GM.Fisher's randomization test and Darwin's data--a foot note to the history of statistics.Math Biosci,2002,180:23-28.
[3]Hall NS..Fisher and his advocacy of randomization.J Hist Biol,2007,40(2):295-325.
[4]Anglemyer A,Horvath HT,Bero L.Healthcare outcomes assessed with observational study designs compared with those assessed in randomized trials.Cochrane Database Syst Rev,2014,4:R34.
[5]Marcus SM,Stuart EA,Wang P,et al.Estimating the causal effect of randomization versus treatment preference in a doubly randomized preference trial.Psychol Methods,2012,17(2):244-254.
[6]Rubin DB.Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies.Journal of Educational Psychology,1974,66(5):688-701.
[7]Greenland S.Randomization,statistics,and causal inference.Epidemiology,1990,1(6):421-429.
[8]Austin PC.The performance of different propensity score methods for estimating marginal hazard ratios.Stat Med,2013,32(16):2837-2849.
[9]Pocock SJ,Simon R.Sequential treatment assignment with balancing for prognostic factors in the controlled clinical trial.Biometrics,1975,31(1):103-115.
[10]Lachin JM.Statistical properties of randomization in clinical trials.Control Clin Trials,1988,9(4):289-311.
[11]Cai HW,Xia JL,Gao DH,et al.Implementation and experience of a web-based allocation system with Pocock and Simon's minimization methods.Contemp Clin Trials,2010,31(6):510-513.
[12]Cai H,Xia J,Xu D,et al.A generic minimization random allocation and blinding system on web.J Biomed Inform,2006,39(6):706-719.
[13]Imai K,King G,Stuart EA.Misunderstandings between experimentalists and observationalists about causal inference.Journal of the Royal Statistical Society:Series A(Statistics in Society),2008,171(2):481-502.
[14]王永吉,蔡宏偉,夏結(jié)來,等.傾向指數(shù)第二講傾向指數(shù)常用研究方法.中華流行病學(xué)雜志,2010,31(5):584-585.
[15]王永吉,蔡宏偉,夏結(jié)來,等.傾向指數(shù)第三講應(yīng)用中的關(guān)鍵問題.中華流行病學(xué)雜志,2010,31(7):823-825.
[16]Austin PC.A comparison of 12 algorithms for matching on the propensity score.Stat Med,2014,33(6):1057-1069.
[17]Wang Y,Cai H,Li C,et al.Optimal caliper width for propensity score matching of three treatment groups:a Monte Carlo study.PLoS One,2013,8(12):e81045.
[18]李智文,任愛國.傾向評(píng)分加權(quán)分析法.中國生育健康雜志,2010,21(4):251-253.
[19]李智文,任愛國.傾向評(píng)分分層和回歸分析.中國生育健康雜志,2010,21(3):186-188,封 3.
*國家自然科學(xué)基金資助(30800952)
鄧 妍)