濰坊醫(yī)學(xué)院公共衛(wèi)生學(xué)院(261053) 孟維靜 王素珍 呂軍城 石福艷
隨機(jī)對(duì)照試驗(yàn)(RCT)被認(rèn)為是臨床試驗(yàn)研究最理想的金標(biāo)準(zhǔn)。但受一些研究條件及倫理學(xué)因素的限制,隨機(jī)化受到很大限制〔1-2〕。當(dāng)隨機(jī)化不能夠?qū)崿F(xiàn)或者遭到破壞時(shí),治療效果的判斷變得非常復(fù)雜,因?yàn)槲覀儫o(wú)法判定組間的差異是由于治療或暴露所引起的,還是由于組間的分配不平衡而造成的。多元模型和傾向指數(shù)等方法是解決該問(wèn)題的常用研究方法〔3〕。而且傾向指數(shù)方法易于理解、研究步驟標(biāo)準(zhǔn)化程度高,近年來(lái)應(yīng)用傾向指數(shù)處理非隨機(jī)化數(shù)據(jù)得到了更多的關(guān)注,有越來(lái)越多的研究者開(kāi)始應(yīng)用此方法來(lái)平衡組間的不均衡〔4〕。本文應(yīng)用SAS程序模擬研究?jī)A向指數(shù)分層法處理非隨機(jī)化試驗(yàn)數(shù)據(jù)的效果。
傾向指數(shù)法是均衡組間偏倚的有效方法,由Rosenbaum 和Rubin在1983年首次提出〔5〕,其主要目的是通過(guò)均衡組間各個(gè)混雜因素變量來(lái)降低偏倚,其實(shí)質(zhì)是將多個(gè)協(xié)變量的影響因素用一個(gè)傾向指數(shù)來(lái)表示(相當(dāng)于降低了協(xié)變量的維度),根據(jù)傾向指數(shù)進(jìn)行不同治療組間的匹配,對(duì)觀測(cè)性數(shù)據(jù)的混雜因素進(jìn)行類似隨機(jī)化的均衡處理。傾向指數(shù)的具體定義是:按照給定的一組特征變量(xm)將任意一個(gè)研究對(duì)象i(i=1,2,…,N)劃分到治療組(Zi=1)的條件概率,第i個(gè)研究對(duì)象被分配到治療組的概率可以表達(dá)為:e(xi),即P,被稱為傾向指數(shù)。
假設(shè)從治療組選出研究對(duì)象i,則e(X)=pri(Z=1|X=xi),再?gòu)膶?duì)照組選出一個(gè)研究對(duì)象j,那么e(X)=prj(Z=1|X=xj);如果 Pri=Prj,則必然有xi=xj,如果盡量使Pri無(wú)限地接近Prj,則 xi和 xj必然十分接近〔6〕。因此,經(jīng)過(guò)傾向指數(shù)調(diào)整的組間個(gè)體,除了處理因素和結(jié)果變量分布不同外,其他協(xié)變量應(yīng)當(dāng)均衡可比,相當(dāng)于“事后隨機(jī)化”,使觀察性數(shù)據(jù)達(dá)到“接近隨機(jī)分配數(shù)據(jù)”的效果。應(yīng)用較多的傾向指數(shù)方法包括匹配(matching)、分層(stratification)和回歸校正(regression adjustment)等〔7-8〕。
傾向指數(shù)分層法是把傾向指數(shù)作為分層的唯一標(biāo)準(zhǔn),通過(guò)模型估計(jì)傾向指數(shù)后,按傾向指數(shù)進(jìn)行分層,層內(nèi)組間協(xié)變量應(yīng)該是均衡的,將各層處理效應(yīng)賦予權(quán)重后相加起來(lái)估計(jì)處理效應(yīng),并檢查各層內(nèi)暴露組和對(duì)照組間每個(gè)協(xié)變量的均衡性〔9〕。
在新藥臨床試驗(yàn)以及流行病學(xué)研究中,一般可以運(yùn)用logistic回歸方法來(lái)估計(jì)傾向指數(shù),數(shù)學(xué)模型如下:
其中,e(xi)為傾向指數(shù),α,β為模型的參數(shù),其中α即組間效應(yīng),β為回歸系數(shù),X為協(xié)變量。
1.SAS生成數(shù)據(jù)過(guò)程
在上述假定的基礎(chǔ)上,模擬生成A、B兩組隨訪數(shù)據(jù)。由線性模型Y=Zδ+X'β+ε生成模擬數(shù)據(jù),其中δ代表組間效應(yīng)。首先生成協(xié)變量X,假定模型中有三個(gè)自變量:連續(xù)型變量X1,二分類變量X2,X3。為了模擬兩組中協(xié)變量的不同分布情況,分別對(duì)處理組A和對(duì)照組B生成不同的協(xié)變量:對(duì)于處理組A(Z=1),假定 X1~N(d,σ21),X2~Bernoulli(p2t)和 X3~Bernoulli(p3t);對(duì)于對(duì)照組 B(Z=0),假定 X1~N(0.2),X2~Bernoulli(p2c)和 X3~Bernoulli(p3c)。通過(guò)控制 d和二項(xiàng)分布的概率 p2c,p2t,p3c和 p3t,可以模擬各種不同水平的協(xié)變量分布的情況。然后根據(jù)協(xié)變量X和處理分配Z,使用預(yù)先設(shè)定的δ、β和獨(dú)立產(chǎn)生的正態(tài)分布誤差ε~N(0,σ2ε)生長(zhǎng)Y變量。根據(jù)上述模型和設(shè)定的參數(shù)值,由SAS模擬產(chǎn)生帶有協(xié)變量的兩組隨機(jī)數(shù),設(shè)定協(xié)變量的系數(shù)(β1,β2,β3)=(0.5,0.4,0.4)。其他參數(shù)值的設(shè)定為(σ1,δ,d,p2c,p3c,p2t,p3t,σε)=(0.6,0.1,0.5,0.3,0.7,0.5,0.9,1.0)。
用分組變量作因變量,協(xié)變量X1,X2,X3做自變量,建立logistic回歸模型,并計(jì)算傾向指數(shù),根據(jù)傾向指數(shù)進(jìn)行五等分。分層前后分別對(duì)兩組進(jìn)行比較,對(duì)處理效應(yīng)做出評(píng)價(jià)。同時(shí),對(duì)分層前后協(xié)變量的均衡性進(jìn)行比較,進(jìn)而得出最終結(jié)論。在既定的參數(shù)設(shè)置下,程序每循環(huán)一次對(duì)一個(gè)總樣本量為1000的兩組數(shù)據(jù)完成一次模擬,SAS程序循環(huán)1000次后,模擬完成。
2.模擬結(jié)果
(1)處理效應(yīng)的估計(jì)
分層之前,對(duì)于A、B兩組間的處理效應(yīng),每次模擬的數(shù)據(jù)采用兩樣本t檢驗(yàn),循環(huán)1000次,1000次均有P<0.05,無(wú)P>0.05的情況出現(xiàn),總體上表明兩組間差異有統(tǒng)計(jì)學(xué)意義。
處理效應(yīng)^δ的方差估計(jì)值可以用下面的公式計(jì)算〔10〕:
樣本量較大時(shí),^δ服從正態(tài)分布〔10〕,以此來(lái)估計(jì)處理效應(yīng)。因此,五分層之后,對(duì)于A、B兩組間的處理效應(yīng),用公式(6)進(jìn)行統(tǒng)計(jì)推斷。
對(duì)既定的樣本,循環(huán)1000次,其中有948次P<0.05,有52次P>0.05,表明在平衡了協(xié)變量之間的不均衡后,兩組間差異有統(tǒng)計(jì)學(xué)意義。
(2)協(xié)變量的均衡性比較
本文采用假設(shè)檢驗(yàn)評(píng)價(jià)分層前后層內(nèi)協(xié)變量的均衡性。循環(huán)1000次后,結(jié)果見(jiàn)表1。
表1 分層之前兩組間協(xié)變量的均衡性
由表1可以看出,分層之前,對(duì)X1進(jìn)行兩樣本t檢驗(yàn),循環(huán)1000次,1000次均為 P<0.05,表明變量X1兩組間差異有統(tǒng)計(jì)學(xué)意義。對(duì)于變量X2,X3采用四格表χ2檢驗(yàn),循環(huán)1000次,其中P<0.05的次數(shù)均為1000次,總體上表明變量X2,X3在兩組間均差異有統(tǒng)計(jì)學(xué)意義。說(shuō)明變量 X1,X2,X3,在兩組間都不均衡。
表2 分層之后層內(nèi)兩組間協(xié)變量的均衡性
分層之后,分別對(duì)X1,X2,X3層內(nèi)進(jìn)行檢驗(yàn),循環(huán)1000次,P<0.05的次數(shù)如表2,除第1層和第5層,由于兩組間的樣本含量太小而導(dǎo)致I型錯(cuò)誤的概率大于0.05外,其余的2、3、4層 P<0.05的次數(shù)均小于5%,說(shuō)明2、3、4 層中兩組中 X1,X2,X3之間的差別均無(wú)統(tǒng)計(jì)學(xué)意義。表明變量X1,X2,X3在層內(nèi)兩組間基本達(dá)到了平衡。
在隨機(jī)化無(wú)法實(shí)現(xiàn)的試驗(yàn)研究中,傾向指數(shù)能很好地平衡協(xié)變量引起的組間不均衡性〔6〕。分層法是傾向指數(shù)應(yīng)用較多的方法之一,Rosenbaum和 Rubin認(rèn)為按傾向指數(shù)分為5層就能減少90%的偏倚〔11〕。而且傾向指數(shù)分層法簡(jiǎn)單易行,在大樣本量的情況下,不會(huì)損失樣本信息,因此得到廣泛的應(yīng)用。
雖然傾向指數(shù)分層法越來(lái)越多的被人們應(yīng)用,但是它也有一定的局限性:(1)傾向指數(shù)分層法只能平衡可觀測(cè)的變量,對(duì)于潛在的混雜因素?zé)o能為力〔12〕。(2)傾向指數(shù)分層法對(duì)大樣本數(shù)據(jù)平衡能力較好,對(duì)小樣本數(shù)據(jù),很難達(dá)到滿意的均衡效果。因?yàn)檩^少的樣本量會(huì)導(dǎo)致某些特殊的情況出現(xiàn),分層后組間協(xié)變量在最高層和最低層可能是不平衡的。(3)分層法協(xié)變量的均衡性只能在層內(nèi)比較,不能直接比較研究樣本的均衡性。因此,要注意考慮傾向指數(shù)分層法的應(yīng)用范圍。
本模擬研究結(jié)果表明,傾向指數(shù)分層法是一種很好的處理非隨機(jī)化數(shù)據(jù)的方法,為以后非隨機(jī)化臨床試驗(yàn)數(shù)據(jù)的處理提供了理論基礎(chǔ)。
1.Guo SY,Barth RD,Gibbons C.Propensity score matching strategies for evaluating substance abuse services for child welfare clients.Children and Youth Services Review,2006,28(4):357-383.
2.Concato J,Shah N,Horwitz RI.Randomized,controlled trials,observational studies,and the hierarchy of research designs.N Engl J Med,2000,342(25):1887-1892.
3.王永吉,蔡宏偉,夏結(jié)來(lái),等.傾向指數(shù)的基本概念和研究步驟(第一講).中華流行病學(xué)雜志,2010,31(3):99-100.
4.Stürmer T,Joshi M,Glynn RJ,et al.A review of the application of propensity score methods yielded increasing use,advantages in specific settings,but not substantially different estimates compared with conventional multivariable methods.Journal of Clinical Epidemiology,2006,59(5):437-447.
5.Rosenbaum PR,Rubin DB.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70(1):41-55.
6.鄭亮,夏結(jié)來(lái),王素珍,等.非隨機(jī)化臨床試驗(yàn)中傾向指數(shù)的應(yīng)用.現(xiàn)代預(yù)防醫(yī)學(xué),2009,36(15):2805-2809.
7.Hullsiek KH,Louis TA.Propensity score modeling strategies for the causal analysis of observational data.Biostatistics,2002,3(2):179-193.
8.Austin PC,Mamdani MM.A comparison of propensity score methods:a case-study estimating the effectiveness of post-AM statin use.Stat Med,2006,25(30):2084-2106.
9.王永吉,蔡宏偉,夏結(jié)來(lái),等.傾向指數(shù)常用研究方法(第二講).中華流行病學(xué)雜志,2010,31(5):104-105.
10.Tu WZ,Zhou XH.A bootstrap confidence interval procedure for the treatment effect using propensity score subclassification.Health Services and Outcomes Research Methodology,2002,3(2):135-147.
11.Rosenbaum PR,Rubin DB.Reducing bias in observational studies using subclassification on the propensity score.Journal of the American Statistical Association,1984,79(387):16-524.
12.Brookhart MA,Schneeweiss S,Rothman KJ,et al.Variable selection for propensity score models.Prac Epidemiol,2006,163(12):1149-1156.