北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(100191) 李嘉琛 余燦清 呂 筠 李立明
在流行病學(xué)研究中常常要進行不同組間率的比較,如果各比較組之間的重要協(xié)變量(如性別、年齡)分布不同,那么直接計算粗率并比較會受到混雜的影響。直接標準化是控制混雜最為常用的方法之一,該方法計算簡便、容易理解,得到了廣泛的應(yīng)用。但當需要調(diào)整的因素分層較多時,會出現(xiàn)有些層人數(shù)過少的情況,此時難以精確估計層別率。此外,對于年齡這類連續(xù)型協(xié)變量,必須轉(zhuǎn)化為分類變量才能用于標化,可能帶來殘余混雜。多重回歸分析可以同時控制多個混雜因素,利用模型的預(yù)測功能計算調(diào)整均數(shù)或率的思想很早就已出現(xiàn),由最初的一般線性模型推廣到廣義線性模型[1]。然而這些方法在實際研究中的應(yīng)用還不是很多,一個可能的原因是其計算過程并不直觀,結(jié)果不易解釋?;谀P偷闹苯訕藴驶蓪⒒貧w分析與加權(quán)平均的思想相結(jié)合,可以發(fā)揮兩者的優(yōu)勢。利用logistic回歸計算直接標準化率主要有兩種不同的計算方法,目前應(yīng)用還不是很廣泛,本文將對其進行介紹,探討其特點和性質(zhì),比較不同方法的優(yōu)勢與不足,為研究者選擇分析方法提供參考。
基于回歸進行標準化的基本思想是利用回歸模型的預(yù)測來代替直接標準化法中層別率的估計,再以標準人口的構(gòu)成作為權(quán)重進行加權(quán)平均。其前提假設(shè)是回歸模型可以正確反映因變量與自變量間的關(guān)系。使用y表示二分類的結(jié)局變量,x為用于比較的分組變量,z表示混雜,則回歸模型可以表示為:logitπ=f(x,z),f(x,z)代表自變量的線性函數(shù)。在logistic模型中,概率經(jīng)過了非線性連接函數(shù)的轉(zhuǎn)換,在加權(quán)平均計算時有兩種不同的方法,分別是對層別預(yù)測率進行加權(quán)平均和對層別預(yù)測logit進行加權(quán)平均。
1.對預(yù)測率進行加權(quán)平均
在各比較組按混雜因素分層后,利用回歸方程計算各層的預(yù)測結(jié)局概率,再以標準人口構(gòu)成為權(quán)重進行加權(quán)平均:P=∑wiPi,其中wi代表第i層的權(quán)重,Pi代表第i層的預(yù)測結(jié)局概率。上述過程適用于所有要調(diào)整的變量均為分類變量的情形。有時協(xié)變量中包含連續(xù)變量,而我們又不希望將其轉(zhuǎn)化分類變量損失信息,此時可以計算邊際預(yù)測率[2]。“邊際”的含義是在用回歸方程計算預(yù)測概率時,除要比較的分組變量以外,所有協(xié)變量的取值并不固定,而是使用標準人群的觀察值。某一組(x=k)的邊際預(yù)測率計算過程如下:首先要給定一個標準人群數(shù)據(jù)集,該數(shù)據(jù)集要包含每一個體的所有協(xié)變量取值。將所有人的x取值固定為k,其他協(xié)變量取值保持不變,計算每一個體的預(yù)測結(jié)局概率,求出預(yù)測率的算數(shù)平均數(shù)即為該組的標化率:
(1)
其中n為標準人群的人數(shù),zj為第j人的協(xié)變量取值。由計算過程可以看出,邊際預(yù)測率在個體層面上預(yù)測結(jié)局概率,再以相等的權(quán)重1/n進行加權(quán)平均,因此其含義與直接標準化一致,可以解釋為在標準人群的協(xié)變量分布下的結(jié)局事件概率。
2.對預(yù)測logit進行加權(quán)平均
(2)
其中n為標準人群的人數(shù),zj為第j人的協(xié)變量取值。
3.標化率的標準誤和置信區(qū)間
在不同的方法中,標準化率置信區(qū)間的估計方法也有所不同。直接標化法和對預(yù)測概率加權(quán)平均法計算的置信區(qū)間為標化率點估計值加減標準誤倍數(shù)的形式(Wald置信區(qū)間)。然而對概率而言,這種以點估計值為中心的對稱的置信區(qū)間往往是不合理的[5]。對logit加權(quán)平均的方法則是計算標化logit的Wald置信區(qū)間,再轉(zhuǎn)換為概率的區(qū)間。由于logit比概率P更有可能服從正態(tài)分布,因此有研究者認為這種方法在統(tǒng)計學(xué)上更為合適[3]。
4.軟件實現(xiàn)
當調(diào)整的變量均為分類變量時,可以直接利用統(tǒng)計軟件輸出模型的回歸系數(shù)估計值以及協(xié)方差矩陣來計算標準化率和置信區(qū)間。當存在連續(xù)協(xié)變量時,需要計算邊際預(yù)測率,Stata 11增加了“margins”命令可以便捷地實現(xiàn)這一計算[5]。SAS本身沒有對應(yīng)的過程,不過有研究者編寫了宏,可用于計算邊際預(yù)測率,并且提供了多種置信區(qū)間的估計方法[5]。
利用回歸模型可以計算控制混雜后的因變量預(yù)測值,這一過程也被稱為“調(diào)整”或“校正”?;谀P偷恼{(diào)整預(yù)測值分為兩類,一類是固定分組變量和協(xié)變量取值,計算條件均數(shù)或概率,稱為條件預(yù)測值(conditional prediction),協(xié)變量通常是取樣本或某個人群的平均數(shù);另一類是固定分組變量取值,保持協(xié)變量的實際觀察值,計算個體的平均調(diào)整預(yù)測值,稱為邊際預(yù)測值(marginal prediction)[2,6-8]。在線性回歸模型中,兩者的結(jié)果一致,而在非線性模型中結(jié)果不同,一些研究對兩類方法進行了比較[2,6-7,9]。調(diào)整與直接標準化的概念存在區(qū)別和聯(lián)系,有時會令人困惑。
兩種標準化的計算方法雖是基于同樣的回歸模型,卻會得出不相等的結(jié)果。對預(yù)測概率進行加權(quán)平均(邊際預(yù)測率)是被許多研究者所接受的計算方法。對層別logit加權(quán)平均的方法自提出后也已被一些研究所采用[10-11],但還沒有研究者將其與邊際預(yù)測率、直接標化率進行比較。下面通過實例分析來說明兩種方法的計算過程,并展示出兩種方法標化結(jié)果的差異。
利用中國慢性病前瞻性研究(China Kadoorie Biobank)基線調(diào)查數(shù)據(jù)[12]分析教育程度與吸煙的關(guān)系。以教育程度為自變量,分為大學(xué)及以上、大學(xué)以下兩組;吸煙為二分類結(jié)局變量,分為當前每日吸煙與其他兩組。直接計算兩組的粗吸煙率,大學(xué)及以上者為21.0%,大學(xué)以下者為26.6%。在分析中發(fā)現(xiàn),不同教育程度人群的性別構(gòu)成不同,而性別與吸煙行為關(guān)聯(lián)較強。為了控制性別因素的影響,按性別分層計算吸煙率,結(jié)果見表1。為進行綜合比較,合并全部樣本作為標準人群,進行直接標準化。首先采用傳統(tǒng)的計算方法,直接估計兩組的層別吸煙率,經(jīng)加權(quán)平均計算后得出標化率。
表1 不同教育程度人群分性別吸煙率
建立吸煙率與教育和性別的回歸方程:logitP=1.1481×edu+4.1992×gender-4.8574,其中edu代表學(xué)歷水平,取值為0和1,以大學(xué)及以上組(edu=0)為參照;gender為性別,取值為0和1,以女性為參照(gender=0)。分別用兩種基于logistic回歸的方法計算標化率,各層權(quán)重以及層別率和層別logit的預(yù)測值見表2。
表2 按性別分層的權(quán)重以及層別率、層別logit
表3 不同方法計算標化吸煙率的比較(%)
表3顯示了幾種直接標準化法的結(jié)果比較,并利用兩組的標化率計算了關(guān)聯(lián)強度指標OR值和RR值。從兩組粗率的比較可以看出,大學(xué)及以上學(xué)歷的人吸煙率低于大學(xué)以下的人。由于低學(xué)歷者中女性比例較高,而女性吸煙率遠低于男性,從理論上講性別的混雜會使關(guān)聯(lián)強度被低估。采用任何一種方法進行標準化后,RR值和OR值均增大,說明這三種方法都對混雜偏倚起到了一定的控制作用。在本例中吸煙并不是一個罕見事件,因此OR值并不能很好地近似RR值[13]。直接標化法與對率加權(quán)平均方法的結(jié)果基本相同,這是由于直接計算的層別率與使用logistic模型計算的層別率高度一致(表2),表明在本例中模型對數(shù)據(jù)的擬合是比較好的。
由于樣本中大學(xué)以下人數(shù)比例較大(97.7%),合并后標準人群的性別構(gòu)成十分接近大學(xué)以下人群,所以大學(xué)以下組的標化率理應(yīng)與粗率相差不大,直接標準化和對預(yù)測率加權(quán)平均方法得到的結(jié)果都是如此。而對logit加權(quán)平均法得到的大學(xué)以下組的調(diào)整吸煙率為12.0%,這顯然不是標準人口構(gòu)成下的大學(xué)以下人群吸煙率,出現(xiàn)這種現(xiàn)象的根源就是ln(P/1-P)和P的非線性關(guān)系。在這里,12.0%和4.2%只能理解為對直接標化率的有偏差的估計值,并沒有現(xiàn)實意義。如果錯誤地將其理解為直接標化率,那么當前每日吸煙者的比例將被嚴重低估。理論分析表明,當協(xié)變量與結(jié)局關(guān)聯(lián)較強時,對logit加權(quán)平均法得到的調(diào)整率與直接標化率相差較大,在本例中,混雜因素性別與吸煙率關(guān)聯(lián)極強(OR=67),因此兩種基于回歸的標準化方法結(jié)果有明顯的差別。
通過比較,可以總結(jié)兩種基于logistic回歸的標準化方法的特點:邊際預(yù)測率與傳統(tǒng)的直接標準化法一致,結(jié)果容易理解,得到的置信區(qū)間以率的點估計值為中心;對logit進行加權(quán)平均的方法可以得到非對稱的置信區(qū)間,利用其調(diào)整率計算出的OR值等于模型估計的OR值。其不足之處在于其結(jié)果并不等于直接標化率,當混雜因素與結(jié)局關(guān)聯(lián)較強時,用這種方法估計直接標準化率會產(chǎn)生較大偏差。
基于多重回歸的標準化在調(diào)整連續(xù)變量、控制多個混雜因素時具有優(yōu)勢,傳統(tǒng)的直接標準化對分層因素各水平的所有組合分別估計結(jié)局概率,相當于考慮所有可能的交互作用,而回歸模型可以幫助我們忽略其中一些沒有意義的交互作用,得到比較精確的層別率估計值。以往有人認為邊際預(yù)測率只能以合并樣本為標準人群,也就是只能進行樣本內(nèi)部調(diào)整[6],然而實際上并非如此,利用回歸進行標準化可以使用外部的標準人群,從而實現(xiàn)不同研究之間的比較。
使用回歸模型進行標準化同樣要注意一些問題。首先,與傳統(tǒng)的直接標準化法相同,當各比較組的層別率間比較出現(xiàn)明顯差異甚至交叉時,不宜計算一個綜合的標化率,此時權(quán)重的選擇會成為影響最終各組標化率比較的主要因素,是否適宜進行標準化可以通過檢驗?zāi)P椭械慕换ロ梺砼袛郲14]。對于結(jié)果的理解要正確,標化率不再反映實際水平,是假定在特定協(xié)變量分布人群中的預(yù)測概率。與直接標準化不同的是,利用模型進行標準化的前提假設(shè)是回歸模型可以正確估計層別率,因此能夠較好擬合數(shù)據(jù)的回歸方程是必要的。
本文介紹了兩種基于logistic回歸的標準化方法,在一般情況下,兩者都可以用于估計直接標準化率。但是當調(diào)整的因素與結(jié)局關(guān)聯(lián)很強時,對logit進行加權(quán)平均的方法會造成誤導(dǎo),計算邊際預(yù)測率是更好的選擇。由于基于回歸的調(diào)整率計算方法較多,研究者應(yīng)具體說明所使用的方法以及選擇的標準人群,使讀者能正確理解研究結(jié)果。
[1] Lee J.Covariance adjustment of rates based on the multiple logistic regression model.J Chronic Dis,1981,34(8):415-426.
[2] Lane PW,Nelder JA.Analysis of covariance and standardization as instances of prediction.Biometrics,1982,38(3):613-621.
[3] Roalfe AK,Holder RL,Wilson S.Standardisation of rates using logistic regression:a comparison with the direct method.BMC Health Serv Res,2008,8(1):275.
[4] Flanders WD,Rhodes PH.Large sample confidence intervals for regression standardized risks,risk ratios,and risk differences.J Chronic Dis,1987,40(7):697-704.
[5] Zou GY.Assessment of risks by predicting counterfactuals.Stat Med,2009,28(30):3761-3781.
[6] Wilcosky TC,Chambless LE.A comparison of direct adjustment and regression adjustment of epidemiologic measures.J Chronic Dis,1985,38(10):849-856.
[7] Muller CJ,MacLehose RF.Estimating predicted probabilities from logistic regression:different methods correspond to different target populations.Int J Epidemiol,2014,43(3):962-970.
[8] Graubard BI,Korn EL.Predictive margins with survey data.Biometrics,1999,55(2):652-659.
[9] Chang IM,Gelman R,Pagano M.Corrected group prognostic curves and summary statistics.J Chronic Dis,1982,35(8):669-674.
[10]Ursano RJ,Kessler RC,Stein MB,et al.Suicide Attempts in the US Army During the Wars in Afghanistan and Iraq,2004 to 2009.JAMA Psychiatry,2015,72(9):153-159.
[11]Gilman SE,Bromet EJ,Cox KL,et al.Sociodemographic and career history predictors of suicide mortality in the United States Army 2004-2009.Psychol Med,2014,44(12):2579-2592.
[12]李立明,呂筠,郭彧,等.中國慢性病前瞻性研究:研究方法和調(diào)查對象的基線特征.中華流行病學(xué)雜志,2012,33(3):249-255.
[13]李鵬聲,梁融,周舒冬,等.應(yīng)用logistic回歸模型間接估計RR/PR的方法探討.中國衛(wèi)生統(tǒng)計,2014,31(6):949-951.
[14]Freeman DH Jr,Holford TR.Summary rates.Biometrics,1980,36(2):195-205.