楊 軍 歐春泉△ 丁 研 陳平雁
空氣污染、氣象等暴露因素的健康效應(yīng)均有一定的持續(xù)性和滯后性〔1-2〕。換言之,人群健康指標(biāo)(如死亡率、發(fā)病率)不僅與當(dāng)天的暴露水平有關(guān),還可能受昨天乃至十多天前暴露的影響。評(píng)價(jià)暴露因素滯后效應(yīng)的方法眾多,如:滑動(dòng)平均法、廣義線性模型等方法,但各有其不足之處。近年來,分布滯后線性模型的提出使得該問題的研究有了很大的進(jìn)展,國外目前普遍運(yùn)用該法研究空氣污染的健康效應(yīng),但該法的應(yīng)用前提是暴露-反應(yīng)關(guān)系呈線性。然而,現(xiàn)實(shí)研究中有的暴露-反應(yīng)關(guān)系呈現(xiàn)非線性,如氣溫效應(yīng)通常呈U型、V型或J型分布〔3〕,并不適合使用該法。分布滯后非線性模型同時(shí)考慮暴露因素的滯后效應(yīng)和暴露-反應(yīng)的非線性關(guān)系。本文將詳細(xì)介紹模型的基本理論,并以實(shí)例闡述其應(yīng)用。
分布滯后線性模型(distributed lag linear models,DLM)由Almon于1965年提出,并應(yīng)用于經(jīng)濟(jì)學(xué)研究〔4〕。2000 年,Schwartz和 Braga等〔2〕將該模型引入環(huán)境健康效應(yīng)的定量化評(píng)估。同時(shí)期Zanobetti〔5〕將廣義相加模型的思想與分布滯后模型思想綜合,提出廣義相加分布滯后模型(generalized additive distributed lag models)。分布滯后非線性模型(distributed lag non-linear models,DLNM)最早在流行病學(xué)研究中提及。2006年Armstrong〔6〕將DLNM引入氣溫健康效應(yīng)研究中,并提出該模型思想。2010年Gasparrin、Armstrong等人進(jìn)一步以廣義線性模型和廣義相加模型等傳統(tǒng)模型的思想為基礎(chǔ),利用交叉基(cross-basis)過程,闡述了分布滯后非線性模型的理論〔7-8〕。本文將從以下5個(gè)步驟對(duì)該模型進(jìn)行介紹。
μ≡E(Y),g是連接函數(shù)族,Y可為多種概率分布,如正態(tài)分布、gamma分布、Poisson分布等;環(huán)境健康效應(yīng)研究中,因變量yt(t=1,2,…,n)通常是人群中某陽性事件的逐日累計(jì)人數(shù)(如每日死亡人數(shù),每日患病人數(shù)等),而自變量xj通常是同期的逐日空氣污染物濃度、溫度、相對(duì)濕度等環(huán)境因子,連接函數(shù)通常采用Poission。uk表示其他混雜因素的線性效應(yīng),βj、γk為相應(yīng)的參數(shù)〔7,9〕。fj表示自變量 xj的各種基函數(shù)(basis function)。通過選擇合適的基函數(shù),可將自變量xj轉(zhuǎn)化成一個(gè)新的變量集,包含在模型的設(shè)計(jì)矩陣中,從而對(duì)其效應(yīng)進(jìn)行估計(jì)。常用的基函數(shù)有正交函數(shù)、線性閾值函數(shù)和樣條函數(shù)等。其中樣條函數(shù)應(yīng)用最廣,如:樣條平滑(smoothing spline),自然三次樣條(natural cubic spline),B樣條(B spline)等,見公式(2):
Zt為n×vx矩陣,是自變量x通過基函數(shù)轉(zhuǎn)換產(chǎn)生的新變量,稱基變量。通過轉(zhuǎn)化能更好描述因變量隨自變量變化的分布,結(jié)果更便于解釋。
由于暴露的影響存在滯后性,當(dāng)天的結(jié)局可能受l天前暴露的影響。為了描述暴露的滯后效應(yīng),對(duì)x自變量進(jìn)行簡(jiǎn)單轉(zhuǎn)換產(chǎn)生n×(L+1)的Q矩陣,即
L是需定義的最長滯后天數(shù),q1·≡x(Q的第一列),l= [0,…,l,…,L]T
這樣,通過給暴露-反應(yīng)關(guān)系添加滯后維度,實(shí)現(xiàn)同時(shí)描述因變量在自變量維度與滯后維度的分布。
分布滯后模型假設(shè)暴露的效應(yīng)存在于某一特定時(shí)間內(nèi),通過對(duì)參數(shù)L設(shè)置不同的值估計(jì)不同滯后時(shí)間的效應(yīng)。以往滯后效應(yīng)的研究,往往簡(jiǎn)單地將每個(gè)滯后時(shí)間與其設(shè)定的相應(yīng)參數(shù)乘積累加。這種模型往往會(huì)產(chǎn)生很高的共線性和相關(guān)性,從而估計(jì)結(jié)果出現(xiàn)偏差、預(yù)測(cè)效能降低。Braga、Schwartz等〔2〕人改進(jìn)的方法是給滯后分布強(qiáng)加某些限制,選擇適當(dāng)?shù)幕瘮?shù)轉(zhuǎn)換。如采用分層的思想,假設(shè)滯后一定區(qū)間內(nèi)有相同的固定效應(yīng),或者使用連續(xù)函數(shù)(正交函數(shù)、樣條函數(shù)等)來描述平滑曲線等,見公式(4):
C為對(duì)滯后向量選擇特定基函數(shù)轉(zhuǎn)換得到的(L+1)×vl矩陣為每個(gè)滯后時(shí)間的線性效應(yīng)的估計(jì)為對(duì)滯后分布所作的限制。
分布滯后非線性模型其算法相當(dāng)復(fù)雜,其核心思想為交叉基。對(duì)自變量與因變量的關(guān)系、滯后效應(yīng)的分布分別選擇合適的基函數(shù),求兩個(gè)基函數(shù)的張力積即得交叉基函數(shù)。具體步驟如下:首先建立因變量與自變量的模型,選擇基函數(shù)定義因變量隨自變量的分布,即公式(2),得到基向量Z;接著為暴露添加新的滯后維度,公式(3),再給矩陣Q每列選擇合適的基函數(shù),這樣得到n×vx×(L+1)的三維序列R,見公式(5):
rij為滯后暴露(qt·)通過基函數(shù)j變換得到,wt是自變量x的交叉基函數(shù)變換。與傳統(tǒng)模型不同,分布滯后非線性模型能同時(shí)描述效應(yīng)在自變量的維度與滯后維度的變化分布。
暴露對(duì)反應(yīng)的影響是非線性的,計(jì)算過程相當(dāng)復(fù)雜、分析結(jié)果包含豐富信息。Gasparrini和Armstrong等人提供了R語言編寫的分布滯后非線性模型軟件包(Package=dlnm)。他們采用三維圖形表達(dá)滯后效應(yīng)的估計(jì)結(jié)果,通過為特定滯后時(shí)間與暴露組合設(shè)定一個(gè)網(wǎng)格,隨著這兩個(gè)坐標(biāo)變化的效應(yīng)值就構(gòu)成一個(gè)形象直觀的3-D圖〔7-8〕。而且特定滯后時(shí)間或特定暴露的滯后效應(yīng)可以通過對(duì)滯后效應(yīng)分布圖進(jìn)行簡(jiǎn)單橫截得到,將每個(gè)滯后時(shí)間的滯后效應(yīng)的貢獻(xiàn)相加便得到累積滯后效應(yīng),其估計(jì)值與標(biāo)準(zhǔn)誤的計(jì)算如式(6),其中)為估計(jì)參數(shù)的方差-協(xié)方差矩陣。
選取廣州市某城區(qū)2003年1月1日至2007年12月31日每日居民死亡數(shù)據(jù),同時(shí)段的氣象數(shù)據(jù)來自國家氣象數(shù)據(jù)共享中心,包括:日均氣溫、氣壓、相對(duì)濕度;自變量還有時(shí)間變量(t=1,2,3,…,1826),用以控制日死亡數(shù)本身的長期變化趨勢(shì)和季節(jié)性,反映其他未加考慮的混雜因素的影響。利用R軟件進(jìn)行分析。
基本模型選擇廣義線性模型擬合每日全死因的死亡人數(shù),通過對(duì)每日平均氣壓、每日平均相對(duì)濕度,時(shí)間變量三次樣條函數(shù)平滑,這些變量的自由度(df)分別為3、3、7/年。這種自由度的選擇在眾多時(shí)間序列研究中被推薦〔7〕。其他影響因素還有年份與節(jié)假日啞變量。滯后時(shí)間與溫度基函數(shù)均選用自然三次樣條函數(shù)。
從所有的結(jié)果來看,相對(duì)危險(xiǎn)度(RR)的分布隨著溫度變化而變化,暴露-反應(yīng)關(guān)系近似V型,27℃為最適溫度(該溫度人群死亡率最低),在此溫度以上,氣溫越高死亡風(fēng)險(xiǎn)越大,在此溫度以下,則氣溫越低死亡風(fēng)險(xiǎn)越大(圖1)。這與國內(nèi)外研究報(bào)道氣溫健康效應(yīng)為非線性相吻合〔3,10〕。
氣溫的影響存在明顯的滯后性和持續(xù)性。高溫的影響持續(xù)一周,而低溫的影響持續(xù)時(shí)間更長,可達(dá)15天(圖1)。高溫(27℃以上)15天的累計(jì)相對(duì)危險(xiǎn)度(RR)為1.042(95%CI:1.010~1.074),即日均氣溫達(dá)27℃以上時(shí),氣溫每升高1℃,造成15日內(nèi)人群死亡率累計(jì)上升4.2%。低溫(27℃以下)的15日累計(jì)RR為1.027(95%CI:1.006~1.048)。
圖1 相對(duì)危險(xiǎn)度(RR)隨溫度與滯后時(shí)間(lag)的變化3-D圖,27℃為參照
雖然劉方和趙耐青〔9-10〕等人介紹了GAM 在氣溫健康效應(yīng)影響評(píng)估中的應(yīng)用,但國內(nèi)普遍采用線性相關(guān)與回歸方法,此種方法一則有悖于死亡人數(shù)在單位時(shí)間通常呈現(xiàn)Poisson分布的特性,二則忽視各觀察點(diǎn)之間存在相關(guān)關(guān)系的特性。
國外眾多研究發(fā)現(xiàn),空氣污染和氣象等環(huán)境因素的影響通常存在滯后性,而傳統(tǒng)單一的模型(如廣義線性模型、廣義相加模型、滑動(dòng)平均法等)只考慮到某一特定時(shí)時(shí)間內(nèi)的效應(yīng),在模型中簡(jiǎn)單地同時(shí)引入連續(xù)數(shù)天的暴露水平,不考慮滯后分布的特點(diǎn),必然產(chǎn)生很高的共線性,導(dǎo)致分析結(jié)果存在不容忽視的偏差。氣溫健康效應(yīng)滯后時(shí)間相當(dāng)長(可達(dá)兩周),該問題尤為突出。
分布滯后線性模型是研究暴露滯后效應(yīng)的好工具,國外已大量應(yīng)用于空氣污染對(duì)健康影響的研究中,但該模型只限于呈線性的暴露-反應(yīng)關(guān)系研究。分布滯后非線性模型在分布滯后線性模型的基礎(chǔ),先建立基于傳統(tǒng)方法的基本模型,可為廣義線性模型、廣義相加模型以及廣義估計(jì)方程等;接著對(duì)暴露-反應(yīng)和滯后效應(yīng)在時(shí)間維度的分布給予某些限制,從而估計(jì)不同滯后時(shí)間的暴露-反應(yīng)關(guān)系,傳統(tǒng)模型可視為該模型的一個(gè)特例。該模型不僅限于空氣污染或氣溫對(duì)人類健康影響的研究,還可推廣應(yīng)用于任何探究預(yù)測(cè)變量與結(jié)局關(guān)系及滯后效應(yīng)的時(shí)間序列研究,甚至有望應(yīng)用于病例-對(duì)照、前瞻性研究等臨床試驗(yàn)中〔7〕。
目前分布滯后非線性模型面臨的問題主要在于基函數(shù)、節(jié)點(diǎn)的數(shù)目與位置、最大滯后天數(shù)、最佳模型等的選擇上缺乏公認(rèn)的標(biāo)準(zhǔn)。這些問題均有待深入研究。
1.Zanobetti A,Schwartz J,Samoli E,et al.The temporal pattern of mortality responses to air pollution:a multicity assessment of mortality dis-placement.Epidemiology,2002,13(1):87-93.
2.Braga A,Zanobetti A,Schwartz J.The time course of weather-related deaths.Epidemiology,2001,12(6):662-667.
3.Curriero F,Heiner K,Samet J,et al.Temperature and mortality in 11 cities of the eastern United States.Am J Epidemiol,2002,155:80-87.
4.Almon S.The distributed lag between capital appropriations and expenditures.Econometrica,1965,33:179-196.
5.Zanobetti A,Schwartz J,Ryan M.Generalized additive distributed lag models:quantifying mortality displacement.Biostatistics,2000,1(3):279-292.
6.Armstrong B.Models for the relationship between ambient temperature and daily mortality.Epidemiology,2006,16(6):624-631.
7.Gasparrini A,Armstrong B,Kenward MG.Distributed lag non-linear models.Statistics in Medicine,2010,29(21):2224-2234.
8.Wood S.Generalized additive models:an introduction with R.Chapman& Hall/CRC Press:London/Boca Raton,2006.
9.董英,趙耐青,湯軍克.廣義相加模型在氣溫效應(yīng)研究中的應(yīng)用.中國衛(wèi)生統(tǒng),2008,25(2):144-146.
10.劉方,張金良,陸晨,等.北京地區(qū)氣溫與急性冠心病的時(shí)間序列研究.環(huán)境與健康雜志,2005,22(4):252-255.