安徽醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(230032) 朱 玉 王 靜 何 倩
廣義估計(jì)方程在SPSS統(tǒng)計(jì)軟件中的實(shí)現(xiàn)*
安徽醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(230032) 朱 玉 王 靜△何 倩
△通訊作者:王靜,E-mail:jwang2006@126.com
在實(shí)際研究中,常常需要處理縱向資料(longitudinal data)、重復(fù)測(cè)量資料(repeated measurement data)、整群抽樣設(shè)計(jì)資料(cluster sampling design data)、聚集性資料(clustered data)或是多層次結(jié)構(gòu)資料(hierarchical data)等。這些資料由于部分觀(guān)察值之間含有非獨(dú)立的或相關(guān)的信息,不能用傳統(tǒng)的一般線(xiàn)性模型進(jìn)行分析,需要特殊的統(tǒng)計(jì)方法進(jìn)行處理。廣義估計(jì)方程是其中一種處理方法,廣義估計(jì)方程(generalized estimating equations,GEEs)是 Liang和 Zeger(1986)在廣義線(xiàn)性模型的基礎(chǔ)上提出來(lái)用于縱向資料的處理中,近年來(lái)廣義估計(jì)方程的應(yīng)用范圍得到了擴(kuò)展。下面介紹廣義估計(jì)方程及其在SPSS17.0統(tǒng)計(jì)軟件中的實(shí)現(xiàn)。
以常見(jiàn)的重復(fù)測(cè)量資料為例,簡(jiǎn)單介紹廣義估計(jì)方程原理。假設(shè)Yij表示為第i個(gè)觀(guān)察對(duì)象的第j個(gè)觀(guān)察值(i=1,…,k,j=1,…,t),相應(yīng)的協(xié)變量記為 Xijm(m=1,…,p)。各觀(guān)察對(duì)象間是獨(dú)立的,但同一觀(guān)察對(duì)象內(nèi)的觀(guān)察值間存在相關(guān)。構(gòu)建如下模型:
其中g(shù)(·)為聯(lián)接函數(shù),通過(guò)它把Yij的邊際期望表達(dá)成協(xié)變量Xijm的線(xiàn)性組合。其協(xié)方差矩陣為Vi:
其中Ai為對(duì)角矩陣,其對(duì)角線(xiàn)上的元素是h(μij)=υijΦ,表示Y的均數(shù)μ與方差υ的函數(shù)關(guān)系,Ri(α)稱(chēng)為作業(yè)相關(guān)矩陣。按照Liang&Zeger的定義,構(gòu)建廣義估計(jì)方程:
作業(yè)相關(guān)矩陣是廣義估計(jì)方程中的一個(gè)重要概念,表示的是應(yīng)變量的各次重復(fù)測(cè)量值兩兩之間相關(guān)性的大小。作業(yè)相關(guān)矩陣常有以下幾種形式〔6〕:
(1)等相關(guān),又稱(chēng)可交換的相關(guān)(exchangeable correlation),或復(fù)對(duì)稱(chēng)相關(guān)(compound symmetry correlation),即任意兩次觀(guān)測(cè)之間的相關(guān)是相等的。
(2)相鄰相關(guān),即只有相鄰的兩次觀(guān)察值間有相關(guān)。
(3)自相關(guān)(autocorrelation),即相關(guān)與間隔次數(shù)有關(guān),相隔次數(shù)越長(zhǎng),相關(guān)關(guān)系越小。
(4)不確定型相關(guān)(unstructured correlation),即相關(guān)矩陣非對(duì)角線(xiàn)上的元素均不等。
(5)獨(dú)立(independent),即不相關(guān)(uncorrelated),即應(yīng)變量之間不相關(guān)。
隨著廣義估計(jì)方程理論的提出與完善,SAS、SPSS和Stata等統(tǒng)計(jì)分析軟件包紛紛增設(shè)了廣義估計(jì)方程模塊,SPSS軟件從15.0版本增設(shè)了此功能。下面結(jié)合SPSS統(tǒng)計(jì)軟件自帶的資料(wheeze_steubenville.sav)介紹廣義估計(jì)方程在SPSS17.0中的實(shí)現(xiàn)。
該資料是空氣污染對(duì)兒童健康影響的縱向研究的一個(gè)子集,收集了俄亥俄州兒童在7歲、8歲、9歲和10歲的喘息性狀況,并記錄了母親在研究第一年是否吸煙。研究目的是分析兒童的年齡和母親吸煙情況對(duì)兒童喘息性狀況是否是有影響。該資料包括537例兒童,變量(id)表示每個(gè)兒童個(gè)體的編號(hào),變量(age)表示每個(gè)兒童個(gè)體的測(cè)量時(shí)的年齡,變量(wheeze)表示每個(gè)兒童個(gè)體測(cè)量時(shí)的喘息性狀況,是二分類(lèi)資料(“1”代表發(fā)生,“0”代表沒(méi)有發(fā)生),變量(smoker)表示每個(gè)兒童個(gè)體的母親在研究第一年吸煙情況,是二分類(lèi)資料(“1”代表吸煙,“0”代表不吸煙)。資料在錄入SPSS時(shí)按照長(zhǎng)形格式錄入。
其分析步驟如下:
在廣義估計(jì)方程的窗口菜單設(shè)置好后,運(yùn)行程序,得到分析結(jié)果。下面給出主要的分析結(jié)果。表1給出模型中自變量的檢驗(yàn)結(jié)果,可見(jiàn)age有統(tǒng)計(jì)學(xué)意義,而smoker沒(méi)有統(tǒng)計(jì)學(xué)意義。表2給出了具體的回歸系數(shù)值和一些統(tǒng)計(jì)檢驗(yàn)量,age等于7歲、8歲、9歲分別與10歲比較偏回歸系數(shù)為0.375、0.429、0.348并且都有統(tǒng)計(jì)學(xué)意義,表明與10歲相比7歲、8歲、9歲是一個(gè)高發(fā)年齡段,smoker等于“0”與等于“1”比較偏回歸系數(shù)為-0.261,表明母親吸煙是個(gè)危險(xiǎn)因素,但是這種關(guān)系沒(méi)有統(tǒng)計(jì)學(xué)意義。表3給出了重復(fù)測(cè)量資料的組內(nèi)作業(yè)相關(guān)矩陣。
表1 模型中自變量的檢驗(yàn)
表2 廣義估計(jì)方程的參數(shù)估計(jì)
表3 作業(yè)相關(guān)矩陣
此例選擇了不確定型相關(guān)系數(shù)矩陣作為組內(nèi)作業(yè)相關(guān)矩陣,不確定型相關(guān)系數(shù)矩陣是最常見(jiàn)的作業(yè)相關(guān)矩陣,但不一定是最合適的作業(yè)相關(guān)矩陣。從相關(guān)系數(shù)矩陣可見(jiàn),組內(nèi)相關(guān)系數(shù)(0.309~0.441)可能不合適,所以可以重新定義作業(yè)相關(guān)矩陣為獨(dú)立或是其他相關(guān)矩陣,然后通過(guò)Quasi Likelihood under Independence Model Criterion(QIC)統(tǒng)計(jì)量的大小來(lái)決定合適的作業(yè)相關(guān)矩陣,在同一個(gè)模型中統(tǒng)計(jì)量(QIC)值越小模型越合適。此例在相同的模型下,不同作業(yè)相關(guān)矩陣的QIC值見(jiàn)表4,等相關(guān)作業(yè)矩陣與不確定性相關(guān)作業(yè)矩陣的QIC值最小,雖然不同作業(yè)相關(guān)矩陣間QIC值差別不大。
表4 不同作業(yè)相關(guān)矩陣的QIC值
廣義估計(jì)方程在廣義線(xiàn)性模型的基礎(chǔ)上,引入了作業(yè)相關(guān)矩陣。在模型擬合之前應(yīng)定義好作業(yè)相關(guān)矩陣的形式,模型擬合完畢時(shí)會(huì)計(jì)算出具體的相關(guān)矩陣。只要模型本身建立的正確,即聯(lián)接函數(shù)選擇正確,即使作業(yè)相關(guān)矩陣定義有誤,所得到模型的固定部分參數(shù)的估計(jì)仍然是一致的,所以作業(yè)相關(guān)矩陣定義有誤對(duì)參數(shù)的估計(jì)影響也不大。但是定義正確的作業(yè)相關(guān)矩陣,有助于研究者對(duì)資料的了解。在建立廣義估計(jì)方程時(shí)可以使用統(tǒng)計(jì)量(QIC)來(lái)幫助選擇合適的作業(yè)相關(guān)矩陣結(jié)構(gòu)和模型,用SPSS擬合模型時(shí),會(huì)給出統(tǒng)計(jì)量(QIC)的值,根據(jù)統(tǒng)計(jì)量(QIC)值的大小確定合適的作業(yè)相關(guān)矩陣〔7,8〕。另外,廣義估計(jì)方程能夠處理含有缺失值或是不平衡設(shè)計(jì),無(wú)需對(duì)缺失的數(shù)據(jù)進(jìn)行處理。但是廣義估計(jì)方程只能處理2水平資料,對(duì)于2水平以上的資料需要用多水平模型來(lái)完成〔9〕。
1.Liang KY,Zeger SL.Longitudinal data analysis using generalized linear models.Biometrika,1986,73(1):13-22.
2.Zeger SL,Liang KY,Albert PS.Models for longitudinal data:a generalized estimating equation approach.Biometrics,1988,44(4):1049-1060.
3.陳峰.非獨(dú)立數(shù)據(jù)的統(tǒng)計(jì)分析方法.見(jiàn):方積乾,陸盈主編.現(xiàn)代醫(yī)學(xué)統(tǒng)計(jì)學(xué).北京:人民衛(wèi)生出版社,2002:25-60.
4.陳啟光.縱向研究中重復(fù)測(cè)量資料的廣義估計(jì)方程分析.中國(guó)衛(wèi)生統(tǒng)計(jì),1995,12(1):22-25.
5.張文彤,田曉燕.基于廣義估計(jì)方程的多重應(yīng)答資料統(tǒng)計(jì)分析方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(3):139-141.
6.陳峰,任仕泉,陸守曾.非獨(dú)立試驗(yàn)的組內(nèi)相關(guān)與廣義估計(jì)方程.南通醫(yī)學(xué)院學(xué)報(bào),1999,19(4):359-362.
7.馮麗云,James Cui.縱向數(shù)據(jù)準(zhǔn)似然獨(dú)立準(zhǔn)則在GEE模型中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(4):369-372.
8.Pan W.Akaike's information criterion in generalized estimating equations.Biometrics,2001,57(1):120-125.
9.陳峰.廣義估計(jì)方程和多水平模型.見(jiàn):饒克勤主編.衛(wèi)生統(tǒng)計(jì)方法與應(yīng)用進(jìn)展.第2卷.北京:人民衛(wèi)生出版社,2008:153-170.
2009年安徽省人文重點(diǎn)項(xiàng)目基金(2009sk192zd)、安徽醫(yī)科大學(xué)學(xué)科帶頭人基金、安徽醫(yī)科大學(xué)博士科研基金。
·學(xué)術(shù)討論·
中國(guó)衛(wèi)生統(tǒng)計(jì)2011年2期