楊建洲 趙正元 文師吾 譚紅專
血吸蟲病是嚴(yán)重危害人民身體健康、阻礙社會經(jīng)濟發(fā)展的寄生蟲病。雖然血吸蟲病感染的直接原因是人們在生產(chǎn)、生活中接觸疫水所致,但是影響血吸蟲病流行的因素卻十分復(fù)雜。社會因素、生物因素和自然因素都起著十分重要的作用。以往對這些因素的研究僅局限于對個人或村莊這樣單一水平上的研究〔1-3〕,沒有考慮到個人和村莊不同層次的存在。此時,仍采用傳統(tǒng)的多元回歸模型進行分析,可能由于不滿足模型的基本假定,而失去參數(shù)估計的有效性,損失了數(shù)據(jù)所蘊含的部分信息,估計的標(biāo)準(zhǔn)誤就會變得太小,犯第一類錯誤的風(fēng)險就加大了〔4〕。多水平模型將原來單一的隨機誤差分解到相應(yīng)的各個水平上,因此具有多個隨機誤差項并估計相應(yīng)的殘差方差及協(xié)方差,構(gòu)建與數(shù)據(jù)層次結(jié)構(gòu)相適應(yīng)的復(fù)雜誤差結(jié)構(gòu),極大改善了模型擬合的效果。模型形式上仍有多元回歸方程部分,但殘差卻分解到不同的層次結(jié)構(gòu)〔5〕。
本次研究數(shù)據(jù)是采用整群抽樣調(diào)查得到的,數(shù)據(jù)具有嵌套式結(jié)構(gòu),個人處于村莊之中。不同村莊水平上的流行因素對村莊內(nèi)的個體的影響都是一致的,而不同村莊之間又是不同的。所以本次研究應(yīng)用適用于這種層次結(jié)構(gòu)的多水平logistic回歸模型和傳統(tǒng)logistic回歸分析來比較,探討多水平模型分析方法在血吸蟲病的流行因素研究中的優(yōu)越性。
1.資料來源 2006年從湖南省2 391個未控制流行村中在分層基礎(chǔ)上隨機抽取能反映湖南省血吸蟲病不同流行類型和程度的16個行政村為本次研究的地區(qū),共調(diào)查6歲以上常住居民7 482人。覆蓋洲垸型、洲灘型、垸內(nèi)型、丘陵型四種主要流行類型,也包括一、二、三、四類主要流行程度的村。
2.統(tǒng)計分析 利用兩水平logistic回歸模型和傳統(tǒng)logistic回歸模型來分析血吸蟲病發(fā)生差異在不同層次間的分布,并嘗試檢驗不同層次變量的影響。將所有的數(shù)據(jù)錄入Excel并導(dǎo)入HLM6.4和SPSS 13.0進行兩水平模型分析和傳統(tǒng)的logistic回歸分析。
1.零模型(null model) 首先進行零模型分析,結(jié)果如表1。
表1 零模型效應(yīng)的估計
結(jié)果表明,模型的總變異中27%來自村莊水平,73%來自個人水平。說明村莊水平的影響因素對血吸蟲病的發(fā)生起到非常重要的作用,這就有必要建立多水平模型來進行分析。
2.多水平模型分析
使用兩水平logistic隨機截距模型進行多因素分析,在模型無法自動剔除沒有意義的變量且全部引入又出現(xiàn)迭代失敗的情況下,我們采用逐個引入,多次循環(huán),直至模型中的變量全部有意義為止(α=0.05)的方法,多水平模型方程如下,分析結(jié)果見表2。
對于一個隨機效應(yīng)μ0j=0的村莊而言,其血吸蟲病感染的對數(shù)發(fā)生比的期望值是-3.23,那么對應(yīng)的血吸蟲病感染的發(fā)生比的期望值是exp(-3.23)=0.0396,對應(yīng)的血吸蟲病的感染率的期望值就是1/[1+exp(3.23)]=0.0381。村莊間變異(τ00)的卡方檢驗結(jié)果表明不同村莊之間差異有統(tǒng)計學(xué)意義。計算跨級相關(guān)(組內(nèi)相關(guān)系數(shù)):
表2 血吸蟲病流行因素多水平模型分析結(jié)果
在其他條件均為參照組時,也就是性別為女性,年齡在6~歲、職業(yè)是其他職業(yè)、該村莊無飲用溝塘水的家庭,4月份平均降雨量<100mm、6月份平均溫度<27℃地區(qū)的人群的血吸蟲感染的期望對數(shù)比為-5.73,對應(yīng)的血吸蟲病感染的發(fā)生比是exp(-5.73)=0.003 25,對應(yīng)的血吸蟲病的感染率1/[1+exp(5.73)]=0.003 24即0.324%(表3)。
表3 最終模型方差分析表
根據(jù)以上公式可知,水平2村莊間變異的總方差被解釋了58.20%。
3.傳統(tǒng)logistic回歸分析與多水平模型分析結(jié)果的比較
對單因素分析有意義的變量,使用傳統(tǒng)的logistic回歸進行多因素分析,采用逐步前進法,以0.05作為引入變量的顯著性水準(zhǔn),0.10作為剔除變量的顯著性水準(zhǔn)。多水平模型分析得出的有意義的變量在logistic回歸分析中均有意義,但在logistic回歸分析中有意義的幾個變量,如人均收入、無害化廁所比例,卻沒有進入多水平模型方程。并且,在logistic回歸分析中OR值的95%可信區(qū)間較多水平模型的結(jié)果都小。
傳統(tǒng)方法由于不能在模型中分解出各層次的誤差,即不能區(qū)分村莊之間和個體之間的誤差,而不能提供該部分的層次結(jié)構(gòu)信息,對資料的分析可能造成不真實的結(jié)果,加之本次研究的流行因素主要來自村莊水平,因此使用多水平模型來分析是可行的。最終模型對水平2(村莊水平)的總方差被解釋了58.20%,說明這些影響血吸蟲病流行的村級因素納入模型很有必要。
多水平logistic模型在處理具有層次結(jié)構(gòu)數(shù)據(jù)時,考慮了數(shù)據(jù)間的相關(guān)性,能夠分析固定效應(yīng)和隨機效應(yīng),對研究因素可做出準(zhǔn)確的估計和假設(shè)檢驗。另外,多水平logistic模型分析包含的水平是群體所有水平中的隨機樣本,因此分析結(jié)果對應(yīng)的是整個群體的水平,而不只是當(dāng)前研究中的抽樣水平。傳統(tǒng)logistic回歸模型只能研究個體層面的信息和其固定效應(yīng),無法分析組群方面信息,當(dāng)數(shù)據(jù)存在層次結(jié)構(gòu)時對于結(jié)果不能給出合理的解釋。而且分析包含的水平,就是整個群體的水平,因此分析結(jié)果只是對應(yīng)于當(dāng)前研究中的因子水平。因此,在分析具有層次結(jié)構(gòu)的數(shù)據(jù)時是否需用多水平模型進行分析,首先要看其組內(nèi)相關(guān)性的大小(是否存在組內(nèi)聚集性)和是否是隨機抽樣的樣本(是否對總體進行推論),如果不存在數(shù)據(jù)聚集性或者不是隨機樣本,則用一般統(tǒng)計模型就可以了。
本研究通過對傳統(tǒng)單一水平的logistic回歸和多水平模型的結(jié)果比較發(fā)現(xiàn),單一水平的logistic回歸由于沒有考慮到數(shù)據(jù)層次間的差異和數(shù)據(jù)在高水平上的聚集性,過高地估計了某些變量的作用,增大了犯Ⅰ類錯誤的概率,錯誤地提高了置信區(qū)間的水平。也就是說把一些本來沒有統(tǒng)計學(xué)意義的因素,得出了有意義的結(jié)論。這更加說明了對于具有層次結(jié)構(gòu)的數(shù)據(jù),應(yīng)當(dāng)考慮到高水平單位的聚集性,使用多水平的分析方法,以得出更準(zhǔn)確、更符合實際的結(jié)論〔6〕。
多水平模型研究和發(fā)展的歷史還不長,已經(jīng)廣泛應(yīng)用于教育學(xué)、經(jīng)濟學(xué)、社會學(xué)等領(lǐng)域〔7-8〕,在醫(yī)學(xué)特別是流行病學(xué)中應(yīng)用前景也十分廣闊〔9-10〕。大量的流行病學(xué)研究資料都是具有層次結(jié)構(gòu)的數(shù)據(jù),使用多水平模型進行研究,不僅能對資料作出正確的分析,得出合理的結(jié)論,而且能夠大大促進多水平分析方法的發(fā)展,豐富流行病學(xué)的研究方法。
1.Yi XH,Manderson L.The social and economic context and determinants of schistosomiasis japonica.Acta tropica,2005,96:223-231.
2.伍衛(wèi)平,林丹丹,胡飛,等.應(yīng)用多元回歸分析鄱陽湖區(qū)影響日本血吸蟲病傳播的因素.中國寄生蟲學(xué)與寄生蟲病雜志,2003,21(3):164-166.
3.陳朝,周曉農(nóng),姚振濤,等.血吸蟲病人群感染危險因素空間關(guān)系分析.中國血吸蟲病雜志,2005,17(5):324-327.
4.Goldstein H.Multilevel Statistical Models.2nd.New York:John Wiley,1995.
5.李曉松,等譯.多水平分析模型.四川科學(xué)技術(shù)出版社,2000:24-30.
6.Barbara H.Public Health Application Comparing Multilevel Analysis with logistic Regression Immunization Coverage among Long-Term Care Facility Residents.AEP,2005,15(10):749-755.
7.Jin X.Determinants of salary growth in Shenzhen,China:an analysis of formal education,on-the-job training,and adult education with a threelevel model.Economics of Education Review,2002,21:557-557.
8.Poelmans S,Sahibzada K.A multi-level model for studying the context and impact of work-family policies and culture in organizations.Human Resource Management Review,2004,14:409-431.
9.葉冬仙,李明伏,謝冬華,等.湖南省剖宮產(chǎn)率影響因素的多水平模型分析.中國衛(wèi)生統(tǒng)計,2010,27(4):341-344.
10.徐倩倩,胡云,俞華,等.不同地區(qū)已婚育齡婦女生殖道感染及其多水平影響因素分析.中國衛(wèi)生統(tǒng)計,2011,28(3):240-243.