山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計教研室(030001)
李 金 劉小琴 曹紅艷 張巖波△
?
潛在類別分析在出生缺陷高危人群識別中的應(yīng)用*
山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計教研室(030001)
李金劉小琴曹紅艷張巖波△
【提要】目的應(yīng)用潛在類別分析(latent class analysis,LCA)對具有不同出生缺陷相關(guān)因素分布特征的人群進(jìn)行分類,識別出出生缺陷高危人群,為采取有重點、有針對性的干預(yù)措施提供依據(jù)。方法選取近親結(jié)婚、親屬缺陷兒、自然流產(chǎn)史、既往缺陷兒、孕期發(fā)熱、孕期感冒、居住地存在污染源、孕期用藥、育齡9個出生缺陷相關(guān)因素作為顯變量,進(jìn)行潛在類別分析,識別出潛在類別,進(jìn)而對人群進(jìn)行分類。結(jié)果當(dāng)潛在類別數(shù)目為4時模型擬合最佳,依據(jù)各因素在4個潛在類別中的條件概率的分布特征,將類別1~類別4分別命名為:一般人群組、家族缺陷史組、孕期感冒發(fā)熱組、單純用藥組。對個體進(jìn)行聚類后,4類人群的出生缺陷率比較,χ2值為3099.254,P<0.001。不同潛在類別人群缺陷率有差別。家族缺陷史組(73.7%),感冒發(fā)熱組(3.8%),單純用藥組(2.5%),一般人群組(1.0%)缺陷率依次降低,其中家族缺陷史組缺陷率最高,提示家族缺陷史組人群為出生缺陷高危人群,應(yīng)該有重點有針對地進(jìn)行干預(yù)。結(jié)論潛在類別分析可以應(yīng)用于出生缺陷高危人群識別中。依據(jù)各因素在潛在類別中的條件概率的分布特征進(jìn)行人群的分型,通過比較不同類別人群的缺陷率的差異,識別出生缺陷高危人群,揭示出生缺陷預(yù)防的重點人群和內(nèi)容,為制定出生缺陷預(yù)防措施提供依據(jù)。
潛在類別模型出生缺陷出生缺陷危險因素
出生缺陷(birth defect,BD)也稱先天畸形,是指嬰兒出生前的身體結(jié)構(gòu)由于各種因素的作用,引起的胚胎或胎兒在發(fā)育過程中發(fā)生的解剖學(xué)結(jié)構(gòu)或功能上的異常改變。出生缺陷不僅帶給孩子痛苦、給家庭帶來嚴(yán)重的負(fù)擔(dān),也是公共衛(wèi)生問題,影響經(jīng)濟(jì)發(fā)展和人們正常生活。我國是出生缺陷的高發(fā)國家之一,而山西省更是我國出生缺陷的高發(fā)省份之一[1]。因此,以山西省出生缺陷高發(fā)地區(qū)為研究地點,以出生缺陷危險因素在人群分布特征為研究重點,揭示人群出生缺陷危險因素的分布特征,對制定出生缺陷防控干預(yù)策略和提高人口質(zhì)量具有重要意義。出生缺陷危險因素涉及廣泛,各種研究指標(biāo)呈現(xiàn)復(fù)雜且具有“高維度”的特點,同時各指標(biāo)間可能存在相關(guān)性,對這些因素進(jìn)行的研究,不僅涉及單個變量的效應(yīng),也包括一組相關(guān)變量的整體效應(yīng)?,F(xiàn)有對出生缺陷的研究更多側(cè)重于危險因素的單獨效應(yīng),而較少關(guān)注相關(guān)因素之間的局部獨立效應(yīng)。潛在類別分析是探討存在統(tǒng)計學(xué)關(guān)聯(lián)的分類外顯變量背后的類別潛變量的一種統(tǒng)計學(xué)技術(shù)。較之傳統(tǒng)方法獨具優(yōu)勢,它既能針對分類變量進(jìn)行分析,彌補(bǔ)了傳統(tǒng)聚類分析僅能處理連續(xù)變量的缺陷,又能反映單變量效應(yīng)或一組相關(guān)變量的整體效應(yīng),達(dá)到“降維”的效果[2-4]。通過對出生缺陷危險因素進(jìn)行潛在類別分析,將具有不同缺陷因素分布特征的人群分型,識別出出生缺陷高危人群,從而采取有針對性的措施,對出生缺陷的控制與預(yù)防具有重要的意義。本研究將潛在類別分析方法應(yīng)用于出生缺陷高危人群識別中,通過對具有不同出生缺陷相關(guān)因素分布特征的人群進(jìn)行分類,進(jìn)一步分析具有不同群組人群的出生缺陷率的差異,識別出出生缺陷高危人群,揭示出生缺陷預(yù)防的重點人群和內(nèi)容,為針對性地制定預(yù)防措施提供依據(jù)?,F(xiàn)將研究結(jié)果報告如下。
1.數(shù)據(jù)來源
研究資料來源于山西醫(yī)科大學(xué)科研基地——山西省計生委科研所出生缺陷監(jiān)測基地。調(diào)查對象為2006年1月1日-2008年12月31日山西省平定縣、代縣、紛陽市、懷仁縣、中陽縣、交口縣6個縣(市)所有的出生兒母親及其家屬。本次調(diào)查共回收調(diào)查問卷36917份,其中有效問卷36716份,有效問卷率達(dá)99.46%。
2.研究因素
本研究基于山西省六縣市出生缺陷情況調(diào)查表的調(diào)查結(jié)果,同時查閱相關(guān)文獻(xiàn)找出出生缺陷人群的危險因素[5-6],對各因素與缺陷結(jié)果進(jìn)行單因素卡方檢驗,選取關(guān)聯(lián)性由大到小排序的前9個因素選入模型進(jìn)行分析,9個因素詳見表1。
表1 研究因素賦值方法
3.統(tǒng)計方法
(1) 潛在類別分析的基本模型
潛在類別模型包括潛在類別概率(latent class probabilities)和條件概率(conditional probabilities)兩種類型參數(shù)。假設(shè)有三個外顯變量A、B、C,其水平數(shù)分別為I、J、K,且其彼此之間不相互獨立。若存在某一具有T個潛類別的潛變量X,該變量不僅可以解釋A、B、C三者間的關(guān)系,而且在X的每個類別中可維持A、B、C這三個外顯變量的局部獨立性,即為潛在類別分析,則其基本的潛在類別模型為:
(1)
(2) 參數(shù)估計
潛在類別分析主要采用極大似然法(maximum likelihood,ML)進(jìn)行參數(shù)估計,其迭代過程中常用的算法有最大期望法(expectation-maximization,EM)、牛頓-拉普森(Newton-Raphson,NR)和Fisher計分法等,其中以EM算法最為常用。
(3) 模型評價
模型評價的主要工作就是找出包含較少參數(shù)、簡潔,又具有較好擬合優(yōu)度的模型。現(xiàn)得到廣泛使用的評價指標(biāo)有:Pearsonχ2值、似然比χ2值、Akaike信息準(zhǔn)則(AIC)和Baysian信息準(zhǔn)則(BIC)等。其中Pearsonχ2值和似然比χ2值所對應(yīng)的P值大于0.05,表明模型擬合得好;AIC 和BIC 統(tǒng)計量值越小,則意味著模型擬合得越好。有研究指出當(dāng)樣本量以數(shù)千計時BIC 指標(biāo)更可靠,否則AIC 更佳[7]。
(4) 個體的潛在分類
在確定模型后,需要將各觀察值分類到適當(dāng)?shù)臐撛陬悇e當(dāng)中,以說明觀察值的后驗類別屬性,即潛在聚類分析。潛在聚類分析是在一定的概率模型之下,利用估計所得的潛類別概率和潛類別中各外顯變量的條件概率計算每種外顯變量組合分類到各潛類別的后驗概率,然后依據(jù)后驗概率的大小決定該組合的個體應(yīng)歸入的潛類別。后驗概率的計算公式為:
(2)
(5) 統(tǒng)計分析軟件
本研究的潛在類別分析采用Mplus 5.1軟件,其他統(tǒng)計學(xué)分析采用SPSS17.0軟件完成。
1.模型擬合結(jié)果
表2列出了9個模型的分析結(jié)果,可以看出隨著類別數(shù)目的增多,Pearsonχ2值和似然比卡方(G2)值逐漸減小。BIC值在模型1-cluster到模型4-cluster依次下降,從模型5-cluster又開始逐步上升。本研究調(diào)查樣本n=36716,屬于大樣本,所以模型擬合指標(biāo)以BIC為主,故選取模型4-cluster為最佳模型。
表2 不同類別數(shù)的模型的擬合指標(biāo)
2.參數(shù)估計結(jié)果及類別的命名
以潛在類別數(shù)目為4作為最優(yōu)模型,進(jìn)一步獲得模型的參數(shù)估計結(jié)果,即各出生缺陷相關(guān)因素在4個潛在類別上的條件概率與潛在類別概率,如表3。
表3 各因素在四個潛在類別上的條件概率與潛在類別概率
從條件概率來看,類別1在9個危險因素中回答“無”的條件概率均遠(yuǎn)遠(yuǎn)高于回答“有”的概率,可見類別1中不存在明顯的危險因素分布特征,可將類別1命名為:一般人群組;類別2在親屬缺陷兒、既往缺陷兒兩個危險因素回答“有”的條件概率分別為0.559、0.727,明顯高于其他3個類別,故可將類別2命名為:家族遺傳史組;類別3在孕期發(fā)熱、孕期感冒兩個危險因素回答“有”的條件概率均為1.000,明顯高于在其他3個類別中的條件概率,故可將此類別命名為:孕期感冒發(fā)熱組;類別4中,孕期用藥因素回答“有”的條件概率為0.631,在四個類別中最大,而在其它8個危險因素回答“無”的條件概率均遠(yuǎn)高于回答“有”的概率,故可將類別4命名為:單純用藥組。
從潛在類別概率來看,類別1到類別4的潛在類別概率分別為0.85169,0.00312,0.01536和0.12983,總和為1,其中類別1所占比重最大。
3.分類結(jié)果
潛在聚類分析是潛在類別分析的最后一步,即利用潛在類別概率和條件概率計算每個個體分類到各潛類別的后驗概率,見公式(2),然后依據(jù)后驗概率的大小決定該組合的個體應(yīng)歸入的潛類別。舉例如表4。
表4 潛在類別分析的分類結(jié)果舉例
表4列出了樣本的前9個個體分類的結(jié)果,以第一個個體{000101010}為例,被分到第一個潛在類別的概率為0.005,被分到第二個潛在類別的概率為0.077,被分到第三個潛在類別的概率為0.000,被分到第四個潛在類別的概率為0.918,被分到第四個潛在類別的概率最高,所以被分到第四類別——單純用藥組中。同理我們也可以把其他的危險因素組合分到相應(yīng)的潛變量類別中。分類結(jié)果:一般人群組32043人,家族缺陷史組76人,孕期感冒發(fā)熱組650人,單純用藥組3947人。
4.四組潛在類別人群缺陷率比較
表5 各潛在類別人群缺陷率比較
經(jīng)卡方檢驗,χ2=3099.254,P<0.001。不同潛在類別人群缺陷率有差別。經(jīng)多個實驗組間的兩兩比較卡方檢驗,α=0.007,其中家族缺陷史組、孕期感冒發(fā)熱組、單純用藥組與一般人群組之間的卡方檢驗P值均小于0.001,可以認(rèn)為家族缺陷史組、孕期感冒發(fā)熱組、單純用藥組的缺陷率高于一般人群組;家族遺傳史組與一般人群組、孕期感冒發(fā)熱組、單純用藥組之間的卡方檢驗P值均小于0.001,可以認(rèn)為家族缺陷史組缺陷率高于一般人群組、孕期感冒發(fā)熱組和單純用藥組。家族缺陷史組缺陷率高達(dá)73.7%,提示家族遺傳史組為出生缺陷兒發(fā)生高危人群,應(yīng)該成為出生缺陷預(yù)防的重點干預(yù)對象。
針對出生缺陷人群調(diào)查數(shù)據(jù)“異質(zhì)性,高維度,關(guān)系復(fù)雜和變量屬性不同”的特點,傳統(tǒng)統(tǒng)計方法僅關(guān)注于危險因素的單獨效應(yīng),而忽略相關(guān)危險因素的整體效應(yīng),顯得略有不足。因此,本文采用潛在類別模型,以山西省出生缺陷高發(fā)地區(qū)的人群調(diào)查為例,研究各類影響因素在人群分布特征的分型,找出多個危險因素的潛在類別,提取多個危險因素的綜合效應(yīng),實現(xiàn)了出生缺陷高危人群的異質(zhì)性分類,為出生缺陷病因?qū)W研究提供理論依據(jù),并為下一步制定出生缺陷防控干預(yù)策略提供方法支持。
出生缺陷的預(yù)防主要分三級。一級預(yù)防主要是危險因素的消除與避免接觸,二級預(yù)防主要是早發(fā)現(xiàn)、早診斷,主要通過孕期檢查來實現(xiàn)。這兩級預(yù)防如果不采取有重點,分人群的針對性干預(yù)方案,一方面會導(dǎo)致人群的接受度與執(zhí)行效率的低下,另一方面,會大大增加甚至是浪費人力、物力與財力,最終缺陷率的降低也不一定明顯。本文采用潛在類別分析,將人群分為:家族缺陷史組、孕期感冒發(fā)熱組、單純用藥組與一般人群組。進(jìn)而可針對具有不同出生缺陷相關(guān)因素分布特征的人群進(jìn)行針對性的干預(yù)措施,這樣,措施與人群具有的危險因素相符,會大大增加人群對干預(yù)措施的接受度,同時節(jié)省人力、物力和財力。家族缺陷史組人群(具有既往缺陷兒與親屬缺陷兒危險因素為特征的人群)是出生缺陷的高危人群,針對這類人群,地方的計生醫(yī)學(xué)部門可以殘疾兒童父母或親屬的再生育審批工作為出發(fā)點,尋找到遺傳疾病高發(fā)人群,組織專家對曾生育過缺陷兒計劃再生育的夫妻和親屬有過出生缺陷兒的夫妻進(jìn)行缺陷再發(fā)風(fēng)險詳細(xì)分析研究,指導(dǎo)應(yīng)避免接觸相關(guān)危險因素和如何去消除或避免出生缺陷的發(fā)生,從根本上杜絕出生缺陷的可能。另一方面,針對此類高危人群進(jìn)行孕前出生缺陷監(jiān)測、實驗室檢查和孕期的排畸檢查。減少高危人群缺陷的發(fā)生率,就能有效地降低總?cè)毕萋实陌l(fā)生。孕期感冒發(fā)熱組與單純用藥組人群缺陷率均高于一般人群組,所以孕期感冒、發(fā)熱與孕期用藥危險因素的針對干預(yù)應(yīng)該引起重視。可對孕前婦女進(jìn)行孕前教育與指導(dǎo),指導(dǎo)其健康生活,提高免疫,降低孕期的感冒、發(fā)熱和其他疾病的發(fā)生。如果患病,若能憑抵抗力自愈的話,應(yīng)避免用藥。如必須用藥,則應(yīng)該在醫(yī)師指導(dǎo)下謹(jǐn)慎安全用藥。
潛在類別分析是探討存在統(tǒng)計學(xué)關(guān)聯(lián)的分類外顯變量背后的類別潛變量的一種統(tǒng)計學(xué)技術(shù)。較之傳統(tǒng)方法獨具優(yōu)勢,它能針對分類變量進(jìn)行分析,彌補(bǔ)了傳統(tǒng)聚類分析僅能處理連續(xù)變量的缺陷;能反映單變量效應(yīng)或一組相關(guān)變量的整體效應(yīng)。本文應(yīng)用潛在類別分析,依據(jù)出生缺陷危險因素分布特征的不同,實現(xiàn)了人群的分類和高危人群的識別,為出生缺陷的預(yù)防與干預(yù)策略制定提供依據(jù)與思路。本次調(diào)查數(shù)據(jù)僅僅涉及山西省出生缺陷高發(fā)的六縣(市)三年的相關(guān)數(shù)據(jù),因此論文中給出的潛變量分類結(jié)果不一定能全面反映出全省乃至全國出生缺陷人群高危特征分布的特點。另外,在參數(shù)估計結(jié)果中,近親結(jié)婚、自然流產(chǎn)史、周邊污染源、育齡四個因素在四個潛在類別之間的條件概率差異不明顯,可能是因為選取的9個因素之間相關(guān)性不是很強(qiáng)。
結(jié)合目前有關(guān)育齡婦女的信息采集電子化,預(yù)防工作者可利用LCA對高危地區(qū)人群進(jìn)行分類,依據(jù)人群出生缺陷相關(guān)因素分布特征進(jìn)行有針對性地干預(yù),有效減低出生缺陷發(fā)生率。
[1]中華人民共和國衛(wèi)生部.中國出生缺陷防治報告2012.www.moh.gov.cn.
[2]張巖波.潛變量分析.北京:高等教育出版社,2009:220-246.
[3]邱唯政.潛在類別模型的原理與技術(shù).北京:教育科學(xué)出版社,2008:14-86.
[4]曾憲華,肖 琳,張巖波.潛在類別分析原理及實例分析.中國衛(wèi)生統(tǒng)計,2013,30(6):815-817.
[5]郭興萍,王裕,宋春英,等.山西省 6縣(市)出生缺陷發(fā)生相關(guān)因素分析.中國計劃生育學(xué)雜志,2011,19(6):342-346.
[6]賀亞琴,鄭玉華,王曉成,等.出生缺陷影響因素的meta分析.中國計劃生育學(xué)雜志,2012,20(4):233-236.
[7]Lin TH,Dayton CM.Model selection information criteria for non-nestedlatent class models.Journal of Education and Behavioral Statistics,1997,22(3):249-264.
(責(zé)任編輯:劉壯)
Application of Latent Class Analysis in the Identification of High-risk Population in Birth Defects
Li Jin,Liu Xiaoqin,Cao Hongyan,et al.
(Shanxi Medical University(030001),Taiyuan)
ObjectiveThis topic expect to identify the high-risk population in birth defects,by classifing the people with different distribution characteristics of risk factors of birth defects,applicating the latent class analysis(LCA),and to provide decision support for birth defects prevention and treatment.MethodsLatent class analysis was used to identify the latent class and classify the population with different distribution characteristics of risk factors for birth defect on the basis of nine key indicator variables:intermarriage,abnormal child-bearing of relatives,history of natural abortion,abnormal child-bearing history,catching a cold during pregnancy,fever during pregnancy,environment pollution resources near residence,drug use during pregnancy,mother′s child-bearing age.Then chi-square test was used to compare the rate of birth defects of different types of mothers and identify the high-risk groups of birth defects.ResultsPopulation of risk factors for birth defects could be divided into four types which were named:family heredity history group(the mothers were mainly characterized by abnormal child-bearing history and relatives having a baby with birth defect),cold and fevers group(the mothers were mainly characterized by catching a cold and having a fever during pregnancy),medication group(the mothers were mainly characterized by taking medicine during pregnancy),and general group(the mothers did not have distinct distribution characteristics of risk factors).The rate of birth defects of different types of mothers were as follows:family heredity history group(73.7%);cold and fevers group(3.8%);medication group(2.5%);general group(1.0%),and the difference was statistically significant(χ2=3099.254,P<0.001).We could find that the family heredity history group had a highest rate of birth defects,so the family heredity history group was the high-risk population in birth defects.ConclusionLatent class model can be used to classify the population basis on the different distribution characteristics of risk factors and identify the high-risk population in birth defects,which indicate the main contents and the most important tasks in birth defects prevention and provide decision support for birth defects prevention and treatment.
Latent class analysis;Birth defects;Risk factors of birth defects
張巖波,E-mail:sxmuzyb@126.com
*:國家自然科學(xué)基金資助項目(71403156)