蚌埠醫(yī)學(xué)院預(yù)防醫(yī)學(xué)系(233030)
宋 健 吳學(xué)森△ 張 杰 張玉媛 陳 雪
三種統(tǒng)計學(xué)模型在糖尿病個體患病風(fēng)險預(yù)測中的應(yīng)用*
蚌埠醫(yī)學(xué)院預(yù)防醫(yī)學(xué)系(233030)
宋 健 吳學(xué)森△張 杰 張玉媛 陳 雪
目的 探討logistic回歸、BP神經(jīng)網(wǎng)絡(luò)和決策樹分析模型在預(yù)測個體2型糖尿病患病風(fēng)險中的應(yīng)用。方法 分別應(yīng)用logistic回歸、BP神經(jīng)網(wǎng)絡(luò)與決策樹建立2型糖尿病預(yù)測模型,通過受試者工作特征曲線評價模型的預(yù)測效能。結(jié)果 共550名糖尿病患者和1100名非糖尿病患者納入本次研究。logistic回歸、BP神經(jīng)網(wǎng)絡(luò)和決策樹分析模型的預(yù)測一致率分別為80.8%、84.1%和81.1%。3種模型ROC曲線下面積(AUC)分別為0.739、0.777和0.737。BP神經(jīng)網(wǎng)絡(luò)的AUC與logistic模型和決策樹分析模型的均有統(tǒng)計學(xué)差異(P<0.05)。結(jié)論 BP神經(jīng)網(wǎng)絡(luò)在預(yù)測個體患2型糖尿病方面具有更好的預(yù)測效能。
2型糖尿病 logistic回歸 BP神經(jīng)網(wǎng)絡(luò) 決策樹分析
2型糖尿病是嚴(yán)重危害人類健康的重大公共衛(wèi)生問題,全世界約有超過3.5億人患有2型糖尿病[1]。中國是世界上糖尿病患病人數(shù)最多的國家,患病率高達(dá)11.6%[2]。有效地對個體進(jìn)行糖尿病風(fēng)險評估,可以篩選出高危人群,并通過一系列的行為和生活方式干預(yù),減少糖尿病及相關(guān)并發(fā)癥的發(fā)生。數(shù)據(jù)挖掘技術(shù)是近些年來廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域的一種新的分析方法,在疾病診斷、預(yù)后、風(fēng)險評估等方面具有良好的應(yīng)用價值[3-5]。數(shù)據(jù)挖掘技術(shù)可以充分利用已有數(shù)據(jù)的信息,從具有重復(fù)性、多樣性及不規(guī)范性等特點(diǎn)的復(fù)雜的醫(yī)學(xué)數(shù)據(jù)中提取出有價值的信息,并為臨床決策提供幫助[6-7]。其中,應(yīng)用最廣泛的有采用誤差反向傳遞(back propagation,BP)學(xué)習(xí)方法的BP神經(jīng)網(wǎng)絡(luò)和決策樹分析模型。本文采用慢性病社區(qū)調(diào)查數(shù)據(jù),探討B(tài)P神經(jīng)網(wǎng)絡(luò)與決策樹分析模型在糖尿病個體風(fēng)險預(yù)測中的應(yīng)用價值,并與傳統(tǒng)的logistics回歸進(jìn)行比較,以求尋找到2型糖尿病風(fēng)險預(yù)測的最佳數(shù)學(xué)模型。
1.資料來源
本課題組于2015年7月至8月,采用橫斷面調(diào)查方法,選擇蚌埠市龍子湖區(qū)共7個社區(qū),以家庭為抽樣單位,共收回有效問卷3077份。調(diào)查內(nèi)容包括兩個方面:問卷調(diào)查及體格和實(shí)驗(yàn)室檢查。采用自行設(shè)計問卷,由經(jīng)過培訓(xùn)的課題組成員對社區(qū)居民進(jìn)行問卷調(diào)查。調(diào)查問卷信息主要包括:受訪者的一般個人及家庭信息及生活行為方式;體格檢查指標(biāo)有身高、體重、腰圍等;實(shí)驗(yàn)室檢查指標(biāo)主要包括:空腹血糖、血脂和糖化血紅蛋白等。數(shù)據(jù)首先錄入到Epidata軟件中,采用雙錄入方式,并逐一核對。
2.相關(guān)變量及定義
(1)體質(zhì)指數(shù)(body mass index,BMI)=體重(kg)/身高(m)2,正常值:18.5≤BMI<24,<18.5或者>24均視為不正常;(2)高血壓:收縮壓/舒張壓≥140/90mmHg和/或已確診為高血壓者;(3)甘油三酯:正常值0.40~1.81mmol/L,超過此范圍均視為不正常;(4)糖化血紅蛋白:正常值小于等于6.5%,大于6.5%視為不正常;(5)腰臀比:正常值男性小于0.9,女性小于0.8;(6)吸煙:包括既往吸煙和正在吸煙的被調(diào)查者;(7)糖尿病:自報患者和新診斷患者,即無自報糖尿病史,但本次測定空腹血糖≥7.0 mmol/L者。
3.統(tǒng)計學(xué)分析
使用SPSS隨機(jī)數(shù)功能將數(shù)據(jù)集按3:1分為訓(xùn)練數(shù)據(jù)和預(yù)測數(shù)據(jù)。訓(xùn)練數(shù)據(jù)用于計算參數(shù)和建立模型,預(yù)測數(shù)據(jù)用于評估預(yù)測效果。
(1)logistic回歸:模型采用最大似然估計前進(jìn)法,入選變量和剔除變量的標(biāo)準(zhǔn)分別是是P<0.05和P>0.10。
(2)BP神經(jīng)網(wǎng)絡(luò):采用SPSS 17.0統(tǒng)計軟件中的神經(jīng)網(wǎng)絡(luò)模塊的多層感知器。輸入層變量為研究所納入的10個自變量,輸出層為是否發(fā)生糖尿病,定義隱藏層數(shù)為1。
(3)決策樹分析:選擇卡方自動交互檢測,使用分割樣本進(jìn)行驗(yàn)證,無交叉驗(yàn)證,樹深度最大值為3。
(4)受試者工作特征曲線(receiver operator characteristic curve,ROC 曲線): 比較ROC曲線下面積(area under curve,AUC),最大者表示預(yù)測價值最佳。AUC值為0.5時,表明無診斷價值,首先要對AUC與0.5的差異進(jìn)行統(tǒng)計學(xué)檢驗(yàn)。AUC越接近1,價值越大。不同模型AUC的比較用統(tǒng)計量為Z的非參數(shù)檢驗(yàn)。所有統(tǒng)計分析均由SPSS 17.0和Medcalc完成,P<0.05被認(rèn)為差異具有統(tǒng)計學(xué)意義。
1.一般情況
共調(diào)查社區(qū)居民3077人。糖尿病患者550人,占調(diào)查對象的17.8%。按1∶2的原則在與病例生活在相同社區(qū)及工作性質(zhì)相近的正常人群中選擇對照,即1100名非糖尿病患者納入此次分析中。本研究所選擇對象中,女性居民占57.7%(952人)略多于男性42.3%(698人)。50歲以上人群占多數(shù),為69.0%。文化程度普遍偏低,大專及以上人群僅有158人,占研究對象的9.6%。被調(diào)查居民中吸煙人群占29.2%。BMI和腰臀比不正常者占很大比例,分別為58.7%和77.7%。有14%的研究對象有糖尿病家族史。具體信息見表1。
表1 調(diào)查對象的一般信息
2.logistic多因素分析
將所研究變量納入分析模型中,共有以下變量具有統(tǒng)計學(xué)意義,分別為年齡、BMI、糖化血紅蛋白、性別、家族史、甘油三酯。結(jié)果見表2。因此建立預(yù)測方程:P=1/(1+e(2.799-0.845×年齡-0.373×BMI-0.885×家族史-2.810×糖化血紅蛋白-0.588×性別-0.679×甘油三酯))。根據(jù)所建方程對預(yù)測集數(shù)據(jù)進(jìn)行預(yù)測,其一致率為80.8%,ROC曲線下面積及95%CI為0.739(0.694~0.781)。
表2 糖尿病風(fēng)險預(yù)測logistic多因素分析結(jié)果
3.BP神經(jīng)網(wǎng)絡(luò)分析結(jié)果
所選自變量敏感度分析結(jié)果表明對糖尿病發(fā)生影響較大的前5位因素依此是糖化血紅蛋白(0.448)、年齡(0.102)、甘油三酯(0.094)、高血壓(0.069)和糖尿病家族史(0.059)。預(yù)測數(shù)據(jù)集結(jié)果顯示,其預(yù)測一致率為84.1%,ROC曲線下面積及95%CI為0.777(0.734~0.817)。
4.決策樹分析
樹的第一層為糖化血紅蛋白,說明糖化血紅蛋白與糖尿病關(guān)聯(lián)性最強(qiáng)。其余進(jìn)入變量依次為年齡、甘油三酯、糖尿病家族史和性別。其預(yù)測的一致率為81.1%,ROC曲線下面積及95%CI為0.737(0.692~0.779)。
5.ROC曲線面積比較
三種模型的ROC曲線下面積與0.5均有統(tǒng)計學(xué)差異(P<0.05)。三種模型的ROC曲線下面積兩兩比較結(jié)果見表3,結(jié)果顯示BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測的ROC曲線下面積與logistic模型(Z=2.847,P=0.0044)和決策樹模型的ROC曲線下面積(Z=3.050,P=0.0023)的差異有統(tǒng)計學(xué)意義。而logistic模型和決策樹模型的AUC(Z=0.306,P=0.7594)的差異沒有統(tǒng)計學(xué)意義。三種模型的ROC曲線見圖1。
表3 三種模型曲線下面積兩兩比較結(jié)果
圖1 三種模型的ROC曲線
1.糖尿病及其風(fēng)險預(yù)測
糖尿病不僅是威脅人類健康的重要疾病,同時也是很多嚴(yán)重疾病的致病因素,如冠心病、腫瘤等[8]。通過特定的數(shù)學(xué)模型進(jìn)行個體糖尿病風(fēng)險預(yù)測,為采取預(yù)防干預(yù)措施提供建議,有助于提高人群的健康水平和生活質(zhì)量。本研究通過調(diào)查問卷所得變量,建立不同模型進(jìn)行了比較,顯示神經(jīng)網(wǎng)絡(luò)模型在預(yù)測上具有良好性能。糖尿病是基因與環(huán)境共同作用的結(jié)果,除了本文所列一些變量外,某些生化標(biāo)志物如炎性因子、脂聯(lián)素、microRNA等也與糖尿病風(fēng)險有關(guān)[9],但檢測這些成分耗時耗費(fèi),并不利于風(fēng)險評估的快速開展。另外,芬蘭等國的糖尿病評分工具,通過一些類似本文的簡易的變量都實(shí)現(xiàn)出了較好的評價效果[9-10]。
2.BP神經(jīng)網(wǎng)絡(luò)模型
BP神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)中有著廣泛的應(yīng)用。徐學(xué)琴通過使用BP神經(jīng)網(wǎng)絡(luò)對全國麻疹的發(fā)病率進(jìn)行了有價值的預(yù)測[11]。國外研究分別通過logistic回歸和神經(jīng)網(wǎng)絡(luò)模型預(yù)測腦外傷手術(shù)術(shù)后院內(nèi)死亡率,神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出明顯的優(yōu)勢[12]。BP神經(jīng)網(wǎng)絡(luò)具有很多優(yōu)點(diǎn),比如具有較強(qiáng)的非線性映射能力,可以合理提取輸入變量和輸出變量之間的規(guī)則,并進(jìn)行修改、容錯等[4]。但同時BP神經(jīng)網(wǎng)絡(luò)也存在一定缺陷,比如對于樣本量的問題,至今沒有明確的公式。關(guān)于隱藏層數(shù)的設(shè)定,多數(shù)研究表明,當(dāng)BP神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)為1時,可以達(dá)到較好地反映數(shù)據(jù)規(guī)律、特征及獲得較好預(yù)測效能的作用。本文作者在探討B(tài)P神經(jīng)網(wǎng)絡(luò)在肺癌并發(fā)癥預(yù)測價值時,比較了不同隱藏層數(shù)的預(yù)測效果,結(jié)果表明隱藏層數(shù)為1時獲得的ROC曲線下面積最大[13],故本研究中BP神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)設(shè)定為1。另外,BP神經(jīng)網(wǎng)絡(luò)無法解釋某個變量的作用方向,而logistic回歸卻能對模型和變量具有很好的解釋性。
3.決策樹模型及其應(yīng)用
決策樹模型運(yùn)算時間短,結(jié)果以樹狀顯示簡單直觀,結(jié)果的分類把握度較準(zhǔn)確。但分類屬性增多情況下,會影響預(yù)測的效果[14]。決策樹模型同BP神經(jīng)網(wǎng)絡(luò)模型類似,也無法判斷某因素的作用方向。以往多數(shù)研究顯示決策樹模型在預(yù)測效能上好于logistic回歸,如決策樹在預(yù)測高血壓患者健康素養(yǎng)中優(yōu)于logistic回歸[15]。而本文在糖尿病預(yù)測中,兩種模型間效果沒有統(tǒng)計學(xué)差異,可能與樹的深度設(shè)置、剪接方法有關(guān),需要在以后的研究中進(jìn)一步探討。
簡潔并快速有效的預(yù)測糖尿病風(fēng)險可以更好地提高全民健康水平。本文研究提示BMI超標(biāo)、年齡偏大、男性、糖尿病家族史、糖化血紅蛋白均是糖尿病的危險因素。通過數(shù)學(xué)模型,利用可快速獲取的信息進(jìn)行預(yù)測,是未來發(fā)展的方向。神經(jīng)網(wǎng)絡(luò)模型在預(yù)測糖尿病個體風(fēng)險上有較好的效果。但在實(shí)際應(yīng)用中,logistic回歸對變量有直觀的解釋,結(jié)果容易解釋。而神經(jīng)網(wǎng)絡(luò)模型和決策樹模型對變量卻沒有很好的解釋能力。所以,實(shí)際應(yīng)用中也應(yīng)結(jié)合各自模型的優(yōu)點(diǎn),以期在公共衛(wèi)生實(shí)踐中取得最好的利用價值。
[1]Nathan DM.Diabetes Advances in Diagnosis and Treatment.JAMA,2015,314(10):1052-1062.
[2]Lu C,Sun W.Prevalence of diabetes in Chinese adults.JAMA.2014,311(2):199-200.
[3]吳偉,郭軍巧,安淑一,等.使用思維進(jìn)化算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)建立腎綜合征出血熱預(yù)測模型.中國衛(wèi)生統(tǒng)計,2016,33(1):27-31.
[4]葉華容,楊怡,林萱,等.BP神經(jīng)網(wǎng)絡(luò)在高頻彩超特征診斷乳腺癌中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2016,33(1):71-72.
[5]Tseng WT,Chiang WF,Liu SY,et al.The application of data mining techniques to oral cancer prognosis.J Med Syst,2015,39(5):59
[6]高明,唐順,徐福文.醫(yī)院數(shù)據(jù)挖掘平臺中X-11-ARIMA預(yù)測模型的應(yīng)用研究.中國衛(wèi)生統(tǒng)計,2016,33(1):139-141.
[7]Gonzalez GH,Tahsin T,Goodale BC,et al.Recent Advances and Emerging Applications in Text and Data Mining for Biomedical Discovery.Brief Bioinform,2016,17(1):33-42.
[8]Leon BM,Maddox TM.Diabetes and cardiovascular disease:Epidemiology,biological mechanisms,treatment recommendations and future research.World J Diabetes,2015,6(13):1246-1258.
[9]張晶,金雪娥.2型糖尿病患病風(fēng)險預(yù)測的研究進(jìn)展.中華實(shí)用診斷與治療雜志,2013,27(9):839-841.
[10]Wannamethee SG,Papacosta O,Whincup PH,et al.The potential for a two-stage diabetes risk algorithm combining non-laboratory-based scores with subsequent routine non-fasting blood tests:results from prospective studies in older men and women.Diabet Med,2011,28(1):23-30.
[11]徐學(xué)琴,杜進(jìn)林,孫寧,等.改進(jìn)的BP 神經(jīng)網(wǎng)絡(luò)模型在麻疹預(yù)測中的應(yīng)用研究.中國現(xiàn)代醫(yī)學(xué)雜,2014,24(31)52-55.
[12]Shi HY,Hwang SL,Lee KT,et al.In-hospital mortality after traumatic brain injury surgery:a nationwide population-based comparison of mortality predictors used in artificial neural network and logistic regression models.J Neurosurg,2013,118(4):746-752.
[13]宋健;logistic回歸模型、神經(jīng)網(wǎng)絡(luò)模型和決策樹模型在肺癌術(shù)后心肺并發(fā)癥預(yù)測中的比較.安徽醫(yī)科大學(xué),2014.
[14]薛允蓮.logistic回歸結(jié)合決策樹技術(shù)在冠心病患者住院費(fèi)用組合分析中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2015,32(6):988-992.
[15]李現(xiàn)文,李春玉,Kim M,等.決策樹與logistic回歸在高血壓患者健康素養(yǎng)預(yù)測中的應(yīng)用.護(hù)士進(jìn)修雜志,2012,27(13):1157-1159.
(責(zé)任編輯:劉 壯)
國家自然科學(xué)基金(81373100)
△ 通信作者:吳學(xué)森,E-mail:xuesenwu@163.com