宋華翠 辛鐵君 戴翔 劉洋春子 張瑩 高莉潔
【摘要】目的:分析某企業(yè)高血壓主要危險因素,建立發(fā)病預測模型。方法:利用某企業(yè)2006-2016年體檢的大數(shù)據(jù),采用廣義估計方程篩選高血壓病的危險因素,采用BP神經(jīng)網(wǎng)絡模型建立高血壓發(fā)病預測模型。結(jié)果:BP神經(jīng)網(wǎng)絡模型對各自變量對預測高血壓的重要性依次為體檢年齡、體重指數(shù)、性別、混合型高脂血癥、飲酒習慣、高甘油三酯血癥、吸煙習慣、飲食習慣,經(jīng)過驗證對高血壓病有較好的預測能力。結(jié)論:BP神經(jīng)網(wǎng)絡模型能夠較好的解決多因子復雜疾病預測問題,具有較好的預測效果。本研究對高血壓病的主要危險因素的重要性排序,可對該疾病干預提供依據(jù)。
【關鍵詞】BP神經(jīng)網(wǎng)絡;高血壓;危險因素;變量
Abstract Objective: To analyze the main risk factors and incidence prediction of hypertension in an enterprise. Methods: Generalized estimation equations were used to analyze single-factor analysis and multi-factor analysis, and BP neural network model was used to analyze the physical examination data of 180363 hypertensive patients detected by 512,000416 persons. Results: The importance of the main risk factors of chronic diseases was ranked, and the importance of BP neural network model to the prediction of hypertension in each variable was medical examination age, body mass index, gender, mixed hyperlipidemia, drinking habits, and high triglyceride blood. Disease, smoking habits, eating habits. The ability to recognize high blood pressure is better than the ability to high blood pressure. Conclusion: The BP neural network model can better solve the multi-factor complex disease prediction problem, has a better prediction effect and the importance ranking of the main risk factors, and provides a basis for developing disease intervention.
Keywords: BP neural network, hypertension, risk factors, variables
前言
高血壓是心血管疾病的主要危險因素,近年來我國高血壓患病率呈明顯上升趨勢,高血壓是由多基因遺傳和多種環(huán)境不良因素交互作用而成,其長期發(fā)展可導致動脈粥樣硬化病情的發(fā)展及形成加速,引發(fā)心肌缺血、缺氧及壞死,形成冠心病。多個危險因素的聯(lián)合作用導致了高血壓疾病的發(fā)生,影響慢性病發(fā)生的危險因素它們之間往往存在復雜的非線性關系。BP(Back Propagation)網(wǎng)絡是1986年由Rumelhart和McCelland為首的科學家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一。BP網(wǎng)絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數(shù)學方程。人工神經(jīng)網(wǎng)絡(artifieial neural networks,ANN)可以更好地揭示這些變量間的關系,通過數(shù)據(jù)挖掘可以分析多個變量對結(jié)果變量的作用大小,更好地揭示這些變量間的關系,預測疾病發(fā)生概率。本研究就是運用這種模型預測高血壓。
1 對象與方法
1.1 研究對象
選取2006年1月-2016年12月,年齡18歲以上某企業(yè)員工在職與退休員工51.2416萬人次的體檢數(shù)據(jù)。
1.2 研究內(nèi)容
本研究從年齡、性別、行為生活方式、體檢監(jiān)測指標等方面,進行高血壓風險因素相關性分析,對有統(tǒng)計學意義的變量建立預測模型,并進行自變量的重要性分析。
1.3 研究方法
為確定本研究中所使用的變量,分別對各年組高血壓進行廣義估計方程分析單因素分析和多因素分析,對有統(tǒng)計學意義的變量建立預測模型,并進行自變量的重要性分析,篩選有意義的變量納入BP神經(jīng)網(wǎng)絡模型,采用多層感知器方法進行高血壓模型構(gòu)建,通過對比ROC曲線下面積驗證預測效果,
1.3.1 廣義估計方程(generalized estimating equations,GEEs) 是Liang和Zeger (1986)在廣義線性模型的基礎上提出來主要被應用于水平數(shù)為兩水平的縱向觀察資料的分析,用于分析存在相關性數(shù)據(jù)的一種回歸模型。
1.3.2 ?BP 神經(jīng)網(wǎng)絡模型人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)是通過對人腦的基本單元——神經(jīng)元的建模和聯(lián)結(jié),來探索模擬人腦神經(jīng)系統(tǒng)功能的模型,其信息處理是通過信息樣本對神經(jīng)網(wǎng)絡的訓練,使其具有人的大腦的記憶、辨識能力,完成各種信息處理功能。它的學習規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡的權(quán)值和閾值,使網(wǎng)絡的誤差平方和最小。BP神經(jīng)網(wǎng)絡模型拓撲結(jié)構(gòu)包括輸入層(input)、隱層(hide layer)和輸出層(output layer)(如圖1所示)。
2 結(jié)果
2.1 篩選高血壓危險因素
廣義估計方程分析服從二項分布,選取聯(lián)接函數(shù)為logit,工作相關矩陣選擇獨立,以高血壓作為因變量(表1),進行單變量廣義估計方程分析,結(jié)果如表2。經(jīng)單變量廣義估計方程分析,在α=0.05的檢驗水準下,高血壓體檢年齡、性別、體重指數(shù)、飲食習慣、飲酒、吸煙、運動習慣、血糖異常、有高甘油三酯血癥、有高膽固醇血癥、有混合型高脂血癥11個變量均有統(tǒng)計學意義,P<0.05。將高血壓單因素分析有統(tǒng)計學意義的高血壓11個變量,最終進入方程模型的變量分別為體檢年齡、性別、體重指數(shù)、飲食習慣、飲酒、吸煙、運動習慣、有高甘油三酯血癥、有混合型高脂血癥9個變量進一步進行多變量廣義估計方程分析。選取聯(lián)接函數(shù)為二項logit,工作相關矩陣選擇獨立,進行廣義估計方程分析,分析結(jié)果見表高血壓表見表3。分析結(jié)果顯示,高血壓體檢年齡、性別、體重指數(shù)、飲食習慣、飲酒、吸煙、有高甘油三酯血癥、有混合型高脂血癥8個變量有統(tǒng)計學意義,其中體檢年齡、體重指數(shù)、性別、飲酒、有高甘油三酯血癥、有混合型高脂血癥是高血壓的危險因素,OR值分別為1.076(1.075,1.077)、1.189(1.184,1.194)、1.921(1.847,1.998)、1.625(1.578,1.672)、1.354(1.318,1.391)、1.628(1.566,1.691)。
2.2 構(gòu)建BP神經(jīng)網(wǎng)絡模型
將高血壓危險因素廣義估計方程多因素分析有統(tǒng)計學意義的8個變量納入BP神經(jīng)網(wǎng)絡模型,采用多層感知器方法進行模型構(gòu)建,本研究采用自動體系結(jié)構(gòu)建立BP神經(jīng)網(wǎng)絡模型。
對原始數(shù)據(jù)文件進行隨機化抽樣,將數(shù)據(jù)劃分為"訓練樣本(50%)"、"檢驗樣本(30%)"、"保持樣本(20%)"3個區(qū)塊,高血壓如圖1所示。為了隨機過程可重復,事先指定固定種子一枚,設置隨機數(shù)固定種子為91919876。
輸入層包含8個變量體檢年齡、性別、體重指數(shù)、飲食習慣、飲酒習慣、吸煙習慣、有高甘油三酯血癥、有混合型高脂血癥,共18個單位數(shù)。輸出層為因變量高血壓,有2個單位數(shù)。隱藏層數(shù)為1,隱藏單位數(shù)為6,激活函數(shù)為雙曲正切。輸出層為因變量高血壓,有2個單位數(shù),激活函數(shù)為Softmax,錯誤函數(shù)為交叉熵。樣本分類預測結(jié)果,如圖2所示,本研究構(gòu)建的高血壓神經(jīng)網(wǎng)絡預測模型,模型誤差在1個連續(xù)步驟中未出現(xiàn)優(yōu)化減少現(xiàn)象,模型按預定中止。模型在3個分區(qū)中的不正確預測百分比較接近。模型分類表,軟件默認采用0.5作為正確和錯誤的概率分界,將3大分區(qū)樣本的正確率進行交叉對比,如圖3所示。訓練樣本預測不正確百分比為26.2%,正確的百分比為73.8%;測試樣本不正確的百分比為26.7%,正確的百分比為73.3%;保持樣本的不正確百分比為26.4%,正確的百分比為73.6%。模型的參數(shù)估計值如圖4所示。從圖5的觀察預測圖可以看出,按照高血壓患病與否與預測結(jié)果進行分組,縱坐標為預測概率。以0.5為分界時,對不患高血壓的識別能力較好于對患高血壓的識別能力。
2.3繪制ROC曲線
ROC曲線下的面積將本模型預測結(jié)果繪制ROC曲線,高血壓曲線下的面積為0.802,95%可信區(qū)間為(0.800,0.803),P值<0.001,有統(tǒng)計學意義,如圖6,圖7所示。
2.4 對高血壓主要危險因素重要性排序
BP神經(jīng)網(wǎng)絡模型對各自變量對預測高血壓的重要性進行分析,各變量標準化的重要性依次為體檢年齡、體重指數(shù)、性別、混合型高脂血癥、飲酒習慣、高甘油三酯血癥、吸煙習慣、飲食習慣。
3 討論
高血壓為多因子疾病,因子本身分布多態(tài),致病因素多,各因素間關系和作用方式復雜,預測因子之間本身也存交互作用、多重共線性,干擾統(tǒng)計模型的擬合效率,干擾了高血壓預測和病因研究。傳統(tǒng)的模型處理變量之間的共線性問題,進行高血壓等復雜疾病預測具有一定的局限性。人工神經(jīng)網(wǎng)絡是模擬生物神經(jīng)網(wǎng)絡進行數(shù)據(jù)處理的一種數(shù)學模型,在神經(jīng)網(wǎng)絡中,對外部環(huán)境提供的模式樣本進行學習訓練,并能存儲這種模式,對外部環(huán)境有適用能力,能自動提取外部環(huán)境變化特征。SPSS神經(jīng)網(wǎng)絡中,包括多層感知器和徑向基函數(shù)(RBF)兩種方法。多層感知器 (Multi-layer ?Perceptron,MLP)是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡,映射一組輸入向量到一組輸出向量,由多個節(jié)點層組成,每一層全連接到下一層。每個節(jié)點都是一個帶有非線性激活函數(shù)的神經(jīng)元,它的過程會根據(jù)預測變量的值來生成一個或多個因變量的預測模型。人工神經(jīng)網(wǎng)絡可以更好地揭示這些變量間的關系,通過數(shù)據(jù)挖掘可以分析多個變量對結(jié)果變量的作用大小,更好地揭示這些變量間的關系,預測疾病發(fā)生概率。驗證證明該模型具有較好的預測效果。
通過廣義估計方程篩選出體檢年齡、性別、體重指數(shù)、飲食習慣、飲酒、吸煙、有高甘油三酯血癥、有混合型高脂血癥8個變量有統(tǒng)計學意義,與文獻報道的高血壓危險因素基本相一致。BP神經(jīng)網(wǎng)絡模型對各自變量對預測高血壓的重要性進行分析,各變量標準化的重要性依次為體檢年齡、體重指數(shù)、性別、混合型高脂血癥、飲酒習慣、高甘油三酯血癥、吸煙習慣、飲食習慣。運用多層感知器進行模型構(gòu)建,發(fā)現(xiàn)訓練樣本預測不正確百分比為26.2%,正確的百分比為73.8%;測試樣本不正確的百分比為26.7%,正確的百分比為73.3%;保持樣本的不正確百分比為26.4%,正確的百分比為73.6%,模型的參數(shù)估計值如圖7所示。從圖8的觀察預測圖可以看出,按照高血壓患病與否與預測結(jié)果進行分組,縱坐標為預測概率。以0.5為分界時,對不患高血壓的識別能力較好于對患高血壓的識別能力。
本文由于調(diào)查的危險因素基于體檢報告系統(tǒng),報告系統(tǒng)危險因素較少,不夠全面,缺少生活習慣,家族史等信息,存在一定的局限性。
參考文獻:
[1]Lee DS,Massaro JM, WangTJ, et aL. Antecedent blood pressure,body mass index,and the risk of incident heart failure in later life[J]. Hypertension, 2007, 50:869-87621.
[2]Lim SS,Vos T,F(xiàn)laxman AD,et a1.A comparative risk assessment of burden of disease and injury attributable to 67 risk factors and risk factor clusters in 21 regions, 1990- 2010: a systematic analysis for the Global Burden of Disease Study 2010[J].Lancet,2012,380 (9859):2224-2260.
[3]王隴德.中國居民營養(yǎng)與健康狀況調(diào)查報告[M].北京:人民衛(wèi)生出版社,2005.53-57.
[4]孫蓉,顧建建,孫峰等江蘇省自然人群高血壓患病率及相關因素分析[J]. 江蘇臨床醫(yī)學雜志。2002 ,6(6):534-536
[5] 曾坪,羅森林,吳曦. 社區(qū)人群主要行為因素與高血壓的相關性分析[J ]. 臨床合理用藥雜志,2009,2(9):28-30.
[6]王麗娜,曹麗,張敬一,等河北省成年居民高血壓病狀況及相關因素分析[J ].中國慢性病預防與控制,2008,16(2):1148-1152.
[7]毛浩丹,吳建方,周義紅,等常州市農(nóng)村地區(qū)人群高血壓流行病學調(diào)查[J ].疾病控制雜志,2005,9(5):406-408.
[8]張良均,曹晶,蔣世忠.神經(jīng)網(wǎng)絡實用教程[M].北京:機械工業(yè)出版社,2008:31-36.
[9]Taghadomisaberi S,Omid M,Emamdjomeh Z,et al.Determinationof cherry color parameters during ripening by artificial neuralnetwork assisted image processing technique[J].J Agr SciTechnol,2015,17(3):589-600.
[10]Türkyilmazi,Ka?an K.License plate recognition system usingartificial neural networks[J].ETRI J,2017,39(2):163-172.
[11]JovanovicL, Gondos B,Type 2 diaberes;the epidemic of the new millennium .Ann Clin Lab Sci,1999,29:33--42
[12]高飛,高焱莎.我國高血壓流行病學現(xiàn)狀[J].中日友好醫(yī)院學報,2012,26(5):307-309.
[13]種冠峰,相有章.中國高血壓病流行病學及影響因素研究進展[J].中國公共衛(wèi)生,2010,26(3):301-302.
[14]高飛,高炎莎.我國高血壓流行病學現(xiàn)狀[J].中日友好醫(yī)院學報,2012,26(5):307-309.