【摘要】 目的:通過現(xiàn)有數(shù)據(jù)分析心腦血管慢性病的主要影響因素。方法:選取2015年出院診斷中包含E78(高脂血癥)、I10-I15(高血壓)和E10-E14(糖尿?。┑?31條出院患者信息。從基本情況、生活狀況、生活習(xí)慣三方面分析影響心腦血管慢性病的危險因素,建立影響因素與身體健康指數(shù)之間的關(guān)系決策表,結(jié)合粗糙集和遺傳算法,去除決策表中的冗余。結(jié)果:找到影響心腦血管慢性病的主要影響因素有年齡、學(xué)歷、飲酒及肥胖。結(jié)論:患有高血脂癥、高血壓和糖尿病的患者無論病情如何,其生活習(xí)慣、肥胖均影響心腦血管慢性病的發(fā)生,通過數(shù)據(jù)驗(yàn)證表明算法對分析慢性病的影響因素研究可行,可以為加強(qiáng)慢性病的防治工作提供有利的決策依據(jù)。
【關(guān)鍵詞】 心腦血管慢性?。?粗糙集; 遺傳算法; ICD-10
Study on the Application of Rough Set and Genetic Algorithm in Cardiovascular and Cerebrovascular Diseases/HUANG Xian-fang.//Medical Innovation of China,2017,14(06):135-138
【Abstract】 Objective:Through the existing data to analyze the main influencing factors of cardiovascular and cerebrovascular diseases.Method:831 patients discharged from hospital in 2015 were selected,including E78 (hyperlipidemia),I10-I15 (high blood pressure) and E10-E14 (diabetes).From the basic situation,living conditions,living habits influence analysis of cardiovascular risk factors for chronic diseases,the relationship between the establishment of decision table of influence factors and health index,combining genetic algorithm and rough set,remove redundant decision table.Result:The main influencing factors of cardiovascular and cerebrovascular diseases were age,education,drinking and obesity.Conclusion:Patients with hyperlipidemia,hypertension and diabetes,regardless of their condition,their habits,obesity,cardiovascular and cerebrovascular diseases are affected by the occurrence of chronic,the results show that the algorithm is feasible for analyzing the influencing factors of chronic diseases,and can provide a favorable basis for the prevention and treatment of chronic diseases.
【Key words】 Cardiovascular and cerebrovascular diseases; Rough set; Genetic Algorithm; ICD-10
First-authors address:The Peoples Hospital of Zhengzhou,Zhengzhou 450000,China
doi:10.3969/j.issn.1674-4985.2017.06.038
慢性病是指慢性非傳染性疾病,具有起病隱匿、病程長、病情遷延不愈等特點(diǎn),一旦防治不及時,將會造成經(jīng)濟(jì)、生命等方面的巨大危害。慢性病主要指的是心腦血管疾病、糖尿病、惡性腫瘤、慢性阻塞性肺部疾病、精神異常和精神病等為代表的疾病。2015年4月10日國家衛(wèi)計(jì)委發(fā)布的《中國疾病預(yù)防控制工作進(jìn)展(2015)報告》中,用大量翔實(shí)的數(shù)據(jù)介紹我國疾病預(yù)防控制工作現(xiàn)狀,報告中指出腦血管病、惡性腫瘤等慢性疾病已成為主要死因,慢性病導(dǎo)致的死亡人數(shù)已占到全國總死亡人數(shù)的86.6%,而導(dǎo)致的疾病負(fù)擔(dān)占總疾病負(fù)擔(dān)的近70%[1]。本文主要研究的是心腦血管疾病,包括冠心病、腦卒中等。此類慢性疾病的影響因素多種多樣,如何從醫(yī)院的海量數(shù)據(jù)中挖掘出有利于分析心腦血管疾病引起的信息是本次實(shí)驗(yàn)的關(guān)鍵問題。
粗糙集算法是一種刻畫不完整性和不確定性的數(shù)學(xué)工具,能有效分析不精確、不一致、不完整等各種不完備的信息,還可除去信息數(shù)據(jù)中的冗余信息而保持原有的分類能力不變。遺傳算法是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法,具有局部隨機(jī)搜索能力,又可維持群體的多樣性。本文首先對造成心腦血管慢性病的原因和因素進(jìn)行分析,建立反映影響因素和身體健康狀況之間的關(guān)系決策表,提出利用決策粗糙集和遺傳算法相結(jié)合的屬性約簡方法,去除決策表中冗余規(guī)則,為防治心腦血管慢性病提供科學(xué)的決策依據(jù)。
1 心腦血管慢性病的影響因素分析
心腦血管慢性病是威脅人類的一種常見病,具有發(fā)病率高、死亡率高、致殘率高、并發(fā)癥多的特點(diǎn)[2]。目前,我國心腦血管慢性病患者已超過2.7億人。慢性疾病的發(fā)病率升高、發(fā)病人群低齡化是多種因素共同作用的結(jié)果。一方面,慢性疾病會受到先天遺傳因素的影響,另一方面,人們的飲食習(xí)慣、生活習(xí)慣等后天因素也會引起慢性疾病的發(fā)生。通過調(diào)查分析,影響心腦血管慢性病的主要因素:基本情況(性別、年齡、體重、家族病史等都影響慢性疾病的患病情況);生活狀況(收入來源是否穩(wěn)定,生活滿意度影響慢性疾病);生活習(xí)慣(吸煙、喝酒對慢性疾病的影響不可忽視)等。
2 粗糙集算法和遺傳算法的理論介紹
2.1 粗糙集 (1)定義1:四元組S=(U,R,V,f)是一個決策表系統(tǒng),其中,U是論域,是對象的有限集合;R=C∪D,C∩D=φ,其中,R是屬性集合,C是條件屬性集合,D是決策屬性集合;表示屬性值域集合,是屬性b的值域;f表示信息函數(shù),即f:U×R→V,指定U中每一個對象b的屬性值[3]。(2)定義2:IND(A)表示A的一族等價關(guān)系,其中,a∈A,若IND(A)=IND(A-{a})則稱a為A中不必要的;否則稱a為A中必要的。如果每一個a∈A都為A中必要的,則稱A為獨(dú)立的;反之A為依賴的。設(shè)Q∈P,若Q是獨(dú)立的,且IND(Q)=IND(P),則稱Q為P的一個約簡。(3)定義3:決策屬性對條件屬性的依賴程度:,其中,d是決策屬性,c是條件屬性,表示U的基數(shù),是d關(guān)于c的正域。
2.2 遺傳算法 (1)染色體編碼。采用長度為l(l表示條件屬性的個數(shù))的二進(jìn)制字符串來表示個體編碼,每一位對應(yīng)一個條件屬性。例如:(c1,c2,…,cl),若個體中包含第i(i=1,2,…,l)個屬性,則ci=1;否則ci=0。(2)適應(yīng)度函數(shù)。,其中,l表示染色體r的長度,lr表示染色體r中基因?yàn)?的個數(shù),γC(d)表示決策屬性d對條件屬性c的依賴程度。(3)遺傳算子。①選擇。通過輪盤賭方法來實(shí)現(xiàn),先計(jì)算每個染色體r的適合度值F(ri),得到群體的適合度之和,之后計(jì)算每個染色體的選擇概率,即,得出每個被包括的染色體ri的累積概率qi,且qi=。如果r 3 基于粗糙集算法和遺傳算法的心腦血管慢性病影響因素分析 3.1 心腦血管慢性病影響因素信息表的確定 3.1.1 疾病數(shù)據(jù)來源 數(shù)據(jù)取自本院2015年出院患者信息,由于心腦血管疾病是心臟血管和腦血管疾病的統(tǒng)稱,泛指由高脂血癥、高血壓、糖尿病等所導(dǎo)致的心臟、大腦及全身組織發(fā)生的缺血性或出血性疾病,所以提取數(shù)據(jù)的原則是根據(jù)國際疾病分類編碼ICD-10導(dǎo)出出院診斷中包含E78(高脂血癥)、I10-I15(高血壓)和E10-E14(糖尿?。┑?31條出院患者信息[5]。判斷患者是否是心腦血管慢性病的依據(jù)原則是其出院診斷的主要診斷是否在心腦血管疾病ICD-10的編碼范圍內(nèi),其中心腦血管疾病ICD-10編碼包括:I21(急性心肌梗死)、I22(隨后性心肌梗死)、I46(心臟性猝死)、I60(蛛網(wǎng)膜下腔出血)、I61(腦出血)、I63(腦梗死)、I64(未分類腦卒中)[6]。 3.1.2 疾病影響因素信息表 將831組患者出院數(shù)據(jù)作為論域,將心腦血管慢性病的影響因素作為條件屬性集,將是否患有心腦血管慢性病作為決策屬性集。確定患者性別、年齡、職業(yè)、學(xué)歷、吸煙情況、飲酒情況、肥胖、家族史等8個因素為條件屬性[7],其中肥胖是由身高和體重?cái)?shù)據(jù)得出的,衡量標(biāo)準(zhǔn)是采用臨床用體重指數(shù)(BMI)[8-9]:<18.5 kg/m2為體重過低,18.5~23.9 kg/m2為正常范圍,≥24 kg/m2為超重,≥28 kg/m2為肥胖,本文中規(guī)定正常范圍屬于達(dá)標(biāo),體重過低、超重、肥胖均為超標(biāo)。8個影響因素分別用c1,c2,…,c8表示。心腦血管慢性病患病情況D為決策屬性。通過對原始數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)的除燥、離散化、歸一化,建立心腦血管慢性病影響因素決策表,見表1。此處考慮的8個因素是影響心腦血管慢性病的主要因素,而其他的一些次要因素被忽略。 注:c1,0表示女性,1表示男性;c2,0表示年齡0~45歲,1表示45~70歲,2表示70歲以上;c3,0表示管理人員,1表示一般職員,2表示其他;c4,0表示大專及以上,1表示初高中,2表示小學(xué)及以下;c5,0表示不吸煙,1表示吸煙;c6,0表示不飲酒,1表示飲酒;c7,0表示體重達(dá)標(biāo),1表示體重超標(biāo);c8,0表示無家族史,1表示有家族史;D,0表示未有慢性病,1表示患有慢性病 3.2 屬性約簡算法 屬性的約簡問題屬于數(shù)據(jù)NP完全問題,基于遺傳算法約簡刪除冗余條件屬性得到簡化決策表的具體算法步驟如下:輸入:S=(U,A,V,f)為一個決策信息表,A=C∪D,C是條件屬性,D是決策屬性。輸出:S的所有約簡。Step 1,算出決策屬性D關(guān)于條件屬性C的支持度γC(D)。Step 2,令reduct(C)=φ,逐一去掉個屬性ci∈C,若γC-{ci}(D)≠γC(D),則reduct(C)=reduct(C)∪{ci};若γreduct(C)(D)= γC(D),則終止計(jì)算,其中,reduct(C)表示屬性C的約簡;否則進(jìn)行Step 3。Step 3,隨機(jī)產(chǎn)生p個長度為l(條件屬性的個數(shù))的二進(jìn)制串組成個體初始種群:對應(yīng)位置選取0或1,并計(jì)算出初始群體中每個個體的適應(yīng)度。Step 4,根據(jù)輪盤賭的方法選擇個體,通過交叉概率pc和變異概率pl產(chǎn)生新的群體,并且在變異時保持該屬性對應(yīng)的基因位不發(fā)生變異。Step 5,計(jì)算新的群體中每個個體的適應(yīng)度。Step 6,根據(jù)最優(yōu)保存策略將最優(yōu)個體保留至新的群體中并根據(jù)策略保存。Step 7,判斷連續(xù)t代的最優(yōu)個體的適應(yīng)值是否不再提高,如果是,終止計(jì)算并輸出最優(yōu)個體,否則,轉(zhuǎn)至Step 4[10]。
3.3 心腦血管慢性病影響因素決策規(guī)則生成 心腦血管慢性病的影響因素規(guī)則是由屬性約簡去除冗余條件屬性及重復(fù)信息得到簡化信息表而得到。
4 結(jié)果
選取pc=0.7,pl=0.01,t=100,得到的最優(yōu)解為0101011,即c2、c4、c6、c7四個屬性被保留,從而得到約簡后的決策規(guī)則,除患者患有高脂血癥、高血壓和糖尿病疾病外,患者年齡在0~45歲,學(xué)歷在大專及以上,體重達(dá)標(biāo)的飲酒者未患有心腦血管慢性?。换颊吣挲g在0~45歲,學(xué)歷在小學(xué)及以下,體重達(dá)標(biāo)的不飲酒者未患有心腦血管慢性?。换颊吣挲g在45~70歲,學(xué)歷在大專及以上,體重超標(biāo)的不飲酒者患有心腦血管慢性??;患者年齡在70歲以上,學(xué)歷在初高中,體重超標(biāo)的不飲酒者患有心腦血管慢性?。换颊吣挲g在45~70歲,學(xué)歷在初高中,體重超標(biāo)的飲酒者患有心腦血管慢性病,從而得出影響心腦血管慢性病的主要因素是年齡、學(xué)歷、飲酒以及肥胖。并得出兩個強(qiáng)規(guī)則,年齡在45歲以下,學(xué)歷在小學(xué)及以下,體重在正常范圍內(nèi)的飲酒者沒有心腦血管慢性??;年齡在45歲以上,學(xué)歷在中學(xué)及以上的體重超標(biāo)者有心腦血管慢性病。
5 討論
為驗(yàn)證結(jié)果的準(zhǔn)確性,對2016年上半年出院診斷中包含E78(高脂血癥)、I10-I15(高血壓)和E10-E14(糖尿?。┑?87條出院患者信息進(jìn)行驗(yàn)證,其中心腦血管慢性病患者83例,未患心腦血管病的患者有304例。驗(yàn)證結(jié)果是條件滿足年齡在45歲以下,學(xué)歷在小學(xué)及以下,體重在正常范圍內(nèi)的飲酒者共有52例,其中43例患者是心腦血管慢性病患者;條件滿足年齡在45歲以上,學(xué)歷在中學(xué)及以上的體重超標(biāo)患者共有175例,其中130例未患心腦血管慢性病。
根據(jù)出院數(shù)據(jù)提取出的有效規(guī)則,得出患有高血脂癥、高血壓和糖尿病的患者無論病情如何,其生活習(xí)慣和肥胖都影響心腦血管慢性病的發(fā)生,這為防治心腦血管慢性病提供決策依據(jù),可根據(jù)不同情況采取不同的應(yīng)對措施,真正做到心腦血管慢性病的防治。對于生活習(xí)慣方面,要鼓勵人們多參加一些適宜的社會活動,既保持身心健康,也可以調(diào)節(jié)不良情緒。對于體重控制方面,可以咨詢營養(yǎng)師改善飲食結(jié)構(gòu),通過合理飲食來控制熱量的攝入,尤其是脂肪等的攝入,從而降低心腦血管慢性病的發(fā)生率。
參考文獻(xiàn)
[1]中華人民共和國國家衛(wèi)生和計(jì)劃生育委員會.中國疾病預(yù)防控制工作進(jìn)展(2015年)[EB/OL].http://www.nhfpc.gov.cn/jkj/s7915v/201504/d5f3f871e02e4d6e912def7ced719353.shtml
[2]王麗曄,吳壽嶺,楊曉利,等.糖尿病人群中高敏C 反應(yīng)蛋白與新發(fā)心腦血管事件關(guān)系的前瞻性研究[J].中華心血管病雜志,2011,39(8):749-754.
[3]葉明全,胡學(xué)剛,胡東輝,等.基于屬性值分類的多層次粗糙集模型[J].模式識別與人工智能,2013,26(5):481-490.
[4]范明.孟曉峰,譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2003:185-222.
[5]北京協(xié)和醫(yī)院世界衛(wèi)生組織國際分類家族合作中心編譯.疾病和有關(guān)健康問題的國際統(tǒng)計(jì)分類,第十次修訂本,第一卷,類目表[M].2版.北京:人民衛(wèi)生出版社,2008.
[6]劉英,羅興林,陳睦虎,等.高血壓急癥心腦血管事件相關(guān)因素分析[J].中國醫(yī)藥導(dǎo)報,2015,12(11):73-74.
[7]白彝華,潘毅,蔣紅櫻,等.云南地區(qū)腹膜透析患者發(fā)生心腦血管事件的危險因素分析[J].昆明醫(yī)科大學(xué)學(xué)報,2016,37(4):96.
[8]郭躍偉,郭麗君,顧顏勝,等.農(nóng)村正常高值血壓及高血壓居民的心腦血管危險因素分布特征[J].重慶醫(yī)學(xué),2014,43(23):3012.
[9]趙琳,李志劍.頸動脈粥樣硬化與心腦血管危險因素的相關(guān)性分析[J].中西醫(yī)結(jié)合心腦血管病雜志,2015,13(9):1114-1115.
[10] 馬吉明,黃憲芳,蔣亞平,等.粗糙集理論和遺傳算法在預(yù)防城市道路交通擁堵中的應(yīng)用[J].鄭州輕工業(yè)學(xué)院學(xué)報:自然科學(xué)版,2012,27(1):62-64.
(收稿日期:2016-12-29) (本文編輯:張爽)