董雪
摘要:近些年來,心血管疾病引發(fā)的死亡已經(jīng)持續(xù)成為居民首位死亡原因,而且,心臟病的患病人群也越來越年輕化。因此,心臟病的診斷與治療已經(jīng)成為醫(yī)學(xué)研究的重中之重。心臟病種類繁多、影響因素多樣,如何提高心臟病的診斷效率已經(jīng)成為急需解決的問題。針對上述情況可利用數(shù)據(jù)挖掘技術(shù)對心臟病數(shù)據(jù)集進(jìn)行分析,從而有助于醫(yī)生對病情更加精準(zhǔn)的診斷。
關(guān)鍵詞:數(shù)據(jù)挖掘;分類算法;心臟病
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)20-0172-02
1前言
心臟病作為一種心血管疾病在生活中隨處可見。目前,心血管疾病是我國威脅人民身體健康的幾類疾病之一[1],這種疾病已經(jīng)嚴(yán)影響到我國經(jīng)濟(jì)發(fā)展的重大問題。面對如此嚴(yán)峻的形勢,如何對心臟病的診斷和治療進(jìn)行干預(yù)已經(jīng)成為迫在眉睫需要解決的問題。而在信息化迅速發(fā)展的時代,將電子科學(xué)技術(shù)與醫(yī)學(xué)的心臟疾病相結(jié)合,是現(xiàn)在研究人員的熱門研究問題[2]。經(jīng)過近幾年醫(yī)學(xué)研究人員的不斷努力,對心臟病的診斷研究已初見成效,也積累了大量數(shù)據(jù)供研究人員參考。近幾年在世界上迅速發(fā)展的交叉學(xué)科是數(shù)據(jù)挖掘?qū)W科,他涉及的范圍相對比較廣泛,包括有統(tǒng)計學(xué)學(xué)科,人工智能學(xué)科,還有機(jī)器學(xué)習(xí)學(xué)科,還涉及數(shù)據(jù)庫學(xué)科等多個領(lǐng)域。隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)庫管理系統(tǒng)應(yīng)用的范圍也相對廣泛,對于患者的人數(shù)積累也越來越多,數(shù)據(jù)庫信息的增長速度十分快,猶如汪洋大海。若沒有強(qiáng)大的處理工具,對數(shù)據(jù)信息的理解已經(jīng)超出研究人員的理解能力。因此在數(shù)據(jù)庫中的大型數(shù)據(jù)由于不能被理解,幾乎變成了永埋地下的“數(shù)據(jù)墳?zāi)埂薄藗兒茈y再從中提取數(shù)據(jù)檔案,而越來越多的患者數(shù)據(jù)中隱含著許多重要的信息,決策者常常不是因為數(shù)據(jù)庫中的數(shù)據(jù)去決定一項決策,而是憑自己的主觀臆斷。因為他們對提取數(shù)據(jù)庫中有用信息的認(rèn)識是不足的[3]。醫(yī)學(xué)信息的形式也是多種多樣的,這些醫(yī)學(xué)信息對醫(yī)院的管理、醫(yī)療和科研起到了至關(guān)重要的作用。采取將數(shù)據(jù)挖掘理論這一先進(jìn)的理論應(yīng)用于醫(yī)學(xué)的研究領(lǐng)域,使得醫(yī)學(xué)研究能夠與數(shù)據(jù)挖掘合二為一,完美的分析所研究的醫(yī)學(xué)數(shù)據(jù),從中提取研究人員所需要的、隱藏的、有用的信息,這種方法的提出是醫(yī)學(xué)管理者最明智的決定[4]。
2 數(shù)據(jù)挖掘技術(shù)概述
2.1數(shù)據(jù)挖掘技術(shù)概念
在數(shù)據(jù)庫和數(shù)據(jù)倉庫中,利用不同技術(shù)和分析方法,有一項可以對冗余復(fù)雜的數(shù)據(jù)進(jìn)行分析整理歸納的工作,叫作數(shù)據(jù)挖掘。做好相對應(yīng)的分析,可以尋求到很多有價值的信息,并且將這些信息提供給管理者,熟悉其中的規(guī)則,甚至還可以預(yù)測未來或者指導(dǎo)未來的相關(guān)工作。現(xiàn)今,數(shù)據(jù)挖掘已經(jīng)在數(shù)據(jù)庫系統(tǒng),統(tǒng)計方法,機(jī)器學(xué)習(xí)多種學(xué)科間占有一席之地。現(xiàn)如今,數(shù)據(jù)挖掘技術(shù)已經(jīng)被很多行業(yè)所廣泛使用,諸如金融、互聯(lián)網(wǎng)、零售、醫(yī)療等行業(yè)。例如何超等人進(jìn)行了基于數(shù)據(jù)挖掘的企業(yè)競爭情報智能分析研究,該研究主要從聚類挖掘的角度研究了企業(yè)競爭情報聚類分析的方法與算法,研究以k-means算法為技術(shù)基礎(chǔ),在基于領(lǐng)域本體的情況下,設(shè)計出k-means語義聚類挖掘算法Onto-kmeans;謝麗亞等人將數(shù)據(jù)挖掘技術(shù)與高校就業(yè)指導(dǎo)工作相結(jié)合,大大提高了高校就業(yè)指導(dǎo)的工作效率與質(zhì)量[5]。
2.2數(shù)據(jù)挖掘常用數(shù)據(jù)分類算法
2.2.1人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是模仿腦細(xì)胞結(jié)構(gòu)和功能、腦神經(jīng)結(jié)構(gòu)及思維處理問題等腦功能的信息處理系統(tǒng),他在人腦智能系統(tǒng)的模仿中進(jìn)行研究,并逐漸拓展新的數(shù)據(jù)信息表示、信息存儲與數(shù)據(jù)處理方法。這種類型的神經(jīng)網(wǎng)絡(luò)主要以神經(jīng)系統(tǒng)的復(fù)雜程度為基礎(chǔ),針對系統(tǒng)內(nèi)部的數(shù)據(jù)節(jié)點(diǎn)之間的連接方式進(jìn)行有效的調(diào)整,最終實現(xiàn)數(shù)據(jù)信息處理的目標(biāo)。他還應(yīng)用了優(yōu)于傳統(tǒng)人工智能系統(tǒng)與數(shù)據(jù)信息處理單一的機(jī)制,有效彌補(bǔ)了傳統(tǒng)單一邏輯方式的人工智能系統(tǒng)在實際的直覺處理、非結(jié)構(gòu)性質(zhì)數(shù)據(jù)信息內(nèi)容的弊端,通過自身良好的適應(yīng)性、自我組織性與實時學(xué)習(xí)的特征,針對系統(tǒng)預(yù)先提供的大批量互為對應(yīng)的傳輸數(shù)據(jù),有效分析并掌握二者之間存在的一般規(guī)律,針對這些潛在的一般規(guī)律,運(yùn)用新型的輸入數(shù)據(jù)信息系統(tǒng)準(zhǔn)確的計算出實際的輸出結(jié)果。這種人工智能系統(tǒng)是作為一種與目標(biāo)函數(shù)無距離,并且具有高度穩(wěn)定性和科學(xué)性的計算方式。
人工神經(jīng)網(wǎng)絡(luò)中的經(jīng)典算法BP算法的基本思想是,學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個過程組成。
輸入層傳入輸入樣本后,要逐步進(jìn)行處理,然后再向輸出層傳播,這是正向傳播的過程。如果期望的輸出與輸出層實際輸出不一樣,這個時候就會將轉(zhuǎn)入誤差進(jìn)行到反向傳播階段。誤差反差是將輸出誤差以某種特殊方式從隱含層逐層反傳到輸入層,并且讓諸多單元對其誤差情況進(jìn)行均攤,如此就能夠得到誤差信號。此時該信號能夠看成是對諸多單元權(quán)值實現(xiàn)修正控制處理的信息參照。此時完成的傳播控制是持續(xù)展開的,整體處在動態(tài)調(diào)整控制的時候,借助持續(xù)展開的網(wǎng)絡(luò)學(xué)習(xí)控制操作來對其進(jìn)行處理。直到所得能夠和網(wǎng)絡(luò)實現(xiàn)輸出要求的誤差相符的情況下才能夠不再執(zhí)行訓(xùn)練控制,或者達(dá)到之前所設(shè)想的學(xué)習(xí)次數(shù)。
2.2.2支持向量機(jī)
SVM是目前正在普遍使用的一種機(jī)器化的學(xué)習(xí)方式,它的中文全稱是支持向量機(jī),在國外通常被叫做Support Vector Machines。它的先進(jìn)性主要體現(xiàn)在將組織上的結(jié)構(gòu)風(fēng)險有效控制在目標(biāo)范圍內(nèi),而且還運(yùn)用了一種全新的理論VC模型。它的具體優(yōu)勢體現(xiàn)在樣本值整體偏小、維度值的識別更加簡單明了,因此在處理與時間有關(guān)的問題上應(yīng)用就更加廣泛了,而且可以在不同的學(xué)科之間進(jìn)行推廣,可以見得其應(yīng)用性非常之廣。
2.2.3隨機(jī)森林
該算法能夠看成是分類樹(ClassificationTree)支持下實現(xiàn)的算法內(nèi)容。該算法在實現(xiàn)處理的時候牽涉到模擬控制以及迭代實現(xiàn)兩部分,通常被看成是機(jī)械學(xué)學(xué)習(xí)內(nèi)實現(xiàn)操作的算法形式。2001年,Cutler等參照原有的隨機(jī)決策森林形式給出隨機(jī)森林概念,是由分類樹組合而成,通常用行表示隨機(jī)數(shù),列表示變量,分別對行和列進(jìn)行隨機(jī)取值,生成了很多的樹,然后進(jìn)行分類,就是分類樹。
隨機(jī)森林算法是由決策樹來決定的,但是決策樹的構(gòu)建屬于是遞歸控制實現(xiàn)的內(nèi)容。當(dāng)理想的時候,全部登記下來的信息都能夠執(zhí)行準(zhǔn)確分類控制,得到有效的類型,只是實際操作執(zhí)行的時候,是很難做到這樣的。即便構(gòu)建獲得的模型通常后續(xù)得到的節(jié)點(diǎn)量也是特別大的,表現(xiàn)出過度擬合情況。實際操作執(zhí)行的時候,需要對應(yīng)設(shè)定有效的停止處理條件,在來到該條件的情況下,就不在執(zhí)行決策樹相關(guān)的構(gòu)建處理操作。只是這些還是很難完全對過度擬合表現(xiàn)進(jìn)行有效的控制處理,實際操作執(zhí)行的時候要能夠?qū)ζ渲θ~情況做好修建等控制處理。借助隨機(jī)森林的形式能夠較好對此類情況進(jìn)行控制處理。
諸多決策樹得到的森林在實現(xiàn)分類構(gòu)建方面需要借助決策樹投票的形式來進(jìn)行處理。決策樹在實現(xiàn)生成控制期間,必然會在其各部分表現(xiàn)出較強(qiáng)的隨機(jī)實現(xiàn)效果,對其進(jìn)行優(yōu)化切分控制后,就能夠獲得所需內(nèi)容。
隨機(jī)森林中的每一棵分類樹也稱作二叉樹,每一棵樹符合自頂向下的遞歸分裂原則,也就是從根節(jié)點(diǎn)開始進(jìn)行訓(xùn)練集的劃分。二叉樹中的根節(jié)點(diǎn)符合節(jié)點(diǎn)純度最小原則,又分裂成了兩個節(jié)點(diǎn),分別是左節(jié)點(diǎn)和右節(jié)點(diǎn)。當(dāng)然這種分裂可以繼續(xù)進(jìn)行下去,包含全部訓(xùn)練數(shù)據(jù),左節(jié)點(diǎn)包含一個子集,右節(jié)點(diǎn)也有一個子集。它們持續(xù)進(jìn)行分裂,只有達(dá)到滿足分支停止規(guī)則時它們才可以停止分裂。
3 心臟病臨床檢測
引發(fā)心臟病的原因很多,除上述幾個因素外,其中主要原因還包括以下幾個方面:
⑴先天性心臟病是目前致使新生兒死亡的最主要原因之一,也是兒童時期最常見的心臟病。
⑵冠心?。耗壳拔镔|(zhì)生活條件是以前的幾十倍甚至幾百倍,很多人會由于飲食習(xí)慣的不健康造成很多身體上的不適。
⑶風(fēng)濕性心臟?。涸擃惣膊≈滤赖娜藬?shù)接近兩百萬,且亞洲區(qū)域出現(xiàn)的致死率嚴(yán)重超出全球該類疾病的平均致死率。
⑷肺源性心臟?。阂驗榉尾?、胸廓或者是肺動脈血管部分發(fā)生病變,從而導(dǎo)致肺部的循環(huán)阻力加大,肺動脈過高,使得右心擴(kuò)張、過于肥大,最后導(dǎo)致右心逐漸衰竭引發(fā)心臟病。
⑸心肌?。簩τ谛玛惔x或者荷爾蒙異常導(dǎo)致的心肌有所變化時,在進(jìn)行大量的飲酒、服用藥物后都可能使心肌發(fā)生變化。
⑹心臟腫瘤:心臟的腫瘤會有碎片脫落從而引起栓塞,除此之外,血栓的脫落也會引起栓塞。
⑺其他疾病導(dǎo)致的心臟病:如果患有高血壓會導(dǎo)致患心臟病的幾率增大,另外免疫機(jī)能異常導(dǎo)致的血管病變等也會加大患心臟病的風(fēng)險。
⑻外界因素的影響:慢性低血壓低氧導(dǎo)致的肺動脈高壓,也容易引起心臟病變。
4 數(shù)據(jù)挖掘技術(shù)對心臟病診斷的應(yīng)用
將數(shù)據(jù)挖掘技術(shù)應(yīng)用在心臟病診斷中首先是對數(shù)據(jù)的預(yù)處理的過程中,先對心臟病數(shù)據(jù)集的屬性進(jìn)行了詳細(xì)理解,然后對所有屬性進(jìn)行規(guī)范化處理及屬性選擇。然后采用了BP神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)算法和隨機(jī)森林算法等數(shù)據(jù)挖掘分類算法進(jìn)行建模,確保諸多模型均是參照最好參數(shù)來完成構(gòu)建處理操作的。最后對所建立的多個模型進(jìn)行評估,并選擇最優(yōu)模型為心臟病診斷模型。
參考文獻(xiàn):
[1] 李學(xué)永.中國成人的心血管健康狀況[J].中國循證心血管醫(yī)學(xué)雜志,2015,7(3):306
[2] 林偉龍.全球衛(wèi)生的測量離不開協(xié)作與競爭[J].中國衛(wèi)生政策研究,2015,8(2):26
[3] 王文,朱曼璐,王擁軍等.中國心血管病報告2012概要[J].中國循環(huán)雜志,2013,28(6):408-412
[4] 陳偉偉,高潤霖,劉力生等.中國心血管病報告2013概要[J].中國循環(huán)雜志,2014,29(7):487-491
[5] 秦文哲,陳進(jìn),董力.大數(shù)據(jù)背景下醫(yī)學(xué)數(shù)據(jù)挖掘的研究進(jìn)展及應(yīng)用[J].中國胸心血管外科臨床雜志,2016,23(1):55-60.