李奮華,趙潤林(.運城學院計算機科學與技術系,運城 044000 2.中國科學院大學,北京 0090)
基于數(shù)據(jù)挖掘的疾病預測模型的構建與分析
李奮華1,2,趙潤林1
(1.運城學院計算機科學與技術系,運城044000 2.中國科學院大學,北京100190)
自從1995年數(shù)據(jù)挖掘的概念提出以來,數(shù)據(jù)挖掘技術的發(fā)展雖然僅有二十多年的歷史,但其在商業(yè)、工程、電信等領域已經(jīng)獲得了廣泛的應用,并取得了可觀的經(jīng)濟效益和社會效益。然而,數(shù)據(jù)挖掘技術在醫(yī)學領域的應用尚處于起步階段。在信息爆炸的大數(shù)據(jù)時代,由于硬件和信息技術的迅猛發(fā)展,各行各業(yè)每時每刻都會產(chǎn)生大量的數(shù)據(jù),人們被淹沒在數(shù)據(jù)的海洋中,如何從這些海量的數(shù)據(jù)中發(fā)現(xiàn)潛在、有價值的信息難度很大。
在醫(yī)療行業(yè),隨著醫(yī)院信息系統(tǒng)(HIS)在全國各大醫(yī)院的逐步推廣和應用,醫(yī)院每天都會產(chǎn)生大量與病人相關的臨床數(shù)據(jù),而且這些數(shù)據(jù)的規(guī)模越來越大,在這些真實的數(shù)據(jù)中蘊含著許多對病人和醫(yī)生來說潛在、有價值的信息[1]。如何有效地利用這些真實的臨床數(shù)據(jù),并從中發(fā)現(xiàn)一些對病人治療和醫(yī)生診斷有價值的規(guī)律和信息十分關鍵,也是當前醫(yī)學信息處理研究中一個亟待解決的難題。上述問題的解決不僅能在一定程度上緩解當前社會上存在的緊張醫(yī)患關系,而且還能有效地輔助醫(yī)生診斷、決策和治療,提高醫(yī)生的工作效率,進而提高醫(yī)院的醫(yī)療服務質量和競爭力[2]。
本文將據(jù)挖掘技術引入到醫(yī)學數(shù)據(jù)分析中,提出了一種基于決策樹的疾病預測模型,并在實際的醫(yī)學疾病數(shù)據(jù)集上驗證了其效果。第2節(jié)簡要地介紹了決策樹算法的原理,在此基礎上,第3節(jié)提出一種基于決策樹的疾病預測模型,并在真實醫(yī)學數(shù)據(jù)集上(二型糖尿病臨床數(shù)據(jù))進行了實驗驗證,預測效果良好。
決策樹算法是數(shù)據(jù)挖掘技術中常用的一種分類和預測方法[3]。該算法以研究對象的屬性為基礎,根據(jù)信息論的原理,通過多次遞歸的方式選擇信息增益最大的屬性來作為決策樹的當前節(jié)點(即:最佳節(jié)點),在決策樹構建過程中,已經(jīng)使用過的屬性在決策樹的后續(xù)構建時不能再作為節(jié)點來使用,即:研究對象的每個屬性在決策樹中當且僅當出現(xiàn)一次。在決策樹的構建過程中,遞歸過程的終止情況有下列三種:
(1)當前節(jié)點對應的所有研究對象均屬于同一類別。
(2)沒有剩余屬性被用來進一步對當前研究對象進行分類。
(3)當前節(jié)點所對應的屬性值對應的研究對象個數(shù)為0。
假設M、m分別表示研究對象集合和該集合中包含對象的個數(shù)。L={l1,l2,l3,…,ln}表示研究對象的類別集合。mi表示類別 li中研究對象的個數(shù),那么,根據(jù)信息論原理,對一個研究對象進行分類需要的信息量如下:
其中,pi=mi/m表示一個研究對象輸入類別li的概率。
設一個屬性 X的取值集合為X={x1,x2,…,xs}。屬性X能夠把研究對象集合M劃分為s個子集{M1,M2,…,Ms},其中Mi表示屬性X=xi的研究對象的集合。如果屬性 X被選為決策樹的當前節(jié)點,mij表示子集 Mj中屬于li類別的研究對象的個數(shù),因此,采用屬 X對當前研究對象集合進行劃分所需信息熵的計算公式如下:
其中,pij=mi/(|Mj|)表示研究對象子集Mj中任意一個對象屬于類別 li的概率。由公式(1)和(2)可知,通過屬性對相應研究對象集合進行劃分的信息增益計算公式如下:
具體的決策樹算法描述如下:
針對醫(yī)療行業(yè)的現(xiàn)狀,為提高醫(yī)生疾病診斷的效率和緩解醫(yī)患矛盾,在數(shù)據(jù)挖掘技術的基礎上,本文提出了一種基于決策樹的疾病預測模型,如圖1所示,并在真實醫(yī)學數(shù)據(jù)集上(即:二型糖尿病臨床數(shù)據(jù))進行了實驗。
圖1 基于決策樹的疾病預測模型
本文采用Clementine 12數(shù)據(jù)挖掘工具來構建疾病預測模型,并在二型糖尿病臨床數(shù)據(jù)集上進行了有效實驗[4]。該數(shù)據(jù)集包含8個與二型糖尿病相關的臨床檢查病癥,共768條記錄,如圖2所示[5]。
在實驗過程中,本文把上述實驗數(shù)據(jù)集分為訓練集和測試集兩部分,通過訓練集來構建和提取決策樹規(guī)則,利用測試集來對該模型在實際應用中的效果進行驗證,預測效果如圖3所示。從圖3中,我們發(fā)現(xiàn)該疾病預測模型的預測正確率是74.52%,預測錯誤率是25.48%,這也有效地驗證了基于決策樹的疾病預測模型的有效性。實驗證明,該模型可以有效地輔助醫(yī)生進行疾病的診斷,提高醫(yī)生工作的效率,在一定程度上緩解病人看病難、排隊時間長的問題,具有一定的實用價值。
圖2 二型糖尿病臨床數(shù)據(jù)集
針對醫(yī)療領域存在的問題,從數(shù)據(jù)挖掘的角度出發(fā),本文提出了一種基于決策樹的疾病預測模型,在真實醫(yī)學數(shù)據(jù)集——二型糖尿病數(shù)據(jù)上進行了實驗,預測效果較明顯,能夠有效地輔助醫(yī)生進行疾病的診斷,提高醫(yī)生疾病診斷的效率,具有一定的實際意義。
圖3 二型糖尿病數(shù)據(jù)預測效果
[1]徐剛,袁兆康.數(shù)據(jù)挖掘在醫(yī)學領域的應用和展望[J].實用臨床醫(yī)學,2006,7(13):11-15.
[2]石義芳,孔令人.數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術在病人流量分析中的應用[J].現(xiàn)代預防醫(yī)學,2006,33(02),p23-25.[3]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:科學出版社,2009.
[4]熊平.數(shù)據(jù)挖掘算法與Clementine實踐[M].北京:清華大學出版社,2011.
[5]張承紅.醫(yī)學數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:中國中醫(yī)藥出版社,2008.
Big Data;Data Mining;HIS;Disease Prediction
Design and Analysis of Disease Prediction Model Based on Data Mining
LI Feng-hua1,2,ZHAO Run-lin2
(1.Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000;2.University of Chinese Academy of Sciences,Beijing 100190)
國家自然科學基金項目(No.61272480)
李奮華(1977-),男,山西昔陽縣人,博士,講師,研究方向為數(shù)據(jù)挖掘、社會計算和電子健康
2016-05-02
2016-06-20
在大數(shù)據(jù)時代,HIS在全國絕大多數(shù)醫(yī)院得到有效推廣,這在一定程度上提高醫(yī)院的工作效率,但是也產(chǎn)生一個亟待解決的重要問題:如何能在HIS的海量醫(yī)學數(shù)據(jù)中發(fā)現(xiàn)潛在、有價值的信息,從而有效地支持醫(yī)生進行疾病的診斷與決策,進而緩解當前緊張的醫(yī)患關系。把數(shù)據(jù)挖掘技術引入到海量醫(yī)學數(shù)據(jù)的分析中,提出一種基于決策樹的疾病預測模型,并在實際的醫(yī)學疾病數(shù)據(jù)集上進行驗證,能取得較好的預測效果。
大數(shù)據(jù);數(shù)據(jù)挖掘;醫(yī)院信息系統(tǒng);疾病預測
趙潤林(1960-),男,山西運城人,本科,副教授,研究方向為計算機系統(tǒng)結構
In big data era,HIS is applied in many hospitals of our country in order to improve their work efficiency.But there is a challenging problem to solve:how to find some latent and valuable information or principles from the massive data in HIS is very important,because this not only can support the disease diagnosis and decision of doctors in some extent,but also can relieve the tense relationships between doctors and patients.Applies data mining technologies to the analysis of massive medical data,proposes a disease prediction model based on decision tree method.Through the experiments of real medical datasets,some empirical studies are shown to demonstrate the effectiveness of this model on real medical data sets.