鐘春梅肖勁森
雙論域粗糙集在心臟病診斷中的應用?
鐘春梅肖勁森
(廣東石油化工學院茂名525000)
論文主要研究雙論域粗糙集在心臟病診斷中的應用。首先,對心臟病患者的問卷調查數據進行相關性分析,得到心臟病類型與病癥癥狀的二元關系。其次,利用雙論域粗糙集的規(guī)則提取算法,分別獲得由心臟病類型導出病癥癥狀,以及由病癥癥狀確定心臟病類型的規(guī)則。
心臟病診斷;決策規(guī)則;雙論域粗糙集
Class NumberO159,R311
粗糙集理論是波蘭學者Pawlak在1982年提出的一種處理不完整、不精確知識表達、學習和歸納的方法,是一種刻劃不完整性和不確定性的數學工具。其基本思想是在保持分類能力不變的前提下,應用知識重要性的度量來分析數據中不同因素的重要程度,應用知識約簡的方法可以剔除數據中冗余成分,保存關鍵信息,從而進行科學的管理和決策[1~3]。根據心臟病患者所表現出病癥癥狀的不確定性這一特點,本文將利用粗糙集理論在信息處理方面的優(yōu)勢,通過論域拓展,提出了基于雙論域粗糙集理論的心臟病診斷的分析方法。
隨著信息科學的發(fā)展,越來越多學者開始結合數學和計算機的方法[9~10]來對心臟病病癥進行研究,不斷地提高診斷的精度和速度。程穎和崔運濤[4]通過將主成分析和決策樹C4.5算法相結合,得到心臟病診斷的預測模型。代文彬等[5]采用基因表達式編程算法來處理有關心臟病診斷的數據,給出了心臟病的預測模型。徐東等[6]利用粗糙集理論和神經網絡相結合的方法,得到心臟病診斷模型。邵峰峰[7]運用最大相關最小冗余特征選擇算法選出與心臟病診斷相關的重要特征,并使用支持向量機得到心臟病的診斷模型。
基于一般關系的兩個論域上的粗糙集稱為雙論域粗糙集[8]。與經典粗糙集相比,雙論域粗糙集更突出的優(yōu)點在于規(guī)則的提取方面,它不僅可以從條件屬性來確定決策規(guī)則,還可以通過決策屬性來尋找可能的條件。本文通過對某心臟病交流群的心臟病患者進行問卷調查得到98位心臟病患者的數據,隨機選取28名患者的數據,結合其心臟病類型通過離散化處理后逐一進行相關性分析,得到雙論域下決策屬性和條件屬性之間的關系矩陣。最后,通過雙論域粗糙集規(guī)則提取算法,分別獲得由心臟病類型導出相應的癥狀,以及由患者出現的部分癥狀來確定心臟病類型的規(guī)則。
本節(jié)主要簡述雙論域粗糙集的基本概念、定理以及規(guī)則的提取算法,詳細見文獻[8]。經典粗糙集關系系統為(U,R),其中U為論域,R為U上的等價關系。而雙論域粗糙集的信息系統則是包含了兩個論域及其關系,具體如下。
定義1:設U和V為兩個非空有限論域,R?U×V為U到V的二元關系,R′?V×U為R的逆關系。?x∈U,?y∈V,R和R′的特征函數定義為
設論域U中有m個元素,論域V中有n個元素,利用特征函數定義R的關系矩陣記為
顯然R′的關系矩陣為矩陣A的轉置A′。如果關系矩陣A中不存在一行或一列元素全為零,則稱關系矩陣A為信息矩陣。
為了簡單描述,將論域U、V和關系R,R′構成的系統記為信息系統(U,V,R),其中U和V為兩個非空的有限論域,R?U×V和R′?V×U互為逆關系。
定義2:在信息系統(U,V,R)中,?Y?V,論域V到論域U的粗糙集下、上近似為:
若-R′Y≠-R′Y時,則稱Y是信息系統(U,V,R)中的論域擴展粗糙集;若-R′Y=-R′Y,則稱Y是信息系統(U,V,R)中的論域擴展精確集。
定理1:在信息系統(U,V,R)中,?Y?V,有:
1)Y的雙論域正域:P O S(Y)=-R′Y;
2)Y的雙論域可能域:PB S(Y)=-R′Y;
3)Y的雙論域負域:NE G(Y)=U--R′Y;
4)Y的雙論域邊界域:BN(Y)=-R′Y--R′Y。
定義3:在信息系統(U,V,R)中,?X?U,論域U到論域V的粗糙集下、上近似為
類似地,也可以得到X的雙論域正域、可能域、負域和邊界域。
本節(jié)將利用雙論域粗糙集理論對隨機選取的28名心臟病患者身體出現的11個不同癥狀的數據進行規(guī)則提取,具體流程如圖1所示。
圖1 基于雙論域粗糙集的心臟病診斷分析流程
下面將以患者表現出的焦慮、胸部不適、咳嗽、眩暈、疲勞、惡心或食欲不振、身體其他部位疼痛、脈搏快速或者不規(guī)則跳動、出汗、身體腫脹、身體虛弱共11個癥狀作為條件屬性(U),心臟病類型作為決策屬性(V)來建立如表1所示的心臟病類型與病癥癥狀的系統。
根據調查問卷結果,將患者病癥癥狀按表1中1、2、3所對應的行的規(guī)則進行離散化處理,獲得如表2離散化的心臟病類型與病癥癥狀系統。
利用SPSS軟件對心臟病類型(yj,j=1,2,3,4)與各個不同癥狀(bi,i=1,2,3,…,33)逐一進行相關性分析,記bi與yj的相關系數為CORij,并利用EXCEL中的if函數和abs函數對其數據進行簡化:若CORij絕對值大于等于0.5,則認為心臟病類型對條件屬性的選取有關系,否則認為沒有關系。由定義1知,有關系時用1表示,反之用0表示。故心臟病類型與條件屬性之間的信息矩陣A的轉置為
表1 心臟病類型與病癥癥狀系統
表2 離散化的心臟病類型與病癥癥狀系統
下面通過利用定理1的規(guī)則提取方法,對由心臟病類型導出病癥癥狀的規(guī)則以及反過來由病癥癥狀確定心臟病類型的規(guī)則進行提取。
3.3.1由心臟病類型導出病癥癥狀的規(guī)則
若取決策屬性集合為Y={y4},由定義2得下近似-R′Y={b18},′Y={b1,b2,b4,b5,b6,b8,b9,b10,b11,b13,b14,b15,b17,b18,b19,b20,b21,b22,b23,b24,b26,b29,b30,b32},由定理1得:PO S(Y)=-R′Y={b18},N EG(Y)=U-′Y={b3,b7,b12,b16,b25,b27,b28,b31,b33},即心臟病類型為肺源性心臟病時,由雙論域粗糙集的正域、負域分別提取出如下的兩條確定性規(guī)則:
由正域提取的確定性規(guī)則1:若心臟病類型為肺源性心臟病時,則心臟病患者一定會經常感到惡心或者食欲不振。
由負域提取的確定性規(guī)則2:若心臟病類型為肺源性心臟病時,則患者一定不會出現以下癥狀:經常感到焦慮、基本不咳嗽、經常眩暈、基本不感到惡心或者食欲不振、不出汗、經常出汗、身體基本不腫脹、身體基本不虛弱或者經常虛弱。
3.3.2由病癥癥狀確定心臟病類型的規(guī)則
若選取條件屬性集合為X={b5,b8,b9,b11,b18,b30},由定義3得下近似X={y4},RˉX={y1,y2,y3,y4},由定理1得:P O S(X)=X={y4},N EG(X)=U-RˉX=?,即若心臟病患者偶爾感到胸部不適、偶爾或經??人?、偶爾眩暈、經常感到惡心或食欲不振以及經常感到身體腫脹時,由雙論域粗糙集的正域、負域分別提取出如下的兩條確定性規(guī)則:
由正域提取的確定性規(guī)則1:若心臟病患者偶爾感到胸部不適、偶爾或經??人浴⑴紶栄?、經常感到惡心或者食欲不振、經常感到身體腫脹時,則一定可推出患者的心臟病類型肺源性心臟病。
由負域提取的確定性規(guī)則2:若心臟病患者偶爾感到胸部不適、偶爾或經??人?、偶爾眩暈、經常感到惡心或者食欲不振、經常感到身體腫脹時,則一定可推出患者不可能不患有心臟病。
粗糙集理論對于處理復雜系統較為有效,它無需提供問題所需處理的數據集合之外的任何先驗信息,充分體現了數據的客觀性?;陔p論域粗糙集的推理無需顯示的領域知識模型,避免了知識獲取瓶頸,而且系統開放,易于維護、推理速度快。通過構建心臟病類型與相關病狀的指標體系,對雙論域粗糙集的上、下近似集進行計算,既可以根據心臟病的類型來尋找一些病癥的癥狀,又可以根據心臟病患者出現的病癥癥狀來確定患者患有的心臟病類型。醫(yī)生根據這些規(guī)則,不但可以降低對心臟病的誤診和漏診,而且能夠提升診斷的速度和精度。此外,本文的研究方法對其他疾病的診斷研究也具有一定的參考價值。
[1]Pawlak Z.Rough sets[J].International journal of parallel programming,1982,11(5):341-356.
[2]張文修,吳偉志,梁吉業(yè),等.粗糙集理論與方法[M].北京:科學出版社,2001:19-23.
ZHANG Wenxiu,WU Weizhi,LIANG Jiye,et al.Rough Set Theory and Method[M].Beijing:Science Press,2001:19-23.
[3]胡清華,于達仁.應用粗糙計算[M].北京:科學出版社,2012:56-60.
HU Qinghua,YU Daren.Application of Rough Set[M]. Beijing:Science Press,2012:56-60.
[4]程穎,崔運濤.基于PCA的決策樹算法在心臟病診斷中的應用[J].計算機與數字工程,2009,37(10):171-174.
CHENG Ying,CUI Yuntao.Application of Decision Tree Algorithm Based on PCA in the Application of Heart Dis?ease Diagnosis[J].Computer&Digital Engineering,2009,37(10):171-174.
[5]代文彬,張運陶,高興玉.基因表達式編程在心臟病診斷中的應用[J].生物醫(yī)學工程學雜志,2009,26(1):39-41.
DAIWenbin,ZHANG Yuntao,GAO Xingyu.The Applica?tion of Gene Expression Programming in the Diagnosis of Heart Disease[J].Journal of Biomedical Engineering,[J].電子測試,2008(2):18-22.
ZHU Yanqin,YANG Xianlin.Several improved methods based on waveletthreshold denoising[J].Electronic Test?ing,2008(2):18-22.
[11]陶紅艷,秦華峰,余成波.基于改進閾值函數的小波域去噪算法的研究[J].壓電與聲光,2008,30(1):93-95.
TAO Hongyan,QIN Huafeng,YU Chengbo.De-noising Algorithm Based on Improved Threshold Function in Wavelet Domain[J].Piezoelectric and Acousto-optic,2008,30(1):93-95.
[12]趙瑞珍,宋國鄉(xiāng),王紅.小波系數閾值估計的改進模型[J].西北工業(yè)大學學報:自然科學版,2001,19(4):625-628.
ZHAO Ruizhen,SONG Guoxiang,WANG Hong.An Im?proved Modelof Threshold Estimation for Wavelet Coeffi?cients[J].Journalof Northwestern Polytechnical Univer?sity:Natural Science,2001,19(4):625-628. 2009,26(1):39-41.
[6]徐東,陳彩霞,王翰虎.RS-LMBP神經網絡在心臟病診斷中的應用研究[J].計算機仿真,2011,28(2):236-239.
XU Dong,CHEN Caixia,WANG Hanhu.Research on Heart Disease Diagnosis Basd on RS-LMBP Neural Net?work[J].Computer Simulation,2011,28(2):236-239.
[7]邵峰峰.數據挖掘技術在心臟病診斷建模中的應用研究[J].福建電腦,2015,(2):63-74.
SHAO Fengfeng.Application of Data Mining Technology in the Diagnosis of Heart Disease[J].Fujian Computer,2015,(2):63-74.
[8]閻瑞霞,吳忠,鄭建國.粗糙集的論域擴展理論及在專家系統中的應用[M].北京:清華大學出版社,2013:95-107.
YAN Ruixia,WU Zhong,ZHENG Jianguo.Universe Ex?tension of Rough Setand Its Applications in Expert System[M].Beijing:Science Press,2013:95-107.
[9]丁保淼,張運陶,高興玉.基于c-均值聚類的粗糙集神經網絡在心臟病診斷中的應用[J].生物數學學報,2007,22(2):353-359.
DING Baomiao,ZHANG Yuntao,GAO Xingyu.The Appli?cation of Rough Set-Neural Network Based on c-Means Clustering in Heart Disease Diagnosation[J].Journal of Biomathematics,2007,22(2):353-359.
[10]史愛松,張秉森.基于粗糙集和BP神經網絡的心臟病病癥診斷方法[J].青島大學學報(自然科學版),2005,18(3):60-62.
SHIAisong,ZHANG Bingsen.Method of Cardiopathy Di?agnosis Based on Rough Sets Theory and Neural Network[J].Journal of Qingdao University(Natural Science),2005,18(3):60-62.
Application of Rough Setover Dual-Universes in the Diagnosis of Heart Disease
ZHONG Chunmei XIAO Jinsen
(Guangdong University ofPetrochemical Technology,Maoming 525000)
This paper mainly studies the application ofrough set over dual-universes in the diagnosis of heartdisease.First?ly,after analyzing the date got from questionnaire,the binary relations between the different types of heart disease and symptoms are established.In addition,two types of rules are obtained by using the extraction algorithm of the rough set over dual-universes:one is to use the differenttypes ofheartdisease to deduce the corresponding symptoms,the other is converse.
diagnosis ofheartdisease,decision rules,rough setoverdual-universes
O159,R311
10.3969/j.issn.1672-9722.2017.08.007
2017年3月5日,
2017年4月17日
廣東省高等學校優(yōu)秀青年教師培養(yǎng)計劃項目(編號:YQ2015117);廣東省青年創(chuàng)新人才項目(編號:2014KQNCX202);廣東省大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(編號:201511656007)資助。
鐘春梅,女,研究方向:粗糙集。肖勁森,男,博士,副教授,研究方向:粗糙集。