王有為, 吳 迪
(1.鄭州大學(xué) 軟件與應(yīng)用科技學(xué)院,河南 鄭州450000; 2.河南教育學(xué)院 信息技術(shù)系,河南 鄭州 450046)
?
聚類技術(shù)在醫(yī)學(xué)數(shù)據(jù)中的應(yīng)用
王有為1, 吳迪2
(1.鄭州大學(xué) 軟件與應(yīng)用科技學(xué)院,河南 鄭州450000; 2.河南教育學(xué)院 信息技術(shù)系,河南 鄭州 450046)
摘要:利用聚類算法和邊界檢測算法對腦癡呆數(shù)據(jù)進(jìn)行分析,以便找出引起腦癡呆病癥發(fā)生的原因和相關(guān)因素,從而采取有效的措施,更好地預(yù)防和治療疾病.通過對腦癡呆數(shù)據(jù)的聚類和邊界結(jié)果分析,得出了一些有益的結(jié)論,這些結(jié)論可以為醫(yī)療機(jī)構(gòu)提供決策依據(jù).
關(guān)鍵詞:聚類;邊界檢測;數(shù)據(jù)分析
0引言
聚類就是將物理或抽象對象的集合劃分成若干簇的過程,使得同一簇中的對象之間具有較高的相似性,而不同簇中的對象高度相異[1].聚類分析已經(jīng)發(fā)展成為數(shù)據(jù)挖掘中的核心技術(shù)[2],廣泛地應(yīng)用在各行各業(yè),例如生物學(xué)家根據(jù)聚類分析法可以從大量的遺傳信息中獲取類似功能的基因組[3];在網(wǎng)頁搜索中采用聚類功能可以找到某個(gè)特定方面的網(wǎng)頁信息;在地理氣候信息中使用聚類分析能夠有效地發(fā)現(xiàn)極地和海洋大氣壓力會(huì)被陸地氣候影響的模式;在商業(yè)信息中聚類分析通過處理當(dāng)前和潛在顧客的信息,為進(jìn)一步策劃商業(yè)營銷活動(dòng)提供便利[4].
聚類邊界是近幾年新興的研究熱點(diǎn),對提高聚類的精度和潛在數(shù)據(jù)模式有重要意義.聚類邊界由位于各個(gè)簇的邊緣數(shù)據(jù)點(diǎn)集合構(gòu)成,這部分?jǐn)?shù)據(jù)點(diǎn)具有特殊的意義,尤其對醫(yī)學(xué)數(shù)據(jù)的分析,聚類邊界點(diǎn)代表了新的潛在的模式.例如:對于乙肝五項(xiàng)化驗(yàn)結(jié)果的數(shù)據(jù)進(jìn)行聚類邊界檢測,會(huì)發(fā)現(xiàn)處在邊界點(diǎn)的數(shù)據(jù)雖然被劃分在乙肝病毒攜帶者的簇中,但是并未表現(xiàn)出乙肝病癥.因此,通過聚類邊界模式的分析能夠?qū)υ摷膊∵M(jìn)行診斷.
1相關(guān)技術(shù)
K-means算法是經(jīng)典的基于劃分的聚類算法之一,利用歐式距離作為相似度的劃分,即認(rèn)為兩個(gè)對象的距離越近,其相似度就越大.主要思想:從給定的n個(gè)數(shù)據(jù)對象的數(shù)據(jù)集中隨機(jī)選擇k個(gè)數(shù)據(jù)對象作為聚類的初始簇中心,其余數(shù)據(jù)對象根據(jù)相似度(歐式距離)選擇距離自己最近的簇中心進(jìn)行劃分;然后重新計(jì)算簇中心(該簇中所有對象的均值);不斷地重復(fù)該過程直到簇中心不再發(fā)生變化為止.
基于局部質(zhì)變因子(BRINK)算法[5]的主要思想: 首先掃描整個(gè)數(shù)據(jù)集,計(jì)算出數(shù)據(jù)集中的每個(gè)對象在每一維上的權(quán)重,其次根據(jù)加權(quán)的歐式距離計(jì)算出每個(gè)對象在數(shù)據(jù)集中的 K 近鄰和每個(gè)對象在其鄰域內(nèi)的可達(dá)距離,然后根據(jù)對象的可達(dá)距離計(jì)算出每個(gè)對象的局部可達(dá)密度, 最后根據(jù)局部可達(dá)密度得出每個(gè)對象的局部質(zhì)變因子,并依據(jù)每個(gè)對象的質(zhì)變程度標(biāo)記聚類的邊界.
2數(shù)據(jù)分析
數(shù)據(jù)分析先對數(shù)據(jù)對象聚類,然后求得聚類邊界,分析每個(gè)類中每個(gè)屬性的特征邊界的屬性特性,使用的分析工具是MDAP(medical data analysis platform)平臺(tái).
2.1系統(tǒng)平臺(tái)介紹
MDAP平臺(tái)是鄭州大學(xué)以聚類分析和邊界點(diǎn)檢測技術(shù)為基礎(chǔ)的醫(yī)學(xué)數(shù)據(jù)分析平臺(tái),能夠?qū)蟹诸悓傩?、?shù)值屬性以及混合屬性的數(shù)據(jù)進(jìn)行聚類和聚類邊界點(diǎn)檢測,對數(shù)據(jù)進(jìn)行分析處理,且提供友好的可視化界面.
2.2數(shù)據(jù)集說明
真實(shí)數(shù)據(jù)集“biomed”由漯河醫(yī)學(xué)高等??茖W(xué)校提供[6].該數(shù)據(jù)集由261個(gè)數(shù)據(jù)對象構(gòu)成,每個(gè)數(shù)據(jù)對象包含22個(gè)屬性〔姓名、性別、年齡、婚姻狀況、居住地、文化程度、職業(yè)、經(jīng)濟(jì)狀況、家庭關(guān)系是否和諧、有無心血管疾病、有無腦血管疾病、有無內(nèi)分泌系統(tǒng)疾病、有無免疫系統(tǒng)疾病、有無消化系統(tǒng)疾病、有無其他疾病、有無特殊飲食習(xí)慣、牙齒情況、有無保健習(xí)慣、改良長谷川、海金斯基缺血指數(shù)量表、MMSE(minimum mental state examination)、日常生活能力等〕.
2.3分析方法
本文首先使用MDAP醫(yī)學(xué)數(shù)據(jù)分析平臺(tái)對腦癡呆數(shù)據(jù)集進(jìn)行預(yù)處理,包括屬性值轉(zhuǎn)換、缺失值填補(bǔ)、標(biāo)準(zhǔn)化及屬性約簡,然后對數(shù)據(jù)集進(jìn)行聚類和邊界檢測,從而對數(shù)據(jù)進(jìn)行分析.
腦癡呆數(shù)據(jù)集中包含離散的分類屬性和連續(xù)的數(shù)值屬性,需要對這些屬性進(jìn)行轉(zhuǎn)換.分類屬性二元化使用的方法:如果一個(gè)屬性有m個(gè)分類值,則將每個(gè)原始值唯一地賦予區(qū)間[0,m-1]中的一個(gè)整數(shù);如果屬性是有序的,則賦值必須保持有序關(guān)系.
腦癡呆數(shù)據(jù)集的屬性中改良長谷川、海金斯基缺血指數(shù)量表、MMSE、日常生活能力的屬性值是數(shù)值型的可以直接使用,其余屬性都是分類屬性,要做出預(yù)處理,將文字性的描述變換為數(shù)值型數(shù)據(jù).例如,對有無腦血管疾病屬性值處理:“有”轉(zhuǎn)換為1,“無”轉(zhuǎn)換為0;對居住地屬性值進(jìn)行如下處理:考慮到漯河市城區(qū)的生活水平要優(yōu)于農(nóng)村的情況,將“居住城市”的屬性值轉(zhuǎn)換為0,“居住農(nóng)村”的屬性值轉(zhuǎn)換為1;對于年齡屬性做如下處理:考慮到發(fā)生癡呆病癥的大部分病人屬于老年人,因此以65歲作為分界點(diǎn),大于65歲的屬性值轉(zhuǎn)換為1,小于65歲的屬性值轉(zhuǎn)換為0;對于屬性文化程度做如下處理:將屬性值為“文盲”的轉(zhuǎn)換為0,否則轉(zhuǎn)換為1;對屬性有無保健習(xí)慣做如下處理:屬性值為“有保健習(xí)慣”轉(zhuǎn)換為0,否則轉(zhuǎn)換為1(預(yù)處理中轉(zhuǎn)換為0的屬性值均是不易造成腦癡呆的因素).
本文在處理缺失值時(shí)采用平均值插補(bǔ)方法,對數(shù)值型和分類型的屬性分別處理.對于缺失值是數(shù)值型的,就根據(jù)變量在其他所有對象的平均值來填充該缺失的變量值(比如數(shù)據(jù)集中的改良長谷川、海金斯基缺血指數(shù)量表、MMSE、日常生活能力這四個(gè)屬性利用該變量值在其他對象的平均值代替);對于缺失值是非數(shù)值型的(例如居住城市、是否文盲等屬性),則根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,利用該變量在其他所有對象的取值次數(shù)最多的值來補(bǔ)齊所缺失的變量值.
標(biāo)準(zhǔn)化采用Min-max標(biāo)準(zhǔn)化:Min-max標(biāo)準(zhǔn)化方法是對原始數(shù)據(jù)進(jìn)行線性變換,即設(shè)minA和maxA分別為屬性A的最小值和最大值,然后將A的一個(gè)原始值x通過Min-max標(biāo)準(zhǔn)化映射到區(qū)間[0,1]中,得到一個(gè)新的值x′,其公式為新數(shù)據(jù)=(原數(shù)據(jù)-極小值)/(極大值-極小值),利用線性變換把分類屬性值映射成區(qū)間[0,1]中的值.
屬性約簡:即刪除一些無關(guān)的屬性降低數(shù)據(jù)的維度.在這22個(gè)屬性中,對算法影響不大的屬性有:姓名、職業(yè)、經(jīng)濟(jì)情況、婚姻狀況、家庭關(guān)系是否和諧、有無特殊飲食習(xí)慣、牙齒情況,因此將這些屬性作為無關(guān)屬性去除;而性別、年齡、文化程度、居住地、改良長谷川、海金斯基缺血指數(shù)量表、MMSE、日常生活能力、有無心血管疾病、有無腦血管疾病、有無內(nèi)分泌系統(tǒng)疾病、有無免疫系統(tǒng)疾病、有無消化系統(tǒng)疾病、有無其他疾病、有無保健習(xí)慣等15個(gè)屬性與腦癡呆病癥關(guān)系密切,因此作為算法處理的屬性.
本文首先采用K-means聚類算法對腦癡呆數(shù)據(jù)集聚類,聚類的結(jié)果包含93個(gè)病人和 110個(gè)正常人.對聚類結(jié)果進(jìn)行統(tǒng)計(jì)如表1所示.
病人:普遍特征為居住在農(nóng)村、男性、文盲、年齡超過65歲、正常生活能力指數(shù)低于18、MMSE低于16、海金斯基缺血指數(shù)低于8.
正常人:普遍特征為居住在城市、文化程度較高、年齡大都低于65歲、無其他疾病、牙齒良好、正常生活能力指數(shù)較高、MMSE 高于16、海金斯基缺血指數(shù)大都高于8.
聚類結(jié)果表明農(nóng)村比城市患病率高,男性比女性患病率高,文化程度也是影響患病的關(guān)鍵因素之一;正常生活能力指數(shù)、MMSE、海金斯基缺血指數(shù)等也是影響患病的重要因素. 有無其他疾病和牙齒好壞對患病沒有很大的影響,特殊飲食和保健習(xí)慣對患病也沒影響.
使用BRINK邊界檢測算法對上述聚類結(jié)果進(jìn)行邊界檢測:首先選擇對患病影響較大的屬性:對居住地為農(nóng)村、性別為男性、文化程度為文盲者進(jìn)行實(shí)驗(yàn).
表1 聚類結(jié)果統(tǒng)計(jì)
當(dāng)選定居住地和性別這兩個(gè)分類屬性時(shí),其組合屬性共有4個(gè),分別為農(nóng)村-男,農(nóng)村-女,城市-男,城市-女,每個(gè)組合屬性的分布情況統(tǒng)計(jì)如表2.
表2 居住地-性別屬性統(tǒng)計(jì)
當(dāng)用戶指定分類屬性選擇居住地(農(nóng)村)、性別(男)、文化程度(文盲),則根據(jù)算法的邊界點(diǎn)檢測情況,具有這個(gè)組合屬性的數(shù)據(jù)記錄中是邊界點(diǎn)的個(gè)數(shù)為29,也就是說可疑癡呆的有29個(gè).
由邊界算法得到的最終的結(jié)果如表3所示.該算法檢測到38個(gè)邊界點(diǎn),而真實(shí)邊界點(diǎn)為34個(gè),該算法將4個(gè)其他數(shù)據(jù)點(diǎn)誤檢測為邊界點(diǎn).因此,該邊界檢測算法能夠有效地識別出邊界點(diǎn)即可疑癡呆人群,從而對預(yù)防腦癡呆病提供了很大的幫助.
表3 真實(shí)數(shù)據(jù)集Alzheimer邊界檢測結(jié)果
2.4分析結(jié)果
從表4可以看出可疑癡呆病人在屬性年齡、文化程度、是否患有心血管疾病、是否患有其他疾病、是否有保健行為、正常生活指數(shù)低于18、MMSE和海金斯基缺血指數(shù)量表的屬性上占有較高的比重,例如:在這38個(gè)可疑癡呆病癥中,就有37個(gè)對象在年齡屬性上超過65歲,占邊界總?cè)藬?shù)的97.8%。而這些屬性正是診斷腦癡呆病人的重要指標(biāo),因此這些人極有可能發(fā)展為老年癡呆病人.通過對該算法得到的結(jié)果進(jìn)行分析,能夠幫助可能癡呆人群采取有效的預(yù)防,從而降低腦癡呆病癥的暴發(fā)率。
表4 標(biāo)準(zhǔn)數(shù)據(jù)集Alzheimer的邊界檢測結(jié)果與屬性統(tǒng)計(jì)
3結(jié)論
腦癡呆數(shù)據(jù)集的邊界點(diǎn)為那些有腦癡呆病癥但并未患腦癡呆疾病的數(shù)據(jù)記錄,即那些將患有腦癡呆的人群,MDAP對病人的數(shù)據(jù)記錄進(jìn)行邊界點(diǎn)檢測分析,判斷出那些位于患有腦癡呆和未患腦癡呆之間的疑似癡呆人群,能有效地幫助邊界人群即可疑癡呆人群預(yù)防老年癡呆癥狀,分析患病的重要因素,為醫(yī)藥研制和衛(wèi)生部門提供決策依據(jù).同時(shí)我們還可以向有關(guān)政府部門反映,改善農(nóng)村的生活水平,提高生活質(zhì)量,普及教育,有助于對患有病癥的人群進(jìn)行及早預(yù)防和治療.
參考文獻(xiàn)
[1]XIA CHENYI, HSU W, LEE M L. BORDER: Efficient computation of boundary points[C]. IEEE Trans on Knowledge and Data Engineering, 2006, 18(3):289-303.
[2]孔波,王紅蔚.基于最小二乘法的無監(jiān)督支持向量機(jī)[J].河南教育學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,23(4):17-19.
[3]茹家康,袁琳.基因序列的搜索與相似性比對[J].河南教育學(xué)院學(xué)報(bào)(自然科學(xué)版),2016,25(1):25-31.
[4]王有為.基于二路生成樹和融合邊界的聚類邊界檢測算法研究[D].鄭州:鄭州大學(xué),2013.
[5]邱保志,楊洋,杜效偉.BRINK:基于局部質(zhì)變因子的聚類邊界檢測算法[J].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2012,33(3):117-120.
[6]邱保志,王有為.基于二路生成樹的聚類邊界檢測算法[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(10):130-132.
Application of Clustering Technology in Medical Data
WANG Youwei1, WU Di2
(1.Department of Software and Applied Technology, Zhengzhou University, Zhengzhou 450000, China;2.DepartmentofInformationTechnology,HenanInstituteofEducation,Zhengzhou450046,China)
Abstract:Using clustering algorithm and boundary detection algorithm to analyze brain dementia data, to find the factors which are more likely to cause disease, so as to take effective measures for better prevention and treatment of disease. Some useful conclusions can be drawn through analyzing the result of clustering and boundary on the brain dementia data, which can provide decision-making basis for medical institutions.
Key words:clustering; boundary detection; data analysis
收稿日期:2016-01-05
基金項(xiàng)目:河南省基礎(chǔ)與前沿研究項(xiàng)目(142300410136)
作者簡介:王有為(1987—),女,河南焦作人,鄭州大學(xué)軟件與應(yīng)用科技學(xué)院教師.
doi:10.3969/j.issn.1007-0834.2016.02.008
中圖分類號:TP301.6
文獻(xiàn)標(biāo)志碼:A
文章編號:1007-0834(2016)02-0032-04