王珩
電子病歷挖掘旨在提取出電子病歷數(shù)據(jù)庫(kù)中有用的醫(yī)療信息,并挖掘隱含在其中的醫(yī)學(xué)診斷規(guī)則和模式,從而為疾病診斷和治療提供科學(xué)的、準(zhǔn)確的輔助決策。電子病歷數(shù)據(jù)挖掘涉及面廣、技術(shù)難度大,需要從事信息處理、計(jì)算機(jī)技術(shù)、應(yīng)用數(shù)學(xué)的科研人員以及具備相當(dāng)經(jīng)驗(yàn)的醫(yī)務(wù)工作者通力合作。本文從電子病歷數(shù)據(jù)挖掘的概念、電子病歷的數(shù)據(jù)特性、電子病歷數(shù)據(jù)挖掘的步驟以及應(yīng)用前景等方面作了簡(jiǎn)單研究和介紹。
【關(guān)鍵詞】電子病歷 數(shù)據(jù)挖掘 預(yù)處理 應(yīng)用與發(fā)展
隨著數(shù)字化醫(yī)院建設(shè)的不斷推進(jìn)和計(jì)算機(jī)應(yīng)用技術(shù)的不斷普及,現(xiàn)代醫(yī)院正在逐步向無(wú)紙化運(yùn)行邁進(jìn),電子病歷系統(tǒng)作為數(shù)字化醫(yī)院管理的一個(gè)重要組成部分,其囊括了醫(yī)療過(guò)程和醫(yī)患活動(dòng)的全部數(shù)據(jù)資源,并積累了相當(dāng)龐大的數(shù)據(jù)量,通過(guò)對(duì)電子病歷的數(shù)據(jù)挖掘,提取出病歷數(shù)據(jù)庫(kù)中的有用醫(yī)療信息,并挖掘出隱含于其中的醫(yī)學(xué)診斷規(guī)則和模式,可盤活塵封的海量數(shù)據(jù),為疾病診斷、治療及預(yù)防提供科學(xué)準(zhǔn)確的輔助決策。
1 電子病歷數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘DM(Data Mining)是基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)KDD(Knowledge-Discovery in Databases)中的一個(gè)重要處理步驟,一般將KDD中進(jìn)行知識(shí)學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘,亦可譯為資料探勘、數(shù)據(jù)采礦,而KDD則是指從大量的數(shù)據(jù)中提取出新穎有效的、可能有用的數(shù)據(jù)結(jié)構(gòu),形成可被理解的模式,最終實(shí)現(xiàn)低層數(shù)據(jù)向高層知識(shí)的轉(zhuǎn)化。因此,數(shù)據(jù)挖掘可定義為是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。
電子病歷系統(tǒng)是利用現(xiàn)代信息技術(shù)對(duì)傳統(tǒng)病歷實(shí)現(xiàn)收集存儲(chǔ)、傳輸共享以及分析研究等功能的一種計(jì)算機(jī)程序軟件。電子病歷包含的內(nèi)容為醫(yī)務(wù)人員在對(duì)患者進(jìn)行的診療活動(dòng)過(guò)程中,整理形成一整套的醫(yī)療活動(dòng)記錄,包括文字符號(hào)、圖表圖形、影像數(shù)據(jù)等數(shù)字化信息。
2011年衛(wèi)生部制定了電子病歷的基本規(guī)范,并在全國(guó)范圍內(nèi)110家醫(yī)院開(kāi)展電子病歷的試點(diǎn)工作。經(jīng)過(guò)幾年的發(fā)展,電子病歷系統(tǒng)已成為衡量醫(yī)院信息化建設(shè)水平的一個(gè)重要標(biāo)準(zhǔn),電子病歷系統(tǒng)也積累了相當(dāng)可觀的數(shù)據(jù)量,并且這些數(shù)據(jù)都是患者的真實(shí)數(shù)據(jù),對(duì)這樣的數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘分析,以探求各種疾病的發(fā)展規(guī)律以及疾病之間的相互關(guān)系等、探討對(duì)比不同治療方案的診療效果,這對(duì)疾病的診療和醫(yī)學(xué)研究等都具有巨大的價(jià)值和廣闊的發(fā)展前景。
2 電子病歷系統(tǒng)的數(shù)據(jù)特點(diǎn)
病歷是患者在醫(yī)院診療過(guò)程的全紀(jì)錄,電子病歷系統(tǒng)保存了這些記錄的數(shù)字化信息,因此電子病歷系統(tǒng)數(shù)據(jù)庫(kù)的內(nèi)容異常豐富,既包含臨床診療參數(shù),也涉及各類管理數(shù)據(jù),這些數(shù)據(jù)反映了醫(yī)學(xué)數(shù)據(jù)的獨(dú)特性,具有如下幾個(gè)特性:
2.1 電子病歷數(shù)據(jù)的多樣性
從信息的表現(xiàn)形式方面區(qū)分,電子病歷數(shù)據(jù)元素可分為文字(如患者信息、病史信息、查房錄、病程記錄等)、數(shù)字(如體溫、血壓、脈搏、檢驗(yàn)結(jié)果等)、圖形圖像(心電圖、CT、DR圖像等)、音頻(如心音)等。電子病歷數(shù)據(jù)的多樣性是其區(qū)別于其他領(lǐng)域的最顯著特征,同時(shí)也增加了對(duì)其進(jìn)行數(shù)據(jù)挖掘的難度,尤其是在數(shù)據(jù)預(yù)處理階段,需要對(duì)部分?jǐn)?shù)據(jù)進(jìn)行格式轉(zhuǎn)換。
2.2 電子病歷數(shù)據(jù)的動(dòng)態(tài)性
有些電子病歷數(shù)據(jù)具有一定的時(shí)序性,是隨著時(shí)間的推移不斷更新變化的,比如心電圖像、24h血壓測(cè)量數(shù)據(jù)等,甚至縱觀患者整個(gè)診療過(guò)程,其病情的發(fā)展、診療的結(jié)果、病程記錄等,都是隨著時(shí)間的推移而變化的。
2.3 電子病歷數(shù)據(jù)的不完整性
電子病歷數(shù)據(jù)是對(duì)患者診療記錄的如實(shí)記錄,是以治愈患者為目的,而非以研究為目的,因此對(duì)電子病歷數(shù)據(jù)的采集和處理可能會(huì)出現(xiàn)一定的偏差,采集的數(shù)據(jù)可能無(wú)法涵蓋研究所需。另外,疾病本身具有的模糊性、患者的表達(dá)能力、醫(yī)護(hù)人員的理解能力也不盡相同,也可能會(huì)造成數(shù)據(jù)記錄的偏差和殘缺。
2.4 電子病歷數(shù)據(jù)的冗余性
電子病歷系統(tǒng)是一個(gè)特殊的系統(tǒng),其數(shù)據(jù)安全關(guān)乎患者的診療效果乃至生命安全,為進(jìn)行數(shù)據(jù)校驗(yàn),系統(tǒng)必然會(huì)存在大量重復(fù)甚至矛盾的數(shù)據(jù)。如何對(duì)這些數(shù)據(jù)進(jìn)行有效性篩選、獲取唯一可信的數(shù)據(jù)集,是電子病歷數(shù)據(jù)清洗的一個(gè)重要步驟。
2.5 電子病歷數(shù)據(jù)的隱私性
電子病歷系統(tǒng)囊括了患者在院診療過(guò)程中的所有信息,其中不乏涉及患者的隱私,如身份信息、疾病信息等,一旦這些信息被暴露,很可能會(huì)對(duì)患者的生活造成侵?jǐn)_,甚至?xí)l(fā)倫理、法律等方面的問(wèn)題。因此,在對(duì)電子病歷數(shù)據(jù)進(jìn)行挖掘研究的同時(shí),還應(yīng)做好數(shù)據(jù)安全方面的相關(guān)工作。
3 電子病歷數(shù)據(jù)挖掘的步驟
對(duì)電子病歷的數(shù)據(jù)挖掘工作可分為預(yù)處理和挖掘分析兩大階段。由于電子病歷數(shù)據(jù)具有多樣性、時(shí)序性、不完整性等諸多特性,需要對(duì)待挖掘數(shù)據(jù)進(jìn)行篩選、清洗、匿名化、標(biāo)識(shí)轉(zhuǎn)換等操作,通常在數(shù)據(jù)預(yù)處理階段通常需要投入更多的人力物力和時(shí)間等。電子病歷數(shù)據(jù)挖掘的具體步驟介紹如下:
3.1 問(wèn)題的理解和定義
電子病歷數(shù)據(jù)挖掘的工作需要從事信息處理、計(jì)算機(jī)技術(shù)、應(yīng)用數(shù)學(xué)等方向的科研人員與醫(yī)務(wù)工作者通力合作,明確數(shù)據(jù)挖掘的電子病歷數(shù)據(jù)對(duì)象和所期望得到的相關(guān)結(jié)果。
3.2 數(shù)據(jù)采集與目標(biāo)數(shù)據(jù)庫(kù)生成
根據(jù)對(duì)問(wèn)題的理解采集相關(guān)數(shù)據(jù),并根據(jù)不同的目標(biāo)組織生成對(duì)應(yīng)的數(shù)據(jù)庫(kù)。例如需要獲取和優(yōu)化某疾病的診療方案,在目標(biāo)數(shù)據(jù)庫(kù)組織的時(shí)候就需要包含一定比例的成功病例和失敗病例作為數(shù)據(jù)挖掘的訓(xùn)練例和對(duì)比例,以便最終能獲取令人信服的結(jié)果。
3.3 數(shù)據(jù)清洗和預(yù)處理
由于電子病歷數(shù)據(jù)中包含相當(dāng)數(shù)量的冗余數(shù)據(jù)和不完整數(shù)據(jù)等,需要對(duì)待挖掘的數(shù)據(jù)進(jìn)行清洗和預(yù)處理,其目的是清理冗余數(shù)據(jù)、填充空缺數(shù)據(jù)、糾正錯(cuò)誤數(shù)據(jù)。
3.4 數(shù)據(jù)工程
對(duì)清理后的數(shù)據(jù)進(jìn)行約簡(jiǎn)與投影,主要包括選定具有代表性的屬性子集,通過(guò)降低維度或變換格式的方法來(lái)減少有效數(shù)據(jù)變量。該步驟可重復(fù)多次,才能用最少的數(shù)據(jù)變量代表目標(biāo)數(shù)據(jù)。
3.5 算法選擇并實(shí)施
根據(jù)數(shù)據(jù)挖掘的目標(biāo)選取合適的數(shù)據(jù)挖掘算法,并將該算法應(yīng)用于經(jīng)過(guò)處理的數(shù)據(jù)上,從目標(biāo)數(shù)據(jù)中提取數(shù)據(jù)模式,獲取疾病分類、相互作用關(guān)系等所期望的挖掘結(jié)果,并使用可視化或知識(shí)表的形式進(jìn)行展示。
3.6 評(píng)估和使用挖掘結(jié)果
由相關(guān)領(lǐng)域?qū)<覍?duì)發(fā)現(xiàn)的模式進(jìn)行有效性和新穎性評(píng)價(jià),利用發(fā)現(xiàn)的有用模式優(yōu)化醫(yī)生的診療流程或提供輔助決策支持,提高診療效率。
4 電子病歷數(shù)據(jù)挖掘的應(yīng)用及發(fā)展前景
數(shù)據(jù)挖掘技術(shù)在數(shù)字化醫(yī)院中有著廣泛的應(yīng)用,可為金保工程提供數(shù)據(jù)分析、為醫(yī)院管理提供決策支持等。針對(duì)電子病歷的數(shù)據(jù)挖掘也可為醫(yī)療診斷等方面提供幫助,如發(fā)現(xiàn)各種疾病之間內(nèi)在聯(lián)系、進(jìn)行病情預(yù)測(cè)與疾病分類、自動(dòng)分析影像數(shù)據(jù)、指導(dǎo)臨床用藥等。
盡管電子病歷挖掘研究對(duì)醫(yī)療領(lǐng)域的分析具有較高的價(jià)值,但也面臨一些問(wèn)題,如提供疾病診斷輔助決策結(jié)果是根據(jù)部分病例及某些專家的診斷經(jīng)驗(yàn)而獲得的,在客觀性和普遍性方面不能得到有效保證,在實(shí)際應(yīng)用中還須甄別使用。
電子病歷數(shù)據(jù)挖掘是一門涉及面廣、技術(shù)難度大的新興交叉學(xué)科,隨著計(jì)算機(jī)醫(yī)學(xué)應(yīng)用的更廣泛開(kāi)展,將會(huì)開(kāi)發(fā)出更有效的算法模型,數(shù)據(jù)挖掘技術(shù)將在疾病預(yù)防、診斷、治療中得到進(jìn)一步發(fā)展和普及,從來(lái)帶來(lái)更大的社會(huì)和經(jīng)濟(jì)效益。
參考文獻(xiàn)
[1]周怡,王世偉.醫(yī)學(xué)數(shù)據(jù)挖掘——SQL Server2005案例分析[M].北京:中國(guó)鐵道出版社,2008.
[2]吳漢華.大數(shù)據(jù)時(shí)代中如何進(jìn)行醫(yī)療數(shù)據(jù)挖掘與利用[J].硅谷,2014(05).
[3]丁衛(wèi)平,管致錦等.電子病歷挖掘:概念、技術(shù)及應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(01).
[4]蔣俊.數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息系統(tǒng)中的應(yīng)用[J].無(wú)線互聯(lián)科技,2015(08).
[5]莊軍,郭平等.電子病歷數(shù)據(jù)預(yù)處理技術(shù)[J].計(jì)算機(jī)科學(xué),2007(03).
作者單位
南京郵電大學(xué) 江蘇省南京市 210046