邱 碩,劉佳欣,李啟康,施炎峰,柳亞男,張 正
(1.金陵科技學(xué)院 網(wǎng)絡(luò)安全學(xué)院,江蘇 南京 211169;2.南京工程學(xué)院 計(jì)算機(jī)工程學(xué)院,江蘇 南京 211167)
隨著數(shù)據(jù)存儲(chǔ)、計(jì)算平臺(tái)以及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,我國醫(yī)療系統(tǒng)已初具規(guī)模,許多醫(yī)院都建有自己的醫(yī)療信息系統(tǒng),為我國電子醫(yī)療病歷(Electronic medical record,EMR)的研究提供了市場需求[1]。李克強(qiáng)總理也強(qiáng)調(diào),發(fā)展并應(yīng)用好健康醫(yī)療大數(shù)據(jù),有利于提高醫(yī)療服務(wù)效率和質(zhì)量,促進(jìn)健康產(chǎn)業(yè)發(fā)展,改善民生[2]。目前,EMR數(shù)據(jù)形式復(fù)雜多樣,醫(yī)療大數(shù)據(jù)爆發(fā),使得對(duì)EMR數(shù)據(jù)的處理已經(jīng)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的信息處理能力。要實(shí)現(xiàn)多家醫(yī)療機(jī)構(gòu)的信息共享,必須引入創(chuàng)新型的聚類算法,實(shí)現(xiàn)對(duì)大量數(shù)據(jù)進(jìn)行數(shù)據(jù)聚類分析,將復(fù)雜的數(shù)據(jù)簡單化、具體化、類別化。此外,由于我國的人口和地理因素,各個(gè)區(qū)域尤其是偏遠(yuǎn)地區(qū)醫(yī)療設(shè)施分配不合理,導(dǎo)致了大量的長尾需求,這也促進(jìn)了基于EMR數(shù)據(jù)解決醫(yī)療服務(wù)問題的相關(guān)研究。
隨著信息化技術(shù)的廣泛應(yīng)用,EMR中記錄著病人健康管理過程產(chǎn)生的所有信息,除了包括個(gè)人基本信息外,還包括一些健康信息、病史記錄、檢查結(jié)果等,大多數(shù)屬于不希望被外人所知的敏感信息。一旦信息被泄露,可能使病人遭受社會(huì)負(fù)面評(píng)價(jià)、歧視侮辱等不良影響。綜上,在對(duì)EMR數(shù)據(jù)進(jìn)行聚類時(shí),一方面考慮數(shù)據(jù)聚類的高效性,另一方面考慮聚類后數(shù)據(jù)共享的安全性。由于EMR具有多樣性、不完整性、序列性、多因素影響、多資源信息等數(shù)據(jù)特點(diǎn)[3],使得對(duì)EMR的研究成為一個(gè)非常有價(jià)值且具挑戰(zhàn)性的工作[4]。Jensen等[5]認(rèn)為,通過對(duì)電子病歷的數(shù)據(jù)挖掘可以形成新的患者群體的劃分,還能發(fā)現(xiàn)疾病之間的相互作用關(guān)系;Zhou等[6]提出了Pacifier(Patient record densifier)方法,用于從電子病歷中發(fā)現(xiàn)患者的表性特征;Liang等[7]通過卷積深度網(wǎng)絡(luò)對(duì)患者的電子病歷進(jìn)行深度特征提取。雖然國外對(duì)EMR中的數(shù)據(jù)挖掘已取得一定的成果,但我國在這方面還有所欠缺[8-10]。同時(shí)目前已有的一些數(shù)據(jù)挖掘技術(shù)大都是在醫(yī)院內(nèi)部進(jìn)行的,無法有效地實(shí)現(xiàn)數(shù)據(jù)共享、提升數(shù)據(jù)的使用率。針對(duì)我國還有部分地區(qū)醫(yī)療水平低的現(xiàn)狀,需要結(jié)合患者的特點(diǎn)給出較佳的治療方案。同時(shí),由于電子病歷中包含了患者的隱私信息,一旦泄露出去,就會(huì)影響患者的個(gè)人生活[11-14]。陳鶴群等[12-16]總結(jié)了醫(yī)療數(shù)據(jù)共享中的安全與隱私保護(hù)技術(shù)。
直接通過改進(jìn)K中心和K均值算法得到動(dòng)態(tài)數(shù)據(jù)聚類算法,對(duì)于處理規(guī)模較大的數(shù)據(jù)具有不可忽視的局限性,比如實(shí)時(shí)性低、效率低、準(zhǔn)確率低等問題[17]。然而傳統(tǒng)的近鄰傳播(Affinity propagation, AP)聚類的局限性在于其無法處理動(dòng)態(tài)數(shù)據(jù),這不符合電子病歷的需求[18-20]。Sreedhar等[19]采用基于k-centroid的相似度計(jì)算實(shí)現(xiàn)用戶聚類,并利用哈希技術(shù)實(shí)現(xiàn)對(duì)聚類數(shù)據(jù)的隱私保護(hù);隨后,Swathi等[20]提出了優(yōu)化方案,提升了聚類方案的安全性。但以上方案均無法支持動(dòng)態(tài)數(shù)據(jù)更新的聚類計(jì)算。本文為提高共享效率,考慮EMR中數(shù)據(jù)聚類后的安全共享問題,主要做了以下工作:結(jié)合已有的高效增量式AP聚類算法,實(shí)現(xiàn)了對(duì)EMR中患者群體的劃分;結(jié)合快速AP聚類算法,以相似度為標(biāo)準(zhǔn)實(shí)現(xiàn)治療方案的個(gè)性化推薦;采用高效的加密算法,實(shí)現(xiàn)不同EMR聚類結(jié)果之間的共享,從而得到更好的推薦治療方案,并且保障了數(shù)據(jù)共享過程中的隱私保護(hù)。
為了使得數(shù)據(jù)形式更加統(tǒng)一化,提高算法的執(zhí)行效率,本文對(duì)EMR中的數(shù)據(jù)進(jìn)行預(yù)處理。
本節(jié)中所描述的增量式AP聚類算法基于消息傳遞式的K中心增量式AP聚類算法。引用了標(biāo)準(zhǔn)AP聚類中常用的吸引度矩陣R和歸屬度矩陣A作為消息傳遞的類型。圖1為消息傳遞過程。
圖1 消息傳遞過程圖
圖1(a)為消息傳遞的過程,矩陣結(jié)點(diǎn)ci表示變量,dj表示函數(shù)。圖1(b)中ci到dj的連線表示數(shù)據(jù)對(duì)象i將選擇的代表點(diǎn)告知代表點(diǎn)j,dj到ci的連線表示j將聚簇的新的代表點(diǎn)告訴i。圖1(b)為消息傳遞的內(nèi)容,r(i,j)表示吸引度矩陣R中的元素,a(i,j)表示歸屬度矩陣A中的元素。圖1中每一個(gè)結(jié)點(diǎn)都可以進(jìn)行消息傳遞,計(jì)算自己得到的消息,并將結(jié)果沿著邊發(fā)給其他結(jié)點(diǎn)。變量結(jié)點(diǎn)ci的計(jì)算公式為
(1)
式中:M={m1,m2,…,mk}是當(dāng)前代表點(diǎn)的集合,s(i,j)表示數(shù)據(jù)對(duì)象i和數(shù)據(jù)對(duì)象j之間的相似度。式(1)表示對(duì)象結(jié)點(diǎn)ci根據(jù)所得到的消息找到與之最近的1個(gè)點(diǎn)作為歸屬,并將結(jié)果告訴函數(shù)結(jié)點(diǎn)dj。而函數(shù)結(jié)點(diǎn)dj的計(jì)算公式為
(2)
式中:如果i=j,則f(i,j)=1,否則,f(i,j)=0?!苀(ci,mj)s(i,q)表示選擇數(shù)據(jù)對(duì)象q作為聚簇j的代表點(diǎn)的相似度之和。式(2)表示聚簇j選擇新的代表點(diǎn)。
基于消息傳遞式的K中心增量式AP聚類算法見算法1。其中,Gt-1表示上一次聚類的數(shù)據(jù)對(duì)象,ct-1表示上一次聚類的結(jié)果,Dt表示新的數(shù)據(jù)對(duì)象。當(dāng)t=1時(shí),采用標(biāo)準(zhǔn)AP聚類算法對(duì)G0進(jìn)行聚類,聚類結(jié)果為c0。本算法將用于患者群體劃分。
算法1基于K中心的增量式AP聚類
輸入:Gt-1,ct-1,Dt
輸出:ct
(1)在當(dāng)前代表點(diǎn)的集合中,為Dt找到代表點(diǎn),記為c′t
Gt=Gt-1∪Dtct=ct-1c′t
(2)根據(jù)式(1)和式(2)進(jìn)行消息傳遞;
(3)重復(fù)步驟(2)直至收斂,輸出ct為聚類結(jié)果。
由于電子病歷的規(guī)模大,引用基于因子圖(Factor graph)的快速AP聚類來提高聚類的效率。其主要思想為:對(duì)因子圖進(jìn)行壓縮和稀疏,最后通過消息傳遞實(shí)現(xiàn)最終的聚類結(jié)果。其中,因子圖是一種用來描述變量之間關(guān)系的概率圖,包括函數(shù)結(jié)點(diǎn)、變量結(jié)點(diǎn)和對(duì)應(yīng)的函數(shù)關(guān)系。在概率圖模型中,可以將貝葉斯網(wǎng)絡(luò)和馬爾可夫隨機(jī)場轉(zhuǎn)換為因子圖,可以高效地求得各個(gè)變量的邊緣分布。首先,在對(duì)因子圖進(jìn)行壓縮時(shí),本文采用潛在代表點(diǎn)選擇法,具體見算法2。
算法2潛在代表點(diǎn)選擇算法
輸入:相似度矩陣S,壓縮比率w
輸出:潛在代表點(diǎn)集合M′
(1)每個(gè)數(shù)據(jù)對(duì)象作為代表點(diǎn)代表1個(gè)小簇;
(2)每個(gè)小簇通過因子圖算法與其相鄰的小簇進(jìn)行聚類,相似度為每個(gè)小簇中代表點(diǎn)的相似度;
(3)相似度最高的2個(gè)代表點(diǎn)集合組成1個(gè)微簇,融合為1個(gè)新簇Cnew。
(4)根據(jù)
計(jì)算新簇的代表點(diǎn),其中mnew為新簇的代表點(diǎn)。
(5)如果微簇的數(shù)量小于w,則輸出新簇代表點(diǎn)集合M′={mnew},否則返回步驟(2)。
其次,由于快速AP中的消息傳遞經(jīng)常會(huì)導(dǎo)致某一局域的微簇過于密集,代表點(diǎn)數(shù)量過多,因此本文采用K近鄰(K-nearest neighbor,KNN)算法稀疏相似度矩陣[21,22],即每個(gè)數(shù)據(jù)對(duì)象只保存與它臨近的k個(gè)小簇的相似度,其他小簇的相似度均刪除。最后,實(shí)現(xiàn)快速AP聚類算法,如算法3所示。
算法3快速AP聚類算法
輸入:相似度矩陣S,壓縮比率w
輸出:聚類結(jié)果c
(1)根據(jù)輸入S、w,執(zhí)行潛在代表點(diǎn)選擇算法,構(gòu)建壓縮后的相似度矩陣S′。
(2)通過KNN算法將S′進(jìn)行稀疏,得到S″,S″為稀疏矩陣。
(3)構(gòu)造稀疏因子圖,并在其中進(jìn)行消息傳遞。
(4)重復(fù)步驟(3),直至收斂得到最終的聚類結(jié)果c。
經(jīng)過分析,基于因子圖得到的壓縮稀疏后的相似度矩陣,可大幅度減少消息在因子圖中傳遞過程中的歸屬度矩陣和吸引度矩陣中的數(shù)據(jù),減少AP聚類過程中的計(jì)算量,大大提升了效率。
為了解決直接對(duì)電子病歷數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理所造成的浪費(fèi)計(jì)算機(jī)資源且效率低的問題,對(duì)數(shù)據(jù)庫進(jìn)行預(yù)處理。本文所用的數(shù)據(jù)庫中包含多種信息,如患者信息(身份證號(hào)碼、性別、年齡、職業(yè)、籍貫、居住地、個(gè)人病史、家族病史等)、診斷信息(疾病的名稱以及嚴(yán)重度)、醫(yī)囑信息(治療期間的用藥記錄)、治療記錄(患者每個(gè)治療療程的記錄)、治療結(jié)果(治愈、好轉(zhuǎn)、無效果、惡化)等等。
以皮膚癌為例,采用決策樹進(jìn)行保留特征數(shù)據(jù)的選擇。數(shù)據(jù)庫中保留的信息有患者的年齡、性別、職業(yè)、疾病嚴(yán)重度,用藥的名稱、劑量、途徑、頻次和時(shí)間以及治療方式。本文主要研究年齡為11~75歲的患者,每5歲劃分為1個(gè)階段,如:年齡為11~15記為1,年齡16~20記為2,以此類推,直至年齡為71~75記為13。性別為男記為1,女記為0。疾病嚴(yán)重度,“輕度”記為1,“中度”記為2,“重度”記為3。用藥名稱的預(yù)處理見表1,職業(yè)的預(yù)處理見表2,用藥途徑的預(yù)處理見表3,治療方式的預(yù)處理見表4。
表1 用藥名稱的預(yù)處理表
表2 職業(yè)的預(yù)處理表
表3 用藥途徑的預(yù)處理表
表4 治療方式的預(yù)處理表
將從2個(gè)方面對(duì)EMR中的信息進(jìn)行聚類。首先,對(duì)患者的年齡、性別、職業(yè)、居住地、疾病嚴(yán)重程度聚類,實(shí)現(xiàn)患者類別的劃分。接著,根據(jù)劃分好的患者類別,對(duì)患者治療記錄聚類,得到治療方案,實(shí)現(xiàn)為特定類別患者找到個(gè)性化治療方案的目的。聚類流程圖如圖2所示。
圖2 聚類流程圖
患者群體指的是具有相似醫(yī)學(xué)特征的1組患者。根據(jù)1.3小節(jié)中給出的數(shù)據(jù)庫預(yù)處理標(biāo)準(zhǔn),選擇年齡、性別、職業(yè)、居住地、疾病嚴(yán)重程度共5個(gè)屬性計(jì)算患者之間的相似度。在數(shù)據(jù)預(yù)處理后,若2個(gè)特征值相等則記屬性相似度為1。若2個(gè)患者的性別都為“女”,則記性別屬性相似度為1,否則為0。最后患者的相似度取每一個(gè)屬性相似度的加權(quán)平均值。
以相似度為聚類標(biāo)準(zhǔn)進(jìn)行患者群體的劃分。患者群體的劃分是一個(gè)動(dòng)態(tài)的過程,本文基于增量式AP聚類算法,每隔一段時(shí)間,對(duì)新加進(jìn)來的數(shù)據(jù)對(duì)象進(jìn)行更新,根據(jù)聚類結(jié)果確定是否產(chǎn)生新的群體,或者判斷某個(gè)患者是否屬于某個(gè)群體,實(shí)現(xiàn)完整的患者群體的劃分。
治療方案是指疾病在治療過程中的藥物選擇、藥物使用方式、藥物使用劑量、藥物使用頻次、藥物使用周期以及表4中的治療方式選擇。個(gè)性化推薦是指為每個(gè)不同的患者群體提供本群落典型的治療方案。算法核心思想:首先,對(duì)治療記錄進(jìn)行相似度計(jì)算;然后,以相似度為參考標(biāo)準(zhǔn)進(jìn)行聚類,典型的治療方案即為聚類結(jié)果核心區(qū)域中的治療記錄;最后,根據(jù)劃分的患者群體,為指定的患者群體提供較佳的治療方案。詳細(xì)算法步驟如下:
(1)治療記錄相似度計(jì)算。
根據(jù)1.3小節(jié)對(duì)EMR數(shù)據(jù)庫的預(yù)處理,治療記錄的相似度可以近似為用藥元素之間的相似度與治療方式相似度的加權(quán)平均值。治療方式的相似度用ψ(Pqg,Pqh)表示,如果治療方式相同,則ψ(Pqg,Pqh)=1,否則ψ(Pqg,Pqh)=0,其中Pqg表示記錄g中療程q的治療方式,Pqh同理。用藥元素之間的相似度需要考慮藥物名稱、用藥途徑、使用劑量3個(gè)方面。
OiqgN表示治療記錄g中的療程q的用藥元素i的藥物名稱,OjqhN同理。用μ(OiqgN,OjqhN)表示相似度,如果藥品名稱不同,則μ(OiqgN,OjqhN)=0;否則,還需通過2個(gè)因素進(jìn)一步計(jì)算,若用藥途徑和使用劑量相同,則μ(ΟiqgN,ΟjqhN)=1,否則μ(ΟiqgN,ΟjqhN)=0。OiqgT表示治療記錄g中的療程q的用藥元素i的用藥途徑,OjqhT同理。用ν(OiqgT,OjqhT)表示相似度,如果相同,則ν(OiqgT,OjqhT)=1,否則,ν(OiqgT,OjqhT)=0。記每日服用藥物劑量為DD,每次劑量記為Dosage,每日服用的頻次記為Freq。易得DD=Dosage×Freq,2個(gè)用藥元素之間使用劑量的相似度可以定義為
式中:DDiqg表示治療記錄g中的療程q的用藥元素i的用藥劑量,DDjqh同理。因此,2個(gè)用藥元素之間的相似度定義為
s(Oiqg,Ojqh)=
綜上所述,治療記錄的相似度為
(2)快速AP聚類算法。
在海量條治療記錄中,存在一些異常的治療記錄,無法成為聚類的聚簇中心。針對(duì)此問題,本文先篩選出這些異常記錄,并根據(jù)某條記錄周圍區(qū)域的數(shù)據(jù)密度作為排除條件,治療記錄i周圍區(qū)域的數(shù)據(jù)密度可以表示為
式中:γi是與治療記錄Ki最相似的治療記錄的集合。從篩選后的治療記錄中選取潛在的代表記錄,并得到矩陣S′。通過S′構(gòu)建不完全因子圖,在因子圖上進(jìn)行消息傳遞,得到最終的聚類結(jié)果。
(3)治療方案提取。
治療記錄是非常復(fù)雜的數(shù)據(jù)集合,即便這條治療記錄是聚簇中心,也難以用1條治療記錄作為1類治療記錄的代表。針對(duì)該問題,本文提取核心區(qū)域的治療方案,首先通過尋找1條治療記錄作為所在簇的代表點(diǎn),接著在其周圍尋找其最近鄰,1個(gè)簇的中心區(qū)域由其代表點(diǎn)和最近鄰組成,可以表示為
Corei={Kj|sj,mi≥τi}
式中:Kj表示治療記錄,mi表示第i類治療記錄的代表點(diǎn),τi是mi與其最近鄰的相似度。通過計(jì)算各藥物在聚簇中的相似度,提取中心區(qū)域的個(gè)性化治療方案。
通過上述聚類算法的結(jié)合,可以實(shí)現(xiàn)EMR中典型治療方案的個(gè)性化推薦,為患者輸出推薦的治療方案。為了使推薦的治療方案更具有代表性,不同研究機(jī)構(gòu)之間需要對(duì)聚類的結(jié)果進(jìn)行聯(lián)合研究。由于EMR的敏感性,直接在各醫(yī)療機(jī)構(gòu)之間共享數(shù)據(jù)會(huì)泄露患者的隱私信息。結(jié)合高效的加密算法,客戶端將EMR本地得到的聚類結(jié)果進(jìn)行加密,然后發(fā)送給可信的第三方,由第三方對(duì)加密后的集合進(jìn)行交集和并集運(yùn)算,最后將運(yùn)算結(jié)果返回客戶端。
具體系統(tǒng)模型中包含3個(gè)實(shí)體:2個(gè)客戶端包括醫(yī)療機(jī)構(gòu)Alice和Bob,第三方服務(wù)器為Server。Alice(Bob)加密各自得出的聚類集合,并將密文發(fā)送給Server;Server收到密文后,首先對(duì)密文集合進(jìn)行并集運(yùn)算,得到某一疾病在某個(gè)群落中盡可能多的治療方案,為新的治療提供更多的選擇;另一方面也可以對(duì)密文集合進(jìn)行交集運(yùn)算,得到某一疾病在小范圍中的更為精確的治療方案和病癥;最后,Server將得到的結(jié)果返回Alice和Bob。具體描述如算法4。
算法4隱私保護(hù)下聚類結(jié)果的數(shù)據(jù)共享
初始化:設(shè)確定性加密DE={KeyGen,Enc,Dec},α和β分別為Alice和Bob通過
聚類算法得到的聚類結(jié)果。Alice和Bob共享對(duì)稱密鑰
sk←DE.KeyGen(1λ)
(1)Alice(Bob)在本地加密集合α和β,得到對(duì)應(yīng)密文如下
TA←DE.Enc(sk,α),TB←DE.Enc(sk,β)
然后將TA、TB發(fā)送給Server。
(2)Server對(duì)密文集合進(jìn)行交集與并集運(yùn)算。由于聚類結(jié)果根據(jù)提前設(shè)定
好的屬性順序,根據(jù)確定性加密算法DE的特性,Server可直接對(duì)密文集合中
的元素進(jìn)行相等性判斷。設(shè)集合TA與TB中的元素個(gè)數(shù)均為n,表示為
TA={tA,1,…,tA,n}和TB={tB,1,…,tB,n},則對(duì)于i=1,…,n,有
Λ=TA∩TB={tA,i|tA,i=tB,i}
Ω=TA∪TB={tA,i∨tB,i|tB,i≠tA,i}
將結(jié)果Λ、Ω發(fā)送至Alice(Bob)。
(3)Alice(Bob)分別解密Λ、Ω,得到最后的結(jié)果。
由于加密算法的隱私性,在對(duì)稱密鑰沒有泄露的前提下,第三方平臺(tái)只能對(duì)密文進(jìn)行操作,無法得到明文的任何信息,保證了數(shù)據(jù)在運(yùn)算過程中的安全性。
本文采用的實(shí)驗(yàn)測試環(huán)境配置為:服務(wù)器和客戶端均運(yùn)行在Linux、64位操作系統(tǒng)、運(yùn)行內(nèi)存8 GB、i5處理器、2.50 GHz CPU的配置平臺(tái)上。測試數(shù)據(jù)庫取樣于ipums中的醫(yī)療數(shù)據(jù)庫,加密算法采用PBC庫中156 bit安全的高級(jí)加密標(biāo)準(zhǔn)-密碼分塊鏈接(Advanced encryption standard-cipher-block chaining,AES-CBC)加密。
圖3為聚類算法的執(zhí)行時(shí)間。從圖3中可以直觀地看出,在聚類算法中,患者群里劃分時(shí)間與治療記錄提取時(shí)間均隨著記錄條數(shù)呈線性增長趨勢,與理論分析保持一致,能夠有效地滿足實(shí)際應(yīng)用需求。譬如,當(dāng)記錄條數(shù)達(dá)到104條時(shí),算法能在1 min內(nèi)執(zhí)行完畢。圖4為隱私保護(hù)下數(shù)據(jù)共享執(zhí)行時(shí)間。
圖3 聚類算法執(zhí)行時(shí)間圖
圖4 隱私保護(hù)下數(shù)據(jù)共享執(zhí)行時(shí)間圖
針對(duì)聚類后的數(shù)據(jù)共享,從算法4中可明顯看出,共享數(shù)據(jù)的加解密效率主要取決于AES-CBC算法的效率,密文上的交集與并集運(yùn)算效率與集合元素個(gè)數(shù)呈線性關(guān)系,執(zhí)行時(shí)間復(fù)雜度均為O(n),其中n為聚類集合中數(shù)據(jù)元素個(gè)數(shù)。根據(jù)圖3實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)數(shù)據(jù)集合大小達(dá)到107時(shí),其加解密時(shí)間在1 min左右,集合的交集與并集運(yùn)算僅需1 s左右,其執(zhí)行效率切實(shí)可行。
另外,聚類精度是評(píng)價(jià)聚類結(jié)果的更加直觀的指標(biāo),用來評(píng)估聚類結(jié)果和真實(shí)類別的一致性。根據(jù)研究,在大多數(shù)情況下,標(biāo)準(zhǔn)AP聚類算法與本文中的增量式AP、快速AP聚類效果基本相當(dāng),即數(shù)據(jù)量一致的情況下,本文的聚類算法與標(biāo)準(zhǔn)AP具有相似的聚類精度[18]。
本文使用增量式AP聚類算法實(shí)現(xiàn)了患者群體的劃分,并且可以實(shí)時(shí)更新患者群體。采用快速AP聚類算法,提取典型治療方案,從而能夠?yàn)橹付ǖ幕颊呷后w找到合適的治療方案。通過數(shù)據(jù)加密技術(shù),確保了多家醫(yī)院在共享數(shù)據(jù)聚類結(jié)果過程中的數(shù)據(jù)安全性。本文根據(jù)電子病歷的特點(diǎn),優(yōu)化了傳統(tǒng)的AP聚類算法,提高了EMR數(shù)據(jù)聚類的效率,實(shí)現(xiàn)了隱私保護(hù)下數(shù)據(jù)聚類結(jié)果的共享,為科研和臨床提供了實(shí)際應(yīng)用價(jià)值。但是,本文算法也有一定的局限性,比如在數(shù)據(jù)聚類中,將用藥分析直接歸于治療記錄聚類中,這對(duì)核心用藥的研究造成了一定的困難,也是后續(xù)研究的一個(gè)方向。