徐剛
(天津醫(yī)科大學總醫(yī)院濱海醫(yī)院,天津 300480)
目前,我國醫(yī)院已逐步建立了各類信息管理系統(tǒng)并不斷完善,如HIS(Hospital Information System,醫(yī)院信息管理系統(tǒng))、LIS(Laboratory Information Management System,實驗室信息管理系統(tǒng))、PACS(Picture Archiving and Communication Systems,醫(yī)學影像存檔與通訊系統(tǒng))等,這類信息系統(tǒng)每天都在采集大量患者信息。隨著信息化的高速發(fā)展,患者的各類信息數(shù)據(jù)日漸膨脹,形成了醫(yī)院大數(shù)據(jù)。這類大數(shù)據(jù)雖然占據(jù)了醫(yī)院大量的存儲資源,但目前大多數(shù)醫(yī)院并未對該類數(shù)據(jù)進行合理的利用,造成了資源浪費。如何對醫(yī)院產(chǎn)生的寶貴大數(shù)據(jù)資源,利用數(shù)據(jù)挖掘技術,挖掘出背后的潛在價值成為醫(yī)院信息化發(fā)展研究的一個重要方向。醫(yī)院大數(shù)據(jù)的有效利用,可以為醫(yī)院的管理決策提供科學化的支持,實現(xiàn)醫(yī)院的“精細化”管理。
數(shù)據(jù)挖掘就是從大量的、不完全的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是有用的信息和知識的過程。數(shù)據(jù)挖掘是能夠從大量的數(shù)據(jù)中找到人們感興趣的、有價值信息的一種新技術[1]。
數(shù)據(jù)挖掘的前期準備工作是數(shù)據(jù)的收集和整合,大數(shù)據(jù)分析是多個信息系統(tǒng)數(shù)據(jù)的融合分析,醫(yī)院產(chǎn)生的各類數(shù)據(jù)中,由于系統(tǒng)不同,所產(chǎn)生的的數(shù)據(jù)格式也不同,如PACS系統(tǒng)所產(chǎn)生的數(shù)據(jù)即為圖像格式,所以醫(yī)院數(shù)據(jù)具有異構性、分布式、碎片化的特點。為了有效的整合數(shù)據(jù),需要使用專業(yè)的工具將不同格式、不同廠家的數(shù)據(jù)整合到數(shù)據(jù)倉庫中。另外,大量醫(yī)療數(shù)據(jù)中必定夾雜了一些噪聲數(shù)據(jù),這類數(shù)據(jù)沒有任何價值意義,而且夾雜在有效數(shù)據(jù)中,勢必會影響數(shù)據(jù)挖掘的效果,所以噪聲收據(jù)的有效篩除也是數(shù)據(jù)挖掘前期準備的一項重要工作。
1.2.1 統(tǒng)計技術
統(tǒng)計分析是是數(shù)據(jù)挖掘的理論知識基礎,即描述和組織數(shù)據(jù)集,并從數(shù)據(jù)集中推出結論。常用的統(tǒng)計分析方法包括統(tǒng)計判斷、評測數(shù)據(jù)集的差異、貝葉斯定理、預測回歸、方差分析、對數(shù)回歸、線性判別分析等。
1.2.2 關聯(lián)規(guī)則
關聯(lián)規(guī)則算法就是數(shù)據(jù)庫中的一個項集會隨著另外一個項集的變化而呈現(xiàn)出規(guī)律性的變化,那么這兩個項集之間就存在關聯(lián)性。關聯(lián)規(guī)則算法主要包括Apriori算法、FP-G算法、FreeSpan算法、Prefixspan算法等。
1.2.3 決策樹
決策樹是一種從根節(jié)點到葉子節(jié)點的探索式數(shù)據(jù)挖掘方法,非常直觀,簡單易懂。每個樣本出現(xiàn)后,先從根節(jié)點出發(fā),再選擇一個最貼合的分類效果到各層分支節(jié)點,最后到達葉子結點,如此反復循環(huán),這棵樹變即成為了一個分類訓練樣本器。常見的決策樹算法包括:CART、CHAID、ID3等。
1.2.4 遺傳算法
遺傳算法是基于達爾文的進化論的基礎上產(chǎn)生的,模擬自然界優(yōu)勝略汰、物競天擇、適者生存機制的問題求解技術,主要包括遺傳算法、進化策略、進化規(guī)劃和遺傳規(guī)劃等內容。遺傳算法的基本流程首先需要生成初始種群和編碼,然后計算種群中各個個體的適應度并進行評價,如果個體滿足終止條件,則終止;若不滿足終止條件則進行選擇、交叉和變異,循環(huán)往復。
1.2.5 神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡是機器學習的典型代表,通過學習算法來模擬人腦思維,它可以從經(jīng)驗知識中進行學習并將學到的知識加以應用。學習集中的每個例子輸入到神經(jīng)網(wǎng)絡中都會有一個對應的輸出,學習集中所有的例子都學習完后,神經(jīng)網(wǎng)絡就已經(jīng)建立了自己的判斷模式,當把測試集中的例子輸入神經(jīng)網(wǎng)絡中,如何符合預期判斷,那么神經(jīng)網(wǎng)絡就建立成功,以后這個神經(jīng)網(wǎng)絡就可以作為篩選器來判斷事務的分類。
1.3.1 醫(yī)院大數(shù)據(jù)的隱私性
醫(yī)院大數(shù)據(jù)同其他組織機構收集的大數(shù)據(jù)不同,醫(yī)院大數(shù)據(jù)包含了患者的各項隱私信息,包括基本信息、就醫(yī)信息等。一旦信息泄露,將對患者的日常生活造成一定程度的困擾。醫(yī)院在利用數(shù)據(jù)挖掘技術時要充分考慮到保護患者隱私的問題,這不僅對數(shù)據(jù)存儲的物理安全性要求越來越高,同時對數(shù)據(jù)安全保護技術的要求也越來越高。
1.3.2 醫(yī)院大數(shù)據(jù)的異構性
醫(yī)院有眾多的信息管理系統(tǒng),各系統(tǒng)采用的開發(fā)語言不同,使用的數(shù)據(jù)庫也不同,這就導致各個信息系統(tǒng)所采集的數(shù)據(jù)結構差異較大,若想使這些信息系統(tǒng)之間進行交互并在此基礎上進行數(shù)據(jù)挖掘操作,需使用專門的數(shù)據(jù)抽取工具對各平臺產(chǎn)生的信息數(shù)據(jù)進行抽取、清洗和整合,甚至需要手工錄入。在數(shù)據(jù)統(tǒng)一的基礎上,建立相應的數(shù)據(jù)倉庫并對數(shù)據(jù)進行更深層次的分析,如圖1所示。
1.3.3 醫(yī)院大數(shù)據(jù)的冗余性
醫(yī)院由于每天就診患者多,日積月累將產(chǎn)生海量數(shù)據(jù),這使得醫(yī)院在開展數(shù)據(jù)挖掘的工作中具備先天的數(shù)據(jù)優(yōu)勢,但這些數(shù)據(jù)中并不全是有效數(shù)據(jù),有些重復的、矛盾的、甚至是錯誤的數(shù)據(jù)記錄會影響數(shù)據(jù)挖掘的結果,使數(shù)據(jù)挖掘產(chǎn)生的結論可信度降低。
圖1 醫(yī)院數(shù)據(jù)挖掘基本流程Fig.1 Basic Data Mining Process
醫(yī)院眾多信息管理信息系統(tǒng)中,以HIS及電子病歷管理系統(tǒng)為基礎數(shù)據(jù),LIS及PACS的檢查數(shù)據(jù)為輔助數(shù)據(jù),建立數(shù)據(jù)分析模型,利用數(shù)據(jù)挖掘技術,為后期的疾病診斷及治療研究提供依據(jù),并為上級衛(wèi)生管理部門和疾控部門提供科研數(shù)據(jù)。醫(yī)院就診患者具有多樣性,患者的來源、身份、年齡或者職業(yè)等相關信息數(shù)據(jù)在輸入計算機信息系統(tǒng)后,都可以通過數(shù)據(jù)挖掘技術來進行結構分析,得到上述幾項內容的分布信息,使得醫(yī)務人員可以對患者進行針對性的服務,可以有效提高醫(yī)療服務質量,提高患者滿意度[2]。臨床路徑也是醫(yī)院大數(shù)據(jù)應用的一個典型體現(xiàn),它是基于一定基數(shù)的專家經(jīng)驗,對病情的發(fā)展做出預判并將治療流程做成模板,輸入病癥就可以準確判斷出疾病類型并進入路徑開始對癥治療,減少醫(yī)生的主觀判斷失誤,提高就診效率。另外,利用數(shù)據(jù)挖掘技術,還可以對疾病進行有效預測,提醒醫(yī)生最好及時防范。
患者就醫(yī)流程分為若干時間節(jié)點,如掛號、就診、繳費、檢查、取藥等,對患者就醫(yī)的各個時間節(jié)點長度進行分析,就可以發(fā)現(xiàn)患者在就診的過程中哪一環(huán)節(jié)最消耗時間,醫(yī)院有針對性的采取相關措施,如增加人力物力、使用技術手段等解決相關問題,提高患者就診效率的同時也提高了醫(yī)院的效益。另外,數(shù)據(jù)挖掘技術也可以對門診、急診和住院的患者人數(shù)進行分析,通過時間序列建立相應的預測模型,發(fā)現(xiàn)患者數(shù)量的周期性規(guī)律,并對下一周期做出預測,方便醫(yī)院管理者合理的優(yōu)化醫(yī)院的人力資源、藥品資源、設備資源等。
在國家發(fā)布的醫(yī)改試點指導意見中,對藥占比的控制有了明確要求,即患者治療費用中藥品費用占患者治療期間所花費的總費用不能超過一個額定值。利用數(shù)據(jù)挖掘技術,可以對患者費用結構進行全面分析,包括患者的藥品費用、檢查費用、治療費用、手術費用等,看藥品占比是否符合要求。若不符合要求,則可以通過數(shù)據(jù)挖掘技術精確的分析到哪位醫(yī)生或者哪個藥品導致的藥占比過高,從而指導醫(yī)生對患者進行合理用藥。
醫(yī)院收入還可以通過橫向和縱向等各個方向來進行同期比對,橫向比對即對醫(yī)院或科室在同一時間節(jié)點不同種類收入的比對,縱向比對即對醫(yī)院或科室在不同時間節(jié)點的某項收入進行比對,在分析過程中還可以使用關聯(lián)規(guī)則,結合其他因素一起分析,找出收入存在差異的原因并進行改善。
醫(yī)院工作的核心是醫(yī)療質量管理,單病種質量是醫(yī)療質量管理的重中之重。首先需對單病種患者的費用結構、費別分析、住院天數(shù)等建立多維模型,然后對模型進行切片、旋轉等分析操作,并最終形成建模與分析的結果。醫(yī)生可以根據(jù)分析結果及時總結經(jīng)驗,找出最佳的治療方案,提高單病種的治療效率,減少醫(yī)院成本的同時也可以為患者減輕負擔。
數(shù)據(jù)挖掘整理的目的是利用所獲取的知識理解事物、預測未來情況、進行積極干預,為下一步的工作或決策提供基礎[3]。醫(yī)療大數(shù)據(jù)的應用對于醫(yī)院的臨床研究和科學管理有著重要的意義,醫(yī)院在利用數(shù)據(jù)挖掘技術對醫(yī)療大數(shù)據(jù)進行分析的過程中,要把數(shù)據(jù)安全放在首位,著力建設大數(shù)據(jù)信息共享平臺,盡早實現(xiàn)數(shù)據(jù)的互聯(lián)互通,并利用先進的數(shù)據(jù)挖掘技術,提取出對醫(yī)院發(fā)展有益的信息,促進醫(yī)院的精準化醫(yī)療發(fā)展,提高醫(yī)院經(jīng)濟效益。