• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    海量病案信息的快速關(guān)聯(lián)查閱算法設(shè)計(jì)與實(shí)現(xiàn)

    2018-01-10 05:49:19陳皇宇陳海云
    微型電腦應(yīng)用 2017年12期
    關(guān)鍵詞:立方體海量病案

    陳皇宇, 陳海云

    (南京軍區(qū)南京總醫(yī)院,南京 210000)

    海量病案信息的快速關(guān)聯(lián)查閱算法設(shè)計(jì)與實(shí)現(xiàn)

    陳皇宇, 陳海云

    (南京軍區(qū)南京總醫(yī)院,南京 210000)

    為了解決傳統(tǒng)關(guān)聯(lián)規(guī)則查閱算法,在挖掘海量病案數(shù)據(jù)過程中,存在滯后以及偏差高的缺陷,結(jié)合海量病案數(shù)據(jù)多維多層次屬性,設(shè)計(jì)一種基于病案多維數(shù)據(jù)立方體的快速管理查閱算法。采用多維多層次的挖掘結(jié)構(gòu)對(duì)病案數(shù)據(jù)采用關(guān)聯(lián)規(guī)則,設(shè)計(jì)了OLAP的關(guān)聯(lián)規(guī)則挖掘模型,解決了基于OLAP關(guān)聯(lián)規(guī)則挖掘模型需要頻繁掃描數(shù)據(jù)集的弊端。對(duì)挖掘獲取的關(guān)聯(lián)規(guī)則實(shí)施匯總和研究,得到隱藏在病案數(shù)據(jù)中病人的職業(yè)、年齡與疾病間的聯(lián)系。依據(jù)基于OLAP關(guān)聯(lián)規(guī)則挖掘模型獲取了病案數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果說(shuō)明,所設(shè)計(jì)算法面向海量病案數(shù)據(jù),具有較高的查閱性能,能夠提高患者就診的滿意度。

    海量病案; 信息快遞; 關(guān)聯(lián)規(guī)則; 挖掘算法

    0 引言

    當(dāng)前由于數(shù)據(jù)庫(kù)技術(shù)以及信息技術(shù)的高速發(fā)展,醫(yī)院信息系統(tǒng)在醫(yī)院中的應(yīng)用價(jià)值不斷提升。并且醫(yī)院信息系統(tǒng)中的病案數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),采用有效方法從海量病案信息中,快速查閱出有價(jià)值數(shù)據(jù),成為相關(guān)人員研究的重點(diǎn)[1]。而傳統(tǒng)關(guān)聯(lián)規(guī)則查閱算法,挖掘海量病案數(shù)據(jù)過程中,存在的滯后性以及偏差高的缺陷。面向該種問題,文章設(shè)計(jì)并實(shí)現(xiàn)了基于病案多維數(shù)據(jù)立方體的快速管理查閱算法,增強(qiáng)病案信息查閱的效率和精度。

    1 基于病案多維數(shù)據(jù)立方體的查閱算法設(shè)計(jì)

    2.1 海量病案數(shù)據(jù)挖掘流程設(shè)計(jì)

    數(shù)據(jù)挖掘即從大量數(shù)據(jù)中通過一定的算法,提取信息的過程,而數(shù)據(jù)挖掘模塊包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘分析以及知識(shí)分析兩個(gè)過程。具體數(shù)據(jù)挖掘流程如圖1所示。

    圖1 數(shù)據(jù)挖掘模塊流程圖

    (1) 數(shù)據(jù)預(yù)處理

    數(shù)據(jù)預(yù)處理時(shí),在數(shù)據(jù)庫(kù)中采集數(shù)據(jù),用數(shù)據(jù)預(yù)處理的方法對(duì)病案信息進(jìn)行匯總分析以及量化分割等操作,獲取有價(jià)值數(shù)據(jù)。操作如下:把選好的數(shù)據(jù)用“數(shù)據(jù)清洗”的方法,做刪除缺省值和錯(cuò)誤等處理[2];通過“數(shù)據(jù)轉(zhuǎn)化”,即把醫(yī)學(xué)表述的數(shù)據(jù)參照知識(shí)庫(kù)中的數(shù)據(jù)字典表用SQL語(yǔ)句轉(zhuǎn)成機(jī)器學(xué)習(xí)上能處理的數(shù)據(jù)。并且,系統(tǒng)可以把數(shù)據(jù)從橫向轉(zhuǎn)化成縱向,在數(shù)據(jù)挖掘庫(kù)里保存轉(zhuǎn)化后的數(shù)據(jù),方便今后的研究使用。還有另一種數(shù)據(jù)預(yù)處理的方式,它是用粗糙集屬性約簡(jiǎn)的方法,約簡(jiǎn)數(shù)據(jù)的屬性:約簡(jiǎn)后的屬性通過MIBARK算法被分割出來(lái),放到數(shù)據(jù)挖掘庫(kù)里。

    (2) 數(shù)據(jù)挖掘和知識(shí)分析

    數(shù)據(jù)挖掘知識(shí)時(shí),篩選待挖掘知識(shí)的類別,對(duì)于進(jìn)行過標(biāo)準(zhǔn)操作的,癥狀數(shù)據(jù)集、證型數(shù)據(jù)集、中藥數(shù)據(jù)集,依次采用基于病案多維數(shù)據(jù)立方體的數(shù)據(jù)挖掘算法,挖掘出關(guān)聯(lián)分析知識(shí)以及神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)知識(shí)。關(guān)聯(lián)分析知識(shí)挖掘時(shí),通過系統(tǒng)封裝的算法文件,從已有的支持度閥值、置信度閥值參數(shù)中得到可用的關(guān)聯(lián)規(guī)則[3]。關(guān)聯(lián)結(jié)果呈現(xiàn)出的順序列表為“前件?后件支持度 置信度”。

    塑造出基于OLAP的關(guān)聯(lián)規(guī)則挖掘模型,預(yù)測(cè)被選擇測(cè)試的樣本將識(shí)別率以及識(shí)別結(jié)果輸出。知識(shí)分析過程時(shí),融合得到的挖掘知識(shí)和知識(shí)庫(kù)中的知識(shí),獲取醫(yī)藥方劑配伍規(guī)律、癥狀與用藥之間的聯(lián)系和癥狀-證型的辯證辨別規(guī)律。

    1.2 病案多維數(shù)據(jù)立方體的體系結(jié)構(gòu)設(shè)計(jì)

    塑造病案數(shù)據(jù)倉(cāng)庫(kù)可從醫(yī)院信息系統(tǒng)中海量歷史病案數(shù)據(jù)內(nèi)獲取有用信息,多維數(shù)據(jù)是分析數(shù)據(jù)倉(cāng)庫(kù)的基本數(shù)據(jù)單位,文章采用SQLServer2005中的Mic:osoftAnalysisServer塑造病案數(shù)據(jù)分析的維度以及多維數(shù)據(jù)集。Microsoft Analysis Server體系結(jié)構(gòu)圖,如圖2所示。

    圖2 Microsoft Analysis Server體系結(jié)構(gòu)圖

    Microsoft Analysis Server系統(tǒng)是用于OLAP的中間層服務(wù)器,其由服務(wù)端以及客戶端構(gòu)成。服務(wù)端組件可對(duì)多維數(shù)據(jù)結(jié)構(gòu)實(shí)施塑造以及維護(hù),同時(shí)產(chǎn)生多維數(shù)據(jù),為客戶端檢索提供服務(wù)。其能夠?qū)LAP數(shù)據(jù)實(shí)施素質(zhì)和控制,通過透視表(PivotTable)向客戶端提供數(shù)據(jù)支撐的性能,需要從詳細(xì)的依據(jù)關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)倉(cāng)庫(kù)內(nèi)塑造多維數(shù)據(jù)立方體,并將其保存到多維立方體結(jié)構(gòu)以及關(guān)系數(shù)據(jù)庫(kù)中。關(guān)系數(shù)據(jù)庫(kù)內(nèi)的存儲(chǔ)單元內(nèi)保存著多維立方體結(jié)構(gòu)。透視表服務(wù)是客戶端的重點(diǎn)內(nèi)容,其是應(yīng)用程序訪問Microsoft Analysis Server的接口,Microsoft Excel以及其它應(yīng)用程序采用該接口獲取服務(wù)器中的數(shù)據(jù),并向用戶程序反饋相關(guān)結(jié)果?;谕敢暠矸?wù)還能夠塑造本地多維數(shù)據(jù)集[4],該服務(wù)可同Analysis Server連接,向用戶以及客戶端應(yīng)用程序創(chuàng)造相關(guān)的接口,從服務(wù)端采集OLAP數(shù)據(jù)。Analysis Server具有較強(qiáng)的OLAP環(huán)境,其具有的功能是:塑造完多維層次結(jié)構(gòu)后,向多維立方體中融入病案數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù),塑造同病案數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源BA-DW的數(shù)據(jù)連接,基于多維層次模型塑造數(shù)據(jù)源視圖,病案數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的病案事實(shí)表、病人信息表以及疾病診斷表導(dǎo)入對(duì)應(yīng)的表格信息。不同的維表基于自身的ID號(hào)同病案事實(shí)表,塑造一定的關(guān)聯(lián)性,將相關(guān)度量信息以及維表中的關(guān)鍵字信息存儲(chǔ)到病案事實(shí)表中,可塑造病案多維數(shù)據(jù)集結(jié)構(gòu)。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)不斷調(diào)整過程中,病案多維數(shù)據(jù)集無(wú)法對(duì)病案數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)波動(dòng)狀態(tài)進(jìn)行及時(shí)反應(yīng),病案數(shù)據(jù)倉(cāng)庫(kù)實(shí)施數(shù)據(jù)修正以及刷新后,應(yīng)對(duì)多維立方體數(shù)據(jù)實(shí)施再次修正和操作。

    上述塑造的病案多維數(shù)據(jù)立方體,可從不同維度以及層次對(duì)病案數(shù)據(jù)實(shí)施匯總研究,文章為了實(shí)現(xiàn)海量病案信息的快速并聯(lián)查閱,基于病案多維數(shù)據(jù)立方體,將關(guān)聯(lián)規(guī)則挖掘應(yīng)用到病案數(shù)據(jù)分析,設(shè)計(jì)并實(shí)現(xiàn)多維多層次的關(guān)聯(lián)規(guī)則挖掘模型。

    1.3 基于OLAP的關(guān)聯(lián)規(guī)則設(shè)計(jì)

    在數(shù)據(jù)倉(cāng)庫(kù)中,很多的數(shù)據(jù)是在數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)研究提高的基礎(chǔ)上,通過整合以及預(yù)處理的。用戶的需求是從數(shù)據(jù)庫(kù)中篩選出各類有關(guān)聯(lián)的數(shù)據(jù),研究各種各樣的細(xì)節(jié)層次,用不同方式顯示知識(shí)。OLAP挖掘是能應(yīng)用在不同數(shù)據(jù)集、不同的細(xì)節(jié)上的挖掘[5],因此能實(shí)施切片、切塊、展開、過濾等操作。結(jié)合部分可視化的工具,數(shù)據(jù)挖掘的靈敏度以及性能得到了突飛猛進(jìn)的進(jìn)步。下面,對(duì)多層和多維關(guān)聯(lián)規(guī)則進(jìn)行闡釋。

    (1) 多層關(guān)聯(lián)規(guī)則

    因?yàn)閿?shù)據(jù)分布的分散性,大多數(shù)的應(yīng)用在數(shù)據(jù)最細(xì)節(jié)的層次上不容易察覺出部分強(qiáng)關(guān)聯(lián)規(guī)則。若在高層次上實(shí)施挖掘,可導(dǎo)入概念層次[6]。高層次上獲取的規(guī)則信息價(jià)值度較低,無(wú)法滿足用戶的興趣要求。數(shù)據(jù)挖掘應(yīng)有這樣在多個(gè)層次上實(shí)施挖掘的性能?!爸С侄?可信度”的構(gòu)造同樣適用于多層關(guān)聯(lián)規(guī)則的挖掘。

    (2) 多維關(guān)聯(lián)規(guī)則

    上述為同字段的值間的關(guān)聯(lián)的探究,例如病人所患有的疾病間的關(guān)聯(lián)。單維或多維的關(guān)聯(lián)規(guī)則即為多維數(shù)據(jù)庫(kù)的語(yǔ)言,它們挖掘于交易數(shù)據(jù)庫(kù)。而多維數(shù)據(jù)庫(kù)中,還有一類多維的關(guān)聯(lián)規(guī)則。如:

    年齡(X,“40—50”)and性別(X,“女”)患有(X,“營(yíng)養(yǎng)性貧血”)

    其中提到三個(gè)維年齡、性別以及疾病的資料。若不允許維重復(fù)出現(xiàn),則為維間的關(guān)聯(lián)規(guī)則,若允許維在規(guī)則的左右同時(shí)出現(xiàn),則為混合維關(guān)聯(lián)規(guī)則,則有:

    年齡(X,“40—50”)and患有(X,“營(yíng)養(yǎng)性貧血”)?患有(X,“溶血性貧血”)

    多維關(guān)聯(lián)規(guī)則是一種混合維關(guān)聯(lián)規(guī)則,對(duì)這類規(guī)則實(shí)施挖掘時(shí)應(yīng)分析不同字段是連續(xù)型還是離散型。

    1.3.1 病案數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型設(shè)計(jì)

    從關(guān)聯(lián)規(guī)則算法的分析中得知,必須提前產(chǎn)生大規(guī)模的候選集和頻繁的對(duì)事務(wù)數(shù)據(jù)庫(kù)做掃描,是實(shí)施關(guān)聯(lián)規(guī)則挖掘的阻礙,要想明顯的減少頻繁項(xiàng)集形成時(shí)間以及減少對(duì)事務(wù)數(shù)據(jù)庫(kù)的掃描次數(shù),就要把OLAP立方體中的大量聚集數(shù)據(jù)運(yùn)用起來(lái)。以下通過根據(jù)病人主題域的病案多維數(shù)據(jù)立方體設(shè)計(jì)關(guān)聯(lián)規(guī)則挖掘模型。

    (1) 病案數(shù)據(jù)挖掘?qū)ο蠓治黾八惴ㄟx擇

    病人主題域的多維數(shù)據(jù)集包括病人的基本情況以及疾病分類信息等幾個(gè)維度。事務(wù)表信息依據(jù)病人的基本信息塑造,病人住院時(shí)的疾病診斷都在其中,可用來(lái)研究疾病間的關(guān)系以及相應(yīng)的約束程度。病人情況等維作為輸入信息,建立數(shù)據(jù)挖掘模型,進(jìn)而對(duì)病人的基本信息(年齡、性別、職業(yè)、出生地等)對(duì)患得疾病的干擾實(shí)施研究。依據(jù)對(duì)關(guān)聯(lián)規(guī)則算法的研究得出,對(duì)事務(wù)型數(shù)據(jù)實(shí)施單層單維的布爾型關(guān)聯(lián)規(guī)則挖掘可用Apriori算法,該種算法在多維多層的病案數(shù)據(jù)挖掘中使用較少[7]。文章實(shí)施病案數(shù)據(jù)挖掘所用的方法是MICrosoft關(guān)聯(lián)規(guī)則算法,這種算法在對(duì)關(guān)系數(shù)據(jù)庫(kù)實(shí)施關(guān)聯(lián)規(guī)則挖掘時(shí)起到了重要作用。它能通過OLAP多維數(shù)據(jù)集實(shí)施多維多層次的關(guān)聯(lián)規(guī)則挖掘,有效運(yùn)用病案多維數(shù)據(jù)立方體中的聚集型數(shù)據(jù),以達(dá)到快速搜索頻繁項(xiàng)集的目的。其挖掘頻繁項(xiàng)集時(shí)[8],為了加快頻繁項(xiàng)集的生成效率,可依據(jù)MDX語(yǔ)句對(duì)病案多維數(shù)據(jù)立方體內(nèi)的聚集信息實(shí)施檢索,進(jìn)而獲取頻繁項(xiàng)集;關(guān)聯(lián)規(guī)則的閥值是在頻繁項(xiàng)集形成的相關(guān)規(guī)則基礎(chǔ)上,設(shè)置最小支持度(Minimum_Support)、最小置信度(Minimum_Probability)和最小興趣度(Minimum_Importance)而形成,有靈活和準(zhǔn)確的優(yōu)點(diǎn)。

    (2) 病案數(shù)據(jù)挖掘模型設(shè)計(jì)

    關(guān)聯(lián)規(guī)則挖掘的事例表能夠看成是疾病診斷維表,該表的輸入列為入院日期維、病人信息維和出生地維維度的信息,通過構(gòu)建的OLAP病案多維數(shù)據(jù)立方體的聚集信息,實(shí)施多維多層次的關(guān)聯(lián)規(guī)則挖掘。基于病人主題域的挖掘結(jié)構(gòu),塑造病人主題域的挖掘模型[9-11],如圖3所示。

    圖3 病人主題域的挖掘模型圖

    其可能夠研究病人的性別、年齡和職業(yè)等信息特點(diǎn)以及所患疾病,目的是研究疾病間的關(guān)系和病人的情況特點(diǎn)是否對(duì)疾病關(guān)系起作用[12]。

    1.3.2 基于關(guān)聯(lián)規(guī)則Apriori的數(shù)據(jù)挖掘算法設(shè)計(jì)

    文章采用基于云計(jì)算的MapReduce模式的快速管理規(guī)則Apriori數(shù)據(jù)挖掘算法,解決基于OLAP關(guān)聯(lián)規(guī)則挖掘模型需要頻繁掃描病案多維數(shù)據(jù)立方體的弊端,進(jìn)一步提高海量病案信息查閱的效率。

    通常采用關(guān)聯(lián)規(guī)則的Apriori算法挖掘海量病案數(shù)據(jù),該算法通過逐層建設(shè)迭代受到基于K項(xiàng)集實(shí)施(K+1)項(xiàng)集的查詢,對(duì)基于OLAP關(guān)聯(lián)規(guī)則挖掘模型獲取的病案數(shù)據(jù)集實(shí)施檢索后[13],產(chǎn)生頻繁1-項(xiàng)集L1,基于L1實(shí)施獲取頻繁項(xiàng)集L2,通過持續(xù)迭代受到直到頻繁項(xiàng)集是空集。頻繁項(xiàng)集中的任意一個(gè)子集都是頻繁項(xiàng)集,可降低檢索區(qū)域,提高頻繁項(xiàng)集產(chǎn)生效率。通過K次信號(hào)檢索后,海量病案數(shù)據(jù)的挖掘過程是:(1)對(duì)JOIN(連接)指令實(shí)施處理,要求Lk-1形成候選集Ck,同時(shí)實(shí)施連接處理;(2)基于Apriori性質(zhì)實(shí)施支持度匯總以及剪枝處理,要求Ck形成頻繁集Lk。但是該種算法對(duì)數(shù)據(jù)庫(kù)實(shí)施大量檢索操作,最終得到全部頻繁項(xiàng)集,挖掘海量病案數(shù)據(jù)過程中,存在挖掘效率低以及耗能高的缺陷。因此,文章基于云計(jì)算平臺(tái)的分布式運(yùn)算屬性,塑造Hadoop架構(gòu)保存檢索數(shù)據(jù)庫(kù),獲取頻繁項(xiàng)集得到的關(guān)聯(lián)規(guī)則,檢索處理將不同DataNode節(jié)點(diǎn)(病案多維數(shù)據(jù)立方體)內(nèi)實(shí)施并行處理[14],得到不同運(yùn)算節(jié)點(diǎn)中的局部頻繁項(xiàng)集。最終通過Master獲取真實(shí)的全局支持度、頻繁項(xiàng)集匯總結(jié)果,降低挖掘時(shí)間以及能耗,極大提高了病案數(shù)據(jù)的挖掘效率。

    上述描述的Apriori算法Map/Reduce化的詳細(xì)過程如圖4所示。

    2 實(shí)驗(yàn)分析

    實(shí)驗(yàn)對(duì)某醫(yī)院2009—2013年期間的病案信息實(shí)施查閱檢測(cè),檢測(cè)本文設(shè)計(jì)并實(shí)現(xiàn)的海量病案信息快速關(guān)聯(lián)查閱算法的性能。

    2.1 試驗(yàn)關(guān)聯(lián)參數(shù)的設(shè)計(jì)

    本文數(shù)據(jù)挖掘算法融合先驗(yàn)知識(shí),采用合理的參數(shù)閥值,獲取有價(jià)值的規(guī)則,主要有:

    (1) 病人的職業(yè)與各類疾病之間的相互聯(lián)系

    患者職業(yè)同疾病間存在一定的關(guān)聯(lián)性,對(duì)這些關(guān)聯(lián)性實(shí)施分析,為醫(yī)生實(shí)施診斷提供依據(jù),如表1、表2所示。

    圖4 Map/Reduce化的Apriori挖掘算法的實(shí)現(xiàn)流程

    置信度興趣度規(guī)則前項(xiàng)規(guī)則后項(xiàng)0.6130.52精神以及行為障礙,呼吸系統(tǒng)疾病循環(huán)系統(tǒng)疾病0.7240.58精神以及行為障礙,內(nèi)分泌,營(yíng)養(yǎng)以及代謝疾病循環(huán)系統(tǒng)疾病0.6170.52精神以及行為障礙,神經(jīng)系統(tǒng)疾病循環(huán)系統(tǒng)疾病0.6070.52泌尿生殖系統(tǒng)疾病,呼吸系統(tǒng)疾病循環(huán)系統(tǒng)疾病0.6570.54內(nèi)分泌、營(yíng)養(yǎng)以及代謝疾病,呼吸系統(tǒng)疾病循環(huán)系統(tǒng)疾病0.6870.57神經(jīng)系統(tǒng)疾病,泌尿生殖系統(tǒng)疾病循環(huán)系統(tǒng)疾病0.640.55神經(jīng)系統(tǒng)疾病,內(nèi)分泌、營(yíng)養(yǎng)以及代謝疾病循環(huán)系統(tǒng)疾病0.5860.51血液及造血器官疾病,泌尿生殖系統(tǒng)疾病循環(huán)系統(tǒng)疾病

    表2 腎小球疾病患者同職業(yè)間的關(guān)聯(lián)

    分析表1能夠看出,患有腎小球疾病的患者,受到職業(yè)的影響,其患有腎衰竭疾病的概率存在一定的差異,具體情況用表2描述,從中能夠看出腎衰竭疾病同患者工作強(qiáng)度具有較高的關(guān)聯(lián)性,勞累對(duì)腎衰竭疾病具有不利干擾。

    (2) 病人年齡與各類疾病之間的相互聯(lián)系

    病人年齡同疾病存在一定的關(guān)聯(lián)性,如表3所示。

    分析表3可以看出腎衰竭病人同時(shí)患有高血壓病的概率大小同年齡相關(guān),患有腎衰疾病的老年人容易出現(xiàn)高血壓病。

    表3 腎衰竭疾病同患者年齡間的關(guān)聯(lián)

    2.2 原數(shù)據(jù)集大小變化時(shí)的性能

    如果向?qū)嶒?yàn)病案信息中融入新的數(shù)據(jù)集d大小是0.2G,支持度是20%,則原病案信息發(fā)生變化時(shí),本文算法和傳統(tǒng)關(guān)聯(lián)規(guī)則算法的查閱結(jié)果,如圖5所示。

    圖5 原數(shù)據(jù)集波動(dòng)情況下的查閱性能

    分析圖5可得,相同軟硬件配置狀態(tài)時(shí),如果原病案信息量較低,兩種算法的查閱性能基本一致,隨著原病案信息量的不斷提升,傳統(tǒng)關(guān)聯(lián)規(guī)則算法的性能顯著降低,當(dāng)病案信息量是4G時(shí),傳統(tǒng)關(guān)聯(lián)規(guī)則算法不能完成病案信息的查閱,主要是因?yàn)榇藭r(shí)其對(duì)內(nèi)容調(diào)用失敗。但是本文算法的性能隨著原病案信息的提高而持續(xù)提升,其面向海量病案信息時(shí),具有較強(qiáng)的查閱優(yōu)勢(shì)。

    2.3 新增數(shù)據(jù)集大小變化時(shí)的性能

    若原病案數(shù)據(jù)集D的容量是1G以及2G,支持度是20%,則當(dāng)新增數(shù)據(jù)集容量不斷變換時(shí),不同算法的差異性能,如圖6所示。

    圖6 新增數(shù)據(jù)集大小波動(dòng)情況下的性能

    分析圖6能夠得出,如果原病案數(shù)據(jù)集的容量是低于0.4G,傳統(tǒng)關(guān)聯(lián)規(guī)則算法比本文算法性能優(yōu),主要是因?yàn)楸疚乃惴▽?duì)于大規(guī)模數(shù)據(jù)的并行運(yùn)算具有較高的優(yōu)勢(shì),如果病案數(shù)據(jù)集較低,本文算法需要耗費(fèi)較高的調(diào)度代價(jià),而當(dāng)病案數(shù)據(jù)集容量較高情況下,本文算法耗費(fèi)較低的調(diào)度代價(jià)。因此,當(dāng)原病案數(shù)據(jù)集容量是0.8G,本文算法的查閱性能顯著優(yōu)于傳統(tǒng)關(guān)聯(lián)規(guī)則算法,當(dāng)新增數(shù)據(jù)集容量是1G時(shí),傳統(tǒng)關(guān)聯(lián)規(guī)則算法不能繼續(xù)運(yùn)行。因此能夠看出,面向海量病案數(shù)據(jù)時(shí),本文算法的性能優(yōu)于傳統(tǒng)關(guān)聯(lián)規(guī)則算法。

    2.4 完全分布環(huán)境下的性能比較

    實(shí)驗(yàn)塑造1個(gè)DataNode、2個(gè)DataNode、3個(gè)DataNode以及4個(gè)DataNode組建的分布環(huán)境的病案信息集群,檢測(cè)本文算法在這些集群中實(shí)施關(guān)聯(lián)查閱,以及關(guān)聯(lián)規(guī)則算法的查閱時(shí)間,結(jié)果如圖7所示。

    圖7 關(guān)聯(lián)規(guī)則算法以及本文算法集群的對(duì)比

    分析圖7能夠得出,如果原病案數(shù)據(jù)集容量較低,則本文算法的處理效率以及傳統(tǒng)關(guān)聯(lián)規(guī)則的處理效率一致。主要是本文算法實(shí)施并行運(yùn)行過程中,通過OLAP多維數(shù)據(jù)集實(shí)施多維多層次調(diào)度需耗費(fèi)較多的能量,如果原病案數(shù)據(jù)集較少,耗費(fèi)的能量占總體算法能耗的較高比例,使得算法處理效率降低。但是隨著原病案數(shù)據(jù)集的提高,本文算法集群的運(yùn)行效率顯著優(yōu)于傳統(tǒng)關(guān)聯(lián)規(guī)則算法。本文算法具有較高的集群并行運(yùn)算性能和較強(qiáng)的運(yùn)算能力。分析圖7可得,相對(duì)于傳統(tǒng)關(guān)聯(lián)規(guī)則算法,本文算法的可伸縮性能高,隨著數(shù)據(jù)集的提高,算法的運(yùn)行時(shí)間呈現(xiàn)線性提升。

    2.5 基于門診病案的診斷關(guān)聯(lián)挖掘分析

    實(shí)驗(yàn)對(duì)2010年某省級(jí)醫(yī)院門診病案數(shù)據(jù)實(shí)施挖掘分析,通過本文算法對(duì)門診病案實(shí)施多維多層的數(shù)據(jù)分析,獲取內(nèi)在問題,尋求合理的解決措辭?;贖IS的門診掛號(hào)信息、LIS檢驗(yàn)信息以及PACS檢測(cè)信息等實(shí)施數(shù)據(jù)挖掘,基于門診病案數(shù)據(jù)源,融合掛號(hào)信息數(shù)據(jù)集,實(shí)施病案數(shù)據(jù)關(guān)聯(lián)查閱。采用本文算法頻繁掃描以門診患者為粒度的門診數(shù)據(jù)集,將患者掛號(hào)信息同科室信息相對(duì)應(yīng)。關(guān)聯(lián)規(guī)則:口診患者各科室各環(huán)節(jié)時(shí)間分析,分析不同科室平均各環(huán)境耗費(fèi)時(shí)間,獲取平均值以及耗時(shí)高的科室分布情況。

    AVG(Sum(各環(huán)節(jié)時(shí)間))

    Group By 患者掛號(hào)所在科室

    不同環(huán)節(jié)耗費(fèi)時(shí)間比例(%)=各環(huán)境耗費(fèi)時(shí)間/就診耗費(fèi)總時(shí)間×100%

    基于該關(guān)聯(lián)規(guī)則,采用本文算法依據(jù)科室分類運(yùn)算出各患者在就診時(shí)不同環(huán)境耗費(fèi)的時(shí)間,結(jié)果如圖8所示。

    圖8 就診流程時(shí)間排列分析

    采集從掛號(hào)到就診終止耗費(fèi)時(shí)間高于60分鐘的患者信息,采集匯總后實(shí)施挖掘分析,獲取相關(guān)的控制方案。

    采用本文算法基于設(shè)置的關(guān)聯(lián)規(guī)則挖掘門診患者的就診信息,研究患者就診耗費(fèi)的時(shí)間,實(shí)現(xiàn)不同資源的有效調(diào)配,并提出相關(guān)的處理措施,降低排隊(duì)時(shí)間,提高患者滿意度。

    綜合分析上述實(shí)驗(yàn)結(jié)果可得,采用本文設(shè)計(jì)的海量病案信息快速關(guān)聯(lián)查閱算法,能夠挖掘出有價(jià)值信息,對(duì)門診病案數(shù)據(jù)實(shí)施多維度多層挖掘分析,能夠獲取問題根源,實(shí)時(shí)調(diào)控管理方案,提高患者就診的滿意度,具有較高的應(yīng)用價(jià)值。

    3 總結(jié)

    文章基于病案數(shù)據(jù)多維多層次屬性,設(shè)計(jì)并實(shí)現(xiàn)基于病案多維數(shù)據(jù)立方體的快速管理查閱算法,采用多維多層次的挖掘結(jié)構(gòu)對(duì)病案數(shù)據(jù)實(shí)施關(guān)聯(lián)規(guī)則挖掘,通過基于關(guān)聯(lián)規(guī)則Apriori的數(shù)據(jù)挖掘算法,解決基于OLAP關(guān)聯(lián)規(guī)則挖掘模型需要頻繁掃描病案多維數(shù)據(jù)立方體的弊端,進(jìn)一步提高海量病案信息查閱的效率。

    [1] 吳曉云, 鄭銀雄, 馮笑玲. 基于數(shù)據(jù)庫(kù)的醫(yī)院病案信息SQL查詢[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì), 2014, 31(1):144-145.

    [2] 黃東瑾, 謝玲珠, 鄭仰純,等. 基于病案首頁(yè)數(shù)據(jù)挖掘的老年糖尿病患者住院日影響因素分析[J]. 廣東醫(yī)學(xué), 2016, 37(13):1952-1956.

    [3] 林媛. 非結(jié)構(gòu)化網(wǎng)絡(luò)中有價(jià)值信息數(shù)據(jù)挖掘研究[J]. 計(jì)算機(jī)仿真, 2017, 34(2):414-417.

    [4] 包小源, 俞國(guó)培, 李巖. 病案首頁(yè)數(shù)據(jù)分布式集成管理平臺(tái)的設(shè)計(jì)與應(yīng)用[J]. 中國(guó)醫(yī)院管理, 2014, 34(5):30-32.

    [5] Davydov D, Young T D, Steinmann P. On the adaptive finite element analysis of the Kohn-Sham equations: methods, algorithms, and implementation[J]. International Journal for Numerical Methods in Engineering, 2016, 106(11):863-888.

    [6] 高武奇, 岳鑫. 基于HBase的圖書借閱數(shù)據(jù)挖掘模型設(shè)計(jì)與實(shí)現(xiàn)[J]. 電子設(shè)計(jì)工程, 2017, 25(12):33-36.

    [7] 米允龍, 米春橋, 劉文奇. 海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué)與探索, 2015, 9(6):641-659.

    [8] 韓希先, 劉顯敏, 李建中,等. TMS:一種新的海量數(shù)據(jù)多維選擇Top-k查詢算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2017, 54(3):570-585.

    [9] Kirchner M, Xu B, Steen H, et al. libfbi: a C++ implementation for fast box intersection and application to sparse mass spectrometry data[J]. Bioinformatics, 2014, 2014(8):1166-1167.

    [10] 鄧廣彪. 改進(jìn)的粒子群算法在云計(jì)算下的數(shù)據(jù)挖掘中的研究[J]. 科技通報(bào), 2017, 33(4):120-124.

    [11] 陳炎龍, 段紅玉. 基于改進(jìn)Hadoop云平臺(tái)的海量文本數(shù)據(jù)挖掘[J]. 湖南師范大學(xué)自然科學(xué)學(xué)報(bào), 2016, 39(3):84-88.

    [12] 周發(fā)超, 王志堅(jiān), 葉楓,等. 關(guān)聯(lián)規(guī)則挖掘算法Apriori的研究改進(jìn)[J]. 計(jì)算機(jī)科學(xué)與探索, 2015, 9(9):1075-1083.

    [13] 李雨童, 姚登舉, 李哲,等. 基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2016, 21(2):38-43.

    [14] Kovtoun S V. An Approach to the Design of Mass-correlated Delayed Extraction in a Linear Time-of-flight Mass Spectrometer[J]. Rapid Communications in Mass Spectrometry, 2015, 11(5):433-436.

    [15] 趙艷青, 滕晶, 楊洪軍. 基于數(shù)據(jù)挖掘的現(xiàn)代中醫(yī)藥治療抑郁癥用藥規(guī)律分析[J]. 中國(guó)中藥雜志, 2015, 40(10):2042-2046.

    TheDesignandImplementationoftheFastCorrelationAlgorithmofMassCaseInformation

    Chen Huangyu, Chen Haiyun

    (Nanjing General Hospital of Nanjing Military Region, PLA Nanjing, Jiangsu 210002, China)

    In order to solve the defects of lag and high deviation in the process of mining mass medical data by using traditional association rule, a multi-dimensional data cube algorithm with a power of quick management and access is designed by incorporating with the multi-lecvel mining structure. We perform the association rule for the medical data, design association rule mining model for OLAP. It overcomes the disadvantage of OLAP association rules mining model does not requre frequently the data set. Besides, we conduct a comprehensive stuby of the association rule and get the hiddcn information of patients, such as the occupation, the age as well as the relationship between these data and differnt diseases. Data sets are obtained by mining model based on OLAP association rule mining. The experimental results show that the proposed algorithm can improve the patient's satisfaction by looking at the data of large number of cases.

    Mass diseases; Information expressing; Association rules; Mining algorithms

    1007-757X(2017)12-0053-05

    陳皇宇(1984-),女,本科,技師,研究方向:病案管理,醫(yī)療信息管理。

    陳海云(1977-),女,本科,護(hù)師,研究方向:醫(yī)保管理。

    TP311.13

    A

    2017.10.17)

    猜你喜歡
    立方體海量病案
    疊出一個(gè)立方體
    一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
    基于二維碼的病案示蹤系統(tǒng)開發(fā)與應(yīng)用
    海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
    圖形前線
    一個(gè)圖形所蘊(yùn)含的“海量”巧題
    立方體星交會(huì)對(duì)接和空間飛行演示
    太空探索(2016年9期)2016-07-12 09:59:53
    折紙
    試論病案管理在防范醫(yī)療糾紛中的作用
    新病案首頁(yè)中存在的問題及對(duì)策
    枞阳县| 天台县| 容城县| 丰镇市| 卫辉市| 盈江县| 德安县| 梧州市| 库车县| 富川| 城固县| 柞水县| 敦煌市| 麻栗坡县| 西畴县| 四川省| 渭南市| 筠连县| 洞口县| 长顺县| 广州市| 泸西县| 仙游县| 嵊州市| 娄烦县| 介休市| 迭部县| 大悟县| 沂南县| 镇平县| 石台县| 武乡县| 昆明市| 邳州市| 临夏县| 德化县| 岫岩| 南召县| 阳江市| 漳浦县| 玛曲县|