呂亞娟 翁蘇湘 李瑩
摘 要:該論文的研究視角是當(dāng)前比較熱門的臨床醫(yī)學(xué)數(shù)據(jù)挖掘,分析了臨床醫(yī)學(xué)數(shù)據(jù)的存儲(chǔ)特點(diǎn),提出了依托醫(yī)院現(xiàn)有網(wǎng)絡(luò)實(shí)現(xiàn)醫(yī)院的海量臨床醫(yī)學(xué)數(shù)據(jù)挖掘的方法,為醫(yī)院在疾病診斷和治療、醫(yī)學(xué)科研與教學(xué)、醫(yī)院管理等方面提供幫助。
關(guān)鍵詞:網(wǎng)格 ?數(shù)據(jù)挖掘 ?臨床醫(yī)學(xué)數(shù)據(jù)
中圖分類號(hào):TP391 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)10(c)-0149-02
快速發(fā)展的網(wǎng)格計(jì)算將網(wǎng)絡(luò)上分散的計(jì)算機(jī)建成了一個(gè)虛擬的計(jì)算機(jī)體系,實(shí)現(xiàn)了網(wǎng)絡(luò)上存在的分散資源的共享,為分布在不同的地方、結(jié)構(gòu)不同的動(dòng)態(tài)變化數(shù)據(jù)提供了一個(gè)存儲(chǔ)容器。網(wǎng)格技術(shù)一出現(xiàn)就引起了廣泛的關(guān)注,Globus Toolkit 4推出了支持Windows的Java Ws-Core軟件包以來(lái),使網(wǎng)格在Windows下的開發(fā)有了一個(gè)新的依托平臺(tái)。數(shù)據(jù)挖掘改變了數(shù)據(jù)處理技術(shù),從數(shù)據(jù)庫(kù)中提取有用的知識(shí),給決策者提供技術(shù)支持。目前,很多決策性的知識(shí)都來(lái)源于網(wǎng)絡(luò),這樣,用戶需要處理大量的原始數(shù)據(jù)。將網(wǎng)格技術(shù)與數(shù)據(jù)挖掘結(jié)合起來(lái),就可以解決網(wǎng)絡(luò)上分散數(shù)據(jù)的挖掘問(wèn)題。網(wǎng)格技術(shù)與數(shù)據(jù)挖掘技術(shù)日漸成熟,完全可以把兩者結(jié)合起來(lái),完成網(wǎng)絡(luò)上分散的海量數(shù)據(jù)的挖掘任務(wù)。隨著網(wǎng)格技術(shù)的逐步成熟,網(wǎng)格的研究也從科學(xué)研究單位擴(kuò)大到了社會(huì)的諸多領(lǐng)域,許多商業(yè)機(jī)構(gòu),學(xué)校,政府等部門都逐步引入了網(wǎng)格研究應(yīng)用平臺(tái)。網(wǎng)格給我們提供的分布式計(jì)算平臺(tái)具有分布式系統(tǒng)的優(yōu)勢(shì),同時(shí)彌補(bǔ)了分布式系統(tǒng)自身的許多缺陷。如將網(wǎng)格應(yīng)用到分布式醫(yī)院系統(tǒng),建立一個(gè)基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng),必將使其在疾病診斷和治療、醫(yī)學(xué)科研與教學(xué)、醫(yī)院管理等方面發(fā)揮巨大作用。
1 醫(yī)學(xué)數(shù)據(jù)的存儲(chǔ)特點(diǎn)
醫(yī)院網(wǎng)絡(luò)的特點(diǎn)決定其數(shù)據(jù)源的存儲(chǔ)和分布在空間上呈現(xiàn)分布異構(gòu)特點(diǎn)。分布式數(shù)據(jù)源是指在物理上分布而邏輯上集中的數(shù)據(jù)源系統(tǒng)。分布式醫(yī)學(xué)數(shù)據(jù)源作為數(shù)據(jù)挖掘工作的對(duì)象,是使用計(jì)算機(jī)網(wǎng)絡(luò)將地理位置分散的多個(gè)邏輯單位(各個(gè)節(jié)點(diǎn)上的數(shù)據(jù)集)連接起來(lái),它們的管理和控制又需要不同程度集中,共同組成一個(gè)數(shù)據(jù)源。即分布式數(shù)據(jù)源可以看成是計(jì)算機(jī)網(wǎng)絡(luò)與多個(gè)不同組織節(jié)點(diǎn)上數(shù)據(jù)集的有機(jī)結(jié)合,分布式醫(yī)學(xué)數(shù)據(jù)源存儲(chǔ)特點(diǎn)具有以下幾點(diǎn):(1)物理分布性,數(shù)據(jù)分散存儲(chǔ)在網(wǎng)絡(luò)中的多個(gè)節(jié)點(diǎn)上;(2)邏輯全局性,物理上分散存儲(chǔ)的在各個(gè)節(jié)點(diǎn)的數(shù)據(jù)邏輯上是一個(gè)全局?jǐn)?shù)據(jù)源;(3)節(jié)點(diǎn)自治性,各個(gè)節(jié)點(diǎn)的數(shù)據(jù)由本地用戶管理,具有自治處理能力,可以完成本節(jié)點(diǎn)的挖掘應(yīng)用,即局部數(shù)據(jù)挖掘。
分布式醫(yī)學(xué)數(shù)據(jù)源在數(shù)據(jù)空間分布、數(shù)據(jù)結(jié)構(gòu)表達(dá)等方面存在許多差異,目前國(guó)內(nèi)外對(duì)分布式數(shù)據(jù)源的分類和定義沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),比較認(rèn)同的分類方法有兩種:(1)按局部數(shù)據(jù)模型分類,分為同構(gòu)型和異構(gòu)型。(2)按分布式數(shù)據(jù)源控制系統(tǒng)的類型分類,分為集中型、分散型和可變型。
2 臨床醫(yī)學(xué)數(shù)據(jù)挖掘的特點(diǎn)
臨床醫(yī)學(xué)數(shù)據(jù)包含的信息非常豐富和復(fù)雜,目前基本所有醫(yī)院都有病人的電子病歷,病人的B超、CT、X光、心電圖等影像資料也對(duì)疾病診斷起到一定的輔助作用,加之涉及到病人信息的病理參數(shù)、化驗(yàn)結(jié)果等臨床信息,它們形成了一個(gè)復(fù)雜類型的數(shù)據(jù)庫(kù)系統(tǒng),該數(shù)據(jù)庫(kù)涉及到病人、科室、醫(yī)院管理層等多個(gè)方面。而臨床醫(yī)學(xué)信息又具有隱私性、多樣性、不完整性、冗余性、異質(zhì)性和缺乏數(shù)學(xué)性質(zhì)等自身特性,使得臨床醫(yī)學(xué)數(shù)據(jù)與常規(guī)的數(shù)據(jù)挖掘之間存在很大的差異。臨床醫(yī)學(xué)數(shù)據(jù)的挖掘方法主要有統(tǒng)計(jì)法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)法和數(shù)據(jù)庫(kù)法,這些方法遍布疾病的診斷、治療和預(yù)防分析以及醫(yī)院管理的各個(gè)方面。
臨床醫(yī)學(xué)數(shù)據(jù)庫(kù)按是否含有醫(yī)學(xué)影像數(shù)據(jù)可簡(jiǎn)單的歸納為兩類:第一類為醫(yī)學(xué)影像加上其他相關(guān)的醫(yī)學(xué)參數(shù)的數(shù)據(jù)庫(kù);第二類為無(wú)醫(yī)學(xué)影像的純醫(yī)學(xué)參數(shù)的數(shù)據(jù)庫(kù)。該論文主要研究純醫(yī)學(xué)參數(shù)的數(shù)據(jù)庫(kù),以結(jié)構(gòu)化為主的關(guān)系型數(shù)據(jù)為主要研究對(duì)象。在醫(yī)療實(shí)踐中產(chǎn)生的大量的結(jié)構(gòu)化醫(yī)學(xué)數(shù)據(jù),可以從醫(yī)院和患者的角度分析這些數(shù)據(jù),涉及到醫(yī)院的信息包括每個(gè)科室信息統(tǒng)計(jì)和全院數(shù)據(jù)匯總等方面,涉及到患者的信息包括登記掛號(hào)、門診就診、開單檢查、手術(shù)及藥物處置、入院治療、劃價(jià)交費(fèi)等方面。
根據(jù)臨床醫(yī)學(xué)數(shù)據(jù)源存儲(chǔ)特點(diǎn)建立的網(wǎng)格中,處在這個(gè)網(wǎng)格中的每臺(tái)計(jì)算機(jī)就是這個(gè)網(wǎng)格的一個(gè)節(jié)點(diǎn),稱之為網(wǎng)格節(jié)點(diǎn)。通過(guò)上面的分析可知,基于網(wǎng)格的臨床醫(yī)學(xué)數(shù)據(jù)挖掘需求分析可以分為兩類:支持網(wǎng)格中心控制節(jié)點(diǎn)的數(shù)據(jù)挖掘需求分析和支持局部網(wǎng)格節(jié)點(diǎn)的數(shù)據(jù)挖掘需求分析。
3 支持網(wǎng)格中心控制節(jié)點(diǎn)的數(shù)據(jù)挖掘需求分析
網(wǎng)格中心控制節(jié)點(diǎn)主要處理醫(yī)院的綜合信息。根據(jù)醫(yī)院的實(shí)際情況,其現(xiàn)實(shí)需求可能有很多種,這里不一一舉例,只列舉幾項(xiàng)。
(1)病人構(gòu)成分析。分析門診病人和住院病人性別、年齡、身份、職業(yè)等方面,從而得到不同類型病人的經(jīng)濟(jì)狀況、主要需求醫(yī)療服務(wù)類型等信息,能夠有針對(duì)性地采取措施來(lái)提高服務(wù)質(zhì)量,增加門診量和住院量。
(2)患者費(fèi)用構(gòu)成分析?;颊叩馁M(fèi)用主要構(gòu)成有檢查費(fèi)、治療費(fèi)、化驗(yàn)費(fèi)、手術(shù)費(fèi),這些費(fèi)用涉及到多個(gè)科室,應(yīng)用數(shù)據(jù)挖掘技術(shù)可以使收費(fèi)項(xiàng)目結(jié)構(gòu)合理性,優(yōu)化收費(fèi)項(xiàng)目結(jié)構(gòu),減少患者的一些無(wú)謂的檢查治療費(fèi),病人的負(fù)擔(dān)減少了,醫(yī)患關(guān)系也就更和諧了。
(3)藥品使用分析。在某一時(shí)間段內(nèi),分析各個(gè)科室的藥品使用情況,及時(shí)發(fā)現(xiàn)藥品使用的不合理現(xiàn)象,為醫(yī)院管理者提供控制藥品比例依據(jù)。
(4)各科室費(fèi)用分析。對(duì)比分析醫(yī)院每個(gè)科室或每個(gè)病區(qū)的在不同時(shí)間段內(nèi)各種費(fèi)用,找出每個(gè)科室盈利或虧損的原因,為獎(jiǎng)懲提供量化依據(jù)。
4 支持局部網(wǎng)格節(jié)點(diǎn)的數(shù)據(jù)挖掘需求分析
局部網(wǎng)格節(jié)點(diǎn)管理的信息具有局限性,涉及的范圍較小。
(1)單病種分析:現(xiàn)在的診斷方法、項(xiàng)目很多,選擇正確的診斷方法,有助于避免誤診,比如通過(guò)測(cè)定兒童血液中的鈣、鐵、鎂、錳和血紅蛋白等微量元素含量來(lái)判斷其營(yíng)養(yǎng)情況。
(2)病人就診時(shí)間分析:很多疾病都是季節(jié)性發(fā)病的,比如流感、心腦血管病等,這樣病人的就診時(shí)間就有很強(qiáng)的季節(jié)性,通過(guò)分析每月、每季度的門診人次、住院人次來(lái)預(yù)測(cè)下一時(shí)期的門診和住院人次。
5 結(jié)語(yǔ)
以上簡(jiǎn)單的分析了臨床醫(yī)學(xué)數(shù)據(jù)分布情況下的數(shù)據(jù)挖掘需求分析,目前數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于以結(jié)構(gòu)化數(shù)據(jù)為主的關(guān)系數(shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)??紤]到醫(yī)院信息的特點(diǎn),該系統(tǒng)采用三步式數(shù)據(jù)挖掘方式,數(shù)據(jù)資源由全局控制節(jié)點(diǎn)統(tǒng)一管理,當(dāng)有數(shù)據(jù)挖掘任務(wù)時(shí),全局控制節(jié)點(diǎn)把集中式數(shù)據(jù)庫(kù)按水平方式或垂直方式進(jìn)行劃分,把劃分好的數(shù)據(jù)集傳遞至局部網(wǎng)格節(jié)點(diǎn)。結(jié)合臨床醫(yī)學(xué)數(shù)據(jù)自身具有的特殊性和復(fù)雜性,處理好挖掘過(guò)程中的關(guān)鍵技術(shù),基于網(wǎng)格的臨床醫(yī)學(xué)數(shù)據(jù)挖掘?qū)⒂袕V闊的應(yīng)用前景。
參考文獻(xiàn)
[1] 肖亮.分布式連鎖商業(yè)數(shù)據(jù)挖掘模型[M].北京:航空工業(yè)出版社,2008:14-16.
[2] Mario C.,Antonio C.,Andrea P.,Domenico T.,Distributed Data Mining on Grids:Services,Tools,and Applications,IEEE Transactions on systems,man and cybernetics,2004.
[3] 田晶.基于網(wǎng)格的醫(yī)學(xué)數(shù)據(jù)分析技術(shù)研究與實(shí)現(xiàn)[D].武漢:華中科技大學(xué)大學(xué),2008.
[4] 孫紅梅,胡明生.基于網(wǎng)格的分布式數(shù)據(jù)挖掘模型研究[J].微處理機(jī),2008,12(6):149-152.