劉宏偉
(平頂山市解放軍第152醫(yī)院信息科 河南 467000)
近年來(lái),隨著人工智能技術(shù)和數(shù)據(jù)庫(kù)的發(fā)展,逐漸衍生出了“數(shù)據(jù)挖掘”這一種全新信息技術(shù)。該術(shù)語(yǔ)最早出現(xiàn)于 1989年,主要是指從數(shù)據(jù)庫(kù)中提出的潛在的、人們事先示知的知識(shí)和信息,在大量的數(shù)據(jù)中通過(guò)利用各種分析工具發(fā)現(xiàn)數(shù)據(jù)間關(guān)系和構(gòu)建模型的交互迭代過(guò)程,數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域中和醫(yī)學(xué)數(shù)據(jù)分析中都得到了廣泛應(yīng)用,醫(yī)學(xué)數(shù)據(jù)經(jīng)數(shù)據(jù)挖掘理論分析,提取隱含在其中有著重要意義和價(jià)值的信息,對(duì)正確診斷與治療及促進(jìn)對(duì)疾病的研究都具有著重要意義[1]。在數(shù)據(jù)庫(kù)和信息決策領(lǐng)域數(shù)據(jù)挖掘技術(shù)備受到國(guó)內(nèi)外學(xué)者關(guān)注,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)影響領(lǐng)域也就應(yīng)運(yùn)而生。
人工神經(jīng)網(wǎng)絡(luò)是一門新興學(xué)科。其發(fā)展速度較快,主要通過(guò)模擬人腦神經(jīng)元結(jié)構(gòu)來(lái)學(xué)習(xí)非線性預(yù)測(cè)模型。該技術(shù)可以完成多種數(shù)據(jù)挖掘任務(wù),包括聚類、分類及關(guān)聯(lián)規(guī)則等。人工神經(jīng)網(wǎng)絡(luò)其自身主要有較強(qiáng)的容錯(cuò)性和自組織性等特點(diǎn)。近年來(lái),工神經(jīng)網(wǎng)絡(luò)技術(shù)越來(lái)越被廣泛使用于數(shù)據(jù)挖掘技術(shù)中。
關(guān)聯(lián)分類算法屬于一種新的分類方法,其主要綜合了分類挖掘技術(shù)和關(guān)聯(lián)規(guī)則。其處理主要包括兩個(gè)步驟:一是挖掘相關(guān)的關(guān)聯(lián)規(guī)則主要是采用標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則挖掘算法;二是在所挖掘出的關(guān)聯(lián)規(guī)則基礎(chǔ)上構(gòu)造上一個(gè)分類器。
支持向量機(jī)是統(tǒng)計(jì)學(xué)中結(jié)構(gòu)風(fēng)險(xiǎn)最小原理和VC維理論的具體體現(xiàn)。該技術(shù)主要將輸入空間通過(guò)非線性變換形式變換到一個(gè)高維的空間,而最優(yōu)線性分類面就是從這個(gè)新空間中所獲取的。這種方法對(duì)于模型的復(fù)雜性和學(xué)習(xí)能力能從有限的樣本信息中尋求到最佳折衷,以此取取較好的推廣能力。
決策樹(shù)是采用一批已知的訓(xùn)練數(shù)據(jù)建立一棵決策樹(shù),之后針對(duì)各種數(shù)據(jù)受各變量影響的情況通過(guò)樹(shù)枝狀模型來(lái)進(jìn)行預(yù)測(cè)分析。在處理醫(yī)學(xué)資料方面,決策樹(shù)的功能非常強(qiáng)大,隨著醫(yī)學(xué)技術(shù)的發(fā)展,決策樹(shù)算法得到了不斷改進(jìn)和完善,進(jìn)一步擴(kuò)展應(yīng)用到了管理決策和醫(yī)學(xué)領(lǐng)域中,具有著重要的應(yīng)用價(jià)值,并且具有較好的發(fā)展前景。當(dāng)前,決策樹(shù)算法主要有 ID3、CART、C4.5及CHAID。
進(jìn)化計(jì)算法目前也屬于一種新的計(jì)算方法,其主要是根據(jù)生物進(jìn)化規(guī)律而演化出的。該方法主要包括進(jìn)化的規(guī)劃和策略,遺傳的編程和算法。進(jìn)化計(jì)算法作為一個(gè)新的交叉學(xué)科,近些年來(lái)關(guān)于進(jìn)化的應(yīng)用和研究得到了不斷發(fā)展,其理論基礎(chǔ)也得到了進(jìn)一步提高,擁有了廣闊的應(yīng)用前景。進(jìn)化計(jì)算法不僅可以對(duì)各種算法性質(zhì)進(jìn)行更好地分析和利用,還可以設(shè)計(jì)出有效的進(jìn)化算法,使已有的算法得到改進(jìn)。
在數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則挖掘算法是一個(gè)重要的研究領(lǐng)域。早在1993 年,已給出了關(guān)聯(lián)規(guī)則處理大數(shù)據(jù)量上的有效算法,目前,關(guān)聯(lián)規(guī)則的挖掘算法已出現(xiàn)了很多,一些并行算法、抽樣算法、多層次挖掘算法、分割算法等比較常用。而頻繁項(xiàng)集的求解就是關(guān)聯(lián)規(guī)則挖掘算法的核心。
近年來(lái),隨著醫(yī)學(xué)影像學(xué)的不斷發(fā)展,各種醫(yī)學(xué)影像學(xué)數(shù)據(jù)已越來(lái)越多,在醫(yī)學(xué)影像分析研究中數(shù)據(jù)挖掘技術(shù)發(fā)揮著非常大的作用。
Wang等[2]在進(jìn)行有關(guān)使用右心室接受左心室輔助裝置患者的研究中,對(duì)138例使用左心室輔助裝置患者的臨床資料進(jìn)行了回顧性分析,對(duì)現(xiàn)有的風(fēng)險(xiǎn)評(píng)分進(jìn)行了對(duì)比,運(yùn)用決策樹(shù)體現(xiàn)出了較多的優(yōu)勢(shì)。在定量上對(duì)于預(yù)測(cè)右心室支持它主要通過(guò)了非線性編碼的術(shù)前變量之間的協(xié)同作用,對(duì)于臨床推理模型能更仔細(xì)地進(jìn)行研究。隨著醫(yī)療機(jī)構(gòu)中心的進(jìn)一步發(fā)展,對(duì)于左心室輔助裝置分類治療縱向數(shù)據(jù)提供了具有重要價(jià)值的預(yù)測(cè)工具,能有效地改善預(yù)后。
在醫(yī)學(xué)影像報(bào)告中普遍存在著不確定性,可能延誤臨床決策或?qū)е略\斷錯(cuò)誤,導(dǎo)致了醫(yī)療衛(wèi)生出現(xiàn)了各種不良后果。Case等[3]報(bào)道了與濾波反投影法相比,運(yùn)用貝葉斯迭代傳輸梯度重建算法在心臟單光子發(fā)射計(jì)算體層攝影術(shù)衰減矯正灌注圖像中更能顯示改善的心肌壁變化圖像,在較寬的光譜圖中這種重建方法能快速地提供準(zhǔn)確的衰減地圖,并能使患者的衰減矯正灌注圖像有效提高。
Hapfelmeier 等[4]把正電子發(fā)射計(jì)算機(jī)斷層掃描的數(shù)據(jù)庫(kù)與結(jié)構(gòu)化患者數(shù)據(jù)資料相互聯(lián)系起來(lái),對(duì)于類似的典型腦代謝主要通過(guò)確定集群的正電子發(fā)射計(jì)算機(jī)斷層掃描來(lái)實(shí)現(xiàn)共享,然后解釋在人口統(tǒng)計(jì)學(xué)變量中與集群之間的臨床的共同點(diǎn)和差異,進(jìn)而解釋在光學(xué)領(lǐng)域中子組和集群的描述,并計(jì)算聚類的 P值,最終有利于我們對(duì)各種類型的癡呆有更好地理解。此外,在有關(guān)超聲對(duì)腎臟圖像分類和自動(dòng)診斷的支持決策研究中,針對(duì)多層反向傳播網(wǎng)絡(luò)與分類器的特異性、敏感性及準(zhǔn)確性的比較,主要應(yīng)用了關(guān)聯(lián)規(guī)則、ARCKi算法、PreSAGe 算法及計(jì)算機(jī)決策支持系統(tǒng),結(jié)果顯示多種算法聯(lián)合應(yīng)用能達(dá)到高準(zhǔn)確性(93%以上)和高敏感性(94%以上)。在支持決策研究中,為臨床醫(yī)師提供了預(yù)測(cè)正常腎臟的特征值向異常演變的可能性。
對(duì)于所引入的數(shù)據(jù)庫(kù)技術(shù)和建立的DICOM 3.0 標(biāo)準(zhǔn),有效促進(jìn)了醫(yī)學(xué)影像傳輸與存儲(chǔ)系統(tǒng)的應(yīng)用和發(fā)展,使醫(yī)學(xué)影像中很多難題已得到解決,包括統(tǒng)一、集中、使用和存儲(chǔ)來(lái)自不同醫(yī)療設(shè)備所取得的各種醫(yī)學(xué)影像數(shù)據(jù)問(wèn)題。同時(shí),對(duì)于該系統(tǒng)的應(yīng)用也爆炸性的增長(zhǎng)了醫(yī)學(xué)影像數(shù)據(jù),如何在影像信息的檢索和查詢中應(yīng)用數(shù)據(jù)挖掘技術(shù)已逐漸成為研究重點(diǎn)。當(dāng)前,解決主要可以通過(guò)以下兩種方法:①針對(duì)病例可能的診斷根據(jù)醫(yī)學(xué)影像信息來(lái)進(jìn)行查詢,病例信息在影像中提取到后,對(duì)于可能的病例診斷主要利用檢索系統(tǒng)來(lái)獲取;②檢索醫(yī)學(xué)影像信息主要根據(jù)病例記錄,也就是在影像存儲(chǔ)的基礎(chǔ)上建立患者的病例信息標(biāo)引,并進(jìn)行統(tǒng)計(jì)學(xué)分析,以后進(jìn)行查詢時(shí)都可以通過(guò)病例信息標(biāo)引醫(yī)學(xué)影像信息。
總之,在疾病的早期干預(yù)和診斷中數(shù)據(jù)挖掘技術(shù)已經(jīng)得到廣泛用,隨著各種數(shù)據(jù)資料的增長(zhǎng),數(shù)據(jù)挖掘方法和挖掘技術(shù)均在迅速發(fā)展,各種數(shù)據(jù)挖掘技術(shù)雖然都具有一定的局限性,為避免單一方法存在的不足,我們可以綜合利用各種不同的挖掘方法。在疾病的預(yù)防和診療過(guò)程中數(shù)據(jù)挖掘技術(shù)將幫助研究者提供更準(zhǔn)確的決策。因此,在醫(yī)學(xué)科研、疾病診斷治療及醫(yī)院的管理等方面,相信數(shù)據(jù)挖掘技術(shù)將會(huì)發(fā)揮更大的作用。
[1]林國(guó)慶,曲 哲.醫(yī)學(xué)影像學(xué)中的數(shù)據(jù)挖掘技術(shù)[J].醫(yī)療裝備.2004,18(3):1-4
[2]W ang Y,Simon MA,Bonde P,et al.Decision tree for adjuvant right ventricular support in patients receiving a left ventricular assist device.J Heart Lung Transplant,2012,31(2):140-149.
[3]Reiner B.Uncovering and improving upon the inherent deficiencies ofradiology reporting through data m ining.J Digit Imaging,2010,23(2):109-118.
[4]Hapfelmeier A,Schm idt J,Mueller M,et al,Interpreting PET scans bystructured patient data:A data m ining case study in dementia research.IEEE Computer Society,2010,24(1):149-170.