龔 彥,丁黎明,陳啟蓮,羅乙友
(1.湖南醫(yī)藥學(xué)院,湖南 懷化 418000;2.懷化學(xué)院,湖南 懷化 418000;3中南大學(xué),湖南 長沙 418083)
隨著醫(yī)療技術(shù)的發(fā)展和信息技術(shù)的進(jìn)步,整個醫(yī)療系統(tǒng)已經(jīng)遇到了海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn)。如何處理醫(yī)療海量數(shù)據(jù)已成為醫(yī)療行業(yè)的一個研究熱點問題,并成為處理海量醫(yī)療數(shù)據(jù)的必然選擇[1]。醫(yī)療大數(shù)據(jù)的研究已經(jīng)引起了學(xué)術(shù)界和工業(yè)界的廣泛的關(guān)注。
我國在2015年推出了“互聯(lián)網(wǎng)+”,大力推廣在傳統(tǒng)行業(yè)中應(yīng)用大數(shù)據(jù)和云計算,實現(xiàn)企業(yè)的轉(zhuǎn)型升級以及加速知識創(chuàng)新[3]。2014年“英特爾醫(yī)療行業(yè)峰會”都對醫(yī)療大數(shù)據(jù)的技術(shù)進(jìn)行了深入探討,對醫(yī)療大數(shù)據(jù)的應(yīng)用進(jìn)行了推廣。
對于大數(shù)據(jù),IBM曾經(jīng)給出了一個4V定義:1) 數(shù)據(jù)規(guī)模大(Volume);2) 數(shù)據(jù)增長快速(Velocity);3) 數(shù)據(jù)結(jié)構(gòu)多樣(Variety);4)數(shù)據(jù)價值巨大(Value)。
隨著醫(yī)療信息化的大量推廣,醫(yī)療數(shù)據(jù)每天都呈數(shù)量級的增長,除了具有大數(shù)據(jù)所特有的特點外還具有其獨特的特點。醫(yī)療數(shù)據(jù)包括純數(shù)據(jù)、信號數(shù)據(jù)、圖像數(shù)據(jù)、文字信息、以及語音數(shù)據(jù),視頻數(shù)據(jù)等等。由于疾病的發(fā)病過程在時間上有一個進(jìn)度,所以在時間維度上具有不連續(xù)性。每天產(chǎn)生的大量信息中,存在大量的重復(fù)信息,有些信息可能還存在相互矛盾的記錄。在處理醫(yī)療大數(shù)據(jù)時不能單純的套用大數(shù)據(jù)的研究方法。還需要結(jié)合其特點對數(shù)據(jù)進(jìn)行分析處理,才能最大的發(fā)揮數(shù)據(jù)的價值。
由于醫(yī)療信息數(shù)據(jù)通常包含了大量的小樣本數(shù)據(jù),巨大的數(shù)據(jù)維度,往往導(dǎo)致災(zāi)難性的后果[5]。這種高維數(shù)據(jù)結(jié)構(gòu)是進(jìn)行進(jìn)一步分析數(shù)據(jù)的主要障礙,不僅嚴(yán)重的影響了系統(tǒng)性能,還可能導(dǎo)致各種數(shù)據(jù)分類器性能退化和精度下降,并增加額外的困難[6]。在醫(yī)療診斷中,排除無關(guān)特征可以提供對計算模型的理解以及便于數(shù)據(jù)的可視化,因此醫(yī)療信息中的特征選擇稱為醫(yī)療大數(shù)據(jù)處理中的主要研究領(lǐng)域之一。
本文通過設(shè)計模糊神經(jīng)網(wǎng)絡(luò)分類器來實現(xiàn)對醫(yī)療大數(shù)據(jù)的分析處理。主要集中在以下兩個方面:1) 對醫(yī)療大數(shù)據(jù)訓(xùn)練集進(jìn)行學(xué)習(xí)訓(xùn)練,進(jìn)而分析獲取醫(yī)療數(shù)據(jù)分類模型;2) 針對測試集使用上述分類模型,并將測試集中未知類別的實例進(jìn)行分類,最終取得訓(xùn)練集中類別的估計值。
模糊系統(tǒng)也是人工智能的核心內(nèi)容之一,目前將人工神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)結(jié)合形成自適應(yīng)神經(jīng)模糊推理系統(tǒng)是一個研究熱點問題[7,8]。模糊神經(jīng)網(wǎng)絡(luò)是以模糊技術(shù)和人工神經(jīng)網(wǎng)絡(luò)理論的相交叉部分作為研究內(nèi)容。它利用模糊理論中的隸屬度函數(shù)去描述某樣本屬于某一類別的程度。因此,當(dāng)樣本的隸屬度值越大,說明此樣本屬于某一類別的程度越大[11]。
在本研究中將主要體現(xiàn)模糊隸屬度函數(shù)的重要性,以及如何提高模糊規(guī)則的含義和分類精度。算法框架結(jié)構(gòu)如圖1所示。
圖1 分類算法框架
模糊神經(jīng)網(wǎng)絡(luò)分類系統(tǒng)分類算法主要分為三個步驟,首先,對醫(yī)療數(shù)據(jù)根據(jù)神經(jīng)模糊分類器進(jìn)行分類;其次,根據(jù)選擇方法使用與確定相關(guān)和不相關(guān)的數(shù)據(jù)集的功能;再次,就是對系統(tǒng)進(jìn)行調(diào)整分類精度和性能評估。本文采用matlab中的神經(jīng)網(wǎng)絡(luò)工具箱實現(xiàn)模糊神經(jīng)網(wǎng)絡(luò)設(shè)計,其實現(xiàn)的流程如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)實現(xiàn)流程圖
具體的實現(xiàn)步驟如下:
Step1: 采集數(shù)據(jù),獲得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本數(shù)據(jù)集。
Step2: 數(shù)據(jù)處理。為了讓神經(jīng)網(wǎng)絡(luò)輸入的訓(xùn)練集具有典型性,需要對樣本數(shù)據(jù)集進(jìn)行一些處理。例如歸一化處理,主特征分析處理以及一些降處理等。最終得到的數(shù)據(jù)進(jìn)行重新整理,作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)樣本集。
Step3: 建立神經(jīng)網(wǎng)絡(luò)。
Step4: 訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到分類模型。
Step5: 測試數(shù)據(jù)。
Step6: 輸出結(jié)果。
自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)分類器是基于模糊規(guī)則的一種算法,可以通過權(quán)值來調(diào)節(jié)系統(tǒng)中特性,權(quán)值的影響對不同的分類來說也是不一樣的。一個典型的自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
一個典型的多輸入單輸出的自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)系統(tǒng)可以分為以下幾個部分:
第一層為輸入層:該層主要是進(jìn)行數(shù)據(jù)的輸入,如x1,x2。
圖3 典型的自適應(yīng)神經(jīng)網(wǎng)絡(luò)
第二層:該層的每個節(jié)點i是以節(jié)點函數(shù)表示的如圖3中的A1,A2,B1,B2等方形節(jié)點,.使用隸屬度函數(shù)來進(jìn)行處理,
Q1,i=μAi(xi),i=1,2.
(1)
Q1,i=μB(i-2)(xi),i=3,4.
(2)
x1,x2為節(jié)點輸入,μAi(xi),μB(i-1)(xi)是與該節(jié)點函數(shù)值相關(guān)的變量,可以將其視為是模糊集Z(Z={A1,A2,B1,B2})的隸屬度函數(shù)。函數(shù)的選擇按照具體的情況而定。
第三層:該層節(jié)點在圖3中用∏表示,將輸入信號相乘,將其乘積輸出為:
O2,i=wi=μAi(x1)μBi(x2),i=1,2.
(3)
第四層:該層的節(jié)點如圖3中的N表示,第i個節(jié)點計算第i條規(guī)則的wi與全部規(guī)則值w之和的比值為:
(4)
第五層:該層的節(jié)點i為自適應(yīng)節(jié)點,其輸出為:
(5)
第六層:該層節(jié)點是一個固定節(jié)點,計算所有輸入信號的總輸出為:
.
(6)
在醫(yī)療大數(shù)據(jù)處理過程中,已經(jīng)獲得了大量用于建模的輸入和輸出數(shù)據(jù),大量的患者檢測數(shù)據(jù)和其最終的病例之間形成了一個多輸入多輸出的數(shù)據(jù)映射,如圖4所示。在醫(yī)療大數(shù)據(jù)分類系統(tǒng)中,不能憑借經(jīng)驗也不能期望數(shù)據(jù)中直接給出隸屬度函數(shù)的形式和參數(shù),這時應(yīng)當(dāng)選擇可與輸入、輸出數(shù)據(jù)相對匹配的隸屬度函數(shù),反映數(shù)據(jù)變化的特點。
在圖4中,同一層的節(jié)點具有相同的功能。與多輸入單輸出有稍微的差別。
在這里隸屬度函數(shù)采用高斯函數(shù),高斯函數(shù)參數(shù)比較少,而且平滑可導(dǎo),便于計算。
(7)
圖4 多輸入多輸出模糊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
使用matlab的模糊神經(jīng)網(wǎng)絡(luò)工具箱,進(jìn)行驗證,數(shù)據(jù)集采用UCI的Breast Cancer Wisconsin (Diagnostic) Data Set[10]。分類算法主要思路如下:
1) 為每一個分類創(chuàng)建一個模糊規(guī)則V,總模糊規(guī)則為U=VK,U為模糊規(guī)則的總數(shù)。
2) 集合Pij=1,i=1,2,…,u以及j=1,2,…,d;u為總的分類,d為主要屬性的特征。
3) 使用K-均值聚類分析確定模糊神經(jīng)網(wǎng)絡(luò)的參數(shù)初始值。
4) 使用新的訓(xùn)練集訓(xùn)練,在訓(xùn)練中Pij的值需要大于等于0。
5) 獲得訓(xùn)練結(jié)果和測試分類結(jié)果。
圖5 隸屬度函數(shù)對分類結(jié)果的影響
從學(xué)院附屬醫(yī)院采集部分?jǐn)?shù)據(jù)作為訓(xùn)練用數(shù)據(jù)集并導(dǎo)入到matlab工作空間中。樣品主要分為兩類,即惡性和良性。每個樣本包括30個特征屬性值。圖5中描述了輸出誤差隨迭代次數(shù)的變化的曲線,可以通過調(diào)整隸屬度函數(shù)來對分類結(jié)果產(chǎn)生影響。
本文使用模糊神經(jīng)網(wǎng)對醫(yī)療大數(shù)據(jù)的分類,通過對學(xué)院附屬醫(yī)院采集部分?jǐn)?shù)據(jù)的分析處理。得了一個良好的隸屬度函數(shù)對分類結(jié)果的影響仿真結(jié)果。同時在模糊神經(jīng)網(wǎng)絡(luò)在處理高緯度數(shù)據(jù)時,具有良好的性能和仿真精度。