袁付勇,畢 利
(寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川 750021)
中醫(yī)辨證是對(duì)癥狀信息的整合與分析,要求醫(yī)師有扎實(shí)的中醫(yī)知識(shí)和豐富的診斷經(jīng)驗(yàn),給中醫(yī)的傳承和應(yīng)用帶來了挑戰(zhàn)。智能診斷是中醫(yī)信息化發(fā)展中重要的一部分,利用人工智能算法實(shí)現(xiàn)疾病診斷可以幫助醫(yī)生更全面、準(zhǔn)確地確定病情。國外對(duì)中醫(yī)應(yīng)用的研究也在不斷深入,包括對(duì)中醫(yī)診斷決策算法的研究[1-3]、中醫(yī)藥的病理研究[4]等,其中診斷決策算法以決策樹、神經(jīng)網(wǎng)絡(luò)為主。國內(nèi)對(duì)中醫(yī)的研究更為重視,中醫(yī)智能化進(jìn)程不斷加快[5],診斷決策算法的設(shè)計(jì)顯得尤為重要,很多智能算法都曾被嘗試應(yīng)用到中醫(yī)診斷中,其中人工神經(jīng)網(wǎng)絡(luò)算法憑借較好的非線性映射能力、自學(xué)習(xí)能力被廣泛應(yīng)用于中醫(yī)診斷的各個(gè)層面[6,7],如BP神經(jīng)網(wǎng)絡(luò)[8,9]、RBF神經(jīng)網(wǎng)絡(luò)[10]、PNN神經(jīng)網(wǎng)絡(luò)等[11,12]。隨著智能診斷應(yīng)用性要求的不斷提高,針對(duì)單種疾病的智能診斷無法滿足應(yīng)用的需求,而單個(gè)神經(jīng)網(wǎng)絡(luò)算法在應(yīng)用到多種疾病混合預(yù)測時(shí)很難達(dá)到預(yù)期準(zhǔn)確率。DS證據(jù)理論是處理不確定問題的概率組合理論,可融合不同來源的數(shù)據(jù),在信息融合方面有很好的效果。然而對(duì)證據(jù)源本身的準(zhǔn)確性并未進(jìn)行充分考慮?;诖?,給出加入證據(jù)源準(zhǔn)確性系數(shù)的方法對(duì)DS證據(jù)理論進(jìn)行改進(jìn),并以不同神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果作為不同證據(jù)源的基本信度函數(shù),設(shè)計(jì)基于改進(jìn)DS證據(jù)理論的診斷模型,實(shí)現(xiàn)對(duì)3種疾病的混合預(yù)測。
人工神經(jīng)網(wǎng)絡(luò)是對(duì)人腦神經(jīng)處理事物的一種模擬,通過神經(jīng)元組成網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)處理,MP模型是較早且影響力最大的神經(jīng)元模型,其模型如圖1所示。
圖1 MP神經(jīng)元模型
圖1中,x1…xi…xn是神經(jīng)元的輸入值,yo是輸出值,wi是各個(gè)輸入值對(duì)應(yīng)的權(quán)值,b是神經(jīng)元的閾值,f(.)是激活函數(shù)。神經(jīng)元的輸出如式(1)
(1)
激活函數(shù)也有很多種,如線性函數(shù)、S型(Sigmoid)函數(shù)、RBF(radial basis function)函數(shù)等。由于激活函數(shù)和拓展方式的區(qū)別,人工神經(jīng)網(wǎng)絡(luò)又分為很多類。在中醫(yī)領(lǐng)域,病例數(shù)據(jù)中癥狀往往具有多值屬性、多類標(biāo)的特點(diǎn),辨證也具有復(fù)雜性,使得癥狀與結(jié)果之間往往呈非線性關(guān)系,而神經(jīng)網(wǎng)絡(luò)憑借網(wǎng)絡(luò)結(jié)構(gòu)能夠完成對(duì)數(shù)據(jù)的非線性映射,在解決這類問題上比較適用。在所設(shè)計(jì)的實(shí)驗(yàn)中,單個(gè)網(wǎng)絡(luò)的預(yù)測模型選用了拓?fù)浣Y(jié)構(gòu)不同的BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、PNN神經(jīng)網(wǎng)絡(luò)和LVQ神經(jīng)網(wǎng)絡(luò)。
BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)為輸入層、隱含層和輸出層,每兩層之間通過線性變換來連接,隱含層的激活函數(shù)一般為S型函數(shù),如式(2)、式(3)
(2)
(3)
其中,xi為神經(jīng)元的輸入值,f(hi)為神經(jīng)元的輸出值。BP神經(jīng)網(wǎng)絡(luò)的性能由隱含層節(jié)點(diǎn)數(shù)、各層之間的連接權(quán)值、各神經(jīng)元的閾值共同決定。常見的BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)比較簡單,是最早被應(yīng)用于疾病預(yù)測領(lǐng)域的網(wǎng)絡(luò)結(jié)構(gòu),為智能算法應(yīng)用到疾病診斷領(lǐng)域的實(shí)現(xiàn)開拓了思路和方法,但該神經(jīng)網(wǎng)絡(luò)由于自身結(jié)構(gòu)的局限性,在應(yīng)用時(shí)也存在一些難以解決的問題,包括模型結(jié)構(gòu)上如何選擇最優(yōu)的隱含層神經(jīng)元數(shù)目、如何解決網(wǎng)絡(luò)運(yùn)算過程中的局部最優(yōu)困境,如何提高在多預(yù)期結(jié)果條件下的預(yù)測準(zhǔn)確率等。
RBF神經(jīng)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),計(jì)算過程比BP網(wǎng)絡(luò)更復(fù)雜,擁有更好的非線性擬合能力。相比于BP神經(jīng)網(wǎng)絡(luò),輸入層到隱含層為非線性變換。隱含層的激活函數(shù)一般使用徑向Gaussian函數(shù),公式如式(4)
(4)
PNN神經(jīng)網(wǎng)絡(luò)是一種雙隱層前饋網(wǎng)絡(luò),結(jié)合了密度函數(shù)估計(jì)和貝葉斯決策理論。網(wǎng)絡(luò)結(jié)構(gòu)分為輸入層、模式層、求和層和輸出層,屬于完全前向的計(jì)算過程,節(jié)省了反向誤差傳播的計(jì)算時(shí)間,其輸入層到模式層實(shí)現(xiàn)非線性變換,求和層對(duì)類別進(jìn)行密度函數(shù)估計(jì)。模式層的激活函數(shù)為徑向基函數(shù),輸出值為一個(gè)標(biāo)量。模式層的激活函數(shù)如式(5)
(5)
其中,x表示輸入向量,xij表示第i類的第j個(gè)中心點(diǎn),δ表示平滑參數(shù),d為前一層的維數(shù)。PNN網(wǎng)絡(luò)的性能主要受模式層平滑因子的影響。相對(duì)于RBF神經(jīng)網(wǎng)絡(luò),概率神經(jīng)網(wǎng)絡(luò)在判定類別過程中加入了密度函數(shù)估計(jì)與貝葉斯決策,不需要反向調(diào)參,學(xué)習(xí)時(shí)間短,同時(shí)具備容錯(cuò)性,但對(duì)訓(xùn)練集的代表性要求較高,計(jì)算過程中需要的存儲(chǔ)空間也較大。
LVQ神經(jīng)網(wǎng)絡(luò)是對(duì)SOM網(wǎng)絡(luò)(Kohonen自組織網(wǎng)絡(luò))的一種改進(jìn)網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)構(gòu)分為輸入層、競爭層和輸出層,不同于另外3種網(wǎng)絡(luò)模型,LVQ神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練學(xué)習(xí)過程中結(jié)合了有監(jiān)督學(xué)習(xí)和競爭學(xué)習(xí)兩種方式對(duì)競爭層的參數(shù)進(jìn)行調(diào)整,其中輸入層和競爭層之間為全連接,競爭層和輸出層為部分連接。LVQ神經(jīng)網(wǎng)絡(luò)的隱含層按照類別數(shù)目分成多個(gè)神經(jīng)元組,神經(jīng)元組的每個(gè)神經(jīng)元用輸入層和隱含層之間的權(quán)值作為參考矢量的分量,在訓(xùn)練過程中修改權(quán)值來更接近預(yù)期結(jié)果。其中網(wǎng)絡(luò)中輸入向量和競爭層神經(jīng)元的距離計(jì)算過程如式(6)
(6)
其中,R表示輸入向量的維度,xj表示輸入層第j個(gè)神經(jīng)元,wij表示輸入層第j個(gè)神經(jīng)元到競爭層第i個(gè)神經(jīng)元的權(quán)值,通過計(jì)算距離來得到獲勝神經(jīng)元。LVQ神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)在于不必對(duì)向量進(jìn)行規(guī)格化,可以直接對(duì)輸入向量進(jìn)行分類,結(jié)構(gòu)較為簡單且效率高。但某些情況下,輸入層到競爭層之間的權(quán)值可能不收斂,另外LVQ神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中忽略了輸入層各維對(duì)結(jié)果的影響性差異,也可能會(huì)帶來誤差。
DS證據(jù)理論是用于整合多源不確定信息的常用推理方法,是一種有效的信息融合理論[13],可以滿足比概率論更弱的條件,在醫(yī)學(xué)診斷、組合決策、故障診斷和物聯(lián)網(wǎng)等領(lǐng)域有廣泛的應(yīng)用[14-17]。
定義1 辨識(shí)框架。即所研究命題在所有可能情況下出現(xiàn)的結(jié)果的并集,辨識(shí)框架是證據(jù)理論最基礎(chǔ)的概念,描述了最終所有可能出現(xiàn)的結(jié)果,定義如下
θ={θ1,θ2,…,θi,…,θn}
(7)
其中,θi表示命題可能出現(xiàn)的一種結(jié)果,結(jié)果之間互斥,在一種情況下只可出現(xiàn)一種結(jié)果,n表示結(jié)果的個(gè)數(shù)。
定義2 基本信度賦值。又稱mass函數(shù),是對(duì)辨識(shí)框架里出現(xiàn)某些結(jié)果子集的基本概率分布,m(A)表示對(duì)結(jié)果子集A的基本信度賦值,定義如下
(8)
定義3 基本信度函數(shù)。基本信度函數(shù)是出現(xiàn)某個(gè)結(jié)果時(shí),對(duì)所有支撐該結(jié)果命題為真的結(jié)果子集進(jìn)行基本信度賦值求和,決定了對(duì)該事件的確認(rèn)程度,定義如下
(9)
由經(jīng)典的DS證據(jù)理論知,在證據(jù)源之間不完全沖突的前提下,運(yùn)用Dempster規(guī)則可以完成不同證據(jù)源之間的證據(jù)組合,以兩個(gè)證據(jù)源進(jìn)行證據(jù)組合來舉例,m1、m2表示兩個(gè)不同證據(jù)源對(duì)于得到結(jié)果A事件的基本信度函數(shù),則兩者組合所得到的事件A發(fā)生的信任確認(rèn)程度如式(10)
(10)
本文的研究是在多證據(jù)源進(jìn)行組合的實(shí)驗(yàn)環(huán)境下進(jìn)行,根據(jù)組合規(guī)則的特點(diǎn),當(dāng)證據(jù)源增加時(shí),組合規(guī)則滿足結(jié)合律和交換律,在此設(shè)共有n個(gè)不同證據(jù)源,各證據(jù)源的基本信度函數(shù)分別為m1、m2、…、mn,則關(guān)于結(jié)果事件A經(jīng)過證據(jù)組合而得到的基本信任函數(shù)如式(11)
(11)
為了計(jì)算方便,式(11)中的歸一化因子通過式(12)的方式得到
(12)
DS證據(jù)理論自1976年被提出后,因其在應(yīng)用過程中可以滿足比貝葉斯更弱的條件,實(shí)現(xiàn)多途徑獲取知識(shí)的有效融合,通過基本信度函數(shù)更直觀表達(dá)命題結(jié)果的確定性,得到廣泛的應(yīng)用,但對(duì)DS證據(jù)理論的改進(jìn)也從未停止過。DS證據(jù)理論在應(yīng)用中出現(xiàn)的弊端主要體現(xiàn)在3個(gè)方面,首先是對(duì)證據(jù)的約束性,DS證據(jù)理論要求證據(jù)必須是獨(dú)立的,且證據(jù)源之間盡量避免高沖突情況,否則就會(huì)出現(xiàn)“Zadeh悖論”之類的反預(yù)期結(jié)果;其次是辨識(shí)框架中元素的問題,當(dāng)元素遞增時(shí),在計(jì)算過程中所產(chǎn)生的焦元會(huì)呈指數(shù)形式變大,消耗的計(jì)算時(shí)間也會(huì)增加,出現(xiàn)焦元爆炸問題;最后是證據(jù)合成的準(zhǔn)確性問題,經(jīng)典DS證據(jù)理論在合成過程中并未考慮證據(jù)源自身的可信度,也并未考慮證據(jù)源所提供證據(jù)的準(zhǔn)確性,默認(rèn)全部證據(jù)源準(zhǔn)確性相同,這種做法在已知證據(jù)源準(zhǔn)確性不一致情況下并未充分利用已知信息,在合成結(jié)果上可能存在誤差。
結(jié)合本文實(shí)驗(yàn)場景,對(duì)于經(jīng)典證據(jù)理論存在的問題進(jìn)行分析如下:①針對(duì)證據(jù)組合中證據(jù)之間高沖突的問題,一般通過改進(jìn)組合規(guī)則或?qū)?shí)驗(yàn)數(shù)據(jù)進(jìn)行修正兩種方式來解決,改進(jìn)組合規(guī)則的相關(guān)算法有很多,例如李永忠等認(rèn)為當(dāng)證據(jù)沖突過大時(shí)應(yīng)考慮證據(jù)的相似程度,通過計(jì)算證據(jù)間的相似程度求得權(quán)系數(shù),在組合時(shí)考慮權(quán)系數(shù)的影響,以此為思路提出了對(duì)應(yīng)的證據(jù)組合公式[18],但改進(jìn)組合規(guī)則也會(huì)帶來一些新的問題,經(jīng)過研究李永忠、王力[19]等學(xué)者的組合規(guī)則,發(fā)現(xiàn)前兩種組合方式增加了證據(jù)組合過程的計(jì)算量,第三種組合方式破壞了證據(jù)組合規(guī)則的交換律和結(jié)合律,由此可見,對(duì)組合規(guī)則的修改伴隨著計(jì)算量增加或者組合優(yōu)良特性被破壞的問題。而降低沖突的第二種方式,即對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行修正,例如徐凱通過修改原數(shù)據(jù),利用指數(shù)形式替換原來的基本信度函數(shù),使得合成過程中不會(huì)出現(xiàn)0值焦元[20]。這種方式使證據(jù)在符合邏輯的基礎(chǔ)上又避免相互之間的高沖突問題,基于此,本文采取對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行修正的方式避免高沖突,具體實(shí)現(xiàn)為將單網(wǎng)絡(luò)模型的預(yù)測結(jié)果設(shè)定為信度賦值是0.8,其余兩個(gè)非預(yù)測結(jié)果的信度賦值為0.1,避免0值焦元的產(chǎn)生,減少了Dempster規(guī)則整體丟棄式處理方式帶來的誤差。②針對(duì)辨識(shí)框架中元素個(gè)數(shù)的問題,當(dāng)辨識(shí)框架中元素較多時(shí),通常通過兩種方式進(jìn)行改進(jìn):一是根據(jù)證據(jù)特點(diǎn),設(shè)計(jì)快速算法進(jìn)行計(jì)算;二是通過某種規(guī)則來減少焦元,從而進(jìn)行近似計(jì)算。因本文所設(shè)計(jì)的實(shí)驗(yàn)選取數(shù)據(jù)為患痹病、濕阻、感冒3種病其中之一的患者數(shù)據(jù),不存在同時(shí)多種病并發(fā)的病例,根據(jù)證據(jù)理論關(guān)于辨識(shí)框架的定義可知,元素?cái)?shù)目為3個(gè),不足以出現(xiàn)焦元爆炸類問題,不宜采用近似計(jì)算,計(jì)算過程較少,可以直接采用組合方式。③對(duì)于證據(jù)合成的準(zhǔn)確性問題,大多數(shù)學(xué)者是對(duì)證據(jù)權(quán)重進(jìn)行了調(diào)整,例如如李金玉等提出利用AHP法計(jì)算證據(jù)中各個(gè)證據(jù)的權(quán)重[21],王法玉等提出采用模糊綜合評(píng)價(jià)法結(jié)合AHP法計(jì)算證據(jù)的權(quán)重[22],但該類方法僅是對(duì)證據(jù)完成權(quán)重調(diào)整,忽略了證據(jù)源準(zhǔn)確性帶來的影響。本文提出對(duì)各證據(jù)源準(zhǔn)確性進(jìn)行分析,在證據(jù)組合過程中考慮其帶來的影響,引入證據(jù)源準(zhǔn)確性系數(shù)λ來表示各個(gè)證據(jù)源的可信度,改進(jìn)的DS理論組合規(guī)則計(jì)算如式(13)
(13)
其中,λA表示關(guān)于命題A的各證據(jù)源綜合可信度,λA的計(jì)算方式如式(14),其中n是證據(jù)源的個(gè)數(shù),λ1…λn為各個(gè)證據(jù)源的可信度,應(yīng)滿足0≤λi≤1。因?yàn)榭尚哦认禂?shù)的存在,各證據(jù)源的數(shù)據(jù)會(huì)有一部分處于未知領(lǐng)域,加入該系數(shù)后,處于未知領(lǐng)域的信息將被保留為可信比例的信度函數(shù)
(14)
為了驗(yàn)證方法的有效性,給出λ影響效果較小和較大的兩個(gè)算例,設(shè)A、B、C為3個(gè)不同結(jié)果事件,m1、m2、m3、m4為4個(gè)不同證據(jù)源,合成結(jié)果見表1。
從驗(yàn)證算例的結(jié)果可以看出,在一般情況下,利用兩種組合規(guī)則所得到的結(jié)果均符合預(yù)期結(jié)論,相比之下,加入證據(jù)源準(zhǔn)確性系數(shù)后,改進(jìn)規(guī)則的預(yù)期結(jié)果的基本信任函數(shù)略小于經(jīng)典DS證據(jù)理論,并不改變結(jié)果的正確性。但當(dāng)證據(jù)源所提供的基本信度函數(shù)為第二種情況時(shí),利用DS理論所得到的結(jié)果無法判斷A、B中哪個(gè)的可能性更高,但加入證據(jù)源準(zhǔn)確性系數(shù)后,得到的結(jié)果為m(A)小于m(B),這種結(jié)果更為符合預(yù)期。
表1 DS證據(jù)理論組合驗(yàn)證算例
實(shí)驗(yàn)根據(jù)病人癥狀對(duì)病名進(jìn)行預(yù)測,預(yù)期結(jié)果為痹病、濕阻、感冒,每個(gè)病例的診斷結(jié)果為一種病名,不考慮多種病同時(shí)存在的情況。在預(yù)測前需要訓(xùn)練并保存神經(jīng)網(wǎng)絡(luò)組模型:首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,再利用預(yù)處理后的數(shù)據(jù)訓(xùn)練4種不同的神經(jīng)網(wǎng)絡(luò),獲取4種網(wǎng)絡(luò)的準(zhǔn)確率,并保存訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)組;模型在預(yù)測時(shí),直接調(diào)用神經(jīng)網(wǎng)絡(luò)組進(jìn)行預(yù)測,對(duì)所有預(yù)測結(jié)果進(jìn)行證據(jù)組合,在證據(jù)組合計(jì)算時(shí)利用改進(jìn)的DS證據(jù)理論組合規(guī)則,將網(wǎng)絡(luò)的準(zhǔn)確率轉(zhuǎn)換為證據(jù)源準(zhǔn)確性系數(shù),經(jīng)過證據(jù)組合得到最終的信度函數(shù)。模型的預(yù)測流程如圖2所示。
圖2 預(yù)測流程
依據(jù)模型設(shè)計(jì)的設(shè)想,具體實(shí)現(xiàn)如下:
輸入:原始數(shù)據(jù)集
輸出:預(yù)測的疾病編號(hào)
步驟1 將原始數(shù)據(jù)集進(jìn)行預(yù)處理,并隨機(jī)分為90%和10%的兩份,分別作為訓(xùn)練集和測試集;
步驟2 利用訓(xùn)練集數(shù)據(jù)對(duì)4種類型的網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練并保存(BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、LVQ神經(jīng)網(wǎng)絡(luò)、PNN神經(jīng)網(wǎng)絡(luò));
步驟3 載入保存的4個(gè)網(wǎng)絡(luò)模型,對(duì)測試集進(jìn)行預(yù)測,產(chǎn)生4組預(yù)測值,將預(yù)測值轉(zhuǎn)化為3種病的基本信度賦值;
步驟4 對(duì)步驟3所得到的4組基本信度賦值利用改進(jìn)的DS證據(jù)理論進(jìn)行證據(jù)組合,得出每種病的基本信度函數(shù)。選取最大的一項(xiàng)作為最終的預(yù)測結(jié)果,若沒有則提示預(yù)測失敗,算法結(jié)束。
4.1.1 數(shù)據(jù)集
本文所用數(shù)據(jù)集為某中醫(yī)院2004-2016年的真實(shí)診斷數(shù)據(jù),數(shù)據(jù)集中包含性別、癥狀、舌像、脈象、對(duì)應(yīng)疾病等信息,共3個(gè)數(shù)據(jù)表:ClinicPatient、GlobalSickDrug、GlobalSickinfo,依次表示病人信息、用藥信息、診斷信息。
4.1.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)通過模型預(yù)測的準(zhǔn)確率、100條數(shù)據(jù)預(yù)測用時(shí)這兩個(gè)量化指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。
步驟1 根據(jù)實(shí)驗(yàn)的需要,從數(shù)據(jù)庫中分離出病人的IC卡號(hào)、性別、就診時(shí)間、癥狀、舌像、脈象、證候7條屬性作為初始數(shù)據(jù);
步驟2 利用IC卡號(hào)和就診時(shí)間區(qū)分不同的病案,刪除相同病案,刪除癥狀屬性、舌像屬性、脈象屬性不完整的病案,最終保留3種證候各1500條的數(shù)據(jù)集;
步驟3 對(duì)癥狀語句進(jìn)行分詞,通過詞頻匯總統(tǒng)計(jì)出頻率較高的癥狀,建立癥狀值字典;并用相同的方法建立舌像值字典、脈象值字典;
步驟4 讀取每條病例數(shù)據(jù),通過同義詞替換對(duì)數(shù)據(jù)進(jìn)行規(guī)范化,用癥狀值、舌像值、脈象值字典分別對(duì)癥狀屬性、舌像屬性、脈象屬性進(jìn)行映射,出現(xiàn)癥狀記為1,未出現(xiàn)記為0,性別分別用0、1表示,以上屬性共96項(xiàng);3種證候使用0、1、2進(jìn)行表示,得到用于訓(xùn)練和測試的數(shù)據(jù)矩陣。
BP神經(jīng)網(wǎng)絡(luò):通過網(wǎng)格搜索的方法尋找最佳隱含層節(jié)點(diǎn)數(shù),節(jié)點(diǎn)數(shù)從5遞增到20,每個(gè)節(jié)點(diǎn)的準(zhǔn)確率取5次驗(yàn)證準(zhǔn)確率的平均值,準(zhǔn)確率統(tǒng)計(jì)如圖3所示。
圖3 BP神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率統(tǒng)計(jì)
最終選取隱含層節(jié)點(diǎn)數(shù)為9,此時(shí)模型的平均準(zhǔn)確率為80%,模型保存為BP_net。
RBF神經(jīng)網(wǎng)絡(luò):通過網(wǎng)格搜索的方法尋找最佳spread值,spread從0.4遞增至1.6,每次增加0.1,每個(gè)spread的準(zhǔn)確率取5次驗(yàn)證的平均值,準(zhǔn)確率統(tǒng)計(jì)如圖4所示。
圖4 RBF神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率統(tǒng)計(jì)
最終選取的spread值為1,此時(shí)模型的平均準(zhǔn)確率為81%,保存為RBF_net。
LVQ神經(jīng)網(wǎng)絡(luò)尋找最佳隱含層節(jié)點(diǎn)數(shù)同BP網(wǎng)絡(luò),最終選擇隱含層節(jié)點(diǎn)為30,平均準(zhǔn)確率為75%,保存為LVQ_net;PNN神經(jīng)網(wǎng)絡(luò)取默認(rèn)參數(shù),保存為PNN_net,平均準(zhǔn)確率為89%,神經(jīng)網(wǎng)絡(luò)組訓(xùn)練完成。
調(diào)用之前4個(gè)網(wǎng)絡(luò)模型,將測試集輸入網(wǎng)絡(luò),生成4組預(yù)測值。將4組結(jié)果轉(zhuǎn)化成對(duì)3種疾病的基本信度賦值:將預(yù)測編號(hào)所對(duì)應(yīng)病名的基本信度賦值確定為0.8,其余兩種確定為0.1。之后進(jìn)行證據(jù)組合,計(jì)算過程如式(13),得到的結(jié)果表示3種病的最終基本信度函數(shù)。
實(shí)驗(yàn)將從測試集中隨機(jī)選取100條數(shù)據(jù)測試,單獨(dú)使用BP網(wǎng)絡(luò)、RBF網(wǎng)絡(luò)、LVQ網(wǎng)絡(luò)、PNN網(wǎng)絡(luò)分別進(jìn)行預(yù)測,記錄預(yù)測時(shí)間和準(zhǔn)確率,再利用本文所提出的模型進(jìn)行預(yù)測,與上述4種網(wǎng)絡(luò)進(jìn)行對(duì)比進(jìn)行分析。
4.5.1 證據(jù)源獨(dú)立性分析
在進(jìn)行實(shí)驗(yàn)結(jié)果分析前,首先進(jìn)行多次預(yù)測實(shí)驗(yàn),檢驗(yàn)證據(jù)源之間是否獨(dú)立,是否符合4種網(wǎng)絡(luò)預(yù)測屬于不同證據(jù)源。經(jīng)過多次實(shí)驗(yàn),4個(gè)單獨(dú)神經(jīng)網(wǎng)絡(luò)模型的錯(cuò)誤預(yù)測序號(hào)不存在雷同,隨機(jī)選取一次實(shí)驗(yàn),對(duì)5個(gè)模型的錯(cuò)誤預(yù)測序號(hào)統(tǒng)計(jì)見表2。
表2 錯(cuò)誤預(yù)測樣本統(tǒng)計(jì)
分析可知,4種神經(jīng)網(wǎng)絡(luò)因?yàn)橛?xùn)練過程和分類方式不同,用不同的計(jì)算過程對(duì)數(shù)據(jù)完成了處理,造成各模型分類結(jié)果也不完全相同,符合DS證據(jù)理論對(duì)證據(jù)源相互獨(dú)立的要求。
4.5.2 實(shí)驗(yàn)結(jié)果對(duì)比分析
記錄預(yù)測時(shí)間方面,取5次預(yù)測時(shí)間的平均值;記錄預(yù)測準(zhǔn)確率方面,對(duì)測試集進(jìn)行10次隨機(jī)選取100條數(shù)據(jù)的測試,取其預(yù)測的準(zhǔn)確率;統(tǒng)計(jì)結(jié)果見表3。
表3 各模型平均準(zhǔn)確率統(tǒng)計(jì)
通過對(duì)比結(jié)果可以看出,基于ANN和改進(jìn)DS理論的預(yù)測模型在平均準(zhǔn)確率上高于所有單個(gè)網(wǎng)絡(luò),準(zhǔn)確率保持在90%以上,其余4個(gè)網(wǎng)絡(luò)準(zhǔn)確率在75%至89%不等,分析可知,由于所有神經(jīng)網(wǎng)絡(luò)的預(yù)測準(zhǔn)確率都在70%以上,對(duì)于單個(gè)樣本而言,加入改進(jìn)的DS證據(jù)理論后,隨著概率的合成會(huì)逐漸增大預(yù)測的準(zhǔn)確率,因此得到比單個(gè)網(wǎng)絡(luò)模型更優(yōu)的結(jié)果。在預(yù)測用時(shí)上,本文提出的模型耗時(shí)最長,這是因?yàn)樵撃P偷念A(yù)測是在4組網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行,預(yù)測時(shí)間為4個(gè)網(wǎng)絡(luò)并行所用時(shí)間與證據(jù)組合計(jì)算時(shí)間之和,但100條數(shù)據(jù)的整體響應(yīng)時(shí)間控制在0.15 s之內(nèi),在實(shí)時(shí)診斷中是能夠接受的。
利用證據(jù)源準(zhǔn)確性系數(shù)對(duì)DS證據(jù)理論進(jìn)行了改進(jìn),按證據(jù)源的可信度對(duì)證據(jù)合成進(jìn)行加權(quán)處理,解決了不同準(zhǔn)確度的證據(jù)源合成問題。將改進(jìn)的DS證據(jù)理論應(yīng)用到中醫(yī)診斷模型中,以多個(gè)不同神經(jīng)網(wǎng)絡(luò)的預(yù)測確定基本信度函數(shù),以各個(gè)神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度確定證據(jù)源的準(zhǔn)確性系數(shù),最后應(yīng)用改進(jìn)的DS證據(jù)理論進(jìn)行證據(jù)組合。實(shí)驗(yàn)結(jié)果表明,該模型對(duì)3種疾病的預(yù)測準(zhǔn)確率高于單個(gè)神經(jīng)網(wǎng)絡(luò),且穩(wěn)定保持在90%以上,對(duì)更多種疾病的混合預(yù)測具有可擴(kuò)展性;該模型的預(yù)測用時(shí)控制在可接受時(shí)間范圍內(nèi),可以應(yīng)用到對(duì)特定疾病的實(shí)時(shí)診斷中。但該模型所適用的情景為3種疾病的混合預(yù)測,仍不能滿足實(shí)時(shí)輔助診斷的要求,在后續(xù)的研究中將增大數(shù)據(jù)集,擴(kuò)展疾病種類,探究在更大數(shù)據(jù)集情況下,如何更好兼顧準(zhǔn)確率和響應(yīng)時(shí)間。