羅萬(wàn)春,馬 翠,宋麗娟,魏調(diào)霞
(陸軍軍醫(yī)大學(xué)基礎(chǔ)醫(yī)學(xué)院數(shù)學(xué)教研室,重慶 400038)
阿爾茨海默病 (AD)是一種神經(jīng)退行性疾病,是導(dǎo)致老年人死亡的“第四大殺手”。2010年全世界已超過(guò)3 500萬(wàn)例AD患者,到2050年將會(huì)超過(guò)1億例[1]。美國(guó)最新發(fā)布的AD事實(shí)和數(shù)據(jù)表明,2000-2019年卒中、心臟病及人類(lèi)免疫缺陷病毒(HIV)的致死人數(shù)在減少,但是AD的死亡人數(shù)增幅超過(guò)145%。美國(guó)的AD患者從2010年的540萬(wàn)例,增至2021年的620萬(wàn)例。2021年AD及其他癡呆患者的照顧人數(shù)為1 100萬(wàn)例,時(shí)間超過(guò)153×109h,花費(fèi)超過(guò)3 550億美元,為AD和其他癡呆患者的花費(fèi)相比2015年增長(zhǎng)了57%,費(fèi)用劇增。到2050年,預(yù)計(jì)費(fèi)用增至1.1萬(wàn)億美元。另外,在新冠病毒流行期間,AD患者死亡率提高了16%。如果AD的阻止、減緩或治療技術(shù)無(wú)重大突破,到2060年患者預(yù)計(jì)將突破1 380萬(wàn)例[2-3]。
輕度認(rèn)知功能損傷(MCI)是一種介于健康人和AD患者的一種中間狀態(tài)的疾病,和AD的癥狀相似,其中有15%的MCI在2年內(nèi)會(huì)發(fā)展為癡呆,有35%的MCI會(huì)在接下來(lái)的5年內(nèi)罹患AD[4-5]。MCI的存在導(dǎo)致AD患者的正確診斷十分困難,正確診斷MCI和AD患者有積極意義。一方面,雖然AD患者無(wú)法治療痊愈,但是AD的早期診斷I能有效延緩AD的發(fā)生;另一方面,MCI的正確診斷可以通過(guò)藥物治療降低轉(zhuǎn)化為AD的可能性[3]。
目前,AD的確診需在患者去世后進(jìn)行切片病理檢查,缺乏準(zhǔn)確的活體診斷技術(shù)。本文擬通過(guò)在獲得確診患者數(shù)據(jù)的基礎(chǔ)上建立數(shù)學(xué)模型來(lái)診斷MCI和AD。
1.1一般資料 數(shù)據(jù)來(lái)源于The LONI Image Data Archive(https://ida.loni.ucla.edu/login.jsp)。所有指標(biāo)數(shù)據(jù)齊全的樣本391個(gè),其中正常控制組( NC)101例,MCI患者200例,AD患者90例。數(shù)據(jù)矩陣的維度為391×31,其中前面30列為每個(gè)樣本的檢測(cè)指標(biāo),最后1列為樣本類(lèi)別。
1.2求解方法 人工神經(jīng)網(wǎng)絡(luò)(ANN)是模仿人類(lèi)大腦神經(jīng)系統(tǒng)而人工構(gòu)造的能夠?qū)崿F(xiàn)預(yù)測(cè)、分類(lèi)等功能的信息處理系統(tǒng),人們根據(jù)需求和實(shí)際應(yīng)用創(chuàng)建了許多種ANN[6-7],其中應(yīng)用最廣泛的為BP神經(jīng)網(wǎng)絡(luò)(BPNN)、徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN)和感知器神經(jīng)網(wǎng)絡(luò)(PNN)[8]。
廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)是RBFNN的一種變形,將樣本數(shù)據(jù)作為后驗(yàn)條件,用Parzen非參數(shù)估計(jì),根據(jù)最大概率原則進(jìn)行網(wǎng)絡(luò)輸出,其密度函數(shù)如公式(1)。
(1)
其中Xi,Yi為隨機(jī)變量X,Y的樣本,n為樣本量,p為隨機(jī)變量X的維數(shù),σ為高斯函數(shù)的寬度系數(shù),稱(chēng)為光滑因子,光滑因子會(huì)較大影響GRNN的擬合效果[9]。GRNN在逼近能力、分類(lèi)能力和學(xué)習(xí)速度均優(yōu)于BPNN和RBFNN,其由輸入層(input layer)、模式層(pattern layer)、求和層(summation layer)和輸出層(output layer)構(gòu)成,其拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1中展示的是一個(gè)N-M-L的GRNN網(wǎng)絡(luò)。輸入向量為X=(x1,x2,…,xN)T,輸入節(jié)點(diǎn)為N個(gè),求和層節(jié)點(diǎn)為M個(gè),輸出L個(gè)節(jié)點(diǎn)的向量Y=(y1,y2,…,yL)T。
圖1 GRNN的網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)鋱D
1.3求解步驟 數(shù)據(jù)處理及求解步驟使用數(shù)學(xué)軟件MATLAB R2018a編程完成[10-11]。步驟1:樣本分組,將樣本分為相互獨(dú)立的訓(xùn)練樣本集和檢測(cè)樣本集;步驟2:用訓(xùn)練樣本構(gòu)建GRNN;步驟3:網(wǎng)絡(luò)初始化;步驟4:將檢測(cè)樣本代入網(wǎng)絡(luò)進(jìn)行診斷模擬;步驟5:模擬結(jié)果四舍五入取整;步驟6:診斷效果評(píng)價(jià)。
1.4數(shù)據(jù)處理 用ROC曲線篩選出4項(xiàng)曲線下面積(AUC)>0.7的指標(biāo),分別為簡(jiǎn)易智力狀況檢查量表得分(MMSE)、ADAS-cog修正值(ADASM)、海馬體積與腦容量之比的1 000倍(HV)、左右半腦的頂葉皮質(zhì)灰度平均值(PRT)[12]。為了更科學(xué)地說(shuō)明GRNN與BPNN、RBFNN、PNN診斷效能的差異,由于每次模擬對(duì)應(yīng)的訓(xùn)練樣本集和檢測(cè)樣本集相同,因此將BPNN、RBFNN、PNN的診斷正確率分別與GRNN的診斷正確率作配對(duì)樣本t檢驗(yàn)[13-14]。
2.1指標(biāo)篩選 NC、MCI、AD的MMSE分別為(28.94±1.12)、(27.15±1.68)、(23.53±2.06)分。NC、MCI、AD的ADASM分別為(10.43±4.24)、(17.81±6.06)、(29.51±7.79)。NC、MCI、AD的HV分別為(6.74±0.73)、(6.12±0.88)、(5.56±0.79)。NC、MCI、AD的PRT分別為(1.07±0.04)、(1.04±0.06)、(0.99±0.08)。
2.2診斷模擬 為保證訓(xùn)練樣本和檢測(cè)樣本相互獨(dú)立,將每一類(lèi)樣本按照各50%(half-to-half)隨機(jī)分組,組成訓(xùn)練樣本集和檢測(cè)樣本集,其中訓(xùn)練樣本集有NC 51例、MCI 100例、AD45例,其余195個(gè)樣本均作為檢測(cè)樣本,按照這樣的方式作100次模擬,分別用BPNN、RBFNN、PNN和GRNN作診斷模擬比較,4種神經(jīng)網(wǎng)絡(luò)的參數(shù)均取缺省值。GRNN診斷結(jié)果的最高、最低和平均診斷正確率遠(yuǎn)遠(yuǎn)高于BPNN、RBFNN、PNN。見(jiàn)圖2、表1。
表1 GRNN與BPNN、RBFNN及PNN診斷結(jié)果比較(%)
圖2 GRNN與BPNN、RBFNN及PNN的診斷正確率
GRNN100次模擬的平均正確率顯著高于BPNN、RBFNN、PNN的平均正確率,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。見(jiàn)表2。
表2 BPNN、RBFNN、PNN與GRNN的診斷結(jié)果比較
由于不同的平滑因子會(huì)較大地影響GRNN的診斷效果,因此,用不同的平滑因子作模擬診斷,當(dāng)平滑因子為1.5時(shí),診斷正確率最高,達(dá)75.7%。見(jiàn)圖3。
圖3 GRNN在不同平滑因子下的診斷正確率
取平滑因子為1.5,按照“留一法”(leave-one-out),將每個(gè)樣本依次作為檢測(cè)樣本,其余所有樣本作為訓(xùn)練樣本作診斷模擬,GRNN在診斷NC和MCI中的效果較好,但在AD的診斷中仍需要改進(jìn)。見(jiàn)表3。
表3 GRNN按照留一法模擬的診斷正確率(%)
鑒于正確早期診斷對(duì)于延緩AD的重要性,NC、MCI和AD的正確診斷對(duì)于臨床用藥和治療有十分重要的價(jià)值。AD的首要危險(xiǎn)因素是年齡,隨著年齡的增加,AD的患者比例急劇攀升,64~<75歲為5.3%,75~<85歲為13.8%,≥85歲為34.6%。此外,基因、家族史也是不可控制的危險(xiǎn)因素[15]??煽匚kU(xiǎn)因素包括體育運(yùn)動(dòng)、吸煙、受教育、腦力勞動(dòng)、血壓、節(jié)食等[16-17]。但是,上述因素是可能性的致病因素,并不能作為臨床診斷的直接指標(biāo),也不宜僅以某項(xiàng)指標(biāo)的大小作為判斷標(biāo)準(zhǔn)。就臨床方便和可操作性來(lái)說(shuō),雖然單指標(biāo)診斷的方法是最好的,但從各指標(biāo)的樣本數(shù)值可以看出,ADASM為極大型指標(biāo),即指標(biāo)值越大,越可能罹患MCI和AD。而MMSE、HV和PRT為極小型指標(biāo),指標(biāo)值越小風(fēng)險(xiǎn)越大。但是,無(wú)論哪項(xiàng)指標(biāo)都很難高正確率地診斷出AD、MCI和NC。因此,為了更好地診斷疾病,需要用多指標(biāo)作為輸入變量,選擇恰當(dāng)?shù)臄?shù)學(xué)模型進(jìn)行診斷。數(shù)學(xué)建模方法提高正確率的關(guān)鍵有兩點(diǎn),一是對(duì)樣本特征提取,選擇恰當(dāng)?shù)妮斎胱兞?;二是選擇適合的數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型是常用的診斷模型,不同的神經(jīng)網(wǎng)絡(luò)對(duì)于不同問(wèn)題效果有差異。由表3可知,GRNN診斷時(shí),NC有22.77%被誤診為MCI,MCI有16.50%被誤診為NC,MCI有4.50%被誤診為AD,AD有33.33%被誤診為MCI。NC、MCI的界限及MCI和AD的界限不明確,容易誤診,AD和NC之間無(wú)誤診的情形。因此,解決誤診要集中在MCI和AD、NC的區(qū)別辦法。GRNN對(duì)于391個(gè)樣本的診斷總正確率達(dá)75.70%,較文獻(xiàn)[18]報(bào)道的臨床真實(shí)診斷正確率(10%~20%)高,也高于根據(jù)MRI利用支持向量機(jī)對(duì)AD診斷69.15%的平均正確率[19],對(duì)于臨床輔助診斷有較高的實(shí)用參考價(jià)值。