劉 茜 王 瑜 付常洋 肖洪兵 邢素霞
(北京工商大學(xué)人工智能學(xué)院 北京 100048)
Linear discriminant analysis
阿爾茨海默病(Alzheimer’s Disease,AD)主要表現(xiàn)為認(rèn)知功能下降和記憶力衰退,是一種起病隱匿且現(xiàn)階段無法治愈的神經(jīng)系統(tǒng)退行性疾病,僅可通過在疾病發(fā)展的早期階段進(jìn)行干預(yù)治療降低和延緩AD的發(fā)展[1]。神經(jīng)影像學(xué)在AD的診斷上做出了突出貢獻(xiàn),有經(jīng)驗(yàn)的醫(yī)生可以通過分析功能磁共振成像(functional Magnetic Resonance Imaging, fMRI)低頻振幅和結(jié)構(gòu)磁共振成像(structural Magnetic Resonance Imaging, sMRI)特定腦區(qū)(如海馬體、海馬旁回)的萎縮程度診斷AD。
人工智能算法的發(fā)展有效提高了醫(yī)生診斷的效率,在改善醫(yī)療短缺、避免誤診、降低醫(yī)療成本方面有突出貢獻(xiàn),將現(xiàn)有智能算法與醫(yī)學(xué)影像相結(jié)合診斷AD已成為研究熱點(diǎn)。徐盼盼等[2]提出從sMRI圖像中提取腦白質(zhì)各體素的灰度值構(gòu)建三階灰度張量,然后用遞歸特征消除法結(jié)合支持張量機(jī)進(jìn)行特征選擇,最后用支持張量機(jī)診斷AD的方法。李書通等[3]使用sMRI圖像訓(xùn)練3D-PCANet網(wǎng)絡(luò)診斷AD。李慧卓等[4]提取fMRI圖像中選擇雙側(cè)海馬體積及顯著差異腦區(qū)的低頻振幅值(ALFF)作為分類特征,Adaboost分類器診斷AD。上述方法均使用單一模態(tài)數(shù)據(jù),近年來越來越多研究者使用多模態(tài)特征融合診斷AD,這是由于單一模態(tài)圖像特征不能涵蓋AD患者的全部患病信息,多模態(tài)特征融合可充分利用不同模態(tài)的醫(yī)學(xué)圖像對病灶信息描述的互補(bǔ)性,有效提高AD的診斷效果。Suk等[5]提出一種融合MRI、PET和CSF三種模態(tài)數(shù)據(jù)訓(xùn)練堆疊自編碼器診斷AD的方法。Liu等[6]融合MRI和PET圖像信息同樣使用堆疊自編碼器診斷AD。本文提出一種融合fMRI和sMRI信息診斷AD的方法,由于神經(jīng)影像具有高維小樣本的特性,如何提取有效的分類特征并融合,是本文的研究重點(diǎn)。
阿爾茨海默病神經(jīng)影像學(xué)倡議(Alzheimer’s Disease Neuroimaging Initiative,ADNI)包含多種模態(tài),并處于AD不同階段患者的腦圖像,致力于確定阿爾茨海默病的進(jìn)展階段,為研究者提供開源數(shù)據(jù),是數(shù)據(jù)和研究人員聯(lián)系的紐帶。本文使用來自于ADNI的共110個(gè)靜息態(tài)fMRI以及對應(yīng)的sMRI數(shù)據(jù)進(jìn)行實(shí)驗(yàn),其中正常(Normal Control,NC)50例(男28例,女22例,平均年齡:76.4)、主觀記憶衰退(Subjective Memory Complaints,SMC)26例(男14例,女12例,平均年齡:72.5)、AD患者34例(男18例,女16例,平均年齡:73.29)。靜息態(tài)fMRI數(shù)據(jù)在被試清醒的狀態(tài)下不做任何任務(wù)或系統(tǒng)的思考取得,大小為64×64,每輪分層掃描48次,共掃描6 720次,獲得140個(gè)如圖1(a)所示的單個(gè)時(shí)間點(diǎn)數(shù)據(jù),記錄神經(jīng)元活動(dòng)所引發(fā)的血液動(dòng)力改變。sMRI中灰度值的高低反映了灰質(zhì)、白質(zhì)、腦脊液等組織的對比,T1加權(quán)三維sMRI數(shù)據(jù)采用MPRAGE協(xié)議采集,大小為256×256×170,層厚為1.2 mm,如圖1(b)所示。
(a) (b)圖1 fMRI與sMRI示意圖
fMRI包含大腦活動(dòng)的時(shí)間信息和大腦內(nèi)部的空間特征,通過功能連接矩陣可以有效區(qū)分疾病的進(jìn)展情況。本文使用dpabi軟件對fMRI進(jìn)行預(yù)處理,獲得時(shí)間序列,以此計(jì)算功能連接矩陣。預(yù)處理共分為8步,依次進(jìn)行去除前10個(gè)時(shí)間點(diǎn)的數(shù)據(jù)(Remove First 10 Time Points)、時(shí)間層矯正(Slice Timing)、頭動(dòng)矯正(Realignment)、空間標(biāo)準(zhǔn)化(Normalization)、平滑(Smoothing)、去線性漂移(Detrend)、濾波(Filter)、提取感興趣的時(shí)間序列(Extract ROI time courses)。機(jī)器啟動(dòng)存在不穩(wěn)定的現(xiàn)象,首先需要?jiǎng)h除前10個(gè)時(shí)間點(diǎn)的數(shù)據(jù),之后通過時(shí)間層矯正,將不同時(shí)間掃描的層校正為同一時(shí)間獲得層,頭動(dòng)矯正去除在一定頭動(dòng)范圍內(nèi)的輕微頭動(dòng)偏差,空間標(biāo)準(zhǔn)化將不同容積及形狀的被試大腦放入一個(gè)標(biāo)準(zhǔn)空間里,平滑抑制噪聲或其他小的波動(dòng),去線性漂移去除由于機(jī)器的升溫或被試的適應(yīng)隨時(shí)間積累產(chǎn)生的線性趨勢,濾波濾除呼吸、心跳產(chǎn)生生理噪聲。最后提取感興趣的時(shí)間序列,計(jì)算自動(dòng)結(jié)構(gòu)標(biāo)簽(Anatomical Automatic Labeling,AAL)模板下每一個(gè)腦區(qū)體素的均值,將大腦90個(gè)腦區(qū)的時(shí)間序列作為分類特征。
腦灰質(zhì)是神經(jīng)元細(xì)胞體密集的部位,與認(rèn)知能力高度相關(guān),周珂等[7]實(shí)驗(yàn)證明AD患者的特定腦區(qū)灰質(zhì)發(fā)生萎縮。本文使用SPM8軟件對sMRI圖像做預(yù)處理,使用dpabi軟件提取大腦90個(gè)腦區(qū)的灰質(zhì)體積特征,分為分割、生成特異性模板、生成流動(dòng)場、配準(zhǔn)和提取各腦區(qū)灰質(zhì)體積,共5步。首先對原始圖像進(jìn)行分割,將原始圖像分割為灰質(zhì)c1、白質(zhì)c2、腦脊液c3,然后利用DARTEL計(jì)算灰質(zhì)rc1和白質(zhì)rc2;其次選用50名NC的分割結(jié)果產(chǎn)生特異性模板Template 6;之后通過Template 6生成流動(dòng)場u_rc1,使用u_rc1和Template 6將灰質(zhì)圖像c1配準(zhǔn)到標(biāo)準(zhǔn)空間并做體積調(diào)制;最后使用dpabi提取大腦90個(gè)腦區(qū)的灰質(zhì)體積。
考慮fMRI數(shù)據(jù)的高維小樣本性和靜息態(tài)功能連接網(wǎng)絡(luò)隨時(shí)間變化存在一定的波動(dòng)性[8],本文提出基于動(dòng)態(tài)功能連接的分類方法,具體步驟如圖2所示。本方法立足于特征選擇和動(dòng)態(tài)功能連接的思想,一方面通過特征選擇獲得最有利于分類的特征,另一方面不僅保留了不同腦區(qū)之間神經(jīng)活動(dòng)的功能連接特性,而且獲取了fMRI的時(shí)間維度信息。
圖2 fMRI特征提取方式
卡方檢驗(yàn)常用來描述兩個(gè)事件的獨(dú)立性或?qū)嶋H觀察值與期望值的偏離程度。先假設(shè)兩個(gè)變量是獨(dú)立的,之后使用卡方檢驗(yàn)差值衡量公式觀察實(shí)際值和理論值的偏差程度。
(1)
式中:E為理論值;z為實(shí)際值;n為樣本個(gè)數(shù)。
當(dāng)偏差足夠小時(shí),認(rèn)為僅存在自然樣本誤差,當(dāng)偏差達(dá)到一定值時(shí),原假設(shè)錯(cuò)誤,認(rèn)為二者實(shí)際相關(guān)。將卡方檢驗(yàn)用于特征選擇,計(jì)算每個(gè)腦區(qū)時(shí)間序列的均值作為特征,關(guān)注特征與類別之間的關(guān)系,選擇偏差排名最小的前M個(gè)特征作為所選特征。
功能連接矩陣能直接表述各個(gè)節(jié)點(diǎn)的功能連接,定義節(jié)點(diǎn)是計(jì)算功能連接矩陣的關(guān)鍵,要保證節(jié)點(diǎn)的外部獨(dú)立性及內(nèi)部一致性[9],在M個(gè)所選特征的基礎(chǔ)上確定節(jié)點(diǎn)值,并計(jì)算動(dòng)態(tài)功能連接矩陣。通常選用不同節(jié)點(diǎn)間的皮爾遜相關(guān)系數(shù)衡量節(jié)點(diǎn)間的連接強(qiáng)度,由式(2)可得到大小為M×M且角對稱的功能連接矩陣。
(2)
如圖2所示,使用滑動(dòng)時(shí)間窗技術(shù)構(gòu)建動(dòng)態(tài)功能連接矩陣,需設(shè)定步長和窗寬兩個(gè)參數(shù),選取較小的窗寬能更好地探測功能連接的瞬時(shí)變化,但易將噪聲誤認(rèn)為功能連接的變化,選取較大的窗寬可得到更穩(wěn)定的功能連接關(guān)系,但對時(shí)間上的變化不敏感[10]。計(jì)算共num個(gè)時(shí)間窗對應(yīng)的功能連接矩陣,由于功能連接矩陣是角對稱陣,保留上三角值并排列為一個(gè)大小為num×M×(M-1)/2的向量。對這個(gè)向量做主成分分析(Principal Component Analysis,PCA)和線性判別分析(Linear Discriminant Analysis,LDA)相結(jié)合的特征提取[11]。PCA的實(shí)質(zhì)是一個(gè)基變換,使得變換后的數(shù)據(jù)具有最大的方差,由此保留最主要的信息,基向量通過對由式(3)組成的協(xié)方差矩陣做奇異值分解獲得,將高維特征降維至K維。LDA在二分類中以函數(shù)J取最大值為目標(biāo),對PCA降維后的特征做空間變換,使類內(nèi)離散度最小的同時(shí),類間離散度最大,求得投影矩陣w,此投影矩陣即可將數(shù)據(jù)映射到分類效果最好的空間,即獲得fMRI特征向量α。
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=
(3)
(4)
式中:μ1、μ2分別代表第1類和第2類樣本的均值向量;Σ1+Σ2計(jì)算方式如式(5)所示;w為投影矩陣;Sb代表類間離散度;Sw代表類內(nèi)離散度。
(5)
式中:Pj代表經(jīng)PCA降維后第j類樣本的特征向量集合。
sMRI分類采用基于支持向量機(jī)遞歸特征消除(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)和LDA對預(yù)處理步驟提取的灰質(zhì)體積特征做特征選擇,具體策略如圖3所示。
圖3 sMRI特征提取方式
考慮到AAL模板上標(biāo)注的每個(gè)腦區(qū)大小不同,萎縮程度不同,將90個(gè)腦區(qū)的灰質(zhì)體積通過MIN-MAX標(biāo)準(zhǔn)化的方法歸一化為同一量綱,之后使用SVM-RFE的方法提取分類貢獻(xiàn)大的前N個(gè)特征,排除分類弱相關(guān)和不相關(guān)特征。
SVM-RFE[12]是一種包裹式特征選擇方法,主要思想是反復(fù)地構(gòu)建模型,將SVM分類器每輪訓(xùn)練后得到超平面權(quán)向量的平方值作為評價(jià)準(zhǔn)則c,依輪刪除評分最差的特征,直至剩下的特征數(shù)目滿足最優(yōu)特征子集設(shè)定的維度N。
(6)
式中:ci為特征i的評分;wi為超平面上特征i對應(yīng)的權(quán)向量。最后使用LDA的方法將數(shù)據(jù)映射到更有益于分類的空間,獲得特征向量β。
在模式識別領(lǐng)域,特征融合得到了廣泛的應(yīng)用,對不同來源、不同模式、不同媒質(zhì)的信息進(jìn)行綜合能得到對象更加精確的描述[13],實(shí)現(xiàn)特征信息互補(bǔ),降低單一特征固有缺陷的影響[14]。本文選用簡單的串行融合的方法,在SVM分類器前進(jìn)行特征融合,如式(7)所示。
f=[α′β′]
(7)
對特征向量α和β做最大最小值標(biāo)準(zhǔn)化后獲得α′和β′,串行特征融合將上述特征向量直接合并為一個(gè)新的向量,特征維數(shù)變?yōu)棣痢浜挺隆涮卣骶S數(shù)之和,將f作為融合特征輸入SVM分類器。
實(shí)驗(yàn)采用NC、SMC、AD三類,sMRI和fMRI兩種模態(tài)的數(shù)據(jù)進(jìn)行兩兩分類實(shí)驗(yàn),從樣本中選擇70%的數(shù)據(jù)作為訓(xùn)練集,剩余30%的數(shù)據(jù)作為測試集。結(jié)果使用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)表示,準(zhǔn)確度評估判斷正確占全體測試集的比例,精確率評估診斷為某類正確的概率,召回率評估某類樣本中判斷正確的概率。
(8)
(9)
(10)
式中:tp代表正確分類為正類的個(gè)數(shù);tn代表正確分類為負(fù)類的個(gè)數(shù);fp代表錯(cuò)誤分類為正類的個(gè)數(shù);fn代表錯(cuò)誤分類為負(fù)類的個(gè)數(shù)。
分別選用上述方法處理實(shí)驗(yàn)數(shù)據(jù),獲得融合特征,并使用SVM作為分類器獲得分類結(jié)果。為了證明融合特征的優(yōu)越性,本文對比了單模態(tài)特征的分類結(jié)果,同樣使用SVM分類器。fMRI和sMRI模態(tài)分類結(jié)果如表1和表2所示,兩模態(tài)特征融合結(jié)果如表3所示,實(shí)驗(yàn)具體參數(shù)如表4所示。
表1 fMRI分類結(jié)果(%)
表2 sMRI分類結(jié)果(%)
表3 融合實(shí)驗(yàn)結(jié)果(%)
表4 實(shí)驗(yàn)參數(shù)
續(xù)表4
表1中展示了fMRI特征提取方法中使用和不使用時(shí)間窗的對比結(jié)果,可以看出,使用時(shí)間窗法能構(gòu)建更有效的模型,并充分挖掘卡方檢驗(yàn)定位病灶區(qū)功能連接的時(shí)間信息。通過選取恰當(dāng)?shù)牟介L和窗寬(參數(shù)請見表4),可以獲得受噪聲干擾較少,同時(shí)含有較多時(shí)間信息的特征。不論是AD/NC、AD/SMC,還是NC/SMC,分類準(zhǔn)確率、精確率、召回率均有顯著提高,準(zhǔn)確率較不使用時(shí)間窗法分別提高16百分點(diǎn)、17.6百分點(diǎn)和9.1百分點(diǎn),證明了特征提取過程增加時(shí)間窗法的有效性。同時(shí),實(shí)驗(yàn)結(jié)果從側(cè)面證明,靜息態(tài)時(shí)大腦仍存在活動(dòng),且這種腦部自發(fā)活動(dòng)對計(jì)算機(jī)輔助阿爾茨海默病診斷有積極意義,在特征選擇中增加時(shí)間窗有助于充分利用病灶區(qū)數(shù)據(jù)。
表2展現(xiàn)了單獨(dú)使用sMRI數(shù)據(jù)進(jìn)行輔助診斷的分類效果,顯而易見,在LDA前增加SVM-RFE后,分類準(zhǔn)確率較僅使用LDA均有所提高,這是由于RFE過程篩選出更有益于SVM分類器分類的特征,減少無關(guān)特征對分類結(jié)果的干擾。觀察準(zhǔn)確率提升情況,AD/SMC和NC/SMC分類準(zhǔn)確率、精確率、召回率均有顯著提升,就準(zhǔn)確率來看,提升達(dá)到17.6百分點(diǎn)和13.6百分點(diǎn),而AD/NC的提升僅為4百分點(diǎn),這種情況可能源于SVM-RFE定位到患者在SMC階段出現(xiàn)的一部分代償性變化[1]腦區(qū)。
融合算法在一定程度上豐富了患者的信息,實(shí)現(xiàn)了信息互補(bǔ),AD/NC、AD/SMC和NC/SMC的分類準(zhǔn)確率較單一模態(tài)提高4百分點(diǎn)、5.9百分點(diǎn)和4.6百分點(diǎn),使患病情況的定位更加準(zhǔn)確。與此同時(shí),特征融合避免了fMRI分類算法在NC/SMC分類上的弱勢。
綜上所述,特征融合決策在輔助診斷中更具優(yōu)勢,有更高的準(zhǔn)確率和魯棒性,能為阿爾茨海默病的診斷提供幫助。
本文分別論述并分析了兩種模態(tài)數(shù)據(jù)特征提取方法的優(yōu)勢和步驟,與此同時(shí)選用串行融合的方法做信息融合并分類。共進(jìn)行三組實(shí)驗(yàn),分別為AD/NC、AD/SMC、NC/SMC。fMRI分類結(jié)果顯示,時(shí)間窗是豐富樣本信息提高分類效果的有效方法,sMRI分類結(jié)果顯示,RFE在去除干擾信息方面有突出貢獻(xiàn)。通過對單模態(tài)和融合兩種模態(tài)特征分類結(jié)果的比較發(fā)現(xiàn),融合算法更具優(yōu)勢,對AD及其早期診斷有積極的指導(dǎo)意義。本文為AD的計(jì)算機(jī)輔助診斷提供了新思路和新方法,將來的研究重點(diǎn)是尋找更具優(yōu)勢的信息融合策略,并進(jìn)一步改進(jìn)特征提取和分類方法。