董浩然,王順?lè)?/p>
(云南大學(xué) 信息學(xué)院,云南 昆明 650504)
因病理不明的原因,當(dāng)前對(duì)阿爾茨海默癥(Alzheimer disease,AD)的治療方法只能起到延緩作用[1]。AD的前驅(qū)階段被稱為輕度認(rèn)知障礙(mild cognitive impairment,MCI),對(duì)MCI患者向AD階段進(jìn)展的預(yù)測(cè)對(duì)于AD患者的早期干預(yù)與治療有著重要意義[2]。
傳統(tǒng)的MCI與AD預(yù)測(cè)方法多是采用病人的單類檢查結(jié)果進(jìn)行預(yù)測(cè)[3,4]。但基于最近的研究,使用單類數(shù)據(jù)進(jìn)行預(yù)測(cè)可能會(huì)在診斷的過(guò)程中添加混淆信息,影響模型的預(yù)測(cè)精度與泛用性[5]。近年來(lái),同時(shí)利用病人的多項(xiàng)檢查結(jié)果提高模型預(yù)測(cè)性能已經(jīng)成了AD與MCI疾病預(yù)測(cè)的研究熱點(diǎn)[6-11]。
基于此,本文將雙圖卷積網(wǎng)絡(luò)(dual-graph convolution network,Dual-GCN)[12]與本文提出的修正視圖相關(guān)發(fā)現(xiàn)網(wǎng)絡(luò)(modified view correlation discovery network,MVCDN)相結(jié)合,提出一種基于Dual-GCN的多維數(shù)據(jù)聯(lián)合預(yù)測(cè)網(wǎng)絡(luò)(multi-view joint prediction based on dual-GCN,MVIDG),以進(jìn)行MCI疾病進(jìn)展的預(yù)測(cè)。
本文的主要貢獻(xiàn)如下:
(1)提出基于超參數(shù)k1與k2構(gòu)建病人特征網(wǎng)絡(luò)圖ConvP與ConvA的方法,利用Dual-GCN同時(shí)對(duì)圖的局部一致性與全局一致性進(jìn)行信息嵌入。
(2)針對(duì)多維數(shù)據(jù)融合時(shí)冗余信息與噪聲信號(hào)對(duì)預(yù)測(cè)結(jié)果的影響做出改進(jìn),提出MVCDN網(wǎng)絡(luò),提高多維數(shù)據(jù)融合效果。
(3)提出多維數(shù)據(jù)融合網(wǎng)絡(luò)模型MVIDG,可融合病人多項(xiàng)檢查結(jié)果預(yù)測(cè)病人在未來(lái)一年內(nèi)由MCI階段向AD階段進(jìn)展的概率。其模型架構(gòu)如圖1所示。
圖1 多維數(shù)據(jù)融合網(wǎng)絡(luò)MVIDG
本文使用的數(shù)據(jù)來(lái)自ADNI數(shù)據(jù)庫(kù)。ADNI的主要目標(biāo)是測(cè)試序列MRI、AD生物標(biāo)志物、臨床與神經(jīng)心理學(xué)評(píng)估等是否可以結(jié)合起來(lái)預(yù)測(cè)MCI和早期AD的進(jìn)展。
從中,我們選取同時(shí)含有以下檢查結(jié)果的患者:①基于標(biāo)準(zhǔn)腦圖譜分割的腦部各區(qū)體積測(cè)量(volumetric mea-surements)。②海馬體葡萄糖代謝濃度。③神經(jīng)認(rèn)知分?jǐn)?shù)(ADAS-cog score)。④腦脊液蛋白濃度(CSF proteomics)。⑤血漿蛋白濃度(plasma proteomics)。⑥ApoE基因型。⑦一年內(nèi)臨床診斷變化。從MCI階段到正常對(duì)照組以及從AD階段到MCI階段的轉(zhuǎn)變因AD的不可逆轉(zhuǎn)性被排除在外。
最終納入271名符合標(biāo)準(zhǔn)的ADNI參與者,其中97名患者為MCI穩(wěn)定患者(MCI stable,MCIS),他們?cè)谝荒陜?nèi)均保持MCI診斷未變化。174名為MCI進(jìn)展患者(MCI converters,MCIC),他們?cè)谝荒陜?nèi)由MCI患者惡化為AD患者。關(guān)于患者信息的分布見(jiàn)表1。
表1 患者信息分布
我們使用mRMR算法[13]作為降維算法,其可在不顯著丟失信息的情況下降低數(shù)據(jù)集維數(shù),僅保留特征集合中與目標(biāo)變量最相關(guān)的特征,且保留的特征之間相關(guān)性較低,從而篩除無(wú)關(guān)特征與冗余特征。
首先,我們對(duì)特征進(jìn)行歸一化,以保證深度學(xué)習(xí)的訓(xùn)練效果。之后,我們過(guò)濾掉均值為0以及低方差的特征。對(duì)于腦區(qū)體積特征數(shù)據(jù)與血漿蛋白數(shù)據(jù),我們選定0.1為方差閾值。對(duì)于Others數(shù)據(jù),我們只篩選方差為0的數(shù)據(jù),因?yàn)槠涮卣鲾?shù)目有限。之后,我們使用mRMR算法進(jìn)行進(jìn)一步篩選。具體來(lái)說(shuō),我們使用5的步長(zhǎng),對(duì)腦區(qū)體積特征數(shù)據(jù)與血漿蛋白濃度數(shù)據(jù)搜索數(shù)值在40到90之間的最佳N個(gè)特征。
對(duì)于Others數(shù)據(jù),因特征規(guī)模原因,我們使用長(zhǎng)度為1的步長(zhǎng)進(jìn)行搜索。我們將所獲特征輸入單類檢查結(jié)果訓(xùn)練器Dual-GCN后所獲得AUC值作為標(biāo)準(zhǔn)來(lái)評(píng)估性能,以選擇合適的特征數(shù)目。
我們模型訓(xùn)練時(shí)的輸入數(shù)據(jù)為特征選擇后n位患者的3種檢查結(jié)果,即腦區(qū)體積特征、血漿蛋白特征,以及Others特征。輸入數(shù)據(jù)均為序列數(shù)據(jù),即篩選后輸入數(shù)據(jù)λ={X1,X2,X3},設(shè)Xv為第v種檢查結(jié)果,其在特征選擇后的特征數(shù)目為d,則X(v)∈Rn×d。以及病人標(biāo)簽Y={y1,y2,…,yn}。
首先,我們利用特征之間的余弦相似度來(lái)構(gòu)建網(wǎng)絡(luò)圖,同時(shí)使用閾值ε來(lái)調(diào)整圖結(jié)構(gòu)。具體來(lái)說(shuō),對(duì)所有病人的第v種檢查結(jié)果Xv,我們基于其特征相似度為基準(zhǔn)構(gòu)建可以反映圖局部一致性的鄰接矩陣ConvA。其計(jì)算方法如下
(1)
(2)
其中,ConvAi,j為ConvA在(i,j)處的值。xi,xj為選取檢查結(jié)果中第i與第j位病人的特征向量,s(xi,xj) 為余弦相似度函數(shù)。通過(guò)將每個(gè)病人視為樣本相似性網(wǎng)絡(luò)上的一個(gè)點(diǎn),Dual-GCN的目標(biāo)是利用節(jié)點(diǎn)的特征以及節(jié)點(diǎn)之間的關(guān)系來(lái)學(xué)習(xí)點(diǎn)在圖上的特征函數(shù)。閾值ε通過(guò)超參數(shù)k來(lái)確定,k實(shí)際上代表平均每個(gè)點(diǎn)所保留邊的數(shù)目,k與ε關(guān)系如下所示
(3)
式中:I(·) 為指示函數(shù),滿足條件為1,否則為0。基于超參數(shù)k的選擇計(jì)算合適的閾值ε。對(duì)于每種檢查結(jié)果X(v),我們分別使用超參數(shù)k1與k2計(jì)算嵌入圖局部一致性信息的矩陣ConvA與ConvA2。之后,使用ConvA2計(jì)算能夠嵌入圖全局一致性信息的矩陣ConvP。
首先,我們使用隨機(jī)游走的方式,計(jì)算頻率矩陣F。算法如下:
算法1:頻率矩陣F構(gòu)建
(1)輸入:ConvA2矩陣,路長(zhǎng)q,窗口長(zhǎng)度w,每節(jié)點(diǎn)重復(fù)次數(shù)t
(2)輸出:頻率矩陣F,F∈Rn×n
(3)算法流程:
(4) 初始化F為全零矩陣
(5) For 節(jié)點(diǎn)NodeInConvA2:
(6) 設(shè)置Node為隨機(jī)游走的根節(jié)點(diǎn)
(7) Fori=1 tot:
(8) 節(jié)點(diǎn)序列S=隨機(jī)游走(ConvA2,Node,q)={N1,N2,…,Nq}
(9) 取出節(jié)點(diǎn)序列S中滿足n-m≤w的所有節(jié)點(diǎn)對(duì)(Nn,Nm)
(10) 對(duì)每個(gè)節(jié)點(diǎn)對(duì)(Nn,Nm),設(shè)其所表示的病人為第i個(gè)病人與第j個(gè)病人,則Fi,j+=1,Fj,i+=1
(11) End For
(12) End For
(13) Return F
其中在隨機(jī)游走時(shí),由一個(gè)點(diǎn)轉(zhuǎn)移到另一個(gè)點(diǎn)的概率設(shè)置為
(4)
Ai,j即ConvA2在第(i,j)處的值。最后,使用頻率矩陣F構(gòu)建能夠嵌入全局一致性信息的鄰接矩陣ConvP。對(duì)于ConvP中的每個(gè)點(diǎn)Pi,j,其計(jì)算方法如下
(5)
(6)
(7)
(8)
在樣本稀缺的情況下,基于圖的學(xué)習(xí)方法可以在使用有限標(biāo)記數(shù)據(jù)的條件下獲得更高的精度。相較于目前流行的GCN算法[13,14],Dual-GCN可以同時(shí)捕獲圖的全局一致性以及局部一致性信息,以使用嵌入圖知識(shí)進(jìn)行學(xué)習(xí)。
給定病人第v項(xiàng)檢查結(jié)果的特征矩陣X(v)。首先,我們基于超參數(shù)k1計(jì)算出ConvA矩陣,記為A(v),網(wǎng)絡(luò)Z(v)第i層的輸出被定義為
(9)
之后,基于超參數(shù)k2計(jì)算ConvP矩陣,記為P(v),以此進(jìn)行圖全局一致性的嵌入。其網(wǎng)絡(luò)Z(v)第i層的輸出被定義為
(10)
符號(hào)的定義與前邊一致。顯然,基于這樣一個(gè)節(jié)點(diǎn)上下文矩陣ConvP進(jìn)行擴(kuò)散可以確保全局一致性的嵌入。此外,P(v)與A(v)在訓(xùn)練過(guò)程中共享參數(shù),即二者使用相同的網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練。
(11)
式中:n為有標(biāo)簽病例的數(shù)目,其標(biāo)簽為Y,Y∈Rn×2。c為分類數(shù),在這里為2。
為了同時(shí)考慮到圖的局部一致性與全局一致性,我們需要使用無(wú)監(jiān)督的正則化器來(lái)構(gòu)建損失函數(shù),以保證P(v)與A(v)的聯(lián)合學(xué)習(xí)效果。其計(jì)算方法如下
(12)
最終,我們使用的損失函數(shù)為L(zhǎng)0與Lreg的加權(quán)和,使用超參數(shù)λ進(jìn)行調(diào)整。其計(jì)算公式如下與圖2所示
圖2 損失函數(shù)
Ldual(v)=L0(ConvA(v))+λ*Lreg(ConvA(v),ConvP(v))
(13)
此模型的關(guān)鍵是在訓(xùn)練中共享模型參數(shù)(即等式(9)和式(10)中的神經(jīng)網(wǎng)絡(luò)權(quán)重W)。通過(guò)這樣做,此模型可以聯(lián)合ConvA和ConvP的信息,以實(shí)現(xiàn)更好的預(yù)測(cè)。
我們研究中的一個(gè)重要問(wèn)題便是整合病人的多類檢查數(shù)據(jù)[16,17]。視圖相關(guān)發(fā)現(xiàn)網(wǎng)絡(luò)(view correlation discovery network,VCDN)[18]可以探索在不同視圖之間的潛在跨視圖相關(guān)性,利用每種視圖提供的獨(dú)特分類信息提高預(yù)測(cè)性能。但在實(shí)際實(shí)驗(yàn)中,單獨(dú)視圖所產(chǎn)生的噪聲信息與冗余信息可能會(huì)對(duì)數(shù)據(jù)的集成產(chǎn)生影響。
基于此,我們改進(jìn)了VCDN算法,提出MVCDN模型。其對(duì)預(yù)測(cè)向量的組合計(jì)算進(jìn)行分級(jí),以使預(yù)測(cè)結(jié)果更具有穩(wěn)健性。其輸入向量計(jì)算流程如圖3所示。
圖3 MVCDN輸入向量計(jì)算流程
(14)
(15)
關(guān)于符號(hào)的定義與上相同,即C2∈Rn×4,同樣根據(jù)采用檢查數(shù)據(jù)組合的不同分為3種。最后對(duì)于3級(jí)元素,我們會(huì)汲取所有項(xiàng)檢查結(jié)果進(jìn)行計(jì)算,定義為
(16)
C3∈Rn×8,因采用所有檢查結(jié)果進(jìn)行計(jì)算,故僅有一種。在具體運(yùn)算時(shí),選擇合適等級(jí)的多維融合向量進(jìn)行組合并連接,將其重塑為跨視圖發(fā)現(xiàn)向量CFinal,作為MVCDN網(wǎng)絡(luò)的輸入。MVCDN網(wǎng)絡(luò)是一個(gè)全連接網(wǎng)絡(luò),輸出大小為2(因本研究為二分類)。MVCDN網(wǎng)絡(luò)的損失函數(shù)即為交叉熵函數(shù)
(17)
具體元素組合以及運(yùn)算方法如圖4所示。圖中為使用腦區(qū)體積與血漿蛋白濃度分別訓(xùn)練Dual-GCN分類器所得預(yù)測(cè)概率分布相乘獲得的2級(jí)多維融合向量,以及Others數(shù)據(jù)輸入分類器所得原始概率分布,即1級(jí)多維融合向量。將其相連,輸入普通全連接網(wǎng)絡(luò)MVCDN進(jìn)行計(jì)算。
圖4 多級(jí)元素組合計(jì)算樣例
本模型使用半監(jiān)督學(xué)習(xí)方法進(jìn)行預(yù)測(cè)。對(duì)于新的測(cè)試數(shù)據(jù)Xtest。首先我們將其與訓(xùn)練時(shí)的病人數(shù)據(jù)Xtrain連接,形成總數(shù)據(jù)Xall。之后基于Xall計(jì)算卷積圖ConvAall與ConvPall輸入模型進(jìn)行預(yù)測(cè)
(18)
在計(jì)算ConvAall時(shí),相較于訓(xùn)練時(shí)計(jì)算出的ConvAtrain,僅需就新增加X(jué)test的余弦相似度進(jìn)行重新計(jì)算,而在訓(xùn)練時(shí)已經(jīng)計(jì)算出的ConvAtrain可直接嵌入ConvAall,減少了計(jì)算時(shí)間。同樣的,在計(jì)算ConvPall時(shí)也僅對(duì)新加入的節(jié)點(diǎn)進(jìn)行隨機(jī)游走。
在這項(xiàng)工作中,我們?cè)u(píng)估了MVIDG整合多維數(shù)據(jù)進(jìn)行MCI進(jìn)展預(yù)測(cè)的有效性、MVIDG中各項(xiàng)檢查結(jié)果的信息提供效果、以及對(duì)MVCDN網(wǎng)絡(luò)融合層級(jí)的效果。為此,我們?cè)O(shè)計(jì)了以下3個(gè)實(shí)驗(yàn)。
(1)在MCI進(jìn)展預(yù)測(cè)方面,與其它方法進(jìn)行比較。
(2)使用不同種類檢查結(jié)果下的MVIDG性能比較,驗(yàn)證特征融合對(duì)預(yù)測(cè)效果的影響。雖然在實(shí)際分類任務(wù)中我們使用了所有3種數(shù)據(jù)進(jìn)行預(yù)測(cè),但本模型也可通過(guò)擴(kuò)展以適應(yīng)不同數(shù)量的數(shù)據(jù)類型,僅需修改組成跨視圖發(fā)現(xiàn)向量的元素層級(jí)即可。
(3)消融實(shí)驗(yàn)。為驗(yàn)證Dual-GCN相較于GCN對(duì)圖全局一致性進(jìn)行圖嵌入所提供的額外信息以及MVCDN集成多維信息進(jìn)行聯(lián)合預(yù)測(cè)的效果,我們還設(shè)計(jì)了消融實(shí)驗(yàn)。
在訓(xùn)練過(guò)程中,首先對(duì)3個(gè)基于單一檢查數(shù)據(jù)訓(xùn)練的Dual-GCN分類器訓(xùn)練500個(gè)Epoch,之后再導(dǎo)入MVCDN部分,使這兩部分同時(shí)參數(shù)更新,訓(xùn)練2500個(gè)Epoch。
共同訓(xùn)練時(shí),Dual-GCN的學(xué)習(xí)率被設(shè)置為1e-4,MVCDN網(wǎng)絡(luò)的學(xué)習(xí)率被設(shè)置為1e-3。預(yù)訓(xùn)練時(shí),Dual-GCN的學(xué)習(xí)率被設(shè)置為1e-3。
超參數(shù)的選擇對(duì)于最終訓(xùn)練效果十分重要。這里,我們列出對(duì)模型核心超參數(shù)的調(diào)節(jié)過(guò)程,即特征選擇數(shù)目、閾值選擇超參數(shù)k1、k2,多級(jí)特征融合向量計(jì)算的選擇層級(jí)。
5.1.1 特征選擇
針對(duì)特征選擇,我們進(jìn)行超參數(shù)選擇的方式如1.2節(jié)所示,將選擇的特征輸入Dual-GCN進(jìn)行評(píng)估。
選取特征數(shù)目對(duì)結(jié)果影響以及在挑選各項(xiàng)檢查結(jié)果最佳特征數(shù)目后融合模型的損失收斂曲線如圖5所示。
圖5 特征選擇超參數(shù)選取與損失收斂曲線
5.1.2 超參數(shù)k設(shè)置
超參數(shù)k實(shí)際代表在相似網(wǎng)絡(luò)圖中每個(gè)節(jié)點(diǎn)所保留邊的數(shù)目,其直接影響閾值ε的計(jì)算,并控制由病人特征計(jì)算出的相似網(wǎng)絡(luò)圖的構(gòu)成。且每組Dual-GCN共享相同的超參數(shù)k。
關(guān)于超參數(shù)k1與k2的選取使用網(wǎng)格搜索實(shí)現(xiàn),評(píng)價(jià)指標(biāo)為基于MVIDG整體模型預(yù)測(cè)結(jié)果獲得的AUC。其結(jié)果見(jiàn)表2。
表2 超參數(shù)K選取效果
5.1.3 元素組合選取
在進(jìn)行多維數(shù)據(jù)融合時(shí),需要實(shí)際選取不同級(jí)特征融合向量進(jìn)行組合。具體而言,單獨(dú)使用1級(jí)多維融合向量時(shí)為將所有Dual-GCN的預(yù)測(cè)向量直接串聯(lián)輸入MVCDN中,所得AUC為0.764。
另外,將兩種檢查結(jié)果所獲預(yù)測(cè)向量相乘后獲得2級(jí)多維融合向量,再將其展開(kāi)后與另一1級(jí)多維融合向量相連后輸入MVCDN網(wǎng)絡(luò)中,所獲AUC分別為0.769、0.781、0.761,其中0.781為將基于腦區(qū)體積與血漿蛋白濃度的基礎(chǔ)分類器預(yù)測(cè)向量相乘計(jì)算2級(jí)元素,再將其與基于Others特征計(jì)算出的預(yù)測(cè)向量相連輸入MVCDN網(wǎng)絡(luò)獲得。
最后,基于全部3種預(yù)測(cè)向量全部相乘后獲得3級(jí)元素,將其展開(kāi)后輸入MVCDN網(wǎng)絡(luò),所得AUC為0.778。
我們比較了MVIDG與以下現(xiàn)有的數(shù)據(jù)分類算法:①K-最近鄰算法(KNN)。②支持向量機(jī)分類器(SVM)③使用L1正則化(Lasso)訓(xùn)練的線性回歸。④隨機(jī)森林分類器(RF)。⑤基于XGBoost的梯度提升樹(shù)算法。⑥相似網(wǎng)絡(luò)融合算法(SNF)。⑦基于GCN的多維融合算法(MOGONET)。
其中,KNN、Lasso、SVM、RF、XGBoost是將預(yù)處理數(shù)據(jù)直接串聯(lián)作輸入。結(jié)果見(jiàn)表3。
表3 不同模型性能比較
為驗(yàn)證MVIDG集成多維數(shù)據(jù)進(jìn)行學(xué)習(xí)的能力,我們針對(duì)使用檢查結(jié)果不同所表現(xiàn)出的性能差異進(jìn)行了比較。結(jié)果見(jiàn)表4。
表4 不同類檢查結(jié)果聚合性能比較
為驗(yàn)證Dual-GCN相較于GCN對(duì)圖全局一致性進(jìn)行圖嵌入所提供的額外信息以及MVCDN集成多維信息進(jìn)行聯(lián)合預(yù)測(cè)的效果,我們還對(duì)以下方法進(jìn)行對(duì)比:①GCN-NN。使用GCN作為單視圖分類器,使用全連接網(wǎng)絡(luò)進(jìn)行集成。這里將所有分類模塊的標(biāo)簽分布向量連接作為輸入。②GCN-MVCDN。使用GCN作為神經(jīng)網(wǎng)絡(luò),MVCDN網(wǎng)絡(luò)進(jìn)行集成。③Dual-GCN-NN。與②相似,但單視圖分類器部分換為Dual-GCN。④Dual-GCN-VCDN。與③相似,但集成部分換為VCDN。⑤GCN-VCDN。與④相似,但單一結(jié)果分類器為GCN。最后所獲得的結(jié)果見(jiàn)表5。
表5 消融實(shí)驗(yàn)結(jié)果
在表5中,我們發(fā)現(xiàn)Dual-GCN的效果均要強(qiáng)于GCN,且在集成上使用MVCDN較VCDN表現(xiàn)出明顯優(yōu)勢(shì),但GCN-VCDN與GCN-MVCDN的性能相同。這是因?yàn)樵趯?shí)驗(yàn)中發(fā)現(xiàn)使用GCN中MVCDN效果最好時(shí)為僅使用第三級(jí)元素計(jì)算,而這恰在計(jì)算上與VCDN格式相同。推測(cè)為此時(shí)單視圖分類器產(chǎn)生的噪聲信號(hào)少,無(wú)需額外消除。
在這項(xiàng)工作中,我們通過(guò)整合多維數(shù)據(jù),提出了一種基于Dual-GCN的多維數(shù)據(jù)聚合網(wǎng)絡(luò)MVIDG,用于預(yù)測(cè)MCI患者向AD的進(jìn)展。其使用我們提出的基于VCDN改進(jìn)的MVCDN模型來(lái)發(fā)掘跨視圖標(biāo)簽相關(guān)性,整合病人的多種檢查結(jié)果以預(yù)測(cè)MCI患者是否會(huì)向AD進(jìn)展,這對(duì)早期AD患者的及時(shí)干預(yù)治療有著重要意義?;谙嚓P(guān)實(shí)驗(yàn),我們發(fā)現(xiàn)MVIDG可以良好整合多維數(shù)據(jù)以提高預(yù)測(cè)性能,且效果優(yōu)于其它同類方法,預(yù)計(jì)我們的方法能夠有效輔助臨床醫(yī)生對(duì)早期AD患者的及時(shí)干預(yù),以保證患者的治療質(zhì)量。