吳浩 王昕璨 李欣蕓 劉志芬 陳俊杰 郭浩
摘 要:基于單一腦圖譜模板的功能連接網(wǎng)絡中提取的特征表示不足以揭示患者組和正常對照組(NC)之間的復雜拓撲結(jié)構(gòu)差異,而傳統(tǒng)的基于多模板的功能腦網(wǎng)絡定義多采用獨立模板,缺乏模板間的關聯(lián),從而忽略了各模板構(gòu)建的功能腦網(wǎng)絡中潛在的拓撲關聯(lián)信息。針對上述問題,提出了一種多層次腦圖譜模板和一種使用關系誘導稀疏(RIS)特征選擇模型的方法。首先定義了具有關聯(lián)的多層次腦圖譜模板,挖掘模板之間潛在關系和表征組間網(wǎng)絡結(jié)構(gòu)差異;然后用RIS特征選擇模型進行參數(shù)優(yōu)化,進而提取組間差異特征;最后利用支持向量機(SVM)方法構(gòu)建分類模型,并應用于抑郁癥患者的診斷。在山西大學第一醫(yī)院抑郁癥臨床診斷數(shù)據(jù)庫上的實驗結(jié)果顯示,基于多層次模板的功能腦網(wǎng)絡通過使用具有RIS特征的選擇方法取得了91.7%的分類準確率,相比傳統(tǒng)多模板方法的準確率提高了3個百分點%此處是否應該為3個百分點?請明確。要注意百分比和百分號的表述。。
關鍵詞:多層次模板;功能腦網(wǎng)絡;關系誘導稀疏;機器學習;抑郁癥
Abstract: The feature representation extracted from the functional connection network based on single brain map template is not sufficient to reveal complex topological differences between patient group and Normal Control (NC) group. However, the traditional multi-template-based functional brain network definitions mostly use independent templates, ignoring the potential topological association information in functional brain networks built with each template. Aiming at the above problems, a multi-level brain map template and a method of Relationship Induced Sparse (RIS) feature selection model were proposed. Firstly, an associated multi-level brain map template was defined, and the potential relationship between templates and network structure differences between groups were mined. Then, the RIS feature selection model was used to optimize the parameters and extract the differences between groups. Finally, the Support Vector Machine (SVM) method was used to construct classification model and was applied to the diagnosis of patients with depression. The experimental results on the clinical diagnosis database of depression in the First Hospital of Shanxi University show that the functional brain network based on multi-level template achieves 91.7% classification accuracy by using the RIS feature selection method, which is 3 percentage points%percentage points higher than that of traditional multi-template method.
Key words: multi-level template; functional brain network; relationship induced sparse; machine learning; Major Depressive Disorder (MDD)
0 引言
抑郁癥(Major Depressive Disorder, MDD)是最常見的精神疾病之一。了解MDD的神經(jīng)基礎對于改善這種使人衰弱的疾病的預防、檢測和治療至關重要[1]。大量神經(jīng)影像學研究已經(jīng)發(fā)現(xiàn)并指出MDD患者在結(jié)構(gòu)和功能腦區(qū)間存在異常[2]。同時,基于腦網(wǎng)絡的方法在精神障礙的機器學習分類中發(fā)揮著越來越重要的作用[3]。例如,這些技術可以用于診斷或預測治療結(jié)果。許多研究使用支持向量機(Support Vector Machine, SVM)分類器,以識別患有MDD的被試與正常對照組(Normal Control, NC)的網(wǎng)絡指標[4]。
基于靜息態(tài)功能磁共振成像的分類研究已經(jīng)在MDD的診斷中被廣泛研究[5-8]。在傳統(tǒng)的靜息態(tài)功能磁共振成像分析中,通常利用單一腦圖譜模板劃分腦區(qū)進而構(gòu)建功能連接網(wǎng)絡,再進行之后的分類研究[9]。然而,利用單個腦圖譜模板提取的功能腦網(wǎng)絡拓撲特征可能不足以揭示受疾病影響的患者組和NC組之間的潛在差異。具體地,不同的腦圖譜模板對所構(gòu)建網(wǎng)絡的結(jié)構(gòu)及其拓撲屬性影響很大,而網(wǎng)絡的不同分割節(jié)點數(shù)量實質(zhì)上對網(wǎng)絡的小世界屬性、局部屬性、功能連接強度以及網(wǎng)絡連通性均存在顯著影響[10]。此外,腦圖譜模板的不同對網(wǎng)絡的影響還體現(xiàn)在以網(wǎng)絡拓撲屬性作為特征的分類中。
為了解決上述問題,有研究提出可以利用多種不同的腦圖譜模板來更豐富地表示被試的分類特征[11]。與單模板的方法相比,在減少誤差、提取更豐富的分類特征表示以及提高分類準確率上取得了相比單模板更好的成效。研究表明,基于多圖譜模板的方法通??杀葐文0宓姆椒▽崿F(xiàn)更準確的診斷。
目前,這個領域仍存在許多值得探索的問題,其中一個重要的問題便是多模板的選取。以往基于多模板腦網(wǎng)絡的研究在選擇模板時忽略腦圖譜模板之間的關聯(lián)性?;诖?,本文通過定義多層次模板,建立了不同模板的層次關聯(lián)性,挖掘出了多個模板間腦區(qū)的對應關系,表征了具有關聯(lián)性的多模板對于網(wǎng)絡拓撲屬性的顯著影響,以針對現(xiàn)有在腦網(wǎng)絡領域中對多模板劃分研究的不足,旨在突破神經(jīng)影像學在多模板研究上的壁壘,為MDD數(shù)據(jù)的分類研究提供新的參考方案。
此外,該領域另外一個重要的問題便是如何提取多個模板中的多組分類特征的相關關系,以便從多組特征中篩選出更加有效的分類特征,從而取得更高的分類準確率。然而,大多數(shù)現(xiàn)有的基于多模板的方法簡單地平均或連接從不同模板提取的多組特征,或者僅僅對比分析不同模板所得到的特征有效性及特征間冗余性[12-13]。這可能忽略多模板數(shù)據(jù)中包含的重要結(jié)構(gòu)信息,如何更加有效地篩選多個模板中的多組特征是一個具有挑戰(zhàn)性的問題?;诖?,本文提出參數(shù)自尋優(yōu)的關系誘導稀疏(Relationship Induced Sparse, RIS)多模板特征選擇方法。這一方法明確模擬出多模板中的結(jié)構(gòu)信息,降低了多模板特征間的冗余性,提高分類特征的有效性,并被廣泛應用在同類研究中[14]。值得注意的是,本文提出參數(shù)自尋優(yōu)框架,優(yōu)化了RIS模型,旨在獲得參數(shù)的最優(yōu)組合,防止了參數(shù)的過度擬合,提高了分類器的泛化性能,使特征選擇和分類更加準確和有效。
本文定義多層次腦圖譜模板,分析模板之間、被試之間的潛在關系,利用使用參數(shù)自尋優(yōu)框架的RIS特征選擇方法,提取組間差異特征。結(jié)果顯示,本文所提方法具有更高的分類準確率。
1 材料與方法
1.1 數(shù)據(jù)采集及預處理
實驗的采集工作,在遵照山西省醫(yī)學倫理委員會的建議下,所有被試均知情同意,并根據(jù)赫爾辛基宣言簽署了書面知情同意書。被試包括38名MDD患者和28名健康右利手志愿者,被試基本信息如表1。其腦部靜息態(tài)磁共振成像掃描工作使用西門子3T超導核磁共振成像掃描儀,所有掃描由山西大學第一醫(yī)院熟悉磁共振的放射科醫(yī)生進行。其間,要求被試在掃描過程中閉眼,呈放松狀態(tài),不進行思考活動且不能進入睡眠狀態(tài)。掃描參數(shù)設置如下:33axial slices,Repetition Time(TR)=2000ms,Echo Time(TE)=30ms,thickness/skip=4/0mm,F(xiàn)ield Of View (FOV)=192×192mm,matrix=64×64mm,flip angle=90°,248volumes。
表1中的數(shù)據(jù)范圍是最小值~最大值(平均值±此處的+,是否應該為±?請明確標準偏差)。HAMD為24個漢密爾頓量表,a表示雙值雙尾T檢驗得到P值,b表示通過雙尾Pearson卡方檢驗得到P值。
本文使用Matlab平臺下的統(tǒng)計參數(shù)映射(Statistical Parametric Mapping, SPM)對實驗采集來的圖像進行預處理,主要包括如圖1所示處理步驟[15]。
其中,時間片校正用來校正功能核磁共振成像(functional Magnetic Resonance Imaging, fMRI)影像掃描中各層之間采集時間的差異。頭動校正即為對影像進行剛體變換并重排至同一被試的某一參考影像中,以形成新的影像序列。在此過程中,2例MDD組及NC組數(shù)據(jù)由于校正過程中頭動大于3mm或轉(zhuǎn)動大于3°而被棄除。在空間標準化步驟中,本文選擇了蒙特利爾神經(jīng)學研究所(Montreal Neurological Institute, MNI)標準的回聲平面成像(Echo Planer Imaging, EPI)腦模板,體素大小選取為3mm。空間平滑則是為了進一步消除被試腦形態(tài)結(jié)構(gòu)的細微差異。
1.2 網(wǎng)絡構(gòu)建和網(wǎng)絡屬性
1.2.1 多層次模板構(gòu)建
本文挖掘出了不同腦圖譜模板間腦區(qū)的對應關系,重點突出多個模板之間的關聯(lián)性,構(gòu)建了AAL90、Parc256、Parc 497、Parc1003、Parc1501這五個多層次模板。
其中,AAL90模板是自動解剖標記圖譜模板(Automated Anatomical Labeling, AAL)[15],將大腦劃分為90個腦區(qū)(左右每個半球各45個腦區(qū)),每個腦區(qū)代表腦網(wǎng)絡中的一個節(jié)點,且節(jié)點的值是通過計算各個腦區(qū)中所包含的所有體素的算術平均值來表示的。其余四個模板,是在AAL90模板基礎上基于動態(tài)隨機種子的方法細分大腦區(qū)域得到的。具體方法如下。
首先,將預期節(jié)點數(shù)用N表示,在此預設N為250。將原有AAL模板中的各腦區(qū)占所有腦區(qū)的體素比例用V表示。原有AAL腦區(qū)可劃分的子區(qū)域的個數(shù)用k表示,其值可通過k=VN計算得到。也就是說,在N個節(jié)點的規(guī)模下,腦區(qū)應該被劃分為k個子區(qū)域,然后,針對該腦區(qū),設置k個隨機種子體素,用S={S1,S2,…,Sk}來表示。之后分別計算各種子體素Si與其他剩余體素的距離。從中選取距離當前種子體素最小的體素,將其與種子體素Si組合,形成包含該新體素的新子區(qū)域。接著計算這些新子區(qū)域的物理中心,并設置這個物理中心為下一個種子體素,然后計算體素間與種子體素的距離。循環(huán)往復此過程,直到腦區(qū)內(nèi)所有未被劃分的體素均被劃分到其中。不同腦區(qū)的隨機種子體素的設置及腦區(qū)劃分都是各自獨立完成的,也就是說,一個種子體素不可能同時屬于兩個腦區(qū),即避免存在某個劃分的腦區(qū)在空間上被其他劃分的腦區(qū)分割的情況。待所有AAL獨立腦區(qū)劃分完成即得到一個新的腦圖譜模板。
值得注意的是,可劃分子區(qū)域的個數(shù)k是通過計算得到的,因此這個值在計算中可能不是一個整數(shù)。在這種情況下,本文通過四舍五入的方式來解決,所以,實際得到新的腦圖譜模板的節(jié)點個數(shù)與預設的節(jié)點數(shù)N會存在細微的偏差。
AAL標準模板下劃分的腦區(qū)有相應的名字和編號,以90個節(jié)點的腦圖譜模板下的1號腦區(qū)(即左側(cè)中央前回)為例,若在256個節(jié)點的模板下其被劃分為了5個小腦區(qū),則這5個小腦區(qū)均命名為左側(cè)中央前回,與AAL模板中的命名一致,而沒有對其重新命名。
同樣地,497、1003、1501三個模板也是在此方法下得到的。這五個具有層次關聯(lián)的腦圖譜模板被標記為AAL90、Parc256、Parc497、Parc1003和Parc1501。前綴AAL旨在表示原始的AAL模板。前綴Parc表示使用上述算法確定的模板。模板AAL90劃分的每個腦區(qū)對應到模板Parc256、Parc497、Parc1003和Parc1501腦區(qū)個數(shù)分別為3、5、10、15,不同模板的層次關聯(lián)性如多層次模板節(jié)點關聯(lián)示意圖如圖2所示。
連接即為節(jié)點間的邊。連接的定義使用傳統(tǒng)的方法,即皮爾遜相關法。提取每個腦區(qū)血氧含量濃度水平依賴(Blood Oxygenation Level Dependent, BOLD)英文全稱中Level Dependent,應是“水平依賴”的意思,而不是“含量濃度”,中文與英文應保持書寫一致,請作相應調(diào)整?;貜停何恼?.2.1中出現(xiàn)的"含量濃度"修改為"水平依賴"的時間序列,即節(jié)點的值,對節(jié)點的值做皮爾遜相關,得出的值可以反映出節(jié)點之間的交互關系[16]。
1.2.2 稀疏度的選擇
本文使用稀疏度來構(gòu)建二值網(wǎng)絡[17]。腦網(wǎng)絡的節(jié)點數(shù)為N時,其對應的完全圖的邊數(shù)為N(N-1)/2,稀疏度就是腦網(wǎng)絡中現(xiàn)存的邊數(shù)與其完全圖邊數(shù)N(N-1)/2的比值。稀疏度可以控制腦網(wǎng)絡的密度,與閾值的作用一樣,但區(qū)別在于稀疏度是對網(wǎng)絡整體的描述,而閾值控制的是網(wǎng)絡中的邊[18]。
選取稀疏度時要保證最后的二值網(wǎng)絡具有小的噪聲,且沒有孤立點的存在[19]。有研究表明,當稀疏度大于40%時,腦網(wǎng)絡會退化為隨機網(wǎng)絡[20]。故為了使腦網(wǎng)絡具有小世界屬性,且無孤立點的存在,將稀疏度的范圍設置為5%到40%,以0.05為步長將加權(quán)網(wǎng)絡轉(zhuǎn)化為二值網(wǎng)絡。最后,所有被試的每個腦圖譜模板下的腦網(wǎng)絡都得到了8個不同稀疏度的二值網(wǎng)絡。
1.3 特征提取和選擇
1.3.1 特征定義
在本文中,選用三個局部指標作為分類特征,包括度、中間中心度和節(jié)點效率[21]。針對不同的腦圖譜模板,分別計算MDD組和NC組被試網(wǎng)絡指標曲線下面積(Area Under the Curve, AUC)值[20,22-23],選取其經(jīng)過T檢驗后具有統(tǒng)計顯著性(即P值小于0.05)的作為特征。之所以計算網(wǎng)絡指標的AUC值,是因為網(wǎng)絡指標的計算并不是在某一確定稀疏度下,而是在一個選定的稀疏度空間。為了表征指標在完整稀疏度空間下的整體特性,本文計算每個指標的AUC值,以反映測量的網(wǎng)絡節(jié)點屬性在不同稀疏度下總的變化強度[20]。AUC示意圖如圖4所示。
為了找到特征的最優(yōu)子集,避免過度擬合,提升模型性能,更快地訓練分類器,就需要對特征進行篩選[24-25]。本文采用RIS特征選擇模型對特征進行篩選。
1.3.2 RIS特征選擇模型
顯而易見,在多個腦圖譜模板下提取的特征數(shù)量要高于單一模板。然而,僅僅連接多個模板特征的方法并未取得更高的分類準確率。其原因可能是由于特征數(shù)量的增多,多模板特征間的冗余性提高,使得特征的有效性降低,因此,考慮到多模板特征之間的相似程度,使用RIS特征選擇模型對提取的特征進行篩選。
其次,多模板腦網(wǎng)絡中包含有很多重要的結(jié)構(gòu)信息。然而,其他基于多模板腦網(wǎng)絡的方法忽略了這一先驗信息。RIS特征選擇模型旨在明確地模擬多模板腦網(wǎng)絡中的結(jié)構(gòu)信息,并且在此基礎上進行最優(yōu)的參數(shù)設置,從而在MDD組與NC組分類中達到更高的分類準確度。具體而言,首先將從5個腦圖譜模板中的多組網(wǎng)絡屬性作為特征提取出來。接下來,通過引入兩個正則化項來建立一種新穎的特征選擇算法,以模擬模板之間和各個被試之間的關系。也就是說,通過RIS模型挖掘模板之間以及被試之間潛在的關系,以進一步篩選特征。最后,通過SVM分類器的輸出,以實現(xiàn)最終結(jié)果。下面首先簡要介紹RIS特征選擇模型,然后介紹模型的推導過程。
RIS特征選擇模型主要由4個部分組成:1)訓練數(shù)據(jù)經(jīng)驗損失;2)組稀疏正則化項;3)模板關系誘導正則化項;4)被試關系誘導正則化項。其中:1)、2)兩個部分在于決定特征選擇的數(shù)量,以保證在多組特征中選擇出更加有效的分類特征;3)用于提取多個模板之間的相關關系;4)用于提取不同被試之間的相關關系。
式(2)表示多任務特征學習模型。在這里,將每個模板看作一個任務,K表示研究中有K個模板,即K個學習任務。Xk=[xk1,xk2,…,xkn,…,xkN]T∈RN×d表示包含全部N個被試的第k個學習任務(對應于第k個模板)的訓練數(shù)據(jù),其中xkn∈Rd表示第k個模板空間中的第n個被試的特征向量。同樣地,Y=[y1,y2,…,yn,…,yN]T∈RN作為訓練數(shù)據(jù)Xk的響應向量。其中yn∈{-1,1}是第n個被試的類別標簽(即MDD組和NC組),在這里,-1表示該被試為MDD患者,1表示該被試為正常對照組。W=[w1,w2,…,wk,…,wK]∈Rd×k表示權(quán)重矩陣。其中,wk∈Rd為第k個任務的參數(shù)化線性判別函數(shù)。式(2)中的第一項是訓練數(shù)據(jù)的經(jīng)驗損失,第二項‖W‖1,1=∑di=1‖W‖,是矩陣W中行1的范數(shù)的總和。該項有助于在不同模板中選擇少量的特征。λ1是用來平衡該項在式(1)中的相對貢獻,并且λ1越大,選擇的特征數(shù)量越少。
接下來,介紹表示模板關系誘導正則化項,即:
在式(3)中,線性映射函數(shù)(也就是f(x)=xTw)被用來將原始高維特征空間的數(shù)據(jù)轉(zhuǎn)換為一維標簽空間。Liu等[14]認為,同一被試在不同模板中的特征在被映射到類標簽后,它們應該彼此靠近。同樣地,不同被試在同一模板中的特征xkn1和xkn2若相似,則說明這兩個被試的估計類標簽(即f(xkn1)和f(xkn2))也是相似的。在這里,tr(·)表示方陣的軌跡,Bn=[x1n,x2n,…,xkn,…,xKn]T∈RK×d表示從第n個被試的K個模板中導出的多組特征,并且,Ln∈RK×K是對角元素為K-1,其他元素為-1的對角矩陣。
然后,介紹表示被試關系誘導正則化項,即:
這里的xk是如上所述的第k個任務(即第k個模板)中的特征數(shù)據(jù)矩陣,并且,Sk={Skn1,n2}Nn1,n2表示第k個模板中的N個訓練對象之間相似性的元素相似矩陣。在這里,Lk=Dk-Sk代表任務k的Laplacian(拉普拉斯)矩陣。其中,Dk為對角元素為Dkn1,n2=∑Nn2=1Skn1,n2的對角矩陣。Skn1,n2被定義為:
1.3.3 參數(shù)自尋優(yōu)框架
在RIS模型特征選擇的過程中,會涉及到一些參數(shù)的選擇,分別是λ1、λ2、λ3三個參數(shù)的設置。這三個參數(shù)分別表示組稀疏正則化項、模板關系誘導正則化項以及被試關系誘導正則化項所占權(quán)重。λ1的值直接影響篩選的特征個數(shù),λ1值越小,選出的特征數(shù)越多。λ2、λ3的值則表征模板關系及被試關系對分類結(jié)果的影響程度。
選擇不同的參數(shù)值,會對分類的結(jié)果造成一定的差異,為了使構(gòu)建的分類器效果達到最優(yōu),本文提出一種參數(shù)自尋優(yōu)框架,該框架可獲得參數(shù)的最優(yōu)組合,防止參數(shù)的過度擬合,使得RIS模型篩選的特征具有顯著差異,從而使分類更加準確、有效,即用當前對模型影響最大的參數(shù)λ1借助網(wǎng)絡搜索(Grid Search, GS)[26]方法調(diào)優(yōu),通過循環(huán)遍歷,直到最優(yōu)化,并選取最優(yōu)化過程中結(jié)果相對較好的幾個參數(shù)值作為之后的候選值;剩下兩個對模型影響相對較小的參數(shù)λ12和λ13這兩處是否應該為λ2、λ3?請明確。借助隨機搜索(Random Search, RS)[27-28]方法,隨機選出若干候選值進行調(diào)優(yōu),得出這兩個參數(shù)最優(yōu)的參數(shù)組合。如此,所有的參數(shù)調(diào)整完畢。這個方法相對省時省力,但為避免可能會調(diào)到局部最優(yōu)而不是全局最優(yōu),最后再次使用GS的方法,將上一步驟保存的相對數(shù)量較少的λ1參數(shù)值作為候選值,再結(jié)合參數(shù)λ12和λ13這兩處是否應該為λ2、λ3?請明確。的最優(yōu)參數(shù)組合值,得到表現(xiàn)最好的參數(shù)組合作為最終結(jié)果。
結(jié)合本文使用的RIS特征選擇方法和SVM分類器,具體而言,包括以下2個步驟:
1)將輸入的數(shù)據(jù)集A,即提取出來待篩選的特征,按比例分為兩組,分別是訓練集B和測試集C,劃分比例約為3∶1。
2)在步驟1)得到的訓練集B上,選擇不同的參數(shù)λ1、λ2、λ3的值,構(gòu)成參數(shù)自尋優(yōu)設置后的RIS模型?;诿恳唤M參數(shù)組合在測試集C上的表現(xiàn),得出效果最佳的參數(shù)組合,表現(xiàn)優(yōu)劣通過SVM分類結(jié)果判定。
上面說是三個步驟,第三步在哪里?請明確或調(diào)整語句描述。
在框架尋優(yōu)過程中可看出分類精確度隨著三個參數(shù)λ1、λ2、λ3的改變而變化的情況,并且對于參數(shù)λ2和λ3,分類結(jié)果一般是穩(wěn)定的;對于參數(shù)λ1,分類精確度變化明顯,表明RIS特征選擇方法對參數(shù)λ1特別敏感。參數(shù)自尋優(yōu)結(jié)果得出,在λ1=0.037,λ2=0.4,λ3=0.5時,分類結(jié)果最佳。
1.4 分類
本文采用SVM分類器,其分類工作基于Matlab的LIBSVM工具包[29]進行,這是相似的研究中常用的方法[30]。在特征選擇階段,首先利用SVM分類器與參數(shù)自尋優(yōu)框架結(jié)合,通過對分類準確率對比分析,選出最優(yōu)參數(shù)組合。這部分工作是通過分類準確率來衡量參數(shù)優(yōu)劣。最后,將使用最優(yōu)參數(shù)的RIS模型篩選出的特征進行最后分類,并使用10折交叉驗證的方法來評估分類器的泛化性能。
2 結(jié)果
2.1 不同方法對分類結(jié)果的影響
為了證明本文提出的方法具有更好的分類性能,本文更精確地比較在不同單一腦圖譜模板以及不同于本文的多模板方法中的特征數(shù)量、敏感性、特異性以及準確率。本文在AAL90、Parc256、Parc497、Parc1003、Parc1501這五個多層次模板中進行研究,并計算每個單一模板的分類性能以作對比分析,如表2所示。多模板的方法相比單一腦圖譜模板具有更好的分類性能。同時本文的方法,即經(jīng)過參數(shù)自尋優(yōu)后的RIS特征選擇模型,相比僅僅連接不同模板特征的多模板方法取得了更好的分類結(jié)果。實驗結(jié)果得出本研究方法的分類準確率為91.7%,特異性為92.3%,敏感性為88.4%。其原因主要是多層次模板之間具有關聯(lián)性,其關聯(lián)關系可作為研究的先驗信息。RIS特征選擇方法挖掘出來多層次模板之間的潛在關系,并且解決了由于特征數(shù)量增多而使得特征間冗余性高的問題,優(yōu)化了特征子集,降低了特征數(shù)目,從而篩選出更有效的特征,在表2特征數(shù)量均有體現(xiàn)。
2.2 RIS參數(shù)對分類結(jié)果的影響
RIS特征選擇模型涉及到λ1、λ2、λ3三個參數(shù)的設置,參數(shù)設置范圍均為(10-10,100),選擇不同的參數(shù)值,會對分類的結(jié)果造成一定的差異。為使分類器效果達到最優(yōu),本文提出參數(shù)自尋優(yōu)框架。該框架運行結(jié)果表明,RIS特征選擇方法對參數(shù)值λ1最為敏感,其中λ1在(10-3,10-1)范圍內(nèi)分類效果較好。由此可見,在多模板方法中,對特征數(shù)量的控制,降低特征間冗余性,提高特征有效性尤為重要。λ2與λ3兩個參數(shù)分別表示模板間相關關系和被試間相關關系的權(quán)重,均在(10-1,100)范圍內(nèi)分類效果較好??梢缘贸?,模板間的相關關系和被試間的相關關系對于分類性能同等重要??蚣茏罱K結(jié)果得出,在λ1=0.037,λ2=0.4,λ3=0.5時,分類結(jié)果最佳。
3 結(jié)語
本文解決了單一腦圖譜模板提取腦網(wǎng)絡拓撲特征可能不足以揭示患者組和NC組潛在的解剖學差異的問題,同時針對已有的多模板方法僅僅比較不同模板的分類性能或連接不同模板的特征,且選取的多個模板節(jié)點間不存在關聯(lián)的問題,提供了解決辦法。定義了多層次模板,突出多個腦圖譜模板間的關聯(lián)性。同時,提出經(jīng)過參數(shù)自尋優(yōu)的RIS多模板特征選擇方法,模擬出多模板中的結(jié)構(gòu)信息。其中,參數(shù)自尋優(yōu)框架是為了獲得參數(shù)的最優(yōu)組合,防止了參數(shù)的過度擬合,提高了分類器的泛化性能,使特征選擇和分類更加準確和有效。分類結(jié)果顯示,本文提出的方法達到更高的分類準確率。
本文工作仍存在一些潛在問題。首先,雖然本文的方法取得了比單個腦圖譜模板更高的分類準確率;但是,需要注意的是,本次研究無法忽略構(gòu)建、分析多個模板腦網(wǎng)絡所帶來的時間消耗。假設選取的模板數(shù)量很多,則需要的時間會較長。除了網(wǎng)絡規(guī)模外,時間消耗同樣受到算法、硬件配置等多種因素的影響,因此,接下來的研究著重平衡分類準確率和時間消耗。其次,在模板選擇上,本文定義了AAL90、Parc256、Parc497、Parc1003、Parc1501這五個腦圖譜模板。由于時間復雜度和空間復雜度對計算機資源要求的限制,沒有嘗試在更多的模板中進行實驗,但這是未來研究的方向之一。再者,由于相關數(shù)據(jù)采集工作難度大,尤其抑郁癥病人的功能核磁共振成像數(shù)據(jù)采集上可供采集的被試數(shù)量較少,且相關成本較高,使得本實驗樣本量較少的問題難以解決。因本研究樣本量小,在參數(shù)自尋優(yōu)方法中不足以將原始數(shù)據(jù)集A劃分成訓練集B、驗證集C和測試集D,但相關數(shù)據(jù)的采集以及受試者招聘工作仍在持續(xù)進行中,這個問題將得到進一步解決。以上幾點也作為未來工作的一部分,以確保本文的方法進一步完善。
參考文獻 (References)
[1] SACCHET M D, PRASAD G, FOLANDROSSL C, et al. Elucidating brain connectivity networks in major depressive disorder using classification-based scoring[C]// Proceedings of the 2014 IEEE International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE, 2014: 246-249.
[2] NIXON N L, LIDDLE P F, NIXON E, et al. Biological vulnerability to depression: linked structural and functional brain network findings[J]. British Journal of Psychiatry, 2014, 204(4): 283-289.
[3] PEREIRA F, MITCHELL T, BOTVINICK M. Machine learning classifiers and fMRI: a tutorial overview[J]. Neuroimage, 2009, 45(1): S199-S209.
[4] HAHN T, MARQUAND A F, EHLIS A C, et al. Integrating neurobiological markers of depression[J]. Archives of General Psychiatry, 2011, 68(4): 361-368.
[5] MULDERS P C, van EIJNDHOVEN P F, SCHENE A H, et al. Resting-state functional connectivity in major depressive disorder: A review[J]. Neuroscience and Biobehavioral Reviews, 2015, 56: 330-344.
[6] ANAND A, LI Y, WANG Y, et al. Activity and connectivity of brain mood regulating circuit in depression: a functional magnetic resonance study[J]. Biological Psychiatry, 2005, 57(10): 1079-1088.
[7] CRADDOCK R C, HOLTZHEIMER R P, HU X P, et al. Disease state prediction from resting state functional connectivity[J]. Magnetic Resonance in Medicine, 2010, 62(6): 1619-1628.
[8] GREICIUS M D, FLORES B H, MENON V, et al. Resting-state functional connectivity in major depression: abnormally increased contributions from subgenual cingulate cortex and thalamus[J]. Biological Psychiatry, 2007, 62(5): 429-437.
[9] 溫洪,郭浩,李越,等.重度抑郁癥患者腦功能網(wǎng)絡的分類研究[J].計算機應用研究,2013,30(8):2304-2307.(WEN H, GUO H, LI Y, et al. Classification of brain function networks in patients with major depression[J]. Application Research of Computers, 2013, 30(8): 2304-2307.)