謝忠翔,武杰
上海理工大學(xué) 醫(yī)療器械與食品學(xué)院(上海, 200093)
精神分裂癥作為一種基因遺傳疾病,其臨床表現(xiàn)往往癥狀各異,涉及感知覺、 思維、 情感和行為等多方面的障礙以及精神活動的不協(xié)調(diào)。有關(guān)精神分裂癥研究的結(jié)果表明[1-2],受干擾的工作記憶和相關(guān)的前額皮質(zhì)激活可能是兩種受基因影響的疾病易感指標(biāo)。然而,人們對這些功能障礙的遺傳決定因素知之甚少,大多數(shù)遺傳研究關(guān)注的只是特定的基因或感興趣的單核苷酸多態(tài)性(SNP)。傳統(tǒng)的對精神分裂癥的研究大多是在單一模態(tài)(功能磁共振成像、 結(jié)構(gòu)磁功能成像等)下進(jìn)行的,每一種成像方式都只提供了有限的大腦信息,這樣采集到信息就不夠全面,無法利用不同模態(tài)的交叉信息來得出更有效的結(jié)論。
近年來,影像遺傳學(xué)已經(jīng)逐漸成為研究腦功能與基因相關(guān)性的一個有力和敏感的方法[1]。影像遺傳學(xué)方法[3-5],通過觀察和量化在遺傳背景下的腦激活模式,綜合神經(jīng)影像和遺傳學(xué)來研究兩者的不同優(yōu)勢,用腦影像結(jié)果整合基因型信息能幫助識別腦功能水平上的候選基因的功能。影像遺傳學(xué)方法在精神分裂癥的研究中尤為重要。
在本文中,我們使用一種并行獨(dú)立成分分析(Parallel ICA,PICA)方法,同時(shí)分析精神分裂癥患者和健康者(對照組)的fMRI圖像和遺傳信息,提取隱藏的交叉信息,從而揭示遺傳因素對大腦功能的影響[6]。這種方法涉及到三個需解決的問題[7-9]:(1)找到與精神分裂癥相關(guān)的腦功能區(qū); (2)識別與精神分裂癥相關(guān)的SNP; (3)找出與精神分裂癥相關(guān)的SNP和腦功能區(qū)域之間的相關(guān)性。
獨(dú)立成分分析(Independent Component Analysis, ICA)是一種統(tǒng)計(jì)和計(jì)算技術(shù)[8],用于恢復(fù)隱藏的獨(dú)立因素或隨機(jī)變量。ICA的優(yōu)點(diǎn)是它能夠在不需要預(yù)先了解這些因素的特性的情況下,揭示各種因素。ICA已經(jīng)應(yīng)用于fMRI數(shù)據(jù)的分析,以發(fā)現(xiàn)在某些腦區(qū)大腦的獨(dú)立成分。同樣,ICA也是一種合理的方法,可以用來發(fā)現(xiàn)存儲在基因中的未知但重要的信息。
X=A·S;Z=W·X;
IfW=A-1, themZ=S
(1)
式(1)為基本ICA模型,它定義了所觀察數(shù)據(jù)的生成模型,觀察到的變量被假定為一些未知潛在變量的線性混合,混合系統(tǒng)也未知。潛在變量被假定為非高斯分布和相互獨(dú)立[9],它們被稱為觀測數(shù)據(jù)的獨(dú)立成分。式(1)中,X是一個觀測矩陣,可以由諸如fMRI圖像或SNP等組成。S包含獨(dú)立的成分,如大腦激活圖等。A是一個線性混合矩陣,將源與受干擾的測量數(shù)據(jù)聯(lián)系起來,W是一個解混矩陣。如果W等于A的逆,那么Z(估計(jì)的成分矩陣)等于S(源矩陣)。因此,ICA的本質(zhì)是找到W,使Z盡可能接近包含在S中的真正獨(dú)立成分。
對于ICA,有許多基于不同獨(dú)立標(biāo)準(zhǔn)的算法,其中,信息極大化原則[10](Infomax)算法通過最大化的熵函數(shù)來尋找W矩陣。
獨(dú)立成分分析通常用于處理單個數(shù)據(jù)類型,揭示數(shù)據(jù)集中嵌入的因素,而不需要事先知道這些因素的特性。并行獨(dú)立成分分析(Parallel Independent Component Analysis,PICA)可以同時(shí)容納兩種數(shù)據(jù)類型,能夠揭示每種數(shù)據(jù)類型的獨(dú)立成分,并評估這些成分之間的相關(guān)性。
PICA需要同時(shí)解決三個問題,其中兩項(xiàng)涉及到兩種數(shù)據(jù)類型的成分之間的獨(dú)立性最大化,第三項(xiàng)是確定兩數(shù)據(jù)類型獨(dú)立成分之間的相關(guān)性。PICA方法是基于Infomax算法的,它利用互熵的最大化來最大限度地實(shí)現(xiàn)成分間的獨(dú)立性[11],而對于不同數(shù)據(jù)類型的成分之間的相關(guān)性,則是通過增加一個相關(guān)性平方最大化的約束項(xiàng)來確定的。例如,在本研究中,我們試圖找到一種數(shù)據(jù)類型的列向量與另一數(shù)據(jù)類型的列向量之間的相關(guān)性,正如圖1所示。
圖1 PICA理論框架Fig.1 Theoretical framework of PICA
為了便于說明,我們設(shè)定每個數(shù)據(jù)類型中只有一個成分受到約束。
(2)
其中,Corr為相關(guān)函數(shù),Cov是協(xié)方差函數(shù),Std是標(biāo)準(zhǔn)偏差函數(shù),i和j是分量的指數(shù)。
約束項(xiàng)是兩種數(shù)據(jù)類型之間的橋梁,它是PICA的本質(zhì)[6],不同于兩個完全獨(dú)立的ICA優(yōu)化,約束的適當(dāng)優(yōu)化在收斂和避免過擬合中起著關(guān)鍵的作用。我們采用以下兩種策略來進(jìn)行約束優(yōu)化: (1)動態(tài)強(qiáng)制連接; (2)自適應(yīng)學(xué)習(xí)速率。
對于動態(tài)強(qiáng)制連接[7-8],我們允許PICA約束在優(yōu)化過程中變化。在一個相關(guān)性大于0.3的經(jīng)驗(yàn)假設(shè)下,在每一步迭代中選擇相關(guān)性滿足條件的任意一對獨(dú)立成分(一個獨(dú)立成分在每一步迭代中只能選擇一次),并通過約束來強(qiáng)調(diào)相關(guān)性。因此,根據(jù)它們的并行性質(zhì),受約束的關(guān)聯(lián)可以在不斷的迭代中變化,這種靈活性允許約束在算法收斂時(shí)動態(tài)地優(yōu)化。
我們采用的第二種策略是自適應(yīng)學(xué)習(xí)速率,不斷改變代價(jià)函數(shù)中三項(xiàng)的學(xué)習(xí)速率。自適應(yīng)改變學(xué)習(xí)速率的原因有兩方面: (1)這三個項(xiàng)具有不同的特征,所以它們會以不同的速率收斂。然而,它們也會相互影響,如果其中一個項(xiàng)占據(jù)主導(dǎo)地位,那么學(xué)習(xí)將是次優(yōu)的。為了彌補(bǔ)這一點(diǎn),我們?yōu)槊恳粋€項(xiàng)分配一個學(xué)習(xí)速率并同步更新它們。(2)通過自適應(yīng)地調(diào)整關(guān)聯(lián)項(xiàng)的學(xué)習(xí)速率,以減輕過擬合。
最后的最大化代價(jià)函數(shù)顯示在式(3)中。
max{H(Y1)+H(Y2)+Corr(A1,A2)2}
(2)
其中,U是評估的獨(dú)立源,W是解混矩陣。為了滿足校正準(zhǔn)則,我們通過使用自然梯度的最大化來實(shí)現(xiàn)W矩陣的校正。其中i和j表示在每個最大化迭代中選擇的約束成分,這兩個指標(biāo)可以根據(jù)最大化過程而變化。因此,該算法能夠適應(yīng)不斷更新的成分。在最大化函數(shù)式(3)中,這三個項(xiàng)有不同的特點(diǎn)。為了使兩個熵同樣最大化,我們只需將前兩項(xiàng)與兩種學(xué)習(xí)速率同時(shí)進(jìn)行最大化,利用自然梯度最大化; 第三項(xiàng)采用最陡下降法進(jìn)行優(yōu)化,并且通過在選定的兩個成分上每一次迭代來計(jì)算步長。最終,該算法確定了: (1)最優(yōu)W矩陣; (2)兩類數(shù)據(jù)的獨(dú)立成分; (3)兩類數(shù)據(jù)獨(dú)立成分之間的相關(guān)性。
在這項(xiàng)研究中,從63名受試者中收集了fMRI和SNP兩種類型的數(shù)據(jù),其中包括20名精神分裂癥患者和43名健康對照組?;颊吣挲g在39歲至54歲之間,健康對照組的年齡從21歲到83歲不等。在43例健康對照中,有21名女性和22名男性參與者,3名女性和17名男性精神分裂癥患者。在納入研究之前,對所有受試者進(jìn)行了篩選,以美國DSM-IV精神分裂癥診斷標(biāo)準(zhǔn)來診斷[12]。
功能磁共振成像掃描通過使用梯度回波平面成像獲得,使用以下參數(shù): 重復(fù)時(shí)間=1.50 s、 回波時(shí)間=27 ms,視野=24 cm, 采集矩陣=64×64, 翻轉(zhuǎn)角度=70°,體素的大小=3.75×3.75×4 mm3,層厚=4 mm,間隙=1 mm,一共采集29層。
對影像和基因數(shù)據(jù)運(yùn)用PICA方法進(jìn)行處理,PICA算法的過程如下:
(1) 分別對fMRI和SNP數(shù)據(jù)進(jìn)行分析,并分別用指定的學(xué)習(xí)速率進(jìn)行初始化;
(2) 如果有必要的話,兩個W矩陣需根據(jù)它們各自的熵項(xiàng)來更新;
(3) 對兩類數(shù)據(jù)各自的W矩陣優(yōu)化停止標(biāo)準(zhǔn)進(jìn)行評估。如果兩個尋優(yōu)過程都滿足標(biāo)準(zhǔn),那么整個PICA過程就停止了。如果只有一個過程滿足該標(biāo)準(zhǔn),那么該模態(tài)的迭代就停止,相應(yīng)的W矩陣也就完成了;
(4) 依據(jù)最高的相關(guān)性,選出與每個fMRI成分相關(guān)的SNP成分;
(5) 如果需要的話,兩個W矩陣都根據(jù)相關(guān)項(xiàng)來更新。之后,返回步驟(2)。
為了避免因過擬合導(dǎo)致的錯誤發(fā)現(xiàn),我們運(yùn)用留一檢測法(Leave-one-out Evaluation)來測試結(jié)果的精確度。由于本論文實(shí)驗(yàn)中所涉及的受試者只有63名,因此,在同一參數(shù)設(shè)置下,我們使用PICA進(jìn)行63次測試,每次62人(包括一個不同的受試者)。最后,對63次測試的一致性進(jìn)行評估。
對于63個受試者處理后的fMRI數(shù)據(jù)的獨(dú)立成分?jǐn)?shù)量為5個,SNP數(shù)據(jù)的獨(dú)立成分?jǐn)?shù)量為7個。
我們對兩類數(shù)據(jù)處理得到的獨(dú)立成分進(jìn)行統(tǒng)計(jì)學(xué)顯著性檢驗(yàn),找出其中與精神分裂癥相關(guān)的獨(dú)立成分,排除不相關(guān)成分。
表1 fMRI和SNP成分的P值Tab.1 The P-value of fMRI and SNP component
圖2 fMRI的No.3、No.4獨(dú)立成分Fig.2 No.3 and No.4 Independent components of fMRI
根據(jù)表1中fMRI和SNP成分的P值,我們找到了與精神分裂癥相關(guān)的No.3 fMRI成分、 No.4 fMRI成分以及No.6 SNP成分(該SNP成分顯示在圖3中)。
結(jié)合腦AAL模型,我們可以從圖2中發(fā)現(xiàn): 與精神分裂癥相關(guān)的腦功能區(qū)有: 楔前葉、 舌回、 楔葉、 枕顳內(nèi)側(cè)回、 頂上小葉、 中央后回、 枕下回、 額上回、 額內(nèi)側(cè)回、 顳上回。
在與精神分裂癥相關(guān)的fMRI成分和SNP成分中,其中一個fMRI成分和一個SNP成分之間的相關(guān)性最高,相關(guān)系數(shù)為0.375 4。為了便于直觀顯示,在這兩個相關(guān)聯(lián)的fMRI成分和SNP成分中,只顯示fMRI中高激活區(qū)域和重要的SNPs。
圖3 與SNP相關(guān)的fMRI腦區(qū)Fig.3 Brain regions of fMRI associated with SNP
圖3顯示了來自20個精神分裂癥患者和43個健康對照者的fMRI數(shù)據(jù)和367個SNPs的PICA處理分析的結(jié)果。左邊的圖表示提取出的相關(guān)聯(lián)的fMRI成分,紅色和藍(lán)色分別代表正激活和負(fù)激活,數(shù)值表示腦功能區(qū)被激活的程度大小。右上角的圖表示所有受試者的No.3 fMRI成分和SNP成分的混合系數(shù)。右下角表示其中提取出的相關(guān)聯(lián)的SNP成分的具體信息。
該fMRI成分最大的部分位于楔前葉,第2個區(qū)域是舌回,第3個區(qū)域是楔葉。相關(guān)SNP成分主要在以下編碼基因中: 芳香族L-胺基酸類脫羧基酶基因(AADC),α-2A腎上腺素能受體基因(ADRA2A),α-7煙堿乙酰膽堿能受體基因(CHRNA7), DISC1,SCARB1,GNAO1,APOC3,CHRM3。
為了避免因過擬合導(dǎo)致的錯誤發(fā)現(xiàn),我們用留一檢測法來檢測結(jié)果的精確度,對63次測試的一致性進(jìn)行評估。如圖4顯示,在63次的評估數(shù)據(jù)中,這些fMRI和SNP成分之間的相關(guān)性是0.37±0.07。
圖4 相關(guān)性矩陣Fig.4 Correlation matrix
我們使用了一種分析影像遺傳學(xué)的方法,以研究腦功能區(qū)與基因之間的相關(guān)性。該方法可以評估基因遺傳對外表型的影響,如與精神障礙有關(guān)的腦功能。
本實(shí)驗(yàn)中,我們對63個受試者的fMRI數(shù)據(jù)和SNP數(shù)據(jù)進(jìn)行了處理,用PICA方法提取出了兩類數(shù)據(jù)的獨(dú)立成分,并通過統(tǒng)計(jì)學(xué)方法篩選出其中與精神分裂癥相關(guān)的成分,同時(shí)找到相關(guān)性最大的fMRI成分和SNP成分。該fMRI成分主要包括楔前葉、 舌回、 楔葉這三個腦區(qū),其中楔前葉與許多高水平的認(rèn)知功能有關(guān),如情景記憶,自我相關(guān)的信息處理,以及意識的各個方面; 舌回有兩大功能,一為視覺加工,二為單詞加工; 楔葉則是在記憶檢索中起到很重要的作用[13-14]。相關(guān)的SNPs主要位于的基因包括芳香族L-胺基酸類脫羧基酶基因(AADC)、 α-2A腎上腺素能受體基因(ADRA2A)、 α-7煙堿乙酰膽堿能受體基因(CHRNA7)、 DISC1、 SCARB1、 GNAO1、 APOC3和CHRM3。其中,CHRNA7和DISC1則是著名的精神分裂癥易感基因[14]; AADC基因上的單核苷酸多態(tài)性已被證實(shí)與神經(jīng)精神障礙有關(guān)[15]; 由ADRA2A基因編碼的α-2A腎上腺素能受體主要調(diào)節(jié)由交感神經(jīng)和腎上腺素能神經(jīng)元釋放的神經(jīng)遞質(zhì),在中樞神經(jīng)系統(tǒng)功能調(diào)解中起著重要的作用,在以往的研究中也被發(fā)現(xiàn)與精神分裂癥相關(guān)[16-17]; 對精神分裂癥的候選基因的分子遺傳分析顯示: CHRNA7基因位于一個被認(rèn)為與精神分裂癥遺傳傳播有關(guān)的染色體位置[18]; DISC1與神經(jīng)異常有關(guān),如妄想、 長期工作記憶缺失、 海馬和前額區(qū)域灰質(zhì)體積的減少等,而這些異常也是精神分裂癥的癥狀[19]; GNAO1基因的突變已被證明可引起癲癇性腦病[20]。
本研究的結(jié)果表明了特定區(qū)域腦功能與所選基因之間的相關(guān)性,為預(yù)測和診斷精神分裂癥提供了一個更精確的方法。采用檢測到的精神分裂癥生物學(xué)指標(biāo)對處于高危狀態(tài)(有精神分裂癥家史)的青少年人群進(jìn)行篩查,可以對將來可能患精神分裂癥的青少年進(jìn)行預(yù)測并進(jìn)行早期干預(yù)(心理干預(yù)或藥物干預(yù)),將有助于改善預(yù)后。
綜上所述,我們使用了一種可以同時(shí)處理兩類高維數(shù)據(jù)的方法,能夠找到與精神分裂癥相關(guān)的獨(dú)立成分以及這些成分之間的相關(guān)性。
作為一種多模態(tài)數(shù)據(jù)處理方法,PICA方法除了能夠處理fMRI和Gene數(shù)據(jù)類型,提取出fMRI和Gene的獨(dú)立成分,找到基因與腦功能區(qū)的相關(guān)性,還能夠處理sMRI和EEG數(shù)據(jù)類型,比如: 用PICA方法處理sMRI和Gene數(shù)據(jù)類型,找到基因與腦功能結(jié)構(gòu)之間的關(guān)聯(lián); 或者用PICA方法處理fMRI和EEG數(shù)據(jù)類型,找出腦功能區(qū)域與心電圖之間的聯(lián)系等等。同樣,PICA方法所適用的范圍也不僅僅局限于研究精神分裂癥的影像遺傳學(xué)特征,還能夠用來研究阿爾茨海默病、 抑郁癥等。
在我們研究了fMRI和遺傳成分的特征后,與精神分裂癥相關(guān)的變化和已知的這種疾病的功能障礙是一致的。例如,頂葉(楔前葉、 頂葉上回)和額葉上皮層的異常通常發(fā)生在精神分裂癥的異常部位。此外,如前所述,CHRNA7、 DISC1被認(rèn)為是精神分裂癥易感性和大腦功能結(jié)構(gòu)改變的候選基因。然而,為了證實(shí)這些基因與特定大腦區(qū)域的功能以及它們與精神分裂癥的相關(guān)性之間的聯(lián)系,同樣的方法需要應(yīng)用于更大范圍的受試者群體。