貝葉斯網(wǎng)潛變量模型在抑郁患者單核苷酸多態(tài)性(SNPs)研究中的應(yīng)用*

2012-07-27 09:30:12張韶凱張巖波張克讓

中國(guó)衛(wèi)生統(tǒng)計(jì) 2012年5期

張韶凱張巖波△ 張克讓孫寧徐勇

復(fù)雜性狀疾病(complex diseases)是指由多種基因控制、遺傳因素與環(huán)境因素相互作用的疾病，如糖尿病、高血壓、抑郁癥等。人類基因組單體型結(jié)構(gòu)及應(yīng)用的研究，在過(guò)去幾年取得了很大進(jìn)步，但是仍存在很多問(wèn)題有待解決。伴隨單體型數(shù)據(jù)的劇增，更為迫切需要的是發(fā)展更為有效的設(shè)計(jì)與統(tǒng)計(jì)分析手段，從而在研究中考慮到更多的多態(tài)位點(diǎn)、更復(fù)雜的性狀、單體域間的連鎖、系譜信息等問(wèn)題，使得我們對(duì)單體型、單體域的研究更為有效與完善〔1〕。貝葉斯網(wǎng)潛變量分析既可以有效地體現(xiàn)單體型和高維SNPs的綜合效應(yīng)，又可以充分發(fā)揮貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)分析的特征，分析SNPs復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系，是分析大規(guī)模基因數(shù)據(jù)的一種有效的方法。本文采用基于貝葉斯(Bayesian)網(wǎng)絡(luò)的潛變量模型來(lái)進(jìn)行高維度基因組數(shù)據(jù)的分析。

資料與方法

1.資料來(lái)源

研究資料為山西醫(yī)科大學(xué)第一醫(yī)院抑郁障礙性疾病的單核苷酸多態(tài)性SNPs檢測(cè)數(shù)據(jù)，每個(gè)研究對(duì)象分別測(cè)量7個(gè)SNP，一共檢測(cè)了801個(gè)個(gè)體。SNPs檢測(cè)指標(biāo)見(jiàn)表1。

2.研究方法

采用Bayesian網(wǎng)絡(luò)的潛變量模型對(duì)數(shù)據(jù)進(jìn)行分析。分析工具采用LANTERN潛變量分析軟件，該軟件由香港科技大學(xué)計(jì)算機(jī)科學(xué)工程學(xué)系開(kāi)發(fā)。

(1)貝葉斯網(wǎng)潛類模型

貝葉斯網(wǎng)絡(luò)是變量之間概率依賴關(guān)系的一種圖形表示形式，每個(gè)節(jié)點(diǎn)代表一個(gè)隨機(jī)變量，結(jié)點(diǎn)之間的線表示結(jié)點(diǎn)間存在概率依賴關(guān)系，且依賴的程度是一個(gè)概率參數(shù)。貝葉斯網(wǎng)絡(luò)由網(wǎng)絡(luò)結(jié)構(gòu)和條件概率分布兩部分組成。貝葉斯網(wǎng)潛類模型是由潛變量和顯變量組成的貝葉斯網(wǎng)。在實(shí)際工作中，潛變量代表沒(méi)有觀測(cè)到的潛在因子，顯變量Y1，Y2…，Yn代表潛在因子的外部表現(xiàn)。比如X代表個(gè)人的“社會(huì)經(jīng)濟(jì)地位”，Y可以代表職業(yè)、學(xué)歷、收入等社會(huì)經(jīng)濟(jì)地位的的外在體現(xiàn)。變量X可以取不同的數(shù)值，這些不同的數(shù)值代表不同的類別，這些類別不能觀測(cè)到，所以稱之為潛在類別(latent class)。假如X代表的是“社會(huì)經(jīng)濟(jì)地位”，那么潛在類別就是“社會(huì)經(jīng)濟(jì)地位高(的人群)”、“社會(huì)經(jīng)濟(jì)地位低(的人群)”等。潛類模型與樸素貝葉斯模型具有相同的網(wǎng)絡(luò)結(jié)構(gòu)，不同的是潛類模型中的類別變量是潛變量，而樸素貝葉斯網(wǎng)模型中的類別變量是顯變量。

表1 抑郁障礙性疾病患者SNPs指標(biāo)

(2)潛類模型的可識(shí)別性

由于模型存在冗余部分，使得模型變得不可識(shí)別，所以應(yīng)當(dāng)盡量去掉這些冗余部分，得到一個(gè)最簡(jiǎn)約的模型。一個(gè)模型是否為最簡(jiǎn)模型，可以用正則性來(lái)判斷。Goodman(1974)提出在潛類模型中，如果其潛變量的個(gè)數(shù)|X|和其顯變量的個(gè)數(shù)|Yi|(i=1，2，…，n)滿足如下關(guān)系〔2〕:

則稱潛類模型是正則的。

新動(dòng)能就是新一輪科技革命和產(chǎn)業(yè)變革中形成的經(jīng)濟(jì)社會(huì)發(fā)展新動(dòng)力，包括新技術(shù)、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式等等。舊動(dòng)能是指低效率、低質(zhì)量、高耗能、高污染的傳統(tǒng)產(chǎn)業(yè)和傳統(tǒng)經(jīng)營(yíng)管理模式。新舊動(dòng)能轉(zhuǎn)換就是通過(guò)新的科技革命和產(chǎn)業(yè)變革中形成經(jīng)濟(jì)社會(huì)發(fā)展新動(dòng)力，用新技術(shù)、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式等轉(zhuǎn)換更迭傳統(tǒng)以資源和政府為導(dǎo)向的經(jīng)濟(jì)發(fā)展模式。新舊動(dòng)能轉(zhuǎn)換既來(lái)自“無(wú)中生有”的新技術(shù)、新業(yè)態(tài)、新模式，也來(lái)自“有中出新”的傳統(tǒng)產(chǎn)業(yè)改造升級(jí)。兩者相輔相成、有機(jī)統(tǒng)一。

(3)潛類模型學(xué)習(xí)

潛類模型學(xué)習(xí)是從一組顯變量數(shù)據(jù)Y1，Y2，…，Yn，出發(fā)，確定兩方面內(nèi)容:①潛變量的類別;②潛變量X的概率分布P(X)及每個(gè)顯變量的條件概率P(Yi/X)。確定潛變量的類別等于確定潛類的個(gè)數(shù)，確定P(X)及P(Yi/X)就是確定每個(gè)潛類的統(tǒng)計(jì)特性。因此，潛類分析可以看作是一種基于模型的聚類分析〔3〕。

(4)參數(shù)估計(jì)

貝葉斯網(wǎng)參數(shù)學(xué)習(xí)是指對(duì)于給定的貝葉斯網(wǎng)模型結(jié)構(gòu)η和數(shù)據(jù)集D，利用先驗(yàn)知識(shí)確定貝葉斯網(wǎng)絡(luò)模型各節(jié)點(diǎn)的條件概率θ。常見(jiàn)的參數(shù)學(xué)習(xí)方法對(duì)貝葉斯網(wǎng)絡(luò)和數(shù)據(jù)集做了一些假定〔4〕:①變量是類別變量;②全局和局部獨(dú)立;③樣本獨(dú)立同分布。常用的貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)方法有最大似然估計(jì)、貝葉斯估計(jì)和期望最大化算法。

(5)模型的選擇

評(píng)分函數(shù)是用來(lái)指導(dǎo)模型選擇的標(biāo)準(zhǔn)。設(shè)η是數(shù)據(jù)D的一個(gè)貝葉斯?jié)撟兞磕Ｐ?，模型η相?duì)于數(shù)據(jù)D擬合的優(yōu)劣可以用評(píng)分函數(shù)來(lái)衡量，即以評(píng)分函數(shù)作為標(biāo)準(zhǔn)來(lái)選擇模型。潛變量模型常用的評(píng)分有BIC，AIC，HVL，BICe，CS 等〔5-6〕。

(6)模型優(yōu)化

結(jié)果分析

經(jīng)過(guò)分析后得到的最優(yōu)貝葉斯網(wǎng)潛變量模型結(jié)構(gòu)，模型中含有一個(gè)潛變量X，X的類別為2，表示綜合考慮7個(gè)SNPs的整體效應(yīng)，可以將人群總的分為兩類，每個(gè)類別代表不同特征的人群。模型中與潛變量相連的7個(gè)SNPs為顯變量，它們與潛變量的關(guān)系由每一條直線表示，線的粗細(xì)代表每個(gè)SNP與潛變量X的兩兩互信息，即與X的相關(guān)度，線越粗，代表互信息量越大，與潛變量X的關(guān)系越密切。從得到的模型結(jié)構(gòu)圖中可以看出，與潛變量X關(guān)系最為密切的SNP為rs11568817和 rs130058，其次為 rs6298，其余的 SNPs與潛變量X的相關(guān)度比較小。

圖1是包含每個(gè)SNP與潛變量X的互信息和累積信息覆蓋度的信息曲線。為了解釋潛變量X的含義，LANTERN會(huì)選取若干個(gè)與潛變量X相關(guān)度最高的顯變量，并基于這些顯變量來(lái)進(jìn)行解釋。累積信息覆蓋度決定了所得到的解釋結(jié)果覆蓋了多少潛變量X所包含的信息。累積信息覆蓋度越高，選取的顯變量就越多，解釋結(jié)果所覆蓋的潛變量X的信息也就越多，但是，隨著模型選取的顯變量個(gè)數(shù)的增加，所得到的解釋結(jié)果也就越復(fù)雜。因此，在一般情況下，累積信息覆蓋度的默認(rèn)值選為95%。

圖1 各SNP的信息曲線

為考察每個(gè)SNP的互信息，將所有的SNPs都納入，因此信息覆蓋度達(dá)100，重復(fù)抽樣次數(shù)默認(rèn)值10000，分析得到圖1中的信息曲線圖。圖中橫軸從左到右是7個(gè)SNPs顯變量，左側(cè)的縱軸是互信息的絕對(duì)值，右側(cè)的縱軸則是信息覆蓋度的大小。下方的曲線是各顯變量與潛變量X的兩兩互信息或者相關(guān)度的大小。從左到右，各顯變量X與潛變量的相關(guān)度呈下降趨勢(shì)。上方的曲線是當(dāng)截取到各顯變量時(shí)它們與潛變量X的累積互信息的大小。顯然，截取的顯變量越多，累積互信息越大，但是到達(dá)一定程度時(shí)，累積互信息量不再增加。從數(shù)據(jù)分析后得到的信息曲線可以看出，兩兩互信息量最大的SNP是rs1156881，其次是rs130058和rs6298，其余的SNPs與潛變量的互信息量很小。各個(gè)SNPs的信息情況見(jiàn)表2。從表中可以看出，rs1156881與rs130058兩者的累積互信息量就能夠達(dá)到95%以上，rs5569，rs2242446，rs6295與 rs6313幾乎不提供任何信息，說(shuō)明這些SNPs的在診斷抑郁癥方面的價(jià)值不大。

表3-4是各SNP在潛變量X中的類概率分布表。表3是潛變量X的類別為1時(shí)各SNP的類概率分布，潛變量X的先驗(yàn)類別概率為0.216，表4是潛變量X的類別為2時(shí)各SNP的類概率分布，潛變量X的先驗(yàn)類別概率為0.784。類概率分布解釋了潛變量與顯變量之間的關(guān)系，可以幫助研究者解釋潛變量各類別的內(nèi)容和性質(zhì)〔7〕。潛變量X的各類別概率總和為1。本例中潛變量第二個(gè)類別所占的比重(0.784)遠(yuǎn)大于第一個(gè)類別的比重(0.216)，超過(guò)全體樣本的一半，說(shuō)明潛變量的第二個(gè)類別對(duì)7個(gè)SNPs的影響較大。具體到每一個(gè) SNP中，由于 rs5569，rs2242446，rs6295與rs6313的信息量為0，所以可以判斷這4個(gè)SNPs在兩組之間的類概率分布差異應(yīng)該不明顯，而從它們的類概率分布表中得出的結(jié)論與此一致。比如rs613，它在潛變量類別為1時(shí)的條件概率分別為0.23，0.50和0.27，在潛變量類別為2時(shí)的條件概率分別為0.22，0.50和0.27，基本上是一樣的，因此，潛變量在這個(gè)SNP上并不具有特異性，即該SNP并不能作為劃分抑郁癥病人類別的依據(jù)。其余3個(gè)信息量為0的 SNPs與rs613類似。相反，rs11568817，rs130058和rs6298的類概率分布在潛變量的不同類別上存在差異，這與它們的互信息量的大小也是一致的，我們可以根據(jù)這三個(gè)SNPs來(lái)對(duì)所有的抑郁癥病人進(jìn)行合理歸類。從表4可以看出，導(dǎo)致我們潛變量模型中潛在類別含義不同的正是從屬于HTR1B基因(5-羥色胺受體1B基因)的3個(gè)SNPs。

表2 各SNP的信息情況

表3 各SNP的類概率分布表(X=1，先驗(yàn)概率=0.216)

表4 各SNP的類概率分布表(X=2，先驗(yàn)概率=0.784)

按照累積信息覆蓋度達(dá)95% 的原則，rs11568817和rs130058的累積信息覆蓋度達(dá)到98%，能夠解釋潛變量幾乎所有的信息，因此我們選取這兩個(gè)SNPs來(lái)對(duì)抑郁癥患者進(jìn)行合理的聚類與解釋。在潛變量X潛在類別為1的條件下，rs11568817和rs130058第2個(gè)狀態(tài)的條件概率分別為0.92和0.76，條件概率值遠(yuǎn)遠(yuǎn)大于其它類別的條件概率值，因此，潛變量XX在第一個(gè)類別上反映的是這兩個(gè)SNPs第二個(gè)狀態(tài)的信息。rs11568817第二個(gè)狀態(tài)為GT，rs130058第二個(gè)狀態(tài)為AT，都為雜合子，所以，在潛在類別為1的抑郁癥患者的SNPs中，以含rs11568817和rs130058的雜合子為主，此類患者占總患者人數(shù)的22%;在潛變量X潛在類別為2的條件下，rs11568817第三個(gè)狀態(tài)的條件概率值為0.98，rs130058第一個(gè)狀態(tài)的條件概率值為1，遠(yuǎn)大于各自SNP其它狀態(tài)的條件概率，因此潛變量X在第二個(gè)類別上綜合反映的是rs11568817第三個(gè)狀態(tài)和rs130058第一個(gè)狀態(tài)的信息。rs11568817第三個(gè)狀態(tài)為T(mén)T，rs130058第一個(gè)狀態(tài)為AA，都為純合子，所以，在潛在類別為2的抑郁癥患者的SNPs中，以含rs11568817和rs130058的純合子為主，此類患者占總患者人數(shù)的78%。

討論

實(shí)例分析中根據(jù)抑郁癥患者的7個(gè)SNPs，將患者分為兩個(gè)潛在類別。這兩個(gè)類別分別代表不同特征的抑郁癥患者，據(jù)此可以探索SNPs的整體效應(yīng)，比如這些患者可能有不同藥物的反應(yīng)，不同的行為特征等。實(shí)現(xiàn)在SNPs變量水平上的降維和個(gè)體水平上的聚類以后，根據(jù)不同患者類別的不同特征，可以針對(duì)性的采取不同的個(gè)性化治療方案。

除了對(duì)被研究的患者進(jìn)行分類以外，我們還能利用得到的貝葉斯網(wǎng)潛變量模型對(duì)新加入的患者進(jìn)行歸類。歸類的方法是考慮新加入患者的每個(gè)SNPs狀態(tài)，將這些狀態(tài)賦值以后，代入到貝葉斯網(wǎng)潛變量模型中，模型會(huì)根據(jù)這些狀態(tài)的具體情況，獲得概率預(yù)測(cè)值，將新加入患者進(jìn)行歸類，為基因治療提供重要依據(jù)。

單核苷酸基因多態(tài)性與單體型的研究在探討復(fù)雜性疾病的遺傳機(jī)理，遺傳風(fēng)險(xiǎn)與藥物反應(yīng)不同中有著重要的意義，已經(jīng)成為了許多領(lǐng)域研究的焦點(diǎn)。基于貝葉斯網(wǎng)絡(luò)的潛變量模型為多基因，多位點(diǎn)SNPs數(shù)據(jù)的分析提供了一種新的思路。貝葉斯網(wǎng)潛變量分析可以有效的體現(xiàn)高維度SNPs的整體效應(yīng)，充分發(fā)揮貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)分析的特征來(lái)分析SNPs與疾病之間復(fù)雜的結(jié)構(gòu)關(guān)系，是分析高維基因數(shù)據(jù)的一種有效方法。

此外，貝葉斯網(wǎng)潛變量模型研究結(jié)果可以用多種方式陳列，從不同側(cè)面反映數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，結(jié)果解釋簡(jiǎn)單，并且通過(guò)類概率分布情況，我們可以一目了然的看出各類別概率。

1.李婧，潘玉春，李亦學(xué)，等.人類基因組單核苷酸多態(tài)性和單體型的分析及應(yīng)用.遺傳學(xué)報(bào)，2005，32(8):879-889.

2.Goodman L A.Exploratory latent structure analysis using both identifiable and unidentifiable models.Biometrika，1974(61):215-231.

3.張巖波.潛變量分析.北京:高等教育出版社，2009.

4.張連文，郭海鵬.貝葉斯網(wǎng)引論.北京:科學(xué)出版社，2006，204-220.

5.Geiger D，Heckerman D，et al.Asymptotic model selection for directed networks with hidden variables.In Proceedings of the twelfth annual conference on uncertainty in artificial intelligence(UAI-96).San Francisco:Morgan Kaufmann Publishers，1996:283-290.

6.Cheesman P，Stutz J.Bayesion classification:Theory and results.In PSUM Fayyad G piatetsky Shapiro，R Uthrusamy，editors.Advances in Knowledge Discovery and Data Mining.Menlo Park:The AAAI Press，1995:153-180.

7.裴磊磊，張巖波，張克讓，等.抑郁癥單核苷酸多態(tài)性(SNPs)分布特征的潛在類別分析.中國(guó)衛(wèi)生統(tǒng)計(jì)，2010，27(1):7-10.

貝葉斯網(wǎng)潛變量模型在抑郁患者單核苷酸多態(tài)性(SNPs)研究中的應(yīng)用*

資料與方法

結(jié)果分析

討 論

討論