張韶凱 張巖波△ 張克讓 孫 寧 徐 勇
復(fù)雜性狀疾病(complex diseases)是指由多種基因控制、遺傳因素與環(huán)境因素相互作用的疾病,如糖尿病、高血壓、抑郁癥等。人類基因組單體型結(jié)構(gòu)及應(yīng)用的研究,在過(guò)去幾年取得了很大進(jìn)步,但是仍存在很多問(wèn)題有待解決。伴隨單體型數(shù)據(jù)的劇增,更為迫切需要的是發(fā)展更為有效的設(shè)計(jì)與統(tǒng)計(jì)分析手段,從而在研究中考慮到更多的多態(tài)位點(diǎn)、更復(fù)雜的性狀、單體域間的連鎖、系譜信息等問(wèn)題,使得我們對(duì)單體型、單體域的研究更為有效與完善〔1〕。貝葉斯網(wǎng)潛變量分析既可以有效地體現(xiàn)單體型和高維SNPs的綜合效應(yīng),又可以充分發(fā)揮貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)分析的特征,分析SNPs復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系,是分析大規(guī)模基因數(shù)據(jù)的一種有效的方法。本文采用基于貝葉斯(Bayesian)網(wǎng)絡(luò)的潛變量模型來(lái)進(jìn)行高維度基因組數(shù)據(jù)的分析。
1.資料來(lái)源
研究資料為山西醫(yī)科大學(xué)第一醫(yī)院抑郁障礙性疾病的單核苷酸多態(tài)性SNPs檢測(cè)數(shù)據(jù),每個(gè)研究對(duì)象分別測(cè)量7個(gè)SNP,一共檢測(cè)了801個(gè)個(gè)體。SNPs檢測(cè)指標(biāo)見(jiàn)表1。
2.研究方法
采用Bayesian網(wǎng)絡(luò)的潛變量模型對(duì)數(shù)據(jù)進(jìn)行分析。分析工具采用LANTERN潛變量分析軟件,該軟件由香港科技大學(xué)計(jì)算機(jī)科學(xué)工程學(xué)系開(kāi)發(fā)。
(1)貝葉斯網(wǎng)潛類模型
貝葉斯網(wǎng)絡(luò)是變量之間概率依賴關(guān)系的一種圖形表示形式,每個(gè)節(jié)點(diǎn)代表一個(gè)隨機(jī)變量,結(jié)點(diǎn)之間的線表示結(jié)點(diǎn)間存在概率依賴關(guān)系,且依賴的程度是一個(gè)概率參數(shù)。貝葉斯網(wǎng)絡(luò)由網(wǎng)絡(luò)結(jié)構(gòu)和條件概率分布兩部分組成。貝葉斯網(wǎng)潛類模型是由潛變量和顯變量組成的貝葉斯網(wǎng)。在實(shí)際工作中,潛變量代表沒(méi)有觀測(cè)到的潛在因子,顯變量Y1,Y2…,Yn代表潛在因子的外部表現(xiàn)。比如X代表個(gè)人的“社會(huì)經(jīng)濟(jì)地位”,Y可以代表職業(yè)、學(xué)歷、收入等社會(huì)經(jīng)濟(jì)地位的的外在體現(xiàn)。變量X可以取不同的數(shù)值,這些不同的數(shù)值代表不同的類別,這些類別不能觀測(cè)到,所以稱之為潛在類別(latent class)。假如X代表的是“社會(huì)經(jīng)濟(jì)地位”,那么潛在類別就是“社會(huì)經(jīng)濟(jì)地位高(的人群)”、“社會(huì)經(jīng)濟(jì)地位低(的人群)”等。潛類模型與樸素貝葉斯模型具有相同的網(wǎng)絡(luò)結(jié)構(gòu),不同的是潛類模型中的類別變量是潛變量,而樸素貝葉斯網(wǎng)模型中的類別變量是顯變量。
表1 抑郁障礙性疾病患者SNPs指標(biāo)
(2)潛類模型的可識(shí)別性
由于模型存在冗余部分,使得模型變得不可識(shí)別,所以應(yīng)當(dāng)盡量去掉這些冗余部分,得到一個(gè)最簡(jiǎn)約的模型。一個(gè)模型是否為最簡(jiǎn)模型,可以用正則性來(lái)判斷。Goodman(1974)提出在潛類模型中,如果其潛變量的個(gè)數(shù)|X|和其顯變量的個(gè)數(shù)|Yi|(i=1,2,…,n)滿足如下關(guān)系〔2〕:
則稱潛類模型是正則的。
新動(dòng)能就是新一輪科技革命和產(chǎn)業(yè)變革中形成的經(jīng)濟(jì)社會(huì)發(fā)展新動(dòng)力,包括新技術(shù)、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式等等。舊動(dòng)能是指低效率、低質(zhì)量、高耗能、高污染的傳統(tǒng)產(chǎn)業(yè)和傳統(tǒng)經(jīng)營(yíng)管理模式。新舊動(dòng)能轉(zhuǎn)換就是通過(guò)新的科技革命和產(chǎn)業(yè)變革中形成經(jīng)濟(jì)社會(huì)發(fā)展新動(dòng)力,用新技術(shù)、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式等轉(zhuǎn)換更迭傳統(tǒng)以資源和政府為導(dǎo)向的經(jīng)濟(jì)發(fā)展模式。新舊動(dòng)能轉(zhuǎn)換既來(lái)自“無(wú)中生有”的新技術(shù)、新業(yè)態(tài)、新模式,也來(lái)自“有中出新”的傳統(tǒng)產(chǎn)業(yè)改造升級(jí)。兩者相輔相成、有機(jī)統(tǒng)一。
(3)潛類模型學(xué)習(xí)
潛類模型學(xué)習(xí)是從一組顯變量數(shù)據(jù)Y1,Y2,…,Yn,出發(fā),確定兩方面內(nèi)容:①潛變量的類別;②潛變量X的概率分布P(X)及每個(gè)顯變量的條件概率P(Yi/X)。確定潛變量的類別等于確定潛類的個(gè)數(shù),確定P(X)及P(Yi/X)就是確定每個(gè)潛類的統(tǒng)計(jì)特性。因此,潛類分析可以看作是一種基于模型的聚類分析〔3〕。
(4)參數(shù)估計(jì)
貝葉斯網(wǎng)參數(shù)學(xué)習(xí)是指對(duì)于給定的貝葉斯網(wǎng)模型結(jié)構(gòu)η和數(shù)據(jù)集D,利用先驗(yàn)知識(shí)確定貝葉斯網(wǎng)絡(luò)模型各節(jié)點(diǎn)的條件概率θ。常見(jiàn)的參數(shù)學(xué)習(xí)方法對(duì)貝葉斯網(wǎng)絡(luò)和數(shù)據(jù)集做了一些假定〔4〕:①變量是類別變量;②全局和局部獨(dú)立;③樣本獨(dú)立同分布。常用的貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)方法有最大似然估計(jì)、貝葉斯估計(jì)和期望最大化算法。
(5)模型的選擇
評(píng)分函數(shù)是用來(lái)指導(dǎo)模型選擇的標(biāo)準(zhǔn)。設(shè)η是數(shù)據(jù)D的一個(gè)貝葉斯?jié)撟兞磕P?,模型η相?duì)于數(shù)據(jù)D擬合的優(yōu)劣可以用評(píng)分函數(shù)來(lái)衡量,即以評(píng)分函數(shù)作為標(biāo)準(zhǔn)來(lái)選擇模型。潛變量模型常用的評(píng)分有BIC,AIC,HVL,BICe,CS 等〔5-6〕。
(6)模型優(yōu)化
經(jīng)過(guò)分析后得到的最優(yōu)貝葉斯網(wǎng)潛變量模型結(jié)構(gòu),模型中含有一個(gè)潛變量X,X的類別為2,表示綜合考慮7個(gè)SNPs的整體效應(yīng),可以將人群總的分為兩類,每個(gè)類別代表不同特征的人群。模型中與潛變量相連的7個(gè)SNPs為顯變量,它們與潛變量的關(guān)系由每一條直線表示,線的粗細(xì)代表每個(gè)SNP與潛變量X的兩兩互信息,即與X的相關(guān)度,線越粗,代表互信息量越大,與潛變量X的關(guān)系越密切。從得到的模型結(jié)構(gòu)圖中可以看出,與潛變量X關(guān)系最為密切的SNP為rs11568817和 rs130058,其次為 rs6298,其余的 SNPs與潛變量X的相關(guān)度比較小。
圖1是包含每個(gè)SNP與潛變量X的互信息和累積信息覆蓋度的信息曲線。為了解釋潛變量X的含義,LANTERN會(huì)選取若干個(gè)與潛變量X相關(guān)度最高的顯變量,并基于這些顯變量來(lái)進(jìn)行解釋。累積信息覆蓋度決定了所得到的解釋結(jié)果覆蓋了多少潛變量X所包含的信息。累積信息覆蓋度越高,選取的顯變量就越多,解釋結(jié)果所覆蓋的潛變量X的信息也就越多,但是,隨著模型選取的顯變量個(gè)數(shù)的增加,所得到的解釋結(jié)果也就越復(fù)雜。因此,在一般情況下,累積信息覆蓋度的默認(rèn)值選為95%。
圖1 各SNP的信息曲線
為考察每個(gè)SNP的互信息,將所有的SNPs都納入,因此信息覆蓋度達(dá)100,重復(fù)抽樣次數(shù)默認(rèn)值10000,分析得到圖1中的信息曲線圖。圖中橫軸從左到右是7個(gè)SNPs顯變量,左側(cè)的縱軸是互信息的絕對(duì)值,右側(cè)的縱軸則是信息覆蓋度的大小。下方的曲線是各顯變量與潛變量X的兩兩互信息或者相關(guān)度的大小。從左到右,各顯變量X與潛變量的相關(guān)度呈下降趨勢(shì)。上方的曲線是當(dāng)截取到各顯變量時(shí)它們與潛變量X的累積互信息的大小。顯然,截取的顯變量越多,累積互信息越大,但是到達(dá)一定程度時(shí),累積互信息量不再增加。從數(shù)據(jù)分析后得到的信息曲線可以看出,兩兩互信息量最大的SNP是rs1156881,其次是rs130058和rs6298,其余的SNPs與潛變量的互信息量很小。各個(gè)SNPs的信息情況見(jiàn)表2。從表中可以看出,rs1156881與rs130058兩者的累積互信息量就能夠達(dá)到95%以上,rs5569,rs2242446,rs6295與 rs6313幾乎不提供任何信息,說(shuō)明這些SNPs的在診斷抑郁癥方面的價(jià)值不大。
表3-4是各SNP在潛變量X中的類概率分布表。表3是潛變量X的類別為1時(shí)各SNP的類概率分布,潛變量X的先驗(yàn)類別概率為0.216,表4是潛變量X的類別為2時(shí)各SNP的類概率分布,潛變量X的先驗(yàn)類別概率為0.784。類概率分布解釋了潛變量與顯變量之間的關(guān)系,可以幫助研究者解釋潛變量各類別的內(nèi)容和性質(zhì)〔7〕。潛變量X的各類別概率總和為1。本例中潛變量第二個(gè)類別所占的比重(0.784)遠(yuǎn)大于第一個(gè)類別的比重(0.216),超過(guò)全體樣本的一半,說(shuō)明潛變量的第二個(gè)類別對(duì)7個(gè)SNPs的影響較大。具體到每一個(gè) SNP中,由于 rs5569,rs2242446,rs6295與rs6313的信息量為0,所以可以判斷這4個(gè)SNPs在兩組之間的類概率分布差異應(yīng)該不明顯,而從它們的類概率分布表中得出的結(jié)論與此一致。比如rs613,它在潛變量類別為1時(shí)的條件概率分別為0.23,0.50和0.27,在潛變量類別為2時(shí)的條件概率分別為0.22,0.50和0.27,基本上是一樣的,因此,潛變量在這個(gè)SNP上并不具有特異性,即該SNP并不能作為劃分抑郁癥病人類別的依據(jù)。其余3個(gè)信息量為0的 SNPs與rs613類似。相反,rs11568817,rs130058和rs6298的類概率分布在潛變量的不同類別上存在差異,這與它們的互信息量的大小也是一致的,我們可以根據(jù)這三個(gè)SNPs來(lái)對(duì)所有的抑郁癥病人進(jìn)行合理歸類。從表4可以看出,導(dǎo)致我們潛變量模型中潛在類別含義不同的正是從屬于HTR1B基因(5-羥色胺受體1B基因)的3個(gè)SNPs。
表2 各SNP的信息情況
表3 各SNP的類概率分布表(X=1,先驗(yàn)概率=0.216)
表4 各SNP的類概率分布表(X=2,先驗(yàn)概率=0.784)
按照累積信息覆蓋度達(dá)95% 的原則,rs11568817和rs130058的累積信息覆蓋度達(dá)到98%,能夠解釋潛變量幾乎所有的信息,因此我們選取這兩個(gè)SNPs來(lái)對(duì)抑郁癥患者進(jìn)行合理的聚類與解釋。在潛變量X潛在類別為1的條件下,rs11568817和rs130058第2個(gè)狀態(tài)的條件概率分別為0.92和0.76,條件概率值遠(yuǎn)遠(yuǎn)大于其它類別的條件概率值,因此,潛變量XX在第一個(gè)類別上反映的是這兩個(gè)SNPs第二個(gè)狀態(tài)的信息。rs11568817第二個(gè)狀態(tài)為GT,rs130058第二個(gè)狀態(tài)為AT,都為雜合子,所以,在潛在類別為1的抑郁癥患者的SNPs中,以含rs11568817和rs130058的雜合子為主,此類患者占總患者人數(shù)的22%;在潛變量X潛在類別為2的條件下,rs11568817第三個(gè)狀態(tài)的條件概率值為0.98,rs130058第一個(gè)狀態(tài)的條件概率值為1,遠(yuǎn)大于各自SNP其它狀態(tài)的條件概率,因此潛變量X在第二個(gè)類別上綜合反映的是rs11568817第三個(gè)狀態(tài)和rs130058第一個(gè)狀態(tài)的信息。rs11568817第三個(gè)狀態(tài)為T(mén)T,rs130058第一個(gè)狀態(tài)為AA,都為純合子,所以,在潛在類別為2的抑郁癥患者的SNPs中,以含rs11568817和rs130058的純合子為主,此類患者占總患者人數(shù)的78%。
實(shí)例分析中根據(jù)抑郁癥患者的7個(gè)SNPs,將患者分為兩個(gè)潛在類別。這兩個(gè)類別分別代表不同特征的抑郁癥患者,據(jù)此可以探索SNPs的整體效應(yīng),比如這些患者可能有不同藥物的反應(yīng),不同的行為特征等。實(shí)現(xiàn)在SNPs變量水平上的降維和個(gè)體水平上的聚類以后,根據(jù)不同患者類別的不同特征,可以針對(duì)性的采取不同的個(gè)性化治療方案。
除了對(duì)被研究的患者進(jìn)行分類以外,我們還能利用得到的貝葉斯網(wǎng)潛變量模型對(duì)新加入的患者進(jìn)行歸類。歸類的方法是考慮新加入患者的每個(gè)SNPs狀態(tài),將這些狀態(tài)賦值以后,代入到貝葉斯網(wǎng)潛變量模型中,模型會(huì)根據(jù)這些狀態(tài)的具體情況,獲得概率預(yù)測(cè)值,將新加入患者進(jìn)行歸類,為基因治療提供重要依據(jù)。
單核苷酸基因多態(tài)性與單體型的研究在探討復(fù)雜性疾病的遺傳機(jī)理,遺傳風(fēng)險(xiǎn)與藥物反應(yīng)不同中有著重要的意義,已經(jīng)成為了許多領(lǐng)域研究的焦點(diǎn)。基于貝葉斯網(wǎng)絡(luò)的潛變量模型為多基因,多位點(diǎn)SNPs數(shù)據(jù)的分析提供了一種新的思路。貝葉斯網(wǎng)潛變量分析可以有效的體現(xiàn)高維度SNPs的整體效應(yīng),充分發(fā)揮貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)分析的特征來(lái)分析SNPs與疾病之間復(fù)雜的結(jié)構(gòu)關(guān)系,是分析高維基因數(shù)據(jù)的一種有效方法。
此外,貝葉斯網(wǎng)潛變量模型研究結(jié)果可以用多種方式陳列,從不同側(cè)面反映數(shù)據(jù)的內(nèi)在結(jié)構(gòu),結(jié)果解釋簡(jiǎn)單,并且通過(guò)類概率分布情況,我們可以一目了然的看出各類別概率。
1.李婧,潘玉春,李亦學(xué),等.人類基因組單核苷酸多態(tài)性和單體型的分析及應(yīng)用.遺傳學(xué)報(bào),2005,32(8):879-889.
2.Goodman L A.Exploratory latent structure analysis using both identifiable and unidentifiable models.Biometrika,1974(61):215-231.
3.張巖波.潛變量分析.北京:高等教育出版社,2009.
4.張連文,郭海鵬.貝葉斯網(wǎng)引論.北京:科學(xué)出版社,2006,204-220.
5.Geiger D,Heckerman D,et al.Asymptotic model selection for directed networks with hidden variables.In Proceedings of the twelfth annual conference on uncertainty in artificial intelligence(UAI-96).San Francisco:Morgan Kaufmann Publishers,1996:283-290.
6.Cheesman P,Stutz J.Bayesion classification:Theory and results.In PSUM Fayyad G piatetsky Shapiro,R Uthrusamy,editors.Advances in Knowledge Discovery and Data Mining.Menlo Park:The AAAI Press,1995:153-180.
7.裴磊磊,張巖波,張克讓,等.抑郁癥單核苷酸多態(tài)性(SNPs)分布特征的潛在類別分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(1):7-10.