張燕
[摘 要] 貝葉斯網(wǎng)絡(luò)有著很好的理論知識和清楚的知識表達(dá)形式,是統(tǒng)計學(xué)中不確定性研究的一種重要方法,在數(shù)據(jù)挖掘中有著重要作用。將其引入基因數(shù)據(jù)的分析中,能較好地構(gòu)建網(wǎng)絡(luò)模型,分析各基因間的相互作用與影響,可廣泛應(yīng)用于生物學(xué)和腫瘤學(xué)的研究,觀察疾病所引起的基因表達(dá)變化,并找出重要作用的變量基因。
[關(guān) 鍵 詞] 基因數(shù)據(jù);統(tǒng)計學(xué);結(jié)構(gòu)學(xué)習(xí)
[中圖分類號] G648 [文獻(xiàn)標(biāo)志碼] A [文章編號] 2096-0603(2018)16-0137-01
隨著人類基因組序列草圖的完成,有關(guān)功能基因組的研究在生命科學(xué)領(lǐng)域中占據(jù)越來越重要的地位。闡明基因選擇性表達(dá)所依賴的調(diào)控信息及其相互作用的分子機制,成為揭示生命現(xiàn)象本質(zhì)的核心問題,是功能組研究的重要內(nèi)容。隨著基因組學(xué)研究的深入展開,基因的表達(dá)調(diào)控研究已經(jīng)從單個基因、線性的調(diào)控拓展到立體層面上多基因、基因簇乃至整個基因組的調(diào)控網(wǎng)絡(luò)。如何有效地利用已有的基因組學(xué)數(shù)據(jù),充分整合多學(xué)科的思路,建立新的試驗系統(tǒng)和技術(shù)體系,闡明基因組表達(dá)的調(diào)控網(wǎng)絡(luò),分析基因之間的相互制約關(guān)系,已經(jīng)成為功能基因組學(xué)領(lǐng)域內(nèi)國際競爭的焦點。
貝葉斯網(wǎng)絡(luò)方法將概率理論知識與圖論結(jié)合,其有圖形化表示、因果關(guān)系清晰以及不確定性推理等優(yōu)點,本文將貝葉斯網(wǎng)絡(luò)引入基因數(shù)據(jù)中并進行分析,從概率角度描述了各基因間的依賴關(guān)系,從而闡明了整個基因組之間的調(diào)控網(wǎng)絡(luò)。
一、對基因數(shù)據(jù)的預(yù)處理
貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)是一個NP-Hard問題,而構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)最常見的方法是在結(jié)點變量的順序已經(jīng)確定的情況下,采用局部搜索算法。在基因表達(dá)譜數(shù)據(jù)中,由于沒有任何先驗知識,本實驗中對網(wǎng)絡(luò)的構(gòu)建使用的是K2算法,而K2算法需要預(yù)先知道網(wǎng)絡(luò)變量的先后順序,本文將重點介紹決策樹算法,將ID3算法用于確定各結(jié)點的順序。
二、結(jié)構(gòu)學(xué)習(xí)
在建模之前需要完成的最后一步工作是需要把樣本數(shù)據(jù)分成訓(xùn)練集和檢驗集,分別用于訓(xùn)練檢驗和模型檢驗。數(shù)據(jù)經(jīng)過離散化之后,除去預(yù)留幾個樣本的各基因表達(dá)情況用作模型驗證,其余的樣本作為訓(xùn)練集導(dǎo)入實驗軟件matlab中。
在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的構(gòu)建過程中,最大父結(jié)點個數(shù)的設(shè)置問題直接影響了所得網(wǎng)絡(luò)的規(guī)模與結(jié)構(gòu)。隨著父結(jié)點個數(shù)越多,所得的網(wǎng)絡(luò)結(jié)構(gòu)就越復(fù)雜,雖然能更多地揭示各結(jié)點之間的相互關(guān)系,但是計算復(fù)雜性越高,學(xué)習(xí)時間也將大大增加,同時基因之間的相關(guān)性也被擴大,可能會有不必要的有向弧也出現(xiàn)在網(wǎng)絡(luò)中的情況,從而可能會引入不必要的關(guān)聯(lián)。在實驗中我們逐漸增加父結(jié)點的個數(shù),會出現(xiàn)由于網(wǎng)絡(luò)過于復(fù)雜而程序運行時內(nèi)存不足的情況,此時程序無法運行下去。
由于貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)常常存在貝葉斯等價類,而在沒有先驗知識的情況下,貝葉斯等價類所代表的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可以看成是表示了相同的聯(lián)合分布,所以本文還可以通過學(xué)習(xí)得到與上圖互為等價的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),繼而得到相應(yīng)的連接矩陣,通過比較分析得到部分變量之間的有向弧的方向可以反轉(zhuǎn)。因此在沒有任何先驗知識的情況下,可以根據(jù)K2得到的網(wǎng)絡(luò)結(jié)構(gòu)進一步進行參數(shù)學(xué)習(xí);如果通過其他方法獲得了一定的先驗知識,比如實驗,則可以根據(jù)等價的拓?fù)浣Y(jié)構(gòu),改變相應(yīng)的變量間的有向弧的方向,得到最新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。因此我們可以找到等價的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。本文利用貝葉斯網(wǎng)絡(luò)的等價類知識,并利用BNT,可以構(gòu)造出Cpdag鄰接矩陣,并從矩陣中找到可以反轉(zhuǎn)的部分有向弧。Cpdag鄰接矩陣中如果(i,j)=1,(j,i)=1,則變量i與變量j的連接弧是可反向的,從而可以得到所有可以反向的弧。
三、參數(shù)學(xué)習(xí)
1.完整數(shù)據(jù)的參數(shù)學(xué)習(xí)。本研究是通過研究網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中各結(jié)點的父結(jié)點、子結(jié)點的數(shù)目以及各結(jié)點間的有向弧尋找在網(wǎng)絡(luò)中起到關(guān)鍵性作用的變量結(jié)點,這對網(wǎng)絡(luò)的認(rèn)識理解有關(guān)鍵性的幫助作用。
2.已知網(wǎng)絡(luò)結(jié)構(gòu)時缺失數(shù)據(jù)下的參數(shù)學(xué)習(xí)。對于含有缺失值的情況,由于此時不能用MLE直接估計,所以采用EM算法進行MLE參數(shù)估計。由于EM算法本身需要設(shè)置迭代的次數(shù)以及迭代的閾值,也就是兩次迭代的對數(shù)似然比log-likelihood的相差值。分別隨機設(shè)置幾個不同的缺失值,并設(shè)置含缺失值的迭代次數(shù),即可最終所得的log-likelihood值。EM算法對含有缺失值的數(shù)據(jù)有較好的處理能力,只是當(dāng)缺失值比較多時,需要迭代的次數(shù)較多,但依舊不影響其收斂性。
通過對完整數(shù)據(jù)集和不完整數(shù)據(jù)集求參數(shù)估計,完整數(shù)據(jù)集與不完整數(shù)據(jù)集都能判斷出父結(jié)點對子結(jié)點的調(diào)控作用,同時兩種方法的學(xué)習(xí)結(jié)果是相同的:獨立地判斷了父結(jié)點對子結(jié)點的促進或抑制作用,且對子結(jié)點起促進作用的結(jié)點多,起抑制作用的結(jié)點少。
3.未知網(wǎng)絡(luò)結(jié)構(gòu)時缺失數(shù)據(jù)下的參數(shù)學(xué)習(xí)。同結(jié)構(gòu)已知,含有缺失值的數(shù)據(jù)的情況類似,我們將完整的基因數(shù)據(jù)隨機設(shè)置一定的缺失值,并使用SEM算法同時進行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和參數(shù)結(jié)構(gòu)的學(xué)習(xí)。
四、模型驗證
1.考慮在完整數(shù)據(jù)集時。
2.考慮在已知網(wǎng)絡(luò)結(jié)構(gòu)、存在缺失數(shù)據(jù)時。
3.考慮在網(wǎng)絡(luò)結(jié)構(gòu)未知、存在缺失數(shù)據(jù)時。
在貝葉斯網(wǎng)絡(luò)模型的構(gòu)建中,我們已經(jīng)留出幾個樣本進行模型驗證,考慮關(guān)鍵結(jié)點的預(yù)測表達(dá)情況。
本文完整地研究了在完整數(shù)據(jù)集和含缺失數(shù)據(jù)集的情況下的貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)的過程,最終得到了基因間依賴關(guān)系的網(wǎng)絡(luò),并表達(dá)了基因間的調(diào)控作用。最后通過模型驗證證明了整個學(xué)習(xí)過程的合理性。
參考文獻(xiàn):
[1]黃解軍.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)及其在數(shù)據(jù)挖掘中的應(yīng)用研究[D].武漢大學(xué),2005:1-80.
[2]鄧勇施,文康,陳良州.基于模型診斷的貝葉斯解釋及應(yīng)用[J].上海交通大學(xué)學(xué)報,2003,37(1):5-8.