高盼
摘要:蛋白質(zhì)復(fù)合物的預(yù)測對生物研究至關(guān)重要,現(xiàn)有的預(yù)測算法主要是基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的局部結(jié)構(gòu)發(fā)現(xiàn)算法,其存在一定的局限性,無法利用已知復(fù)合物作為先驗知識,無法有效融合蛋白質(zhì)生物關(guān)聯(lián)性數(shù)據(jù),因此其預(yù)測結(jié)果中會存在部分不符合復(fù)合物形成規(guī)律的樣本。本文提出基于圖卷積的復(fù)合物篩選模型,該模型充分考慮了蛋白質(zhì)特征,在蛋白質(zhì)復(fù)合物對應(yīng)的局部圖中將特征進行深度融合,從而有效地對蛋白質(zhì)復(fù)合物進行評分,識別并剔除一般復(fù)合物預(yù)測算法結(jié)果中的低分復(fù)合物樣本,提高其預(yù)測的準確性。
關(guān)鍵詞:蛋白質(zhì)復(fù)合物;生物信息學;圖神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP183? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)07-0186-02
1 引言
蛋白質(zhì)復(fù)合物是蛋白質(zhì)相互結(jié)合完成某一項生物功能的集合。生物學上蛋白質(zhì)復(fù)合物的識別與研究在生物檢測、細胞分析、藥物研發(fā)等領(lǐng)域發(fā)揮至關(guān)重要的作用,能有效幫助研究人員發(fā)掘生命活動的規(guī)律。傳統(tǒng)的基于生物實驗的方法可以識別蛋白質(zhì)復(fù)合物,但其成本較高、周期較長,無法滿足大規(guī)模數(shù)據(jù)時代的研究需求?,F(xiàn)有的蛋白質(zhì)復(fù)合物預(yù)測算法主要是基于計算的算法,將蛋白質(zhì)之間廣泛的相互作用抽象成圖,蛋白質(zhì)復(fù)合物抽象為圖中的局部結(jié)構(gòu),此時蛋白質(zhì)復(fù)合物預(yù)測問題轉(zhuǎn)換為局部子圖發(fā)現(xiàn)問題。但是基于計算的預(yù)測算法具有一定的局限性,其無法利用已知復(fù)合物作為先驗知識,無法有效融合蛋白質(zhì)生物關(guān)聯(lián)性數(shù)據(jù),因此其預(yù)測結(jié)果中會存在部分不符合復(fù)合物形成規(guī)律的樣本。本文提出基于圖卷積的復(fù)合物篩選模型,該模型充分考慮了蛋白質(zhì)特征,在蛋白質(zhì)復(fù)合物對應(yīng)的局部圖中將特征進行深度融合,從而有效地對蛋白質(zhì)復(fù)合物進行評分,識別并剔除一般復(fù)合物預(yù)測算法結(jié)果中的低分復(fù)合物樣本,提高其預(yù)測的準確性。
2 復(fù)合物特征子圖數(shù)據(jù)集構(gòu)建
已驗證蛋白質(zhì)復(fù)合物數(shù)據(jù)集中每一個樣本為蛋白質(zhì)集合,代表某一個復(fù)合物中蛋白質(zhì)種類。但是集合數(shù)據(jù)不具有可學習性,因此本文提出了復(fù)合物特征子圖的結(jié)構(gòu)化數(shù)據(jù)生成方法,將集合數(shù)據(jù)轉(zhuǎn)換為可學習的結(jié)構(gòu)化數(shù)據(jù)。下面介紹具體的復(fù)合物特征子圖數(shù)據(jù)集生成過程。
基于蛋白質(zhì)相互作用數(shù)據(jù)集構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)(簡稱互作網(wǎng)絡(luò))。迄今為止,釀酒酵母(Saccharomyces cerevisiae)相關(guān)的蛋白質(zhì)領(lǐng)域研究較為深入,其標準復(fù)合物數(shù)據(jù)包括MIPS數(shù)據(jù)集、CYC2008數(shù)據(jù)集等等,蛋白質(zhì)相互作用數(shù)據(jù)包括DIP數(shù)據(jù)集、Biogrid數(shù)據(jù)集、Gavin數(shù)據(jù)集等,因此其數(shù)據(jù)基礎(chǔ)是比較完備的。本文基于DIP[1]蛋白質(zhì)相互作用數(shù)據(jù)集展開研究,其中包含著多對蛋白質(zhì)相互作用,每一對蛋白質(zhì)相互作用有相應(yīng)的編號i和編號j,表示這兩個蛋白質(zhì)之間存在相互作用關(guān)系。本文以數(shù)據(jù)集中的互作關(guān)系作為鄰邊構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò),形成圖結(jié)構(gòu)(Graph)的形式G={V,E},其中V表示所有蛋白質(zhì)結(jié)點,E表示所有蛋白質(zhì)相互作用鄰邊。
在互作網(wǎng)絡(luò)中嵌入結(jié)點特征,形成帶特征的蛋白質(zhì)相互作用網(wǎng)絡(luò)(簡稱特征互作網(wǎng)絡(luò))。圖結(jié)構(gòu)是高維的復(fù)雜的數(shù)據(jù),可能包含噪聲和冗余信息,結(jié)點特征嵌入就是將網(wǎng)絡(luò)數(shù)據(jù)從高維表示隱射維低維表示,其低維嵌入維度通常越小于網(wǎng)絡(luò)的結(jié)點數(shù)量,從而達到網(wǎng)絡(luò)去噪以及結(jié)點表示的目的。本文提出了兩種結(jié)點特征嵌入方法,第一種是基于圖自編碼器嵌入(Graph Auto Encoder,GAE)[2],維度16維,第二種是基于深度隨機游走嵌入(Deepwalk),維度64維。結(jié)合GAE和Deepwalk結(jié)點特征嵌入維度為80維。
從特征互作網(wǎng)絡(luò)中提取特征子圖。特征子圖是由蛋白質(zhì)復(fù)合物的集合數(shù)據(jù)作為結(jié)點集合在特征互作網(wǎng)絡(luò)中提取子圖構(gòu)建。按照蛋白質(zhì)復(fù)合物數(shù)據(jù)來源劃分,特征子圖分為正樣本特征子圖、中間樣本特征子圖、負樣本特征子圖和待篩選特征子圖。訓(xùn)練數(shù)據(jù)集中正樣本特征子圖由CYC2008標準復(fù)合物數(shù)據(jù)集[3]提取,中間樣本特征子圖由COACH算法的預(yù)測結(jié)果提取,負樣本特征子圖由隨機子圖。在訓(xùn)練數(shù)據(jù)集中,子圖不同類別具有不同標簽,同時依據(jù)標準復(fù)合物鄰居相似性評分指標,子圖具有相應(yīng)0~1的評分,評分越接近1表示該復(fù)合物越接近標準復(fù)合物。待篩選特征子圖由多種基于密集子圖的復(fù)合物預(yù)測算法構(gòu)成,分別為Dpclus算法[4]、Clique算法和IPCA算法。
3 基于圖卷積的復(fù)合物評價模型
卷積神經(jīng)網(wǎng)絡(luò)快速發(fā)展,其具有高效的特征提取能力,但其只能處理平移不變性的歐氏空間數(shù)據(jù)。特征子圖的結(jié)構(gòu)化數(shù)據(jù)是非歐式空間數(shù)據(jù),每個結(jié)點的局部結(jié)構(gòu)由于其鄰邊和對應(yīng)的鄰居結(jié)點是各不相同的,因此其是具有差異性的,圖卷積神經(jīng)網(wǎng)絡(luò)[5](Graph Convolution Network,簡稱GCN)基于鄰居特征聚集以及特征轉(zhuǎn)換矩陣作為卷積核的思想巧妙地實現(xiàn)了圖結(jié)構(gòu)數(shù)據(jù)上的卷積過程。在數(shù)據(jù)集構(gòu)建階段本文已將復(fù)合物的集合數(shù)據(jù)轉(zhuǎn)換為特征子圖數(shù)據(jù),特征子圖為非歐式空間高維圖結(jié)構(gòu),本文基于圖卷積的算法本文對蛋白質(zhì)復(fù)合物的高維圖結(jié)構(gòu)進行深度融合,從而提取復(fù)合物特征并對特征做進一步處理。
本文采用了如下的GCN的更新方法,在圖結(jié)構(gòu)中,輸入為公式如下所示.:
其中H為n*m的矩陣,代表圖結(jié)構(gòu)中結(jié)點特征矩陣,n為圖結(jié)構(gòu)中結(jié)點數(shù)量,m為特征維度。其中(l)上標表示第l層特征,(l+1)上標表示第l+1層特征,上式即表示特征層級更新方法。A為n*n矩陣,表示圖結(jié)構(gòu)鄰接矩陣,而A-hat標志表示經(jīng)過拉普拉斯平滑的鄰接矩陣。圖卷積的過程本質(zhì)是結(jié)點之間的信息匯總及更新過程,平滑處理使得信息流動會依據(jù)源點的度數(shù)和匯點的度數(shù)做相應(yīng)的歸一化處理,對度數(shù)過大的結(jié)點進行正則化懲罰。W為m*m的矩陣,表示圖卷積的核參數(shù),對應(yīng)著特征匯聚之后的轉(zhuǎn)換。σ表示激活函數(shù)。
基于圖卷積神經(jīng)網(wǎng)絡(luò),本文提出了復(fù)合物評價模型,該模型將特征子圖中的結(jié)點特征進行深度融合和動態(tài)更新,提取全局子圖特征,并基于全局子圖特征進行分類與評分,其具體過程如圖1所示。
從圖中可以得出,該模型的輸入為特征子圖的初始結(jié)點特征矩陣,其特征維度為80維,由GAE和Deepwalk嵌入拼接構(gòu)成。采用了兩層圖卷積神經(jīng)網(wǎng)絡(luò)提取特征,經(jīng)過第一層GCN層特征更新,80維初始結(jié)點特征轉(zhuǎn)換為64維結(jié)點隱層特征,使得結(jié)點獲取直徑3的局部特征結(jié)構(gòu)數(shù)據(jù),經(jīng)過第二層GCN層特征更新,64維結(jié)點隱層特征轉(zhuǎn)換為更深層次的64維結(jié)點隱層特征,使得結(jié)點獲取直徑5內(nèi)的局部特征結(jié)構(gòu)數(shù)據(jù)。結(jié)點特征深度嵌入之后,將子圖所有結(jié)點特征池化,以池化特征作為復(fù)合物子圖整體特征表示,至此就完成了復(fù)合物的特征嵌入。具體的池化過程為將所有結(jié)點特征分別進行平均值池化和最大值池化,拼接起來維1*128維特征。在子圖特征基礎(chǔ)上,經(jīng)過兩層感知器模型以及Softmax激活函數(shù),得到子圖的分類結(jié)果,計算相應(yīng)的分類損失;經(jīng)過另外兩層感知器模型以及Sigmoid激活函數(shù),得到子圖的評分結(jié)果,計算相應(yīng)的評分損失。最終的損失函數(shù)為分類和損失與評分損失綜合起來。
4 實驗設(shè)計與結(jié)果
本文對比了基于隨機特征的模型和基于圖論拓撲特征的模型。基于隨機特征的模型輸入結(jié)點特征為隨機數(shù)據(jù),基于圖論拓撲特征的模型采用度分布,結(jié)點數(shù)等統(tǒng)計特征直接作為子圖特征。實驗中在DIP網(wǎng)絡(luò)中訓(xùn)練模型,在待篩選數(shù)據(jù)中保留分類結(jié)果與評分結(jié)果為達到閾值的樣本,形成篩選后數(shù)據(jù)。評價階段對比了篩選前后復(fù)合物數(shù)據(jù)的F1值指標,具體結(jié)果如圖2所示。
對比結(jié)果表明基于圖卷積的蛋白質(zhì)復(fù)合物篩選模型有效地提高了F1評價指標,同時證明了結(jié)點特征的有效性以及圖卷積特征融合方法的有效性。
5 結(jié)束語
本文提出了基于圖卷積的蛋白質(zhì)復(fù)合物篩選模型。提出了蛋白質(zhì)復(fù)合物特征子圖的構(gòu)建方法,包括蛋白質(zhì)互作網(wǎng)絡(luò)構(gòu)建,基于GAE和Deepwalk的結(jié)點特征嵌入和復(fù)合物特征子圖提取。本文將圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于蛋白質(zhì)復(fù)合物的特征提取中,經(jīng)過多層圖卷積獲得結(jié)點深入嵌入特征,池化方法獲取子圖特征,基于子圖特征獲取復(fù)合物評分結(jié)果和分類結(jié)果。通過對復(fù)合物的分類與評分篩選一般性預(yù)測算法的有效復(fù)合物,經(jīng)過多個對比實驗表明,基于圖卷積的篩選模型篩選之后的復(fù)合物樣本F1評價指標在三種預(yù)測算法中均有大幅提升。
參考文獻:
[1] Salwinski L , Miller C S , Smith A J , et al. The Database of Interacting Proteins: 2004 Update[J]. Nucl Acids Res,2004(32): D449-451.
[2] Kipf T N , Welling M . Variational Graph Auto-Encoders[J]. 2016.
[3] Shuye P , Jessica W , Brian T , et al. Up-to-date catalogues of yeast protein complexes[J]. Nucleic Acids Research, 2009, 37(3):825-831.
[4] Altaf-Ul-Amin M , Shinbo Y , Mihara K , et al. Development and implementation of an algorithm for detection of protein complexes in large interaction networks[J]. Bmc Bioinformatics, 2006,7(1):1-13.
[5] Kipf T N, Welling M. Semi-Supervised Classification with Graph Convolutional Networks[A]. 5th International Conference on Learning Representations[C].Open Review.net,2017.
【通聯(lián)編輯:光文玲】