李 鵬 閔 慧 羅愛靜 許家祺 顏湘茹 伊 娜 劉 杰
(1.湖南中醫(yī)藥大學信息科學與工程學院 長沙 410208)(2.中南大學湘雅三醫(yī)院 長沙 410006)(3.醫(yī)學信息研究湖南省普通高等學校重點實驗室(中南大學) 長沙 410006)(4.湖南信息職業(yè)技術(shù)學院軟件學院 長沙 410200)
自從人類基因測序工程完成后,生命科學研究的重點已經(jīng)從基因組學轉(zhuǎn)到了蛋白組學[1]。同時隨著計算機硬件的發(fā)展以及智能信息處理技術(shù)的進步,采用計算機相關(guān)技術(shù)對蛋白組學中的諸多問題展開分析和研究是目前的熱點。其中,關(guān)于蛋白質(zhì)相互作用網(wǎng)絡(luò)(Protein-Protein Interaction Network,PPIN)[2~3]的研究是一項基礎(chǔ)性的工作。
眾所周知,生物體內(nèi)蛋白質(zhì)之間的相互作用總是動態(tài)變化的[4],這種變化體現(xiàn)著生命進化與發(fā)展的一種自然趨勢和必然結(jié)果。然而,動態(tài)變化的蛋白質(zhì)網(wǎng)絡(luò)給基于計算機技術(shù)的蛋白組學研究帶來巨大的挑戰(zhàn),如何準確地對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)進行建模和分析已經(jīng)成為制約該領(lǐng)域中很多問題研究的瓶頸。為此,國內(nèi)外相關(guān)學者對蛋白質(zhì)網(wǎng)絡(luò)的建模問題進行了大量的研究,提出了一系列有代表性的建模方案,例如,文獻[7]從多維角度出發(fā)綜述了構(gòu)建蛋白質(zhì)網(wǎng)絡(luò)的常見方法,并展望了動態(tài)蛋白質(zhì)網(wǎng)絡(luò)研究的發(fā)展趨勢。文獻[8]根據(jù)蛋白質(zhì)的基因表達變化情況將蛋白質(zhì)分為動態(tài)和靜態(tài)兩類,進而提出了一種動態(tài)-靜態(tài)蛋白質(zhì)混合的時序網(wǎng)絡(luò)構(gòu)建新方法。然而該方法缺少對噪音的系統(tǒng)化分析,網(wǎng)絡(luò)構(gòu)建結(jié)果容易受到假陽性和假陰性數(shù)據(jù)的干擾。文獻[9]利用概率統(tǒng)計中常見的3-σ 法則來判斷蛋白質(zhì)的活性,進而提出了基于活性周期的蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法。但是這種方法經(jīng)常會過濾掉一些一直有較高表達信息的蛋白質(zhì),造成數(shù)據(jù)的丟失。胡塞等[10]分析了蛋白質(zhì)相互作用數(shù)據(jù)和基因表達數(shù)據(jù)對于網(wǎng)絡(luò)構(gòu)建的作用,建立了一種改進的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)D-PIN(Dynamic Protein Interaction Networks)。然而該文對于采樣周期的選擇主要通過實驗設(shè)定,不具有普適性。針對以上方法的不足,本文對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建問題進行了研究,提出了一種基于連接強度的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法。并最后通過仿真實驗驗證了所提算法的有效性。
本文借鑒進化圖[11]在描述復雜動態(tài)網(wǎng)絡(luò)方面的優(yōu)勢,采用進化圖來完成動態(tài)蛋白質(zhì)網(wǎng)絡(luò)建模過程。為了便于理解,下面給出一些相關(guān)的定義:
定義1 進化圖假設(shè)有一動態(tài)圖G=(V,E),V是G 的頂點,E 是G 的邊。它的子圖包含:GS={},有。設(shè)TS=t1,t2,…,tT表示所有子圖存續(xù)時間,則稱Θ=(G,GS,TSi)是進化圖,其中i=1,2,…,T 。
定義2 活性蛋白質(zhì)設(shè)Pr 表示某一生物體內(nèi)的一個蛋白質(zhì),PrAGE表示Pr 的基因表達均值,如果在某一時間段T 內(nèi),都存在關(guān)系:PrAGE≥ε,其中ε 是閾值因子。則稱Pr 是活性蛋白質(zhì),并記Ac(Pr)為Pr 的活性周期。
緊接著上述定義,我們分為如下的三個階段來構(gòu)建動態(tài)蛋白質(zhì)網(wǎng)絡(luò):1)基于基因表達均值計算來判斷各個蛋白質(zhì)的活性,確定各自的活性周期;2)對各個活性蛋白質(zhì)劃分時間片,具有相同活性周期的蛋白質(zhì)擁有同一時間。對于同一時間的所有活性蛋白質(zhì),依據(jù)后續(xù)定義的連接強度來構(gòu)建蛋白質(zhì)子網(wǎng);3)采用進化圖理論對各個蛋白質(zhì)子網(wǎng)進行建模,從而構(gòu)建得到動態(tài)蛋白質(zhì)網(wǎng)絡(luò)。
2.1.1 計算蛋白質(zhì)的活性周期
蛋白質(zhì)活性周期的計算是構(gòu)建動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的第一步。假設(shè),蛋白質(zhì)Pr 在時刻i 的基因表達值為,1 ≤i ≤n。Pr 的基因表達值的標準差為(Pr)。則有如下的計算公式:
根據(jù)式(1)和式(2),文中定義了函數(shù)V(Pr)表示蛋白質(zhì)Pr 的基因表達情況的變化:
一般而言,0 ≤V(Pr)≤1。緊接著,我們利用經(jīng)典的3-sigma 準則[9]來確定活性閾值ε ,其計算公式為
對于任意給定的一個時間片,若有PrAGE(Pr1,Pr2,…,Prk)>ε(ε 為活性閾值),則認為這k 個蛋白質(zhì)具有相同的活性,用它們來構(gòu)建同一個蛋白質(zhì)子網(wǎng)。對于生物體內(nèi)的所有蛋白質(zhì)而言,利用蛋白質(zhì)活性計算可以統(tǒng)計得到具有不同活性周期的蛋白質(zhì)集合S_Pr={T1,T2,…,Tk}。最后我們根據(jù)S_Pr 中元素的個數(shù)來決定劃分出多少個蛋白質(zhì)子網(wǎng)。
2.1.2 構(gòu)建子網(wǎng)
計算得到所有蛋白質(zhì)的不同活性之后,可以構(gòu)建出不同的蛋白質(zhì)子網(wǎng)。下面僅以其中的任意一個子網(wǎng)為例來闡述其構(gòu)建過程。假設(shè){Pr1,Pr2,…,Prl}表示具有相同活性的l 個蛋白質(zhì),現(xiàn)在對它們構(gòu)建子網(wǎng)。要準確地構(gòu)建出蛋白質(zhì)子網(wǎng)的關(guān)鍵在于發(fā)現(xiàn)這l 個蛋白質(zhì)的相互作用關(guān)系。文中通過定義連接強度這一個概念來對蛋白質(zhì)之間是否具有相互作用來進行評價。具體而言,文中從兩個方面考慮蛋白質(zhì)與蛋白質(zhì)之間的連接強度:1)公共鄰居數(shù)量。如果兩個蛋白質(zhì)之間存在越多的公共鄰居,這表明它們之間具有更為緊密的相互作用關(guān)系;2)邊和度的比例。如果某兩個蛋白質(zhì)之間的鄰接邊越多,并且度越小。則它們之間具有更緊密的相互作用關(guān)系。綜上所述,可以采用下面的公式計算連接強度:
定義3 連接強度
其中,CS(Pri,Prj)表示任意兩個蛋白質(zhì)Pri和Prj之間的連接強度;表示Pri和Prj之間存在的鄰接邊個數(shù);nn(Pri)表示Pri的鄰居節(jié)點;di表示Pri的度;式(5)中的是一個Sigmoid 函數(shù)[12],使用該函數(shù)的好處在于:它可以將影響蛋白質(zhì)之間相互作用強弱的諸多因素(鄰接邊個數(shù)、節(jié)點的度等)最終轉(zhuǎn)為一個概率值,能夠較好地刻畫不同蛋白質(zhì)之間的連接關(guān)系。
相對于靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)而言,動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)會隨著蛋白質(zhì)合成或降解、生物環(huán)境等因素的變化而動態(tài)變化。對蛋白質(zhì)網(wǎng)絡(luò)準確建模的關(guān)鍵是采用合適的模型來表示這個動態(tài)變化因素??紤]到網(wǎng)絡(luò)中大多數(shù)蛋白質(zhì)的基因表達具有時間周期特性,并不是完全隨機的,因此文中從時間維度出發(fā)對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)進行建模,首先基于時間片的概念對整個網(wǎng)絡(luò)進行劃分,定義出每個時間片內(nèi)的網(wǎng)絡(luò)連通性,然后基于進化圖理論將多個時間片內(nèi)的子網(wǎng)構(gòu)建成動態(tài)蛋白質(zhì)網(wǎng)絡(luò)模型,具體細節(jié)見算法1。
算法1 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法(DPPN-CC)
輸入:基本表達值數(shù)據(jù),PPI數(shù)據(jù),閾值th
輸出:動態(tài)蛋白質(zhì)網(wǎng)絡(luò)模型Θ=(G,GS,TSi)
步驟1. 根據(jù)所有蛋白質(zhì)的基因表達值數(shù)據(jù),采用式(1~3)計算生物體內(nèi)所有蛋白質(zhì)的活性周期Ac(Pr),并采用列表對其結(jié)果進行存儲,可得:
步驟2.根據(jù)蛋白質(zhì)的活性周期來構(gòu)造子網(wǎng):
For Aci(Pr),i=1,2,…,k in L[Ac(Pr)]:
在Aci(Pr)中計算CS(Pri,Prj);
If CS(Pri,Prj)≥th,則在Pri和Prj之間增加邊<Pri,Prj>,并記錄<Pri,Prj>所在的時間片TSi;
步驟3.如果L[Ac(Pr)]不為空,則重復執(zhí)行步驟2;否則算法終止。
下面以蛋白質(zhì)復合物的識別作為測試應(yīng)用,在經(jīng) 典 的DIP 數(shù) 據(jù) 集[13]和CYC2008 數(shù) 據(jù) 集[14]上 對DPNC-CC 算法的性能進行了評價。其中,算法的實現(xiàn)采用Python語言;評價指標采用:查全率、查準率和F-measure。仿真實驗環(huán)境為:64 位的Windows10操作系統(tǒng)+anaconda平臺。
從算法1中的描述可知,參數(shù)th 的取值大小直接影響著構(gòu)建出來的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的拓撲結(jié)構(gòu),因此為了衡量DPNC-CC 算法的可靠性,有必要對該算法的參數(shù)敏感性做出詳細的分析。我們以CYC2008數(shù)據(jù)集為測試數(shù)據(jù)集,在構(gòu)建出來的網(wǎng)絡(luò)上依次運行MPC-TPW[15]和DPC-NADPIN[16]等兩種復合物識別算法,采用F-measure 指標來評價DPNC-CC 算法的性能。實驗結(jié)果見圖1。仔細觀察圖1 可以發(fā)現(xiàn),隨著th 取值的增大,兩種識別算法的識別性能也在逐步上升,但當th 取值超過0.7之后,兩種識別算法的F-measure 值基本不再波動,這表明通過DPNC-CC 算法構(gòu)建的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)不具有參數(shù)敏感性,可以推廣到蛋白組學的眾多應(yīng)用問題中去。
圖1 DPNC-CC算法的參數(shù)敏感性分析
以DIP 數(shù)據(jù)集為實驗對象,下面以DPNC-CC算法與文獻[4~6]中的算法構(gòu)建得到的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)上運行MPC-TPW 算法進行復合物識別,來測試不同的網(wǎng)絡(luò)構(gòu)建算法的有效性。文中采用K 折交叉驗證(K=10)來進行仿真實驗,取10 次實驗結(jié)果的均值作為各個算法在DIP 數(shù)據(jù)集的復合物識別結(jié)果,見表1。
表1 MPC-TPW算法在各個網(wǎng)絡(luò)上的性能比較
從表1 可以看到,MPC-TPW 算法在本文構(gòu)建的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)(DPNC-CC)上進行復合物識別的查全率和查準率都要優(yōu)于另外的四種算法。F-measure 值要比文獻[4]的算法、文獻[5]的算法和文獻[6]的算法分別高約53%、24%和21%。這主要是因為:本文算法在構(gòu)建動態(tài)蛋白質(zhì)網(wǎng)絡(luò)時,不僅從物理上考慮了蛋白質(zhì)與蛋白質(zhì)之間的距離、拓撲結(jié)構(gòu)等信息對網(wǎng)絡(luò)構(gòu)建的影響,還利用了蛋白質(zhì)的活性周期這一生物信息來衡量蛋白質(zhì)之間的相互作用關(guān)系,較為全面地規(guī)避了蛋白質(zhì)網(wǎng)絡(luò)中可能存在的虛假信息,從而能夠更好地識別蛋白質(zhì)復合物。這也從側(cè)面印證了DPNC-CC算法構(gòu)建的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)更優(yōu)。
下面進一步對DPNC-CC 算法在包含噪聲(假陽性和假陰性)的蛋白質(zhì)相互數(shù)據(jù)集上的性能表現(xiàn)進行實驗分析。首先,我們通過在已經(jīng)構(gòu)建好的蛋白質(zhì)網(wǎng)絡(luò)上隨機增加一定比例的邊數(shù)來模擬數(shù)據(jù)的假陽性。邊數(shù)每次增加20%,增加的尺度從20%上升到100%,可以得到五組包含假陽性的蛋白質(zhì)相互作用數(shù)據(jù),然后采用DPNC-CC 算法對這五組數(shù)據(jù)進行復合物的識別,識別結(jié)果的查準率和查全率如圖2 所示。從圖2 可以明顯觀察到,數(shù)據(jù)假陽性的增加,只會輕微降低DPNC-CC算法的查準率,對于DPNC-CC算法的查全率基本沒有影響。
圖2 數(shù)據(jù)包含假陽性時的DPNC-CC算法性能
最后,我們再次在已經(jīng)構(gòu)建好的蛋白質(zhì)網(wǎng)絡(luò)上隨機刪除一定比例的邊數(shù)來模擬數(shù)據(jù)的假陰性。刪除的邊數(shù)每次增加20%,增加的尺度從20%上升到100%,可以得到五組包含假陰性的蛋白質(zhì)相互作用數(shù)據(jù),然后采用DPNC-CC 算法對這五組數(shù)據(jù)進行復合物的識別,識別結(jié)果的查準率和查全率如圖3 所示。從圖3 可以明顯觀察到,隨著數(shù)據(jù)假陰性的增加,DPNC-CC 算法在前期的查全率和查準率基本保持不變,但當刪除的邊的比例超過45%之后,DPNC-CC 算法的識別質(zhì)量則呈現(xiàn)著明顯下降的趨勢,這主要是由于隨著邊的刪除將會使得蛋白質(zhì)相互作用數(shù)據(jù)中大量真實存在的相互作用被刪除,從而導致算法的識別結(jié)果大大地降低??偟膩砜?,本文算法在包含噪聲的蛋白質(zhì)相互作用數(shù)據(jù)集中的表現(xiàn)是可信的,算法能夠?qū)?shù)據(jù)的動態(tài)變化做出正確響應(yīng),具有較好的魯棒性。
圖3 數(shù)據(jù)包含假陰性時的DPNC-CC算法性能
蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建是蛋白組學中眾多問題研究的基礎(chǔ),文中針對現(xiàn)有構(gòu)建算法存在的不足,提出了一種基于連接強度的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法,并通過仿真實驗驗證了該方法在蛋白質(zhì)復合物識別上的有效性。下一步,我們將在本文的基礎(chǔ)上進一步對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)中的復合物挖掘問題展開研究,力爭為生物學家或醫(yī)學家的工作提供更多的技術(shù)支撐。