徐 婷, 龔家瑜, 宋 暉
(東華大學 計算機科學與技術(shù)學院, 上海 201620)
在醫(yī)藥行業(yè)中,研究一種新的藥物所耗費的周期長、投資大、風險高,但成功率卻一直偏低。現(xiàn)如今,網(wǎng)絡(luò)藥理學飛速發(fā)展,藥物重定位被認為是藥物研發(fā)策略中風險和效益比最好的策略之一。研究表明,導(dǎo)致相同類似藥理作用的分子一般在同一個生物模塊內(nèi),如蛋白質(zhì)復(fù)合體[1]、代謝通路[2]和蛋白質(zhì)網(wǎng)絡(luò)[3]。因此,可以利用這種模塊性及已知的藥物-蛋白作用特性預(yù)測潛在的新的關(guān)聯(lián)。目前,基于網(wǎng)絡(luò)的藥物-蛋白質(zhì)關(guān)聯(lián)性預(yù)測方法大致可劃分為2類,即單源網(wǎng)絡(luò)方法和多源網(wǎng)絡(luò)整合方法。單源網(wǎng)絡(luò)方法多采用蛋白質(zhì)網(wǎng)絡(luò)進行藥物-蛋白質(zhì)的關(guān)聯(lián)性預(yù)測。多源網(wǎng)絡(luò)整合方法將多源網(wǎng)絡(luò)(如蛋白相似性網(wǎng)絡(luò)、藥物相似性網(wǎng)絡(luò))信息進行潛在關(guān)聯(lián)性預(yù)測。如Lage[5]等人利用貝葉斯模型整合蛋白相似性網(wǎng)絡(luò)和藥物相似性網(wǎng)絡(luò),實現(xiàn)對藥物相關(guān)蛋白質(zhì)復(fù)合物的預(yù)測; Li等人[7]基于藥物-蛋白質(zhì)二元網(wǎng)絡(luò),提出二元網(wǎng)絡(luò)重啟隨機游走算法來實現(xiàn)關(guān)聯(lián)性預(yù)測,該方法可提高藥物-蛋白質(zhì)關(guān)聯(lián)性預(yù)測準確率,但構(gòu)造的狀態(tài)轉(zhuǎn)移矩陣較為稀疏,這種策略可能遺漏蛋白質(zhì)網(wǎng)絡(luò)中的局部拓撲信息,導(dǎo)致預(yù)測性降低。本文提出一種異構(gòu)網(wǎng)絡(luò)異步重啟隨機游走算法,將藥物網(wǎng)絡(luò)、蛋白質(zhì)網(wǎng)絡(luò)及藥物-蛋白質(zhì)二分圖網(wǎng)絡(luò)三者構(gòu)建為異構(gòu)網(wǎng)絡(luò),并在內(nèi)進行隨機游走和網(wǎng)絡(luò)間的跳轉(zhuǎn),最后驗證算法的有效性。
蛋白質(zhì)相似性數(shù)據(jù)來源于UniProt數(shù)據(jù)庫,包含313個節(jié)點,其鄰接矩陣用AP表示,該網(wǎng)絡(luò)反映蛋白質(zhì)與蛋白質(zhì)之間的量化相似性關(guān)系。蛋白-蛋白相似性網(wǎng)絡(luò)中的節(jié)點表示靶標蛋白,而蛋白質(zhì)之間的相似程度則由鄰邊權(quán)重來量化,取值范圍為[0,1],越接近1則表示相似程度越高。
圖1 藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò)模型
DRWRP算法基本思想:在建立的多個網(wǎng)絡(luò)中,從某一節(jié)點出發(fā),按照一定概率向相鄰的節(jié)點跳轉(zhuǎn),下一個節(jié)點即為下一個狀態(tài),重復(fù)初始狀態(tài)行為。網(wǎng)絡(luò)中的所有節(jié)點都可進行跳轉(zhuǎn)。具體過程類似于數(shù)學中的馬爾科夫鏈。算法的數(shù)學表示如下:
Pt+1=(1-λ)MPt+λP0
(1)
其中,P0表示初始游走概率向量;Pt表示為t時刻的狀態(tài),這個狀態(tài)和初始狀態(tài)相似;λ是經(jīng)驗參數(shù)[λ∈(0,1)],用來確定重啟概率;M是轉(zhuǎn)移矩陣,反映網(wǎng)絡(luò)的拓撲特性。本文認為當t+1時刻的狀態(tài)Pt+1與前一時刻的狀態(tài)Pt的范數(shù)收斂到某個很小的值ε的時候,游走不再進行,整個網(wǎng)絡(luò)處于靜止狀態(tài),在實驗中,將ε設(shè)為10-6。對靜止的網(wǎng)絡(luò)進行得分計算,對于某一個節(jié)點來講,可以計算出下一步跳轉(zhuǎn)到任一節(jié)點的概率,根據(jù)把下一節(jié)點按照概率由大到小進行排序,從而進行推薦。本文采用的異構(gòu)網(wǎng)絡(luò)存在2種游走,第一種為同源節(jié)點網(wǎng)絡(luò)內(nèi)的游走,即藥物-藥物相似性網(wǎng)絡(luò)和蛋白-蛋白相似性網(wǎng)絡(luò),第二種為異源節(jié)點網(wǎng)絡(luò)間的游走,即藥物-蛋白質(zhì)相似性網(wǎng)絡(luò)中游走。DRWRP算法狀態(tài)轉(zhuǎn)移概率矩陣定義為:
(2)
其中,(1-α)為節(jié)點隨機游走后停止的概率;MP為蛋白相似性網(wǎng)絡(luò)狀態(tài)轉(zhuǎn)移矩陣;MD為藥物相似性網(wǎng)絡(luò)的狀態(tài)轉(zhuǎn)移矩陣;MPD為從蛋白相似性網(wǎng)絡(luò)到藥物相似性網(wǎng)絡(luò)的狀態(tài)轉(zhuǎn)移概率矩陣;MDP為從藥物性相似性網(wǎng)絡(luò)到蛋白相似性網(wǎng)絡(luò)的狀態(tài)轉(zhuǎn)移概率矩陣。
蛋白pi跳轉(zhuǎn)到蛋白pj的轉(zhuǎn)移概率定義為:
(MP)ij=P(pi|pj)=(AP)ij/∑j(AP)ij
(3)
藥物di跳轉(zhuǎn)到藥物dj的轉(zhuǎn)移概率定義為:
(MD)ij=P(di|dj)=(AD)ij/∑j(AD)ij
(4)
蛋白pi跳轉(zhuǎn)到藥物dj的轉(zhuǎn)移概率定義為:
(MPD)ij=P(dj|pi)=
(5)
藥物di跳轉(zhuǎn)到蛋白pj的轉(zhuǎn)移概率定義為:
(MDP)ij=P(pj|di)=
(6)
初始游走概率向量定義為:
(7)
DRWRP算法具體描述如下:
輸入:狀態(tài)轉(zhuǎn)移矩陣M,初始游走概率向量P0和重啟的概率λ。
輸出:蛋白關(guān)聯(lián)性得分μ。
步驟:
(1)初始化P值為P0;
(2)初始化Pt的值為P;
(3)對Pt+1進行迭代;
(4)重復(fù)步驟(3)直至‖Pt+1-Pt‖1≤10-6;
(5)將蛋白按照關(guān)聯(lián)性得分μ的值按照降序排列;
(6)輸出排在前p%的蛋白作為算法識別的關(guān)聯(lián)性蛋白。
本文以藥物DB00619為例,根據(jù)DrugBank數(shù)據(jù)庫的記錄, 該藥物的靶標蛋白有9個,在上述篩選的數(shù)據(jù)庫中有8個對應(yīng)的靶標蛋白。本文選取準確率作為評價指標,對計算結(jié)果先排序后篩選,選擇排列在前1%、5%、10%、15%的蛋白質(zhì)作為識別的關(guān)聯(lián)性蛋白,再與已知的靶標蛋白數(shù)據(jù)集進行比對。實驗結(jié)果如圖2所示。
圖2 DRWRP與其它關(guān)聯(lián)研究方法比較
Fig.2ComparisonofDRWRPandothercorrelationresearchmethods
從圖2可知,本文提出的DRWRP算法識別的關(guān)聯(lián)蛋白質(zhì)數(shù)量與采用DRCF算法、DPR算法和RWR算法識別的關(guān)聯(lián)蛋白質(zhì)數(shù)量相比明顯更多。無論是在前1%、前5%、前10%,還是前15%的樣本水平上,DRWRP算法的預(yù)測命中率都比其它算法高15%以上??傮w來說,DRWRP算法具有較好的預(yù)測性能。
在上式中,對參數(shù)α和參數(shù)λ的取值都采用了經(jīng)驗值0.5。為了研究這2個參數(shù)對DRWRP算法預(yù)測性能的影響,先固定其中一個為0.5,然后調(diào)整另一個參數(shù)。實驗結(jié)果如圖3和圖4所示。結(jié)果表明,當α=0.5,λ=0.5時,DRWRP算法的性能總體上最高。
圖3 參數(shù)λ對DRWRP預(yù)測準確性的影響
圖4 參數(shù)α對DRWRP預(yù)測準確性的影響
本文提出了一種異構(gòu)網(wǎng)絡(luò)異步重啟游走算法,構(gòu)建了藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò),深層次挖掘藥物與蛋白質(zhì)之間的潛在關(guān)聯(lián)性。該算法分別在藥物-藥物相似性網(wǎng)絡(luò)、蛋白質(zhì)-蛋白質(zhì)相似性網(wǎng)絡(luò)以及藥物-蛋白質(zhì)二分圖網(wǎng)絡(luò)中進行隨機游走,然后在網(wǎng)絡(luò)間不停跳轉(zhuǎn),反復(fù)迭代后形成穩(wěn)態(tài)概率向量,最終得到藥物與蛋白質(zhì)間的潛在最優(yōu)關(guān)聯(lián)。對已知藥物靶標蛋白的驗證結(jié)果表明,與現(xiàn)有的隨機游走算法和推薦算法相比,DRWRP算法體現(xiàn)出更好的預(yù)測性能。