王紅梅, 郭真俊, 張麗杰
(長(zhǎng)春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 吉林 長(zhǎng)春 130012)
在生物信息領(lǐng)域,預(yù)測(cè)藥物-靶標(biāo)相互作用對(duì)藥物重定位[1]和藥物發(fā)現(xiàn)[2]具有重要意義。通過(guò)實(shí)驗(yàn)來(lái)預(yù)測(cè)藥物-靶標(biāo)相互作用,實(shí)驗(yàn)成本昂貴又耗時(shí),所以,采取有效方法預(yù)測(cè)潛在的藥物-靶標(biāo)的相互作用很有必要。大量生物實(shí)驗(yàn)數(shù)據(jù)和相關(guān)文獻(xiàn)的出現(xiàn)使生物數(shù)據(jù)庫(kù)越來(lái)越豐富,這有利于計(jì)算方法的發(fā)展。目前主流計(jì)算輔助藥物發(fā)現(xiàn)的方法主要有三種:基于相似性的方法[3]、基于深度學(xué)習(xí)的方法[4]、基于網(wǎng)絡(luò)的方法[5],但它們均有一定的缺陷。由于圖神經(jīng)網(wǎng)絡(luò)在非歐幾里得空間的快速發(fā)展,越來(lái)越多基于圖的算法涌現(xiàn)出來(lái),如圖卷積網(wǎng)絡(luò)、圖注意力網(wǎng)絡(luò)、圖自動(dòng)編碼器、圖嵌入網(wǎng)絡(luò)等。通過(guò)對(duì)數(shù)據(jù)分析,圖神經(jīng)網(wǎng)絡(luò)可以有效處理特定的數(shù)據(jù)結(jié)構(gòu),研究人員將圖神經(jīng)網(wǎng)絡(luò)引入藥物-靶標(biāo)相互作用的預(yù)測(cè),可以探索藥物和靶標(biāo)的深度信息,有利于藥物發(fā)現(xiàn),提高實(shí)驗(yàn)速度,降低實(shí)驗(yàn)成本。
神經(jīng)網(wǎng)絡(luò)最初是由Sperduti A等[6]應(yīng)用在有向無(wú)環(huán)圖上,促使了圖神經(jīng)網(wǎng)絡(luò)(GNN)的發(fā)展。Gori M等[7]最先提出圖神經(jīng)網(wǎng)絡(luò)的概念。Scarselli F等[8]和Gallicchio C等[9]對(duì)圖神經(jīng)網(wǎng)絡(luò)做了進(jìn)一步闡述。由于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在視覺領(lǐng)域的成功發(fā)展,圖卷積的概念被提了出來(lái),分為基于頻譜和基于空域兩種類型。由于卷積神經(jīng)網(wǎng)絡(luò)的興起,基于頻域的卷積網(wǎng)絡(luò)ChebNet[10]、GCN[11]、CayleyNet[12]的改進(jìn)和擴(kuò)展不斷增加。基于空域的卷積神經(jīng)網(wǎng)絡(luò)研究遠(yuǎn)早于基于頻域的卷積神經(jīng)網(wǎng)絡(luò),DCNN[13]、PATCHY-SAN[14]、MPNN[15]、GraphSage[16]對(duì)基于空域的卷積網(wǎng)絡(luò)進(jìn)行了不斷改進(jìn)。Perozzi B等[17]提出圖嵌入網(wǎng)絡(luò)中最基本的深度隨機(jī)游走算法,除了能處理同構(gòu)圖外。Chen S等[18]提出基于異構(gòu)網(wǎng)絡(luò)的圖嵌入方法。近幾年來(lái),許多圖神經(jīng)網(wǎng)絡(luò)的變體被開發(fā)出來(lái),包括門控圖神經(jīng)網(wǎng)絡(luò)、圖注意力網(wǎng)絡(luò)、圖自動(dòng)編碼器網(wǎng)絡(luò)、圖嵌入網(wǎng)絡(luò)等。
Lim J等[19]提出一種使用圖神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)藥物-靶標(biāo)相互作用。使用圖神經(jīng)網(wǎng)絡(luò)直接將蛋白質(zhì)-配體復(fù)合物的三維結(jié)構(gòu)信息嵌入到鄰接矩陣,可以通過(guò)鄰接矩陣了解蛋白質(zhì)-配體相互作用如何影響每個(gè)原子的節(jié)點(diǎn)特征,相比用網(wǎng)格表示三維結(jié)構(gòu),鄰接矩陣是緊湊和旋轉(zhuǎn)不變的,比網(wǎng)格更能有效表達(dá)原子間的精確距離。為了區(qū)分每個(gè)相互作用對(duì)預(yù)測(cè)的影響,還設(shè)計(jì)了距離感知圖注意力機(jī)制[20]算法區(qū)分不同類型的分子間相互作用,此外,通過(guò)從復(fù)合物的圖形特征中減去靶蛋白和給定配體的每個(gè)特征而獲得的圖形特征來(lái)進(jìn)行差熱分析預(yù)測(cè)。這些方法使模型能夠通過(guò)關(guān)注分子間相互作用,而不是僅僅記住配體分子的某些模式來(lái)學(xué)習(xí)準(zhǔn)確的藥物-靶標(biāo)相互作用預(yù)測(cè)。
Wang S等[21]提出一個(gè)簡(jiǎn)單而高效的基于殘差圖神經(jīng)網(wǎng)絡(luò)和注意力的配體-蛋白質(zhì)結(jié)合預(yù)測(cè)模型(GanDTI)。該模型采用殘差圖神經(jīng)網(wǎng)絡(luò)來(lái)處理復(fù)合指紋數(shù)據(jù),并形成一個(gè)向量,該向量可以將基于產(chǎn)品的注意力投射到蛋白質(zhì)序列上,以確定序列上哪部分對(duì)預(yù)測(cè)相互作用的影響最大,然后,將得到具有豐富信息的復(fù)合載體和蛋白質(zhì)特征載體連接起來(lái),通過(guò)多層感知器進(jìn)行處理,提高了藥物-靶標(biāo)相互作用預(yù)測(cè)的有效性。
Cheng Z等[22]提出一個(gè)基于多頭自注意力機(jī)制和圖注意力網(wǎng)絡(luò)的藥物-靶標(biāo)相互作用預(yù)測(cè)模型(MHSADTI)。該模型在提取蛋白質(zhì)特征時(shí),使用全連接的自注意力機(jī)制模塊來(lái)學(xué)習(xí)具有變壓器編碼器結(jié)構(gòu)的氨基酸序列的特征信息,為了通過(guò)藥物-蛋白質(zhì)注意力網(wǎng)絡(luò)模塊預(yù)測(cè)其相互作用,使用注意力分?jǐn)?shù)來(lái)判斷蛋白質(zhì)中的氨基酸子序列對(duì)藥物的重要程度。多頭自注意力機(jī)制不僅可以解決卷積神經(jīng)網(wǎng)絡(luò)(CNN)無(wú)法獲取上下文關(guān)聯(lián)信息的問題,同時(shí),如果氨基酸序列長(zhǎng)度過(guò)長(zhǎng),還可以獲得RNN、LSTM等結(jié)構(gòu)無(wú)法學(xué)習(xí)的序列中的長(zhǎng)依賴信息。在提取藥物特征時(shí),因?yàn)閳D注意力網(wǎng)絡(luò)可對(duì)不同鄰域內(nèi)的不同節(jié)點(diǎn)指定不同權(quán)重,所以,使用圖注意力網(wǎng)絡(luò)代替了圖卷積網(wǎng)絡(luò),避免了噪聲對(duì)圖中節(jié)點(diǎn)產(chǎn)生影響,并且進(jìn)一步提高了圖的代表性特征向量的有效性,拼接藥物和蛋白質(zhì)的特征通過(guò)全連接層和分類器進(jìn)行藥物-靶標(biāo)相互作用預(yù)測(cè)。
盡管此模型的性能不錯(cuò),但是在模型的數(shù)據(jù)輸入中,只使用了藥物和蛋白質(zhì)的結(jié)構(gòu)特征信息中的一維數(shù)據(jù)表示,然而,藥物和蛋白質(zhì)實(shí)際上具有很復(fù)雜的空間結(jié)構(gòu),導(dǎo)致在預(yù)測(cè)中丟失了很多藥物和蛋白質(zhì)的高級(jí)特征信息。其次,在模型的輸入中,該模型只使用了藥物和蛋白質(zhì)的生物表示數(shù)據(jù),未能將更全面的生物數(shù)據(jù)整合到深度學(xué)習(xí)模型中以提高預(yù)測(cè)性能。
Lu Z等[23]提出一種異構(gòu)網(wǎng)絡(luò)嵌入模型來(lái)預(yù)測(cè)藥物與靶標(biāo)的相互作用(HNEDTI)。該模型通過(guò)為藥物相似度矩陣和靶標(biāo)相似度矩陣分別設(shè)置兩個(gè)相似度閾值參數(shù),過(guò)濾相似度較低的邊,然后用已知的藥物相關(guān)網(wǎng)絡(luò)和靶標(biāo)相關(guān)網(wǎng)絡(luò)構(gòu)建藥物-靶標(biāo)異質(zhì)網(wǎng)絡(luò)。該模型可以通過(guò)從不同長(zhǎng)度的元路徑中提取異構(gòu)網(wǎng)絡(luò)的局部和全局信息,不僅解決了大多數(shù)基于網(wǎng)絡(luò)的方法不能發(fā)現(xiàn)全局網(wǎng)絡(luò)信息的問題,同時(shí),與傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法相比,該方法可以更準(zhǔn)確地學(xué)習(xí)藥物和靶標(biāo)的特征表示。最后將藥物和靶標(biāo)的低維特征表示向量通過(guò)隨機(jī)森林模型,預(yù)測(cè)給定的藥物-靶標(biāo)對(duì)是否存在相互作用。
Hu F等[24]提出一種基于關(guān)系拓?fù)涞漠悩?gòu)網(wǎng)絡(luò)嵌入方法來(lái)預(yù)測(cè)藥物與靶標(biāo)的相互作用(RTHNE_DTI)。該模型利用藥物和靶標(biāo)之間豐富的外部關(guān)系構(gòu)建了一個(gè)異構(gòu)網(wǎng)絡(luò),根據(jù)異構(gòu)網(wǎng)絡(luò)中節(jié)點(diǎn)之間關(guān)系的不同拓?fù)浣Y(jié)構(gòu),考慮藥物與靶標(biāo)的拓?fù)浣Y(jié)構(gòu)和不同的關(guān)系類型,將關(guān)系分為從屬關(guān)系和對(duì)等關(guān)系兩種類型,并為它們構(gòu)建不同的模型,以更好地捕捉節(jié)點(diǎn)之間豐富的拓?fù)湫畔⒓罢Z(yǔ)義信息,該方法解決了傳統(tǒng)的異構(gòu)網(wǎng)絡(luò)方法中使用單一模型處理所有關(guān)系的問題。該模型在帶有標(biāo)簽的網(wǎng)絡(luò)和未帶標(biāo)簽的網(wǎng)絡(luò)都能獲得不錯(cuò)的預(yù)測(cè)性能。
Cheung M等[25]提出一種圖神經(jīng)網(wǎng)絡(luò)模型(GNNs)用于新冠肺炎(COVID-19)藥物發(fā)現(xiàn)。該模型是將拓?fù)渥赃m應(yīng)圖卷積網(wǎng)絡(luò)(TAGCN)應(yīng)用到消息傳遞網(wǎng)絡(luò)(MPNN)中,得到拓?fù)渥赃m應(yīng)消息傳遞神經(jīng)網(wǎng)絡(luò)(TAMPNN),通過(guò)將聚合節(jié)點(diǎn)的K階鄰居信息,應(yīng)用非線性激活函數(shù)進(jìn)行預(yù)測(cè),在兩個(gè)冠狀病毒數(shù)據(jù)集上表現(xiàn)良好,有助于新冠肺炎(COVID-19)藥物的發(fā)現(xiàn)。
Gao K Y等[26]提出一個(gè)端到端神經(jīng)網(wǎng)絡(luò)模型(E2E),直接從低層表示預(yù)測(cè)藥物-靶標(biāo)相互作用。該模型將原始信息作為輸入,使用長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)和基于圖卷積神經(jīng)網(wǎng)絡(luò)將蛋白質(zhì)和藥物結(jié)構(gòu)投影到密集的向量空間中,為了區(qū)分每個(gè)相互作用對(duì)預(yù)測(cè)的影響,使用雙向注意力機(jī)制計(jì)算藥物和蛋白質(zhì)之間如何相互作用,最后,基于注意力的向量表示通過(guò)分類器進(jìn)行預(yù)測(cè)。由于已知只有小部分蛋白質(zhì)是化合物的目標(biāo),該方法能夠很好地推廣到新蛋白質(zhì)(在訓(xùn)練數(shù)據(jù)中未看到的),這有利于藥物發(fā)現(xiàn)。
Torny W等[27]提出一個(gè)圖卷積框架來(lái)預(yù)測(cè)蛋白質(zhì)與配體的相互作用(Graph-CNN)。首先,該模型構(gòu)建了一個(gè)無(wú)監(jiān)督圖自動(dòng)編碼器,從一組有代表性的藥物-蛋白質(zhì)結(jié)合位點(diǎn)學(xué)習(xí)固定大小的蛋白質(zhì)口袋表示。其次,由于模型訓(xùn)練完全是由綁定的分類標(biāo)簽驅(qū)動(dòng)的,所以分別構(gòu)建一個(gè)口袋圖和一個(gè)配體圖,從口袋圖和二維配體圖中自動(dòng)提取特征,不需要蛋白質(zhì)配體復(fù)合物作為輸入。最后,該模型通過(guò)一個(gè)全連接層預(yù)測(cè)蛋白質(zhì)和配體之間的相互作用。
Manoochehri H E等[28]提出用圖卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)藥物-靶標(biāo)的相互作用。該方法將藥物-靶標(biāo)的相互作用預(yù)測(cè)建模為圖上的多標(biāo)簽鏈接預(yù)測(cè)問題,考慮不同的邊類型,通過(guò)用圖卷積編碼器為異構(gòu)圖中的每個(gè)節(jié)點(diǎn)創(chuàng)建特征向量,解碼器通過(guò)特征向量捕獲藥物-蛋白質(zhì)的相互作用,重構(gòu)邊標(biāo)簽,通過(guò)損失函數(shù)進(jìn)行優(yōu)化,是一個(gè)以端到端的方式直接在完整的異構(gòu)圖上應(yīng)用編碼器和解碼器技術(shù)。該方法是將原來(lái)GraphSage[16]方法擴(kuò)展到異構(gòu)藥物-靶標(biāo)網(wǎng)絡(luò),將不同類型的相互作用產(chǎn)生的嵌入用獨(dú)立的權(quán)重進(jìn)行聚合,并將不同類型鏈接聚合的嵌入簡(jiǎn)單總結(jié),無(wú)區(qū)別地生成最終嵌入。
Jin X等[29]提出一種多分辨協(xié)作異構(gòu)圖卷積自動(dòng)編碼器(MRCH-GCAE)預(yù)測(cè)藥物-靶標(biāo)相互作用。該模型首先在每個(gè)圖卷積層中使用獨(dú)立的卷積核,協(xié)同聚合來(lái)自異構(gòu)藥物靶點(diǎn)網(wǎng)絡(luò)中不同類型鏈接學(xué)習(xí)到的嵌入信息,然后將來(lái)自異構(gòu)鏈接的聚合嵌入的三種信息進(jìn)行拼接,將連接后的嵌入輸入到一個(gè)密集神經(jīng)網(wǎng)絡(luò)中,生成節(jié)點(diǎn)的嵌入,在集成步驟中,將不斷增加的圖卷積層的輸出嵌入序列輸入到圖循環(huán)單元網(wǎng)絡(luò)(GRUs)中,以發(fā)現(xiàn)序列之間的潛在關(guān)聯(lián),最后將GRU的輸出狀態(tài)與最后一個(gè)圖卷積層的輸出嵌入相連接,生成最終的嵌入。
Zhao T等[30]提出使用圖卷積網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)藥物-靶標(biāo)的相互作用(GCN-DTI)。該模型將邊預(yù)測(cè)問題轉(zhuǎn)換為DPP分類問題。首先,通過(guò)整合多種交互構(gòu)建由任何藥物和蛋白質(zhì)構(gòu)成的DPP網(wǎng)絡(luò),使用圖卷積網(wǎng)絡(luò)從DPP網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)中學(xué)習(xí)每個(gè)DPP的特征,最后使用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)DPP的標(biāo)簽。其次,將特征表示作為輸入,使用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)最終的標(biāo)簽。
Cheng S等[331]提出一個(gè)端到端網(wǎng)絡(luò)模型(GraphMs),從低層表示預(yù)測(cè)藥物-靶標(biāo)相互作用。首先該方法遵循NeoDTI[32]的思想,將每個(gè)節(jié)點(diǎn)(不包括同一類型的節(jié)點(diǎn))的鄰域信息與其自身的嵌入集成到一個(gè)更豐富的特征表示中,將得到的特征表示使用圖卷積網(wǎng)絡(luò)編碼器計(jì)算節(jié)點(diǎn)級(jí)表示,對(duì)于藥物表示,將藥物鄰接矩陣即同構(gòu)矩陣加到其中一個(gè)單位矩陣上,然后利用拉普拉斯分解得到網(wǎng)絡(luò)矩陣,類似地,蛋白質(zhì)表示向量通過(guò)相同的步驟進(jìn)行處理。為了保證節(jié)點(diǎn)表示的可靠性,使用了互信息來(lái)衡量節(jié)點(diǎn)級(jí)和圖級(jí)表示之間的相關(guān)性,在預(yù)測(cè)部分,提出端到端的自動(dòng)編碼器預(yù)測(cè)藥物-靶標(biāo)的相互作用,有利于藥物發(fā)現(xiàn)。由于在使用圖卷積神經(jīng)網(wǎng)絡(luò)嵌入圖級(jí)表示時(shí),訓(xùn)練參數(shù)較大,會(huì)導(dǎo)致模型訓(xùn)練時(shí)間較長(zhǎng),所以,可以考慮使用加速算法提高計(jì)算效率。
Peng J等[33]提出一個(gè)基于異構(gòu)圖卷積網(wǎng)絡(luò)的端到端框架預(yù)測(cè)藥物-靶標(biāo)相互作用(EEG-DTI)。該模型結(jié)合多個(gè)生物網(wǎng)絡(luò)構(gòu)建異構(gòu)網(wǎng)絡(luò),使用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)異構(gòu)網(wǎng)絡(luò)中的邊類型信息進(jìn)行建模,得到所有節(jié)點(diǎn)在每一層的特征表示,使用三個(gè)圖卷積層,聚集了節(jié)點(diǎn)的三階鄰居信息,為了防止出現(xiàn)梯度消失等問題,將節(jié)點(diǎn)每一層的特征表示拼接起來(lái),得到蛋白質(zhì)和藥物的特征表示,最后通過(guò)全連接層,使用內(nèi)積的方法預(yù)測(cè)藥物-靶標(biāo)之間的相互作用概率。
Zhao B W等[34]提出一種基于大規(guī)模圖形表示學(xué)習(xí)的藥物-靶標(biāo)相互作用預(yù)測(cè)方法(LGDTI)。該方法可以學(xué)習(xí)關(guān)于節(jié)點(diǎn)的三種信息,包括節(jié)點(diǎn)的屬性、局部結(jié)構(gòu)和全局結(jié)構(gòu)。具體來(lái)說(shuō),使用圖卷積網(wǎng)絡(luò)聚合圖中節(jié)點(diǎn)的一階鄰域信息,一階鄰域信息包含節(jié)點(diǎn)屬性,使用分子指紋技術(shù)[35]提取藥物屬性,使用K-mer[36]方法提取靶標(biāo)屬性;另一方面,使用隨機(jī)游走的方法對(duì)圖進(jìn)行采樣,從采樣獲得的序列來(lái)訓(xùn)練Skip-gram模型學(xué)習(xí)節(jié)點(diǎn)的高階鄰域信息,高階鄰域信息包含節(jié)點(diǎn)的整個(gè)網(wǎng)絡(luò)信息。最后,將這兩種特征輸入隨機(jī)森林分類器,訓(xùn)練和預(yù)測(cè)潛在的藥物-靶標(biāo)相互作用。
14種基于圖神經(jīng)網(wǎng)絡(luò)的藥物-靶標(biāo)相互作用預(yù)測(cè)算法見表1。
表1 基于圖神經(jīng)網(wǎng)絡(luò)的藥物-靶標(biāo)相互作用預(yù)測(cè)方法
由表1可以看出,圖神經(jīng)網(wǎng)絡(luò)對(duì)于藥物-靶標(biāo)相互作用的預(yù)測(cè)具有較好的性能?,F(xiàn)有的一般方法主要分為特征提取和預(yù)測(cè)兩個(gè)步驟,經(jīng)過(guò)不斷改進(jìn),提出端到端的預(yù)測(cè)模型,可以在預(yù)測(cè)任務(wù)中優(yōu)化特征提取步驟中涉及的參數(shù),而在實(shí)際圖中,每個(gè)節(jié)點(diǎn)的特征通常由各種屬性組成,節(jié)點(diǎn)關(guān)系相當(dāng)復(fù)雜,因此節(jié)點(diǎn)的特征提取也是多維和多角度的,針對(duì)以上方法,圖表示學(xué)習(xí)的方法被提出來(lái)深入了解已知藥物和靶標(biāo)關(guān)聯(lián)網(wǎng)絡(luò),提取更復(fù)雜生物網(wǎng)絡(luò)中藥物和目標(biāo)的隱藏特征。以上計(jì)算方法均是可擴(kuò)展的,除了用于藥物-靶標(biāo)相互作用的預(yù)測(cè)外,還可用于預(yù)測(cè)其他生物學(xué)鏈接,如藥物-藥物相互作用、藥物-疾病關(guān)聯(lián)、疾病-疾病關(guān)聯(lián)等。雖然以上準(zhǔn)確并高效的計(jì)算模型可以提高藥物-靶標(biāo)相互作用的識(shí)別過(guò)程,但學(xué)業(yè)界和工業(yè)界仍然存在較大差距。未來(lái)還可以開發(fā)出更高效的計(jì)算方法,保證性能準(zhǔn)確性的同時(shí)提高預(yù)測(cè)效率,比如可以考慮處理加權(quán)網(wǎng)絡(luò)或者有向網(wǎng)絡(luò),挖掘更多的深層信息,加快藥物研發(fā)速度。
為了支持上述方法,許多優(yōu)秀團(tuán)隊(duì)制作并公開發(fā)布了用于預(yù)測(cè)的數(shù)據(jù)集,這些數(shù)據(jù)集包含不同類型的藥物相關(guān)信息。2008年,Yamanishi等[3]制作出四種藥物-靶標(biāo)相互作用網(wǎng)絡(luò),包括酶(E)、離子通道(IC)、g蛋白偶聯(lián)受體(GPCR)和核受體(NR)。
2009年,Keshava等[37]創(chuàng)建數(shù)據(jù)集HPDR;Kuhn M等[38]在2010年創(chuàng)建數(shù)據(jù)集SIDER,同年,Knox C等[39]創(chuàng)建了數(shù)據(jù)集DrugBank(3.0);Wishart S等[40]在2018年更新了數(shù)據(jù)集DrugBank(5.0),2013年數(shù)據(jù)集CTD[41]被創(chuàng)建出來(lái);Luo Y等[42]在2017年將以上四種數(shù)據(jù)集構(gòu)建了一個(gè)異構(gòu)網(wǎng)絡(luò)來(lái)預(yù)測(cè)潛在的藥物-靶標(biāo)相互作用。
2012年,Mysinger M M等[43]創(chuàng)建數(shù)據(jù)集DUD-E;2015年,Liu H等[44]通過(guò)負(fù)采樣方法創(chuàng)建數(shù)據(jù)集Human和C.elegans;2016年,Gilson M K等[45]創(chuàng)建數(shù)據(jù)集BindingDB;2017年,Liu Z等[46]創(chuàng)建數(shù)據(jù)集PDBbind。
數(shù)據(jù)集的詳細(xì)信息見表2。
表2 數(shù)據(jù)集詳細(xì)信息
表2數(shù)據(jù)集除了用來(lái)預(yù)測(cè)藥物-靶標(biāo)的相互作用之外,還可以用來(lái)預(yù)測(cè)藥物-藥物相互作用、藥物-疾病關(guān)聯(lián)、疾病-疾病關(guān)聯(lián)以及蛋白質(zhì)相互作用等[47]其它生物學(xué)鏈接。
隨著生物信息學(xué)及深度學(xué)習(xí)鄰域相關(guān)研究的發(fā)展,基于圖神經(jīng)網(wǎng)絡(luò)的藥物-靶標(biāo)相互作用預(yù)測(cè)方法成為新藥物研發(fā)和藥物重定位的重要手段。文中對(duì)基于圖神經(jīng)網(wǎng)絡(luò)的藥物-靶標(biāo)相互作用預(yù)測(cè)方法進(jìn)行綜述,簡(jiǎn)要概述圖神經(jīng)網(wǎng)絡(luò)近年來(lái)的發(fā)展歷程,詳細(xì)闡述圖神經(jīng)網(wǎng)絡(luò)變體用于預(yù)測(cè)藥物-靶標(biāo)相互作用的方法,包括圖注意力網(wǎng)絡(luò)、圖嵌入網(wǎng)絡(luò)、圖卷積神經(jīng)網(wǎng)絡(luò),最后,總結(jié)已公開發(fā)布用于預(yù)測(cè)的數(shù)據(jù)集。
目前,預(yù)測(cè)藥物-靶標(biāo)相互作用在不同的方向均有好的研究成果,未來(lái)預(yù)測(cè)藥物-靶標(biāo)相互作用需要在保證預(yù)測(cè)準(zhǔn)確率的同時(shí),提高預(yù)測(cè)速度,為生物實(shí)驗(yàn)提高潛在候選靶標(biāo)的概率,縮短藥物研發(fā)周期,降低實(shí)驗(yàn)研發(fā)成本。
長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào)2021年4期