李大舟,陳思思,高 巍,于錦濤
(沈陽(yáng)化工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 沈陽(yáng) 110142)
近年來(lái),藥物發(fā)現(xiàn)的技術(shù)和水平在不斷進(jìn)步,促進(jìn)了生物制劑技術(shù)和生物制藥開發(fā)的不斷發(fā)展。藥物發(fā)現(xiàn)是人類發(fā)現(xiàn)潛在新型藥物的過程,一般是通過將化合物庫(kù)、天然物質(zhì)或提取物的合成小分子在完整細(xì)胞或整個(gè)生物體上進(jìn)行表型篩選,從而識(shí)別在過程中具有理想治療效果的物質(zhì)[1]。由于藥物發(fā)現(xiàn)的進(jìn)步,制成的藥劑使得許多的疾病得以預(yù)防和治療。然而,由于目前醫(yī)學(xué)水平的限制,仍有許多疾病無(wú)法得以攻克,并且不斷有新型的病癥出現(xiàn),所以進(jìn)行新型藥物的研究和開發(fā)的需求十分迫切。
藥物中包含了特定的化合物分子,人體內(nèi)的大部分化學(xué)反應(yīng)都有蛋白質(zhì)的參與,因此,掌握化合物-蛋白質(zhì)相互作用(compound-protein Interaction,CPIs)在藥物發(fā)現(xiàn)上有著重要的作用,研究人員可以通過CPI識(shí)別篩選出有效的化合物,并且可以了解藥物產(chǎn)生副作用的原因。然而,通過生物實(shí)驗(yàn)的方法來(lái)確定CPI十分耗時(shí)且費(fèi)用高昂[2]。人類已知的蛋白質(zhì)類型和化合物類型眾多,若通過生物實(shí)驗(yàn)的方法來(lái)一一驗(yàn)證它們之間是否存在相互作用,這幾乎很難完成的。因此,人們提出通過計(jì)算預(yù)測(cè)方法輔助CPI的研究,讓計(jì)算機(jī)來(lái)分析數(shù)據(jù)并進(jìn)行預(yù)測(cè),進(jìn)而提高藥物發(fā)現(xiàn)的速度。
隨著人工智能的快速發(fā)展,機(jī)器學(xué)習(xí)(machine learning)已經(jīng)應(yīng)用于生活中的不同領(lǐng)域。使用傳統(tǒng)機(jī)器學(xué)習(xí)識(shí)別CPI的研究在不斷進(jìn)步。2004年,Bredel和Jacoby[3]提出了一種從化學(xué)基因組學(xué)角度開發(fā)的預(yù)測(cè)方法,在統(tǒng)一的模型中同時(shí)考慮化合物和蛋白質(zhì)的信息。在此之后,各種基于此想法的CPI預(yù)測(cè)模型不斷被提出。例如,在2008年,Jacob和Vert[4]利用化學(xué)結(jié)構(gòu)和蛋白質(zhì)家族之間的張量積作為特征,應(yīng)用成對(duì)核的支持向量機(jī)來(lái)預(yù)測(cè)CPI。在2009年,Bleakley和Yamanishi[5]提出二部局部模型(BLM),利用化學(xué)結(jié)構(gòu)和蛋白質(zhì)的氨基酸序列之間的相似性度量,應(yīng)用具有已知相互作用的支持向量機(jī)來(lái)預(yù)測(cè)CPI。為了降低化學(xué)基因組學(xué)空間的維度,在2012年,Cheng[6]提出使用特征選擇技術(shù),使用選擇后的特征訓(xùn)練支持向量機(jī)。在2013年,Tabei和Yamanishi[7]提出使用哈希算法改進(jìn)線性支持向量機(jī)的預(yù)測(cè)性能,一次獲得化合物-蛋白質(zhì)對(duì)的指紋。
傳統(tǒng)的機(jī)器學(xué)習(xí)往往由多個(gè)獨(dú)立的模塊組成,需要多個(gè)處理步驟,并且每一步的結(jié)果會(huì)影響下一步驟的好壞,而端到端的深度學(xué)習(xí)模型可以自動(dòng)學(xué)習(xí)特征,且擁有學(xué)習(xí)海量數(shù)據(jù)的能力和強(qiáng)大的擬合能力,只需在輸入端輸入原始數(shù)據(jù),模型自動(dòng)在中間層提取數(shù)據(jù)的特征,最后在輸出端得到預(yù)測(cè)結(jié)果。在2016年,Kipf等人[8]提出圖神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN),該網(wǎng)絡(luò)能夠處理具有廣義拓?fù)鋱D結(jié)構(gòu)的數(shù)據(jù),目前主要應(yīng)用于圖分類[9]、文本分類[10]、推薦系統(tǒng)[11]、疾病預(yù)測(cè)[12]等。在2018年,?ztürk等人[13]提出DeepDTA模型,利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取化合物和蛋白質(zhì)的特征,然后將兩個(gè)特征向量拼接起來(lái),經(jīng)過全連接層輸出CPI二分類結(jié)果。在2019年,?ztürk等人[14]提出WideDTA模型,該模型類似于DeepDTA模型,不同之處是利用了兩個(gè)額外的特征以改善模型的性能,兩個(gè)特征分別是配體最大公共結(jié)構(gòu)(LMCS)和蛋白質(zhì)基序和結(jié)構(gòu)域(PDM)。同年,Tsubaki等人[15]和Nguyen[16]分別提出CPI-GNN模型和GraphDTA模型,分別使用圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)和圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)學(xué)習(xí)化合物分子圖的表示。在2019年,Schwaller等人[17]提出Transformer可用于化學(xué)反應(yīng)預(yù)測(cè),但是,仍局限于seq2seq任務(wù)。2019年,Yang等人[18]提出了XLNET模型,其基于自回歸(autoregressive,AR)語(yǔ)言模型實(shí)現(xiàn)了新的雙向編碼,考慮到在訓(xùn)練過程中屏蔽的單詞與未屏蔽的單詞之間的關(guān)系。受XLNET在兩個(gè)序列之間獲得特征的強(qiáng)大能力的啟發(fā),該文提出基于改進(jìn)Attention Mask編解碼器模型,將化合物和蛋白質(zhì)當(dāng)作兩種類型的序列輸入到該模型中,最終得到化合物和蛋白質(zhì)是否相互作用的預(yù)測(cè)結(jié)果。
該文提出的基于改進(jìn)Attention Mask編解碼器的化合物與蛋白質(zhì)預(yù)測(cè)模型的主體結(jié)構(gòu)如圖1所示。
圖1 模型的基本框架
首先對(duì)原始化合物數(shù)據(jù)進(jìn)行處理,得到原子矩陣和鄰接矩陣,然后根據(jù)關(guān)系矩陣得到化合物的分子表示矩陣;同時(shí)對(duì)原始蛋白質(zhì)數(shù)據(jù)的氨基酸序列進(jìn)行處理,使用Item2vec技術(shù)得到蛋白質(zhì)嵌入矩陣;將蛋白質(zhì)嵌入矩陣輸入到編碼器,最后將化合物和經(jīng)編碼器處理的蛋白質(zhì)表示矩陣輸入到解碼器中,得到相互作用的向量,經(jīng)過線性變換,最終得到化合物和蛋白質(zhì)是否相互作用的預(yù)測(cè)結(jié)果。
1.1.1 蛋白質(zhì)數(shù)據(jù)處理
蛋白質(zhì)是構(gòu)成細(xì)胞的基本有機(jī)物,氨基酸脫水縮合組成多肽鏈,多肽鏈經(jīng)過折疊后組成的具有空間結(jié)構(gòu)的物質(zhì)就是蛋白質(zhì)。蛋白質(zhì)序列可以通過其物理性質(zhì)或其氨基酸序列進(jìn)行編碼表示[19]。文中蛋白質(zhì)原始數(shù)據(jù)表現(xiàn)形式為氨基酸首字母縮寫字符串,根據(jù)生物信息學(xué)信息可知,蛋白質(zhì)序列由20種基本氨基酸組成,部分氨基酸英文名、中文名稱和首字母縮寫實(shí)例如人免疫球蛋白,其蛋白質(zhì)氨基酸序列表示為“MEFGLSWVFLVAILEGVQCEVQLVESGGGLVQPGGSLRL SCAASGFTFSSHWMTWVRQTPGKRLEWVANVKQD GSARYYADSVRGRFTISRDNAKNSLYLQMDSLRADD TAVYYCARSTGIDYWGQGTLVTVSS”。
Item2vec是由Barkan[20]提出的一種用于學(xué)習(xí)和描述復(fù)雜句法和語(yǔ)義單詞關(guān)系的分布式向量表示技術(shù),借鑒于Word2vec[21]的skip-gram with sampling (SGNS)的思路,將其運(yùn)用于基于物品的協(xié)同過濾(item-based CF)上。Item2vec把原來(lái)蛋白質(zhì)數(shù)據(jù)的高維稀疏的表示方式映射到低維稠密的向量空間中,然后用這個(gè)低維向量來(lái)表示該蛋白質(zhì),對(duì)于大量的蛋白質(zhì)序列數(shù)據(jù),可以通過Item2vec學(xué)習(xí)蛋白質(zhì)序列的嵌入式表示,大大簡(jiǎn)化下游建模。
基于前人的工作,該文將UniProt[22]中的人類蛋白質(zhì)氨基酸序列進(jìn)行預(yù)處理,作為一個(gè)語(yǔ)料庫(kù),然后使用Item2vec訓(xùn)練語(yǔ)料,設(shè)置蛋白質(zhì)嵌入向量維度為128維,經(jīng)過20輪迭代訓(xùn)練了蛋白質(zhì)嵌入模型。例如人免疫球蛋白中氨基酸序列長(zhǎng)度為132,將其帶入訓(xùn)練后的蛋白質(zhì)嵌入模型中,通過嵌入算法將每一個(gè)氨基酸轉(zhuǎn)換為向量,對(duì)應(yīng)一個(gè)長(zhǎng)度為128的向量,最終人免疫球蛋白表示為大小為(132,128)的矩陣形式。
PCA是由Pearson[23]提出的一種統(tǒng)計(jì)方法,主要思想是將原始數(shù)據(jù)沿最大方差方向投影,得到原始數(shù)據(jù)的低維特征表示,從而實(shí)現(xiàn)數(shù)據(jù)的降維。通過PCA方法得到蛋白質(zhì)嵌入向量實(shí)現(xiàn),實(shí)現(xiàn)蛋白質(zhì)特征維度的轉(zhuǎn)變,化合物的特征維度變換同理。以人免疫球蛋白為例,輸入的表示矩陣大小為(132,128),經(jīng)PCA處理后的表示矩陣大小為(132,64)。
1.1.2 化合物數(shù)據(jù)處理
化合物是由兩種或兩種以上的元素組成的純凈物。簡(jiǎn)化分子線性輸入規(guī)范(simplified molecular-input line-entry system,SMILES)是一種用于輸入和表示分子的線性符號(hào),使用ASCII字符串來(lái)描述分子結(jié)構(gòu)。文中化合物原始數(shù)據(jù)表現(xiàn)形式為SMILES字符串,例如吩噻嗪,其SMILES格式為C1=CC=C2SC3C=CC=CC3NC2=C1。依據(jù)化學(xué)特性劃分原子特征,原子特征列表如表1所示,每種原子的特征可以使用34維的向量表示。
表1 原子特征列表
續(xù)表1
RDKit是開源化學(xué)信息學(xué)與機(jī)器學(xué)習(xí)的工具包,支持機(jī)器學(xué)習(xí)方面的分子描述符的產(chǎn)生。該文通過使用RDKit封裝的函數(shù)對(duì)SMILES格式的化合物數(shù)據(jù)進(jìn)行讀取和處理,得到化合物的原子矩陣和帶自環(huán)的鄰接矩陣,然后利用關(guān)系矩陣,得到分子的矩陣表示。
該文提出的模型沿用了經(jīng)典的Encoder-Decoder結(jié)構(gòu),使用到并行化計(jì)算的自注意力機(jī)制,極大地縮短了訓(xùn)練時(shí)間。該整體架構(gòu)如圖2所示,其中編碼器部分主要由多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層組成,解碼器部分主要由Attention Mask層、編碼器-解碼器注意力層和前饋神經(jīng)網(wǎng)絡(luò)層組成。
圖2 編-解碼器架構(gòu)
1.2.1 編碼器
編碼器的結(jié)構(gòu)如圖2左側(cè)虛線框內(nèi)所示,由3個(gè)編碼器塊堆疊而成,每一個(gè)編碼器塊都由兩個(gè)子層組成,并且每一個(gè)子層之間都使用了殘差連接和層歸一化操作。
編碼器的第一個(gè)子層是多頭自注意力層。自注意力的本質(zhì)是通過當(dāng)前詞來(lái)引入上下文的信息,以此增強(qiáng)對(duì)當(dāng)前詞的表示。首先根據(jù)輸入的化合物的原子序列,通過線性變換得到Q、K、V的向量表示,然后根據(jù)公式1計(jì)算注意力值。
(1)
多頭自注意力層是包括了多個(gè)按比例縮放的自注意力層,可以在不改變參數(shù)量的情況下增強(qiáng)注意力的表現(xiàn)力,擴(kuò)展模型專注不同位置的能力。多頭自注意力是對(duì)Q、K、V進(jìn)行分組計(jì)算注意力值,如公式2所示,然后拼接所有注意力頭,計(jì)算過程如公式3所示。
(2)
MultiHead(Q,K,V)=Concat(head1,…,headn)Wo
(3)
編碼器的第二個(gè)子層是前饋神經(jīng)網(wǎng)絡(luò)層。前饋神經(jīng)網(wǎng)絡(luò)層(feed forward layer,F(xiàn)FL)是由兩層全連接神經(jīng)網(wǎng)絡(luò)組成的,選擇ReLU作為激活函數(shù),如公式4所示。該網(wǎng)絡(luò)層對(duì)注意力的輸出進(jìn)行空間交換,增加了模型的表現(xiàn)能力。
FFN=Max(0,X*W4+b4)W5+b5
(4)
式中,X表示經(jīng)多頭自注意力層的輸出矩陣,W4和W5表示權(quán)重矩陣,b4和b5表示網(wǎng)絡(luò)的偏置。
由于網(wǎng)絡(luò)不斷加深,數(shù)據(jù)的分布也在不斷地發(fā)生變化,同時(shí)可能會(huì)帶來(lái)梯度消失或爆炸等問題。加入殘差連接可以從一定程度上緩解因?yàn)樘荻缺▽?dǎo)致的網(wǎng)絡(luò)退化問題,而加入層歸一化可以保證數(shù)據(jù)的穩(wěn)定分布,同時(shí)可以加速模型的優(yōu)化速度。殘差連接和層歸一化操作如公式5所示。
Output=LN(X+(SubLayer(X)))
(5)
式中,X表示每個(gè)子層的輸出,SubLayer()表示子層本身的輸出,LN表示Layer Normalization,Layer Normalization的計(jì)算公式如下:
(6)
式中,μ、σ分別表示均值和方差,α表示縮放參數(shù),β表示平移參數(shù)。
1.2.2 解碼器
編碼器的結(jié)構(gòu)如圖2右側(cè)虛線框內(nèi)所示,由3個(gè)解碼器塊堆疊而成,每一個(gè)解碼器塊都由三個(gè)子層組成,與編碼層一樣,每一個(gè)子層之間同樣使用了殘差連接和層歸一化操作。
解碼器的第一個(gè)子層是改進(jìn)的Attention Mask層。傳統(tǒng)的自回歸模型的缺點(diǎn)是不能同時(shí)利用上文或者下文的信息,而傳統(tǒng)的自編碼模型的缺點(diǎn)是會(huì)導(dǎo)致預(yù)訓(xùn)練階段和微調(diào)階段出現(xiàn)不一致的問題。改進(jìn)的Attention Mask層部分避免了二者的缺點(diǎn),在傳統(tǒng)的自回歸模型的模式下,引入全排列語(yǔ)言模型(permutation language modeling,PLM),保持當(dāng)前詞的位置不變,對(duì)文本中的其他詞進(jìn)行重新編排,使得當(dāng)前中心詞的下文也有可能出現(xiàn)在中心詞的上文中,然后將句尾的一定量的詞進(jìn)行遮掩,使用自回歸方式預(yù)測(cè)被遮掩的詞。全排列語(yǔ)言模型的優(yōu)化目標(biāo)最大似然化概率如公式7所示。
(7)
式中,T表示序列長(zhǎng)度,ZT表示所有可能出現(xiàn)的排列序列,zt表示第t個(gè)元素。例如存在一個(gè)長(zhǎng)度為T的序列,從序列的所有可能的排列序列中隨機(jī)采樣一個(gè),然后通過計(jì)算來(lái)分解聯(lián)合概率成條件概率,并加權(quán)求和得到預(yù)測(cè)當(dāng)前詞概率最大的參數(shù)θ,由此捕獲雙向的語(yǔ)境。具體的PLM操作是通過雙流自注意力機(jī)制實(shí)現(xiàn)的,雙流自注意力機(jī)制由內(nèi)容流注意力機(jī)制和查詢流注意力機(jī)制組成,同時(shí)引入了兩個(gè)隱狀態(tài),分別是內(nèi)容隱狀態(tài)hzt和查詢隱狀態(tài)gzt。雙流注意力機(jī)制的計(jì)算過程如公式8和公式9所示。
(8)
(9)
式8中,上標(biāo)m表示層數(shù),Q值、K值和V值分別代表注意力機(jī)制中的查詢向量、鍵向量和值向量,zt表示z∈ZT的前t-1個(gè)元素。
例如原本輸入的句子是“1,2,3,4”,若經(jīng)過PLM操作后的排列序列為“3,2,4,1”,表明在預(yù)測(cè)“2”的時(shí)候,可以看到上文的“3”的信息;當(dāng)預(yù)測(cè)“4”的時(shí)候,可以看到上文“3”和“2”的信息,并以此類推。內(nèi)容流和查詢流掩碼矩陣如圖3(c)右圖所示,通過掩碼矩陣,將句子改成隨機(jī)的排列組合,實(shí)現(xiàn)同時(shí)利用上下文信息預(yù)測(cè)當(dāng)前詞。
圖3 雙流自注意力機(jī)制計(jì)算過程圖示
解碼器的第二個(gè)子層是編碼器-解碼器注意力層,它的輸入由兩部分構(gòu)成,分別是掩碼多頭注意力層的輸出Q和編碼器的輸出K、V,通過注意力機(jī)制增強(qiáng)對(duì)當(dāng)前詞的表示,并提取編碼器和解碼器間的交互信息。
解碼器的第三個(gè)子層是前饋神經(jīng)網(wǎng)絡(luò)層,其工作原理與編碼器中的前饋神經(jīng)網(wǎng)絡(luò)層一樣。該子層的輸入為編碼器-解碼器注意力層的輸出。最后該層的輸出是化合物和蛋白質(zhì)相互作用的特征向量,將其經(jīng)過softmax函數(shù),最終得到化合物和蛋白質(zhì)是否相互作用的概率。
本實(shí)驗(yàn)在windows10系統(tǒng)下進(jìn)行,使用Intel@i5-8265U作為計(jì)算單元,內(nèi)存為8 GB。模型使用Pytorch框架進(jìn)行搭建,版本為1.6.0+cu101。構(gòu)建模型所用的代碼使用到RDKit庫(kù)。
文中用于訓(xùn)練Item2vec模型的蛋白質(zhì)數(shù)據(jù)來(lái)自于UniProt蛋白質(zhì)數(shù)據(jù)庫(kù)[22]。選取UniProt蛋白質(zhì)數(shù)據(jù)庫(kù)中Swiss-Prot子庫(kù)里的所有人類蛋白質(zhì)序列作為一個(gè)語(yǔ)料庫(kù),源數(shù)據(jù)格式如表3所示,總計(jì)20 413條,提取蛋白質(zhì)的氨基酸序列數(shù)據(jù),使用該數(shù)據(jù)對(duì)Item2vec模型進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)蛋白質(zhì)的嵌入式表示。
文中化合物和蛋白質(zhì)數(shù)據(jù)主要來(lái)源于Lifan[24]構(gòu)建的GPCR標(biāo)簽反轉(zhuǎn)數(shù)據(jù)集,據(jù)實(shí)驗(yàn)驗(yàn)證,標(biāo)記反轉(zhuǎn)實(shí)驗(yàn)可以有效地評(píng)估隱藏的配體偏差對(duì)模型的影響,降低基于化學(xué)基因組的化合物和蛋白質(zhì)相互作用任務(wù)的常見風(fēng)險(xiǎn)。GPCR數(shù)據(jù)集主要有化合物信息、蛋白質(zhì)信息和表示是否相互作用的布爾值,數(shù)據(jù)集包含了356種蛋白質(zhì)和5 459種化合物的15 343種作用對(duì)。
對(duì)于GPCR組,隨機(jī)選擇500個(gè)配體,并將所有涉及這些配體的CPI負(fù)樣本匯集在一起。另外,選擇了500個(gè)配體,并將所有相關(guān)正樣本匯集在一起。在實(shí)驗(yàn)設(shè)計(jì)后,最終建立了1 537個(gè)相互作用的GPCR測(cè)試集,剩余的數(shù)據(jù)集被用來(lái)確定超參數(shù)。
實(shí)驗(yàn)中,采用二分類交叉熵?fù)p失函數(shù)、ROC曲線下面積(AUC)以及精度-召回率曲線(PRC)作為模型的評(píng)估指標(biāo)。
二分類交叉熵(Binary Cross Entropy):是多分類softmax_cross_entropy的一種特殊情況,當(dāng)只有兩類標(biāo)簽時(shí),即0或者1,使用邏輯回歸的損失函數(shù),如公式10所示。
(10)
ROC(Receiver Operating Characteristic):以假正例率(FPR)為X軸、真正例率(TPR)為Y軸繪制的反映模型敏感性和精確性的趨勢(shì)走向的曲線。
AUC(Area Under Curve):ROC曲線下的面積。若分類器的性能越好,則AUC值越接近1。
PRC(Precision Recall Curve):以查全率(Recall)為X軸、查準(zhǔn)率(Precision)為Y軸繪制的圖,可以對(duì)分類器的整體效果進(jìn)行綜合評(píng)價(jià)。該評(píng)估指標(biāo)引入“平衡點(diǎn)”(BEP)概念,當(dāng)查全率等于查準(zhǔn)率時(shí)取的值越大時(shí),表明該分類器的性能越好。
該模型的編碼器和解碼器的層數(shù)各為3層,多頭注意力頭數(shù)為8個(gè),經(jīng)PCA處理后的蛋白質(zhì)表示和原子表示的維度為64,編碼器和解碼器完全連接的前饋神經(jīng)網(wǎng)絡(luò)層中隱藏單元數(shù)量為512,Dropout為0.2,學(xué)習(xí)率為1e-4,批尺寸大小為64。
該文使用GPCR測(cè)試集在模型上進(jìn)行訓(xùn)練,采用接收機(jī)工作特性曲線下面積(AUC)、準(zhǔn)確召回率曲線(PRC)作為模型的評(píng)估指標(biāo)。
從圖4中可以看出,隨著迭代次數(shù)的增加,模型的Loss值在逐漸變小,且愈加接近飽和,在迭代50輪前,模型的AUC值和PRC值的變化明顯,隨著迭代次增加,模型訓(xùn)練愈加接近飽和,評(píng)估指標(biāo)趨于平緩和穩(wěn)定,模型的最優(yōu)AUC值和PRC值分別為0.865和0.883。
圖4 模型訓(xùn)練Loss變化和AUC值、PRC值變化
該文對(duì)模型進(jìn)行調(diào)參試驗(yàn),采用控制變量法進(jìn)行調(diào)參。實(shí)驗(yàn)設(shè)置如表2所示,實(shí)驗(yàn)結(jié)果如圖5所示。
表2 模型對(duì)比實(shí)驗(yàn)設(shè)置
圖5 不同batchsize下Loss值、PRC值和AUC值變化
從圖5中可以看出,在同樣的迭代次數(shù)下,batchsize為64時(shí),模型的Loss值相對(duì)于另外兩個(gè)更低,batchsize為96時(shí)效果較差。在batchsize為64時(shí),模型的PRC和AUC值優(yōu)于另外兩種情況,batchsize為96時(shí)效果較差。
該文對(duì)模型網(wǎng)絡(luò)結(jié)構(gòu)也進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)設(shè)置如表3所示,實(shí)驗(yàn)結(jié)果如圖6所示。
表3 結(jié)構(gòu)對(duì)比實(shí)驗(yàn)設(shè)置
圖6 拓寬網(wǎng)絡(luò)和加深網(wǎng)絡(luò)的PRC和AUC變化
從圖6可以看出,在相同的迭代次數(shù)下,拓寬網(wǎng)絡(luò)的PRC和AUC相較于原始網(wǎng)絡(luò)在一開始處于較為落后的趨勢(shì),后來(lái)逐漸接近;在相同的迭代次數(shù)下,加深網(wǎng)絡(luò)的PRC和AUC一直處于落后的趨勢(shì)。在其他設(shè)置不變的情況下,原始網(wǎng)絡(luò)的參數(shù)設(shè)定的PRC和AUC達(dá)到最優(yōu)的情況。
該文選擇了經(jīng)典的機(jī)器學(xué)習(xí)模型和兩種流行的行業(yè)常用模型與該文提出的模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。在GPCR測(cè)試集上,該文提出的模型在AUC和PRC方面均優(yōu)于對(duì)比的模型,在數(shù)據(jù)集上取得了較好的性能,AUC值和PRC值均有提升,表明該模型具有更強(qiáng)的學(xué)習(xí)蛋白質(zhì)和化合物之間相互作用的能力。
表4 GPCR測(cè)試集性能
該文嘗試將深度學(xué)習(xí)技術(shù)應(yīng)用于CPI預(yù)測(cè)的研究中,將該任務(wù)轉(zhuǎn)換成標(biāo)簽二分類的問題進(jìn)行解決。在使用傳統(tǒng)的編解碼器模型的基礎(chǔ)上,在解碼器中使用到改進(jìn)的Attention Mask層,以此來(lái)處理蛋白質(zhì)和化合物二分類任務(wù)。在AUC和PRC指標(biāo)測(cè)評(píng)下,與其他模型相比,該文改進(jìn)的模型在實(shí)驗(yàn)上擁有更好的性能表現(xiàn)。
實(shí)驗(yàn)結(jié)果表明,該模型可以學(xué)習(xí)期望的CPI特征,性能更穩(wěn)定且準(zhǔn)確率更高。如果將該模型應(yīng)用于實(shí)際的藥物發(fā)現(xiàn)研究中,可以為藥物靶標(biāo)選擇提供一定的參考價(jià)值,加快藥物發(fā)現(xiàn)的進(jìn)程。同時(shí)深度學(xué)習(xí)不要求具備生物學(xué)和藥理學(xué)等專業(yè)知識(shí),就可以得到數(shù)據(jù)背后的隱藏信息,且對(duì)于數(shù)據(jù)量特別大的數(shù)據(jù)具有明顯的優(yōu)勢(shì)。然而,該模型構(gòu)造了一個(gè)注意力矩陣,需求與輸入呈平方關(guān)系,因此,對(duì)內(nèi)存和算力的需求非常高。