• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測:方法與進(jìn)展

      2023-07-10 02:39:54黃鶴吳桐王聞達(dá)李佳珊孫黛雯葉啟威龔新奇
      合成生物學(xué) 2023年3期
      關(guān)鍵詞:殘基復(fù)合物蛋白質(zhì)

      黃鶴,吳桐,王聞達(dá),李佳珊,孫黛雯,葉啟威,龔新奇,

      (1 中國人民大學(xué)數(shù)學(xué)科學(xué)研究院,北京 100872; 2 北京智源人工智能研究院,北京 100084)

      細(xì)胞中的大多數(shù)蛋白質(zhì)與其他蛋白質(zhì)或其他大分子(如DNA或RNA)結(jié)合形成蛋白質(zhì)復(fù)合物,在許多細(xì)胞過程中發(fā)揮著關(guān)鍵作用。在分子和細(xì)胞水平上描述這些相互作用的三維結(jié)構(gòu)和功能,并闡明基本的物理原理,仍然是生物學(xué)和醫(yī)學(xué)的一個重要目標(biāo)[1]。X射線、高分辨率核磁共振和冷凍電子顯微鏡解析蛋白質(zhì)復(fù)合物結(jié)構(gòu)既昂貴又耗時,因此通過計算手段預(yù)測蛋白質(zhì)復(fù)合物的結(jié)構(gòu)是非常重要和必要的。為了評估當(dāng)前蛋白質(zhì)結(jié)構(gòu)預(yù)測算法水平,CASP(Critical Assessment of protein Structure Prediction)和CAPRI(Critical Assessment of PRedicted Interactions)比賽評測每個參賽隊伍預(yù)測的蛋白質(zhì)單體或復(fù)合物的結(jié)構(gòu),從開創(chuàng)至今已成功舉辦多屆,促進(jìn)了蛋白質(zhì)結(jié)構(gòu)預(yù)測的快速發(fā)展。在CASP14比賽中,由DeepMind團(tuán)隊開發(fā)的AlphaFold2[2]實現(xiàn)了高精度的蛋白質(zhì)結(jié)構(gòu)預(yù)測,他們設(shè)計的模型根據(jù)氨基酸序列可以準(zhǔn)確預(yù)測蛋白質(zhì)三維結(jié)構(gòu),其中大部分單體蛋白質(zhì)預(yù)測的結(jié)構(gòu)可以接近實驗精度,這是蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的重大突破,也為蛋白質(zhì)計算領(lǐng)域其他問題提供了新思路。

      在CAPRI第50輪比賽中[1],一共有12個多聚體題目,其中4個題目對于整個組件或主界面具有良好的結(jié)構(gòu)模板,其他的只有部分亞基有較好的模板。25個小組(包括服務(wù)器)參與了CAPRI結(jié)構(gòu)預(yù)測,表現(xiàn)最好的小組大概有70%~75%題目做到了可接受的水平,但高質(zhì)量的模型較少。在2022年舉辦的CASP15比賽中,有87個組參加了蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測賽道,其中一共有47個題目,大部分是蛋白質(zhì)低聚物,也有超過10條鏈的超大復(fù)合物,對于一些蛋白質(zhì)低聚物題目能夠預(yù)測出較高質(zhì)量的模型,但是有一部分復(fù)合物結(jié)構(gòu)的預(yù)測結(jié)果不理想,準(zhǔn)確地預(yù)測蛋白質(zhì)復(fù)合物結(jié)構(gòu)仍然是一個挑戰(zhàn)。

      在蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測的相關(guān)研究中,早期的工作主要利用實驗信息和生物背景知識來協(xié)助蛋白質(zhì)結(jié)構(gòu)預(yù)測,例如小角度X射線散射實驗數(shù)據(jù)、交聯(lián)數(shù)據(jù)等信息可以作為先驗知識來協(xié)助構(gòu)建復(fù)合物結(jié)構(gòu)。如果知道某個殘基對間的距離或接觸信息,這有助于篩除出計算過程中產(chǎn)生的噪聲模型(decoys)。還有一些工作開發(fā)一些文本挖掘的方法用于搜索文獻(xiàn)中的生物信息來協(xié)助建模過程[3]。另外,打分函數(shù)用于挑選高質(zhì)量的模型,它是蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測流程中非常重要的一部分,其中涉及的物理力場和各類能量項是根據(jù)生物經(jīng)驗知識總結(jié)的。此外,基于蛋白質(zhì)共進(jìn)化思想,從多重序列比對(MSA)中獲取共進(jìn)化信息,通過共進(jìn)化分析的思路來預(yù)測蛋白質(zhì)殘基間相互作用信息,這也有助于提高蛋白質(zhì)結(jié)構(gòu)預(yù)測算法水平。

      后期的研究工作聚焦于利用人工智能算法來進(jìn)行蛋白質(zhì)復(fù)合物結(jié)構(gòu)建模,如結(jié)合共進(jìn)化分析和深度學(xué)習(xí)的蛋白質(zhì)殘基接觸預(yù)測,促進(jìn)了蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的快速發(fā)展。后續(xù)的工作進(jìn)一步地研究殘基距離矩陣、二面角等幾何信息預(yù)測。這些算法也被擴展到蛋白質(zhì)復(fù)合物鏈之間的殘基接觸預(yù)測。其次,端到端的結(jié)構(gòu)預(yù)測算法實現(xiàn)了高精度的單體蛋白質(zhì)結(jié)構(gòu)建模,這也正成為蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測的主要手段之一。隨著預(yù)訓(xùn)練大模型的發(fā)展,從監(jiān)督學(xué)習(xí)轉(zhuǎn)變?yōu)樽员O(jiān)督學(xué)習(xí),預(yù)訓(xùn)練模型的范式也在影響著蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域。

      這篇綜述總結(jié)了蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測的相關(guān)計算方法。首先,我們介紹了基于人工智能算法的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,其中包括四個方面內(nèi)容(共進(jìn)化分析、殘差網(wǎng)絡(luò)與接觸預(yù)測、基于Transformer的端到端結(jié)構(gòu)預(yù)測方法和蛋白質(zhì)預(yù)訓(xùn)練模型),它們之間的關(guān)系如圖1所示。另外,本文也重點總結(jié)了蛋白質(zhì)鏈間接觸預(yù)測的各種思路和方法,最后介紹了蛋白質(zhì)分子對接和端到端的蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測進(jìn)展。

      圖1 基于人工智能算法的蛋白質(zhì)結(jié)構(gòu)預(yù)測Fig.1 AI-based methods for predicting protein structure

      1 基于人工智能算法的蛋白質(zhì)結(jié)構(gòu)預(yù)測

      在生物信息學(xué)中,蛋白質(zhì)結(jié)構(gòu)預(yù)測是一個突出的研究熱點,其中大量的工作聚焦于殘基間幾何信息預(yù)測(殘基接觸或距離圖,朝向夾角等信息)。由于蛋白質(zhì)折疊成3D結(jié)構(gòu)是由其天然狀態(tài)的相互作用氨基酸決定的,預(yù)測蛋白質(zhì)殘基之間的接觸一直是主要被研究的子問題。其中基于共進(jìn)化分析和深度學(xué)習(xí)的方法極大地提升了蛋白質(zhì)殘基接觸及結(jié)構(gòu)預(yù)測水平。近兩年來,蛋白質(zhì)單體結(jié)構(gòu)預(yù)測水平已經(jīng)提升到了與實驗精度相當(dāng)?shù)乃?,主要得益于端到端的模型,如AlphaFold2。同時還有一些基于蛋白質(zhì)序列或結(jié)構(gòu)的預(yù)訓(xùn)練模型,在蛋白質(zhì)結(jié)構(gòu)預(yù)測或者相關(guān)任務(wù)上也展現(xiàn)了不錯的性能。在本節(jié)中,將圍繞蛋白質(zhì)幾何信息預(yù)測,基于Transformer的端到端蛋白質(zhì)結(jié)構(gòu)預(yù)測方法和基于蛋白質(zhì)序列和結(jié)構(gòu)的預(yù)訓(xùn)練模型三個方面展開。

      1.1 蛋白質(zhì)幾何信息預(yù)測

      1.1.1 蛋白質(zhì)共進(jìn)化分析與殘基接觸預(yù)測

      受自然選擇影響,當(dāng)具有相互作用的殘基對中的一個殘基發(fā)生突變時,另一個殘基也會發(fā)生與之對應(yīng)的突變,這種一對殘基共同變異的現(xiàn)象被稱為“共進(jìn)化”。常用的共進(jìn)化方法主要分為兩種:第一種是假說蛋白質(zhì)序列近似服從高維的正態(tài)分布,因此利用逆協(xié)方差矩陣(inverse covariance matirx)來表征殘基間的共進(jìn)化程度[4];第二種是假設(shè)蛋白質(zhì)序列可由一個馬爾科夫隨機場模型(Markov random field,MRF)產(chǎn)生,進(jìn)而采用兩體項(two-body)來表征殘基間的共進(jìn)化程度[5-6]。

      蛋白質(zhì)殘基間接觸或距離預(yù)測是蛋白質(zhì)結(jié)構(gòu)預(yù)測的子問題,因為直接預(yù)測蛋白質(zhì)結(jié)構(gòu)三維坐標(biāo)比較困難,所以先預(yù)測蛋白質(zhì)的接觸矩陣,然后作為約束來優(yōu)化蛋白質(zhì)折疊,相對來說更簡單。由于距離預(yù)測較困難,前期的相關(guān)研究主要關(guān)注于殘基接觸預(yù)測[7-9]。當(dāng)兩個殘基Cβ(或Cα)原子之間的歐氏距離小于0.8 nm時,則認(rèn)為這兩個殘基具有接觸(contact),否則認(rèn)為沒有。

      早期的共進(jìn)化分析通過無監(jiān)督的方式考慮了殘基對之間的關(guān)聯(lián)關(guān)系。其中一些方法對所有殘基位置建立全概率模型,再試圖去除間接關(guān)聯(lián)的影響,從而避免局部模型的缺陷。另一些模型通過馬爾科夫隨機場(MRF)對多重序列比對進(jìn)行建模,從而學(xué)習(xí)一組相似序列的共進(jìn)化信息,這種方法一般被稱作直接耦合分析(direct coupling analysis, DCA)[5],其對于多重序列比對建模。其中馬爾科夫隨機場的參數(shù)可以通過極大似然法進(jìn)行估計,但是由于涉及到配分函數(shù)的計算,計算相對困難,因此發(fā)展出多種近似求解方法,主要包括置信傳播算法(bpDCA[10])、平均場近似算法(mfDCA[5])、系數(shù)逆矩陣協(xié)方差(PSICOV[11])、偽似然最大化算法(plmDCA[12])和混合似然算法(clmDCA[13])。其中,偽似然最大化算法是無監(jiān)督的殘基接觸預(yù)測最先進(jìn)的方法之一,最具代表性的方法是Gremlin[14-15]。Gremlin將序列簡化成全連接圖,用一階項(代表殘基的保守性)與二階項(代表殘基間相互作用)來計算序列的整體能量。Gremlin假設(shè)MSA中的每一條序列都存在相似的三維結(jié)構(gòu),根據(jù)玻爾茲曼分布定律,這些序列都應(yīng)該具有較低的構(gòu)象能量,因此訓(xùn)練出一套能量函數(shù),使得蛋白質(zhì)家族內(nèi)所有同源序列能量最小,來獲取共進(jìn)化信息。Gremlin大大提升了鏈內(nèi)殘基接觸預(yù)測水平,此外它對復(fù)合物鏈間殘基也能進(jìn)行相互作用預(yù)測。

      1.1.2 基于深度殘差網(wǎng)絡(luò)的蛋白質(zhì)幾何信息預(yù)測

      蛋白質(zhì)結(jié)構(gòu)的關(guān)鍵拓?fù)湫畔ⅲㄈ缭缙诘臍埢佑|預(yù)測,到后期的距離信息,鍵角或二面角信息等)[16-17]是蛋白質(zhì)結(jié)構(gòu)從頭預(yù)測的最重要特征之一。經(jīng)典的蛋白質(zhì)結(jié)構(gòu)預(yù)測是利用多重序列比對進(jìn)行共進(jìn)化分析,如CCMPred[18],再采用深度學(xué)習(xí)模型進(jìn)行蛋白質(zhì)幾何信息預(yù)測,最后通過優(yōu)化手段得到蛋白質(zhì)結(jié)構(gòu)。2016年許錦波等開創(chuàng)性地將深度殘差網(wǎng)絡(luò)(ResNet[19])架構(gòu)成功地應(yīng)用到結(jié)構(gòu)預(yù)測領(lǐng)域中[16],顯著提升了蛋白質(zhì)殘基接觸預(yù)測,在這個工作基礎(chǔ)上有大量結(jié)合共進(jìn)化和深度學(xué)習(xí)的算法出現(xiàn)[7],其中代表性的工作如AlphaFold[20](主要引入殘基距離預(yù)測)和山東大學(xué)楊建益等開發(fā)的trRosetta[17](主要引入了二面角信息等),均采用了深度殘差網(wǎng)絡(luò)。此外,清華大學(xué)龔海鵬團(tuán)隊設(shè)計的AmoebaContact[21]使用了一種新的網(wǎng)絡(luò)架構(gòu)來學(xué)習(xí)殘基接觸圖;中科院計算所的卜東波團(tuán)隊開發(fā)的CopulaNet[22]嘗試直接從多重序列比對中學(xué)習(xí)共進(jìn)化信息,密歇根大學(xué)張陽團(tuán)隊開發(fā)的C-I-TASSER[23]、C-QUARK[24]結(jié)合了經(jīng)典的蛋白質(zhì)結(jié)構(gòu)預(yù)測算法和蛋白質(zhì)接觸圖,這一系列工作推進(jìn)了蛋白質(zhì)結(jié)構(gòu)預(yù)測算法的進(jìn)展。后續(xù)有一些工作嘗試直接預(yù)測殘基距離矩陣[25-26]。在通過預(yù)測殘基對間的接觸圖、距離圖、朝向夾角等信息后,通常的做法是將其轉(zhuǎn)為幾何勢能,并利用Rosetta[27]、CNS[28]或梯度下降算法[21]使得結(jié)構(gòu)勢能最小,從而建立蛋白質(zhì)三維模型。

      1.2 基于Transformer的端到端蛋白質(zhì)結(jié)構(gòu)預(yù)測方法

      2020年,AlphaFold2在蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽CASP14中大獲成功,其中在AlphaFold2復(fù)雜的結(jié)構(gòu)框架和運行流程中,大大小小的計算模型層出不窮,包括多重序列比對數(shù)據(jù)庫構(gòu)建、訓(xùn)練集測試集構(gòu)造、特征提取計算等,此外成對信息提取、3D結(jié)構(gòu)建立等模塊大量使用最先進(jìn)的深度學(xué)習(xí)模型。其中的核心模塊是基于Transformer[29]的Evoformer,Transformer由Google團(tuán)隊提出,完全摒棄循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)而只使用Attention機制和前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行神經(jīng)機器翻譯,Evoformer借鑒了自注意力(self-attention)機制、位置編碼(positional encoding)等經(jīng)典模塊,并設(shè)計了三角更新(triangular update)和三角注意力(triangular attention)等模塊。

      此前的結(jié)構(gòu)預(yù)測算法(包括AlphaFold1[20])通常是是先通過共進(jìn)化分析來預(yù)測接觸或距離矩陣、二面角信息,再來優(yōu)化蛋白質(zhì)折疊過程。2019年AlQuraishi等提出的RGN[30]模型是首個端到端的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型,但是其模型的精度不及經(jīng)典的“兩步走”結(jié)構(gòu)預(yù)測算法。2021年AlphaFold2[2]成功地實現(xiàn)了高精度的端到端蛋白質(zhì)結(jié)構(gòu)預(yù)測算法??傮w來說,AlphaFold2的端到端結(jié)構(gòu)預(yù)測算法,其模型中并沒有完全拋棄幾何約束等信息,而是將其作為了一個損失函數(shù)項融入到了整個模型優(yōu)化過程中,最終訓(xùn)練好的模型也學(xué)到了較好的幾何信息。端到端算法的一大優(yōu)勢是可以避免預(yù)測接觸矩陣的誤差累積到最終的三維結(jié)構(gòu),此外直接基于多重序列比對進(jìn)行操作,也能夠避免共進(jìn)化分析帶來的噪聲信息。

      1.3 基于蛋白質(zhì)序列和結(jié)構(gòu)的預(yù)訓(xùn)練模型

      預(yù)訓(xùn)練模型是先在一個原始任務(wù)上預(yù)先訓(xùn)練出一個大模型,此模型可以用來提取一些表征信息,再針對特定的下游任務(wù)進(jìn)行微調(diào),從而可以提高在目標(biāo)任務(wù)上的性能,這是現(xiàn)在很多領(lǐng)域(包括自然語言處理和視覺模型等)一種通用的模型框架。在蛋白質(zhì)領(lǐng)域,近年來也有一些預(yù)訓(xùn)練模型相關(guān)工作出現(xiàn)。在研究蛋白質(zhì)結(jié)構(gòu)的領(lǐng)域,序列數(shù)據(jù)和結(jié)構(gòu)數(shù)據(jù)是兩類重要的數(shù)據(jù)表征形式。其中大部分結(jié)構(gòu)數(shù)據(jù)主要是從實驗室做實驗獲得,精度很高,但是耗時耗力,而蛋白質(zhì)序列數(shù)據(jù)(很多都沒有對應(yīng)的實驗結(jié)構(gòu)數(shù)據(jù))的獲取相對容易,序列數(shù)據(jù)遠(yuǎn)遠(yuǎn)多于結(jié)構(gòu)數(shù)據(jù)。早期的蛋白質(zhì)預(yù)訓(xùn)練模型是基于蛋白質(zhì)氨基酸序列數(shù)據(jù),并應(yīng)用到蛋白質(zhì)結(jié)構(gòu)建?;蛘叩鞍踪|(zhì)功能預(yù)測相關(guān)任務(wù)。此外,隨著AlphaFold Database[31]和ESMFold Database[32]數(shù)據(jù)庫的出現(xiàn),有大量的高置信度的蛋白質(zhì)預(yù)測結(jié)構(gòu),可作為RCSB PDB實驗結(jié)構(gòu)數(shù)據(jù)庫的補充,近期也有一些工作研究直接從蛋白質(zhì)三維結(jié)構(gòu)出發(fā)進(jìn)行預(yù)訓(xùn)練,在蛋白質(zhì)或者小分子的相關(guān)任務(wù)上取得了不錯的效果。

      1.3.1 基于蛋白質(zhì)序列的預(yù)訓(xùn)練

      基于蛋白質(zhì)序列的預(yù)訓(xùn)練模型又稱為蛋白質(zhì)語言模型(protein language model, PLM),是將自然語言處理領(lǐng)域的預(yù)訓(xùn)練思想應(yīng)用到蛋白質(zhì)建模中。氨基酸序列可以看作是一類語言,測序技術(shù)成本的降低使得我們能夠獲取大量天然蛋白質(zhì)序列,由氨基酸序列組成的數(shù)據(jù)庫在某種程度上可以視為一種語言數(shù)據(jù)庫,從而可以使用針對自然語言開發(fā)的大模型對它們進(jìn)行建模。

      蛋白質(zhì)序列預(yù)訓(xùn)練的模式通常是采用類似BERT[33]的模式,其核心思想是對于氨基酸序列隨機遮擋一些氨基酸位置(如15%),模型旨在預(yù)測這些缺失的氨基酸。在這個模型構(gòu)建中,不需要利用多重序列比對信息,也不需要結(jié)構(gòu)信息作為標(biāo)注,網(wǎng)絡(luò)在學(xué)習(xí)預(yù)測氨基酸種類過程中也隱含地獲得了表征信息。這些表征信息經(jīng)過簡單的監(jiān)督學(xué)習(xí)或者回歸擬合[34],可以用來做結(jié)構(gòu)類的任務(wù),如二級結(jié)構(gòu)預(yù)測、殘基接觸預(yù)測、功能預(yù)測等。

      Meta團(tuán)隊開發(fā)了一系列蛋白質(zhì)語言模型,其中ESM[35]是第一代模型,它基于單序列(singlesequence)進(jìn)行預(yù)訓(xùn)練,并在殘基接觸預(yù)測問題上取得了與經(jīng)典方法相當(dāng)?shù)乃?。其團(tuán)隊后期開發(fā)的MSA Transformer[36]考慮在 MSA上進(jìn)行建模,在模型細(xì)節(jié)方面,拓展了attention機制,對MSA矩陣的行與列分別計算注意力,分別代表對不同氨基酸序列的關(guān)注程度以及對不同殘基位置的關(guān)注程度。此外將mask語言模型應(yīng)用于MSA中,增加預(yù)訓(xùn)練的難度以提高模型魯棒性。在模型復(fù)雜度方面,MSA Transformer模型相比原本的蛋白質(zhì)語言模型,模型參數(shù)量明顯減少,節(jié)約了大量訓(xùn)練空間和算力。在訓(xùn)練效果方面,MSA transformer作為預(yù)訓(xùn)練模型,可以完成許多不同的下游任務(wù),以無監(jiān)督殘基接觸預(yù)測任務(wù)為例,相較于傳統(tǒng)的結(jié)構(gòu)預(yù)測模型和基于單序列的蛋白質(zhì)語言模型,MSA Transformer效果顯著優(yōu)化,尤其在MSA深度不足時仍可以保證一定的預(yù)測準(zhǔn)確性。

      近期,結(jié)合單序列蛋白質(zhì)語言模型和結(jié)構(gòu)預(yù)測模塊的算法,在一些孤兒蛋白或者人工設(shè)計蛋白上展示了不錯的結(jié)構(gòu)預(yù)測性能,如ESMFold[32]、HelixFold-single[37]、OmegaFold[38]、trRosettaXSingle[39]、RGN2[40]。當(dāng)MSA質(zhì)量相對較高時,基于AlphaFold2的相關(guān)模型能夠保證較高的準(zhǔn)確性,但是當(dāng)同源序列比較少或者找不到同源序列的時候,基于MSA的相關(guān)算法經(jīng)常得不到合理的模型。幾個方法的共同之處是使用了蛋白質(zhì)語言模型的表征信息替換掉原始MSA的輸入信息,并采用了類似AlphaFold2的Evoformer模塊和結(jié)構(gòu)模塊。除了在MSA質(zhì)量較低的蛋白質(zhì)上展示了更好的預(yù)測性能外,基于PLM的結(jié)構(gòu)預(yù)測模型通過利用表征信息就能生成結(jié)構(gòu),而不需要進(jìn)行MSA的構(gòu)建,因此可以大大加快蛋白質(zhì)結(jié)構(gòu)預(yù)測的速度。

      此外,還有一些工作研究基于蛋白質(zhì)語言模型來預(yù)測蛋白質(zhì)突變,比如ESM-1v[41]、ProtT5[42]。Ntranos團(tuán)隊[43]則更直接地使用單序列語言模型,分析了人類基因組中的所有蛋白質(zhì),對約4.5億個可能的錯義突變影響進(jìn)行了預(yù)測,并在致病性突變預(yù)測、深度掃描突變分析和異構(gòu)體特異性預(yù)測等問題上展示了可能的潛力。

      1.3.2 基于結(jié)構(gòu)的預(yù)訓(xùn)練

      蛋白質(zhì)結(jié)構(gòu)是在三維空間中表示的,有一些工作嘗試直接從三維信息出發(fā)構(gòu)建預(yù)訓(xùn)練模型,其中能獲得非常有效的蛋白質(zhì)結(jié)構(gòu)表征信息。與蛋白質(zhì)語言模型的相似之處是不需要額外給出標(biāo)簽信息,蛋白質(zhì)結(jié)構(gòu)預(yù)訓(xùn)練模型僅基于結(jié)構(gòu)本身的信息構(gòu)建自監(jiān)督學(xué)習(xí)任務(wù),如殘基對的鏈接信息掩碼、對殘基對種類進(jìn)行隨機刪除、替換或者殘基坐標(biāo)加上噪聲。在預(yù)訓(xùn)練好的模型中提取一些結(jié)構(gòu)表征信息,也可以用于功能預(yù)測、蛋白質(zhì)結(jié)合力預(yù)測或相互作用預(yù)測等任務(wù)。

      由Guo等[44]提出的自監(jiān)督的預(yù)訓(xùn)練模型,其思路是從蛋白質(zhì)三級結(jié)構(gòu)中學(xué)習(xí)結(jié)構(gòu)表征信息??紤]天然的蛋白質(zhì)結(jié)構(gòu)受到隨機噪聲的干擾,預(yù)訓(xùn)練模型旨在估計受擾動的3D結(jié)構(gòu)的梯度。該工作中采用SE(3)等變特征作為模型輸入,并在保留SE(3)等變性的情況下重建3D坐標(biāo)上的梯度。這種范式避免了使用復(fù)雜的SE(3)等變模型,并顯著提高了預(yù)訓(xùn)練模型的計算效率。其預(yù)訓(xùn)練模型在蛋白質(zhì)結(jié)構(gòu)質(zhì)量評估(QA)和蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)位點預(yù)測這兩個下游任務(wù)上都表現(xiàn)出不錯的預(yù)測精度。

      Tang Jian團(tuán)隊[45]開發(fā)的基于AlphaFold Database[31]數(shù)據(jù)庫的蛋白質(zhì)結(jié)構(gòu)預(yù)訓(xùn)練模型,其中使用了約80萬個數(shù)據(jù)樣本。他們設(shè)計了一種簡單有效的編碼器(GearNet),通過添加不同類型的序列邊或結(jié)構(gòu)邊來編碼結(jié)構(gòu)信息,并對蛋白質(zhì)殘基之間進(jìn)行相關(guān)信息傳遞。其中采用了多視圖對比學(xué)習(xí)來進(jìn)行預(yù)訓(xùn)練,其目標(biāo)是對齊來自同一蛋白質(zhì)的不同視圖的表示,同時最小化來自不同蛋白質(zhì)的視圖之間的相似性。文中使用了殘基類型預(yù)測、距離預(yù)測、角度預(yù)測、二面角預(yù)測四個自監(jiān)督學(xué)習(xí)任務(wù)來預(yù)訓(xùn)練蛋白質(zhì)圖編碼器。其最終實驗結(jié)果表明,模型在功能預(yù)測等任務(wù)上達(dá)到了與最先進(jìn)的基于序列的預(yù)訓(xùn)練模型相媲美甚至更好的結(jié)果。

      深勢科技團(tuán)隊發(fā)布了首個三維分子預(yù)訓(xùn)練模型Uni-Mol[46]。Uni-Mol首先在利用2億個分子三維構(gòu)象和300萬個蛋白候選口袋數(shù)據(jù)構(gòu)建了預(yù)訓(xùn)練數(shù)據(jù)集,在進(jìn)行預(yù)訓(xùn)練后,Uni-Mol在分子構(gòu)象生成、蛋白-配體結(jié)合構(gòu)象預(yù)測等三維構(gòu)象生成相關(guān)的任務(wù)上取得了非常好的性能。其中蛋白質(zhì)口袋預(yù)訓(xùn)練數(shù)據(jù)集來自蛋白質(zhì)數(shù)據(jù)庫[RCSB PDB(http://www.rcsb.org)],庫中有約190K的結(jié)晶真實蛋白3D結(jié)構(gòu),該團(tuán)隊在此基礎(chǔ)上構(gòu)造一個由320萬個候選蛋白口袋組成的3D構(gòu)象數(shù)據(jù)集。Uni-Mol共使用三種不同的自監(jiān)督策略進(jìn)行模型訓(xùn)練:與BERT類似,Uni-Mol中也使用了對原子掩碼的預(yù)測任務(wù),采用了預(yù)測原子類型的策略;此外,使用了去噪策略,預(yù)測被掩碼的原子對的歐氏距離以及直接預(yù)測被掩碼的原子的正確坐標(biāo)。

      2 蛋白質(zhì)復(fù)合物鏈間殘基接觸預(yù)測

      蛋白質(zhì)結(jié)構(gòu)的關(guān)鍵拓?fù)湫畔ⅲㄈ鐨埢g接觸或距離信息,二面角信息等)對于指導(dǎo)蛋白質(zhì)3D結(jié)構(gòu)預(yù)測是至關(guān)重要的,其中結(jié)合共進(jìn)化分析和深度學(xué)習(xí)的方法極大地提高了單體蛋白質(zhì)(鏈內(nèi))殘基接觸預(yù)測,最近有一些工作嘗試將鏈內(nèi)殘基接觸算法拓展到蛋白質(zhì)復(fù)合物(鏈間)接觸預(yù)測。鏈間殘基接觸的定義與鏈內(nèi)的殘基接觸定義類似,即殘基間距離小于某個閾值(cutoff)的這對殘基即判斷為接觸,對于距離的定義稍有不同,其中單體鏈內(nèi)的殘基間的距離是指Cβ(或者Cα)原子之間的距離,此外,復(fù)合物鏈間的殘基間的距離也可以用最小重原子距離來表示,當(dāng)一對殘基的最小重原子距離小于0.6 nm(或者0.8 nm)時,這對殘基即是接觸的。本節(jié)從復(fù)合物序列比對拼接方法及復(fù)合物鏈間接觸預(yù)測這兩個方面展開。

      2.1 復(fù)合物序列比對拼接方法

      復(fù)合物的序列比對通常的構(gòu)建包括兩個步驟:首先是對于每條序列尋找MSA;其次是對于多個MSA進(jìn)行拼接。目前最常用的多重序列比對拼接方法(MSA pairing),分別是基于基因組距離和基于進(jìn)化樹。EVcomplex[47]、Gremlin Complex[15]通過假設(shè)相互作用蛋白對的遺傳距離小于某一閾值來配對MSA,然后基于統(tǒng)計模型對鏈間殘基進(jìn)行共進(jìn)化分析,以預(yù)測鏈間殘基接觸。此外,許錦波等[48]提出了基于基因組信息來對MSA進(jìn)行配對,這對于來自原核生物的蛋白質(zhì)也有不錯的建模性能。

      最近有工作嘗試對于拼接的多重序列比對進(jìn)行打分和排序,如通過注意力機制對拼接的MSA進(jìn)行打分排序[49],從而提升復(fù)合物結(jié)構(gòu)預(yù)測的精度。在CASP15公布的單體及多聚體復(fù)合物結(jié)構(gòu)預(yù)測算法中,鄭偉等[50]在AlphaFold2使用的序列比對數(shù)據(jù)庫基礎(chǔ)上額外使用了其他數(shù)據(jù)庫,增加了單條鏈的序列比對的多樣性,此外設(shè)計了新的多重序列比對拼接策略,最后通過AlphaFold2(或者AlphaFold Multimer[51])預(yù)測的置信度分?jǐn)?shù)(如plDDT)對于MSA進(jìn)行打分排序。

      2.2 復(fù)合物鏈間接觸預(yù)測

      早期的復(fù)合物鏈間接觸預(yù)測主要是相互作用殘基對預(yù)測[52],例如圖2所示,即主要在于評測打分較高的這部分殘基對(如前5、10、50)是否組成界面,高置信度的相互作用殘基對預(yù)測對于研究一些結(jié)構(gòu)生物機理是關(guān)鍵的信息,另外較準(zhǔn)確地預(yù)測相互作用的殘基對于蛋白質(zhì)對接等蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測方法也是很有幫助的。本文作者課題組開發(fā)了基于概率模型、機器學(xué)習(xí)以及深度學(xué)習(xí)等一系列的蛋白質(zhì)復(fù)合物相互作用殘基對預(yù)測的方法。首先,考慮到界面殘基與非界面殘基的區(qū)別表現(xiàn)在物理、化學(xué)和結(jié)構(gòu)性質(zhì)上,發(fā)現(xiàn)利用計算和統(tǒng)計的方法對相互作用殘基進(jìn)行預(yù)測是可能的[53]。在以往的研究中,提出了表面殘基的許多性質(zhì),如保守性、氨基酸偏好性、疏水性、溶劑可及性等,在總結(jié)上述知識的基礎(chǔ)上,本文作者課題組提出對殘基進(jìn)行了三種幾何表征,即殘基與其他殘基的外部接觸面積(ECA)、外部空面積(EVA)和內(nèi)部接觸接觸面積(ICA)[54],并使用了統(tǒng)計模型對殘基對進(jìn)行打分,開創(chuàng)性地展開了對相互作用殘基對預(yù)測的研究。在此基礎(chǔ)上,提出了融合多種機器學(xué)習(xí)方法的蛋白質(zhì)相互作用殘基對預(yù)測方法[55]。

      圖2 蛋白質(zhì)鏈間殘基接觸Fig.2 Interactions between residues with the inter-chains of proteins

      此外,本文作者課題組基于長短期記憶網(wǎng)絡(luò)(LSTM)的方法來預(yù)測異源二聚體、三聚體和四聚體的相互作用殘基對[56-59],在該系列方法中,充分利用幾何特征來描述殘基的性質(zhì),改進(jìn)了LSTM方法(結(jié)合了注意力機制[58]、圖神經(jīng)網(wǎng)絡(luò)[57]、結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和支持向量機的方法[60]等),并在三聚體和四聚體等多聚體數(shù)據(jù)集上進(jìn)行測試,為研究多聚體復(fù)合物結(jié)構(gòu)預(yù)測相關(guān)算法提供了新的思路。

      基于殘差網(wǎng)絡(luò)的殘基接觸預(yù)測算法RaptorX-contact[16]在2016年CASP12中獲得殘基接觸預(yù)測賽道第一名,展示了深度學(xué)習(xí)方法在蛋白質(zhì)殘基接觸預(yù)測方面的高效性能。在2018年許錦波團(tuán)隊將RaptorX-contact應(yīng)用到異源二聚體的鏈間殘基接觸預(yù)測(RaptorX-Complex Contact[48])。該方法沿用了單體殘基接觸預(yù)測的訓(xùn)練集和模型,僅對輸入的兩條鏈的多重序列進(jìn)行拼接,即輸出了異源二聚體的接觸矩陣,這也是首次成功用于鏈間接觸預(yù)測的深度學(xué)習(xí)方法。此后,在2021年該團(tuán)隊結(jié)合了蛋白質(zhì)語言模型的信息以及原子、殘基和表面的特征,最后通過殘差網(wǎng)絡(luò)預(yù)測異源二聚體的接觸矩陣(Glinter[61])。程建林團(tuán)隊設(shè)計了幾種算法來研究異源二聚體的殘基接觸預(yù)測,其中一種思路是基于幾何深度學(xué)習(xí)算法DeepInteract[62],其中使用了蛋白質(zhì)的幾何信息(以蛋白質(zhì)單體的結(jié)構(gòu)信息為基礎(chǔ)),另一種思路是基于注意力機制的方法CDpred[63],其中基于單體距離矩陣、共進(jìn)化分析和蛋白質(zhì)語言模型等特征,并使用了自注意力機制。這兩個工作將異源二聚體的接觸預(yù)測提升到了較高的水平。

      華中科技大學(xué)黃勝友課題組提出了系列算法DeepHomo[64]、DeepHomo2.0[65],來研究同源二聚體或多聚體的鏈間殘基接觸預(yù)測問題,其中使用了單體結(jié)構(gòu)信息、共進(jìn)化信息以及來自分子對接的特征。DeepHomo2.0額外使用了蛋白語言模型的表征信息,此外程建林等提出的DRcon[66]也使用了蛋白質(zhì)語言模型的表征信息。本文作者課題組開發(fā)的PGT[67]使用了圖注意力網(wǎng)絡(luò)并借鑒了AlphaFold2中的三角更新模塊,在同源二聚體鏈間接觸預(yù)測問題上有不錯的性能。與異源復(fù)合物的殘基預(yù)測水平相比,同源復(fù)合物的殘基接觸預(yù)測精度更高,這也與復(fù)合物結(jié)構(gòu)預(yù)測中的結(jié)論相一致,即同源復(fù)合物的預(yù)測水平比異源復(fù)合物更高。

      由于在復(fù)合物序列比對拼接過程會引入一些數(shù)據(jù)噪聲,不使用拼接的多重序列比對也是一種選擇,如只基于單體的MSA的蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測算法[68]有不錯的性能。本文作者課題組提出的基于圖像修復(fù)的方法PDII[69],只使用鏈內(nèi)的接觸矩陣,而不需要使用多重序列比對信息,僅從蛋白質(zhì)鏈內(nèi)的相互作用信息來學(xué)習(xí)鏈間接觸。基于圖像修復(fù)的模型不需要使用拼接的多重序列比對數(shù)據(jù),僅把單體蛋白質(zhì)的內(nèi)部接觸圖拼接作為模型的輸入,也不需要提取其他物理化學(xué)特征;其次,這個模型不依賴于輸入結(jié)構(gòu)的形式,模型對于bound或者unbound的蛋白質(zhì)結(jié)構(gòu)輸入也具有強魯棒性;另外,此模型可以處理同源二聚體或者異源二聚體。上述的復(fù)合物鏈間接觸預(yù)測方法均總結(jié)于表1中,包括使用的輸入特征、網(wǎng)絡(luò)架構(gòu)和任務(wù)等。

      表1 蛋白質(zhì)鏈間相互作用預(yù)測方法[48,61-67,69]Table 1 Overview of methods for predicting interactions between the inter-chains of proteins[48,61-67,69]

      在考慮多聚體復(fù)合物的殘基接觸預(yù)測問題中,首先需要判斷的是兩條鏈?zhǔn)欠裼邢嗷プ饔茫?2]。本課題組使用了一種基于網(wǎng)絡(luò)蛋白質(zhì)相互作用(PPI)的預(yù)測方法Sim[70],該算法從蛋白質(zhì)相互作用界面的互補性和基因復(fù)制兩個角度設(shè)計,可以挑選出更容易相互作用的蛋白質(zhì)對。此外,課題組考慮了基于清華大學(xué)丘成棟課題組[71]開發(fā)的自然向量法,首次來預(yù)測PPI中非相互作用的蛋白質(zhì)對[72]。將預(yù)測兩個蛋白質(zhì)相互作用或者非相互作用結(jié)合起來,這可以減少通過實驗來確定蛋白質(zhì)相互作用的時間和經(jīng)費消耗。此外,浙江工業(yè)大學(xué)張貴軍課題組[73]近年來的一些工作研究多域(multi-domain)蛋白質(zhì)的相互作用,其中Sen等[74]通過研究蛋白質(zhì)數(shù)據(jù)庫發(fā)現(xiàn)蛋白域之間相互作用和鏈之間的相互作用有相似之處,能否借助多域蛋白質(zhì)的數(shù)據(jù)來提升蛋白質(zhì)復(fù)合物的結(jié)構(gòu)預(yù)測也是一個值得關(guān)注的方向。

      目前的端到端的結(jié)構(gòu)預(yù)測算法性能(AlphaFold2)超過了傳統(tǒng)的“兩步走”的結(jié)構(gòu)預(yù)測算法,因此旨在提升蛋白質(zhì)殘基接觸預(yù)測精度對于單體蛋白質(zhì)而言意義不大。但是通過研究殘基接觸信息預(yù)測來進(jìn)一步探索蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測相關(guān)問題仍然是有意義的,一方面是鏈間殘基接觸預(yù)測信息可以為結(jié)構(gòu)生物學(xué)研究問題如蛋白質(zhì)功能的研究提供先驗信息,另一方面是端到端的結(jié)構(gòu)預(yù)測方法如AlphaFold Multimer的預(yù)測精度相對較低,因此提升鏈間殘基接觸矩陣預(yù)測性能是有研究價值的,也很有挑戰(zhàn)性。

      3 蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測算法

      經(jīng)典的蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測算法通常是基于蛋白質(zhì)分子對接方法,隨著單體蛋白質(zhì)結(jié)構(gòu)預(yù)測算法的發(fā)展,端到端的蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測算法也展現(xiàn)了不錯的性能,其中大體思路是類似的,首先是根據(jù)多重序列比對和模板搜索來構(gòu)建特征,其次是設(shè)計一個監(jiān)督學(xué)習(xí)框架來搭建從序列到結(jié)構(gòu)的端到端的算法。相比較蛋白質(zhì)單體結(jié)構(gòu)預(yù)測精度,蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測算法還是相對較低的水平。在這里主要討論的是蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測算法建模的相關(guān)算法,本節(jié)圍繞著鏈間接觸矩陣與復(fù)合物結(jié)構(gòu)預(yù)測、蛋白質(zhì)分子對接以及端到端的復(fù)合物結(jié)構(gòu)預(yù)測三個方面展開。

      3.1 鏈間接觸矩陣與復(fù)合物結(jié)構(gòu)預(yù)測

      前文系統(tǒng)地總結(jié)了鏈間接觸預(yù)測的主要方法,這里簡單地介紹基于預(yù)測的鏈間接觸或者殘基相互作用預(yù)測,來構(gòu)建復(fù)合物結(jié)構(gòu)。如Rosetta[27]、CDPSP[75]、GDFold[21]是針對單體結(jié)構(gòu)預(yù)測開發(fā)的算法,其中DeepComplex[76]和DRLComplex[77]是針對蛋白質(zhì)復(fù)合物開發(fā)的基于接觸矩陣的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,主要研究如何從精度較高的接觸矩陣來構(gòu)建準(zhǔn)確的3D結(jié)構(gòu),此外由Baek等[78]在CASP14提出的算法也使用了鏈間接觸預(yù)測作為指導(dǎo)來對復(fù)合物結(jié)構(gòu)進(jìn)行建模。其中Rosetta是經(jīng)典的依賴于能量項的建模,可以將置信度較高的殘基接觸轉(zhuǎn)換成約束,來指導(dǎo)蛋白質(zhì)折疊過程。CDPSP通過蛋白域之間的接觸預(yù)測來優(yōu)化多域蛋白質(zhì)的結(jié)構(gòu)。DeepComplex同樣采用的是類似GDFold的梯度下降算法,來對復(fù)合物進(jìn)行結(jié)構(gòu)建模。而DRLComplex是采用強化學(xué)習(xí)的思想來優(yōu)化蛋白質(zhì)復(fù)合物結(jié)構(gòu)。

      高置信度的相互作用殘基對可以為構(gòu)建復(fù)合物結(jié)構(gòu)提供重要的約束信息,像傳統(tǒng)的單體結(jié)構(gòu)建模過程中通過預(yù)測鏈內(nèi)接觸矩陣來限制優(yōu)化蛋白質(zhì)的折疊過程一樣,研究者也在多聚體建模時通過預(yù)測鏈間的接觸矩陣或預(yù)測哪些殘基會相互作用來限制蛋白質(zhì)復(fù)合物的建模過程[64]。此外,預(yù)測的相互作用殘基對可以作為先驗信息,來指導(dǎo)蛋白質(zhì)分子對接過程。

      3.2 蛋白質(zhì)分子對接

      蛋白質(zhì)分子對接方法的流程是基于已給定的結(jié)構(gòu)來預(yù)測復(fù)合物結(jié)構(gòu)。蛋白質(zhì)對接的思想來源于鎖鑰模型和誘導(dǎo)擬合理論。對接過程應(yīng)獲得同時滿足空間形狀互補和能量最小化原則的最佳結(jié)合模式。傳統(tǒng)的對接過程一般通過快速傅里葉變換(FFT)、蒙特卡洛、遺傳算法等方法搜索構(gòu)象空間,獲得大量候選蛋白質(zhì)復(fù)合物構(gòu)象,然后通過評分函數(shù)對這些構(gòu)象進(jìn)行排序和選擇,最后根據(jù)能量模型對預(yù)測的結(jié)構(gòu)進(jìn)行優(yōu)化。下文描述了一些對接算法,包括能夠輸入多個亞基的方法、專門針對具有對稱性的同源寡聚體的方法、基于深度學(xué)習(xí)的分子對接方法。

      一些服務(wù)器能夠通過輸入兩個以上的亞基來為蛋白質(zhì)復(fù)合物建模。例如HADDOCK[79],一種用于建模多聚體的靈活對接算法,它以模糊的相互作用約束(AIR)編碼來自已識別或預(yù)測的蛋白質(zhì)界面的信息,以驅(qū)動對接過程。與HADDOCK不同,Multi-LZerD[80]不需要限制額外的生物信息來建模多聚體,首先生成成對對接預(yù)測,然后使用遺傳算法探索構(gòu)象空間,最后基于蒙特卡洛優(yōu)化預(yù)測結(jié)構(gòu)。這兩個服務(wù)器能夠?qū)蓚€以上鏈的多聚體進(jìn)行建模,并且不限于具有對稱性的同源多聚體。

      有一些服務(wù)器專門為具有對稱性的同源多聚體結(jié)構(gòu)建模,復(fù)合物的蛋白質(zhì)結(jié)構(gòu)主要有兩種對稱性,環(huán)狀(Cn對稱)和二面體(Dn對稱)。例如,SAM[81]、HSYDOCK[82]分別為Cn對稱和Dn對稱的多聚體建模,Galaxy[83]系列中也針對Cn和Dn采用不同的策略GalaxyTongDock_C和GalaxyTongDock_D。此外,SymDock2[84]、MZDOCK[85]等也支持對具有Cn對稱性的低聚物進(jìn)行建模。

      還有許多二聚體對接方法,大多數(shù)對接程序基于快速傅里葉變換(FFT)對整個構(gòu)象空間進(jìn)行全局采樣,例如ZDOCK[86]、pyDock[87]、ClusPro[88]、MDOCKPP[89]、CoDockPP[90]、GalaxyTongDock[83]等,并且如果受體或配體在相互作用時發(fā)生大的構(gòu)象變化,則建模質(zhì)量大大降低。也有一些基于能量優(yōu)化的隨機搜索算法用于對接過程,例如,RosettaDOCK[84,91]基于蒙特卡洛搜索方法,該方法擅長蛋白質(zhì)局部構(gòu)象探索,但不擅長全局對接。整個過程的計算效率很低。在使用RosettaDock進(jìn)行對接之前,通常使用其他剛性對接軟件進(jìn)行初步構(gòu)象探索,并選擇幾個合理的構(gòu)象作為起點。SwarmDock[92],基于粒子群優(yōu)化算法來尋找蛋白質(zhì)相互作用的低能量位置和方向。此外,還有一些其他的對接方法,例如LZerd[80],它使用3DZD來表示蛋白質(zhì)界面,是旋轉(zhuǎn)不變的,并基于幾何哈希方法找到候選姿勢。Baker等[78]在CASP14中采用了一種新的同時折疊和對接的方法,基于梯度能量最小化來采樣結(jié)構(gòu)。鏈間接觸預(yù)測的質(zhì)量對于這種方法很重要,隨著基于機器學(xué)習(xí)的鏈間接觸預(yù)判和距離預(yù)測方法的進(jìn)步,這種方法可以大大提高對接準(zhǔn)確率。

      在CASP-CAPRI競賽中,許多小組在建模多聚體時采用了結(jié)合模板建模和自由對接的方法[1],還開發(fā)了一些集成基于模板和自由對接的服務(wù)器。例如,HDOCK集成了同源性搜索、自由對接、基于模板的建模和生物信息集成等過程,不僅支持受體和配體的結(jié)構(gòu)輸入,還支持序列輸入。類似的混合策略有InterEvDock2[93]、CoDock[90]、GalaxyHommer[94]、GalaxyTongDock[83]等。

      除了上述傳統(tǒng)的對接算法,最近還出現(xiàn)了一些基于深度學(xué)習(xí)的端到端建模算法,用于蛋白質(zhì)-蛋白質(zhì)剛體對接。Octavian Eugen Ganea等[95]提出了一種基于成對獨立SE(3)-等變圖匹配網(wǎng)絡(luò)的剛性對接算法EquiDock,它通過優(yōu)化傳輸和可微的Kabsch算法,使用關(guān)鍵點匹配和對齊來逼近結(jié)合口袋,并預(yù)測對接相對位置。通過預(yù)測旋轉(zhuǎn)和平移,使得配體能夠相對于受體放置在正確的對接位置,無論兩個結(jié)構(gòu)的初始位置如何,該方法保證預(yù)測的復(fù)合物總是相同的。與傳統(tǒng)的對接算法不同,它不依賴廣泛的采樣、排序、結(jié)構(gòu)優(yōu)化和模板,比傳統(tǒng)對接方法快80~500倍。

      由于需要在數(shù)據(jù)集上對比不同的蛋白質(zhì)復(fù)合物建模方法的性能,因此需要非冗余和高質(zhì)量的數(shù)據(jù)集,如Benchmark5(BM5)[96]、PPI4DOCK[97]基準(zhǔn)集、Huang等創(chuàng)建的用于對稱蛋白質(zhì)對接的SDBenchmark[98]。其中,Benchmark5(BM5)是最常用的對接數(shù)據(jù)集。

      3.3 端到端的復(fù)合物結(jié)構(gòu)預(yù)測

      端到端的蛋白質(zhì)結(jié)構(gòu)預(yù)測算法AlphaFold2極大地提高了蛋白質(zhì)單體結(jié)構(gòu)預(yù)測水平,因此很自然的想法是去探究這種端到端的結(jié)構(gòu)預(yù)測算法在蛋白質(zhì)復(fù)合物結(jié)構(gòu)問題上性能如何。早期的嘗試是采用了與RoseTTaFold中開發(fā)的類似技巧,將復(fù)合物的多條序列拼接后構(gòu)建復(fù)合物的結(jié)構(gòu),并直接基于AlphaFold2的模型來構(gòu)建復(fù)合物的結(jié)構(gòu),其中在一些蛋白質(zhì)上能夠預(yù)測出質(zhì)量很高的模型。Mirdita等基于AlphaFold2開發(fā)的ColabFold[99],一個對用戶友好的蛋白質(zhì)結(jié)構(gòu)預(yù)測工具,其中也使用了一些策略來對蛋白質(zhì)復(fù)合物進(jìn)行結(jié)構(gòu)建模。之后Elofsson實驗室基于AlphaFold2提出FoldDock[100]方法,使用了配對MSA的策略,基于AlphaFold2及AlphaFold multimer方法,開發(fā)并測試了一組大型基準(zhǔn)異二聚體,之后又針對多聚體復(fù)合物進(jìn)行了預(yù)測評估[101]。這些結(jié)果強調(diào)了基于AF2的方法相對于其他對接方法的優(yōu)勢[102]。與此類似的工作是Gao等提出的AF2Complex[68]通過填充間隙和模板作為輸入,使用每個鏈單獨的MSA,而不使用拼接的MSA,并在多個循環(huán)步驟后通過AlphaFold2生成更多的模型,最后通過重新定義的置信度分?jǐn)?shù)來挑選模型 。

      盡管上述方法對二聚體(或三聚體)很有效,但它們可能存在局限性,因為對于一大部分復(fù)合物,很難獲得高質(zhì)量的拼接MSA作為其輸入,這和上節(jié)中介紹的鏈間殘基接觸預(yù)測方法所面臨的問題是類似的,即模型的精度非常依賴于輸入的MSA質(zhì)量。

      由深勢公司團(tuán)隊開發(fā)的可訓(xùn)練版本UniFold-Multimer[103],性能和AlphaFold Multimer相當(dāng),其針對對稱復(fù)合物再訓(xùn)練了一個版本UniFold-Symmetry[104],對于對稱的超大復(fù)合物取得不錯的建模效果。此外,同樣由Elofsson實驗室提出的MolPC[105],嘗試對更大的復(fù)合物(超過10條鏈)進(jìn)行結(jié)構(gòu)建模,其中使用蒙特卡洛樹搜索將預(yù)測的子組件組合在一起。之后Dima Kozakov等[106]將Alphafold2與Cluspro結(jié)合起來,通過ClusPro對接的前10個結(jié)果作為模板送入AlphaFold2進(jìn)行微調(diào)[78,81],也得到了一些不錯的模型。

      基于AlphaFold2的各類復(fù)合物結(jié)構(gòu)預(yù)測工作層出不窮,Deepmind團(tuán)隊也在AlphaFold2基礎(chǔ)上開源了AlphaFold Multimer[51],用于端到端的復(fù)合物結(jié)構(gòu)預(yù)測。其在AlphaFold2基礎(chǔ)上主要做了如下幾個修改:修正的損失函數(shù)(其中考慮了預(yù)測結(jié)構(gòu)和真實結(jié)構(gòu)的對應(yīng)關(guān)系);構(gòu)建拼接的多重序列比對;在位置編碼上增加了復(fù)合物不同鏈的信息[89-91]。蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測算法也能相互作用識別。后來,Baker團(tuán)隊[107]利用共進(jìn)化分析,并結(jié)合AlphaFold2和RosettaFold為真核生物核心蛋白質(zhì)復(fù)合物的結(jié)構(gòu)建模[108],開發(fā)了一個識別可能相互作用的蛋白質(zhì)對并為這些蛋白質(zhì)復(fù)合物的結(jié)構(gòu)建模的方法。該方法首先識別同源蛋白質(zhì),生成同源基因群;然后為每對酵母蛋白質(zhì)對建立同源序列的多序列比對;接下來通過一個輕量型的兩軌RosettaFold模型預(yù)測蛋白質(zhì)對之間的接觸概率,或根據(jù)實驗數(shù)據(jù)識別PPI候選;最后過濾候選的PPI,用AlphaFold2為復(fù)合物結(jié)構(gòu)建模。通過篩選出830萬對酵母蛋白,從中識別出1505種可能的相互作用復(fù)合物,699個復(fù)合物的結(jié)構(gòu)在之前的實驗中被解析,同時也為其他806個尚未結(jié)構(gòu)表征的蛋白質(zhì)構(gòu)建了結(jié)構(gòu)模型,其中,700個有實驗數(shù)據(jù)支持,106個此前從未被描述。

      整體來說,端到端的復(fù)合物結(jié)構(gòu)預(yù)測算法能預(yù)測出比較合理的復(fù)合物結(jié)構(gòu),其中在同源多聚體上的模型精度較大,但是在異源多聚體上不太理想,其原因是同源多聚體通常不需要拼接MSA,而異源多聚體獲得拼接MSA難度較大。此外,端到端的蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測算法在一些低聚體復(fù)合物或者同源復(fù)合物上展現(xiàn)了比蛋白質(zhì)分子對接算法更好的性能,但是分子對接在與小分子相互作用的復(fù)合物建模中更有優(yōu)勢,對于超大的蛋白質(zhì)復(fù)合物,分子對接方法可以做出較合理的模型,這是目前端到端的復(fù)合物結(jié)構(gòu)預(yù)測方法很難做到的。另外,端到端的復(fù)合物結(jié)構(gòu)預(yù)測算法在多肽復(fù)合物或者抗體-抗原復(fù)合物蛋白質(zhì)上表現(xiàn)的結(jié)果欠佳[108-110],仍有大量可提升的空間。

      4 挑戰(zhàn)與展望

      本文介紹并討論了多種計算方法,首先圍繞基于人工智能的單體結(jié)構(gòu)預(yù)測算法展開,介紹了常用的深度學(xué)習(xí)框架和預(yù)訓(xùn)練模型的新范式。此外,針對蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測中的三個方面展開介紹,如詳細(xì)介紹了針對鏈間接觸預(yù)測的算法,再從基于對接的方法到基于人工智能算法的端到端的蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測方法??傮w來說,在鏈間殘基接觸預(yù)測、蛋白質(zhì)復(fù)合物分子對接、端到端的復(fù)合物結(jié)構(gòu)預(yù)測三個方面,仍有未解決的問題。

      鏈間殘基接觸和距離圖的預(yù)測對于指導(dǎo)蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)對接中的復(fù)合物結(jié)構(gòu)建模很重要。目前的方法針對同源二聚體或多聚體的預(yù)測性能較高,異源復(fù)合物的鏈間殘基接觸預(yù)測精度較低。拼接的MSA質(zhì)量較低,也是一個挑戰(zhàn),目前較常用的基于進(jìn)化樹和基于基因組的方法有值得改進(jìn)的空間。

      目前,大多數(shù)對接算法考慮剛性對接,少數(shù)算法考慮柔性,但性能有待提高。剛體對接需要兩個單體未結(jié)合時的結(jié)構(gòu)接近結(jié)合時的結(jié)構(gòu),對于一些困難的題目,在結(jié)合過程中,當(dāng)其中有一個蛋白質(zhì)的結(jié)構(gòu)發(fā)生了顯著變化,剛性對接方法無法為它們產(chǎn)生高質(zhì)量的對接結(jié)果。柔性對接允許一定的構(gòu)象變化,可以為某些復(fù)合物提供更精確的模型,但對于比較復(fù)雜的多聚體復(fù)合物仍不能產(chǎn)生好的結(jié)果,因此考慮構(gòu)象變化仍然是多聚體復(fù)合體預(yù)測的重要挑戰(zhàn)。此外,大多數(shù)蛋白質(zhì)分子對接算法都只考慮二聚體,對于大于兩條鏈的復(fù)合物,一些研究人員開發(fā)了專門針對具有Cn或Dn對稱性的寡聚蛋白的建模算法,但對于非同源的多聚體結(jié)構(gòu)預(yù)測仍然是未來的一個重要挑戰(zhàn)。此外,許多蛋白質(zhì)對接算法考慮了整合各種生物信息,這是有助于蛋白質(zhì)結(jié)構(gòu)預(yù)測的,如何使用多種生物信息,也是未來的一個重要方向。

      AlphaFold2和RoseTTAFold在單體結(jié)構(gòu)預(yù)測上展現(xiàn)了非常好的預(yù)測水平,AlphaFold Multimer在復(fù)合物結(jié)構(gòu)預(yù)測中也能夠得到一些不錯的預(yù)測結(jié)構(gòu)??傮w來說,不同于以往基于模板建模和從頭對接的方法,AlphaFold Multimer這種端到端建模方法可能是未來的一個重要趨勢。目前蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測整體上離單體結(jié)構(gòu)預(yù)測精度還是有不少差距,抗體抗原復(fù)合物、多肽復(fù)合物、無序蛋白相互作用蛋白質(zhì)復(fù)合物、超大蛋白質(zhì)復(fù)合物[111-112]的結(jié)構(gòu)建模也是重要的挑戰(zhàn)。有一些后續(xù)工作更加關(guān)注如何提升多聚體復(fù)合物結(jié)構(gòu)預(yù)測的性能,大部分聚焦在復(fù)合物多重序列比對的采樣,在最近的CASP15比賽中,有47個多聚體復(fù)合物結(jié)構(gòu),其中表現(xiàn)較好的參賽組在多重序列比對采樣上使用了多種新策略,并依賴于或者直接使用AlphaFold Multimer來預(yù)測最終結(jié)構(gòu)。

      目前在蛋白質(zhì)復(fù)合物結(jié)構(gòu)問題預(yù)測中,仍有幾個方面值得討論:首先是在不清楚蛋白質(zhì)復(fù)合物中各單體計量比的情況下,是否有可能預(yù)測出復(fù)合物組成,比如預(yù)測出某些鏈的相互作用可能有助于解決這個問題;此外對于異源多聚體,如何解決不同單體之間的排列順序問題,目前AlphaFold Multimer的方案是一種解決辦法;另外,對于多聚體復(fù)合物來說,多聚體復(fù)合物的模板構(gòu)建仍然是個問題,傳統(tǒng)的蛋白質(zhì)模板庫主要是針對單體蛋白質(zhì)的,因此,蛋白質(zhì)復(fù)合物模板數(shù)據(jù)庫的建立也是值得關(guān)注的。

      目前RCSB PDB數(shù)據(jù)庫中約有20萬實驗解析的結(jié)構(gòu),其中的蛋白質(zhì)復(fù)合物中約有11.5萬(二聚體約6.3萬、三聚體1.3萬、四聚體2萬);AlphaFold Database以及ESMFold Database中分別有2億和6億個蛋白質(zhì)結(jié)構(gòu),但是其中僅包含單體數(shù)據(jù)?;诘鞍踪|(zhì)結(jié)構(gòu)(實驗結(jié)構(gòu)或者預(yù)測結(jié)構(gòu))的方法是一種有效手段來幫助蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測。此外,借鑒預(yù)訓(xùn)練模型的方法來解決蛋白質(zhì)抗原抗體復(fù)合物、蛋白質(zhì)和小分子復(fù)合物、蛋白質(zhì)與RNA/DNA的復(fù)合物等結(jié)構(gòu)預(yù)測問題是一個值得研究的方向。隨著多模態(tài)的算法發(fā)展,蛋白質(zhì)序列數(shù)據(jù)、結(jié)構(gòu)數(shù)據(jù)、分子動力學(xué)、蛋白質(zhì)組學(xué)研究結(jié)果、小角散射數(shù)據(jù)以及一些其他實驗相關(guān)的數(shù)據(jù)都可以作為有效信息加入到模型中。

      致謝:感謝中國人民大學(xué)公共計算平臺和北京智源人工智能研究院對本課題的支持。

      猜你喜歡
      殘基復(fù)合物蛋白質(zhì)
      基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動力學(xué)與關(guān)鍵殘基*
      蛋白質(zhì)自由
      肝博士(2022年3期)2022-06-30 02:48:48
      人工智能與蛋白質(zhì)結(jié)構(gòu)
      海外星云(2021年9期)2021-10-14 07:26:10
      BeXY、MgXY(X、Y=F、Cl、Br)與ClF3和ClOF3形成復(fù)合物的理論研究
      “殘基片段和排列組合法”在書寫限制條件的同分異構(gòu)體中的應(yīng)用
      柚皮素磷脂復(fù)合物的制備和表征
      中成藥(2018年7期)2018-08-04 06:04:18
      黃芩苷-小檗堿復(fù)合物的形成規(guī)律
      中成藥(2018年3期)2018-05-07 13:34:18
      蛋白質(zhì)計算問題歸納
      蛋白質(zhì)二級結(jié)構(gòu)序列與殘基種類間關(guān)聯(lián)的分析
      基于支持向量機的蛋白質(zhì)相互作用界面熱點殘基預(yù)測
      新沂市| 成安县| 三原县| 长子县| 靖远县| 上栗县| 铅山县| 长阳| 宁陕县| 广西| 仁化县| 锦屏县| 页游| 扬中市| 特克斯县| 昭平县| 军事| 韩城市| 安福县| 大城县| 九寨沟县| 湖北省| 凤冈县| 南乐县| 陵水| 视频| 威宁| 西盟| 工布江达县| 襄城县| 措美县| 姜堰市| 乐平市| 新津县| 河西区| 松潘县| 寻乌县| 梨树县| 镇赉县| 木兰县| 湘潭县|