操帆,陳耀晞,繆陽洋,張璐,劉海燕
(中國科學技術大學生命科學學院,安徽 合肥 230026)
蛋白質是執(zhí)行生物功能的主要生物大分子,也是用于構筑合成生物系統(tǒng)的主要元件。大多數(shù)蛋白質的功能取決于它們的特定三維空間結構和特異性分子間相互作用。氨基酸序列決定了蛋白質三維結構和相互作用,從而決定蛋白質功能。天然蛋白質的氨基酸序列經過了進化的長期選擇,適應了相應有機體的功能需求。在合成生物學中,當天然蛋白被轉用于其他目的時,其性質和功能很可能達不到要求,有時甚至找不到可用的天然蛋白。因此,對天然蛋白的性質和功能進行定向改造,乃至創(chuàng)造有新功能的人工蛋白,對合成生物學具有重要意義[1-5]。傳統(tǒng)蛋白質工程技術如定向進化[6]對天然蛋白序列進行小的擾動,本質是一種試錯方法,在不采用高通量篩選手段時效率很低,且難以創(chuàng)造出具有新結構和新功能的蛋白。因此,經驗的或計算的蛋白質理性設計成為了改造乃至創(chuàng)造新蛋白質的手段。其中,依賴經驗知識以及進化信息等[7]的理性設計在改造蛋白質方面確實有一些成功案例,但是難以解決復雜的蛋白質的工程問題。蛋白質計算設計,即從結構功能的需求出發(fā),通過計算手段確定氨基酸序列[8-11],既可以用于蛋白質從頭設計,也更多地被應用于既有蛋白質的改造設計,是亟待推動的發(fā)展方向。目前,以蛋白質從頭設計為目標開發(fā)的一些計算方法已被越來越廣泛應用于蛋白質工程改造中。有報道表明,在蛋白質相互作用界面改造中,通過計算設計技術的恰當應用,可以把實驗試錯范圍縮小3~4 個數(shù)量級[12]。目前,計算設計方法還有巨大的發(fā)展空間,且相關研究隊伍也日益擴大。計算方法不僅會在對天然蛋白的理性改造中得到廣泛實際應用,按需定制的人工設計蛋白的實際應用也有可能在未來5~10 年內普遍實現(xiàn)。
本文主要目的是介紹目前已采用和正在發(fā)展中的蛋白質計算設計方法的基本原理,面臨的主要問題和解決思路、方法,以及尚待解決的一些問題和可能的研究方案。盡管這些方法的最終發(fā)展目標是蛋白質按需從頭設計,它們也易于被調整用于蛋白質理性改造。在下文中,本文作者首先簡要回顧蛋白質計算設計的發(fā)展歷史,認識該領域現(xiàn)狀和整體發(fā)展方向;隨后主要圍繞蛋白質從頭計算設計,介紹其基本方法和原理;并匯集總結一些具體應用成果,討論蛋白質從頭計算設計應用的主要思路;最后對方法發(fā)展和應用的趨勢進行簡要展望。
本節(jié)主要從設計策略的角度,對采用不同類型策略的方法分別概述。盡管多種方法被首次報道的時間較早(如20 世紀80 年代出現(xiàn)的基于規(guī)則的啟發(fā)式設計方法、20 世紀90 年代出現(xiàn)的通過自動優(yōu)化能量函數(shù)進行序列設計的方法),但直到今天它們仍在持續(xù)的應用、驗證和完善中。對相關時間順序感興趣的讀者可參考其他綜述[13]。
最早被提出的蛋白質設計方案受到了特殊的、高度規(guī)則的多肽結構的序列變化規(guī)律的啟發(fā)[14-16]。多肽主鏈高度規(guī)則的局部結構模式包括α-螺旋、β-片層等二級結構單元。多個二級結構單元之間能夠以特殊方式相互堆積擴展成更大的三維結構單元,如超二級結構motif、多螺旋束等。與之對應的氨基酸序列上,不同性質氨基酸呈現(xiàn)特殊的排列模式,如圖1 中反平行螺旋上A、D 位置由疏水氨基酸占據,其余位置則多被親水氨基酸占據;β-肽段上親、疏水氨基酸周期性地相間排列,以使疏水側鏈埋于蛋白質內部,親水側鏈暴露在溶劑中。基于這種排列模式設計氨基酸序列的啟發(fā)式方法被成功應用于設計各類螺旋束結構[17-18]、超二級結構motif[19]等,其中發(fā)展較為系統(tǒng)的是多螺旋束設計。為了更系統(tǒng)地刻畫多螺旋束中不同螺旋間堆積結構可能的變化,Grigoryan 和De Grado 等[20]建立了精細的經驗數(shù)學公式來定義螺旋間距、扭轉角、相對平移等幾何參數(shù)間的相互依賴關系,用于設計不同數(shù)目和排列的理想螺旋束結構。這類設計方法也存在著明顯的局限,首先它受限于特殊、有限的主鏈結構類型;此外,僅僅通過區(qū)分殘基親、疏水性等經驗來選擇殘基類型得到的設計結果具有很大的不確定性,由于沒有控制殘基之間特異性的空間堆積和氫鍵相互作用等,最終獲得能特異性折疊序列的成功率并不高。
20世紀90年代后期,隨著分子力學能量函數(shù)、氨基酸側鏈構象庫、優(yōu)化算法等的發(fā)展,Dahiyat等[21]首先實現(xiàn)了用自動優(yōu)化的方法來設計氨基酸序列。在此類算法中,主鏈骨架是被事先給定的(如來源于天然蛋白質結構),且可被假設為固定不變。設計中需要通過計算來確定的未知量包括每個主鏈位置上的氨基酸殘基類型以及其側鏈構象。這些未知量的所有容許取值(即氨基酸側鏈類型及其構象狀態(tài)的可能組合)構成了氨基酸序列和側鏈構象空間。定義在該空間上的能量函數(shù)則被用于評估特定序列和構象組合的好壞。定義了主鏈結構和能量函數(shù)后,設計者通過特殊的算法在序列和側鏈構象的未知量空間中自動搜索,找出能量盡可能低的解,得到設計結果。圖2 簡要演示了這一設計過程,對于左側輸入的目標主鏈結構,通過搜索序列和側鏈構象空間,找到具有最低能量的序列,認為它們就是最可能形成目標結構的序列。值得一提的是,實現(xiàn)這類設計算法的關鍵技巧之一,是將本來連續(xù)變化的側鏈構象離散表示為可數(shù)的有限種可能狀態(tài)(稱為rotamer)。設計算法的另一關鍵是能量函數(shù)。從原理上,如果能找到普適的能量函數(shù),基于能量函數(shù)自動優(yōu)化的設計方法就能被廣泛應用于不同結構類型蛋白的設計。因此,從被提出至今,通過優(yōu)化能量函數(shù)進行自動設計逐漸成為蛋白計算設計的主流策略,而相應的能量函數(shù)[22-24]和優(yōu)化算法[25-26]等得到持續(xù)的發(fā)展。到目前為止,至少兩套能量函數(shù)(Rosetta 能量函數(shù)[25]以及本文作者課題組建立的ABACUS 統(tǒng)計能量函數(shù)[27-28])都已被實驗反復驗證能以很高的成功率進行氨基酸序列從頭設計。以天然主鏈結構為設計目標,用ABACUS 進行氨基酸序列全自動設計得到的人工蛋白往往具有遠超天然蛋白的高熱穩(wěn)定性[27]。
圖1 形成規(guī)則空間結構的多肽鏈的氨基酸序列變化規(guī)律示例Fig.1 Examples of changes in the amino acids sequence of a polypeptide chain forming a regular spatial structure
圖2 給定主鏈優(yōu)化氨基酸序列和側鏈構象Fig.2 Optimization of amino acids sequences and side-chain conformations for a given backbone
為了把計算量控制在可行范圍內,在優(yōu)化氨基酸側鏈類型和構象時,主鏈結構一般被假設為固定不變的。如果主鏈結構也被作為未知量與序列、側鏈同時被優(yōu)化,盡管物理層面上更合理,但計算層面上,變量空間維度會過高,使得計算無法完成。另外,對主鏈結構難以進行合理的離散采樣,對其進行優(yōu)化比固定主鏈優(yōu)化側鏈類型和rotamer 的組合要困難得多。為了在一定程度上考慮主鏈柔性,研究者提出了不同的方案,其基本思路都是對多種互有差別的主鏈結構進行序列設計。應用最多的方案是在序列空間和主鏈結構空間的優(yōu)化交替迭代進行,這是多數(shù)Rosetta Design 應用中采取的方法[29]。另一種方案是對多個主鏈結構的集合(主鏈系綜)同時優(yōu)化氨基酸序列[30]。研究者提出了不同方法產生主鏈結構系綜,以盡可能合理再現(xiàn)在天然同源蛋白中觀察到的序列差異引起的主鏈結構的可能變化,如所謂的“backrub”運動[31]等。值得指出的是,這些方案不是對主鏈構象空間進行大范圍采樣。它們仍然需要從一個與最終結構非常接近的初始主鏈結構模型出發(fā)。最終結構只是初始主鏈附近的小幅度變化(主鏈原子均方根位移最大在1~1.5 ? 左右)。是否以這種方式處理主鏈柔性似乎對主要基于統(tǒng)計能量函數(shù)的ABACUS 方法的設計成功率影響較?。?2]。
真正的從頭蛋白質設計不應僅限于用天然主鏈結構作為設計目標。滿足最基本化學要求(共價構型正確、原子間無空間沖突)的可能主鏈構象是非常多樣的。其中占比非常少的構象才具有所謂的“可設計性”,即存在氨基酸序列,能自發(fā)穩(wěn)定地折疊成這種構象。從頭設計的主鏈結構必須具有高“可設計性”。如何保證這一點,到目前為止,還沒有經實驗充分驗證的普適方案。目前成功例子最多的,是通過引入結構預測中使用的算法來形成問題特異的啟發(fā)式方案。這類方案的基本步驟為:定義要設計的目標主鏈結構的基本框架(二級結構單元的組成、大致相對位置等),產生對主鏈結構的約束條件;再把天然蛋白質中的主鏈結構片段和二級結構元素拼接成滿足約束條件的初始結構;進而用結構預測中使用的能量函數(shù)、構象采樣方法進行結構優(yōu)化,進入主鏈結構/序列設計的優(yōu)化循環(huán)。為提高人工構建主鏈結構的可設計性,Koga等[33]分析了二級結構模式和三級結構模體之間的關聯(lián)性,統(tǒng)計了不同空間連接方式的二級結構單元間環(huán)區(qū)長度和構象分布,提出了如何設計環(huán)區(qū)長度和構象的經驗規(guī)則。目前用這種方法人工設計的主鏈結構在二級結構及其連接區(qū)等局部結構特征上大多具有理想的結構模式,缺乏天然蛋白展示出的主鏈結構的豐富多樣性[34]。此外,主鏈結構優(yōu)化時使用全原子能量函數(shù),依賴于側鏈類型和構象,故而通過主鏈優(yōu)化-序列優(yōu)化迭代的方式進行設計。除了利用天然主鏈結構和序列片段拼接設計人工蛋白外,F(xiàn)rappier 和Mackenzie 等還提出通過分析天然蛋白三維結構數(shù)據庫,定義空間相鄰的多個短片段構成的三維結構單元(稱為TERM),用TERM 的組合來進行蛋白質設計[35-36]。另一可能的解決方案是構建不依賴于側鏈類型的主鏈能量模型,直接通過主鏈能量優(yōu)化進行主鏈設計[34,37-38]。
本節(jié)從以下四個方面來介紹蛋白質從頭設計的計算方法:氨基酸序列設計;主鏈結構設計;蛋白質分子間相互作用界面設計;以及負設計。前兩個方面前文已提到;通過針對性調整序列和結構設計方法,可為蛋白質設計新的分子間相互作用界面,從而實現(xiàn)新的功能;負設計是一種概念性的設計思路,將在本節(jié)最后予以補充。
對于在給定目標主鏈結構下進行序列設計的問題,我們通過定義能量作為序列的函數(shù),把序列設計問題轉化為在序列空間中找到能量最低的序列的最優(yōu)化問題(圖2)。這里,能量函數(shù)是優(yōu)化問題的目標函數(shù),它定量評估不同序列與給定目標主鏈結構匹配的程度:能量越低的序列越有可能穩(wěn)定地形成與目標一致的主鏈結構。
2.1.1 序列設計的能量函數(shù)
序列設計的能量函數(shù)具有經驗的數(shù)學形式,其中既有基于物理原理的能量項,也有通過對蛋白質數(shù)據庫進行統(tǒng)計分析得到的能量項。以現(xiàn)在應用成功的例子最多、使用最廣泛的蛋白質設計軟件Rosetta[25]為例,其能量函數(shù)是刻畫不同物理相互作用的能量項和部分統(tǒng)計能量項的線性組合,Etotal=∑iwiEi(θi,aai)。該函數(shù)中的不同能量項是基于對各種分子相互作用、對蛋白質折疊的重要性的分析和既有認識經驗性地提出來的。其中物理能量項主要包括共價結構、范德華相互作用、靜電相互作用和氫鍵、溶劑化自由能等。此外,總能量中還包括依賴于主鏈二面角、rotamer 類型等的統(tǒng)計能量項。
(1)物理能量項
圖3 物理能量項Fig.3 Physical energy terms
用于刻畫蛋白質等生物大分子體系的物理能量項可分為共價相互作用能量項(鍵長、鍵角、二面角等)和非共價相互作用能量項(范德華相互作用、靜電相互作用,溶劑化自由能、氫鍵等)兩類(圖3)。在序列設計中,鍵長、鍵角以及決定立體構型的非正常二面角等幾何性質通常保持固定不變,共價相互作用能量項可視為常數(shù)。可變的物理能量項中,范德華相互作用能量項是隨原子間距離而變化的短程排斥和長程色散吸引的加和。Rosetta 使用了吸引和排斥可拆分加權的Lennard-Jones 勢來計算范德華相互作用能量。靜電項刻畫帶電的極性官能團之間的庫侖相互作用,Rosetta使用最初來自CHARMM分子力場的原子電荷分布來計算靜電能,并通過組優(yōu)化進行了調整。氫鍵是親核重原子將電子密度提供給極性氫時形成的部分共價相互作用。Rosetta 使用了靜電模型和特殊的氫鍵模型來計算氫鍵的能量,并且該能量被細分為不同的類型分別計算:長距離主鏈氫鍵、短距離主鏈氫鍵、主鏈和側鏈原子之間的氫鍵、側鏈之間的氫鍵。溶劑效應在決定蛋白質構象時發(fā)揮了至關重要的作用。分子能量函數(shù)中常用的溶劑模型分為顯式溶劑模型和隱式溶劑模型[39]。顯式溶劑模型需要對每個溶劑分子的原子空間位置進行采樣并據此計算溶質-溶劑原子間的相互作用。由于計算量較大,顯式溶劑模型對序列設計是不合適的。隱式溶劑模型則通過定義只依賴于溶質結構坐標的有效溶劑化自由能來處理溶劑效應。Rosetta 中使用的Lazaridis-Karplus(LK)隱式高斯排除模型[40],溶劑化自由能包括各向同性的溶劑化能量以及各向異性的溶劑化自由能兩部分,分別刻畫非極性和極性溶劑化效應。
(2)統(tǒng)計能量項
統(tǒng)計能量項是對數(shù)據進行統(tǒng)計分析得到的概率分布進行轉化后得到的(圖4),通過對數(shù)據庫中不同的構型變量分布進行統(tǒng)計分析,將其出現(xiàn)的概率轉換為能量,對依賴于多個幾何變量的高維統(tǒng)計能量項(例如依賴于構象和環(huán)境的主鏈位點之間的相互作用),需要發(fā)展特殊的技術,才能恰當?shù)毓烙嫸嗑S概率密度,從而得到合理的統(tǒng)計能量函數(shù)。可以從兩個不同角度來理解序列設計的統(tǒng)計能量項。一是從統(tǒng)計熱力學角度,在平衡態(tài),物理系統(tǒng)處于不同微觀狀態(tài)的概率服從玻爾茲曼分布,。其中r代表微觀狀態(tài)的坐標,E(r)代表微觀狀態(tài)的能量,kBT是玻爾茲曼常數(shù)乘以環(huán)境的熱力學溫度。因此,我們可以根據數(shù)據集合中的概率分布反推出相互作用E(r)=-kBTlnp(r)+常數(shù)。另一個角度則可從純統(tǒng)計學角度出發(fā),假設給定主鏈結構后氨基酸序列分布可記為條件概率P(sequence|backone),序列設計要解決的問題是尋找讓該條件概率最大的序列。如果我們定義統(tǒng)計能量E=-ln(p),則概率最大化等價于能量最小化。
圖4 不同類型的統(tǒng)計能量項Fig.4 Statistical energy terms of various types
需要注意到,無論是微觀狀態(tài)的概率P()r,還是條件概率P(sequence|backone),都是非常高維的函數(shù),其變量的各個分量之間高度互相依賴。是無法從數(shù)據集中直接估計出這樣的高維概率分布的。通過應用玻爾茲曼分布的反轉,我們把對概率分布的估計轉化成對自由度之間相互作用的估計,從而可以在統(tǒng)計時對自由度之間的耦合分類處理,只保留較低階的耦合對總能量的貢獻,以把問題復雜程度控制在可處理范圍內。換一種說法,全序列的總能量,被分解為由序列上每個位點的殘基類型分別決定的單殘基能量,以及刻畫殘基間兩兩相互作用的殘基間相互作用項。依賴于兩個以上位點的殘基的更高階能量項,則會被忽略。
這樣的殘基類型依賴的統(tǒng)計能量,可以和物理能量項加權組合起來,用于彌補物理能量項的不足。Rosetta 總能量中就使用了多個這樣的單殘基統(tǒng)計能量項,包括反映Ramachandran 主鏈二面角對殘基類型影響的能量項、側鏈構象依賴的能量項等。此外,Rosetta 還使用幾何參數(shù)的統(tǒng)計概率分布來計算半胱氨酸形成的二硫鍵的能量。值得注意的是,在用這種方法考慮統(tǒng)計能量項時,我們假設了不同結構特征(如主鏈二面角、溶劑暴露程度、二級結構類型等)對殘基類型的影響是相互獨立、可互相加和的。這個假設實際上是不成立的,它對統(tǒng)計能量函數(shù)帶來的不利影響可能比較大。
本文作者課題組提出的ABACUS 方法[27-28],使用了主要基于統(tǒng)計能量項的能量模型來進行序列設計。其主鏈結構依賴的能量被分解為單殘基項和殘基間兩兩相互作用項的加和。這兩類能量項都是通過直接統(tǒng)計在給定主鏈結構特征的前提下的氨基酸側鏈類型或類型組合的概率分布得到的。不同于以往的統(tǒng)計能量項,ABACUS 把不同結構特征組合起來,作為決定氨基酸類型概率分布的聯(lián)合條件,單殘基能量項由氨基酸所在位置的二級結構類型、Ramachandran 主鏈二面角、溶劑可及性面積這些特征同時決定;而殘基間相互作用項則在同時考慮兩個主鏈位點的上述結構特征之外,還考慮位點間的相對位置(包括距離和取向),把所有結構特征作為影響殘基類型組合概率的聯(lián)合條件。除主鏈依賴的殘基類型能量外,ABACUS 總能量中還包括了主鏈構象依賴的rotamer 能量以及原子間空間堆積能量。它們是通過對天然蛋白側鏈構象分布、原子間距離分布分別進行統(tǒng)計得到的。
(3)確定不同能量項的權重
上述把不同類型能量項組合起來構成總能量的方案是一種經驗選擇。參與組合的不同能量項可能反復、冗余地包括了同一物理因素的貢獻(比如除范德華相互作用外,主鏈構象、側鏈構象等能量項也會包括范德華相互作用的貢獻)。對各能量項引入待定權重能一定程度抵消這種冗余計算的不利影響。另外,把這些權重作為可調參數(shù)來擬合實驗數(shù)據,我們還可能把實驗數(shù)據中包含的一些其他信息籠統(tǒng)地引入模型中,從而改善模型。目前,用實驗數(shù)據訓練優(yōu)化權重最有效的方法是最大化天然序列恢復比例。其基本思想是使用能量函數(shù)重新設計天然蛋白質的序列,檢查各位點重新設計的氨基酸殘基類型與天然殘基類型是否一致。在實際應用時,我們可以基于待優(yōu)化的權重的特點對這一基本思路進行調整。例如:保持氨基酸序列不變,只優(yōu)化各位點的rotamer 類型,檢查預測的側鏈構象和天然構象的偏差;只重設計一個位點的殘基類型,保持其他位點的天然殘基類型不變(單位點設計),等等。
2.1.2 序列和側鏈構象空間的搜索和優(yōu)化算法
定義能量函數(shù)后,序列設計的下一步是確定總能量最低(或盡可能低)的氨基酸序列。由于總能量還依賴于側鏈構象,該搜索優(yōu)化過程同時確定側鏈類型和rotamer?,F(xiàn)在已經有多種方法來解決此問題,包括確定性優(yōu)化算法(例如死端消除、平均場優(yōu)化)以及隨機優(yōu)化算法(如模擬退火、遺傳算法)[41]。
確定性優(yōu)化算法可以解決全局最小的問題。但是蛋白質設計搜索空間沿多個維度(即序列空間,側鏈構象空間,骨架構象空間)迅速增大、物理模型可能太復雜等,可能導致確定性優(yōu)化算法無法應用。確定性優(yōu)化算法例如死端消除法經常應用于較小的蛋白質或少數(shù)位點的氨基酸殘基類型優(yōu)化問題。但是確定性優(yōu)化算法在最近也有一些大的改進,例如蛋白質設計的CLEVER 算法[42],該算法建立在Keating 實驗室以前開發(fā)的簇擴展算法[43]的基礎上。用于蛋白質設計的簇擴展是一種將復雜的三維原子級能量函數(shù)(是原子坐標的函數(shù))映射到僅依賴于序列的簡單線性函數(shù)的技術。因此,簇擴展將輸入的物理能量模型映射為一個簡單得多的模型,然后可以使用整數(shù)線性規(guī)劃求解器來有效地找到新模型中的最佳序列。蛋白質設計軟件OSPRREY3.0 使用基于成本函數(shù)網絡(CFN)處理的最先進組合優(yōu)化技術,使找到全局最小序列的計算過程加速了幾個數(shù)量級[44]。
相對于確定性優(yōu)化算法,隨機優(yōu)化算法實現(xiàn)更為簡單。盡管隨機優(yōu)化只是找到能量盡可能低的序列,不保證得到全局最優(yōu)解,但考慮到能量函數(shù)本身并不是百分之百準確,并且能正確折疊成目標結構的序列不唯一,隨機優(yōu)化找到的低能量序列和真正的全局能量最低序列實際上是同等有效的。用Monte Carlo 模擬退火進行隨機優(yōu)化的簡單算法為:從隨機選擇的初始序列出發(fā);計算當前序列能量,每步隨機突變一個或多個位點的殘基,計算能量變化;根據能量變化值和Metropolis 判據決定接受或拒絕突變;反復迭代該步驟,至能量不再降低。使用Metropolis 判據導致降低能量的突變均會被接受,而使能量升高的突變有一定概率會被接受。該判據中使用“溫度”作為參數(shù)來度量能量變化的大小。選擇高溫參數(shù)時能量被容許發(fā)生大的漲落,而低溫時能量降低到局部極小值附近后漲落很小。在模擬退火優(yōu)化中,模擬從高溫開始,以消除初始序列中大范圍的不合理成分,然后逐步降低溫度,以更精確地確定能量極小序列。
2.1.3 考慮主鏈結構的柔性
相似但不完全一樣的氨基酸序列折疊形成的穩(wěn)定主鏈結構也是相近的,但不完全一樣。在序列設計中考慮主鏈骨架柔性,可能可以增加設計結果的多樣性,找到更多能滿足設計目標的結果。另外,由于能量計算依賴于結構,如果能精細處理與序列改變相對應的主鏈結構變化,可以更精確地計算給定氨基酸序列的能量。后者對準確設計分子間相互作用界面可能非常重要,因為對分子間特異性識別非常重要的氫鍵、鹽橋等特異性相互作用更精細地依賴于三維結構。目前還沒有各方面都比較好的處理主鏈結構柔性的方法,現(xiàn)有處理方法可分為考慮單一主鏈構象態(tài)的柔性擾動的方法,以及基于多主鏈結構設計序列的方法。
(1)考慮對單一主鏈構象態(tài)柔性擾動的方法
受實驗觀察到的蛋白質晶體結構中主鏈構象局部漲落模式的啟發(fā),Davis等[31]提出了一種主鏈原子協(xié)同變化模式,稱為backrub。在該模式下,相鄰三個殘基的主鏈原子的坐標變化依賴于同一個參數(shù)。在Rosetta 全原子力場的背景下,Smith 等[45]研究了使用backrub move 來進行構象采樣的方法。Frappier等[35]也同樣利用這一方法來設計與特定配體結合的蛋白質。在設計過程中,他們考慮配體相對于蛋白質的可能旋轉和平移,同時考慮蛋白質主鏈原子的協(xié)同運動,將這些對蛋白質和配體坐標的操作結合起來,稱之為coupled moves。為了考慮氨基酸側鏈的改變,他們根據主鏈構象變化,計算移動的主鏈片段上每個潛在突變或側鏈構象的能量變化,根據Boltzmann 分布計算每個潛在突變或側鏈構象的概率,用于選擇側鏈構象。
(2)基于多主鏈結構設計序列的方法
這類方法常常被稱為基于結構系綜的設計方法,這里“系綜”是指多個主鏈結構的集合。按統(tǒng)計熱力學理論,同樣的序列能夠形成的主鏈結構并不是唯一的,只是不同的主鏈結構具有不同的概率。系綜方法用多個主鏈結構來代表目標結構的概率分布,同時優(yōu)化序列處于多個目標結構狀態(tài)的能量,因此又被稱為多狀態(tài)設計。由于計算量較大,可包含在系綜中的主鏈構象數(shù)目一般不能太多。在蛋白質與小分子配體界面設計中,基于對結構柔性的考慮,Lanouette 等[46]通過構建主鏈結構系綜進行多狀態(tài)設計來預測SMYD2 蛋白的底物識別空間。除此之外,Hilpert 等[47]開發(fā)了一種新的多特異性算法,即設計能與不同配體分子結合的單個目標蛋白。在該算法中,處于復合物狀態(tài)的蛋白質剛開始被冗余設計為具有不同的序列;隨著設計推進,越來越多的位置被根據前期設計結果約束為相同的殘基類型占據,從而使設計結果逐步收斂到單一序列;最后通過貪婪選擇算法(greedy selection algorithm)進行最終單一序列優(yōu)化。
主鏈結構設計方法可分為兩大類(圖5)。一類是啟發(fā)式的主鏈設計方法,它使用天然片段進行拼接,拼接時可用參數(shù)化的模型去約束整體結構,搭建出原子水平的主鏈模型,然后再用原子水平的能量函數(shù)進行主鏈優(yōu)化。因為使用原子水平的能量函數(shù),優(yōu)化時需要考慮側鏈的原子,所以是在預設側鏈的基礎上進行迭代設計。另一類是使用不依賴于側鏈的能量函數(shù)進行主鏈設計方法,這類方法可用于在序列待定的條件下進行主鏈結構的采樣和優(yōu)化。
圖5 兩種主鏈設計策略Fig.5 Two backbone design strategies
2.2.1 啟發(fā)式的主鏈設計方法
保證主鏈的局部結構具有高“可設計性”的一種常用方法是用天然存在的蛋白質片段來拼接組裝新的主鏈[48],除了提供良好的二級結構之外,這些片段還可以包含在二級結構的起始和終止處高可設計性的結構模式。此外,對結構單元之間的堆積可采用參數(shù)化的模型:通過少量的參數(shù)來描述經驗觀察到的各類蛋白質結構單元之間的堆積特征,用于對片段拼接產生的主鏈結構進行約束?;谔囟ńY構的參數(shù)化模型,可以快速生成大量蛋白質骨架。值得一提的是,這種方法對于卷曲螺旋蛋白(由圍繞超螺旋中心軸的兩個或多個α-螺旋組成)的設計特別適用,最新應用包括跨膜蛋白[49-50]和α-螺旋桶[51]的從頭設計等。這種啟發(fā)式的主鏈設計方法的優(yōu)點在于簡明,適用于設計理想的主鏈結構。然而也正因為使用了天然結構片段,它難以用于設計復雜的、非理想的主鏈結構。
Rosetta 作為一種啟發(fā)式的主鏈設計方法使用了序列能量和主鏈能量相耦合的全原子能量函數(shù),這意味著只有在假設序列已給定時才能進行主鏈設計與優(yōu)化,因此Rosetta 實際采用預定序列的迭代策略(假定序列-優(yōu)化主鏈-重新設計序列-優(yōu)化主鏈)進行優(yōu)化,這增加了對計算量的要求。
2.2.2 使用不依賴于側鏈的能量函數(shù)進行主鏈設計
根據上述關于啟發(fā)式的主鏈設計方法的分析,若能設計出一個通用的不依賴于側鏈的主鏈能量函數(shù),則在設計主鏈時將會更加自由。構建這類能量模型的途徑之一是將前述統(tǒng)計能量函數(shù)的原理應用于天然蛋白結構數(shù)據庫。早期,MacDonald等[52]發(fā)展了基于α-C 原子的能量函數(shù)來模擬主鏈的局部構象(即一段連續(xù)殘基的主鏈構象)。在不依賴側鏈的條件下,此能量函數(shù)的一些低能量結構仍與實驗結構相似,說明能量高低能在一定程度上反映可設計性高低。該模型在描述序列上距離較遠的主鏈堆積時使用了非常簡單的函數(shù),因此其用于優(yōu)化完整主鏈時結果與實際主鏈結構的差別比較大,不適用于下一步的序列設計。我們在稍早的工作中,報道了一種稱為tetraBASE 的統(tǒng)計能量,可以用于優(yōu)化二級結構單元之間的主鏈堆積[11]。該能量模型假設這種空間堆積相互作用依賴于二級結構類型、殘基主鏈的相對取向以及原子間距離。計算結果表明,在不指定二級結構單元的氨基酸序列的情況下,通過Monte Carlo 模擬退火優(yōu)化不同二級結構單元之間的相對位置,可以原子水平均方誤差1.5~2.5 ?(1?=10-10m)的精度再現(xiàn)天然蛋白中二級結構的三維排列。這說明基于優(yōu)化統(tǒng)計能量函數(shù)得到高可設計性的原子水平的三維主鏈結構模型是可能的。然而,tetraBASE 能量函數(shù)不是連續(xù)、解析可導的,它也不包含描述二級結構單元內部柔性或環(huán)區(qū)構象的能量項,用它還無法實現(xiàn)主鏈完全柔性的構象設計。最近,我們建立了一套完整描述柔性主鏈結構的統(tǒng)計能量函數(shù),其中側鏈主要作為空間位阻的保持者參與其中,因此只需使用簡化的序列即可進行主鏈的采樣和優(yōu)化。我們把這個模型稱為
SCUBA(side chain unspecialized backbone arrangement,待發(fā)表)。SCUBA 使用神經網絡能量項來反映在高可設計性結構中多種幾何結構參數(shù)間的相互依賴關系,同時保證能量對原子坐標是連續(xù)解析可導的,從而適用于隨機動力學模擬等成熟的分子構象模擬采樣方法。在初步驗證中,我們已得到一例實例,用SCUBA 設計主鏈后再用ABACUS進行序列設計,得到的蛋白質實驗結構符合預期(待發(fā)表)。SCUBA 提供了一種新的、在序列全部或部分待定的情況下對高可設計性主鏈結構進行采樣和優(yōu)化的方法。用SCUBA 進行結構設計可充分考慮主鏈柔性,從而可能推動配體結合蛋白、酶、蛋白相互作用界面設計等功能蛋白設計的發(fā)展。
一種蛋白質的功能在很大程度上是由它與其他特定蛋白質或特定小分子的特異性識別所決定的。把蛋白質從頭設計的基本算法進行一些針對性的調整后,可應用于設計特異的分子間相互作用。目前已有一些設計成功的例子報道,盡管大多數(shù)從頭設計的分子相互作用的親和力相對于天然相互作用而言還不是太高。
2.3.1 設計蛋白質-蛋白質間的相互作用界面
這類界面一般位于蛋白質表面。設計的基本步驟如圖6所示,首先設計與目標受體(綠色)形成復合物的配體蛋白的主鏈構象(紅色),再設計和優(yōu)化配體蛋白界面的殘基類型,從而得到最終設計結果(藍色)。設計復合物主鏈結構時,要考慮的首要特性是兩個表面幾何形狀的互補性。如果要從頭設計新的相互作用界面,這個性質可在表面殘基類型待定的前提下,用來指導分子對接等算法,確定兩個分子主鏈骨架之間的相對位置和取向,即復合物的主鏈結構。如果是對已有復合物界面進行序列重設計,則可以使用原始復合物的主鏈結構??傮w而言,復合物主鏈結構設計采用啟發(fā)式分子對接的方案居多,盡管目前采用這些方案能得到的界面往往達不到預期的相互作用密度[53]。
在確定復合物主鏈結構后,可以用自動優(yōu)化的方法重新設計界面處的氨基酸序列[18]。界面序列設計的一個主要困難是界面殘基間的相互作用既包括疏水相互作用,也存在大量氫鍵、鹽橋等極性相互作用。其中疏水相互作用對親和力的絕對貢獻很大,但缺乏特異性。而極性相互作用是保證相互作用特異性的主要因素。關于蛋白質分子間界面殘基分布的一個流行的模型是“O型環(huán)”,環(huán)的中心是疏水殘基緊密堆積形成的核,該核被極性相互作用殘基環(huán)繞。目前,對殘基間極性相互作用設計的準確度還不高。如何利用界面的各類序列特征從頭設計親和力和特異性媲美天然界面的人工蛋白相互作用界面,仍然是十分大的挑戰(zhàn)。另一種設計思路,是把天然蛋白質復合物中反復出現(xiàn)的界面結構模式“移植”到其他表面。比較典型的是平行或反平行堆積的螺旋產生的蛋白界面。這樣的界面多肽主鏈結構規(guī)則,殘基側鏈間形成的規(guī)則氫鍵網絡被成功“移植”的可能性更高。
2.3.2 設計小分子配體識別口袋
對酶、別構蛋白等,小分子配體結合口袋是其功能中心。特異性識別口袋的設計是功能蛋白質設計的重點。一種“由內向外”(inside-out)的基本設計思路是[9]:首先設計一個或多個由圍繞目標配體的孤立殘基組成的虛擬口袋結構,這些殘基的位置和構象使其能夠以最有利的方式與配體發(fā)生相互作用;下一步是用虛擬口袋篩選能夠提供這樣一個口袋結構的蛋白質骨架(RosettaMatch 算法假設給定主鏈骨架不變,找到能與構成虛擬口袋的殘基位置達到最佳幾何匹配的一組骨架位點[54]);接著,通過篩選大量主鏈骨架,得到最佳匹配的主鏈骨架以及相應的口袋殘基定位組合;最后,把虛擬口袋轉移到篩選出的蛋白骨架中后,可對口袋附近的殘基再進行重新設計和優(yōu)化。
圖6 蛋白質-蛋白質界面設計的基本步驟Fig.6 Basic steps of protein-protein interface design
2.3.3 設計氫鍵網絡
無論是蛋白質-蛋白質相互作用界面還是小分子結合口袋,分子間氫鍵網絡對在保證高親和力的同時維持相互作用的高特異性具有重要意義。氫鍵網絡設計的困難之一是其形成需要多個位點的殘基類型和側鏈構象的協(xié)同變化。Boyken 等[55]在2016 年開發(fā)出一種計算方法HBNet 更充分地組合搜索殘基類型和側鏈構象,以快速枚舉基于給定主鏈結構可能實現(xiàn)的所有側鏈氫鍵網絡。HBNet首先對所有極性側鏈對應的所有構象(rotamer)之間的氫鍵和空間排斥相互作用進行預先計算。HBNet 的方法在2018 年得到了改進形成MC HBNet[56],使氫鍵網絡的設計與計算速度更快。序列設計中保持主鏈結構固定對設計氫鍵網絡有不利影響,未來可結合考慮主鏈柔性的設計技術來進行氫鍵網絡設計。
蛋白質結構和功能并不直接取決于與單一結構狀態(tài)對應的絕對自由能,而是取決于目標狀態(tài)相對于其他狀態(tài)的自由能差。例如,蛋白質折疊的穩(wěn)定性取決于正確折疊態(tài)相對于非折疊態(tài)、錯誤折疊態(tài)、聚集態(tài)等的自由能差;分子間結合的親和力取決于結合態(tài)相對于游離態(tài)的自由能差,等等。由于技術上的因素,絕大多數(shù)蛋白質計算設計僅考慮在目標結構狀態(tài)下去優(yōu)化氨基酸序列,以盡可能降低目標結構狀態(tài)的自由能。這種聚焦于提高目標結構狀態(tài)穩(wěn)定性的設計思路被稱為正設計(圖7)。另一種可能的設計思路,則是提高目標狀態(tài)之外其他結構狀態(tài)的自由能,降低它們相對于目標結構的穩(wěn)定性。這種思路被稱為負設計(圖7)。負設計機制被認為在天然蛋白質序列進化過程中普遍存在[57]。如果要在蛋白質設計中自動地考慮負設計,需要進行多狀態(tài)設計,并引入目標狀態(tài)之外的結構狀態(tài),通過改變序列使設計蛋白的目標結構和可能的競爭結構有明顯的能量差距,這樣設計出的氨基酸序列可以很容易地折疊為目標結構。而且僅僅關注目標結構并通過改變序列降低其能量有時可能不會改善目標蛋白質結構的折疊性,例如對于能量簡并的競爭結構(蛋白質-蛋白質相互作用和螺旋低聚體)很容易產生的情況。所以需要考慮在降低目標結構能量的同時盡量提高其與其他狀態(tài)結構的能量差距。
圖7 正設計與負設計Fig.7 Positive design versus negative design
Hallen 等[38]在2017 年提出了一種多態(tài)蛋白質設計的通用程序,使用一個“適應度函數(shù)”來根據序列滿足特定設計任務目標的程度來對多態(tài)蛋白質進行排名。通過首先將單個序列匹配到多個狀態(tài),計算該序列在每個狀態(tài)上的能量,之后將這些能量合并以產生單個值,來評估適應度函數(shù)。通過每次迭代的多態(tài)設計,降低目標構象態(tài)的能量,擴大非目標態(tài)構象集的能量,最終達到多態(tài)設計的準確性。在2017 年他們又將多種多態(tài)設計方法與Rosetta 結合形成“Rosetta:MSF”,一種用于多狀態(tài)計算蛋白質設計的模塊化框架[58]。對有些問題,例如相互作用界面設計,基于多態(tài)設計引入負設計有一定的可行性。例如,為了增加蛋白質-蛋白質相互作用的特異性,可以利用負設計并懲罰那些有利于不良相互作用的序列。但是,需要考慮的蛋白質分子可能結構狀態(tài)常常太多,這種顯式考慮非目標狀態(tài)進行負設計的方法至今沒有較理想的策略,沒有得到廣泛應用。盡管如此,負設計作為一種概念和思想,仍然可以用來定性分析和比較不同的正設計結果。例如,全疏水的界面和親/疏水組合的界面相比,后者可能功能上更優(yōu);實際上并非所有蛋白質設計任務都可以通過優(yōu)化單個結構的序列來建模。
隨著蛋白質計算設計技術的發(fā)展,在合成生物學、生物醫(yī)學等領域逐步出現(xiàn)了相關的應用。本節(jié)中我們不區(qū)分從頭設計和既有蛋白質改造,主要按設計目的不同分以下三類介紹不同的應用研究:通過蛋白質設計提高目標結構的穩(wěn)定性;設計特異性的蛋白質小分子相互作用(包括酶活性中心);設計蛋白質分子間的特異性識別。
基于能量函數(shù)優(yōu)化序列,常常獲得結構穩(wěn)定性非常高的設計蛋白。因此,蛋白質計算設計被用于指導蛋白質工程,改善天然蛋白的結構穩(wěn)定性。另一個應用是疫苗設計,通過設計額外的主鏈骨架來維持抗原肽段的已知三維空間構象。此外,還可以通過序列重設計提高蛋白質在特定環(huán)境條件下的結構穩(wěn)定性,如將膜蛋白改造為水溶性蛋白。以下將這幾類應用分別舉例說明。
Mu 等[3]利用Wijma 等[59]提出的FRESCO方案來提高酶穩(wěn)定性。以黑曲霉葡萄糖氧化酶為突變對象,不僅根據FRESCO 方案,使用FoldX 和Rosetta_ddg 計算能量,還利用ABACUS進行能量計算,通過設定閾值來尋找遠離活性位點的潛在穩(wěn)定性突變位點。隨后通過人工觀察和分子動力學模擬來篩選突變集合,將提升穩(wěn)定性的突變選項整合起來,最終得到多個穩(wěn)定突變體。與野生型相比,突變體能夠耐受更廣泛的溫度和pH 范圍,并且顯示出的催化活性更高,最好的突變體耐受溫度較野生型提高了8.5 ℃,該突變體也在野生型會快速失活的pH6.0 和pH7.0 展現(xiàn)了更好的耐受性。Correia等[60]利用已知抗原結構來定義疫苗的功能構象,設計了穩(wěn)定該構象的目標拓撲結構,而后用基于片段組裝的方法從頭設計出符合該拓撲結構的骨架,經過多輪的序列設計和主鏈優(yōu)化的迭代,最終篩選出合理的結果并進行了實驗驗證。Marcandalli 等[61]通過設計蛋白質自組裝納米顆粒作為骨架來固定并呈遞病毒性糖蛋白抗原復合物,從而在可控密度的條件下呈遞此病毒抗原,實現(xiàn)疫苗的定制設計。Sesterhenn等[62]建立了TopoBuilder 系統(tǒng),借此來從頭設計能穩(wěn)定復雜結構模體的蛋白質。通過這個系統(tǒng),他們設計了能同時呈遞三種抗原的蛋白,其設計方法為:針對不同的且結構復雜的抗原位點,首先在二維空間上列舉適合的蛋白拓撲結構,并使用理想的二級結構單元和參數(shù)化設置將此二維空間投影至三維空間。通過這種方式,即可在不依賴模板的條件下設計所需的主鏈結構。
膜蛋白難以表達,且難以獲得高分辨晶體結構,Slovic 等[63]對鉀離子通道蛋白的表面進行位點突變設計,得到了其水溶性類似物。熒光蛋白的寡聚化是熒光蛋白應用的重要障礙,Wannier 等[64]通過表面突變設計和主鏈依賴的側鏈rotamer 采樣優(yōu)化,得到了保持光強、不易聚集的紅色熒光蛋白。
通過重設計小分子結合界面,可以獲得新的酶等催化元件、轉錄因子、熒光蛋白等化學感受元件。Banda-Vazquez等[65]通過口袋遷移(將一個天然口袋移植到另一個主鏈骨架上)和基于統(tǒng)計配對位置的搜索方法(獲得與口袋殘基突變關聯(lián)但遠離口袋的殘基),對小分子結合蛋白LAOBP進行重設計,使其成為谷氨酰胺的結合蛋白。Glasgow等[66]參考了天然法尼基焦磷酸鹽(FPP)-蛋白復合物模板,人工篩選了FPP 的結合口袋模體(僅包含4 個殘基),而后通過與大量骨架界面對接、柔性骨架(骨架系綜法)優(yōu)化和序列設計的方法,設計了被FPP調節(jié)的生物效應器。為了設計能與高度缺電子的卟啉分子結合的非天然蛋白,Polizzi 等[67]通過數(shù)學參數(shù)化模型從頭建立了反平行卷曲螺旋主鏈,并利用骨架系綜法進行了柔性骨架設計??紤]到除了口袋位點以外,蛋白質核心區(qū)域的殘基也可能會對其結合功能有影響,作者對所有內部殘基和口袋位點進行了序列重設計,而非僅設計第一、二殼層的接觸殘基,最終設計出了高度熱穩(wěn)定的卟啉結合蛋白PS1。Dou等[68]在使用參數(shù)化方法首次成功從頭設計β-桶蛋白的基礎上,將其空腔與生色團3,5-二氟-4-羥基亞芐基-咪唑啉酮進行對接設計,得到了從頭設計的熒光蛋白。Li等[4]通過底物結合口袋的重設計,將芽孢桿菌YM55-1 天冬氨酸酶狹窄的催化底物范圍拓展到作為互補氫胺化反應,且對底物耐受性最高達到300g/L,定向改變了芽孢桿菌YM55-1天冬氨酸酶的催化功能。
Leaver-Fay 等[69]、Froning[70]提出了設計雙特異性抗體的方法,使用多狀態(tài)設計策略,并考慮引入非目標狀態(tài)進行負設計。Silva 等[71]從頭設計了一個有著天然細胞因子結合位點,然而拓撲結構和序列都不同于天然蛋白的人工細胞因子,此設計蛋白只結合天然白細胞介素-2的部分受體,卻不結合其他受體,隔絕了對部分下游細胞信號的影響。Chen 等[72]通過用參數(shù)化的方法從頭設計螺旋主鏈骨架,并建立氫鍵網絡、環(huán)區(qū)的連接,進行序列優(yōu)化,獲得多組具有特異性異源二聚能力的蛋白對,并用它們構建了蛋白質邏輯門[73]。Langan 等[74]針對信號通路中天然存在的相互作用蛋白,將控制蛋白功能的“籠子”、“插銷”和“鑰匙”分別設計于蛋白相互作用界面上,通過界面設計實現(xiàn)了調節(jié)某對蛋白相互作用的人工蛋白開關設計,并把這一設計用于內源性信號通路的反饋控制[75]。
蛋白質分子間的特異性識別設計也牽涉到組裝體的設計,其可以應用于新材料領域。Shen等[76]進行了蛋白質自組裝體的從頭設計,使其可以聚集成微米級的細絲。他們首先建立了一個纖維片段,隨后通過旋轉平移形成參數(shù)化的螺旋結構,再在這個骨架基礎上進行序列設計。根據纖維片段和旋轉平移等參數(shù)的變化,可以形成大量不同的蛋白,這一設計策略有助于推動一系列多尺度超材料的制造。King等[77]更新了Rosetta的對稱建??蚣躷cdock,用來模擬高度有序對稱的蛋白質支架對的對接,依據每一個對接構型對界面設計的實用性打分,最后使用負染電鏡等手段對設計出的蛋白質的組裝狀態(tài)進行X 射線晶體學分析,結果表明設計出的組裝體材料與理論值的RMSD偏差在0.5~1.2 ?,證明了這種方法對界面幾何形狀有著精確的控制,并且能夠高精度地設計具有多種納米級特征的雙組分蛋白質納米材料。Fallas等[78]采用類似于軟質心模型的Monte Carlo Sampling,首先生成用于對接的主鏈模型,然后使用骨架原子的坐標和二級結構元件來對蛋白質-蛋白質對接進行打分,最后使用全原子Rosetta Design[25]計算優(yōu)化蛋白質-蛋白質界面序列,結果表明所設計的蛋白質在溶液中穩(wěn)定地形成均聚物。
蛋白質計算設計把我們對蛋白質序列-結構-功能關系的生物物理認識和數(shù)學模型、計算方法等綜合在一起,逐漸形成了一套系統(tǒng)的理論和方法學,并得到越來越多的實驗驗證,展示出廣泛應用前景,是合成生物學的重要使能技術之一。
蛋白質計算設計的發(fā)展和應用仍然處于初級階段。從方法上來講,主鏈結構和功能的從頭設計的效果還有很大提升空間。已有的關于主鏈的設計方法,一般是基于天然片段進行主鏈設計,亦或是對規(guī)則結構進行參數(shù)化設計。而當前的能量函數(shù)還不能完全做到主鏈的全自動從頭設計,對極性相互作用的定量刻畫還不夠準確?;趓otamer 的構象表示方法為極性相互作用的定量化帶來困難:離散rotamer 對側鏈原子位置引入較大誤差,不能準確地進行氫鍵網絡設計。未來方法進一步發(fā)展的關鍵包括對主鏈設計能量模型和側鏈極性相互作用模型的改進。
由于蛋白質并非孤立存在的,這既體現(xiàn)為蛋白質的功能往往與其他生物分子(如磷脂雙分子層)互作有關,也體現(xiàn)為細胞內外環(huán)境(如pH)為蛋白質提供的復雜溶劑環(huán)境。而目前的設計方法中,往往是將其他小分子視做剛體進行對接,并將蛋白質周圍環(huán)境進行簡化估計。盡管這些簡化模型是出于對效率的考量,它們在實際應用中對成功率的影響也是不能忽視的。目前已有關于將pH[79-80]、磷脂雙分子層[22,81-83]等方面因素引入蛋白質設計的分析。這些嘗試有望拓寬蛋白質計算設計方法的應用領域,也有望提高蛋白質設計的合理性和成功率。此外,如何在蛋白質計算設計的整體框架中考慮和處理負設計,也是未來方法研究的要點之一。
同時,由于蛋白質-蛋白質界面的形狀和化學特征的極端多樣性,確定蛋白質的識別位點和能量熱點的簡單策略一般不會很有效[84]。因此,建立起氫鍵和靜電相互作用易于計算的描述,對于蛋白質-蛋白質界面的能量函數(shù)的充分建模非常重要。一個相關的挑戰(zhàn)是建立合理的水分子模型,這些水分子通常在蛋白質界面上形成水介導氫鍵的延伸網絡,而標準的隱式溶劑化模型無法捕捉到這些網絡[85]。除了能量函數(shù),在主鏈柔韌性的建模方面也存在缺陷。解決這些問題對于基于結構的蛋白質相互作用特異性的深刻理解和預測至關重要。因此還需要通過更精確的建模技術生成詳細和精確的結構模型來模擬界面[85]。
隨著方法成熟度提高,蛋白質計算設計將越來越多地被應用于功能蛋白設計,這包括各類蛋白質探針和傳感器的設計和改造以及酶的設計。比如在醫(yī)學中,抗體等診斷和治療蛋白的設計、疫苗設計等;在合成生物學中,酶等催化元件以及感受器、邏輯門等人工調控元件的設計也將會成為蛋白質計算設計的重要應用領域。