徐宏睿, 馬彬廣
華中農(nóng)業(yè)大學生命科學技術(shù)學院生物信息中心,武漢 43007
蛋白質(zhì)是由氨基酸按照一定的順序組成的生物大分子,在生物體內(nèi)擔當著重要的角色。自然狀態(tài)下,蛋白質(zhì)通常能從未折疊狀態(tài)快速而可靠地折疊成具有三維結(jié)構(gòu)的天然構(gòu)象。正確的結(jié)構(gòu)是功能的基礎(chǔ),蛋白質(zhì)的錯誤折疊會形成無活性蛋白或引起淀粉樣纖維的聚集,引起阿爾茨海默病、帕金森病、亨廷頓病、傳染性海綿狀腦病等蛋白質(zhì)折疊疾病[1,2]。因而,深入了解和研究蛋白質(zhì)折疊問題,成為近年來科學家們不懈努力的方向。
因為組成蛋白質(zhì)的20種氨基酸殘基的異質(zhì)性及蛋白質(zhì)結(jié)構(gòu)的多樣性,蛋白質(zhì)折疊是一個極其復(fù)雜的過程[3],涉及氫鍵、范德華力等各種非共價鍵相互作用,受到氨基酸序列長度、殘基物理化學性質(zhì)、分子柔韌性[4]及周圍的溶劑環(huán)境等諸多因素的影響[5]。蛋白質(zhì)折疊速率 (通常用Kf表示)作為度量蛋白質(zhì)折疊快慢的一個參數(shù),可用于探究和分析蛋白質(zhì)的折疊機制。自1998年P(guān)laxo與其伙伴提出接觸序 (contact order,CO)方法用于預(yù)測Kf以來,到目前為止,已出現(xiàn)了大量的蛋白質(zhì)折疊速率預(yù)測方法。根據(jù)對構(gòu)象熵的不同處理,預(yù)測方法大體分成兩類:基于蛋白質(zhì)大小 (如鏈長度或有效長度)等非特異屬性的預(yù)測方法,以及基于蛋白質(zhì)結(jié)構(gòu)中特異相互作用信息的預(yù)測方法[6]。前者對于預(yù)測序列長度變化較大的蛋白質(zhì)的折疊速率比較有效,后者則可以改善序列長度變化較小的蛋白質(zhì)折疊速率的預(yù)測效果。據(jù)郭等人[7]的統(tǒng)計,截至2006年,已出現(xiàn)了基于結(jié)構(gòu)信息的預(yù)測方法,如CO、ΔG(free-energy landscapes)、Leff(effective length)、SSC(secondary structure contact)、ECO(effective contact order)、LRO(long-range order)、TCD(total contact distance)、CTP(chain topology parameter)、Flocal(fraction of local contacts);基于一級序列的預(yù)測方法,如HP(helix parameter)、L(chain length)、Pave(average properties of amino acids)、Ω (表示氨基酸屬性)等。不難發(fā)現(xiàn),所有這些經(jīng)驗參數(shù)中,大多數(shù)需要蛋白質(zhì)的結(jié)構(gòu)信息,而且包含的折疊影響因子單一,加上預(yù)測使用的數(shù)據(jù)量少,使得這些方法并不適用于所有的蛋白質(zhì)。隨后,科學家們漸漸開始將研究對象轉(zhuǎn)向了氨基酸序列與折疊速率的關(guān)系,即利用蛋白質(zhì)一級序列來預(yù)測Kf的方法,設(shè)計了許多根據(jù)序列構(gòu)成信息及氨基酸性質(zhì)進行預(yù)測的方法。隨著蛋白質(zhì)折疊實驗數(shù)據(jù)的日益增加、結(jié)構(gòu)預(yù)測方法的逐步完善[8],以及蛋白質(zhì)動力學數(shù)據(jù)庫的出現(xiàn)[9~11],用于預(yù)測的參數(shù)類型逐漸增加,預(yù)測方法的精度也得到很大的提升。Harihar等人[12]針對LRO方法,通過更新的“兩態(tài)”蛋白質(zhì)數(shù)據(jù),優(yōu)化相關(guān)參數(shù),在增大的數(shù)據(jù)集上得到了比傳統(tǒng)LRO方法更好的相關(guān)性。近年來,許多包含了多因素變量的預(yù)測模型被建立起來,而這些變量之間的相互關(guān)系對折疊速率也有著不可忽視的影響。本文從近幾年來預(yù)測研究的幾個主要方向,對新出現(xiàn)的預(yù)測方法作了簡要綜述。
一直以來,肽鏈長度作為一個描述蛋白質(zhì)大小的非特異性參數(shù),在眾多預(yù)測方法中都受到重視。首先,Galzitskaya等人[13]認識到鏈長度在“三態(tài)”蛋白質(zhì)折疊中是主要的速率決定因子。隨后,Ivankov等人[14]又提出了基于二級結(jié)構(gòu)預(yù)測的“有效長度”指標Leff,表現(xiàn)出與蛋白質(zhì)折疊速率很好的相關(guān)性。再后來,Ivankov等人[15]又用84個蛋白質(zhì)數(shù)據(jù)研究了蛋白質(zhì)形狀參數(shù) (旋轉(zhuǎn)半徑、折疊與未折疊部分的橫截面半徑、緊密度參數(shù))與蛋白折疊速率的關(guān)系,發(fā)現(xiàn)含有鏈長度信息的那些參數(shù)才表現(xiàn)出與蛋白質(zhì)折疊速率及折疊中間體出現(xiàn)與否的密切關(guān)聯(lián)。
然而,“有效長度”概念的核心在于其反映蛋白質(zhì)折疊過程信息的有效性,具體定義則可以有不同的形式。最近,Chang等人[16]從最小集的理念出發(fā),通過窮舉20種氨基酸類型的所有可能的組合,選出了與蛋白質(zhì)折疊速率相關(guān)性最好的若干個氨基酸類型,用于“有效長度”的定義;該種定義方式不僅與其建立的能量模型吻合,還取得了良好的折疊速率預(yù)測能力:在95個蛋白的數(shù)據(jù)集上,與折疊速率的相關(guān)系數(shù)達0.84。
2006年,Ma等人[17]較早地關(guān)注了氨基酸組成與蛋白質(zhì)折疊速率之間的關(guān)系,研究了不同的氨基酸含量及其相對分子量和簡并度對折疊的影響,提出了新的預(yù)測參數(shù),即組成指標(CI)。CI的定義為:
其中,C為某些氨基酸含量之和,W為平均分子量,L為總殘基數(shù),D為平均簡并度。對37個“兩態(tài)”和25個“多態(tài)”蛋白質(zhì)進行預(yù)測,得到CI與蛋白質(zhì)折疊速率的皮爾森相關(guān)系數(shù) (R)分別為0.73和0.71[17]。通過分析不同折疊動力學類型中各種氨基酸的含量,發(fā)現(xiàn)“二態(tài)”蛋白和“多態(tài)”蛋白在氨基酸組成上存在著差異,且決定折疊速率的氨基酸也不同。在他們接下來的研究中[18],詳細列出了不同折疊類型中所含氨基酸的信息:氨基酸F和G多出現(xiàn)于“兩態(tài)”蛋白質(zhì)中,而C、H、L和R多出現(xiàn)于“三態(tài)”蛋白質(zhì)中,由此看出,不同類型的氨基酸組成會導致不同的蛋白質(zhì)折疊動力學類型。將氨基酸構(gòu)成信息進一步集中在氨基酸的出現(xiàn)頻率上,Huang等人[19]在67個蛋白質(zhì)數(shù)據(jù)中統(tǒng)計出各序列上不同氨基酸的數(shù)目,建立多元回歸模型,對蛋白質(zhì)折疊速率進行預(yù)測,“兩態(tài)”和“多態(tài)”蛋白質(zhì)的相關(guān)系數(shù)分別為0.78和0.86。通過比較各種氨基酸對應(yīng)的回歸系數(shù)來檢測折疊反應(yīng)對殘基的敏感性,發(fā)現(xiàn)P、N、K、H、R、S、Q、D、G屬于折疊促進氨基酸,Y、C、W、L、F、V、I、T、E、A、M則為折疊抑制氨基酸。根據(jù)化學基團分類后,氨基基團 (N和Q)、陽離子基團 (K和R)及兩性基團 (H)能夠促進折疊,而芳香基團 (Y、W、P)和疏水側(cè)鏈 (L、V、I、A)則會阻礙折疊??紤]到數(shù)據(jù)集的影響,或許此種分類并不嚴謹,但在這些結(jié)果中,我們已經(jīng)可以清晰地看到,蛋白質(zhì)序列上氨基酸的構(gòu)成信息與蛋白質(zhì)折疊速率確實存在著很大程度的相關(guān)性。
Lin等人[20]綜合考慮了序列長度、氨基酸組成、接觸序、接觸數(shù)及二級結(jié)構(gòu)信息,用支持向量機回歸模型,對37個“兩態(tài)”和24個“三態(tài)”蛋白進行了預(yù)測,得到的相關(guān)系數(shù)分別為0.81和0.80。在蛋白質(zhì)數(shù)據(jù)量相當?shù)那闆r下 (源于同一篇文獻),該方法 (SeqRate)較CI[17]略有提升,由此可以看出,結(jié)合多種參數(shù)進行預(yù)測的方法可能會取得更好的結(jié)果,因為考慮的參數(shù)越多,就越能覆蓋到蛋白質(zhì)折疊的更多性質(zhì),提高相關(guān)性。
研究氨基酸的性質(zhì)有利于對序列上氨基酸比例、氨基酸接觸、氨基酸結(jié)構(gòu)偏好及蛋白質(zhì)折疊順序等現(xiàn)象進行解釋?;诎被嵝再|(zhì)的折疊速率預(yù)測方法在近幾年中報道的最多,這表明,分析氨基酸的各種性質(zhì)對認清蛋白質(zhì)的折疊有著重要的推動作用。在Gromiha等人[21]的預(yù)測方法 (FOLD-RATE)中,對49種氨基酸性質(zhì)使用多元線性回歸,預(yù)測77個蛋白質(zhì)的折疊速率,得到表達式式中,C為常數(shù),a和b為回歸系數(shù),P1和P2為氨基酸性質(zhì)。據(jù)稱,應(yīng)用該方法對蛋白質(zhì)總體進行預(yù)測,相關(guān)系數(shù)為0.96,而如果將蛋白質(zhì)依據(jù)結(jié)構(gòu)分為all-α、all-β和mixed class三類,并對分類后的蛋白質(zhì)重新進行預(yù)測,相關(guān)系數(shù)分別為0.99、0.97和0.90。其中,mixed class相對較低,這可能是因為該類同時包含了α和β結(jié)構(gòu),構(gòu)象更為復(fù)雜。在這些氨基酸性質(zhì)中,結(jié)構(gòu)和熱力學特性與all-α蛋白質(zhì)的折疊速率有很好的相關(guān)性;all-β與熱力學性質(zhì)、mixedclass與物理化學性質(zhì)也都有著較好的相關(guān)性。對按結(jié)構(gòu)分類后的蛋白質(zhì)進行折疊速率預(yù)測,結(jié)果顯示,氨基酸特性與折疊速率有更好的相關(guān)性。后來,Huang和Gromiha[22]改進了預(yù)測方法,在與FOLD-RATE方法相同的蛋白質(zhì)和氨基酸性質(zhì)數(shù)據(jù)集上,使用了一種新的計算方法——二次響應(yīng)面模型(quadratic response surface model,QRSM)進行預(yù)測,表達式如下:
Jiang等人[23]在氨基酸性質(zhì)的基礎(chǔ)上使用混合的序列表示方法,加入氨基酸組成、二級結(jié)構(gòu)特征、序列長度特征等信息,對“兩態(tài)”、“多態(tài)”和“混態(tài)” (無法明確分為兩態(tài)和多態(tài))這三類蛋白質(zhì)折疊的動力學類型分別建立了線性回歸模型 (即prediction of protein folding rates方法,PPFR方法):
其中,s為集合{“兩態(tài)”,“多態(tài)”,“混態(tài)”},xsj為s折疊類型的第j個特征,wsj為s折疊類型第j個特征的回歸參數(shù),ws0為擬合常數(shù),而ks表示s折疊類型的特征總數(shù)。在62個蛋白中,“兩態(tài)”和“多態(tài)”蛋白折疊速率預(yù)測的相關(guān)系數(shù)均為0.87,“混態(tài)”則為0.82。若將此方法 (PPFR)與QRSM用相同的數(shù)據(jù)作預(yù)測比較,QRSM方法得到的相關(guān)性要好于PPFR[23],這表明,在本問題中,QRSM二次響應(yīng)面模型要優(yōu)于PPFR的線性回歸。
對氨基酸性質(zhì)的更深入理解,建立更好的數(shù)學模型,能幫助我們得到更為精確的蛋白質(zhì)折疊速率預(yù)測結(jié)果。Gao等人[5]為了分析溶劑可及性、二級結(jié)構(gòu)及殘基靈活性對折疊率的影響,同樣對三種折疊動力學類型的蛋白質(zhì)分別建立了線性回歸模型 (PFR-AF),對文獻[15]中的62個蛋白質(zhì)進行預(yù)測,在“兩態(tài)”、“多態(tài)”和“混態(tài)”的蛋白質(zhì)中分別得到皮爾森相關(guān)系數(shù) (R)0.94、0.87和0.84。其中“兩態(tài)”和“混態(tài)”蛋白的相關(guān)系數(shù)高于用PPFR預(yù)測得到的結(jié)果,并且,在去除了35%以上相似度的序列冗余后,該方法 (PFR-AF)表現(xiàn)出與折疊速率更好的相關(guān)性,相比之下,QRSM和PPFR得到的相關(guān)系數(shù)則出現(xiàn)明顯的下降。從這里可以看出,大多數(shù)折疊速率預(yù)測方法都存在一定的數(shù)據(jù)依賴性,不能應(yīng)對廣泛的蛋白質(zhì)。如果使用序列相似度高的數(shù)據(jù),就有可能得到更好的預(yù)測值。PFR-AF方法結(jié)合了溶劑可及性、殘基靈活性及氨基酸組成信息,對一些氨基酸影響折疊的原因作了解釋[5],認為:在“兩態(tài)”蛋白質(zhì)中,Ala會加速折疊,因其具有較低的構(gòu)象熵;Ile的增加會延緩兩態(tài)蛋白的折疊,因為該殘基的分支側(cè)鏈 (branched side chain)會增多潛在的構(gòu)象;包埋的Pro也會減緩折疊,而暴露的Pro則會加快折疊,因為Pro多存在于蛋白質(zhì)表面,減少了可能的構(gòu)象;增加溶劑暴露殘基的靈活性會延長折疊時間,主要是由于蛋白質(zhì)構(gòu)象的數(shù)目增加了。
對于蛋白質(zhì)折疊過程,氨基酸性質(zhì)和氨基酸組成共同表現(xiàn)為氨基酸序列的性質(zhì)。Pred-PFR混合了多種獨立的預(yù)測項,每一項都基于氨基酸的序列特征,分別對每種特征建立線性回歸方程,來預(yù)測蛋白質(zhì)的折疊速率,得R=0.88[24],其回歸方程中包含的序列性質(zhì)有:形成C末端的α-helix的傾向性、形成β-sheet的傾向性、壓縮能力、未折疊鏈的溶劑接觸面積、序列長度、有效長度,以及α螺旋、β折疊、coil三種二級結(jié)構(gòu)的比例。Xi等人[25]認為研究序列特征的自相關(guān)性有利于認清序列與折疊速率的關(guān)系。他們綜合考慮了序列的自相關(guān)信息、偽氨基酸組成及氨基酸的組成分布等特征,通過遺傳算法 (GA),結(jié)合多元線性回歸 (MLR)和局部懶惰回歸 (LLR),對蛋白質(zhì)折疊速率進行了預(yù)測。發(fā)現(xiàn)MLR方法下的相關(guān)系數(shù)為0.93,而LLR方法下得到更高的0.95。將ln Kf分為快、中、慢三個范圍,檢測20種氨基酸的出現(xiàn)頻率,發(fā)現(xiàn)賴氨酸 (K)在快速折疊蛋白中的出現(xiàn)頻率顯著大于慢折疊蛋白 (P<0.005)。若顯著性水平P取0.1,則還有N和W會偏向于出現(xiàn)在快速折疊的蛋白質(zhì)中,而D、V和I則偏向于慢速折疊的蛋白質(zhì)。
2008年,Ouyang和Liang[26]發(fā)表了一種基于幾何接觸和氨基酸序列的蛋白質(zhì)折疊速率預(yù)測方法:幾何接觸數(shù)nα用來表示包裹的非局部接觸的數(shù)量,定義ln Kf=a+nα×w,其中,a為常數(shù),nα是記錄20種殘基幾何接觸數(shù)量的20維向量,w是表示相對分子量的20維向量。在80個蛋白的數(shù)據(jù)集上,預(yù)測結(jié)果與折疊速率實驗值關(guān)系顯著,相關(guān)系數(shù)-0.86、-0.86和-0.83分別對應(yīng)“兩態(tài)”、“多態(tài)”和所有蛋白質(zhì)。由此可見,無論是對于簡單或是復(fù)雜的蛋白質(zhì),空間包裝 (spatial packing)和壓縮互作 (zipping interaction)是決定蛋白質(zhì)折疊速率的重要因素。
網(wǎng)絡(luò)的概念可以用來描述拓撲和復(fù)雜系統(tǒng)的動力學。在Li和Wang[27]的工作中,定義了三種網(wǎng)絡(luò):PCNs(蛋白質(zhì)接觸網(wǎng)絡(luò))、LINs(長程互作網(wǎng)絡(luò))、SINs(短程互作網(wǎng)絡(luò))。網(wǎng)絡(luò)構(gòu)建以Cα原子作為節(jié)點,在每兩個節(jié)點間建立連接,要求cut-off距離小于0.8 nm。若兩節(jié)點之間的序列間隔Lcut≥12,則為LINs,否則為SINs。預(yù)測結(jié)果中,對于“兩態(tài)”蛋白,PCNs和LINs與ln Kf間只具有很低的相關(guān)性 (0.248和-0.118),而SINs卻有著較高的正相關(guān)系數(shù)0.602??梢钥闯?,蛋白質(zhì)序列上的短程相互作用對影響“兩態(tài)”蛋白質(zhì)的折疊速率起著關(guān)鍵作用。
Guo等人[28]為了研究氨基酸殘基間的相互作用和氨基酸的序列順序等信息對折疊速率的影響,采用偽氨基酸組成的方法提取氨基酸序列的位置信息。該方法中,殘基間的相關(guān)性由殘基的疏水值決定,利用蒙特卡洛方法選擇最佳預(yù)測特征因子,建立線性回歸模型進行折疊速率預(yù)測。使用91個蛋白質(zhì)數(shù)據(jù),得到的相關(guān)系數(shù)為0.81[28]。該結(jié)果表明,蛋白質(zhì)序列的疏水氨基酸含量是決定折疊速率的重要因素,且序列順序信息對蛋白質(zhì)折疊速率有一定的影響,設(shè)計算法時應(yīng)考慮這種影響,以提高預(yù)測精度。最近,Cheng等人[29]進一步利用基于滑動窗口技術(shù)的偽氨基酸組成方法,考慮了大量的蛋白質(zhì)物理化學性質(zhì)和氨基酸的統(tǒng)計特征,使用非線性支持向量機回歸模型對折疊速率進行預(yù)測。據(jù)稱,預(yù)測結(jié)果與實驗數(shù)值的相關(guān)系數(shù)為0.9313。上述研究表明,氨基酸在蛋白質(zhì)序列中的排列模式對蛋白質(zhì)的折疊速率有一定的影響。
在蛋白質(zhì)折疊過程中,二級結(jié)構(gòu)的形成對折疊進程起著決定性的作用。例如。β-sheet在越復(fù)雜的蛋白質(zhì)中折疊得越緩慢[30],helix作為局部結(jié)構(gòu)的代表,能在蛋白質(zhì)折疊過程中快速形成[2],高helix、高coil含量能促使蛋白質(zhì)加速折疊[22]。Huang等人[31]假設(shè)“兩態(tài)”和“多態(tài)”折疊共享同一模型,則“多態(tài)”蛋白質(zhì)會先縮合為亞穩(wěn)態(tài)的中間體,隨后在限速步驟中形成α-helix、turn和β-sheet,該類蛋白質(zhì)的折疊速率與α-helix和β-sheet結(jié)構(gòu)的長度反向相關(guān);“兩態(tài)”折疊中,α-helix和turn的較早形成會促進中間體的折疊,因而幾乎無法觀察到中間體。此模型中,序列長度L表示為L=Lα+Lβ+Lloop,其中Lα、Lβ和Lloop分別表示α、β和loop結(jié)構(gòu)中的殘基數(shù)。在“兩態(tài)”折疊中,限速階段是β-sheet和loop結(jié)構(gòu)的形成,而“多態(tài)”中則是α-helix和β-sheet結(jié)構(gòu)的形成。基于該模型,對“兩態(tài)”和“多態(tài)”折疊分別進行預(yù)測,公式如下:
對21個“多態(tài)”蛋白質(zhì)進行預(yù)測,相關(guān)系數(shù)為-0.940;對于38個“兩態(tài)”蛋白質(zhì),相關(guān)系數(shù)為-0.881。為進一步驗證二級結(jié)構(gòu)與折疊速率的相關(guān)性,作者對單個二級結(jié)構(gòu)和任意兩個二級結(jié)構(gòu)的組合與折疊速率的關(guān)系進行了比較[31]。對于“多態(tài)”折疊,α+β組合的相關(guān)系數(shù)最高;對于“兩態(tài)”折疊,β+loop組合的相關(guān)系數(shù)最高。這在一定程度上證明了該蛋白質(zhì)折疊模型的可行性。通過此模型發(fā)現(xiàn),在早期中間體中,疏水核心和α-結(jié)構(gòu)的競爭性形成過程會決定折疊的動力學類型,而二級結(jié)構(gòu)的長度則影響著“二態(tài)”和“三態(tài)”蛋白質(zhì)的折疊速率,并且,隨著相應(yīng)二級結(jié)構(gòu)長度的增加,蛋白質(zhì)折疊速率會不同程度地延緩。
序列長度L和基于α-helix的有效序列長度Leff,都曾單獨作為特征量被用于折疊速率的預(yù)測。Chou和Shen[32]則整合了以上兩種特征量及β-sheet性質(zhì)的影響,建立了線性回歸方程,對折疊率進行預(yù)測,
最近,Galzitskaya和Glyakina[34]用一種基于成核機制的理論方法模擬了蛋白質(zhì)折疊進程,估算了折疊核的大小與自由能障,并在此基礎(chǔ)上計算了蛋白質(zhì)的折疊速率。對84個蛋白質(zhì)和多肽鏈,首次得到折疊核大小與實驗折疊速率數(shù)據(jù)的相關(guān)系數(shù)為-0.57,相關(guān)性并不高。但他們同時也發(fā)現(xiàn),估算的自由能障與計算的折疊速率相關(guān)性高達0.75,證明了構(gòu)象熵對折疊速率的重要影響,并且,此成核模型也從物理角度描述了蛋白質(zhì)的折疊進程。天然蛋白質(zhì)的形成大致是一個能量遞減的過程,“漏斗”狀的自由能圖景很好地描述了蛋白質(zhì)折疊到天然狀態(tài)的過程中熵的整體減少[2,8]。在上述的多種預(yù)測方法[5,16,24,26]中,也有從能量觀點來解釋蛋白質(zhì)折疊中現(xiàn)象的嘗試。雖然目前直接基于能量的折疊速率預(yù)測方法并不多,但能量作為分析蛋白質(zhì)構(gòu)象的重要參數(shù),對蛋白質(zhì)折疊速率的預(yù)測有著不可忽視的作用。
表1 折疊速率預(yù)測方法的特征量及蛋白質(zhì)分類方式Table 1 The features and protein classification schema used in protein folding rate prediction
我們對上述主要方法使用的特征量作了整理,結(jié)果展現(xiàn)在表1中,接著,用文獻[26]中的80個蛋白質(zhì)數(shù)據(jù),對其中有預(yù)測網(wǎng)站的6種方法進行了蛋白質(zhì)折疊速率預(yù)測,并計算了這6種方法間的相關(guān)性,結(jié)果如圖1。從圖中可以清楚地看出,Pred-PFR、FoldRate和SeqRate兩兩間的相關(guān)性非常高,Pred-PFR和FoldRate的相關(guān)性甚至達到了0.99,這可能是因為這三種方法所使用的特征量有很大程度的相似性 (見表1)。近幾年來,伴隨著預(yù)測方法的發(fā)展,預(yù)測網(wǎng)站逐漸增多,為科學家們進行折疊速率預(yù)測和折疊方法研究提供了方便,圖2A顯示了迄今已有的部分預(yù)測網(wǎng)站。在每個預(yù)測網(wǎng)站中,都提供了該網(wǎng)站預(yù)測方法所使用的蛋白質(zhì)數(shù)據(jù),可供下載使用。自1998年以來,預(yù)測方法所使用的蛋白質(zhì)數(shù)據(jù)從最初的12個逐漸增加到現(xiàn)在的101個[25],呈增長趨勢 (如圖2B所示)。蛋白質(zhì)數(shù)據(jù)的增加,對檢驗預(yù)測方法的數(shù)據(jù)依賴性和折疊動力學分類的研究有著重要意義。
在上述2006年以來的預(yù)測方法中,大部分的預(yù)測結(jié)果都包含了蛋白質(zhì)的折疊動力學分類 (見表1),且分類后的預(yù)測精度都出現(xiàn)了明顯的上升。隨著蛋白質(zhì)數(shù)據(jù)量的增大,將蛋白質(zhì)進行準確的動力學分類,也成為提升預(yù)測結(jié)果的重要手段。在“兩態(tài)”和“多態(tài)’兩種蛋白質(zhì)折疊類型中,存在著不同的蛋白質(zhì)序列組成特征和拓撲復(fù)雜性,它們的折疊行為不只依賴于環(huán)境條件,更是源于蛋白質(zhì)的固有性質(zhì)[18]?;诖?,Ma等[18]結(jié)合氨基酸含量和序列長度,定義了一種折疊類型預(yù)測方法 (Cp):
其中,Length為蛋白序列長度,Csum是顯著富含于“多態(tài)”折疊類型中的氨基酸的含量之和,a、b和c為三個擬合參數(shù);通過Cp是否大于0,可判定“多態(tài)”和“兩態(tài)”。隨后,Huang等人[22]利用10種能正確描述77個蛋白質(zhì)“兩態(tài)”和“多態(tài)”的氨基酸性質(zhì),對蛋白質(zhì)進行折疊動力學分類,得到了89.6%的準確度。Lin等人[20]發(fā)現(xiàn)蛋白質(zhì)序列長度在預(yù)測“多態(tài)”折疊速率時是很好的特征量,但卻不適用于“兩態(tài)”;而蛋白質(zhì)拓撲結(jié)構(gòu)與“兩態(tài)”蛋白折疊速率的相關(guān)性要明顯好于“多態(tài)”。在一定的數(shù)據(jù)集上,他們的分類方法得到了80%的準確性。近幾年中,雖然出現(xiàn)的預(yù)測折疊動力學類型的方法并不多,但是關(guān)于折疊動力學類型的討論卻在逐漸增多。對蛋白質(zhì)進行折疊動力學分類,儼然已經(jīng)成為認清蛋白質(zhì)折疊機制的重要步驟。
現(xiàn)階段出現(xiàn)的蛋白質(zhì)折疊速率預(yù)測方法,或多或少地忽視了蛋白質(zhì)實際折疊過程中的許多不確定因素,比如二硫鍵、折疊環(huán)境、蛋白質(zhì)相互作用等。對于每種蛋白質(zhì),因為其性質(zhì)不同,不同方法的預(yù)測結(jié)果也會不同,且各種性質(zhì)在折疊中的權(quán)重,直接決定著預(yù)測方法的好壞。隨著蛋白質(zhì)折疊問題研究的深入,更多的折疊相關(guān)參數(shù)會被發(fā)現(xiàn),并用于折疊速率的預(yù)測。通過預(yù)測折疊速率,我們也能反過來解釋許多蛋白質(zhì)折疊中的問題,完善對蛋白質(zhì)折疊機制的理解,進而推動對蛋白質(zhì)折疊疾病的認識和治療藥物的研究。
1. 王明,李學周,符兆英.蛋白質(zhì)錯誤折疊與蛋白質(zhì)構(gòu)象病.延安大學學報 (醫(yī)學科學版),2009,7(2):12~13.16 Wang M, Li XZ, Fu ZY. Protein misfolding and conformational disease.J Yanan Univ(Med Sci),2009,7(2):12~13.16
2.Lin MM,Zewail AH.Protein folding-simplicity in complexity.Annalen der Physik,2012,524(8):379~391
3.Wang J,Wang W.A computational approach to simplifying the protein folding alphabet.Nat Struct Biol,1999,6(11):1033~1038
4. Huang JT,Tian J.Amino acid sequence predicts folding rate for middle-size two-state proteins.Proteins-Struct Funct Bioinform,2006,63(3):551~554
5.Gao J,Zhang T,Zhang H,Shen S,Ruan J,Kurgan L.Accurate prediction of protein folding rates from sequence and sequence-derived residue flexibility and solvent accessibility.Proteins,2010,78(9):2114~2130
6. Fersht AR.Transition-state structure as a unifying basis in protein-folding mechanisms:Contact order,chain topology,stability,and the extended nucleus mechanism.Proc Natl Acad Sci USA,2000,97(4):1525~1529
7.郭建秀,馬彬廣,張紅雨.蛋白質(zhì)折疊速率預(yù)測研究進展.生物物理學報,2006,22(2):89~95 Guo JX,Ma BG,Zhang HY.Progress in protein folding rate prediction.Acta Biophys Sin,2006,22(2):89~95
8. Dill KA,Maccallum JL.The protein-folding problem,50 years on.Science,2012,338(6110):1042~1046
9.Bogatyreva NS,Osypov AA,Ivankov DN.Kineticdb:A database of protein folding kinetics.Nucleic Acids Res,2009,37(Database issue):D342~346
10.Capriotti E,Casadio R.K-fold:A tool for the prediction of the protein folding kinetic order and rate.Bioinformatics,2007,23(3):385~386
11.Fulton KF,Devlin GL,Jodun RA,Silvestri L,Bottomley SP,Fersht AR, Buckle AM. Pfd:A database for the investigation of protein folding kinetics and stability.Nucleic Acids Res,2005,33:D279~D283
12.Harihar B,Selvaraj S.Refinement of the long-range order parameter in predicting folding rates of two-state proteins.Biopolymers,2009,91(11):928~935
13.Galzitskaya OV,Garbuzynskiy SO,Ivankov DN,Finkelstein AV.Chain length is the main determinant of the folding rate for proteins with three-state folding kinetics.Proteins:Struct Funct Genet,2003,51(2):162~166
14.Ivankov DN,Finkelstein AV.Prediction of protein folding rates from the amino acid sequence-predicted secondary structure. Proc Natl Acad Sci USA, 2004, 101(24):8942~8944
15.Ivankov DN,Bogatyreva NS,Lobanov MY,Galzitskaya OV.Coupling between properties of the protein shape and the rate of protein folding.PloS One,2009,4(8)e6476.DOI:10.1371/journal.pone.0006476
16.Chang L,Wang J,Wang W.Composition-based effective chain length for prediction of protein folding rates.Phys Rev E,2010,82(5 Pt 1):051930)
17.Ma BG,Guo JX,Zhang HY.Direct correlation between proteins'folding rates and their amino acid compositions:An ab initio folding rate prediction.Proteins,2006,65(2):362~372
18.Ma BG,Chen LL,Zhang HY.What determines protein folding type? An investigation of intrinsic structural properties and its implications for understanding folding mechanisms.J Mol Biol,2007,370(3):439~448
19.Huang JT,Xing DJ,Huang W.Relationship between protein folding kinetics and amino acid properties.Amino Acids,2012,43(2):567~572
20.Lin GN,Wang Z,Xu D,Cheng J.Seqrate:Sequencebased protein folding type classification and rates prediction.BMC Bioinform,2010,11 Suppl 3:S1
21.Gromiha MM,Thangakani AM,Selvaraj S.Fold-rate:Prediction of protein folding rates from amino acid sequence.Nucleic Acids Res,2006,34(Web Server issue):W70~74
22.Huang LT,Gromiha MM.Analysis and prediction of protein folding rates using quadratic response surface models.J Comput Chem,2008,29(10):1675~1683
23.Jiang Y,Iglinski P,Kurgan L.Prediction of protein folding rates from primary sequences using hybrid sequence representation.J Comput Chem,2009,30(5):772~783
24.Shen HB,Song JN,Chou KC.Prediction of protein folding rates from primary sequence by fusing multiple sequential features.J Biomed Sci Eng,2009,2:136~143
25.Xi L,Li S,Liu H,Li J,Lei B,Yao X.Global and local prediction of protein folding rates based on sequence autocorrelation information.J Theor Biol,2010,264(4):1159~1168
26.Ouyang Z,Liang J.Predicting protein folding rates from geometric contact and amino acid sequence.Protein Sci,2008,17(7):1256~1263
27.Li HY,Wang JH.Folding rate prediction using complex network analysis for proteins with two-and three-state folding kinetics.J Biomed Sci Eng,2009,2(8):644~650
28.Guo JX,Rao NN,Liu GX,Li J,Wang YH.Predicting protein folding rate from amino acid sequence. Prog Biochem Biophys,2011,37(12):1331~1338
29.Cheng X,Xiao X,Wu ZC,Wang P,Lin WZ.Swfoldrate:Predicting protein folding rates from amino acid sequence with sliding window method.Proteins,2013,81(1):140~148
30.Portman JJ.Cooperativity and protein folding rates.Curr Opin Struct Biol,2010,20(1):11~15
31.Huang JT,Cheng JP,Chen H.Secondary structure length as a determinant of folding rate of proteins with two-and three-state kinetics.Proteins,2007,67(1):12~17
32.Chou KC,Shen HB.Foldrate:A web-server for predicting protein folding rates from primary sequence. Open Bioinformatics J,2009,3:31~50
33.Horwich A.Protein aggregation in disease:A role for folding intermediates forming specific multimeric interactions.J Clin Invest,2002,110(9):1221~1232
34.Galzitskaya OV,Glyakina AV.Nucleation-based prediction of the protein folding rate and its correlation with the folding nucleus size.Proteins,2012,80(12):2711~2727