史小紅 范 倩
氨基酸疏水性對(duì)蛋白質(zhì)結(jié)構(gòu)的影響
史小紅 范 倩
本文應(yīng)用計(jì)算機(jī)模擬方法對(duì)蛋白質(zhì)折疊結(jié)構(gòu)進(jìn)行分析,研究了在二維的HP模型下,采用Monte-Carlo算法,運(yùn)用F-P法、K-D法、沃氏法、埃氏法及米氏法,幾種常見的對(duì)氨基酸殘基疏水特性的不同劃分方法,從序列的正反兩個(gè)方向?qū)φ鎸?shí)蛋白質(zhì)折疊結(jié)構(gòu)進(jìn)行計(jì)算機(jī)模擬研究。研究結(jié)果表明,同一種疏水特性值從序列的正向或是其反方向開始折疊,蛋白質(zhì)折疊的最小能量構(gòu)象的能量值相等;各疏水特征參考值求得的最小能量構(gòu)象及能量值存在差異。
從蛋白質(zhì)的序列出發(fā)研究蛋白質(zhì)的折疊結(jié)構(gòu),是現(xiàn)代生物信息學(xué)研究的一個(gè)重要的目標(biāo)。生物體的遺傳信息是由DNA轉(zhuǎn)錄為RNA后,再有RNA翻譯而成為各種具有穩(wěn)定功能的蛋白質(zhì),以完成各種生命活動(dòng)。所以,研究蛋白質(zhì)折疊結(jié)構(gòu)有助于我們了解蛋白質(zhì)空間結(jié)構(gòu)與其功能的關(guān)系,幫助我們破譯遺傳信息這一生命之謎。蛋白質(zhì)的折疊結(jié)構(gòu)決定蛋白質(zhì)的功能,錯(cuò)誤的折疊會(huì)形成無活性的蛋白,從而引起阿爾茨默、帕金森、亨廷頓等蛋白質(zhì)的折疊疾病。研究蛋白質(zhì)的折疊結(jié)構(gòu)機(jī)理,可以幫助我們?cè)诘鞍踪|(zhì)工程、藥物設(shè)計(jì)和篩選、基因疾病的治療等方面,對(duì)天然蛋白質(zhì)結(jié)構(gòu)進(jìn)行有目的的改變,從而改變蛋白質(zhì)的功能,達(dá)到對(duì)基因疾病的控制。
據(jù)美國的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫有關(guān)數(shù)據(jù)的統(tǒng)計(jì),到目前為止,約有十萬種蛋白質(zhì)分子被發(fā)現(xiàn),但已測(cè)定結(jié)構(gòu)的蛋白質(zhì)數(shù)量?jī)H約一萬種,約占總量的10%。實(shí)驗(yàn)在研究蛋白質(zhì)折疊時(shí),現(xiàn)常用的方法一般為X射線衍射法和多維核磁共振法,但由于蛋白質(zhì)分離提純化技術(shù)要求非常高,蛋白質(zhì)晶體難以培養(yǎng),晶體結(jié)構(gòu)測(cè)定周期長(zhǎng)等因素,從而制約了蛋白質(zhì)研究的進(jìn)展。所以利用計(jì)算機(jī)技術(shù)模擬蛋白質(zhì)結(jié)構(gòu)折疊,采用理論預(yù)測(cè)的方法來研究蛋白質(zhì)的結(jié)構(gòu),可以幫助我們解決序列與結(jié)構(gòu)在數(shù)據(jù)上差別越來越大的問題。
研究蛋白質(zhì)的折疊,需要明白蛋白質(zhì)折疊的機(jī)理。假如一個(gè)蛋白質(zhì)為僅含有100個(gè)氨基酸殘基,為簡(jiǎn)化計(jì)算,若每個(gè)氨基酸的殘基在折疊結(jié)構(gòu)的二維空間位置用兩個(gè)幾何參數(shù)來表示,那么必須引入200個(gè)特定的幾何參數(shù)才能把折疊的蛋白質(zhì)完整的表達(dá)出來,假定每個(gè)參數(shù)只取兩個(gè)數(shù)值,則這個(gè)100個(gè)氨基酸殘基組成的小蛋白質(zhì),折疊出現(xiàn)的可能構(gòu)象就有2200=1.6×1060,假如從蛋白質(zhì)的一個(gè)折疊結(jié)構(gòu)到另一個(gè)折疊結(jié)構(gòu)需要10~13s,那么確定一個(gè)合適的折疊結(jié)構(gòu),總的探索時(shí)間將需要1.6×1060×10~13s,大約為5×1039年。但實(shí)際的蛋白質(zhì)折疊時(shí)間一般僅需幾分鐘甚至幾秒鐘就能完成。這一現(xiàn)象表明,蛋白質(zhì)的折疊是一個(gè)高度定向且多因素控制的過程。
蛋白質(zhì)的折疊是一個(gè)非常復(fù)雜的過程,受到組成蛋白質(zhì)的20種氨基酸殘基的影響。影響蛋白質(zhì)結(jié)構(gòu)的維持和穩(wěn)定的因素一般有靜電作用、氫鍵、范德華力、殘基的親水性和疏水性、配位鍵、二硫鍵等其他因素。在建模時(shí)必須盡可能的簡(jiǎn)化模型,所以只考慮對(duì)蛋白質(zhì)折疊結(jié)構(gòu)影響最大的因素研究。現(xiàn)在越來越多的人已經(jīng)認(rèn)識(shí)到,氨基酸殘基的親疏水作用力是維持和穩(wěn)定蛋白質(zhì)構(gòu)象的主要作用力,即在求最小能量函數(shù)時(shí),僅考慮疏水作用力。
本文基于20種氨基酸殘基的疏水性特征值的幾種不同劃分法,采用二維的HP模型,搜索方法采用Monte-Carlo法,模擬真實(shí)蛋白質(zhì)的一級(jí)氨基酸殘基序列從正反兩個(gè)方向來搜索蛋白質(zhì)折疊的最小能量構(gòu)象。
1.數(shù)據(jù)集
本文從真實(shí)蛋白質(zhì)1AEP中,截取其中13個(gè)一級(jí)氨基酸殘基序列,其序列為為L(zhǎng)EU THR ASN VAL GLY HIS GLN TRP GLN ASP ILE ALA THR。真實(shí)蛋白質(zhì)1AEP的數(shù)據(jù)從美國的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(RCSBProtein Data Bank,簡(jiǎn)稱RCSB PBD)中下載。網(wǎng)址http://www.rcsb.org。
文中對(duì)20種氨基酸殘基疏水特性的參數(shù)參見表1。
表1是根據(jù)文獻(xiàn)4的表4改編而成。其中K-D法和埃氏法是同時(shí)考慮了氨基酸在有機(jī)溶劑和水中的分配系數(shù),以及氨基酸在蛋白質(zhì)結(jié)構(gòu)中的分布情況而確定的;米氏法只考慮了氨基酸在蛋白質(zhì)結(jié)構(gòu)中的分布;F-P法的實(shí)驗(yàn)基礎(chǔ)是氨基酸在辛醇和水中的分配系數(shù);沃氏法則是測(cè)量了氨基酸從水到蒸汽時(shí)的自由能△G后,推算所得。在表1中,負(fù)值越大,疏水性越弱,親水性越強(qiáng)。括號(hào)中的數(shù)字是按這種方法得出的疏水性由強(qiáng)到弱的序列。在沃氏測(cè)量法中,未確定脯氨酸的親疏水特性參數(shù),我們根據(jù)前四種分類方法,在進(jìn)行HP轉(zhuǎn)化時(shí)將其視為親水性氨基酸殘基。
模型
考慮影響蛋白質(zhì)結(jié)構(gòu)的維持和穩(wěn)定的主要因素,即在計(jì)算最小能量函數(shù)時(shí)只考慮疏水性作用力的影響。1989年,Dill提出了疏水性-親水性(HP)模型,本文將蛋白質(zhì)序列視為一列由疏水性氨基酸(用方格表示,記為H)和親水性氨基酸(用圓圈表示,記為P)組成的鏈,即將原有的鏈轉(zhuǎn)化為了一條只含有H和P組成的序列。將二維空間作等距離劃分,連接網(wǎng)格線,HP鏈上的每個(gè)節(jié)點(diǎn)可向前、后、上、下四個(gè)方向90°旋轉(zhuǎn)。即在二維折疊空間中,有四個(gè)折疊方向,分別用兩位二進(jìn)制數(shù)表示,00表示向右,11表示向左,01表示向上,10表示向下。如圖1所示。
定義能量函數(shù)為:每一對(duì)非直接相連但相鄰的疏水性殘基(記為H:H)間相互作用的能量為-1,其他為0。用此能量函數(shù),尋找到最小能量的構(gòu)象為一個(gè)疏水核聚集在結(jié)構(gòu)內(nèi)部的緊湊構(gòu)象。能量函數(shù)記為Eh。即
其中,δi表示肽鏈上第i個(gè)氨基酸殘基,可取H或P,γi表示第i個(gè)小球,若γi-γj表示H沒有直接相連但相鄰,則Φ(γi-γj),否則為0。
運(yùn)用此模型求得的最小能量構(gòu)象以及最小能量值均與前人所求得的結(jié)果相符。如圖2所示,為一條由13個(gè)氨基酸序列HHPHPHPHPPHPH的最小能量的可能構(gòu)象,其最小能量值為-6。這種結(jié)構(gòu)符合人們對(duì)蛋白質(zhì)構(gòu)象的認(rèn)識(shí):疏水性氨基酸殘基一般深藏于蛋白質(zhì)分子的內(nèi)部,而親水性氨基酸殘基則暴露在蛋白質(zhì)表面,以便于與水接觸。
算法
從計(jì)算的角度來講,蛋白質(zhì)結(jié)構(gòu)折疊的構(gòu)象搜索的問題為典型的NP難題。解決這一問題現(xiàn)常用的算法有遺傳算法、模擬退火法、蟻群算法及Monte-Carlo算法等。本文所用的搜索算法為Monte-Carlo算法。Monte-Carlo算法,簡(jiǎn)稱MC法,為一種隨機(jī)搜索算法。它是根據(jù)所求解問題的變化規(guī)律,先構(gòu)造一個(gè)合適的概率模型,再根據(jù)模型進(jìn)行大量的統(tǒng)計(jì)試驗(yàn),它的某些統(tǒng)計(jì)參考量,正好是待求解問題的解。它的優(yōu)點(diǎn)在于收斂速度與問題的維數(shù)無關(guān),且誤差容易確定。
本文用于搜索蛋白質(zhì)折疊的最小能量可能構(gòu)象的MC方法可描述如下:
第一步 從一個(gè)隨機(jī)的構(gòu)象S1出發(fā),隨機(jī)產(chǎn)生一個(gè)種群數(shù)為200的初始種群數(shù),計(jì)算能量值Eh;
第二步 找出初始種群數(shù)中能量最小的構(gòu)象Si,并計(jì)算最小能量值Ehi;
第三步 對(duì)Si的某個(gè)殘基定向進(jìn)行隨機(jī)改變,形成新構(gòu)象Sj,并計(jì)算其能量值Ehj;
第四步 如果Ehi>Ehj,接受構(gòu)象Sj,使之成為當(dāng)前構(gòu)象;否則,不接受Sj,則仍使Si為當(dāng)前構(gòu)象;
第五步 當(dāng)達(dá)到最大迭代次數(shù)時(shí),輸出當(dāng)前能量值最小的構(gòu)象及其最小能量值;如果不滿足停止準(zhǔn)則,則重復(fù)第二步到第四步。
實(shí)驗(yàn)中用真實(shí)蛋白質(zhì)1AEP中的一段氨基酸殘基序列作為測(cè)試的目標(biāo)序列,此段序列為:LEU THR ASN VAL GLY HIS GLN TRP GLN ASP ILE ALA THR。將此段殘基序列分別用沃氏法、F-P法、埃氏法、KD法以及米氏法轉(zhuǎn)換為親疏水性的HP模型。采用MC算法分別從序列的正向及其反向搜索其最小能量構(gòu)象,并求取最小能量值,探討從序列的正反方向開始搜索,對(duì)蛋白質(zhì)折疊的最小能量值及其構(gòu)象是否有影響。
表1 描述20種氨基酸殘基疏水特性參數(shù)
圖1 殘基走向演示圖
序列與最小能量值比較
實(shí)驗(yàn)結(jié)果表明,在各種疏水性特征參考值下求得最小能量值如表2所示。由此可以看出同一種疏水性特征參考值正向和反向折疊所得的最小能量值相同;不同疏水性特征參考值在同一段氨基酸殘基序列下得到的能量最小值存在一定的差異,且相差較大。
圖2 序列長(zhǎng)度為13個(gè)殘基的肽鏈的最小能量的可能構(gòu)象
表2 序列與最小能量值
最小能量值與其構(gòu)象比較
各疏水性特征參考值所得到的蛋白質(zhì)最小能量構(gòu)象存在一定的差異,同一種疏水性特征參考值正向和反向折疊所得的最小能量構(gòu)象也存在不同程度的差異,如圖3所示。由圖3可以看出,氨基酸殘基的序列,在不同的疏水性特征參數(shù)的影響下,最小能量相差較大。
在尋找最小能量構(gòu)象時(shí),我們采用的是隨機(jī)搜索的MC算法。由圖3中的(1)和(2)在經(jīng)過順時(shí)針旋轉(zhuǎn)90°完全相同;沃氏法和K-D法在序列相同的情況下,圖3中的(7)、(8)、(9)、(10),在相等的最小能量值下,所尋找到的最小能量構(gòu)象因隨機(jī)性的影響,圖(7)、(9)、(10)完全相同,與圖8存在差異。
圖3 各疏水性特征參數(shù)最小能量構(gòu)象圖
由以上結(jié)果我們可以大膽的推測(cè),由于蛋白質(zhì)的折疊是一個(gè)高度定向且多因素控制的過程,在僅考慮親疏水性對(duì)蛋白質(zhì)折疊構(gòu)象的影響因素上,從序列的正反方向開始折疊,對(duì)蛋白質(zhì)折疊的最小能量及其構(gòu)象無影響。
對(duì)蛋白質(zhì)折疊結(jié)構(gòu)的計(jì)算機(jī)模擬可以很好的解決實(shí)驗(yàn)測(cè)定蛋白質(zhì)結(jié)構(gòu)的困難,它將增進(jìn)我們對(duì)蛋白質(zhì)折疊結(jié)構(gòu)的進(jìn)一步認(rèn)識(shí),幫助我們更好的了解結(jié)構(gòu)與功能的關(guān)系。模擬的實(shí)驗(yàn)結(jié)果表明,對(duì)于同一列氨基酸殘基序列,運(yùn)用幾種常見的對(duì)氨基酸殘基疏水性特征參考值的不同劃分方法,所得到的蛋白質(zhì)最小能量構(gòu)象和最小能量值均不相同。人們已經(jīng)知道,維持蛋白質(zhì)構(gòu)象的最小能量越低,其構(gòu)象越穩(wěn)定。那么,哪一種疏水性參考值能更好的反應(yīng)真實(shí)蛋白質(zhì)折疊結(jié)構(gòu),我們將對(duì)其繼續(xù)進(jìn)行下一步的研究探索,以期了解更多有關(guān)幾種常見的對(duì)氨基酸殘基疏水性特征參考值,對(duì)蛋白質(zhì)結(jié)構(gòu)的維持和穩(wěn)定影響的大小。
史小紅 范倩西安工業(yè)大學(xué)理學(xué)院
10.3969/j.issn.1001-8972.2015.07.001