陳慧琴 燕斌 程濤 李生
摘要:自21世紀(jì)初,人類基因組序列圖譜公開(kāi)發(fā)表后,生命科學(xué)的研究中心已經(jīng)從基因組學(xué)(Genomics)轉(zhuǎn)變?yōu)榈鞍踪|(zhì)組學(xué)(Proteomics)。在生物信息學(xué)(Bioinformatics)領(lǐng)域,從蛋白質(zhì)的一維氨基酸序列中預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)及功能,已經(jīng)成為該領(lǐng)域最重要、最活躍的課題之一。蛋白質(zhì)結(jié)構(gòu)與功能的研究已有相當(dāng)長(zhǎng)的歷史,由于其復(fù)雜性,對(duì)其結(jié)構(gòu)與功能的預(yù)測(cè)不論是基礎(chǔ)理論還是方法方面難度均比較大。為了進(jìn)一步提高蛋白質(zhì)結(jié)構(gòu)及功能的預(yù)測(cè)方法的可理解,揭示蛋白質(zhì)結(jié)構(gòu)與功能的深層次對(duì)應(yīng)關(guān)系,從多目標(biāo)優(yōu)化角度,將該問(wèn)題轉(zhuǎn)化為多目標(biāo)問(wèn)題求解,研究基于多目標(biāo)優(yōu)化的蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)的智能算法。
關(guān)鍵詞:多目標(biāo)優(yōu)化;蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè);進(jìn)化算法
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)13-0171-02
1990年10月1日,美國(guó)國(guó)會(huì)正式批準(zhǔn)并啟動(dòng)了人類歷史上規(guī)模最大的科研工程“人類基因組計(jì)劃”(Human Genome Project)。2001年2月,人類基因組序列圖譜公開(kāi)發(fā)表,這意味著后基因時(shí)代的到來(lái),隨后生命科學(xué)(life science)的研究重心從基因組學(xué)(Genomics)轉(zhuǎn)變?yōu)榈鞍踪|(zhì)組學(xué)(Proteomics),及在大規(guī)模水平上研究蛋白質(zhì)的特征,包括蛋白質(zhì)的表達(dá)水平,翻譯后的修飾,蛋白與蛋白相互作用等。生物信息學(xué)(Bioinformatics)作為生命科學(xué)的一個(gè)重要科學(xué)分支,它是以計(jì)算機(jī)為工具對(duì)生物信息進(jìn)行儲(chǔ)存、檢索和分析的科學(xué)。具體而言,它是把基因組DNA序列信息分析作為源頭,在獲得蛋白質(zhì)編碼區(qū)的信息后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè),然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行必要的藥物設(shè)計(jì)。其中,從蛋白質(zhì)的一維氨基酸序列中預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)及功能,已經(jīng)成為該領(lǐng)域最重要、最活躍的課題之一。
蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)問(wèn)題的研究,對(duì)揭示蛋白質(zhì)的表達(dá)規(guī)律和生物功能提供新的輔助手段,對(duì)解釋遺傳病及傳染疾病的生理機(jī)制、制備高效安全的生物藥劑等復(fù)雜的現(xiàn)實(shí)應(yīng)用問(wèn)題亦具有很高的理論價(jià)值和指導(dǎo)意義。如果弄清楚蛋白質(zhì)的一級(jí)結(jié)構(gòu)是如何決定其三級(jí)結(jié)構(gòu)這個(gè)基本問(wèn)題,將會(huì)使人們更系統(tǒng)和完整地理解具有生物活性蛋白質(zhì)的傳遞全過(guò)程,使中心法則[2]得到更加完整的闡明,從而對(duì)生命過(guò)程中的各個(gè)現(xiàn)象有進(jìn)一步的深刻認(rèn)識(shí),最終推動(dòng)生命科學(xué)的快速發(fā)展。
蛋白質(zhì)結(jié)構(gòu)復(fù)雜,種類千變?nèi)f化,雖然蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)的研究已經(jīng)取得了一定的成果,對(duì)于簡(jiǎn)單的蛋白質(zhì)預(yù)測(cè)已經(jīng)達(dá)到較高的水平,但是在實(shí)際較復(fù)雜的蛋白質(zhì)預(yù)測(cè)上的應(yīng)用還有很大的一段距離。需要解決的關(guān)鍵技術(shù)以及面臨的困難還有很多,仍然有一些重要的理論和應(yīng)用問(wèn)題尚待解決。
為了進(jìn)一步研究蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)的研究,提高計(jì)算方法的有效性及可理解性,揭示蛋白質(zhì)天然結(jié)構(gòu)的生理機(jī)制,從多目標(biāo)優(yōu)化角度,同時(shí)結(jié)合進(jìn)化算法,將其與多目標(biāo)優(yōu)化結(jié)合起來(lái),研究基于多目標(biāo)優(yōu)化的進(jìn)化算法,提高搜索效能從而為系統(tǒng)的研究蛋白質(zhì)結(jié)構(gòu)及功能提供了一定的理論基礎(chǔ)和實(shí)驗(yàn)平臺(tái)。
1 蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)的研究分析
1.1 蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)的現(xiàn)狀分析
蛋白質(zhì)結(jié)構(gòu)復(fù)雜,種類千變?nèi)f化,雖然蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)的研究已經(jīng)取得了一定的成果,對(duì)于簡(jiǎn)單的蛋白質(zhì)預(yù)測(cè)已經(jīng)達(dá)到較高的水平,但是在實(shí)際較復(fù)雜的蛋白質(zhì)預(yù)測(cè)上的應(yīng)用還有很大的一段距離。需要解決的關(guān)鍵技術(shù)以及面臨的困難還有很多,仍然有一些重要的理論和應(yīng)用問(wèn)題尚待解決。
1)理想的能量函數(shù)并不存在。根據(jù)C.B. Anfinsen的觀點(diǎn),蛋白質(zhì)的活性結(jié)構(gòu)像對(duì)應(yīng)于體系能量最小的狀態(tài),在一定條件可以認(rèn)為是能量最小的狀態(tài)。該函數(shù)是一個(gè)重要的評(píng)價(jià)函數(shù),用以區(qū)分天然結(jié)構(gòu)和錯(cuò)誤結(jié)構(gòu)。在實(shí)際應(yīng)用中,蛋白質(zhì)機(jī)構(gòu)復(fù)雜,可變參數(shù)過(guò)多,理想的能量函數(shù)并不存在。目前用于蛋白質(zhì)機(jī)構(gòu)預(yù)測(cè)的能量函數(shù),不論是統(tǒng)計(jì)意義上的還是物理意義上的,都是在一定條件下的擬合,正確程度并不高。同時(shí)考慮到模型的復(fù)雜性,能量函數(shù)多忽略溶劑、氫鍵、疏水性等因素這對(duì)正確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)及功能帶來(lái)不利的影響。
2)二級(jí)機(jī)構(gòu)預(yù)測(cè)準(zhǔn)確度低。一般的預(yù)測(cè)方法,考慮到減少計(jì)算的復(fù)雜性,蛋白質(zhì)的三級(jí)結(jié)構(gòu)預(yù)測(cè)是根據(jù)二級(jí)結(jié)構(gòu)的預(yù)測(cè)的結(jié)果、蛋白質(zhì)的結(jié)構(gòu)類型和折疊類型預(yù)測(cè)的結(jié)果以及空間結(jié)構(gòu)的立體化學(xué)性質(zhì),搭建出最后的蛋白質(zhì)空間結(jié)構(gòu)。而二級(jí)結(jié)構(gòu)預(yù)測(cè)基本是以總結(jié)已知蛋白質(zhì)結(jié)構(gòu)規(guī)律的基礎(chǔ)上而建立的,總體來(lái)說(shuō)準(zhǔn)確度不超過(guò)65%,這已經(jīng)成為蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)的一個(gè)較嚴(yán)重的制約條件。
3)構(gòu)象空間巨大。典型的蛋白質(zhì)含有幾百個(gè)氨基酸、上千個(gè)原子。所有可能的序列到空間結(jié)構(gòu)的映射數(shù)目,隨氨基酸殘基個(gè)數(shù)而成指數(shù)級(jí)增長(zhǎng),即使使用簡(jiǎn)化后的contact maps模型或torsion angles模型,也是一個(gè)天文數(shù)字。使用常規(guī)的搜索算法,計(jì)算量特別大,搜索效率低。目前許多隱藏在蛋白質(zhì)序列里的信息未被發(fā)掘和充分利用,即使使用智能算法如遺傳算法、模擬退火、神經(jīng)網(wǎng)絡(luò)算法等,也造成了實(shí)際應(yīng)用受到一些制約,導(dǎo)致計(jì)算效率和魯棒性低下。
因此,要提高智能算法在解決蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)問(wèn)題時(shí)的效能,需要充分提高和創(chuàng)新智能算法在搜索機(jī)理上理論基礎(chǔ),繼續(xù)挖掘隱含信息,構(gòu)造和創(chuàng)建新的計(jì)算模型,開(kāi)發(fā)出能解決實(shí)際應(yīng)用問(wèn)題的更加魯棒和有效的工具。
1.2 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法分析
目前蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法可以分為三大類:1)基于知識(shí)的比較建模法。這一方法主要指同源結(jié)構(gòu)預(yù)測(cè),根據(jù)同源結(jié)構(gòu)中保守的部分搭建出未知蛋白質(zhì)的結(jié)構(gòu)骨架,在20世紀(jì)90年代由Blundell等人提出。我國(guó)學(xué)者丁達(dá)夫在同源建模方面有過(guò)較深入的研究,開(kāi)發(fā)過(guò)PMODELINE蛋白質(zhì)建模系統(tǒng)。2)反向折疊法。原理基于把未知蛋白質(zhì)的序列和已知的這種結(jié)構(gòu)進(jìn)行匹配,找出一種或幾種匹配最好的結(jié)構(gòu)作為未知蛋白質(zhì)的預(yù)測(cè)結(jié)構(gòu)。1991年Bowie 使用一種稱為三維剖面(3D-Profile)的方法,根據(jù)側(cè)鏈的埋藏程度、極性原子覆蓋率進(jìn)行打分匹配搜索,并取得了較好的結(jié)果。同時(shí)期的Jones則開(kāi)發(fā)出了到目前為止仍有較高研究活力的線串法(threading),通過(guò)先建立折疊子數(shù)據(jù)庫(kù),然后匹配搜索打分選取最合適的折疊結(jié)構(gòu)。目前反向折疊法已經(jīng)比較成熟,具有了一定的實(shí)際運(yùn)用價(jià)值。3)從頭預(yù)測(cè)法。其目標(biāo)是從蛋白質(zhì)的一維結(jié)構(gòu)序列直接預(yù)測(cè)三級(jí)結(jié)構(gòu),是最理想的方法。目前這個(gè)方法主要受兩方面的困擾。一是難以找到一個(gè)能嚴(yán)格區(qū)分蛋白質(zhì)的天然構(gòu)象和非天然的構(gòu)象的能量函數(shù),二是缺少一種有效的全局優(yōu)化算法。目前在這種方法大類里,一種稱為片段組裝(fragment assembly)取得較大的成功,其原理是旋鑿已知蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)里的相似片段進(jìn)行組裝。David Baker 研究組開(kāi)發(fā)出基于貝葉斯打分函數(shù)的ROSETTA系統(tǒng)是這一方法的典型代表。目前,美國(guó)密西根大學(xué)的Yang Zhang教授開(kāi)發(fā)出的I-TASSER (Iterative Threading ASSEmbly Refinement)方法代表著從頭預(yù)測(cè)方法的最高水平,其主要原理也是片段組裝,在片段選擇和組裝上有了重大改進(jìn)。由此可見(jiàn),在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面,盡管當(dāng)前的研究比較活躍,已經(jīng)取得了令人矚目的成果,但是在面對(duì)實(shí)際蛋白質(zhì)時(shí),仍然顯得理論和方法的欠缺。不過(guò)隨著使用更高速的計(jì)算機(jī)、更有效的算法,解決這個(gè)問(wèn)題是可能的。
1.3 蛋白質(zhì)功能預(yù)測(cè)分析
蛋白質(zhì)功能預(yù)測(cè)也是當(dāng)今生物信息學(xué)的一個(gè)研究重點(diǎn),是后基因時(shí)代最具挑戰(zhàn)性的問(wèn)題之一。所預(yù)測(cè)的蛋白質(zhì)功能主要指疏水性、基因調(diào)節(jié)、對(duì)生化反應(yīng)的催化性。 最流行的方法是基于氨基酸序列, 因?yàn)樾蛄惺且粋€(gè)蛋白質(zhì)最基本,最易獲得的信息。BLAST使用近似序列比對(duì)算法,通過(guò)測(cè)量目標(biāo)序列和數(shù)據(jù)庫(kù)已知之間的相似之處發(fā)現(xiàn)同源關(guān)系預(yù)測(cè)功能。然而,一些研究表明,序列同源性并和功能不總是相關(guān)的。另外,直接根據(jù)結(jié)構(gòu)預(yù)測(cè)功能也是一種方法,但是這種方法過(guò)于依賴結(jié)構(gòu)預(yù)測(cè),描述也過(guò)于復(fù)雜,常常作為一種輔助手段。近些年,在 high-throughput 生物技術(shù)領(lǐng)域,產(chǎn)生了大量的類似基因表達(dá)和蛋白質(zhì)的相互作用的生物數(shù)據(jù),這些數(shù)據(jù)作可以作為蛋白質(zhì)功能預(yù)測(cè)的一個(gè)數(shù)據(jù)分析平臺(tái),研究人員已經(jīng)在這方面做了大量的研究工作。由此可見(jiàn),蛋白質(zhì)功能預(yù)測(cè)正逐漸形成一個(gè)科研熱點(diǎn),由于蛋白質(zhì)功能的復(fù)雜性以及預(yù)測(cè)方法的發(fā)展和變化,蛋白質(zhì)功能預(yù)測(cè)的研究存在很多機(jī)遇和挑戰(zhàn)。一方面,其理論基礎(chǔ)還不夠完善,尤其是怎樣識(shí)別一個(gè)蛋白質(zhì)功能還需要較多研究工作。另一方面,新的預(yù)測(cè)方法的效能還有待提高,特別如何實(shí)現(xiàn)不同算法模型之間的融合、協(xié)同計(jì)算問(wèn)題。
2 多目標(biāo)優(yōu)化問(wèn)題研究分析
多目標(biāo)優(yōu)化在具體問(wèn)題上的應(yīng)用研究也是當(dāng)今學(xué)術(shù)界的一個(gè)研究方向和趨勢(shì)。多目標(biāo)優(yōu)化在實(shí)際問(wèn)題上的應(yīng)用,最早是被Knowles等人在處理如何將一個(gè)單目標(biāo)問(wèn)題轉(zhuǎn)換成多目標(biāo)優(yōu)化問(wèn)題時(shí)被重新提出來(lái)的。一般認(rèn)為,更多的目標(biāo)函數(shù)數(shù)量意味著更困難的優(yōu)化問(wèn)題,但也意味著更有效的優(yōu)化過(guò)程可以實(shí)現(xiàn),目前多目標(biāo)優(yōu)化已經(jīng)運(yùn)用到很多應(yīng)用領(lǐng)域。如旅行商問(wèn)題、車間調(diào)度問(wèn)題、裝箱問(wèn)題、最短路徑和最小生成樹(shù)問(wèn)題,并且取得了顯著的實(shí)驗(yàn)結(jié)果。在生物信息學(xué)領(lǐng)域,多目標(biāo)優(yōu)化也有較多應(yīng)用,Thomas 成功將其應(yīng)用到基因調(diào)控網(wǎng)絡(luò)。在蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)上,也有較多應(yīng)用。Becerra 將之用于蛋白質(zhì)的從頭預(yù)測(cè)問(wèn)題。將多目標(biāo)優(yōu)化與進(jìn)化計(jì)算結(jié)合起來(lái),用兩個(gè)目標(biāo)函數(shù)進(jìn)行了蛋白質(zhì)的三級(jí)結(jié)構(gòu)預(yù)測(cè)。Olson 將多目標(biāo)與隨機(jī)搜索算法結(jié)合起來(lái),在平衡局部和全局搜索上做了改進(jìn),取得了較好的預(yù)測(cè)結(jié)果。盡管目前的多目標(biāo)優(yōu)化在具體問(wèn)題上的研究已經(jīng)取得巨大成功,并逐步發(fā)展成為研究熱點(diǎn)和技術(shù)前沿之一,將多目標(biāo)優(yōu)化應(yīng)用到蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)這個(gè)問(wèn)題上,有研究?jī)r(jià)值和意義。
3結(jié)束語(yǔ)
綜上所述,目前基于多目標(biāo)優(yōu)化的蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)的研究基本還處于前期探索階段,最終形成成熟的理論和實(shí)際應(yīng)用,還需要更多具有創(chuàng)新性的基礎(chǔ)研究,以及大量細(xì)致的完善工作。在國(guó)內(nèi)外對(duì)蛋白質(zhì)結(jié)構(gòu)及功能研究十分重視的背景下,適時(shí)啟動(dòng)基于多目標(biāo)優(yōu)化的蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)的研究是必要且迫切的。因此,通過(guò)本項(xiàng)目,將建立起面向各種類蛋白質(zhì)的結(jié)構(gòu)及功能預(yù)測(cè)平臺(tái),為進(jìn)一步系統(tǒng)地研究蛋白質(zhì)結(jié)構(gòu)及功能,揭示蛋白質(zhì)折疊的生理機(jī)制,優(yōu)化多目標(biāo)計(jì)算模型,同時(shí)為生物技術(shù)、藥物設(shè)計(jì)等應(yīng)用領(lǐng)域提供理論研究基礎(chǔ)。
參考文獻(xiàn):
[1] Luscombe N M, Greenbaum D, Gerstein M. What is bioinformatics? An introduction and overview[J]. Yearbook of Medical Informatics, 2001(1): 83-99.
[2] Anfinsen CB ."Principles that govern the folding of protein chains[J]. Science, 1973, 181 (4096): 223-230.
[3] Becerra D, Sandoval A, Restrepo-Montoya D, et al. A parallel multi-objective ab initio approach for protein structure prediction[C]//Bioinformatics and Biomedicine (BIBM), 2010 IEEE International Conference on. IEEE, 2010: 137-141.
[4] Cutello V, Narzisi G, Nicosia G. A multi-objective evolutionary approach to the protein structure prediction problem[J]. Journal of The Royal Society Interface, 2006, 3(6): 139-151.
[5] Olson B, Shehu A. Multi-objective stochastic search for sampling local minima in the protein energy surface[C]//Proceedings of the International Conference on Bioinformatics, Computational Biology and Biomedical Informatics. ACM, 2013: 430.