基于PDB數據庫的三個RNA二級結構預測軟件評估
劉偉1,3, 黃伊子1,3, 李都悅1,3, 向妍1,3, 周瑋1,2,3*
(1.湖南農業(yè)大學植物保護學院植物病蟲害生物學與防控湖南省重點實驗室, 長沙 410128;
2.湖南省煙草公司郴州市公司, 湖南 郴州 423000;
3.湖南農業(yè)大學湖南省生物農藥與制劑加工工程技術研究中心, 長沙 410128)
摘要:隨著21世紀分子生物學研究的蓬勃發(fā)展,RNA二級結構預測成為其中一項重要內容。由于RNA二級結構預測的準確性最為關鍵,因此尋找高精度且易操作的二級結構預測工具顯得非常重要。本文選取三種簡單且易操作的二級結構預測軟件,先基于PDB數據庫收錄的318個RNA發(fā)夾序列進行二級結構預測,進而通過比較預測結果與實驗測定結果進行軟件預測性能評估。比較結果顯示,RNAstructure為三個軟件中性能最優(yōu)的RNA二級結構預測軟件。
關鍵詞:RNA二級結構;PDB數據庫;二級結構預測;準確性
中圖分類號:Q74文獻標志碼:A
收稿日期:2014-08-16;修回日期:2014-10-12.
基金項目:國家自然科學基金(No.51407194,No.51207167)。
作者簡介:滿夢華,男,博士,講師,研究方向:電磁防護仿生;E-mail:manmenghua@126.com.
doi:10.3969/j.issn.1672-5565.2015.01.08
Evaluation of three RNA secondary structure prediction softwares based on PDB database
LIU Wei1,3,HUANG Yizi1,3,LI Douyue1,3,XIANG Yan1,3,ZHOU Wei1,2,3*
(1.HunanProvincialKeyLaboratoryforBiologyandControlofPlantDiseasesandInsectPests,CollegeofPlantProtection,
HunanAgriculturalUniversity,Changsha410128,China; 2.ChenzhouCompanyofHunanTobaccoCompany,
ChenzhouHunan423000,China; 3.HunanProvincialEngineering&TechnologyResearchCenterforBiopesticide
andFormulationProcessing,HunanAgriculturalUniversity,Changsha410128,China)
Abstract:With the development of molecular biology in the 21st century, the prediction of RNA secondary structure has become one of the most important contents in the field. Because the accuracy of RNA secondary structure prediction is crucial, it is very important to look for the secondary structure prediction tool with high precision and easy operation. In this article, three kinds of secondary structure prediction softwares were selected to evaluate their performances. Firstly, we predicted the RNA secondary structures of 318 RNA hairpins collected from PDB database, and then evaluated the performance of the softwares by comparing the predicted results with the experimental ones. Comparison results showed that RNA structure was superior to the other two kinds of softwares in predicting RNA secondary structure.
Keywords:RNA secondary structures; PDB database; Secondary structure prediction; Accuracy
RNA二級結構是指RNA分子在自然條件下盤繞、卷曲借助堿基間的氫鍵相互連接形成部分堿基配對和單鏈交替出現(xiàn)的莖環(huán)結構。RNA二級結構中堿基互補配對形成的雙螺旋區(qū)成為莖區(qū),而不形成互補配對的單鏈形成環(huán)。莖區(qū)主要按經典的Watson-Crick規(guī)則配對,即G和C配對,A和U配對。此外,在某些情況下也可形成G和U配對[1]。RNA的空間結構是識別RNA分子的重要依據和功能研究的基礎和前提。雖然實驗手段是獲取二級結構的最可靠方法,但是由RNA分子難結晶而且降解快,采用實驗方法測定分子結構很困難,并且代價高昂。近年來,采用計算機和數學模型預測RNA二級結構的方法被廣泛采用,成為RNA結構和功能研究領域的熱點問題[2]。RNA二級結構作為決定RNA分子功能的重要環(huán)節(jié),與許多重要生物學過程相聯(lián)系。RNA 的二級結構廣泛影響各類 RNA 的各種生物學過程,如影響RNAi的效率,也被廣泛應用于尋找新的非編碼RNA[3-4]。因此,RNA二級結構預測是進行RNA各項生物學功能研究的基礎,RNA二級結構預測的準確性直接關系到整個實驗的進展,如何選取RNA二級結構預測軟件就顯得尤為重要。本文基于PDB實驗數據對RNAstructure、Centroidfold和RNAshapes三個軟件的二級結構預測功能進行比較,從中選取最優(yōu)二級結構預測軟件。
1材料和方法
1.1RNA二級結構獲取
RNA結構的選取是本文研究的一個重要環(huán)節(jié)。供試RNA結構下載自PDB數據庫。PDB(http://www.rcsb.org/pdb/home/home.do)是一個蛋白質、核酸等生物大分子的結構數據的數據庫[5],由Worldwide Protein Data Bank監(jiān)管。PDB可以經由網絡免費訪問,是結構生物學研究中的重要資源。值得一提的是,雖然PDB的數據是由世界各地的科學家提交的,但每條提交的數據都會經過PDB工作人員的審核與注解,并檢驗數據是否合理。因此,在PDB數據庫選取RNA數據是保證實驗數據真實、可靠的基礎。
因為該數據庫數據量較大,且一直保持更新,所以選取2006~2013年期間收錄的所有RNA結構??紤]到RNA結構的精確性,僅保留分辨率小于2.8?的RNA發(fā)夾。
1.2預測方法及預測軟件選取
RNA二級結構預測方法的研究也比較多,比較經典方法有最小自由能法、動態(tài)規(guī)劃算法和Sankoff算法。但最近也有些新的研究方法,如基于隱markov模型的RNA二級結構預測方法、基于進化神經的預測方法、基于半監(jiān)督學習的隨機文法模型方法等[6-8]。
軟件選取是本文研究中的另一個重要環(huán)節(jié)。目前常用的RNA二級結構軟件眾多,綜合考慮如實用性、操作難度和獲取難度等各方面條件,我們選取了三個軟件作為評估對象,分別是RNAstructure、Centroidfold和RNAshapes,它們均是RNA二級結構預測中比較重要的軟件。
RNAstructure(http://rna.urmc.rochester.edu/RNAstructure.html)是一款可在Microsoft Windows操作系統(tǒng)下免費使用的RNA結構預測和分析軟件[1]。RNAstructure使用Zuker算法預測RNA二級結構,預測一個結構分為兩步。第一步是使用回歸算法生成一個最優(yōu)結構與一系列次優(yōu)結構。生成次優(yōu)結構的個數由用戶輸入的兩個參數決定,第三個參數是重新排序最有可能的結構。使用公式重新計算每個結構的最小自由能,輸出根據重新計算的最小自由能排序,這兩步是連續(xù)進行的。該款軟件的主要程序設計依賴于以下幾個方面算法:1)最小自由能理論;2)堿基配對可能性原則;3)寡核苷酸與互補片段結合親和力原則;4)共同序列保守結構分析原則。RNAstructure具有操作界面友好、功能強大和給出良好圖形界面輸出的優(yōu)點,它可以測序單一序列,也可以比較兩個序列的結構,目前提供Windows和Linux/UNIX版本,不提供在線預測。
Centroidfold(http://www.ncrna.org/centroidfold/)是RNA二級結構預測中最精準的網絡應用程序之一,它接受兩種序列數據[9]:一個RNA序列和多個對齊的RNA序列。它的預測結果以堿基對符號和圖形來表示,PDF格式的圖形也可接受。該服務器常用的應用是多序列對齊RNA二級結構預測,這個服務器的主要優(yōu)點是用原始的Centroidfold軟件作為預測引擎,從而在基準測試中獲得最高的分數和最好的預測精確性,另外,使用這個軟件進行RNA二級結構預測是免費的且不用登陸。CentroidFold與RNAfold、sfold和CONTRAfold等相比,其性能相對來說比較好[10]。
RNAshapes(http://bibiserv.techfak.uni-bielefeld.de/rnashapes/)使樹狀域與結構映射,保持了鄰接與嵌套的結構特點,但無視螺旋長度[11-12]。它與動態(tài)規(guī)劃算法緊密結合,因此可在此間用于二級結構預測,這不但避免了指數爆炸,還給了我們一個充分和完整的RNA分子折疊空間。RNAshapes提供了三個強大的RNA分析工具:1)計算不同形狀中的一組代表結構,并從中選取最相符的[13];2)計算形狀累計概率[14];3)與共識結構進行比較預測,并作為Sankoff算法的選擇方案[15]。
1.3結果評估
ViewerLite是一款操作簡單、界面友好的結構示圖軟件。將從PDB數據庫下載的包含有RNA結構的PDB文件載入ViewerLite軟件中,軟件將顯示出相應的RNA二級結構圖,保存好圖像并記錄好相關結果,作為預測結果評估的標準。
圖1是用軟件Viewerlite顯示出的RNA發(fā)夾立體結構(以1YN1為例,其序列為GCGAGUUGACUACUCGC),其結構可以旋轉和縮放,因此可以方便而準確地驗證軟件預測結構是否與實驗結構相匹配。
圖1 Viewerlite呈現(xiàn)的RNA發(fā)夾(1YN1)結構圖
2結果與分析
從PDB數據庫中選擇了318個實驗測定的RNA發(fā)夾,然后分別用三種不同軟件對其發(fā)夾序列進行二級結構預測,比較后記錄各個軟件預測結果與實驗結果的匹配、不匹配和難以識別的數量。匹配是指所選預測軟件所呈現(xiàn)出來的圖形與viewerlite的空間圖形在堿基配對上是沒有差異的(見圖2);不匹配即堿基配對不一致(見圖3)。除了匹配和不匹配外,還有其他情況,包括無法識別和輸入RNA序列后無其二級結構呈現(xiàn),無法識別是指由于二級結構的復雜性,無法辨別出預測出來的結構是否與viewerlite上的堿基配對一致(見圖4、圖5)。
圖2 RNA二級結構匹配情況展示
圖3 RNA二級結構不匹配情況展示(1SLO)
注:由立體圖(右圖)可知,RNA(1SLO)形成的是四環(huán)發(fā)夾,即框里面A和U是配對的,RNAstructure的預測結果與之一致,但Centroidfold的預測結果(左圖)是六環(huán)發(fā)夾,即A與U沒有配對。因此,Centroidfold的結果是不匹配的,而RNAstructure是匹配的。
Notes:The A and G is paired in box from the space diagram which has four ring hairpin and it’s consistent with the prediction results of RNAstructure, but the result from Centroidfold has six ring hairpin and A and G is unpair.So it is paired for RNAstructure and unpaired for Centroidfold.
圖4 RNA(4G6P)預測二級結構
注“圖4為RNAstructure軟件的預測結構,但centroidfold和RNAshapes無法對其進行預測。
Notes:The results can be predicted by RNAsructure and it is diffcult for centroidfold and RNAshapes to do it.
圖5 viewerlite顯示的RNA(4G6P)空間圖
注:與圖4相比較難以識別。
Notes:It is difficult to compare with Fig.4.
表1是各個軟件的二級結構預測比較結果,由該表格可以看出,RNAstructure的匹配率最高,其后依次是RNAshapes和Centroidfold。
表1 三種RNA二級結構預測軟件預測結果比較
圖6是分別用軟件RNAstructure、Centroidfold和RNAshapes基于1YN1發(fā)夾序列預測出的二級結構。左圖為RNAstructure預測結果,上面信息比較詳細,圖中對結構的名稱(可自己命名)、能量值以及堿基對的排序都有明顯的注解。從中圖看Centridfold預測結構顏色分明,有色彩填充,比較美觀,Centroidfold預測出的RNA二級結構是這三個預測軟件中在視覺效果上是比較好的選擇。但是Centroidfold是一種在線軟件,在沒有網絡的情況下不能進行二級結構預測。RNAshapes預測結果相對于其它軟件來說(右圖)比較簡約,其操作起來相對于另兩個軟件難度要高,但其繪圖功能還是比較強大。由圖6預測結果的結構比較圖可知,這三個軟件對RNA(1YN1)的預測結果都是符合要求的,但這只是相對于簡單的二級結構來說,遇到復雜的RNA結構,他們的差異性較明顯。
圖6 基于1YN1發(fā)夾序列預測出的二級結構
注:(1):RNAstructure預測;(2):Centroidfold預測;(3):RNAshapes預測。
Notes:(1):Prediction by RNAstructure; (2):Prediction by Centroidfold;(3):Prediction byRNAshapes.
3討論
通過上述實驗數據和預測結果,本文所選的三個預測軟件的優(yōu)劣性很明顯。對于RNA二級結構的預測,RNAstructure的性能是其中最好的,其在匹配率以及結構信息方面都較其他軟件有優(yōu)勢。同時本次實驗也存在很多改進之處,比如,本文下載的RNA結構量受年限和分辨率制約,后期工作可考慮覆蓋到整個時期且加入分辨率更低但分子更大的RNA結構,本文評估軟件僅選取三個常用軟件,可考慮擴大RNA二級結構預測軟件的規(guī)模。
參考文獻(References)
[1]吳建祖.生物信息學分析實踐[M]. 北京:科學出版社, 2010.
WU Jianzu. The analysis and practice of bioinformatics[M]. Beijing:Science Press,2010.
[2]夏飛,朱強華,金國慶,等.基于CPU-GPU混合計算平臺的RNA二級結構預測算法并行化研究[J].國防科技大學學報,2013,(6):138-146.
XIA Fei, ZHU Qianghua, JIN Guoqing, et al. RNA secondary structure prediction parallel algorithm based on CPU-GPU hybrid computing platform[J].Journal of National University of Defense Technology,2013,(6):138-146.
[3]張浩文, 楊禹丞, 魯志. 非編碼 RNA 的生物信息學研究方法: RNA 結構預測及其應用[J]. 生命科學, 2014, 26(003): 219-227.
ZHANG Haowen, YANG Yucheng, LU Zhi. Noncoding RNA of bioinformatics methods:RNA structure prediction and its application[J]. Life Science, 2014, 26(003): 219-227.
[4]桂堅斌,孫迎,高武,等.RNA二級結構在siRNA設計中的應用[J].北京生物醫(yī)學工程,2012,31(6):652-656.
GUI Jianbin, SUN Ying, GAO Wu, et al. Application of RNA secondary structure in siRNA design[J]. Beijing Biomedical Engineering, 2012, 31(6):652-656.
[5]BERMAN H M. The protein data bank: a historical perspective[J]. Acta Crystallographica Section A: Foundations of Crystallography, 2007, 64(1): 88-95.
[6]董浩,劉元寧,張浩,等.基于隱Markov模型的RNA二級結構預測新方法[J].計算機研究與發(fā)展,2012,49(4):812-817.
DONG Hao, LIU Yuanning, ZHANG Hao, et al. A method of RNA secondary structure prediction based on hidden markov model[J]. Research and Development of Computer, 2012, 49(4):812-817.
[7]牟超,何靜媛,石楊,等.基于進化神經網絡的RNA二級結構預測方法[J].四川大學學報(自然科學版),2014,51(1):64-68.
MOU Chao, HE Jingyuan, SHI Yang, et al. An evolutionary neural network approach to predict RNA secondary structure[J]. Journal of Sichuan University, 2014, 51(1):64-68.
[8]唐四薪,趙輝煌,周勇等.RNA二級結構預測:基于半監(jiān)督學習的隨機文法模型方法[J].計算機與應用化學,2013,(9):1038-1042.
TANG Sixin, ZHAO Huihuang, ZHOU Yong, et al. Prediction of RNA secondary structure: stochastic grammar model based on semi supervised learning method[J].Computers and Applied Chemistry, 2013, (9):1038-1042.
[9]SATO K, HAMADA M, ASAI K, et al. Centroidfold: a web server for RNA secondary structure prediction[J]. Nucleic Acids Research, 2009, 37(suppl 2): W277-W280.
[10]HAMADA M, KIRYU H, SATO K, et al. Prediction of RNA secondary structure using generalized centroid estimators[J]. Bioinformatics, 2009, 25(4): 465-473.
[11]VOSS B, GIEGERICH R, REHMSMEIER M. Complete probabilistic analysis of RNA shapes[J]. BMC Biology, 2006, 4(1): 5.
[12]STEFFEN P, VOSS B, REHMSMEIER M, et al. RNAshapes: an integrated RNA analysis package based on abstract shapes[J]. Bioinformatics, 2006, 22(4): 500-503.
Abstract[13]GIEGERICH R, VOSS B, REHMSMEIER M. shapes of RNA[J]. Nucleic Acids Research, 2004, 32(16): 4843-4851.
[14]JANSSEN S, GIEGERICH R. Faster computation of exact RNA shape probabilities[J]. Bioinformatics, 2010, 26(5): 632-639.
[15]REEDER J, GIEGERICH R. Consensus shapes: an alternative to the sank off algorithm for RNA consensus structure prediction[J]. Bioinformatics, 2005, 21(17): 3516-3523.