李偉哲 賈陽(yáng)陽(yáng) 劉露
摘要[目的]對(duì)桃拉病毒(Taura syndrome virus,TSV)的完整基因組進(jìn)行生物信息學(xué)分析。[方法]通過(guò)生物信息學(xué)方法對(duì)基因序列組成、開放閱讀框、蛋白質(zhì)理化性質(zhì)、二級(jí)結(jié)構(gòu)預(yù)測(cè)分析、蛋白跨膜結(jié)構(gòu)的存在與否、蛋白信號(hào)肽存在與否以及蛋白質(zhì)三級(jí)結(jié)構(gòu)進(jìn)行了預(yù)測(cè)分析。[結(jié)果]登錄NCBI網(wǎng)站下載TSV(JX094350.1)10 128 bp的基因片段,經(jīng)生物信息學(xué)分析,編碼氨基酸3 286個(gè),理論等電點(diǎn)(pI)為 5.14,相對(duì)分子質(zhì)量為366 443.00 Da,不穩(wěn)定系數(shù)(Ⅱ)為37.76,屬于穩(wěn)定蛋白質(zhì);完整基因序列中包含2個(gè)開放閱讀框(open reading frame,ORF);蛋白中存在跨膜結(jié)構(gòu);沒(méi)有蛋白信號(hào)肽。[結(jié)論]對(duì)TSV的生物信息學(xué)分析有助于在分子水平上了解桃拉病毒的基因結(jié)構(gòu)以及預(yù)測(cè)其感染機(jī)制,可為預(yù)防和治療蝦類的桃拉綜合征提供有用的信息。
關(guān)鍵詞 桃拉病毒;基因;蛋白質(zhì);生物信息學(xué)分析
中圖分類號(hào)S945.4文獻(xiàn)標(biāo)識(shí)碼A
文章編號(hào)0517-6611(2019)08-0119-04
doi:10.3969/j.issn.0517-6611.2019.08.030
Abstract[Objective]To make bioinformatics analysis on Taura syndrome virus (TSV) gene in swine.[Method]The complete genes of TSV were analyzed by bioinformatics software,including its gene sequence analysis,open reading frame prediction(ORF) prediction,physicochemical properties of protein,secondary structure prediction,protein transmembrane and signal peptides prediction,and as well as protein tertiary structure prediction.[Result]The TSV gene (JX094350.1) with a length of 10 128 bp was successfully obtained from NCBI gene bank.The bioinformatics analysis showed that TSV gene was a total of 3 286 amino acids,a theoretical isoelectric point (pI) of 5.14,a theoretical molecular mass of 366 443 Da,and an instability coefficient (Ⅱ) 37.76,being a stable protein.The complete gene sequence contained two open reading frames (ORFs).There was a transmembrane structure in the protein,and there was not included protein signal peptide.[Conclusion]The bioinformatics analysis of TSV is helpful for understanding Taura syndrome virus on molecular level and the prediction of infection mechanism.It will provide useful informations for the prevention and treatment of Taura syndrome.
Key wordsTaura syndrome virus;Gene;Protein;Bioinformatics analysis
1994年,Lightner等[1]在患有桃拉綜合征(taura syndrome,TS)的凡納濱對(duì)蝦(Litopenaeus vannamei)中發(fā)現(xiàn)了桃拉病毒(Taura syndrome virus,TSV),之后被Hasson等[2]證實(shí)并命名。TSV是一種直徑為31~32 nm的非包覆二十面體顆粒,是單鏈正鏈RNA,屬于小RNA病毒粒子家族[3]。TSV能夠感染許多對(duì)蝦種類,自然宿主如凡納濱對(duì)蝦和中國(guó)對(duì)蝦(Penaeus chinensis)[4]。不同對(duì)蝦品種對(duì)TSV的敏感度不同,其中凡納濱對(duì)蝦敏感度較高,野生型凡納濱對(duì)蝦仔蝦對(duì)TSV的抵抗力比人工孵化仔蝦的更高[5]。TSV大多數(shù)情況下傾向危害體重較輕的幼蝦,幼蝦的累積死亡率高達(dá)40%~90%[6]。TSV感染共3個(gè)階段,分別為急性期、過(guò)渡期和慢性期。在急性期,蝦表皮上皮組織切片中可以看到典型的病理?yè)p傷,而在過(guò)渡期和慢性期則無(wú)。多數(shù)病蝦屬于急性期感染,急性期感染的大多數(shù)病蝦胡須和尾巴的體表變紅,且尾扇邊緣會(huì)變成茶紅色,外殼比較柔軟;基本不進(jìn)食,極少數(shù)可能會(huì)少量進(jìn)食;常在水面緩慢游動(dòng)。個(gè)別幸存病蝦將進(jìn)入到過(guò)渡期,過(guò)渡期僅有數(shù)天,但半數(shù)左右的病蝦會(huì)于甲殼上留下不規(guī)則的黑斑[7]。隨后進(jìn)入長(zhǎng)時(shí)間的慢性期,處于慢性期的病蝦成為病毒攜帶者,可將病毒水平傳播給其他易感蝦群。我國(guó)的多數(shù)對(duì)蝦養(yǎng)殖區(qū)由于養(yǎng)殖規(guī)模的不斷擴(kuò)大,已經(jīng)出現(xiàn)了嚴(yán)重的桃拉綜合征發(fā)病現(xiàn)象,因此了解TSV分子生物學(xué)信息對(duì)于防治此病可以提供信息幫助,而生物信息學(xué)相關(guān)分析可以滿足這一現(xiàn)實(shí)需求。
生物信息學(xué)是繼人類基因組計(jì)劃之后的一門新興學(xué)科,其將數(shù)學(xué)、計(jì)算機(jī)和生物學(xué)相關(guān)內(nèi)容聯(lián)合起來(lái)處理生物信息,對(duì)信息進(jìn)行獲取、加工、存儲(chǔ)、分配、分析和解釋。生物信息學(xué)主要研究?jī)?nèi)容包括核酸序列、蛋白質(zhì)序列以及從其中獲得的一些數(shù)據(jù)。生物學(xué)研究正在由傳統(tǒng)實(shí)驗(yàn)觀察階段擴(kuò)展到推理演算階段,目前已有很多關(guān)于核酸和蛋白質(zhì)的生物學(xué)數(shù)據(jù)庫(kù)存在[8]。筆者基于生物信息學(xué)的方法,通過(guò)相關(guān)軟件對(duì)TSV進(jìn)行了生物信息學(xué)分析,旨在解析該病毒在分子生物學(xué)方面的一些信息,為研究預(yù)防和治療桃拉綜合征提供信息幫助。
1材料與方法
1.1材料
1.1.1序列信息。
在NCBI(national center for biotechnology information,https://www.ncbi.nlm.nih.gov/)中的Nucleotide選項(xiàng)內(nèi)可以查出TSV完整基因序列。
1.1.2分析軟件。TSV生物信息學(xué)分析軟件見表1。
1.2方法
1.2.1TSV基因序列信息。
NCBI中收錄了世界各國(guó)科學(xué)家提交的基因序列、大多數(shù)期刊論文所研究過(guò)的基因序列以及各專利中公布的基因序列,因此它的集成化程度是現(xiàn)有生物學(xué)數(shù)據(jù)庫(kù)中最高的。各國(guó)家科學(xué)家提交注冊(cè)的基因序列、各種期刊論文報(bào)道的基因序列和各種專利中公開的基因序列均被收錄在NCBI中,并每24 h更新數(shù)據(jù)庫(kù)內(nèi)容[9]。
利用NCBI在線網(wǎng)站中的Nucleotide數(shù)據(jù)庫(kù),對(duì)TSV進(jìn)行搜索,得到完整的基因序列。
1.2.2TSV基因序列的組成分析。BioXM本地軟件的編制和運(yùn)行對(duì)于計(jì)算機(jī)軟硬件所處的環(huán)境要求不高,基本W(wǎng)indows系統(tǒng)均可以運(yùn)行,進(jìn)行基因序列組成分析時(shí)采取的算法是通讀全部序列[10],因此可直接將序列放入分析框。
利用BioXM本地軟件,對(duì)所得到的完整基因序列進(jìn)行組成成分分析。
1.2.3TSV開放閱讀框架分析。ORF是可編碼蛋白質(zhì)的一段堿基序列,其代表蛋白結(jié)構(gòu)數(shù)目[11]。ORF Finder是生物信息服務(wù)平臺(tái)中的一種,可在數(shù)據(jù)庫(kù)中尋找編碼框,查詢可能存在的蛋白質(zhì)編碼區(qū)域[7]。
利用ORF Finder在線軟件,對(duì)TSV完整基因序列的ORF出現(xiàn)位置進(jìn)行檢索,需滿足以下條件:最小ORF長(zhǎng)度(NT)為600,遺傳密碼使用起始密碼子 “ATG”,忽略嵌套ORFs。
1.2.4TSV蛋白質(zhì)理化性質(zhì)分析。蛋白質(zhì)一級(jí)結(jié)構(gòu)指多肽鏈內(nèi)氨基酸殘基由N末端到C末端的順序排列,也稱之為基本結(jié)構(gòu)。根據(jù)ORF Finder確定的TSV蛋白質(zhì)一級(jí)結(jié)構(gòu)預(yù)測(cè)分析,進(jìn)行理化性質(zhì)分析。
將獲取的ORF結(jié)果和Translate Tool軟件得到氨基酸序列通過(guò)ProtParam在線軟件(http://au.Expasy.org/)進(jìn)行理化性質(zhì)分析,主要包括蛋白質(zhì)理論分子量、氨基酸組成、理論等電點(diǎn)、理論不穩(wěn)定系數(shù)以及疏水性等參數(shù)[12]。
1.2.5TSV蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)與分析。
多肽主鏈在空間中盤繞、折疊可構(gòu)成一種立體結(jié)構(gòu)形態(tài),將其稱之為蛋白質(zhì)二級(jí)結(jié)構(gòu)。此結(jié)構(gòu)包括無(wú)規(guī)卷曲、β轉(zhuǎn)角、延伸鏈和α螺旋等,它不僅是一級(jí)結(jié)構(gòu)與三級(jí)結(jié)構(gòu)之間的連接,而且是預(yù)測(cè)三維空間結(jié)構(gòu)的重要環(huán)節(jié)。通過(guò)SOPMA在線軟件,采用5種方法(Levin同源預(yù)測(cè)方法、CNRS方法、GOR方法、PHD方法和雙重預(yù)測(cè)方法)對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)進(jìn)行分析和預(yù)測(cè),將預(yù)測(cè)結(jié)果匯集整理 [13-14]。
1.2.6TSV蛋白質(zhì)序列的跨膜結(jié)構(gòu)。
膜蛋白擁有獨(dú)特的結(jié)構(gòu),并擔(dān)負(fù)著許多細(xì)胞生物功能,如細(xì)胞之間信號(hào)傳導(dǎo),物質(zhì)運(yùn)輸以及免疫等[15]。因此,預(yù)測(cè)蛋白質(zhì)跨膜結(jié)構(gòu)是否存在十分重要。利用TMHMM在線軟件(http://www.cbs.dtu.dk/services/TMHMM/)對(duì)TSV基因編碼的蛋白質(zhì)是否存在跨膜結(jié)構(gòu)進(jìn)行預(yù)測(cè)[16]。
1.2.7TSV蛋白信號(hào)肽分析。
信號(hào)肽由氨基酸組成,通常處于分泌蛋白的N端。它負(fù)責(zé)把蛋白質(zhì)引導(dǎo)至細(xì)胞含不同膜結(jié)構(gòu)的亞細(xì)胞器內(nèi),作用不可替代,可以用來(lái)分析蛋白質(zhì)的細(xì)胞定位[17]。通過(guò)Signal P-4.1 Server隱馬爾可夫模型(HMM)算法在線對(duì)TSV基因編碼的蛋白質(zhì)中是否存在信號(hào)肽進(jìn)行分析預(yù)測(cè)[18]。
1.2.8TSV蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)與分析。
蛋白質(zhì)三級(jí)結(jié)構(gòu)是一種特定的立體構(gòu)象,其是多肽鏈利用側(cè)鏈基團(tuán)之間相互作用發(fā)生卷曲折疊,并依靠次級(jí)鍵維系而形成。同源建模法、折疊識(shí)別法(串線法)和從頭預(yù)測(cè)法是蛋白質(zhì)三維結(jié)構(gòu)普遍的預(yù)測(cè)方法,其中同源建模法是最常用的方法,可通過(guò)生物信息學(xué)軟件Expasy中的SWISS-MODEL軟件對(duì)TSV蛋白質(zhì)三級(jí)結(jié)構(gòu)的立體構(gòu)象進(jìn)行預(yù)測(cè)[19]。
2結(jié)果與分析
2.1TSV基因序列信息
利用NCBI網(wǎng)站獲得TSV基因序列,該基因序列號(hào)為JX094350.1,總長(zhǎng)度為10 128 bp,并將其以FASTA格式下載到本地文件夾內(nèi)。
2.2TSV基因序列的組成分析
BioXM軟件結(jié)果顯示,序列長(zhǎng)度為10 128 bp;腺嘌呤核苷酸(A)共2 869個(gè),占總核苷酸的28.33%;鳥嘌呤核苷酸(G)共2 311個(gè),占總數(shù)的22.82%;胞嘧啶核苷酸(C)共2 061個(gè),占總數(shù)的20.34%;尿嘧啶核苷酸(U)共2 887個(gè),占總數(shù)的28.51%;A+U的含量(56.84%)高于G+C的含量(43.16%);分子量為3 121 404 Da。
2.3TSV開放閱讀框架(ORF)分析ORF Finder軟件在線分析結(jié)果見圖1,在滿足最小ORF長(zhǎng)度(NT)為600、遺傳密碼使用起始密碼子 “ATG”并忽略嵌套ORFs條件下,TSV基因潛在的編碼框共2個(gè),其中ORF1由第6 878~9 913位之間的1 011個(gè)氨基酸組成,ORF2由第312~6 671位之間的2 119個(gè)氨基酸組成。
2.4TSV蛋白質(zhì)理化性質(zhì)分析
TSV基因共編碼3 286個(gè)氨基酸,將氨基酸序列導(dǎo)入分析軟件,結(jié)果見表2。由表2可知,疏水性氨基酸包括丙氨酸(A)、異亮氨酸(Ⅰ)、亮氨酸(L)、苯丙氨酸(F)、色氨酸(W)、纈氨酸(V)共1 077個(gè),占氨基酸總數(shù)的32.8%;極性氨基酸包括天冬酰胺(N)、半胱氨酸(C)、谷氨酰胺(Q)、絲氨酸(S)、蘇氨酸(T)、酪氨酸(Y)共1 006個(gè),占氨基酸總數(shù)的30.6%;強(qiáng)堿性氨基酸包括賴氨酸(K)和精氨酸(R)共305個(gè),占9.3%;強(qiáng)酸性氨基酸包括天冬氨酸(D)和谷氨酸(E)共430個(gè),占氨基酸總數(shù)的13.1%;稀有氨基酸中只含有吡咯賴氨酸(Pyl)2個(gè),占氨基酸總數(shù)的0.1%,不含有硒半胱氨酸(Sec)。同時(shí)可得知,理論等電點(diǎn)(pI)為5.14;相對(duì)分子質(zhì)量為366 443 Da;原子組成為C16157H25346N4360O5098S131;不穩(wěn)定系數(shù)(Ⅱ)為37.76,屬于穩(wěn)定蛋白類;脂肪系數(shù)為82.49;平均親水性為-0.284。
2.5TSV蛋白二級(jí)結(jié)構(gòu)預(yù)測(cè)與分析
通過(guò)SOPMA對(duì)TSV蛋白在線分析,結(jié)果見圖2。由圖2可知,其中α螺旋占37.70%,延伸鏈占18.43%,β轉(zhuǎn)角占7.54%,無(wú)規(guī)則卷曲占36.33%,以α螺旋和無(wú)規(guī)則卷曲結(jié)構(gòu)為主。
2.6TSV蛋白質(zhì)序列的跨膜結(jié)構(gòu)
通過(guò)跨膜結(jié)構(gòu)分析程序Expasy的HMHMM在線對(duì)TSV進(jìn)行跨膜結(jié)構(gòu)預(yù)測(cè)分析。結(jié)果如圖3所示:橫坐標(biāo)代表氨基酸順序位置,縱坐標(biāo)代表該區(qū)域是跨膜區(qū)的概率,大于0.5表示該區(qū)域具有跨膜螺旋的可能性大,小于0.5則可能性?。患t線和藍(lán)線分別代表膜外和膜內(nèi)區(qū)域,兩者交互位置表示出現(xiàn)跨膜[20]。由圖3可知,TSV基因編碼的蛋白質(zhì)存在跨膜區(qū)域。
2.7TSV蛋白信號(hào)肽
通過(guò)SignalP-4.1在線軟件對(duì)TSV基因編碼的蛋白信號(hào)肽存在與否進(jìn)行預(yù)測(cè),結(jié)果如圖4所示,Cscore代表剪切位點(diǎn)的值,此值與氨基酸一一對(duì)應(yīng),C值最高處通常是剪切位點(diǎn);Sscore代表每個(gè)氨基酸對(duì)應(yīng)一個(gè)值并連接成曲線表明變化趨勢(shì),值較高的區(qū)域可能為信號(hào)肽區(qū)域;Yscore同時(shí)考慮S值和C值,比單獨(dú)的C值或S值更準(zhǔn)確[21]。因?yàn)榈湫托盘?hào)肽的結(jié)果圖中Cscore和Yscore均向+1靠近,Sscore曲線則在切點(diǎn)前高,在切點(diǎn)之后變低[22],數(shù)據(jù)顯示TSV基因編碼的蛋白質(zhì)存在信號(hào)肽的可能性為0.112,因此預(yù)測(cè)不存在信號(hào)肽。
3結(jié)論
在NCBI中現(xiàn)有的TSV基因中總長(zhǎng)雖有所不同,但均表明TSV基因有2個(gè)ORF,與該研究的結(jié)果一致。目前對(duì)于桃拉病毒的研究主要集中在TSV的分離、鑒定和檢測(cè)等方
面[23],沒(méi)有針對(duì)其全基因組在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的研究。通過(guò)對(duì)TSV基因(JX094350.1)生物信息學(xué)分析,得到了在分子水平上TSV基因組更多的信息,為進(jìn)一步研究提供了便利和經(jīng)驗(yàn),同時(shí)也為預(yù)防和治療桃拉綜合征提供重要信息。
參考文獻(xiàn)
[1]LIGHTNER D V,REDMAN R M,HASSON K W,et al.Taura syndrome in Penaeus vannamei(Crustacea:Decapoda):Gross signs,histopathology and ultrastructure[J].Diseases of aquatic organisms,1995,21(1):53-59.
[2] HASSON K W,LIGHTNER D V,POULOS B T,et al.Taura syndrome in Penaeus vannamei:Demonstration of a viral etilolgy[J].Diseases of aquatic organisms,1995,23(2):115-126.
[3] 戰(zhàn)文斌.水產(chǎn)動(dòng)物病害學(xué)[M].北京:中國(guó)農(nóng)業(yè)出版社,2011:239-240.
[4] LIGHTNER D V,REDMAN R M.Stategies for the control of viral disease of shrimp in the Americas[J].Fish Pathol,1998,33(4):165-180.
[5] 劉棠.凡納濱對(duì)蝦桃拉綜合征病毒主要結(jié)構(gòu)蛋白基因的克隆及原核表達(dá)[D].廈門:廈門大學(xué),2008.
[6] BONAMI J R,HASSON K W,MARI J,et al.Taura syndrome of marine penaeid shrimp:Characterization of the viral agent[J].Journal of general virology,1997,78(Pt 2):313-319.
[7] 陳顏峰.如何減輕南美白對(duì)蝦桃拉綜合征的危害[J].科學(xué)種養(yǎng),2012(7):50.
[8] 司源,郭亦琦,孔航輝.基于ORF Finder方法的植物ITS片段結(jié)構(gòu)特點(diǎn)分析[J].華北農(nóng)學(xué)報(bào),2005,20(5):54-56.
[9] 張見影,倫志軍,李正紅.NCBI基因序列數(shù)據(jù)庫(kù)使用和檢索方法[J].現(xiàn)代情報(bào),2003(12): 224-225.
[10] 黃驥,張紅生.基于Windows的核酸序列分析軟件的開發(fā)[J].生物信息學(xué),2004,2(1):13-17.
[11] ARNOLD K,BORDOLI L,KOPP J,et al.The SWISSMODEL workspace: A web-based environment for protein structure homology modelling[J].Bioinformatics,2006,22(2):195-201.
[12] 鐘靜,吳小明,胡穎.大豆FLAs蛋白理化性質(zhì)和結(jié)構(gòu)特征的生物信息學(xué)分析[J].河南農(nóng)業(yè)科學(xué),2017,46(3):34-40.
[13] 劉祥.綠膿桿菌外膜蛋白OprF的生物信息學(xué)分析[J].生物技術(shù),2015,25(4): 343-348.
[14] BAXEVANIS A D,F(xiàn)RANCIS OUELLETTE B F.Bioinformatics:A practical guide to the analysis of genes and proteins[M].New York:Wiley Interscience,2001.
[15] 裔東亮.蛋白質(zhì)跨膜結(jié)構(gòu)與二硫鍵連接模式研究[D].上海:上海交通大學(xué),2009.
[16] 姚清國(guó).運(yùn)用TMHMM軟件對(duì)水稻水通道蛋白OsPIP2:6跨膜結(jié)構(gòu)的分析[J].河南農(nóng)業(yè),2017(29):59.
[17] GARDY J L,SPENCER C,WANG K,et al.PSORTB:Improving protein subcellular localization prediction for Gramnegative bacteria[J].Nucleic acids research,2003,31(13):3613-3617.
[18] KARPLUS K,KARCHIN R,BARRETT C,et al.What is the value added by human intervention in protein structure prediction?[J].Proteins: Structure,function,and bioinformatics,2001,45(S5):86-91.
[19] 張德峰,付玉榮,伊正君.結(jié)核分枝桿菌CarD蛋白結(jié)構(gòu)與功能的生物信息學(xué)分析[J].中國(guó)病原生物學(xué)雜志,2017(7):605-608.
[20] ZHANG M Q.Large-scale gene expression data analysis:A new challenge to computational biologists[J]. Genome research,1999,9(8):681-688.
[21] 陳尤鶯.分類算法在生物信息學(xué)中的應(yīng)用[D].福州:福建師范大學(xué),2013.
[22] 劉洪超,胡澍,涂心明.果蠅Tap蛋白結(jié)構(gòu)與功能的生物信息學(xué)分析[J].重慶醫(yī)學(xué),2015,44(17):2311-2314.
[23] 黎銘,陳曉漢.對(duì)蝦桃拉綜合征病毒(TSV)的分子生物學(xué)研究進(jìn)展[J].廣西農(nóng)業(yè)科學(xué),2008,39(6):834-837.