賈立君,李鳳霞,馬匯泉
(1.黑龍江省農(nóng)業(yè)科學院佳木斯分院 佳木斯;2.山東理工大學生命科學學院)
近年來,人們陸續(xù)通過宏基因組技術,篩選到新的生物素合成操縱子、脂(酯)酶、瓊脂糖酶、甘油脫水酶、蛋白酶和抗菌化合物及合成酶基因簇等[1-2]。劉舒等人通過構建番茄灰霉病病株根際土壤宏基因組文庫,通過功能篩選法成功篩選到5 個(4#、9#、11#、15#、17#)對灰葡萄孢菌具有拮抗性的克隆子,其中9#克隆子的拮抗性最強,并對其進行測序,這為番茄灰霉病的生物防治提供了一條新的研究思路。
生物信息學分析是目前推測基因或蛋白質(zhì)功能的一個非常有利的手段[3],應用生物信息學對基因結構或功能進行預測,再加以實驗驗證,可以大大提高實驗的準確度和精確度。基于番茄灰霉病病株根際土壤宏基因文庫中的9#克隆子的測序結果,對其進行生物信息學分析,為進一步研究該基因對灰葡萄孢菌的拮抗機理提供一定的理論基礎。
GGAGAACGCGGTGGCGGCCGCTCTAGACTAGT GGATCCCCCGGGCTGCAGGGTTTTGGAAAGTATATT CTCCTCTGTAATTTCAACAATTATGTGGAGCTGTTTG CAGGATGGCACAAGGTGAAGGTGATCGGAGAGGAC CGCCCCATGCAATGTGCCACGGCGGAAGGGATCAC CATTATCAATTTCGGCATGGGCAGTGCCAGCGCGGCCACCATCATGGACCTGCTCAGCGCCATCAAACCCAA GGCTGTCTTGTTTTTGGGAAAGTGCGGGGGCATCAA ACGGAAGAATAAGCTGGGGGACCTGATCCTCCCCA TTGCAGCCATCCGGGGAGAAGGCGCCTCGGACGAT TATTTCCC1GCCCGAGGTGCCGGCATTACCGGCCTTC GCGCTGCAAAAAGCCACTTCCACGGCCATTCGTGAT AACAACCGTGATTATTGGACCGGGACCTGCTACAGC ACTAACAGGCGTGTCTGGGAGCATGACGGTGAGTTC AAAAAATACCTTAATAAAATACGCGCGATGGCAGT GGACATGGAAACCGCCACGATCTTCACGGTGGGAT TTTACAACCACATCCCCACCGGCGCTCTCCTGCTGG TATCCGACCGGCCCATGATCGCCGAGGGCGTCAAG ACCGAGAATAGCGATAAAGGCATCACGGCTAACTA TGTGGAGCTTCACCTTAAGATTGGCATTGATTCACTG AAACATCTGATCAATAAAGGGTTGACGGTAAAGCA CCTCATATTCTGAATCTCCCGGAATAAGCCGAGGGT GATCAGCTTTCAACAGACCCTGCCTGATGAAGGGAC TTTAGAAACTTGCTTTAAACTGAACGTTTTACAACA AAAAAACAAGTATGCAACAGGTAGAACATATTGCG ATCGCCGTCAAATCCCTCGAACAAGGCCATTCAGCT TTATGAACGCTTGCTGAACAGAAAGTGCTATAAGAC GGAGCAGGTGAAATCCGACACGGTGAATACCGCTT GTTTTGAAGACGAGGAACACCCGTGATAAATTGAC TGT。
DNA 序列及編碼蛋白序列在NCBI 中進行blastn 和blastp 同源性比對,運用ORFfinder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)尋找序列的最大開放閱讀框,用DNAMAN 翻譯序列的最大開放閱讀框,用EMBL-EBILK 中心開發(fā)的在線工具CpGPlot(http://www.ebi.ac.uk/emboss/cpgplot/index.html)預測該序列的CpG 島,用Neural Network Promoter Prediction 工 具(http://www.fruitfly.org/seq_tools/promoter.html) 預測該序列的啟動子區(qū)域,用POLYAH(http://www.softberry.com/berry.phtml?topic=polyah&group=programs& subgroup=promoter)預測該序列的轉錄終止信號,用工具CodonW(http://bioweb.pasteur.fr/seqanal/interfaces/codonw.html)計算編碼區(qū)密碼子的偏好性,用Expasy 提供的ProtParam、ProtScale、COIL 等工具(http://expasy.org/tools/)分別預測蛋白序列的基本理化性質(zhì)、親疏水性、卷曲螺旋區(qū) 域, 用 TMHMM(http://www.cbs.dtu.dk/services/TMHMM -2.0/) 預 測 蛋 白 的 跨 膜 區(qū) 域,用PredictProtein(http://www.predictprotein.org/)預測蛋白的二級結構,用InterProScan(http://www.ebi.ac.uk/InterProScan/)預測蛋白的結構域,用Expasy 提供的SWISS-MODEL 和SWISS-PdbViewer 工具預測和觀察蛋白的三級結構。
2.1.1 同源性
將該序列在Genebank 進行blastn 同源性搜索,發(fā)現(xiàn)該基因序列與面包蟲編碼黑色素抑制蛋白的MIP mRNA 以及編碼Tm-肽聚糖蛋白-SA 前體的Tm-PGRP-SA mRNA 最高相似度可達100%,但是其覆蓋率很低,只有4%(表1)。因此,需要進一步分析其編碼的蛋白質(zhì)研究其結構與功能。
表1 Genebank 中的blastn 檢索結果Table 1 The search results of blastn in Genebank
2.1.2 最大開放閱讀框
該基因147~758 bp 有一個最大開放閱讀框(ORF),612 bp,翻譯結果是:MQCATAEGITIINFGMG SASAATIMDLLSAIKPKAVLFLGKCGGIKRKNKLGDL ILPIAAIRGEGASDDYFPPEVPALPAFALQKATSTAIR DNNRDYWTGTCYSTNRRVWEHDGEFKKYLNKIRA MAVDMETATIFTVGFYNHIPTGALLLVSDRPMIAEG VKTENSDKGITANYVELHLKIGIDSLKHLINKGLTVK HLIF。
2.1.3 轉錄調(diào)控序列
CpG 島預測結果顯示,在468~670 bp 處有一個203 bp 的CpG 島,序列各個位置G+C 含量觀察值/期望值(Obs/Exp)比率=0.6,(G+C)%>50%,CpG 島通常出現(xiàn)在基因的啟動子和起始外顯子附近,因此推測在該CpG 島附近可能存在該基因的啟動子和起始外顯子。
啟動子區(qū)域預測結果顯示,在502~552 bp 和942~992 bp 區(qū)域有2 個啟動子,但是第二個啟動子位于轉錄終止信號的下游方向,所以502~552 bp 處的啟動子區(qū)域才是可能的啟動子區(qū)域。
轉錄終止信號預測結果顯示,在510 bp 和723 bp 處有2 個可能的polyA 位點,因為序列本身存在重復序列,推測510 bp 處的polyA 位點為假陽性。
2.1.4 編碼區(qū)密碼子的偏好性
編碼區(qū)密碼子的偏好性計算結果表明,該基因編碼區(qū)有效密碼子數(shù)目Nc 值50.49,說明該基因編碼區(qū)不存在特別明顯的密碼子偏好性。采用CUPS、CondonW 程序及密碼子數(shù)據(jù)庫對編碼區(qū)密碼子統(tǒng)計分 析,ACG、AGC、TTG、TTT、GGG、ATC、AAA、CGG、GAT、TAT、TTC 和CCG 這12 個密碼子為該基因使用頻繁的密碼子。通過不同物種或基因間密碼子使用頻率比對,可擇優(yōu)選擇表達系統(tǒng)或改變密碼子,從而提高外源基因的表達。但外源基因的表達受到多種因素的共同作用,密碼子使用的影響只是其中之一。
2.2.1 編碼蛋白的基本理化性質(zhì)
該蛋白的理論分子量為22.186 7 KDa,G+C 含量51.4%,編碼203 個氨基酸,等電點為8.91,含堿性氨基酸(H,K,R)29 個,酸性氨基酸(D,E)20 個,疏水氨基酸(A,F(xiàn),I,L,M,P,V,W,Y)98 個,極性氨基酸(S,T,N,Q,Y,C,D,E,H,K,R)94 個,正電荷殘基(Asp+Glu)總數(shù)為22,負電荷殘基(Arg+Lys)總數(shù)為18,分子式為C1816H2722N424O480S26,不穩(wěn)定系數(shù)為18.95(小于40),歸為穩(wěn)定蛋白,脂肪系數(shù)為96.21,總平均疏水性為0.006,表明其為疏水性脂溶蛋白。
2.2.2 編碼蛋白的同源性
將蛋白序列在NCBI 中進行blastp 比對,發(fā)現(xiàn)該蛋白與黃桿菌菌株DSM2366 和鞘脂桿菌株21 的AMP 核苷酶序列的同源性較高(表2),與通過Swiss-Prot 同源搜索的結果一致,推測該編碼蛋白可能是一種新型的AMP 核苷酶。
表2 NCBI 中的blastp 檢索結果Table 2 The search results of blastp at NCBI
2.2.3 編碼蛋白的親疏水性
編碼蛋白親疏水性計算結果顯示,在13、27、39、57、79、137、149 氨基酸位點附近屬高疏水性區(qū)域,在44~50、91~100、104~122、164~171 氨基酸區(qū)域屬高親水性區(qū)域(圖1)。蛋白質(zhì)折疊時會形成疏水內(nèi)核和親水表面,同時在潛在的跨膜區(qū)會出現(xiàn)高疏水值區(qū)域,因此推測在預測的7 個高疏水性區(qū)域可能存在跨膜區(qū)。
2.2.4 編碼蛋白的跨膜區(qū)
編碼蛋白跨膜區(qū)的預測結果顯示,1~8 氨基酸位于膜外,跨膜區(qū)位于9~31 氨基酸區(qū)域,32~203 氨基酸位于膜內(nèi)(圖2),結合該蛋白的親疏水性分析,跨膜區(qū)屬于疏水性區(qū)域,預測的編碼蛋白的二級結構顯示,該跨膜區(qū)富含螺旋結構。
圖1 編碼蛋白親疏水性分布圖Fig.1 Hydropathy profile of coding protein
圖2 編碼蛋白跨膜區(qū)預測Fig.2 Prediction of coding protein transmembrane region
圖3 編碼蛋白卷曲螺旋區(qū)預測Fig.3 Prediction of coding protein coiled-coil region
2.2.5 編碼蛋白的卷曲螺旋區(qū)
編碼蛋白卷曲螺旋區(qū)的預測結果顯示,在111~134 氨基酸區(qū)域內(nèi)存在一個卷曲螺旋(圖3),卷曲螺旋結構存在于許多天然蛋白質(zhì)中,如轉錄因子、膜蛋白等,它們在基因調(diào)控、分子識別方面具有重要作用,結合對編碼蛋白的親疏水性分析,該卷曲螺旋區(qū)域與該蛋白的一個高親水性區(qū)域重疊,因此推測該基因可能在拮抗灰葡萄孢菌過程中識別病原菌產(chǎn)生的毒素方面起重要作用。
編碼蛋白的二級結構的預測結果表明,該蛋白含有38.92%的α 螺旋,17.73%的β 折疊,43.35%的環(huán)狀結構。結構域預測結果顯示,該蛋白在9~160 氨基酸區(qū)域存在AMP 磷酸化酶結構域,屬于PNPUDP-1 超家族(圖4)。模體搜索發(fā)現(xiàn)該蛋白含有5個蛋白激酶C 磷酸化位點(106~108、154~156、168~170、187~189、197~199),1 個酪蛋白激酶II 磷酸化位點(23~25),3 個N-豆蔻酰化位點(15~17、101~103、171~173),這些位點均與細胞內(nèi)信號傳導、蛋白定位以及黏附等過程有關,推測該基因可能在拮抗灰葡萄孢菌過程的信號轉導中發(fā)揮重要作用。
圖4 編碼蛋白結構域預測Fig.4 Prediction of coding protein domain
采用同源建模法預測編碼蛋白的三級結構(圖5),編碼蛋白和1ybf 蛋白的A 鏈具有較高的相似度(65%),通過Anolea/Gromos/Verify3D 3 個評估程序檢測模型的健康度顯示預測的蛋白模型能量較低,健康度較高。
圖5 編碼蛋白三級結構預測Fig.5 Predicton of coding protein tertiary structure
通過SWISS-PdbViewer 觀察編碼蛋白的三維模型(圖6),結果顯示有194 個氨基酸殘基(97.54%)的二面角落在允許的范圍內(nèi),175 個氨基酸殘基(86.21%)的二面角落在最允許的范圍內(nèi),只有9 個氨基酸殘基(4.43%)的二面角落在不允許的范圍,結果表明編碼蛋白的三維模型的二面角分布和立體構象均較為合理,符合立體化學φ、ψ 二面角分布的要求,其空間結構穩(wěn)定[4]。
圖6 編碼蛋白三維模型觀察Fig.6 Observation of coding protein tertiary structure
對基因序列進行分析發(fā)現(xiàn),該基因編碼的蛋白質(zhì)僅與AMP 核苷酶(Accession No.YP_004318143.1 at NCBI)具有80%的同源性,推測其可能是一種新型的AMP 核苷酶。該基因可能編碼含有203 個氨基酸的小分子量、疏水性脂溶的穩(wěn)定蛋白質(zhì)。編碼蛋白的序列中含有5 個蛋白激酶C(PKC)磷酸化位點,1 個酪蛋白激酶II 磷酸化位點,3 個N-豆蔻?;稽c。蛋白質(zhì)磷酸化是調(diào)控蛋白質(zhì)功能和定位的主要的翻譯后修飾,蛋白質(zhì)的磷酸化狀態(tài)對信號傳導途徑是非常重要的,磷酸化能阻止某些激酶和激活磷酸酶,從而改變正常的轉錄方向。
PKC 是一個磷脂依賴的遍在蛋白,大量研究表明,PKC 在與細胞增殖、分化和細胞程序性死亡關聯(lián)的信號傳導中發(fā)揮重要作用[5]。酪蛋白激酶Ⅱ磷酸化位點和N-豆蔻?;稽c也均與細胞內(nèi)信號傳導、蛋白定位以及黏附等過程有關。據(jù)此推測,該基因編碼的蛋白可能在拮抗灰葡萄孢菌過程的細胞黏附、信號傳導中發(fā)揮重要作用。它可能是細胞內(nèi)與分子識別有關的某個蛋白或其亞單位,卷曲螺旋結構有助于它對灰葡萄孢菌毒素分子進行識別。
灰葡萄孢菌產(chǎn)生的毒素在植物致病過程中是重要的致病因子,它能直接與寄主的DNA 結合,終止DNA 的合成,或者直接吸附于寄主的核糖體上,抑制蛋白質(zhì)的合成,由此推測AMP 核苷酶表面可能具有毒素可以識別并結合的特異性位點,而且這種識別與結合程度在不同的生物體內(nèi)是不同的。
灰葡萄孢菌毒素的主要成分是botrydial 和dlihvdrobotrydial,基本骨架是雙環(huán)狀的、非類異戊二烯倍半萜烯類化合物,AMP 核苷酶存在于許多種生物體內(nèi),能夠催化水解核苷或核苷酸衍生物中N-糖苷鍵,由此推測灰葡萄孢菌毒素物質(zhì)的結構中可能含有N-糖苷鍵。
AMP 核苷酶可能通過信號傳導、分子識別、特異性結合、或者水解毒素N-糖苷鍵而在拮抗灰葡萄孢菌的過程中發(fā)揮極其重要的作用,對于該基因的生物學功能還需要進一步通過實驗進行驗證,為研究灰葡萄孢菌的拮抗機理提供理論基礎。
[1]SF Brady and J Clardy.N-acyl derivatives of arginine and tryptophan isolated from environmental DNA expressed in Escherichia coli[J].Organic Letter,2005(7): 3613-3616.
[2]T Waschkowitz,S Rockstroh ,and R Daniel.Isolation and characterizeation of metalloproteases with a novel domain structure by construction and screening of metagenomic libraries [J].Applied and Environmental Microbiology,2009(75),2506-2516.
[3]于永忠,郭雯,吳欣媛,等.靶向ORFV-DNA ploymerase基因shRNA 表達載體的構建[J].黑龍江八一農(nóng)墾大學學報,2012,24(4):38-41.
[4]L Huang,J S Cao,Y C Zhang,et al.Identify of a new cabbage pollen development -related gene BcMF7[J].Science China,2007(37): 479-487.
[5]Z Y Liu and X P Cai.Homologous modeling and analysis of Cysticercus celluosae dUTPase[J].Vet Sci Chin,2007(9): 742-745.
[6]S A Clement,C C Tan,J L Guo,et al.Roles of protein kinase C and alpha-tocopherol in regulation of signal transduction for GATA-4 phosphorylation in HL-1 cardiac muscle cells[J].Free Radic Biol Med,2002(32):1344-1350.