王 茹,羅永堅(jiān),劉相泉,盧新雄,尹廣鹍,鄧志軍,*
(1.生物資源保護(hù)與利用湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 恩施 445000;2.恩施州特色植物資源種質(zhì)工程技術(shù)研究中心,湖北 恩施 445000;3.湖北民族大學(xué) 林學(xué)園藝學(xué)院,湖北 恩施 445000;4.中國(guó)農(nóng)業(yè)科學(xué)院 作物科學(xué)研究所,北京 100081)
遺傳密碼是連接核酸和蛋白質(zhì)的紐帶,在生物體遺傳信息的傳遞中起著重要作用.共有64個(gè)密碼子,分別編碼20個(gè)氨基酸和3個(gè)終止信號(hào)[1].除甲硫氨酸和色氨酸僅由一個(gè)密碼子編碼外,其余氨基酸均有多個(gè)同義密碼子[2].在蛋白質(zhì)翻譯過(guò)程中,同義密碼子的使用概率并不相同,一個(gè)物種或者一個(gè)基因更傾向于使用一個(gè)或多個(gè)特定的同義密碼子,這種現(xiàn)象被稱為同義密碼子使用偏好性(synonymous codon usage bias,SCUB)[1].SCUB源自突變、自然選擇和遺傳漂變,并受到基因組組成、GC含量、基因長(zhǎng)度與表達(dá)水平、基因中密碼子的位置與背景、基因重組率、信使核糖核酸折疊、轉(zhuǎn)運(yùn)核糖核酸豐度等的影響,在原核與真核生物中普遍存在,通過(guò)RNA加工、蛋白質(zhì)翻譯和折疊等生化過(guò)程決定基因的表達(dá)和細(xì)胞功能[1].因此,SCUB研究不僅可以反映物種或基因的起源、突變模式和進(jìn)化,也能夠揭示生物之間的系統(tǒng)發(fā)育關(guān)系、水平基因轉(zhuǎn)移、基因分子進(jìn)化及鑒定驅(qū)動(dòng)進(jìn)化的選擇壓力,并能夠通過(guò)密碼子優(yōu)化促進(jìn)基因在轉(zhuǎn)化植物體中地表達(dá),進(jìn)而促進(jìn)轉(zhuǎn)基因作物地發(fā)展[1].
葉綠體是植物進(jìn)行光合作用的細(xì)胞器[3].葉綠體基因組小,拷貝數(shù)多,分子結(jié)構(gòu)穩(wěn)定,其功能日益受到廣泛關(guān)注[4].與核基因相比,葉綠體基因轉(zhuǎn)化具有外源基因表達(dá)效率高、定點(diǎn)整合無(wú)位置效應(yīng)、遺傳穩(wěn)定、不隨花粉漂移等優(yōu)點(diǎn),現(xiàn)已被廣泛用于分子進(jìn)化、系統(tǒng)發(fā)育和遺傳表達(dá)等研究領(lǐng)域[4].在葉綠體基因工程中,轉(zhuǎn)化基因高效表達(dá)的前提是對(duì)受體植物的葉綠體蛋白編碼基因特點(diǎn)進(jìn)行深入分析[5].隨著高通量測(cè)序技術(shù)的不斷進(jìn)步,葉綠體基因組SCUB研究越來(lái)越多,如巨桉(Eucalyptusgrandis)[6]、蓮花(Trolliuschinensis)[7]、稷(Panicummiliaceum)[8]、紫菜(Porphyraumbilicalis)[9]、刺榆(Hemipteleadavidii)[10]、桔梗(Delphiniumgrandiflorum)[11]、水稻(Oryzasativa)[12]和大戟科(Euphorbiaceae)植物[13]等.
水杉(Metasequoiaglyptostroboides)是杉科(Taxodiaceae)水杉屬唯一現(xiàn)存的孑遺種,也是我國(guó)一級(jí)保護(hù)的瀕危特有樹(shù)種[14].水杉樹(shù)姿優(yōu)美,生長(zhǎng)速度快,常用于園林綠化及荒山造林[15],也是造船、造紙、橋梁建筑和家具制造的優(yōu)質(zhì)板材,其所含的黃酮、二萜和酚類(lèi)天然產(chǎn)物還具有抗氧化、抗病毒、抗真菌等藥理作用[13,16].同時(shí),作為“活化石”植物,其對(duì)于史前生態(tài)和地理等研究也具有重要意義[15,17].除了這些應(yīng)用研究和古生物學(xué)研究外,其余大多數(shù)研究則聚焦其瀕危機(jī)制與物種保護(hù)方面[18-20].水杉的進(jìn)一步深入研究急需解析其基因組,然而目前雖已完成全基因組測(cè)序,但還未完成組裝.目前可用的水杉基因組相關(guān)信息主要來(lái)自其葉綠體基因組[2]和少量轉(zhuǎn)錄組學(xué)研究[20-21].對(duì)水杉葉綠體基因組的SCUB進(jìn)行系統(tǒng)研究,將促進(jìn)其系統(tǒng)發(fā)育研究、物種保護(hù)和種質(zhì)創(chuàng)新.
SCUB的度量指標(biāo)包括有效密碼子數(shù)(effective number of codon,ENC)、密碼子適應(yīng)指數(shù)(codon adaptation index,CAI)、同義密碼子相對(duì)使用度(relative synonymous codon usage,RSCU)和GC含量等[11,22].RSCU表示的是一個(gè)密碼子的實(shí)際使用頻率與它在無(wú)SCUB條件下期望的使用頻率之間的比值,計(jì)算公式為
其中xij表示編碼i個(gè)氨基酸的j密碼子的頻率,ni表示同義密碼子的和.當(dāng)RSCU=1時(shí),密碼子使用無(wú)偏好性,與其他同義密碼子被均等使用;RSCU >1,SCUB性強(qiáng),與其他同義密碼子相比使用頻率較高;RSCU<1,SCUB弱,與其他同義密碼子相比使用頻率較低[23].ENC用于分析密碼子使用與隨機(jī)選擇的偏差程度,而隨機(jī)選擇則描述了特定物種的基因或基因組中同義密碼子使用的不平衡程度.ENC取值在20和61之間,ENC越小,意味著SCUB越強(qiáng),反之,則意味著SCUB越弱[22].當(dāng)ENC≤35時(shí),即認(rèn)為具有顯著的SCUB[11].CAI的取值范圍在0和1之間,CAI越大,SCUB越強(qiáng),反之,SCUB則越弱[23].一般認(rèn)為,密碼子的GC含量越高,其SCUB越強(qiáng)[11].CAI的計(jì)算公式為
其中,L表示特定基因組中使用密碼子的頻率.該等式中的RSCUij是指第i個(gè)氨基酸密碼子的RSCU值,該等式中的RSCUimax是特定氨基酸最常用密碼子的RSCU值.CAI值越大,說(shuō)明密碼子使用偏好越強(qiáng)[8].
從NCBI GenBank數(shù)據(jù)庫(kù)下載水杉完整葉綠體基因組(登錄號(hào)為KR061358),序列全長(zhǎng)為131 887 bp,包含82個(gè)蛋白編碼基因.為了提高SCUB的準(zhǔn)確性,參照Duan等[11]的方法,剔除長(zhǎng)度小于300 bp的編碼序列,并選擇以起始密碼子為ATG,終止密碼子為T(mén)AA、TAG和TGA的編碼序列,最終篩選出57條編碼序列進(jìn)行后續(xù)分析.
參照Duan等[11]的方法,運(yùn)用在線軟件工具生信云(http://112.86.217.82:9919/#/tool/alltool/detail/214)分析從水杉葉綠體基因組中篩選出的57個(gè)基因密碼子第1、2、3位堿基的GC含量(GC1、GC2、GC3),及各基因的平均GC含量(GCall).使用CodonW 1.4.2軟件分析并計(jì)算ENC、CAI和RSCU.利用R軟件分析GCall、GC1、GC2、GC3、CAI和RSCU等各參數(shù)間的相關(guān)性.
采用中性圖(GC12vs.GC3)研究突變壓力和自然選擇對(duì)密碼子使用模式的影響程度.以GC12(GC1和GC2的均值)為縱坐標(biāo),GC3為橫坐標(biāo)繪制散點(diǎn)圖,圖中每一個(gè)點(diǎn)代表一個(gè)基因的位置,并對(duì)GC12和GC3進(jìn)行相關(guān)分析.用Perl腳本語(yǔ)言計(jì)算了水杉植物葉綠體基因組的GC12和GC3.曲線圖回歸的斜率為0,表明沒(méi)受定向突變壓力(完全受選擇約束)的影響.斜率為1表示密碼子使用偏向完全受定向突變壓力的影響[24].
PR2-plot偏倚分析用于探究突變和自然選擇對(duì)SCUB的影響,PR2-plot的中心點(diǎn)表示某一基因兩條互補(bǔ)鏈間不存在任何突變或選擇效應(yīng)偏倚,即A=T且G=C,從中心點(diǎn)向別的基因位點(diǎn)分布的矢量反映該基因的偏倚方向和水平.一般認(rèn)為,在單個(gè)突變壓力下,基因或基因組的簡(jiǎn)并密碼子中A/T和C/G的比例是平衡的[25].參照Duan等[11]的方法,分別計(jì)算密碼子第3位堿基上A、T、C、G的含量,以G3/(G3+C3)為橫坐標(biāo)、A3/(A3+T3)為縱坐標(biāo)進(jìn)行偏倚分析.
參照Yang等[9]方法,將篩選出的57個(gè)基因按照CAI值從高到低排序,分別選擇兩端10%基因數(shù)(共12個(gè))作為高表達(dá)庫(kù)(RSCUhigh)和低表達(dá)庫(kù)(RSCUlow).RSCU >1的密碼子為高頻密碼子,ΔRSCU(RSCUhigh-RSCUlow)>0.08的為高表達(dá)密碼子,ΔRSCU >0.08且RSCU >1的密碼子被判定為最優(yōu)密碼子[23].
篩選出的57個(gè)水杉葉綠體基因組蛋白編碼基因包括:15個(gè)核糖體基因(rpl2、rpl14、rpl16、rpl20、rpl22、rpl32、rps2、rps3、rps4、rps7、rps8、rps11、rps12、rps14、rps18),9個(gè)光合作用基因(petA、petB、petD、psaA、psaB、psbA、psbB、psbC、psbD),11個(gè)煙堿脫氫酶基因(ndhA、ndhB、ndhC、ndhD、ndhE、ndhF、ndhG、ndhH、ndhI、ndhJ、ndhK),6個(gè)ATP基因(accD、atpA、atpB、atpE、atpF、atpI)以及16個(gè)其他基因,如表1所示.GC的平均含量為37.44%,其中,GC1(59.38%)>GC2(38.43%)>GC3(26.79%),表明密碼子3個(gè)堿基的GC含量差異很大,密碼子偏好以A或T結(jié)尾.57個(gè)基因的ENC值在30.40~60.39之間,平均值為46.55;CAI平均值為0.61.ENC、CAI和密碼子GC含量均表明水杉葉綠體基因組SCUB較弱.
表1 水杉葉綠體基因組密碼子GC含量及CAI和ENC值Tab.1 GC proportion,CAI and ENC in chloroplast genomics of M.glyptostroboides
基因密碼子各參數(shù)之間的相關(guān)性分析如表2所示,結(jié)果表明,GCall含量與GC1、GC2、GC3、CAI含量均極顯著正相關(guān),GC1與GC2含量顯著正相關(guān),GC3與GC1、GC2含量的相關(guān)性均不顯著,說(shuō)明水杉葉綠體基因組中密碼子的第1位堿基與第2位堿基具有較大的相似性,但均與第3位堿基具有較大差異.CAI與GCall、GC3含量均極顯著正相關(guān),與GC2含量顯著正相關(guān),與GC1含量相關(guān)性不顯著,說(shuō)明最優(yōu)密碼子的相對(duì)表達(dá)量主要受GCall、GC2和GC3含量的影響.ENC與GC3含量極顯著正相關(guān),與GC2含量顯著正相關(guān),表明密碼子第2位和第3位堿基組成對(duì)SCUB影響較大.
表2 基因密碼子各參數(shù)之間的相關(guān)性分析Tab.2 Correlation analysis between the parameters of codon usage
RSCU分析如圖1所示,氨基酸的同義密碼子數(shù)具有較大差異.其中,亮氨酸(Leu)的同義密碼子數(shù)最多,有6個(gè),丙氨酸(Ala)等7個(gè)氨基酸具有4個(gè)同義密碼子,異亮氨酸(Ile)具有3個(gè)同義密碼子,天冬酰胺(Asn)等9個(gè)氨基酸具有2個(gè)同義密碼子,蛋氨酸(Met)和色氨酸(Trp)則僅有1個(gè)密碼子.RSCU >1的高頻密碼子共有31個(gè),其中16個(gè)以U結(jié)尾,13個(gè)以A結(jié)尾,1個(gè)以G結(jié)尾,U和A結(jié)尾的密碼子占96.67%,說(shuō)明水杉葉綠體基因組密碼子更傾向于使用以U或A結(jié)尾的同義密碼子.
圖1 水杉葉綠體基因組的RSCU 圖2 水杉葉綠體基因組中性繪圖(GC12/GC3)Fig. 1 RSCU analysis of chloroplast genome of M. gly ptostroboides Fig. 2 Neutrality plot (GC.2/GC3 ) analysis of chloroplast genome of M. gl y ptostroboides
中性繪圖分析結(jié)果如圖2所示,所有基因均位于圖中對(duì)角線上方,GC12含量(GC1和GC2含量的平均值)的取值范圍在34.3%~54.9%,GC3含量的取值范圍在17.3%~42.7%,GC12和GC3含量的關(guān)聯(lián)系數(shù)為0.000 1,在相關(guān)性上并不顯著,說(shuō)明水杉葉綠體基因組基因的密碼子3個(gè)位點(diǎn)在堿基組成上存在較大差異.根據(jù)Wright[24]的觀點(diǎn),表明水杉葉綠體基因組SCUB主要受自然選擇因素的影響.
ENC-plot分析結(jié)果如圖3所示,ENC的取值范圍為60.38~30.40,大部分基因偏離標(biāo)準(zhǔn)曲線,表明ENC觀測(cè)值與ENC期望值存在較大差異.按照Li[8]的觀點(diǎn),說(shuō)明水杉葉綠體基因組SCUB盡管在一定程度上受到突變的影響,但最主要的還是受自然選擇的影響.
圖3 水杉葉綠體基因組的ENC-plot繪圖 圖4 水杉葉綠體基因組PR2-plot繪圖Fig.3 ENC- plot of chloroplast genomes of M. gly ptostroboides Fig.4 Analysis of PR2- plot of chloroplast genomes of M. glyptostroboides
PR2-plot分析結(jié)果如圖4所示,39個(gè)基因分布在A3/(T3+A3)小于0.5的位置,而在下方區(qū)域中G3/(G3+C3)小于0.5的有17個(gè)(TG),大于0.5的有22個(gè)(TC),說(shuō)明57個(gè)基因位點(diǎn)非均勻分布于圖中4個(gè)區(qū)域,在右下方區(qū)域分布的基因位點(diǎn)較多.根據(jù)Wrigh[24]的觀點(diǎn),這意味著水杉葉綠體基因組SCUB主要受自然選擇因素的影響.
以RSCU>1為標(biāo)準(zhǔn)共篩選出31個(gè)高頻密碼子,如表3所示.以ΔRSCU>0.08為標(biāo)準(zhǔn)共篩選出24個(gè)高表達(dá)密碼子,其中,以A或T結(jié)尾的共有9個(gè),以C或G結(jié)尾的共有15個(gè).以RSCU>1且ΔRSCU>0.08為標(biāo)準(zhǔn)共篩選出10個(gè)最優(yōu)密碼子,分別為UUG、AUA、UCA、CCA、ACA、CAU、GAA、AGA、AGU和GGA.其中最佳密碼子以A結(jié)尾的7個(gè),以U結(jié)尾的2個(gè),以G結(jié)尾的1個(gè),密碼子更傾向于使用A/U結(jié)尾,這與前面RSCU分析的結(jié)果相吻合.
表3 水杉葉綠體基因組的最優(yōu)密碼子Tab.3 The optimal codons in chloroplast genome of M.glyptostroboides
基因表達(dá)水平、tRNA豐度、突變壓和GC組成等多種生物因素共同決定著SCUB[25].目前普遍認(rèn)為中性突變和選擇性約束是影響物種間和基因組內(nèi)密碼子使用變異的兩個(gè)最重要因素[25].如果自然選擇是SCUB的潛在原因,那么這種偏好性在高表達(dá)基因中要比在基因組的其他基因中更明顯[23].GC含量很可能是響應(yīng)基因組結(jié)構(gòu)進(jìn)化的最重要影響因素之一[26-27].由于密碼子第3位堿基受到的選擇壓力最小,因此通常以GC3作為評(píng)估SCUB的重要指標(biāo)[26-27].Kawabe和Miyashita[28]認(rèn)為,當(dāng)自然選擇對(duì)密碼子的使用起主要作用時(shí),GC3往往很小,且GC12和GC3之間無(wú)顯著相關(guān)性.密碼子核苷酸組成是高度保守的,密碼子的第3個(gè)核苷酸位置在雙子葉植物基因組中富含A/T,在單子葉植物基因組中富含G/C[29].在本研究中,水杉葉綠體基因組的GC3僅為26.79%(表1),表明密碼子第3位堿基偏向于以A或T結(jié)尾;而且GC12和GC3之間也無(wú)顯著相關(guān)性,且關(guān)聯(lián)系數(shù)接近于0(圖2),暗示著自然選擇很可能在水杉葉綠體基因組SCUB中起著主要作用.這與杉木(Cunninghamialanceolata)、臺(tái)灣肖楠(Calocedrusformosana)、日本柳杉(Cryptomeriajaponica)、臺(tái)灣杉(Taiwaniacryptomerioides)、銀杏(Ginkgobiloba)、蘇鐵(Cycasrevoluta)等6種裸子植物的研究結(jié)果相一致[30],也與大部分被子植物的研究結(jié)果相一致[10,13,22,31],因此,這應(yīng)該是自然界普遍的進(jìn)化規(guī)律之一.
在沒(méi)有突變壓力的情況下,密碼子3個(gè)堿基均不會(huì)發(fā)生變化,堿基含量相似[32].而在有突變壓的情況下,突變通常首先發(fā)生在密碼子的第3位堿基上[33].突變壓導(dǎo)致密碼子第3位堿基的A/T和G/C組成發(fā)生偏差,自然選擇通過(guò)最大化高表達(dá)基因中的蛋白質(zhì)生產(chǎn)效率導(dǎo)致密碼子偏差[33].RSCU分析結(jié)果表明,與大多數(shù)高等植物相類(lèi)似[34],水杉葉綠體基因組中也存在A或T使用偏向(圖1).此外,ENC-Plot(圖3)和PR2-Plot(圖4)分析結(jié)果也表明,水杉葉綠體基因組SCUB盡管也受到突變壓和堿基組成的影響,但最主要的影響因素還是自然選擇,這對(duì)于水杉這一“活化石”植物來(lái)說(shuō)或許具有更深層的進(jìn)化含義,值得進(jìn)一步研究.
葉綠體轉(zhuǎn)化已在很多高等植物中被應(yīng)用[35].SCUB通過(guò)調(diào)節(jié)基因翻譯的準(zhǔn)確性和效率來(lái)影響基因表達(dá),SCUB越強(qiáng),基因表達(dá)水平越高[36-38].在設(shè)計(jì)葉綠體基因表達(dá)載體時(shí),如果基于其SCUB對(duì)密碼子事先進(jìn)行優(yōu)化,可以提高葉綠體基因組中基因的表達(dá)水平,也可以利用已知密碼子的使用模式來(lái)預(yù)測(cè)未知基因的表達(dá)和功能[39].水杉葉綠體基因組高度保守,共篩選出31個(gè)高頻密碼子和24個(gè)高表達(dá)密碼子,并且其中10個(gè)密碼子既是高頻密碼子,又是高表達(dá)密碼子,被確定為最優(yōu)密碼子(表3).高頻密碼子、高表達(dá)密碼子和最優(yōu)密碼子的確定不僅有助于闡明水杉葉綠體基因組的SCUB,而且對(duì)于未來(lái)利用水杉葉綠體基因進(jìn)行種質(zhì)創(chuàng)新等研究也具有重要意義.
利用生物信息學(xué)方法分析水杉葉綠體基因組同義密碼子使用偏好性,確定水杉葉綠體基因組SCUB很可能主要受到自然選擇的影響.篩選出10個(gè)最優(yōu)密碼子,密碼子更傾向于使用A/T結(jié)尾,為在分子水平上研究水杉葉綠體基因組有關(guān)的編碼基因進(jìn)化及基因表達(dá)與選擇提供了重要信息,為開(kāi)展水杉物種進(jìn)化及種質(zhì)資源的研究提供參考.