李 清,羅永堅(jiān),葛 蓉,劉 軍
(廣東省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)生物基因研究中心/廣東省農(nóng)作物種質(zhì)資源保存與利用重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510640)
【研究意義】遺傳密碼是連接核酸和蛋白質(zhì)的紐帶,在生物體遺傳信息的傳遞中起重要作用,其中mRNA 共有64 個(gè)密碼子,編碼20 個(gè)氨基酸和3 個(gè)終止信號(hào),除Met 和Trp 僅由1 個(gè)密碼子編碼外,大多數(shù)氨基酸由多個(gè)同義密碼子編碼[1]。然而,蛋白質(zhì)合成過(guò)程中不同密碼子的使用概率并不相同。一個(gè)物種或者一個(gè)基因更傾向于使用一個(gè)或多個(gè)特定的同義密碼子,這被稱為同義密碼子使用偏好性(Synonymous Codon Usage Bias,SCUB)[2]。密碼子使用偏好性的特征在原核生物和真核生物中普遍存在。大量研究表明,密碼子使用偏好模式可能由于基因在基因組進(jìn)化過(guò)程中受到多種因素影響引起,包括自然選擇、組成突變模式、翻譯選擇、基因長(zhǎng)度、tRNA 豐度和mRNA 二級(jí)結(jié)構(gòu)等[3-5]。因此,密碼子使用偏好性的研究不僅可以揭示一個(gè)物種或相關(guān)物種基因之間的起源、進(jìn)化和突變方式,而且密碼子的優(yōu)化可以提高外源序列在轉(zhuǎn)基因研究中的表達(dá)效率,進(jìn)而提高轉(zhuǎn)基因位點(diǎn)的準(zhǔn)確性[6]?!厩叭搜芯窟M(jìn)展】葉綠體是調(diào)節(jié)植物光合作用的主要細(xì)胞器,具有感知外界環(huán)境脅迫信號(hào)的能力[7]。由于葉綠體基因組的小尺寸和大拷貝數(shù),其功能受到廣泛關(guān)注[8]。與核基因轉(zhuǎn)化相比,葉綠體基因組具有外源基因表達(dá)效率高、定點(diǎn)整合無(wú)位置效應(yīng)現(xiàn)象、遺傳穩(wěn)定、不隨花粉漂移等優(yōu)點(diǎn),現(xiàn)已被廣泛應(yīng)用于分子進(jìn)化、系統(tǒng)發(fā)育和遺傳表達(dá)等領(lǐng)域[9-10]。隨著高通量測(cè)序技術(shù)的快速發(fā)展,目前已有許多植物的葉綠體基因組完成測(cè)序,并且完成了密碼子特征的分析,包括木薯(Manihot esculentaL.)[11]、菠蘿(Ananas comosusL.)[12]、稷(Panicum miliaceumL.)[13]、芝麻(Sesamum indicumL.)[14]等。
【本研究切入點(diǎn)】顯齒蛇葡萄(Ampelopsis grossedentata),是葡萄科(Vitaceae)蛇葡萄屬(Ampelopsis)中的一種藤本植物,其嫩莖葉富含二氫楊梅素等黃酮類化合物,具有抗氧化、抗腫瘤、護(hù)肝、降血糖和調(diào)血脂等多種功效,開(kāi)發(fā)利用前景廣闊[15]。目前,關(guān)于顯齒蛇葡萄的研究主要集中在抗氧化活性、二氫楊梅素測(cè)定、藥理作用等方面,有關(guān)質(zhì)量標(biāo)準(zhǔn)、指紋圖譜等方面也有所報(bào)道[16],然而關(guān)于顯齒蛇葡萄葉綠體基因組密碼子偏好性方面的還未見(jiàn)相關(guān)研究報(bào)道?!緮M解決的關(guān)鍵問(wèn)題】本研究分析顯齒蛇葡萄葉綠體基因組的密碼子使用偏好、變異來(lái)源和篩選最優(yōu)密碼子,并利用多元統(tǒng)計(jì)分析方法探討顯齒蛇葡萄葉綠體基因組的密碼子使用模式以及分析其影響因素,不僅對(duì)提高顯齒蛇葡萄葉綠體基因的外源表達(dá)水平具有指導(dǎo)意義,同時(shí)也為顯齒蛇葡萄的后續(xù)基因組研究及其遺傳改良育種提供理論基礎(chǔ)。
從NCBI 數(shù)據(jù)庫(kù)下載顯齒蛇葡萄完整葉綠體基因組(GenBank 登錄號(hào):MT267294),序列全長(zhǎng)為162 147 bp,為了提高分析密碼子偏好性的準(zhǔn)確性,首先從82 個(gè)CDS 中剔除長(zhǎng)度小于300 bp 的序列,其次選擇以ATG 為起始密碼子,TAA、TAG 或TGA 為終止密碼子的CDS 序列,最終篩選出59 條序列進(jìn)行后續(xù)數(shù)據(jù)分析[17]。
1.2.1 密碼子堿基組成分析 使用CodonW 1.4.2軟件分析59 個(gè)顯齒蛇葡萄葉綠體基因組CDS 的同義密碼子相對(duì)使用度(Relative Synonymous Codon Usage,RSCU)、有效密碼子數(shù)(Effective Number of Codon,ENC)、密碼子適應(yīng)指數(shù)(Codon Adaptation Index,CAI)、氨基酸長(zhǎng)度(Length of Amino Acid,Laa)、第3 位堿基上A、T、C、G 含量以及最優(yōu)密碼子使用頻率(Frequency of Optimal Codons,FOP),使用在線軟件工具EMBOSS(http://www.bioinformatics.nl/emboss-explorer)分析各基因密碼子上第1、2、3 位堿基的GC 含量(GC1、GC2、GC3),并計(jì)算各基因的總GC 含量(GCall),并利用SPSS 計(jì)算GC1、GC2、GC3、Laa、ENC 的相關(guān)性。
1.2.2 中性繪圖分析 中性繪圖是一種可初步判別影響密碼子偏好性因素的方法,以GC12(GC1和GC2的均值)為縱坐標(biāo),GC3為橫坐標(biāo)繪制散點(diǎn)圖,圖中每一個(gè)點(diǎn)代表一個(gè)基因的位置,并對(duì)GC12和GC3進(jìn)行相關(guān)性分析,推斷影響密碼子使用偏好性的因素。若GC12和GC3呈顯著相關(guān),則說(shuō)明密碼子3 個(gè)位點(diǎn)的堿基具有相同變異模式,密碼子使用偏好性主要受突變影響,若相關(guān)性不顯著,則說(shuō)明3 個(gè)位點(diǎn)的堿基變異模式較大,主要受自然選擇影響[18]。
1.2.3 ENC-plot 分析 為探究密碼子使用偏好性與基因堿基組成之間的關(guān)系,以GC3為橫坐標(biāo)、ENC 為縱坐標(biāo)繪制散點(diǎn)圖,以基因與ENC 標(biāo)準(zhǔn)曲線的距離衡量影響密碼子偏好性的主要因素,ENC 的期望值ENCexp=2+GC3+29/﹝GC32+(1-GC3)2﹞[19]。
1.2.4 PR2-plot 分析 通過(guò)偏倚分析密碼子第3 位堿基A、T 和C、G 之間突變是否平衡,計(jì)算密碼子第3 位堿基上A、T、C、G 的含量,以A3/(A3+T3)為縱坐標(biāo),G3/(G3+C3)為橫坐標(biāo)進(jìn)行偏倚分析,在平面圖上顯示各密碼子第3 位堿基的組成狀態(tài)[20]。
1.2.5 最優(yōu)密碼子分析 將59 個(gè)基因按照CAI值從高到低排列,分別選擇兩端10%基因數(shù)(共12 個(gè))作為高、低表達(dá)庫(kù)并計(jì)算。RSCU值≥1 的為高頻密碼子,ΔRSCU(RSCU高表達(dá)-RSCU低表達(dá))值>0.08 為高表達(dá)密碼子;若該密碼子ΔRSCU ≥0.0 8 且RSCU ≥1,則被確定為最優(yōu)密碼子[21]。
通過(guò)利用Codon W 1.4.2 軟件分析59條顯齒蛇葡萄葉綠體中的編碼蛋白基因,由表1 可知,有核糖體基因11 個(gè)(rps11、rps12-1、rps14、rps16、rps18、rps2、rps3、rps4、rps7、rps7、rps8),光合作用基因9 個(gè)(petA、petB、petD、psaA、psaB、psbA、psbB、psbC、psbD),煙堿脫氫酶基因12 個(gè)(ndhA、ndhB、ndhB、ndhC、ndhD、ndhE、ndhF、ndhG、ndhH、ndhI、ndhJ、ndhK),ATP 基因6 個(gè)(accD、atpA、atpB、atpE、atpF、atpI),其他基因21 個(gè);平均GC含量為37.98%,其中密碼子的3 位堿基的平均GC 含量分別為GC1(44.88%)>GC2(38.13%)>GC3(29.45%),顯齒蛇葡萄葉綠體基因密碼子末尾堿基偏好以A/T(U)結(jié)尾。表1 顯示,ENC取值范圍為37.39~57.12,平均值為48.48,可見(jiàn)顯齒蛇葡萄葉綠體基因組密碼子偏好性較弱。
表1 顯齒蛇葡萄葉綠體基因組密碼子的主要參數(shù)GC1、GC2、GC3、GCall 和ENCTable 1 Main parameters (GC1,GC2,GC3,GCall and ENC) of chloroplast genome codons in Ampelopsis grossedentata
基因密碼子各參數(shù)之間的相關(guān)性分析結(jié)果(圖1)表明,GC1與GC2、GC 為極顯著相關(guān),與GC3和ENC 為顯著負(fù)相關(guān),GC2與GC3為極顯著相關(guān),說(shuō)明葉綠體基因組中,第1 位堿基與第2 位堿基組成具有較大的相似性,但均與第3 位堿基具有較大差異;GC3與ENC 和Laa 為極顯著相關(guān),說(shuō)明第3 位堿基組成的變化對(duì)密碼子的使用偏好性影響較大,且基因長(zhǎng)度影響第3 位堿基的組成,ENC 與Laa 均達(dá)到極顯著相關(guān),表明序列長(zhǎng)度對(duì)密碼子使用偏好性造成較大影響。
圖1 顯齒蛇葡萄葉綠體基因組密碼子各參數(shù)間的相關(guān)分析Fig.1 Correlation analysis between the indexes of chloroplast genome codon in Ampelopsis grossedentata
使用CodonW 計(jì)算59 條編碼蛋白序列的相對(duì)同義密碼子使用度RSCU,結(jié)果(圖2)顯示,29個(gè)密碼子的RSCU>1、為高頻密碼子,其中12 個(gè)以U 結(jié)尾、14 個(gè)以A 結(jié)尾、2 個(gè)以G 結(jié)尾和 1 個(gè)以C 結(jié)尾,A/U 結(jié)尾的密碼子占89.65%,表明顯齒蛇葡萄葉綠體基因組密碼子更偏向A/U 結(jié)尾,以G/C 結(jié)尾的密碼子偏少。
圖2 顯齒蛇葡萄葉綠體基因組的RSCU 分析Fig.2 RSCU analysis of chloroplast genome in Ampelopsis grossedentata
中性繪圖分析結(jié)果(圖3)顯示,GC12的平均值為32.63%~56.12%,GC3的取值范圍為21.57%~41.73%。圖中各基因均位于對(duì)角線上方,且標(biāo)準(zhǔn)曲線斜率為-0.2401,表明第3 位密碼子堿基與第1、2 位堿基組成不同。GC12和GC3的相關(guān)系數(shù)為0.0608,相關(guān)性不顯著,表明顯齒蛇葡萄葉綠體基因密碼子3 個(gè)位點(diǎn)的堿基組成存在較大差異,且顯齒蛇葡萄葉綠體基因組的密碼子偏好性主要受自然選擇因素影響,然而有3 個(gè)基因(clpP、rps16、rpl16)位于對(duì)角線下方,說(shuō)明這3 個(gè)基因受突變影響造成。
圖3 中性繪圖分析結(jié)果Fig.3 Analysis result of neutral plot
以GC3為橫坐標(biāo)、ENC 為縱坐標(biāo)繪制散點(diǎn)圖(圖4),并與ENC 的期望值ENCexp進(jìn)行比較,ENC<35 表示密碼子偏性較強(qiáng),而ENC>35則表示密碼子偏性較弱[19]。ENCexp取值范圍為42.95~58.43,說(shuō)明密碼子使用偏好性較弱。計(jì)算ENC/ENCexp比值(表2)發(fā)現(xiàn),比值在-0.05~0.05間有39 個(gè),占基因總數(shù)的66.2%,說(shuō)明基因落在標(biāo)準(zhǔn)曲線附近,表明突變對(duì)密碼子偏好性的形成起重要作用。
表2 ENC/ENCexp 頻數(shù)分布Table 2 Distribution of ENC/ENCexp ratio
圖4 ENC-plot 分析結(jié)果Fig.4 Analysis result of ENC-plot
偏倚分析可探究突變和自然選擇對(duì)密碼子使用偏好的影響,PR2-plot 分析結(jié)果(圖5)表明,基因位點(diǎn)在4 個(gè)平面中分布并不均勻,從使用頻率上看T>A、G>C,其基因密碼子主要分布在右下方區(qū)域(23 個(gè)),表明顯齒蛇葡萄葉綠體基因組密碼子第3 位堿基T、G 的使用頻率高于A、C,說(shuō)明顯齒蛇葡萄葉綠體基因組密碼子使用偏好性主要由自然選擇因素決定,但同時(shí)也受到自身內(nèi)部堿基突變因素的影響。
圖5 PR2-plot 分析結(jié)果Fig.5 Analysis result of PR2-plot
以RSCU>1 為標(biāo)準(zhǔn)共篩選出28 個(gè)高頻密碼子(表2);通過(guò)CAI 值對(duì)編碼蛋白基因降序排序,取高低兩端前10%序列(分別各取8 條)進(jìn)行最優(yōu)密碼子計(jì)算,以ΔRSCU>0.08 為標(biāo)準(zhǔn)確定了31個(gè)高表達(dá)密碼子,其中12 個(gè)以A/T 結(jié)尾,19 個(gè)以C/G 結(jié)尾;以ΔRSCU>0.08、且RSCU>1 為標(biāo)準(zhǔn)共確定13 個(gè)最優(yōu)密碼子(UUU、CUA、AUA、UCA、CCA、ACA、GCA、CAU、GAU、UGA、AGA、GGA、GGG),其中12 個(gè)以A/U 結(jié)尾、1 個(gè)以G 結(jié)尾。
表2 顯齒蛇葡萄葉綠體基因組的最優(yōu)密碼子Table 2 Optimal codons in chloroplast genome of Ampelopsis grossedentata
同義密碼子使用偏好是生物群中一種不可避免的現(xiàn)象,生物獲得特定的密碼子使用模式以適應(yīng)起源、進(jìn)化、自然選擇和突變壓力等多種因素[22]。密碼子第3 個(gè)堿基的同義突變不能改變氨基酸的類型,但被認(rèn)為是決定氨基酸類型的重要特征,因此GC3經(jīng)常被用作密碼子偏向的重要指標(biāo)[23-24]。本研究對(duì)密碼子堿基組成的分析表明,顯齒蛇葡萄葉綠體基因組的CDS 序列GC3含量為29.45%,更傾向于使用A/T 密碼子,這與王義華[25]分析葡萄屬葉綠體基因組的研究結(jié)果一致。RSCU 值分析結(jié)果也證實(shí)了這一點(diǎn),顯齒蛇葡萄的葉綠體基因組中存在A/T 密碼子使用偏向,這與大多數(shù)高等植物的模式一致[26]。當(dāng)密碼子的使用受到自然選擇的影響時(shí),GC3值往往分布在一個(gè)較小的范圍內(nèi),GC12和GC3之間沒(méi)有顯著的相關(guān)性[27]。中性繪圖結(jié)果顯示,GC12和GC3之間的相關(guān)性較弱,前2 個(gè)堿基的組成與密碼子的第3 個(gè)堿基的組成不同,而各參數(shù)相關(guān)性分析也證實(shí)了這一點(diǎn),說(shuō)明所分析的顯齒蛇葡萄葉綠體基因組的密碼子使用模式主要受自然選擇的影響。這一結(jié)果與許多物種葉綠體基因組的密碼子使用情況一致,如肖蒲桃(Syzygium acuminatissimum)[28]、朝文心蘭(Oncidium gower ramsey)[29]、木薯[11]等。此外,結(jié)合ENC-Plot 和PR2-Plot 分析的結(jié)果推測(cè),顯齒蛇葡萄葉綠體基因組的密碼子使用偏好性受多種因素影響,包括突變壓力、堿基組成和基因長(zhǎng)度,其中主要的影響因素是自然選擇,重要影響因素是突變。
密碼子偏好性可以通過(guò)調(diào)節(jié)基因翻譯的準(zhǔn)確性和效率影響基因表達(dá),基因表達(dá)水平越高,密碼子偏好性越強(qiáng)[30-31]。本研究挖掘到顯齒蛇葡萄葉綠體基因組共31 個(gè)高頻密碼子,其中13 個(gè)被確定為最優(yōu)密碼子。篩選到的最優(yōu)密碼子可以用于設(shè)計(jì)葉綠體基因表達(dá)載體以提高葉綠體基因組中基因的表達(dá)水平,也可以利用已知密碼子的使用偏好來(lái)推測(cè)和預(yù)測(cè)未知基因的表達(dá)和功能[32-33],可為今后從遺傳水平上進(jìn)行顯齒蛇葡萄育種改良提供參考。
本研究從顯齒蛇葡萄葉綠體基因組中共篩選出59 條蛋白編碼序列,基于顯齒蛇葡萄的葉綠體基因組數(shù)據(jù)進(jìn)行密碼子使用偏好分析,結(jié)果表明,顯齒蛇葡萄葉綠體基因組的GC 含量為37.98%,說(shuō)明AT 含量略高;共篩選出13 個(gè)最優(yōu)密碼子,分別為UUU、CUA、AUA、UCA、CCA、ACA、GCA、CAU、GAU、UGA、AGA、GGA 和GGG,除GGG 外大多數(shù)密碼子以A 或U 結(jié)尾。顯齒野葡萄葉綠體基因組的密碼子使用偏好受核苷酸組成、自然選擇、突變壓力和基因表達(dá)水平的影響,最主要影響因素為自然選擇。本研究結(jié)果為顯齒蛇葡萄的密碼子使用模式研究提供了新的視角,為顯齒蛇葡萄的分子育種奠定了基礎(chǔ)。