黃祥, 楚光明, 鄭新開, 程錦濤, 陳健豪,徐迎春, 金奇江, 楊梅花*
(1.石河子大學(xué)農(nóng)學(xué)院,新疆 石河子 832003;2.石河子大學(xué)特色果蔬栽培生理與種質(zhì)資源利用兵團(tuán)重點實驗室,新疆 石河子 832003;3.南京農(nóng)業(yè)大學(xué)園藝學(xué)院,南京 210095)
密碼子作為核酸和蛋白質(zhì)之間的連接,在遺傳信息傳遞過程中起著重要作用[1]。DNA上攜帶的遺傳信息以三聯(lián)體密碼子的形式翻譯成氨基酸,每個氨基酸對應(yīng)至少1種密碼子,最多6種密碼子[2]。編碼相同氨基酸的密碼子被稱為同義密碼子。從原核生物到真核生物,同義密碼子的使用頻率不同,存在密碼子使用偏好性(codon usage bias,CUB)[3-4]。密碼子使用偏好性受環(huán)境、堿基突變、基因漂移和基因表達(dá)水平等影響,其中選擇和突變壓力是主要影響因素[5-7]。研究表明,親緣關(guān)系越近或生存環(huán)境越相似的物種越可能采用相似的密碼子選擇策略[5],如單子葉物種偏好使用G/C結(jié)尾的密碼子,雙子葉植物偏好使用A/U結(jié)尾的密碼子[8-12]。對植物基因組密碼子偏好性的分析在一定程度上有助于研究物種的起源、進(jìn)化及適應(yīng)外界環(huán)境的分子機(jī)制[3]。
睡蓮是睡蓮科(Nymphaeaceae)睡蓮屬(Nymphaea)多年生水生植物,具有很高的觀賞、食用、藥用價值及生態(tài)修復(fù)功能[13-14]。睡蓮屬有50余種,除南極洲以外在全球廣泛分布,該屬位于被子植物的根部,對研究被子植物的起源和進(jìn)化具有重要作用[15]。然而,睡蓮屬的分類存在一些爭議?;谒彽男螒B(tài)和地理分布將睡蓮屬劃分為5個亞屬[13],分別為新熱帶睡蓮亞屬(subgenus Hydrocallis)、古熱帶睡蓮亞屬(subgenus Lotus)、廣熱帶睡蓮亞屬(subgenus Brachyceras)、澳洲睡蓮睡蓮亞屬(subgenus Anecphya)和廣溫帶睡蓮亞屬(subgenus Nymphaea);基于葉綠體非編碼標(biāo)記將睡蓮屬劃分為3個亞屬[16-17],分別為廣溫帶睡蓮亞屬、澳洲-廣熱帶睡蓮亞屬(subgenus Anecphya?Brachyceras)和新熱帶-古熱帶睡蓮亞屬(subgenus Hydrocallis?Lotos)。
植物葉綠體含有獨立的基因組,基因組結(jié)構(gòu)簡單,遺傳相對保守[18]。葉綠體基因組中rbcL、matK和trnL?trnF等基因序列被廣泛應(yīng)用于植物系統(tǒng)發(fā)育研究[19-21]。隨著高通量測序技術(shù)的廣泛應(yīng)用,越來越多的植物葉綠體基因組被測序,為比較基因組學(xué)、分子系統(tǒng)發(fā)育學(xué)的研究提供了數(shù)據(jù)庫。目前,睡蓮屬已報道了22種植物的參考葉綠體基因組,主要以個體水平的基因組特征等研究為主[14,22-23],缺乏密碼子使用偏好性和屬內(nèi)物種間橫向水平的系統(tǒng)研究。因此,本研究基于22種睡蓮屬植物的葉綠體基因組數(shù)據(jù),系統(tǒng)地對睡蓮屬葉綠體基因組編碼區(qū)的密碼子使用偏好性及其影響因素進(jìn)行比較分析,并基于同義密碼子相對使用度(relative synonymous codon usage,RSCU)和葉綠體基因序列比較了睡蓮屬植物的系統(tǒng)發(fā)育關(guān)系,以期為睡蓮屬植物密碼子偏好性選擇的潛在分子機(jī)制和相關(guān)物種的系統(tǒng)進(jìn)化研究提供數(shù)據(jù)支持。
22個睡蓮屬植物葉綠體基因組序列和注釋信息來自NCBI數(shù)據(jù)庫(National Center for Biotechnology Information,https://www.ncbi.nlm.),根據(jù)注釋信息提取蛋白編碼序列,去除長度小于300 bp和重復(fù)的編碼序列后用于后續(xù)密碼子使用特征分析。
1.2.1 密碼子使用特征分析 使用CodonW 1.4.2軟件分析22個睡蓮屬植物葉綠體基因組蛋白質(zhì)編碼序列(coding sequence,CDS)同義密碼子的RSCU、有效密碼子數(shù)目(effective number of codon,ENC)、密碼子適應(yīng)指數(shù)(codon adaptation index,CAI)、同義密碼子中GC含量和密碼子第3位 A、T、C、G 的含量(用 A3s、T3s、C3s、G3s表示)。使用在線軟件CUSP(http://imed.med.ucm.es/EMBOSS/)計算GC總含量(GCall)和密碼子第1、第2、第3位堿基組成中的GC含量(分別用GC1、GC2和GC3表示)。
1.2.2 中性繪圖分析 計算各CDS中密碼子GC1和GC2的平均值GC12,以GC3和GC12為橫縱坐標(biāo)進(jìn)行中性繪圖,分析GC3和GC12之間的相關(guān)性。若GC3與GC12相關(guān)顯著,則突變是密碼子偏好性主要影響因素;若相關(guān)不顯著,表明選擇壓力對密碼子使用影響較大[24]。
1.2.3 ENC-plot分析 以GC3為橫坐標(biāo),ENC為縱坐標(biāo),進(jìn)行ENC-plot繪圖,并繪制標(biāo)準(zhǔn)曲線(式1),分析堿基組成對密碼子偏好性的影響。若基因分布在標(biāo)準(zhǔn)曲線附近,則密碼子偏好性僅受到突變影響;若基因坐落在標(biāo)準(zhǔn)曲線下方,則密碼子偏好性受到選擇的影響[25]。
1.2.4 PR2-plot分析 以G3/(G3+C3)為橫坐標(biāo),A3/(A3+T3)值為縱坐標(biāo),進(jìn)行PR2-plot繪圖,圖中中心點為A=T且C=G時的值,表示密碼子無使用偏好性,只受到突變的影響[26]。
1.2.5 相關(guān)性分析 使用R語言Performance Analytics軟件包中chart.Correlation命令,采用Spearman秩相關(guān)系數(shù)計算方法,對睡蓮屬葉綠體各基因密碼子不同位置的堿基GC含量和ENC進(jìn)行相關(guān)性分析。
1.2.6 最優(yōu)密碼子分析 根據(jù)ENC大小進(jìn)行排序,選取前后各10%的基因構(gòu)建高偏好性和低偏好性庫[27]。計算2個庫各密碼子的RSCU值和ΔRSCU值,去除蛋氨酸(AUG)、色氨酸(UGG)及終止密碼子UUA、UAG、UGA,將同時滿足RSCU>1和ΔRSCU≥0.08的密碼子確定為最優(yōu)密碼子[26]。
1.2.7 系統(tǒng)發(fā)育分析 基于59個密碼子(除去蛋氨酸、色氨酸和終止密碼子)的RSCU值,使用SPSS 25.0軟件對22種睡蓮屬植物進(jìn)行組間平均聯(lián)接法的聚類分析,繪制樹狀圖[11]?;谄涡蛄泻虲DS全長序列,使用MEGA 7.0的系統(tǒng)鄰接法(neighbor-joining,NJ),采用1 000次的Bootstrap檢驗各分支的置信度,其他參數(shù)為軟件默認(rèn)設(shè)置,對22種睡蓮屬植物葉綠體基因組構(gòu)建系統(tǒng)進(jìn)化樹[28]。
由表1可知,22種睡蓮屬植物葉綠體基因組密 碼子 適應(yīng) 指 數(shù)(CAI)為 0.168~0.170,平均0.169,即CAI較低,表明睡蓮屬植物葉綠體基因組密碼子偏好性較弱;有效密碼子數(shù)(ENC)為51.301~51.577,平均51.401,即ENC較高,表明睡蓮屬植物葉綠體基因組密碼子偏好性弱;密碼第1、第2和第3位堿基GC含量分別為46.26%、38.67%和32.54%,即不同位置堿基含量均小于50%,表明睡蓮屬植物葉綠體基因偏好使用以A/U結(jié)尾的密碼子。
表1 22種睡蓮屬植物密碼子偏好性分析Table 1 Codon usage bias analysis of total 22 Nymphaea 續(xù)表Continuted
目前,睡蓮屬植物完成葉綠體基因組測序的種較多,為保證樣本的代表性,根據(jù)睡蓮屬植物的生態(tài)習(xí)性,在22個已完成葉綠體基因組測序的睡蓮屬物種中選擇8個物種的葉綠體基因組蛋白編碼序列為研究對象,包括4種熱帶睡蓮:澳洲巨花睡蓮(N.gigantea)、藍(lán)星睡蓮(N.colorata)、小花睡蓮(N.micrantha)、延藥睡蓮(N.stellata);4種耐寒睡蓮:白睡蓮(N.alba)、黃睡蓮(N.mexicana)、睡蓮(子午蓮)(N.tetragona)、香睡蓮(N.oborata)。通過ENC-plot、PR2-plot和中性繪圖分析睡蓮屬葉綠體基因組密碼子偏好性的影響因素。
2.2.1 ENC-plot分析 ENC實際值和期望值的差異可反映突變或選擇壓力對密碼子使用偏好性的影響。由圖1可知,僅有少部分基因沿標(biāo)準(zhǔn)曲線分布,大部分基因位于標(biāo)準(zhǔn)曲線的下方,即大部分基因的ENC實際值小于期望值,說明睡蓮屬大部分葉綠體蛋白編碼基因的密碼子使用偏好性主要受到選擇壓力的影響,小部分基因受到突變的影響。
圖1 ENC-plot分析Fig.1 Analysis of ENC-plot
2.2.2 PR2-plot分析 在沒有選擇壓力情況下,每個密碼子不同位置的核酸突變都是隨機(jī)的,概率也一樣,密碼子堿基的偏倚分析可以體現(xiàn)A、T、C、G堿基使用頻率的差異。由圖2可知,4個區(qū)域中基因數(shù)量分布不均:垂直方向,大部分基因位于中線下方;水平方向,中線右側(cè)基因數(shù)量高于左側(cè),但分布差異小于垂直方向。由此表明,睡蓮屬植物葉綠體基因組密碼子第3位堿基組成中堿基G頻率大于堿基C,堿基T頻率大于堿基A,進(jìn)一步說明睡蓮屬葉綠體大部分蛋白編碼基因受到選擇壓力的影響。
圖2 PR2-plot分析Fig.2 Analysis of PR2-plot
2.2.3 中性繪圖分析 中性繪圖可以分析密碼子第1、2位堿基和第3位堿基組成間的相關(guān)性,體現(xiàn)密碼子使用的偏好性。由圖3可知,GC3值分布范圍較?。?.243 6~0.396 2),GC12值分布范圍較大(0.345 3~0.550 4),僅有少量基因沿對角線分布,說明密碼子第3位堿基組成與第1、2位堿基組相關(guān)性不顯著。線性回歸系數(shù)較小(0.026 7~0.146 6),表明突變對密碼子使用偏好性的影響最高僅占14.66%。因此,睡蓮屬葉綠體基因組密碼子使用偏好性主要受到選擇壓力的影響,突變等因素對密碼子偏好性形成的影響較弱。
圖3 中性繪圖分析Fig.3 Analysis of neutrality plot
對睡蓮屬葉綠體各基因密碼子不同位置堿基組成情況以及ENC值進(jìn)行相關(guān)性分析,結(jié)果(表2)表明,GC1與GC12顯著相關(guān),與GC2、GC3不顯著相關(guān);GC2與GC12和GCall顯著相關(guān);GC3與GC3s和GCall顯著相關(guān),說明睡蓮屬葉綠體密碼子三堿基的組成整體相關(guān)性較低。而ENC與GC2、GC3、GC3s和GCall顯著相關(guān),與GC1和GC12不顯著相關(guān),說明在睡蓮屬葉綠體基因組密碼子中,第2、3位堿基組成對密碼子使用模式存在較大影響。
表2 睡蓮屬不同位置密碼子的GC含量和各參數(shù)的相關(guān)性分析Table 2 Correlation analysis of GC contents and related parameters in codons of Nymphaea
根據(jù)ENC值對22種睡蓮屬植物葉綠體基因組高表達(dá)和低表達(dá)的基因建庫,并計算高、低兩庫的RSCU和ΔRSCU,進(jìn)行最優(yōu)密碼子分析,結(jié)果(圖4)表明,睡蓮屬植物葉綠體基因組的最優(yōu)密碼子數(shù)為5~11個。其中,澳洲巨花睡蓮(N.gigantea)、墨西哥黃睡蓮(N.mexicana)、子午蓮(N.tetragona)和香睡蓮(N.odorata)的最優(yōu)密碼子數(shù)最多(11個),而埃及白睡蓮(N.lotus)和小腺睡蓮(N.glandulifera)最優(yōu)密碼子數(shù)最少(5個),且最優(yōu)密碼子的第3位堿基偏向于A和U。22種睡蓮屬植物共同擁有2個最優(yōu)密碼子,分別為CCA(纈氨酸,Pro)和AAU(纈氨酸,Asn),密碼子第3位堿基均偏好于A和U。
圖4 最優(yōu)密碼子分析Fig.4 Analysis of optimal codons
2.5.1 基于葉綠體密碼子RSCU聚類分析 根據(jù)葉綠體基因組密碼子的RSCU值對22種睡蓮屬植物進(jìn)行聚類,結(jié)果(圖5)表明,在平方歐式距離為23.8處,子午蓮和香睡蓮這2種廣溫帶亞屬睡蓮單獨聚成一類,其他20種睡蓮聚成一類。在平方歐式距離為9.5處,康納迪睡蓮等9種古熱帶-新熱帶亞屬睡蓮聚為一類,澳洲巨花睡蓮等11種澳洲-廣熱帶睡蓮亞屬聚為一類。在平方歐式距離為8.2處,白睡蓮和墨西哥黃睡蓮2種廣溫帶亞屬睡蓮從澳洲-廣熱帶睡蓮亞屬分出,單獨聚成一類;同一類亞屬睡蓮之間存在相類似的密碼子特征。由此表明,除白睡蓮和墨西哥黃睡蓮這2種廣溫帶亞屬睡蓮?fù)獾?0種睡蓮葉綠體密碼子RSCU聚類結(jié)果支持了睡蓮屬劃分為3個亞屬的論點。
圖5 基于葉綠體密碼子RSCU的22種睡蓮屬植物樹狀聚類Fig.5 Cluster of total 22 Nymphaea species based on RSCU value of chloroplast codons
2.5.2 基于葉綠體基因序列系統(tǒng)發(fā)育分析 基于葉綠體基因組rbcL、matK和trnL?trnF基因序列和蛋白編碼序列(CDS)分別構(gòu)建22種睡蓮屬植物的系統(tǒng)發(fā)育樹,結(jié)果(圖6)表明,4種系統(tǒng)發(fā)育樹的拓?fù)浣Y(jié)構(gòu)相似,均包含3個大類。其中,基于matK、trnL?trnF基因序列和CDS構(gòu)建的系統(tǒng)發(fā)育樹將睡蓮屬劃分為新熱帶-古熱帶睡蓮亞屬、澳洲-廣熱帶睡蓮亞屬和廣溫帶睡蓮亞屬;基于rbcL基因序列的系統(tǒng)發(fā)育樹將廣溫帶睡蓮亞屬和澳洲-廣熱帶睡蓮亞屬聚成一類,將古熱帶睡蓮亞屬和新熱帶睡蓮亞屬單獨聚成一類。
圖6 22種睡蓮屬植物葉綠體系統(tǒng)發(fā)育樹Fig.6 Phylogenetic tree of total 22 chloroplasts from Nymphaea
密碼子使用偏好性在生物長期進(jìn)化過程中廣泛存在,且對基因表達(dá)以及蛋白的功能具有重要作用[11]。研究表明,密碼子不同位置堿基受到的選擇壓力存在差異,第1、2位堿基較第3位堿基受到的選擇壓力更大[29]。本研究表明,睡蓮屬葉綠體基因組密碼子不同位置的GC含量存在差異,GC1(46.26%)>GC2(38.67%)>GC3(32.54%),表明睡蓮屬植物偏好使用A、U結(jié)尾的密碼子,這和雙子葉植物偏好使用A和U結(jié)尾密碼子而單子葉植物好使用G和C結(jié)尾密碼子的研究結(jié)果一致[8-12]。CAI和ENC是判斷密碼子偏好性強(qiáng)弱的重要指標(biāo)[29],在本研究中,22種睡蓮屬植物葉綠體基因組CAI變幅為0.168~0.170,平均0.169;ENC變幅為51.301~51.577,平均51.401。由此表明,睡蓮屬葉綠體基因組密碼子偏好性較弱,可能與其葉綠體基因較為保守有關(guān)[30]。
不同物種密碼子的使用偏好性存在差異受多種因素影響,自然選擇和基因突變是重要的影響因素[31]。通過ENC-plot、PR2-plot和中性繪圖對睡蓮屬葉綠體基因組密碼子偏好性的影響因素進(jìn)行分析,結(jié)果表明,睡蓮屬大部分葉綠體蛋白編碼基因的密碼子使用偏好性主要受到自然選擇壓力的影響;相關(guān)分析結(jié)果表明,GC3與GC1、GC2相關(guān)性不顯著,進(jìn)一步證明了這一觀點,可能與睡蓮屬植物種群數(shù)量多、分布范圍廣、葉綠體基因的高效表達(dá)有關(guān)[32]。最優(yōu)密碼子分析表明,22種睡蓮最優(yōu)密碼子數(shù)量存在差異,共有的密碼子僅有2個(CCA、AAU),可能與高、低表達(dá)庫中所使用的編碼基因不同和不同種間的差異有關(guān)[33]。睡蓮屬中最優(yōu)密碼子的確定為今后睡蓮的葉綠體基因表達(dá)、密碼子優(yōu)化和修飾等研究提供理論依據(jù)。
睡蓮屬系統(tǒng)進(jìn)化分析表明,基于密碼子RSCU值的聚類結(jié)果和基于葉綠體基因序列構(gòu)建的系統(tǒng)發(fā)育樹結(jié)構(gòu)相似,均能對22種睡蓮屬植物進(jìn)行到亞屬的劃分,表明基于密碼子RSCU值的分類結(jié)果可以作為睡蓮屬分類研究的補(bǔ)充[34]。這和木蘭科[11]、蘭科[35]等植物研究結(jié)果不同,和小麥、玉米等7種作物[36]研究結(jié)果一致。這可能與睡蓮屬葉綠體基因組密碼子偏好性較弱有關(guān),在進(jìn)化過程中睡蓮屬植物葉綠體基因受外界因素影響較小。本研究基于不同區(qū)域的葉綠體基因序列將睡蓮屬劃分為3個亞屬,即廣溫帶睡蓮亞屬、新熱帶-古熱帶睡蓮亞屬和澳洲-廣熱帶睡蓮亞屬;但基于葉綠體rbcL、matK和trnL?trnF等基因序列對睡蓮屬植物在亞屬層次內(nèi)的分類存在差異,因此,開發(fā)準(zhǔn)確度更高的堿基序列區(qū)域可能會為睡蓮屬近緣種的區(qū)分提供更好的解決方法。