余 瀟,宋雨茹,趙振寧,劉子榕
(西南林業(yè)大學a.園林園藝學院,b.林學院,昆明 650224)
葉綠體是質體之一,是植物之間轉換能量和進行光合作用的重要細胞器,通常存在于陸地植物、藻類和一些原生生物中[1]。不同科屬植物的葉綠體基因組大小通常在100~200 kb 之間[2-3],大多數(shù)被子植物的葉綠體DNA 大小通常在110~160 kb 之間。葉綠體基因組的雙鏈閉合環(huán)通常分為4 個區(qū)域:大單拷貝區(qū)(LSC)、小單拷貝區(qū)(SSC)、反向重復區(qū)A(IRa)和反向重復區(qū)B(IRb)。兩個IR區(qū)域由LSC和SSC分開,在相反方向上長度相同[4]。研究表明,IR 區(qū)域的變化是葉綠體基因組變化的主要原因[4-5]。葉綠體DNA 編碼的基因約有110~130 個,包括rRNA 編碼基因、蛋白質編碼基因和tRNA 編碼基因[6]。一般來說,基因復制發(fā)生在所有rRNA 基因中,還有一些蛋白質編碼基因和tRNA基因。根據(jù)葉綠體DNA編碼基因的功能,它可以分為三類:光合系統(tǒng)基因,如petB;與轉錄和翻譯相關的遺傳系統(tǒng)基因,如tRNA-UGC;與氨基酸合成相關的生物合成基因,以及開放閱讀框(ORF),如accD、matK 和ycf1[7]。葉綠體基因組快速發(fā)展的一個原因是高通量測序技術的出現(xiàn),在1986 年建立了煙草(Nicotiana tabacum)[8]和地錢(Marchantia polymorpha)[9]的完整葉綠體基因組之后,第一代測序技術[10-12],包括傳統(tǒng)的“雙脫氧”測序技術、化學降解方法以及基于它們開發(fā)的改進熒光自動測序技術的發(fā)展使得研究人員[13]更加關注植物的葉綠體基因[14]。
蘇鐵是地球上現(xiàn)存最古老以及最原始的一類種子植物,源于古生代二疊紀(Permian period),迄今為止已有2.8 億年的歷史[15],到侏羅紀(Jurassic)的時候,蘇鐵植物已遍及全球,成為恐龍的主要食物。經過億萬年的演變進化,接受過數(shù)輪冰川期和間冰期的考驗,而今是珍稀瀕危的“植物活化石”[16]?,F(xiàn)存的蘇鐵屬植物是眾多祖先類群遺留下的少數(shù)后裔演化而來的,因此蘇鐵這類孑遺植物已被國際譽為“植物界的大熊貓”。1974 年,國際保護自然與自然資源聯(lián)合會(IUCN)將全部蘇鐵植物歸入《瀕危野生動植物物種國際貿易公約》(CITES)中,同時,我國也將國內分布的所有蘇鐵屬植物列入《國家重點保護野生植物》,成為國家一級重點保護植物[17]。蘇鐵科(Cycadaceae)下僅有蘇鐵屬(Cycas)1 屬,根據(jù)1999 年出版的《Flora of China》中介紹,蘇鐵屬全屬約60 種,主要分布于東亞、東南亞、南亞、馬達加斯加、東非沿海、澳大利亞北部及西太平洋島嶼[18]。我國有分布的蘇鐵屬植物共有約16 種,其中有12 種屬于中國特有分布,如葫蘆蘇鐵(Cycas changjiangensis)、德保蘇鐵(Cycas debaoensis)等。由于蘇鐵植物自身的復雜性,如形態(tài)分類特征較少且易受生長環(huán)境的不同而改變,種間雜交現(xiàn)象普遍存在且種內形態(tài)變異和分化較大等原因,導致到目前為止蘇鐵屬的進化機制與樹種間的系統(tǒng)發(fā)育關系尚未得到充分闡明[19]。葉綠體基因組是一種寶貴的多層次分類學資源,具有豐富的遺傳信息,在植物系統(tǒng)發(fā)育與進化、物種鑒定和分類學方面有著廣泛的應用。對蘇鐵屬葉綠體基因組的結構特征及變異情況進行分析對今后該屬物種系統(tǒng)發(fā)育及DNA條形碼的選擇具有重要意義[20]。
本研究通過對中國特有分布的9種蘇鐵屬植物的葉綠體基因組進行分析比較,包括葉綠體基因組結構、重復序列、密碼子偏好性等,這為蘇鐵屬的系統(tǒng)發(fā)育、DNA條形碼的開發(fā)提供了一定的數(shù)據(jù)基礎。
在GenBank 數(shù)據(jù)庫(http://www.ncbi.nlm.Nih.gov/genbank)中下載已公布的中國特有蘇鐵屬9 個種的葉綠體基因組序列。檢索到的9個物種名稱、基因組登錄號及保護等級信息等見表1。
表1 中國特有蘇鐵屬植物葉綠體基因組信息Table 1 Complete chloroplast genome information of Cycas endemic to China
在Geneious 軟件中打開9種蘇鐵屬植物的葉綠體基因序列,以葫蘆蘇鐵(C.changjiangensis)作為參考,校正注釋信息后, 用MAFFT 軟件進行序列比對, 再進行手工校對[21]。利用Cpgview (http://www.1kmpg.cn/cpgview/)[22]和MEGA5.2[23]用于繪制葉綠體基因組的結構特征,并統(tǒng)計葉綠體基因組注釋基因信息。
簡單重復序列(simple sequence repeat,SSR),又稱微衛(wèi)星序列,是由1~6個堿基作為重復單元組成的重復序列,對植物種群的研究具有重要意義。長度超過10 bp 的SSR 傾向于滑鏈錯配,這被認為是SSR 多態(tài)性的主要突變機制[1]。此外,在葉綠體基因組的種內位置可變的SSR 經常被用作種群遺傳和進化研究中的遺傳標記[24-25]。利用MISA web 軟件(http://webblast.ipk-gatersleben.de/misa/)鑒定工具對9 種蘇鐵屬植物葉綠體基因組序列進行SSR鑒定,最小重復次數(shù)參數(shù)設置為:單、二、三、四、五、六核苷酸參數(shù)分別為10,5,4,3,3,3,兩個SSR之間的最小距離設置為100bp。
使用REPuter在線工具(https://bibiserv.cebitec.uni-bielefeld.de/reputer)[26]分別識別九種蘇鐵屬植物的分散重復序列,包括正向重復(forward repeat,F(xiàn))、反向重復(reverse repeat,R)、互補重復(complement repeat,C)和回文重復序列(palindromic repeat,P)。檢測參數(shù)設置為:最小重復距離為30 bp,最大重復距離300 bp,翰明距離(hamming distance)為3,編輯距離為默認值,重復序列相似度大于80%。
利用IRscope(https://ir-scope.shinyapps.io/irapp/)分析比較9 種蘇鐵屬植物葉綠體基因組序列邊界可視化,分析其邊界處的擴張收縮情況。
利用mVISTA 軟件(ShuffleLAGAN 模式)[27]以蘇鐵(C.revoluta)基因組為參考,完成9 種蘇鐵屬葉綠體基因組的變異位點分析,步長設置為200 bp,窗口長度設置為800 bp。
相對同義密碼子使用(RSCU)是一種同義密碼元相關效應,它重視64 個重要的同義密碼子[28]。RSCU 計算為實際觀測值與同義密碼子平均使用量的比值。RSCU 的值可以分為3 種類型:大于1、小于1 和等于1。如果RSCU 值大于1,則表明密碼子的使用頻率高于其他密碼子;如果RSCU 的值小于1,則意味著該密碼子的其他同義密碼子的使用頻率高于該密碼子;如果RSCU的值等于1,則表明密碼子的使用沒有偏差。
以云南松(Pinus yunnanensis)(NC_043856.1)和日本五針松(Pinus parviflora)(NC_039615.1)為外類群。利用9個中國特有蘇鐵屬植物葉綠體基因組序列和從NCBI中檢索到的9個蘇鐵屬近緣物種的基因組來構建系統(tǒng)發(fā)育樹。首先使用MAFFT多重序列比對軟件[29]的默認參數(shù)對所有核苷酸序列進行比對,然后采用完整葉綠體基因組和CDS序列構建最大似然(ML)系統(tǒng)發(fā)育樹。ML系統(tǒng)發(fā)育樹使用RAxML 8.2.11[30]和GTR+Gamma核苷酸替代模型進行;節(jié)點支持率采用1 000次重復的bootstrap進行計算。
9個蘇鐵屬植物的葉綠體全基因組均為雙鏈環(huán)狀結構,由4個部分構成,包括1個大單拷貝區(qū)(LSC)、1個小單拷貝區(qū)(SSC)、1 對反向重復區(qū)(IR),以葫蘆蘇鐵為代表繪制了葉綠體基因組圖譜(圖1)。9 個蘇鐵屬植物的葉綠體基因組大小介于161 993~163 403 bp之間(表2),其中臺東蘇鐵最大,叉葉蘇鐵最小,兩者相差1 410 bp??侴C 含量除臺東蘇鐵和滇南蘇鐵兩個物種為39.5%以外,其他7 個蘇鐵屬植物均為39.4%,所有物種的總GC 含量相似。大單拷貝區(qū)長度介于88 780(叉葉蘇鐵)~90 216 bp(臺東蘇鐵)之間,大單拷貝區(qū)GC 含量為38.7%~39.8%;小單拷貝區(qū)長度介于23 039(臺東蘇鐵)~25 088 bp(灰干蘇鐵)之間,小單拷貝區(qū)GC 含量為36.5%~36.60%;單個反向重復區(qū)長度介于23 057(灰干蘇鐵)~25 097 bp(德保蘇鐵)之間,單個反向重復區(qū)GC 含量為42%~42.1%。
圖1 葫蘆蘇鐵葉綠體基因組圖譜Figure 1 Chloroplast genome map of C.changjiangensis
由表2可知,9種蘇鐵屬植物葉綠體基因組長度不同,基因數(shù)量和蛋白編碼數(shù)量也表現(xiàn)出一些差異,9種蘇鐵屬植物的葉綠體基因組各基因數(shù)量相對保守,其中總基因數(shù)為131~135個,閩南蘇鐵的總基因數(shù)最少,臺東蘇鐵的總基因最多。蛋白質編碼基因為87 或89 個,其中臺東蘇鐵和閩南蘇鐵均為89 個,其余均為87 個。rRNA 數(shù)量最為保守,所有物種均為8個。tRNA 數(shù)為34~38個,除臺東蘇鐵為38個,閩南蘇鐵為34個以外,其余各物種均為37個。
表2 蘇鐵屬9個物種葉綠體基因組比較Table 2 Comparison of chloroplast genomes of 9 Cycas species
同樣以葫蘆蘇鐵葉綠體基因組為代表來分析基因注釋信息(表3),葫蘆蘇鐵葉綠體基因組共有133 個基因,根據(jù)其功能可以分為4大類:與光合作用有關的基因(48個)、與自我復制有關的基因(76個)、其他基因(7個)和未知功能基因(6 個)。這133 個基因中有15 個含雙拷貝基因, 包括ndhB、rps12、rps7、rrn16、rrn23、rrn4.5、rrn5、trnA-UGC、trnH-GUG、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG、trnV-GAC和ycf2。另外,還有17個基因含有內含子,其中15個基因含有1個內含子,包括ndhA、ndhB、petB、petD、atpF、rpl16、rpl2、rps12、rps16、rpoC1、trnA-UGC、trnG-UCC、trnI-GAU、trnK-UUU和trnL-UAA;另外,還有2 個基因含有2 個內含子,包括clpP、ycf3。ndhB、rps12、trnA-UGC、trnI-GAU等為具有1個內含子的雙拷貝基因,tufA為假基因。
表3 葫蘆蘇鐵葉綠體基因組注釋基因信息Table 3 Genes present in the chloroplast of C.changjiangensis
由圖2a 可知,9 種蘇鐵屬植物葉綠體基因組均含有46~54 個SSR 位點,主要以單核苷酸和四核苷酸為主,未檢測出五核苷酸和六核苷酸。檢測到的單核苷酸數(shù)量介于32~39,其中最多的是閩南蘇鐵,最少的是叉孢蘇鐵和葫蘆蘇鐵。二、三、四核苷酸數(shù)量總體差異較小,分別介于5~7,1~2,7~9個之間。從核苷酸類型來分析(圖2b),單核苷酸的數(shù)量最多,以A 和T 重復類型為主。這一結果說明了蘇鐵屬植物的簡單重復序列的類型和數(shù)量上總體差異較小,表現(xiàn)相對保守。
使用REputer 在線工具對9 種蘇鐵屬植物葉綠體基因組的分散重復序列分析,統(tǒng)計結果如圖2c,正向、反向、回文和互補重復4種類型均有被檢測到,結果顯示蘇鐵屬植物之間分散重復序列差異較大。從檢測到的分散重復序列總數(shù)上來看,9種蘇鐵屬的重復序列總數(shù)介于50~288 之間,最少的為德保蘇鐵,而葫蘆蘇鐵的總數(shù)最多。對9種蘇鐵屬植物的分散重復序列長度進行分析發(fā)現(xiàn)所有物種的長度均集中分布于30~39 bp這個區(qū)間范圍內,且均占每個物種重復序列總數(shù)的95%以上。
圖2 9種蘇鐵屬植物的重復序列分析Figure 2 Repetitive sequence analysis of 9 Cycas species
邊界擴張收縮分析表明(圖3),9 種蘇鐵屬植物的JLB(LSC-IRb)均位于trnI基因中;JSB(IRb-SSC)均位于ndhF中;JSA(SSC-IRa)均位于chlL和trnN基因間區(qū);JLA(IRa-LSC)均位于trnH和psbA基因間區(qū)??傮w來看,蘇鐵屬葉綠體基因組延續(xù)了序列長度、基因組成以及GC 含量相對保守的特性,其進化關系保守,結構差異較小,邊界擴張收縮較為穩(wěn)定相似,只在個別種中發(fā)生了較小的變異。
圖3 蘇鐵屬物種葉綠體基因組邊界擴張收縮比較Figure 3 Comparison of the expansion and contraction of chloroplast genomic boundary in Cycas species
9 個蘇鐵屬植物葉綠體基因組序列同源性比對結果顯示蘇鐵屬植物葉綠體基因組排列順序相似,具有較高的保守性,變異位點少,種間差異較小(圖4)。蘇鐵屬9種植物的非編碼區(qū)變異大于編碼區(qū),同時大單拷貝區(qū)(LSC)的變異程度最高,而反向重復區(qū)(Ira)的變異程度最低。蘇鐵屬葉綠體基因組中ycf12、atpH、psbM、ndhG和chlL等基因編碼區(qū)存在顯著差異,同時trnK-UUU、trnF-GAA、trnC-GCA、trnM-CAU、trnH-GUG、trnL-CAA、trnP-GGG、trnH-GUG等基因間隔區(qū)的非編碼區(qū)也存在不同程度的變異,這些基因可以作為蘇鐵屬植物分子鑒定的候選基因。
圖4 蘇鐵屬葉綠體基因組結構比較Figure 4 Comparison of chloroplast genome structure of Cycas
為進一步分析9種中國特有蘇鐵屬植物密碼子使用模式,利用CodonW 軟件分別計算9種蘇鐵屬植物的同義密碼子的使用頻率(RSCU),共篩選出704條符合條件的蛋白編碼基因序列,每個蘇鐵屬植物中均有64條,所有物種的密碼子RSCU 值相似(圖5)。其中RSCU>1的氨基酸均有30個,為總數(shù)的46.88%。除編碼亮氨酸的密碼子UUG 外,其余29個都以A或U結尾,說明中國特有蘇鐵屬植物葉綠體基因組密碼子偏好以A和U結尾,是該屬葉綠體基因組偏好的密碼子。RSCU<1的氨基酸均有32個,密碼子中除CUA 和AUA 以A 結尾外,其余均以C 或G 結尾,說明以C、G 結尾的密碼子出現(xiàn)頻率比較低,是非偏好密碼子。以上結果分析表明,蘇鐵屬9 種物種之間密碼子的偏好性保持高度的一致。
對9 個蘇鐵屬植物的CDS 基因按照ENC 值進行排序,根據(jù)高低表達基因中密碼子的RSCU 值和ΔRSCU 值來確定其最優(yōu)密碼子,篩選得到的最優(yōu)密碼子如表6。最優(yōu)密碼子數(shù)量介于14~17 個之間,蘇鐵屬9 種植物的最優(yōu)密碼子都大多以A或T(U)作為第3位堿基,說明其最優(yōu)密碼子偏向于使用A和T(U)作為結尾。對其共有最優(yōu)密碼子進行分析,發(fā)現(xiàn)其共有最優(yōu)密碼子有12 個,分別為GCU、CGU、CAA、GGU、AUC、CUA、CCU、UCU、ACC、ACU、GUA、GUU,其中有3個以A作為末堿基,9個以U作為末位堿基,共有密碼子的第3位堿基均為A和U。
表6 蘇鐵屬葉綠體基因組最優(yōu)密碼子Table 6 Analysis of the optimal codons of chloroplast genomes of Cycas
基于葉綠體全基因組構建的系統(tǒng)進化樹與基于葉綠體CDS序列的系統(tǒng)發(fā)育樹進行分析(圖6),結果顯示,兩種系統(tǒng)發(fā)育樹具有很高的相似性,所有蘇鐵屬植物以100%的支持率聚為一個單系,灰干蘇鐵(C.hongheensis)、滇南蘇鐵(C.diannanensis)、海南蘇鐵(C.hainanensis)和葫蘆蘇鐵(C.changjiangensis)在兩種系統(tǒng)進化樹中展現(xiàn)出了相同的系統(tǒng)發(fā)育位置。但兩種系統(tǒng)發(fā)育樹也顯現(xiàn)出了一定的差異,基于葉綠體全基因組的系統(tǒng)發(fā)育樹顯示臺東蘇鐵(C.taitungensis)和閩南蘇鐵(C.taiwaniana),德保蘇鐵(C.debaoensis)和叉孢蘇鐵(C.segmentifida)分別聚為一個親緣分支,而基于CDS 序列構建的系統(tǒng)發(fā)育樹(圖5b)則將臺東蘇鐵(C.taitungensis)和叉孢蘇鐵(C.segmentifida)聚為近緣物種,德保蘇鐵與海南蘇鐵(C.hainanensis)、葫蘆蘇鐵(C.changjiangensis)的關系更為密切??偟膩碚f,葉綠體基因組的兩種系統(tǒng)發(fā)育樹展現(xiàn)出來的系統(tǒng)發(fā)育關系既存在著部分差異,也存在著一定的相似性。
圖5 9種蘇鐵屬植物葉綠體同義密碼子的使用頻率Figure 5 Frequency of synonymous codon usage in chloroplasts of nine Cycas species
圖6 基于CDS序列和葉綠體全基因組構建的蘇鐵屬物種系統(tǒng)發(fā)育樹Figure 6 Phylogenetic tree of Cycas constructed based on CDS and complete chloroplast genome
在本研究中9 種蘇鐵屬植物中其葉綠體基因組均為雙鏈環(huán)狀結構,在結構和含量上具有相似的裸子植物特征[31],葉綠體基因組長度差異較小,AT 含量高于GC 含量,rRNA 數(shù)量最為保守。以往的研究證實ycf3是一種與光合作用相關的基因[32],因此ycf3基因的出現(xiàn)可能提供對蘇鐵屬植物葉綠體的新的研究方向。蘇鐵屬葉綠體基因組中可以發(fā)現(xiàn)內含子的單拷貝和多拷貝現(xiàn)象[33-34],研究表明內含子在調節(jié)基因表達方面發(fā)揮著重要作用[35],它可能會控制不同時空中的基因表達水平[36-37]。蘇鐵屬植物的簡單重復序列的類型和數(shù)量上總體差異較小,表現(xiàn)相對保守,主要以單核苷酸序列為主,且以A/T 基元為主要重復類型。A/T 重復頻率較高的一個潛在原因是許多物種葉綠體基因中mRNA 末端的聚腺苷酸化。此外,在葉綠體復制過程中,A/T 的鏈分離比G/Cs 相對容易,這增加了滑脫的鏈錯配[38]。而物種之間離散重復序列差異較大,9 個物種的重復序列總數(shù)介于50~288之間,正向、反向、回文、互補4種類型均有被檢測到,4種重復類型的差異較小,與楊屬[39]、蕓苔屬[40]等結果相似,說明物種的親緣關系與重復序列的種類及數(shù)量存在一定的相關性。
通過分析IR-LSC/SSC 區(qū)域的邊界信息,對研究葉綠體基因組結構的差異、物種進化等具有重要意義[41-42]。早期研究表明,IRs區(qū)域是葉綠體基因組中最保守的區(qū)域[43],它在邊界的收縮和擴張是一個常見的進化形式,是葉綠體基因組大小變化和重排的主要原因。有許多報告表明葉綠體基因在大多數(shù)陸生植物中是保守的,但也有報告表明,有些植物的葉綠體基因組中有許多序列發(fā)生了重排,然后影響到邊界的收縮擴張[44-45]。對9 種中國特有蘇鐵屬植物的IR 邊界分析發(fā)現(xiàn)所有物種的基因的數(shù)量和順序是相似的,只是各基因與邊界的距離在9個物種中略有差別,表明中國特有的9種蘇鐵屬樹種葉綠體基因組具有較高的保守性[46]。HEBERT[47-48]提出可通過DNA 序列、ITS2、matK、psbA-trnH和rbcL等DNA 條形碼方法來識別物種。在目前的研究中,對9 種蘇鐵屬葉綠體基因組比對的分析顯示,trnK-UUU、trnF-GAA、trnC-GCA、trnM-CAU、trnH-GUG、trnL-CAA、trnPGGG、trnH-GUG等基因間隔區(qū)的非編碼區(qū)也存在不同程度的變異。因此,這些區(qū)域可以作為不同的命名片段來識別蘇鐵屬植物[49-50]。
分子進化中性理論認為,基因的堿基突變對密碼子的影響是中性的或近似中性的[51]。但如果基因組的密碼子受到外界環(huán)境選擇的影響,則會導致密碼子的使用和堿基組成出現(xiàn)偏向性[52]。中國特有蘇鐵屬植物葉綠體基因組密碼子偏好以A和U結尾,是該屬葉綠體基因組偏好的密碼子,這一結果與小檗屬[53]和睡蓮屬[54]的情況相似。對于最優(yōu)密碼子的篩選工作可以為后續(xù)蘇鐵屬植物的遺傳育種工作提供重要的參考依據(jù)。
基于葉綠體全基因組和CDS序列構建的兩種系統(tǒng)發(fā)育樹展現(xiàn)出來的系統(tǒng)發(fā)育關系具有相似性,這也說明了蛋白質編碼序列的堿基突變與生物的進化歷程存在一定聯(lián)系,基于葉綠體基因組CDS序列的系統(tǒng)發(fā)育關系能在一定程度上對物種的系統(tǒng)發(fā)育關系和生物進化歷程進行補充?;谌~綠體全基因組的進化關系和基于CDS的進化關系的不同,推測出現(xiàn)這種情況的原因可能是CDS序列包含了基因組的位點突變和非編碼區(qū)序列等的相關遺傳信息,葉綠體基因組非編碼區(qū)在系統(tǒng)進化中也有一定作用,非編碼區(qū)序列差異導致不同完全譜系分選[53],這種現(xiàn)象及推測也在櫻亞屬(subg.Cerasus)[55]、天胡荽屬(Hydrocotyle)[56]構建的系統(tǒng)發(fā)育樹中得到證實。本研究使用生物信息學手段,對中國特有的九種蘇鐵屬植物葉綠體基因組進行分析在一定程度上可為分子水平上的系統(tǒng)發(fā)育地位與進化研究提供依據(jù)。