黃瓊林,葉曉霞,譚靖怡,王燊,黃學(xué)山,賴(lài)嘉琪,吳民華(.廣東醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,廣東 湛江 540;.廣東醫(yī)科大學(xué)藥學(xué)院,廣東 湛江 540;.廣東醫(yī)科大學(xué)第一臨床醫(yī)學(xué)院,廣東 湛江 540)
葉綠體是綠色植物所具有半自主性細(xì)胞器,是高等植物合成淀粉、葉綠素、胡蘿卜素等次生代謝產(chǎn)物以及大部分氨基酸的場(chǎng)所,對(duì)植物的生命活動(dòng)有著舉足輕重的作用。葉綠體含有獨(dú)立于核基因組的遺傳體系,即葉綠體基因組[1]。在陸生植物中,葉綠體基因組約長(zhǎng)110~160 kb,由大單拷貝區(qū)(large single copy region,LSC)、小單拷貝區(qū)(small single copy region,SSC)以及位于LSC 和SSC 之間的兩個(gè)反向重復(fù)區(qū)(inverted repeat region,IR)4 部分構(gòu)成,呈現(xiàn)為雙鏈環(huán)形四段式結(jié)構(gòu)[2]。植物葉綠體基因組通常編碼110 ~130個(gè)與光合作用、自身轉(zhuǎn)錄翻譯、其他生物合成相關(guān)基因以及少數(shù)功能未知基因[3-4]。盡管結(jié)構(gòu)和基因組成保守,但I(xiàn)R 部分經(jīng)常發(fā)生擴(kuò)張和收縮,引起葉綠體基因組的變異和進(jìn)化[5]。因此,葉綠體基因組具有序列短、結(jié)構(gòu)穩(wěn)定、基因組成保守、進(jìn)化速率適中等特點(diǎn)[2-3]。鑒于這些優(yōu)勢(shì),葉綠體基因組已被應(yīng)用于植物的物種鑒定[6]、遺傳多樣性[7]、進(jìn)化發(fā)育[8]等研究。
半邊旗PterissemipinnataL.為鳳尾蕨科鳳尾蕨屬多年生草本植物,在嶺南地區(qū)分布較廣,其全草入藥,具有生肌止痛、涼血止血、清熱解毒的功效,常被用于治療跌打損傷、外傷出血、目赤腫痛以及痢疾、毒蛇咬傷等病癥[9]。半邊旗主要成分為萜類(lèi)、黃酮及其苷類(lèi),其中一個(gè)貝殼杉烷型二萜類(lèi)化合物5F(11α-羥基-15-氧-16-烯-貝殼杉烷-19酸)具有顯著的抗腫瘤作用且無(wú)明顯毒性[10-11]。目前半邊旗的研究主要集中在植物化學(xué)以及5F 的藥理藥效方面,而半邊旗基于葉綠體基因組的遺傳多樣性、系統(tǒng)進(jìn)化等研究仍為空白。此外,半邊旗與同屬井欄邊草P.multifidia、蜈蚣草P.vittata等植物形態(tài)較為相似,容易混淆[12],因此,以葉綠體基因組為手段進(jìn)行半邊旗的物種鑒定,對(duì)其臨床用藥安全也具有重要的意義。
本研究采用高通量測(cè)序技術(shù)獲取半邊旗的葉綠體基因組序列,從結(jié)構(gòu)組成、密碼子偏好性、簡(jiǎn)單重復(fù)序列等方面分析其葉綠體基因組特征,并將半邊旗與近緣物種進(jìn)行葉綠體基因組比較分析,探討它們之間的系統(tǒng)發(fā)育關(guān)系,以期從基因組學(xué)層面為半邊旗的物種鑒定、遺傳多樣性、進(jìn)化發(fā)育等研究提供參考。
1.1 植物材料半邊旗的新鮮植株采自廣西壯族自治區(qū)欽州市浦北鎮(zhèn),經(jīng)廣東醫(yī)科大學(xué)天然藥物研究與開(kāi)發(fā)重點(diǎn)實(shí)驗(yàn)室吳科鋒研究員鑒定。取其生長(zhǎng)旺盛、無(wú)病蟲(chóng)害的葉片,置于-80 ℃保存?zhèn)溆谩?/p>
1.2 DNA 提取和測(cè)序使用Magbead Plant DNA Kit(北京康為世紀(jì)生物科技有限公司)提取基因組總DNA,經(jīng)質(zhì)檢合格后,通過(guò)超聲法隨機(jī)打斷,采用NexteraXT DNA Library Preparation Kit(美國(guó)因美納公司)構(gòu)建DNA文庫(kù),并運(yùn)用NovaSeq 6000高通量測(cè)序平臺(tái)(美國(guó)因美納公司)進(jìn)行雙端測(cè)序,獲得原始讀序(raw read)。
1.3 葉綠體基因組組裝和注釋采用NGS QC Tool Kit軟件包對(duì)獲得的raw read進(jìn)行質(zhì)量評(píng)價(jià),剔除低質(zhì)量序列、構(gòu)建文庫(kù)時(shí)加上的接頭序列以及存在不確定堿基的序列,以獲得高質(zhì)量讀序(clean read)。以井欄邊草P.multifidia的葉綠體基因組序列(Genbank 登記號(hào):MZ848380)為參考,采用SPAdes 3.11.0 軟件對(duì)clean read進(jìn)行序列拼接,并使用PLANN軟件對(duì)所得序列進(jìn)行基因注釋和歸類(lèi)。將拼接和注釋完整的半邊旗葉綠體基因組序列提交至Genbank,登記號(hào)為OL681881。運(yùn)用OrganellarGenomeDraw(OGDRAW)軟件進(jìn)行半邊旗葉綠體基因組的可視化并繪制其圖譜。
1.4 葉綠體基因組結(jié)構(gòu)分析采用Codon W v1.3軟件統(tǒng)計(jì)同義密碼子相對(duì)使用度(relative synonymous codon usage,RSCU),分析半邊旗葉綠體基因組編碼區(qū)(coding sequence,CDS)的密碼子偏好性。若RSCU>1,表示該密碼子使用頻率相對(duì)較高;若RSCU<1,則表示此密碼子使用頻率相對(duì)較低。使用MISA v2.1 軟件(https://webblast.ipk-gatersleben.de/misa/)分析簡(jiǎn)單重復(fù)序列(simple sequence repeat,SSR)類(lèi)型和分布,SSR 基序的長(zhǎng)度設(shè)置為1、2、3、4、5、6,對(duì)應(yīng)的最小重復(fù)數(shù)依次為10、5、4、3、3、3。
1.5 葉綠體基因組比較分析采用IRscope軟件(https://irscope.shinyapps.io/irapp/)進(jìn)行半邊旗與井欄邊草Pterismultifida、蜈蚣草Pterisvittata、栗蕨Histiopteris incisa、尖葉鹵蕨Acrostichumspeciosum的邊界分析,比較它們的IR 收縮和擴(kuò)張情況。采用基于Shuffle-LAGAN 模式的mVISTA 軟件(http://genome.lbl.gov/vista/mvista/submit.shtm)進(jìn)行上述5 種植物葉綠體基因組的多重比對(duì),尋找它們的序列差異性。
1.6 進(jìn)化發(fā)育分析將半邊旗的葉綠體基因組序列與從Genbank數(shù)據(jù)庫(kù)下載的9種植物的葉綠體基因組序列共同導(dǎo)入MAFFT v7.429 軟件進(jìn)行多重比對(duì),并使用IQTREE 1.6.12軟件進(jìn)行系統(tǒng)進(jìn)化樹(shù)的構(gòu)建,建樹(shù)模式設(shè)置為最大似然法(Maximum likelihood,ML),自展值設(shè)置為1 000。
2.1 葉綠體基因組的基本特征如圖1所示,半邊旗葉綠體基因組呈現(xiàn)為典型的環(huán)狀雙鏈四分體結(jié)構(gòu),全長(zhǎng)為162 270 bp,GC含量(即整個(gè)基因組序列中鳥(niǎo)嘌呤和胞嘧啶所占的比例)為42.3%,平均測(cè)序深度為462X。其中,LSC 長(zhǎng)度為81 963 bp,SSC 長(zhǎng)度為21 125 bp,兩個(gè)反向重復(fù)區(qū)IRA 和IRB 的長(zhǎng)度則均為29 591 bp。
圖1 半邊旗葉綠體基因組圖譜Figure 1 Genome map of chloroplast genome from Pteris semipinnata L.
2.2 葉綠體基因注釋和歸類(lèi)半邊旗葉綠體基因組共注釋到131 個(gè)基因,其中蛋白編碼基因88 個(gè),rRNA基因8 個(gè),tRNA 基因35 個(gè)。其中rps16、trnG-UCC、atpF、rpoC1、trnL-UAA、trnV-UAC、petB、petD、rpl2、trnI-GAU、trnA-UGC、ndhA、rpl16、trnT-UGU基因各含有一個(gè)內(nèi)含子,clpP、ycf3基因含有兩個(gè)內(nèi)含子,ndhB、rps12基因存在反式剪接情況。見(jiàn)表1。
表1 半邊旗葉綠體基因的組成的歸類(lèi)Table 1 Classification of composition of chloroplast genome in P.semipinnata
2.3 密碼子偏好性分析在半邊旗葉綠體基因組的編碼區(qū)中共檢測(cè)到27 395 個(gè)密碼子,除了89 個(gè)為終止密碼子外,其余的密碼子共編碼20 種氨基酸。其中編碼亮氨酸(Leu)的密碼子最多,達(dá)2 897 個(gè),而編碼色氨酸(Trp)的密碼子最少,僅447 個(gè)。所有密碼子的RSCU 值如圖2 所示,UUA 的RSCU 值最高,為1.63,是半邊旗葉綠體基因子使用頻率最高的密碼子;而GGC 的RSCU 值最小,為0.6,是最不常用的密碼子。RSCU值大于1的密碼子共有31個(gè),其中以A/U(T)結(jié)尾的有28 個(gè),表明半邊旗葉綠體基因組密碼子偏好以A/U(T)堿基結(jié)尾。
圖2 半邊旗葉綠體基因組同義密碼子使用情況Figure 2 Relative synonymous codon usage(RSCU)in chloroplast genome of P.semipinnata
2.4 SSR 分析如表2所示,半邊旗葉綠體基因組中共檢測(cè)到59個(gè)SSR,包括48個(gè)單核苷酸、7個(gè)二核苷酸、2 個(gè)三核苷酸和2 個(gè)四核苷酸基SSR,未檢測(cè)到五、六核苷酸基序SSR。SSR 類(lèi)型以A/T 居多,共35 個(gè),而且大多數(shù)SSR以A或T堿基結(jié)尾。這些SSR主要分布在基因間隔區(qū)(45個(gè),76.3%),其次是位于內(nèi)含子(9 個(gè),15.3%),分布在編碼區(qū)的SSR 最少(5 個(gè),8.5%)。
表2 半邊旗葉綠體基因組SSR 統(tǒng)計(jì)Table 2 SSR statistics in chloroplast genome of P.semipinnata
2.5 IR 邊界分析對(duì)半邊旗及井欄邊草Pteris multifida、蜈蚣草Pterisvittata、栗蕨Histiopteris incisa、尖葉鹵蕨Acrostichumspeciosum葉綠體基因組進(jìn)行邊界分析,結(jié)果如圖3 所示。5 種植物的JLB(LSC-IRB 邊界)均位于基因間隔區(qū),分別距離位于SSC中的trnI基因50、74、49、47和3 bp。半邊旗與井欄邊草、蜈蚣草、栗蕨的JSB(SSC-IRB 邊界)均位于ndhF基因內(nèi),且位置偏差不超出5 bp,較為保守;而尖葉鹵蕨的JSB與其他4種植物呈現(xiàn)較大的差異,ndhF基因在這個(gè)位置出現(xiàn)缺失。5種植物的JSA(SSC-IRA邊界)相似度較大,均位于chlL基因內(nèi),除尖葉鹵蕨外,位置偏差在5 bp以?xún)?nèi)。5種植物的JLA(LSC-IRA 邊界)均位于基因間隔區(qū),分別距離位于IRa中的ndhB基因391、1、374、377和476 bp。
圖3 5 種植物的葉綠體基因組LSC/SSC 和IR 區(qū)域的邊界分析Figure 3 Boundary analysis of LSC/SSC and IR regions in chloroplast genomes of five plants
2.6 序列差異性分析對(duì)半邊旗等5種植物葉綠體基因組進(jìn)行全序列比對(duì),結(jié)果經(jīng)可視化后如圖4 所示。在5種植物葉綠體基因組中,LSC區(qū)的序列變異程度高于SSC 區(qū),非編碼區(qū)的序列變異明顯大于編碼區(qū)。5種植物中,同屬的半邊旗、蜈蚣草、井欄邊草的序列相似度較高,而來(lái)自其他屬的栗蕨和尖葉鹵蕨的序列差異性較大;在鳳尾蕨屬的3種植物中,半邊旗與井欄邊草的序列相似度高于蜈蚣草,大多數(shù)基因的相似率在80%以上。
圖4 5 種植物的葉綠體基因組序列變異分析Figure 4 Sequence variation in the chloroplast genomes of five plants
2.7 進(jìn)化發(fā)育分析為理解半邊旗的進(jìn)化位置,將半邊旗等10 種植物葉綠體基因組進(jìn)行多重比對(duì)并構(gòu)建系統(tǒng)進(jìn)化樹(shù),結(jié)果如圖5所示。半邊旗與同屬的井欄邊草、蜈蚣草最先聚集在一起,說(shuō)明它們的親緣關(guān)系最近,與傳統(tǒng)植物分類(lèi)結(jié)果相符。
圖5 基于葉綠體基因組序列構(gòu)建的10 種植物系統(tǒng)進(jìn)化樹(shù)Figure 5 Phylogenetic tree of 10 plants based on chloroplast genome sequences
本研究完成了半邊旗葉綠體基因組的測(cè)序、組裝和注釋?zhuān)l(fā)現(xiàn)其具有植物葉綠體基因組典型的環(huán)狀雙鏈四分體結(jié)構(gòu),總長(zhǎng)度162 270 bp,含有LSC、SSC以及位于它們之間的2個(gè)IR,且2個(gè)IR的序列相同、方向相反。半邊旗葉綠體基因組共編碼131個(gè)基因,按功能可分為自我復(fù)制相關(guān)基因、光合作用相關(guān)基因、其他基因以及未知基因4 類(lèi),與高良姜[13]、露兜樹(shù)[14]等植物葉綠體基因組的基因構(gòu)成一致。因此,半邊旗葉綠體基因組符合植物葉綠體基因組的結(jié)構(gòu)特點(diǎn)。
密碼子偏好性可以在一定程度上反映基因的進(jìn)化程度以及評(píng)估最優(yōu)密碼子和基因的表達(dá)水平[15]。本研究中,在半邊旗葉綠體基因組的編碼區(qū)共檢測(cè)出27 395 個(gè)密碼子,其中以編碼亮氨酸的密碼子最多,且密碼子偏向使用A 或U(T)兩種堿基,此結(jié)果也與高良姜[13]、露兜樹(shù)[14]等研究中多種植物葉綠體基因組密碼子偏好性相一致。
SSR具有高重復(fù)性、高突變率、共顯性遺傳等特點(diǎn),是廣泛應(yīng)用于品種鑒定、遺傳多樣性、分子輔助育種等研究的一種分子標(biāo)記[16]。本研究發(fā)現(xiàn),半邊旗葉綠體基因組共含有59 個(gè)SSR,其中單核苷酸重復(fù)基序占比例最大,達(dá)到81.4%(48/59),并且由A和T 堿基單獨(dú)或組合形成的SSR 占比為71.2%(42/59)。結(jié)果表明,半邊旗葉綠體基因組與絕大多數(shù)植物的葉綠體基因組一致,SSR 以單核苷酸重復(fù)基序?yàn)橹鳎乙訟 和T 堿基及其組合的重復(fù)基序?yàn)橹饕?lèi)型。SSR 分析可為后續(xù)基于葉綠體DNA 的半邊旗分子標(biāo)記開(kāi)發(fā)提供數(shù)據(jù)。
葉綠體基因進(jìn)化速率適中,是物種鑒定的常用DNA 條形碼,如馬新業(yè)等[17]曾采用葉綠體psbA-trnH間隔區(qū)在科的水平上有效地鑒別了79 種藥用蕨類(lèi)。本研究對(duì)半邊旗以及同屬植物井欄邊草、蜈蚣草進(jìn)行葉綠體基因組全序列比較,發(fā)現(xiàn)它們?cè)趍atK、rbcL、rpoB、rpoC、psbA-trnH間隔區(qū)等區(qū)域均有明顯的堿基差異,提示葉綠體基因可以實(shí)現(xiàn)半邊旗與屬內(nèi)近緣物種的鑒別。后續(xù)實(shí)驗(yàn)可比對(duì)分析半邊旗與近緣、易混物種的matK、rbcL、rpoB、rpoC、psbAtrnH間隔區(qū)等常用DNA 條形碼序列,建立基于葉綠體DNA 序列的半邊旗真?zhèn)舞b別體系,為半邊旗的資源保護(hù)和臨床用藥安全提供依據(jù)。本研究也發(fā)現(xiàn),鳳尾蕨屬3個(gè)物種葉綠體基因組的序列差異較大,而決明子屬[18]、蒿屬[19]等被子植物葉綠體基因組的屬內(nèi)變異水平不及鳳尾蕨屬明顯,可能是由于蕨類(lèi)植物起源遠(yuǎn)早于被子植物,進(jìn)化時(shí)間更長(zhǎng)[20]。葉綠體基因組在不同植物類(lèi)群中的屬內(nèi)進(jìn)化差異仍需進(jìn)一步研究。
綠體基因組結(jié)構(gòu)和基因組成雖然比較保守,但在進(jìn)化過(guò)程中,IR 區(qū)經(jīng)常發(fā)生收縮或擴(kuò)張,造成植物不同類(lèi)群出現(xiàn)葉綠體基因組長(zhǎng)度的差異[21]。本研究發(fā)現(xiàn),半邊旗、蜈蚣草、井欄邊草、栗蕨及尖葉鹵蕨等5種植物的葉綠體基因組比較保守,但尖葉鹵蕨與其他4種植物在邊界收縮與擴(kuò)張上的差異多一些,主要體現(xiàn)尖葉鹵蕨在SSC-IRb 邊界的ndhF基因缺失。系統(tǒng)進(jìn)化樹(shù)也表明,半邊旗與同屬植物聚成鳳尾蕨科分支,再與鹵蕨科栗蕨等物種聚成一個(gè)大分支,其他科植物也分別聚成相應(yīng)的科分支,較好地反映了半邊旗的進(jìn)化地位。
本研究采用高通量測(cè)序和生物信息學(xué)方法,組裝和注釋蕨類(lèi)中藥半邊旗的葉綠體基因組,并解析了其結(jié)構(gòu)特點(diǎn)和系統(tǒng)進(jìn)化關(guān)系,研究結(jié)果豐富了蕨類(lèi)植物的基因組信息資料,也為半邊旗的物種鑒定、遺傳多樣性和產(chǎn)品開(kāi)發(fā)等可持續(xù)性利用研究奠定了堅(jiān)實(shí)的基礎(chǔ)。