陳曉穎,胡本祥,2,史嘉周,楊冰月,張 崗,彭 亮*
(1 陜西中醫(yī)藥大學 藥學院,陜西省秦嶺中草藥應用開發(fā)工程技術研究中心,“秦藥”研發(fā)重點實驗室,西安 712046;2 陜西國際商貿學院,西安 712046)
茜草(RubiacordifoliaL.),又名紅茜根、滿江紅,為茜草科(Rubiaceae)茜草屬(RubiaLinn.)多年生草質攀緣植物,廣泛分布于中國西北、華北、東北及朝鮮、印度和日本等地[1]。茜草具有極高的藥用和工業(yè)價值,其根及根莖是中國大宗中藥材品種之一,具有涼血、祛瘀、止血、通經的功效,在傳統中醫(yī)中常用于治療各種血液循環(huán)并發(fā)癥,如痛經和血瘀等[2]?,F代研究表明,蒽醌及其衍生物為茜草的主要活性成分,特別是茜草素和紫羅蘭素,具有止血、抗炎、抗氧化、抗癌、抗菌等多種藥理活性[3-6]。同時,茜草素和紫羅蘭素也一直被用作棉、絲和羊毛織物的重要天然染料,具有良好的藥用價值與經濟價值[7-9]。
葉綠體是綠色植物特有的半自主型細胞器,擁有源于母系遺傳的獨立基因組,在植物細胞中發(fā)揮著重要作用[10]。葉綠體基因組是1個圓形結構,具有保守的四分體結構,包括1個大單拷貝(LSC)區(qū)和1個小單拷貝(SSC)區(qū),2個相互倒置的重復(IR)區(qū)域,LSC和SSC正好被2個序列相同但方向相反的IR序列分開[11]。與核基因組相比,葉綠體基因組結構穩(wěn)定,具有分子進化速率適宜、序列高度保守、基因密集度高等優(yōu)點[12]。同時,葉綠體基因組的特點是單倍體、母系遺傳、分子數量小和高度保守的序列結構,其序列變異可以為植物分類和遺傳關系提供重要理論依據[13]。鐘志敏[14]運用DNA條形碼技術,結合植物葉綠體全基因組分析,對石斛屬物種成功進行了鑒定;Cui等[15]基于3種豆蔻屬植物葉綠體基因組進行了特征比較與系統發(fā)育分析;Chen等[16]把整個葉綠體基因組用作鑒別物種的超級條形碼,對6種橐吾屬植物進行了有效識別。由此說明葉綠體基因組在研究植物進化、物種鑒定、資源開發(fā)與分子標記等方面可作為有利技術手段[17]。
茜草屬多種植物具有藥用價值,它們外觀形態(tài)相似,難以區(qū)分,在實際用藥和生產中極易因物種差異而影響治療效果[18]。研究證實,不同藥用植物的化學成分與親緣關系之間存在相關性,親緣關系越近,成分越類似[19]。因此,獲得茜草的遺傳資源信息,解析茜草及其同屬近緣種的親緣關系,可為其新藥源及其替代品的挖掘提供證據。目前,茜草的研究多集中于化學成分[20]、藥理作用[21]、非藥用部位[22]和染色[23]等方面,缺乏關于遺傳和葉綠體基因組等方面的分析?;诖?本研究運用高通量技術對茜草全葉綠體基因組進行測序、組裝、注釋,并對測序結果進行結構特征和序列變異解析;同時,選取與茜草同科共20種植物進行系統發(fā)育分析,對其親緣關系進行探討與比較,以期為之后茜草的物種鑒定與區(qū)分、資源開發(fā)與利用、系統發(fā)育等研究奠定理論基礎。
茜草樣品采自陜西省咸陽市陜西中醫(yī)藥大學藥用植物園(108°16′26″E,34°19′3″N),經陜西中醫(yī)藥大學胡本祥教授鑒定,憑證標本保存于陜西省秦嶺中草藥應用開發(fā)工程技術研究中心。取茜草新鮮葉片,清洗干凈后液氮速凍,存放于-80 ℃冰箱。
1.2.1 基因組DNA提取與測序
運用植物基因組DNA提取試劑盒(TIANGEN)提取茜草葉片總DNA后,對其純度、降解程度、是否存在RNA及蛋白污染、濃度進行測定;合格DNA樣品運用超聲技術隨機打斷,再通過末端修復、加A尾、加測序接頭、純化、PCR 擴增等方法,構建文庫。利用Illumina高通量測序平臺HiSeq X Ten測序,獲得序列原始數據(raw data),原始數據質控合格后進行數據分析,最終得到高質量的clean data,以FASTQ格式提供[24]。
1.2.2 葉綠體全基因組序列組拼接與注釋
運用Gurevich對序列拼接軟件進行測試,以IDBA-UD和SPAdes效果最佳。本研究采用SPAdes v3.11.1拼接軟件對clean data的優(yōu)化序列進行拼接和組裝,Kmer長度參數設置分別為107、117、127[25]。利用DOGMA軟件對基因內序列長度、GC含量等進行預測,并利用Geneious軟件對注釋結果進行手動校正[26];使用OGDRAW軟件繪制葉綠體全基因組圖譜[27]。最終注釋的葉綠體基因組提交至NCBI,獲得登錄號OK326894。
1.2.3 葉綠體基因組特征分析
采用MEGA11[28]進行密碼子特征分析,包括同義密碼子使用量、相對同義密碼子使用值(RSCU)、堿基組成和密碼子含量的變化特征。使用SSRHunter軟件[29-30]鑒定葉綠體基因組中的簡單序列重復序列(SSR),參數分別設置為8、5、4、3、3、3(單核苷酸至六核苷酸),且2個SSRs之間的最小距離為100 bp。SC/IR邊界使用IRSCOPE[31]進行作圖分析。mVISTA軟件[32](https://genome.lbl.gov/vista/mvista/submit.shtml)做全基因組對比,分析時勾選全局對比(Shuffle-LAGAN)。
1.2.4 系統發(fā)育分析
從NCBI(https://www.ncbi.nlm.nih.gov)下載茜草科茜草亞科植物Rubiahorrida(KY378689)、Rubiacordifolia(OK326894)、Galiummollugo(KY562588)、Galiumaparine(KY562587)、Paederiafoetida(KY378691)、Paederiascandens(NC_049155)、Leptodermisscabrida(NC_049160)、Hedyotisovata(MK203877)、Gynochthodesparvifolia(NC_054151)、Gynochthodesofficinalis(NC_028009)、Morindacitrifolia(KY378694)、Damnacanthusindicus(MW548283)、Saprosmamerrillii(MK203879),共13種;下載仙丹花亞科植物Coffeacanephora(NC_030053)、Coffeaarabica(NC_008535)、Mussaendahirsutula(MK203878)、Emmenopteryshenryi(KY273445),共4種;下載金雞納亞科植物Mitragynaspeciosa(KY085908)、Cinchonaofficinalis(MZ151891)、Antirheachinensis(NC_044102),共3種,所選取的三類亞科的19種植物均屬于茜草科,可直觀對樣品茜草與同科植物、同屬植物之間的親緣關系進行分析;同時,選擇玄參科植物Buddlejaalternifolia(MN395662)和Buddlejacolvilei(NC_042766)作為外類群,利用MAFFT version 7[24]軟件進行序列多重比對,輸出注釋好的文件,檢查所得結果并進行校驗;采用最大似然法(maximum likelihood method,ML)分析系統演化關系。用MEGA11軟件生成系統發(fā)育樹,除自展值Bootstrap value設為1 000外[33],其他參數設置為默認。
茜草葉綠體基因組共測得47 407 072條total reads,質控后獲得47 404 064條高質量的clean reads,占比率高達99.99%,組裝、拼接后獲得葉綠體基因組序列(圖1)。如圖所示,茜草葉綠體基因組為典型的四分環(huán)狀結構,基因組整體GC含量為37.2%;序列長度為153 959 bp,包括1個83 844 bp的大單拷貝區(qū)(large single-copy,LSC)、1個17 083 bp的小單拷貝區(qū)(small single-copy,SSC)和1對長度為26 516 bp反向重復區(qū)(inverted repeat region,IRs)。SSC、LSC和IR區(qū)的GC含量依次為30.9%、34.7%和40.3%(表1)。
表1 茜草葉綠體基因組堿基組成
圖1 茜草葉綠體基因組圖譜Fig.1 Gene map of Rubia cordifolia chloroplast genome
茜草葉綠體基因組共注釋得到124個基因,包括與植物光合作用相關的基因、與自我復制相關的基因,以及一些功能未知的基因,分別為79個蛋白編碼基因、37個tRNA基因和8個rRNA基因(表2)。其中,6個tRNA基因(trnA-、trnI-、trnK-、trnL-、trnS-、trnV)、7個蛋白編碼基因(rps16、rpl2、rpoC1、ndhA、ndhB、atpF、ycf1)中各包含1個內含子, 而rps12、clpP和ycf3基因則各包含2個內含子。
表2 茜草葉綠體基因組基因
茜草葉綠體基因組有64種密碼子,總長78 113 bp,GC含量為37.67%。除終止密碼子外,20種氨基酸由其他密碼子編碼而來。其中,以亮氨酸(Leu)使用最為頻繁,其數量為3 680;其次是絲氨酸(Ser),數量為2 188;使用次數最少的是半胱氨酸(Cys),數量為402。RSCU分析結果表明,在所示的64種密碼子中,有33種密碼子的RSCU>1,占總量的72.39%,其中29種以A/U結尾,4種以G/C結尾(表3)。
表3 茜草密碼子
重復序列(SSR)廣泛存在于葉綠體基因組中,常用于植物物種鑒定的研究中。在茜草葉綠體基因組中共檢測到169個SSRs,包括129個單核苷酸、18個雙核苷酸、11個三核苷酸,9個四核苷酸和2個五核苷酸,六核苷酸SSR未檢測到;其中,單核苷酸居多,以A和T組成為主,表明在堿基形成過程中A和T被頻繁使用(表4)。
表4 茜草葉綠體基因組的SSR
文章選取了茜草科10種植物進行葉綠體基因組邊界分析,分別為茜草亞科(6種)、仙丹花亞科(2種)和金雞納亞科(2種),從上至下依次為茜草Rubiacordifolia(OK326894)、糙葉野丁香Leptodermisscabrida(NC_049160)、雞屎藤Paederiascandens(NC_049155)、四葉葎Galiummollugo(KY562588)、原拉拉藤Galiumaparine(KY562587)、卵葉耳草Hedyotisovata(MK203877)、中??Х菴offeacanephora(NC 030053)、小??Х菴offeaarabica(NC_008535)、美麗帽柱木Mitragynaspeciosa(KY085908)、正雞納樹Cinchonaofficinalis(MZ151891),如圖2。結果顯示,所選取植物的葉綠體基因組共有4個邊界。茜草、四葉葎、原拉拉藤、中??Х?、小??Х群兔利惷敝镜腏LB(LSC/IRb)位于rps19基因編碼區(qū)內,且向IRb區(qū)有14~95 bp的擴張;正雞納樹的JLB邊界則位于rpl16基因上,向IRb區(qū)擴張了193 bp;糙葉野丁香JLB邊界位于rps19和trnH基因之間;雞屎藤的JLB邊界位于rps19和rps12之間;僅卵葉耳草JLB(LSC/IRb)邊界位于rps22和rps19之間。
圖2 茜草科植物葉綠體基因組的IR/SC邊界變化情況Fig.2 Changes of IR/SC boundary of chloroplast genomes of Rubiaceae species
在JSB(IRb/SSC)邊界區(qū),茜草缺失ycf1基因;除中粒咖啡、小??Х群兔利惷敝就?其他6種植物JSB邊界均位于在SSC區(qū)的ndhF基因之內,且向IRb邊界擴張了5~76 bp。10種植物的JSA(SSC/IRa)邊界均位于ycf1基因內,長度向IRa區(qū)域不同程度擴張,為1 057~1 919 bp;在JLA(IRa/LSC)的邊界處,10種植物均含有trnH基因,但糙葉野丁香的trnH基因位于IRa區(qū)域,其他9種植物則位于LSC區(qū);茜草、雞屎藤、四葉葎和美麗帽柱木的JLA邊界位于rpl2與trnH基因之間;原拉拉藤、卵葉耳草、中粒咖啡和小??Х鹊腏LA邊界則位于rps19與trnH基因之間;正雞納樹的JLA邊界位于rps3和trnH之間;僅有糙葉野丁香的JLA邊界位于trnH與psbA基因之間。
從以上分析結果來看,茜草屬不同亞科植物在進化過程中IR邊界區(qū)中存在一定的收縮和擴張,且不同物種之間存在部分差異,但總體來說,IR區(qū)的變化幅度較小,葉綠體基因組較為保守。
以茜草(OK326894)葉綠體基因組作注釋,使用mVISTA在線工具進行葉綠體基因組全序列對比分析(圖3)。如圖3所示,茜草科植物葉綠體基因組的基因區(qū)間組成差異性較小,較為一致。結合邊界分析,可見本文所選茜草科植物總體上LSC、SSC區(qū)域變異程度高,大于IR區(qū);從四大區(qū)段來看,LSC區(qū)變化異性最大,IRA區(qū)變化差異性最小,最為保守。從非基因編碼區(qū)和基因編碼區(qū)來看,非基因編碼區(qū)變異程度較高,基因編碼區(qū)較為保守,但在rps16、rpoB、ycf3、clpP、ndhF、ndhA和ycf1等基因編碼區(qū)變異程度較大,存在顯著差異。
圖3 茜草科植物葉綠體基因組序列比對分析Fig.3 Genome sequence alignment of Rubiaceae chloroplasts
以茜草科3個亞科(茜草亞科、仙丹花亞科、金雞納亞科)共20種植物為內類群,同時選取玄參科2種植物為外類群,采用最大似然法(ML法)構建植物系統發(fā)育樹(圖4)。結果表明,茜草Rubiacordifolia(OK326894)與登錄號為KY378689的Rubiahorrida以100%支持率聚為一類,兩者親緣關系好;茜草屬、拉拉藤屬、雞屎藤屬共6種植物與糙葉野丁香、卵葉耳草聚為一小支;羊角藤屬2種植物與海濱木巴戟、虎刺、瓊島染木樹聚為一小支;兩小支構成姐妹類群,支持率均為100%,為茜草亞科組。仙丹花亞科組4種植物與金雞納亞科組3種植物共同聚為一支,除咖啡屬粗毛玉葉金花、美麗帽柱木正雞納樹這個節(jié)點支持率分別為97%、81%外,其他節(jié)點均為100%。
圖4 基于22個物種葉綠體基因組序列構建的系統發(fā)育樹Fig.4 Phylogenetic tree constructed with 22 species chloroplast genome sequences
茜草是一種分布廣泛的多年生植物,最初以天然植物染料見于《詩經》中,后其根及根莖作為中藥被記載于《神農本草經》中[34]。作為天然植物染料用,茜草染色效果好、著色牢固,中國、印度、波斯等地區(qū)曾先后將其用于棉、麻、絲、皮革的染色[35]。現代研究中,茜草也可用于合成材料如滌綸的染色[36]。作中藥用,茜草具有涼血、止血、化瘀、通經的作用,臨床多用于治療血熱引起的各種崩漏出血、腫瘤以及跌打損傷腫痛等癥狀[2]。可知,茜草具有極高的藥用價值與經濟價值,應用歷史悠久。葉綠體基因組是被子植物中的保守結構,Daniell等[37]表明植物葉綠體基因組呈四分環(huán)狀,長度在107~218 kb之間,包括小單拷貝區(qū)18~20 kb、大單拷貝區(qū)81~90 kb以及2個反向重復區(qū)20~30 kb。本研究中,通過測序、組裝和注釋獲得的茜草葉綠體全基因組序列長度為153 959 bp(GC含量37.2%),其中大單拷貝區(qū)83 844 bp、小單拷貝區(qū)17 083 bp、反向重復序列區(qū)26 516 bp,符合被子植物葉綠體的特征結構[38];同時,與已發(fā)表的茜草同屬植物紫參(155 108 bp,36.98%)[39]、同科植物丁茜(152 407 bp,37.63%)[40]相比,三者基因組大小、結構和組成以及GC含量高度相似,證明茜草科植物在進化過程中有良好的保守性。
密碼子在生物體遺傳信息傳遞中起著重要的作用,作為紐帶聯系核酸、蛋白質和遺傳物質,其偏好使用對研究基因功能、物種進化等問題提供了可靠的信息[41-42]。本研究中茜草葉綠體基因組對A/U結尾密碼子的偏好性高于G/C結尾密碼子,這與李亞磷等[43]對茜草同科植物小??Х鹊拿艽a子偏好分析一致,說明物種之間親緣關系越近,密碼子偏好性使用越類似,印證了Liu等[44]的結論。簡單重復序列(SSR)廣泛分布于大多數植物中,主要存在于基因外部和基因非編碼區(qū),常被用在物種鑒定、遺傳多樣性分析及分子標記輔助育種等方面[45]。在本研究中茜草葉綠體基因組中共檢測到169個SSR位點,單核苷酸最多,雙核苷酸次之,且SSR位點多以A/T、AT/AT、AAT/ATT、AAAT/ATTT組成,證明茜草葉綠體基因組在堿基形成中A、T被頻繁使用,這與已發(fā)表的其他植物葉綠體基因組結果[46]相似,檢測到的SSR位點可為后續(xù)茜草的物種鑒別、親緣關系分析和分子標記提供理論依據。除此之外,反向重復區(qū)的收縮、擴張和缺失都會引起葉綠體基因組的差異[47],對茜草科植物的 IR/SC 邊界和序列變異分析發(fā)現,SSC/IR邊界區(qū)域差異性較大,LSC/IR區(qū)域差異變化小,但總體來說,整個基因組仍然較為保守;存在部分差異的區(qū)域,可為茜草科不同物種鑒定和系統發(fā)育分析提供分子依據。
為了進一步揭示茜草科物種間親緣關系,本文選取了20種茜草科植物以及玄參科2種植物作為外類群建立ML系統發(fā)育樹。結果顯示,樣品茜草(OK326894)與同屬植物Rubiahorrida以100%支持率聚為一類,茜草亞科、仙丹花亞科與金雞納亞科聚為姐妹類群,除咖啡屬-粗毛五葉金花、美麗帽柱木-正雞納樹這2個節(jié)點支持率分別為97%、81%,其他節(jié)點均為100%。此系統發(fā)育與同屬植物紫參[39]分析結果相似,但本文增加了除茜草亞科以外的其他兩種亞科的植物構建系統發(fā)育樹,完善了茜草科植物的進化關系,證明茜草科植物在進化過程中保守發(fā)育。茜草科植物約有600多個屬,13 000余種,在中國約有98屬近700種[40],《中國藥典》中僅收錄有茜草RubiacordifoliaL.的根及根莖,部分同屬植物被地方所收錄;茜草偽品較多,除同屬之間物種形態(tài)相似易混用之外,還有非同屬植物被混作藥用,市場上常將茜草科植物蓬子菜GaliumverumL.、唇形科植物丹參SalviamiltiorrhizaB.作為茜草混偽品使用,陳一龍等[48]運用DNA條形碼技術對茜草及其混偽品進行了鑒別,但并未區(qū)分茜草屬其他物種;本研究通過對茜草葉綠體基因組的全面解析,明確了其葉綠體因組的序列特征和系統發(fā)育關系,為準確鑒定茜草及其近緣物種提供分子依據,為茜草在藥材選用、市場流通以及真?zhèn)纹疯b別等實際應用方面提供數據參考。