李俊霖,郭淑紅,張 強,張麗君,田洪嶺*,張 瓊*
1.山西醫(yī)科大學(xué)藥學(xué)院,山西 太原 030001
2.山西農(nóng)業(yè)大學(xué)經(jīng)濟作物研究所,山西 太原 030031
3.山西農(nóng)業(yè)大學(xué) 農(nóng)業(yè)基因資源研究中心,山西 太原 030031
黃芪為豆科植物蒙古黃芪Astragalus membranaceus(Fisch.) Bge.var.mongholicus(Bge.)Hsiao 或膜莢黃芪A.membranaceus(Fisch.) Bge.干燥的根,是人們熟知的一種藥食同源型植物,在中國的山西、內(nèi)蒙古、東北等地廣泛栽培[1]。黃芪具有補氣升陽、固表止汗、利水消腫的功效,常用于氣虛乏力、食少便溏、中氣下陷等疾病[2]。目前,黃芪的化學(xué)成分主要包括多糖、黃酮類和三萜類等,其藥理作用廣泛,包括增強免疫功能、抗腫瘤、保護心腦血管系統(tǒng)、保護內(nèi)臟、調(diào)節(jié)機體代謝、保護神經(jīng)系統(tǒng)等[3]。
在植物進化中,葉綠體內(nèi)的遺傳信息具有母系遺傳的特性[4]。葉綠體基因組的遺傳信息相對于核基因組更加獨立和保守,表現(xiàn)出半自主的遺傳特征,其編碼基因的數(shù)量、結(jié)構(gòu)、組成和排列順序在大部分情況下保持一致,極少發(fā)生重組變異[5]。因此,葉綠體基因組在植物的物種鑒定、系統(tǒng)發(fā)育和物種起源的研究中得到了廣泛應(yīng)用[6-8]。高等植物葉綠體基因組通常由1 個大單拷貝區(qū)域(large single copy,LSC)、1 個短單拷貝區(qū)域(small single copy,SSC)、和2 個反向重復(fù)區(qū)域(inverted repeats,IRs)組成,形成一種典型環(huán)式雙鏈DNA 結(jié)構(gòu),大小通常為120~180 kb[9-10]。高通量測序技術(shù)的發(fā)展為研究藥用植物葉綠體基因組提供了更加快捷、準確的方法。通過對蒙古黃芪近緣物種進行葉綠體基因組的比較分析,可以有效地確定不同種群之間的親緣關(guān)系,研究物種起源、分化和進化過程[11-12]。
目前,關(guān)于黃芪葉綠體基因組的研究集中在葉綠體基因組密碼子偏好性分析[13],葉綠體基因組的基因丟失和倒位[14],鮮有黃芪葉綠體全基因組結(jié)構(gòu)特征及系統(tǒng)發(fā)育分析的報道。本研究完成了蒙古黃芪葉綠體基因組測序、組裝和注釋的工作,分析其結(jié)構(gòu)、GC 含量、基因組成、密碼子使用度、簡單重復(fù)序列、葉綠體基因組序列變異,并構(gòu)建系統(tǒng)發(fā)育樹,為進一步研究黃芪的遺傳結(jié)構(gòu)、遺傳多樣性及親緣性奠定理論基礎(chǔ)。
測序?qū)ο蟛勺陨轿鬓r(nóng)業(yè)大學(xué)經(jīng)濟作物研究所(37°24′05′′E,111°78′65′′N)選擇生長狀況良好、干凈、無病蟲害的蒙古黃芪嫩葉,放置?80 ℃冰箱備用,憑證標本存放于山西農(nóng)業(yè)大學(xué)經(jīng)濟作物研究所。蒙古黃芪及其近緣物種的葉綠體全基因組序列來源于NCBI 數(shù)據(jù)庫,測序獲得蒙古黃芪葉綠體基因組(Astragalus.mongholicuschloroplast genome,AMCP)(表1)。
表1 植物樣品信息Table 1 Information of plant samples
采用植物DNA 提取試劑盒(Tiangen Biotech 有限公司,中國)提取蒙古黃芪嫩葉片DNA,用1%瓊脂糖凝膠電泳和微量分光光度計(Nanodrop 2000,美國)檢測提取的DNA 質(zhì)量和濃度。將符合要求的樣品進行測序,測序工作由上海派森諾生物科技股份有限公司完成。
研究采用全基因組鳥槍法(whole genome shotgun,WGS)策略,借助二代測序技術(shù)(nextgeneration sequencing,NGS),使用 Illumina NovaSeq 測序平臺,構(gòu)建名為Lib_Name 的文庫。本研究使用fastp 進行數(shù)據(jù)質(zhì)量控制,濾過生成高質(zhì)量序列。采用AdapterRemoval(version 2)[15]去除3’端的接頭污染,采用滑動窗口法進行質(zhì)量過濾,計算窗口內(nèi)堿基的平均Q值,若Q值<20,刪除窗口內(nèi)的堿基;若Q值≥20,則停止滑動。若雙末端中任意1 條reads 的長度≤50 bp 和雙末端中N 堿基的個數(shù)≥5,則去除該雙末端序列,以確保數(shù)據(jù)集中包含的序列都具有足夠的長度和足夠的質(zhì)量。
采用GetOrganelle v1.7.7.0 軟件,進行葉綠體DNA 序列的拼接。將拼接得到的完整的葉綠體基因組序列上傳至Geseq 網(wǎng)站(https://chlorobox.mpimp-golm.mpg.de/geseq.html)進行功能注釋。在Organellar Genome DRAW(OGDRAW)繪制葉綠體全基因組圖譜,把最終注釋的葉綠體基因組上傳GenBank 中獲得登錄號(OR712437)。
運用CodonW 分析葉綠體基因組的密碼子,獲得有效密碼子(effective number of codon,Nc)、GC含量、相對同義密碼子使用值(relative synonymous codon usage,RSCU)和第3 位上的GC 堿基的含量(GC3s)。使用MISA 檢測葉綠體基因組的重復(fù)簡單序列(simple sequence repeats,SSRs)。參數(shù)設(shè)置為單核苷酸序列,重復(fù)≥8 個單位;二、三核苷酸重復(fù)序列,重復(fù)≥4 個單位;四、五及以上核苷酸重復(fù)序列,重復(fù)≥3 個單位,且2 個SSRs 之間的距離≥100 bp[16]。
通過 mVISTA ( https://genome.lbl.gov/vista/index.shtml)做全基因組對比,用shuffle-LAGAN 模式檢測變異情況,以蒙古黃芪(OR712437)為參照,與已公布的16 種豆科植物的葉綠體全基因組序列進行全基因組對比及差異性分析。
為了解蒙古黃芪在黃芪屬的系統(tǒng)發(fā)育位置,從NCBI 數(shù)據(jù)庫中下載葉綠體全基因組,共計17 個物種,分別為草木樨狀黃芪(NC_072247)、蒙古黃芪(NC_029828)、細葉黃芪(OP723862)、乳白黃芪(NC_058825)、斜莖黃芪(NC_052923)、阿納卡黃芪(NC_028171)、膜莢黃芪(KX255662)、加拿大黃芪s(NC_060799)、糙葉黃芪(NC_058245)、膠黃芪(NC_047251)、背扁黃芪(NC_065023)、彎花黃芪(ON550404)、酒泉黃芪(ON550402)、巖生黃芪(ON550399)、尖舌黃芪(ON550396)、此外苜蓿(KU321683)被用作外群(表1)。利用MEGA 11 軟件運用鄰接法(neighbor-joining method,NJ)構(gòu)建系統(tǒng)發(fā)育樹,設(shè)置Bootstrap 為1 000[17]。
對蒙古黃芪的葉綠體基因組分析發(fā)現(xiàn)該結(jié)構(gòu)呈現(xiàn)非典型四分體結(jié)構(gòu),由3 個區(qū)域構(gòu)成:1 個LSC、SSC 和1 個IRs,故蒙古黃芪屬于反轉(zhuǎn)區(qū)缺失植物類群(inverse region losing cloud,IRLC)(圖 1)。測序獲得葉綠體基因組全長為123 349 bp,GC 含量為34.09%,獲得注釋基因109 個,包括4 個核糖體RNA(rRNA)基因、29 個轉(zhuǎn)運RNA(tRNA)基因和76 個蛋白編碼基因(coding sequence,CDS)(表2)。蒙古黃芪葉綠體基因組上共編碼29 個tRNA,其中含1 個內(nèi)含子的有4 個(trnA-UGC、trnE-UUC、trnK-UUU、trnL-UAA)。
表2 蒙古黃芪AMCP 葉綠體基因組上的基因Table 2 Genes located on chloroplast genome in AMCP
從注釋的葉綠體密碼子分析發(fā)現(xiàn),64 個蛋白共編碼了41 116 個密碼子。由于遺傳密碼子具有簡并性,色氨酸(Trp)和甲硫氨酸(Met)只有1 個密碼子,其余均有2 個及2 個以上的密碼子,RSCU>1 的密碼子共29 個,占總量的62.42%,其中除了精氨酸(Arg)密碼子AGA 的RSCU 值>2,其余的密碼子的RSCU 值均在1~2,表明蒙古黃芪葉綠體基因組中不存在偏好性極強的密碼子(表3)。其中使用頻率最高的是亮氨酸(Leu),使用頻率為9.71%,其次是異亮氨酸(Ile),使用頻率為9.45%,最低的是色氨酸(Trp),使用頻率為1.48%。除了色氨酸(Trp)和甲硫氨酸(Met)外,大多數(shù)氨基酸密碼子具有偏好性(圖2)。把16 種黃芪屬植物和1 種苜蓿屬植物葉綠體基因組進行密碼子偏好性比較分析,可知Nc 值范圍在53.03~54.13,說明葉綠體基因組的密碼子偏好性較弱。葉綠體基因組的GC3s 含量為20.62%~23.44%,GC 含量范圍均低于50%,說明豆科植物葉綠體基因的密碼子偏向使用A 和U 這2 種堿基(表4)。
圖1 蒙古黃芪AMCP 葉綠體基因組的基因圈圖Fig.1 Gene map of chloroplast genome in AMCP
圖2 蒙古黃芪AMCP 葉綠體基因組相對同義密碼子使用度Fig.2 RSCU value of chloroplast genome in AMCP
表3 蒙古黃芪密碼子信息Table 3 Codon usage of AMCP
表4 17 種豆科植物葉綠體基因組密碼子使用的總體特征Table 4 Overall characteristics of codon usage of 17 legume species chloroplast genomes
共檢測到AMCP SSR 位點263 個,包括149 個單核苷酸重復(fù)序列、90 個二核苷酸重復(fù)序列、12 個三核苷酸重復(fù)序列、11 個四核苷酸重復(fù)序列、1 個五核苷酸重復(fù)序列。測序的蒙古黃芪以單核苷酸A/T 重復(fù)為主,占比總SSR 位點數(shù)的56.27%(表5)。同時對16 種黃芪屬植物和1 種苜蓿屬植物葉綠體基因組進行簡單重復(fù)序列分析,檢測到SSR 位點241~268,其中A/T 占比范圍為55.11%~71.72%,說明可知豆科植物多數(shù)以A/T 重復(fù)為主,少有其他類型的重復(fù)(表6)。
表5 蒙古黃芪葉綠體基因組的SSRsTable 5 SSRs in chloroplast genome of AMCP
以蒙古黃芪(OR712437)的葉綠體基因組序列作為參考,對其余16 種豆科植物進行葉綠體基因組進行比較分析(圖3)。結(jié)果表明,17 條葉綠體基因組的4 個基因區(qū)大致相同,差異性較小。從非編碼區(qū)和編碼區(qū)看,非編碼區(qū)域序列變異高于編碼區(qū)域,但在ycf1、ycf2等基因編碼區(qū)變異程度較大。trnF-GAA~trnT-UGU、trnfM-CUA~psbC、trnE~trnD、psbM~rpoB、trnR-UCU~trnQUUG、petL~rpl133、rps7~trnV-GAC、rrn5s~trnGUU、trn-UAG~ndhF等區(qū)間的存在較大的差異。
圖3 17 種豆科植物葉綠體基因組對比分析Fig.3 Alignment analysis of 17 legume species chloroplast genomes
通過構(gòu)建黃芪屬的系統(tǒng)進化樹,了解蒙古黃芪AMCP 在黃芪屬中的近緣關(guān)系,將其和16 種豆科植物的葉綠體基因組進行親緣性分析。結(jié)果顯示豆科2 個屬的17 種植物具有明顯的進化關(guān)系,可以聚為3 大類,第一支由細葉黃芪(OP723862)、加拿大黃芪( N_C060799 )、草木樨狀黃芪(N_C072247)、巖生黃芪(ON550399)共14 個物種組成,第二支由背扁黃芪 (N_C065023)和糙葉黃芪(N_C058245)組成,苜蓿(KU321683)單獨聚為一類。由系統(tǒng)進化樹可知,蒙古黃芪(OR712437)、膠黃芪(N_C047251)、阿納卡黃芪(N_C028171)、膜莢黃芪(KX255662)親緣關(guān)系最近,其中蒙古黃芪(OR712437)與膠黃芪(N_C047251)的自展支持率為100%,說明兩者的遺傳關(guān)系最近(圖4)。
圖4 基于17 種物種葉綠體全基因的NJ 系統(tǒng)發(fā)育樹Fig.4 NJ phylogenetic tree based on 17 species of complete chloroplast genomes
大多數(shù)被子植物的葉綠體基因組呈現(xiàn)典型的四分體結(jié)構(gòu),而部分豆科植物葉綠體基因組由于在進化過程中發(fā)生多次重排,從而導(dǎo)致缺失1 個IR 區(qū)被歸為IRLC 類群[18]。本研究測序獲得蒙古黃芪葉綠體基因組缺少1 個IR 區(qū),呈現(xiàn)出非典型的四分體結(jié)構(gòu),故蒙古黃芪屬于豆科蝶形花亞科的IRLC類群,與雷萬鈞[16]研究的結(jié)論一致。同時,蒙古黃芪葉綠體基因組上存在未知功能的基因,如ycf1、ycf2和ycf4,還有待研究。本研究測序獲得的蒙古黃芪有29 個tRNA,與2016 年測序獲得蒙古黃芪的tRNA 在數(shù)量和種類上存在差異。這反映出蒙古黃芪基因組的多樣性,也為應(yīng)對不同的生物學(xué)需求,從而導(dǎo)致tRNA 的數(shù)量和種類發(fā)生變化,以滿足特定的代謝和蛋白質(zhì)合成需求,同時反應(yīng)出葉綠體基因組的檢測手段不斷發(fā)展完善。
密碼子偏好性分析在植物葉綠體基因組的蛋白質(zhì)編碼基因過程中起著重要的作用,與突變、自然選擇和隨機遺傳漂變等分子進化現(xiàn)象密切相關(guān)[19]。大多數(shù)氨基酸可以同時被多種密碼子編碼,表現(xiàn)出不同生物對密碼子的使用具有一定的偏好性[20]。蒙古黃芪葉綠體基因組中64 個蛋白編碼基因共編碼出41 116 個密碼子,除色氨酸(Trp)和甲硫氨酸(Met)的RSCU=1,有29 個氨基酸的RSCU>1。17 種豆科植物的Nc 值范圍為53.04~54.13,說明葉綠體基因組的密碼子使用偏好性較弱。葉綠體基因組的GC 含量和GC3s 含量均小于50%,可知豆科植物葉綠體基因組的密碼子偏向使用A 和U 這兩種堿基,這與Nie 等[21]關(guān)于雙子葉植物葉綠體基因組中的密碼子偏好性分析的結(jié)論一致,表明密碼子使用在雙子葉植物遺傳進化中具有保守性和普遍適用性。其中,GC 含量和GC3s 含量相似可以推斷出這17 個物種在進化過程中存在一定的關(guān)聯(lián)。
SSR 也被稱為微衛(wèi)星,高度變異且數(shù)量豐富,具有保守性、多態(tài)性高、分布廣泛等特點,廣泛應(yīng)用于物種鑒定,遺傳多樣性、分子輔助育種等方面[22-24]。本研究通過對蒙古黃芪(OR712437)和其余的16種豆科葉綠體全基因組序列進行簡單重復(fù)序列分析,發(fā)現(xiàn)以A/T 堿基重復(fù)為主,這與張潔等[25]和向如雙等[26]關(guān)于豆科植物重復(fù)序列研究結(jié)論相吻合。通過了解重復(fù)序列的分布特點可以進一步研究豆科植物基因組的整體結(jié)構(gòu)和基因的穩(wěn)定性,從而用于研究種間和種內(nèi)的親緣關(guān)系和統(tǒng)發(fā)育關(guān)系。
葉綠體基因組為系統(tǒng)發(fā)育提供了很多重要的分子片段[27],多種基因、內(nèi)含子和基因間隔區(qū)已經(jīng)被使用在不同分類階元的系統(tǒng)發(fā)育重建過程中,如atpB、atpB-rbcL、matK、ndhF、rbcL等[28]。植物DNA條形碼常用于植物鑒定、植物分類的研究中,如atp-F、matK、psb-I、rbcL、rpoB、rbcL、trnH-psbA等片段是研究植物DNA 條形碼的重要選擇[29-30]。常晶茹等[31]用ITS2、matk、rbcL和psbA共4 種片段對吉林產(chǎn)的10 種黃芪屬植物進行DNA 條形碼與聚類分析,其結(jié)論為單獨用某一片段只能鑒別出部分植物,不能把10 種黃芪屬植物全部鑒別出來。本研究基于mVISTA 的葉綠體基因組序列對比分析得到trnF-GAA~trnT-UGU、trnfM-CUA~psbC、trnE~trnD、psbM~rpoB、ycf1和ycf2等編碼區(qū)的差異性大,也可以用于黃芪屬植物DNA 條形碼的開發(fā),為黃芪屬藥材品種鑒別、種質(zhì)資源評價以及種苗篩選提供有效工具,達到解決種源混雜的目的。
本研究采用鄰接法構(gòu)建系統(tǒng)發(fā)育樹,所獲得系統(tǒng)發(fā)育樹中各類群間的拓撲結(jié)構(gòu)與經(jīng)典分類學(xué)的觀點一致:外類群苜蓿單獨聚為一類,剩下的黃芪屬聚為一大類,其中膠黃芪 (N_C047251)、阿納卡黃芪(N_C028171)在《中國植物志》沒有收錄,對于兩者屬于何種亞屬目前缺少研究。根據(jù)本研究,蒙古黃芪(OR712437)、膠黃芪、阿納卡黃芪、膜莢黃芪(KX255662)聚為一類,可以推測出膠黃芪、納凱黃芪與蒙古黃芪(OR712437)、膜莢黃芪的遺傳關(guān)系相近,與Tian 等[32]聚類結(jié)果相似,為后續(xù)研究膠黃芪、阿納卡黃芪的分類提供參考。
本研究通過測序、組裝和文庫構(gòu)建,對蒙古黃芪葉綠體全基因組特征進行描述,分析了黃芪屬植物葉綠體基因組的序列特征并構(gòu)建系統(tǒng)發(fā)育樹,為進一步探究黃芪屬植物的遺傳結(jié)構(gòu)、遺傳多樣性和親緣性奠定了基礎(chǔ)。同時,豐富了黃芪屬藥用植物的葉綠體基因組數(shù)據(jù),為黃芪屬的物種鑒別、群體結(jié)構(gòu)分類和進化發(fā)育等研究提供科學(xué)參考。
利益沖突所有作者均聲明不存在利益沖突