楊 斌 孟慶瑤 張 凱 段義忠
(榆林學(xué)院生命科學(xué)學(xué)院,榆林 719000)
葉綠體普遍存在于綠色植物和一些自養(yǎng)生物中,是植物細(xì)胞中的質(zhì)體之一,主要進(jìn)行光合作用,承擔(dān)著合成蛋白質(zhì)、色素、脂肪酸及淀粉等功能[1]。在被子植物中,葉綠體基因組一直處于相對保守的狀態(tài),導(dǎo)致其進(jìn)化速度緩慢,被用于植物分類和分子進(jìn)化研究的途徑[2]。其結(jié)構(gòu)大多為雙鏈環(huán)形,具有4個區(qū)域,即1個大單拷貝區(qū)(Large single copy,LSC)、1個小單拷貝區(qū)(Small single copy,SSC)以及2個反向重復(fù)序列區(qū)(Inverted repeats,IRA/IRB)。由于生存環(huán)境和遺傳差異的影響,不同種植物葉綠體基因組會出現(xiàn)結(jié)構(gòu)變異的現(xiàn)象[3~5],常見的結(jié)構(gòu)變異有缺失、重復(fù)、倒位和易位。
作為最常用的生物學(xué)分析方法之一,DNA測序?yàn)檫z傳信息的揭示和基因組分析等研究提供重要數(shù)據(jù),對確定植物進(jìn)化關(guān)系等方面發(fā)揮重要作用?!跋乱淮睖y序技術(shù)(Next-generation sequencing)是繼第一代測序技術(shù)(Sanger)之后而得名的,主要包括3種測序技術(shù):Roche/454焦磷酸測序(2005年)、Illumina/Solexa聚合酶合成測序(2006年)和ABI/SOLiD連接酶測序(2007年)技術(shù),這3種測序技術(shù)與Sanger相比共同具有單次運(yùn)行(Run)產(chǎn)出序列數(shù)據(jù)量大的特征,又被統(tǒng)稱為高通量測序技術(shù)(High-throughput sequencing)。近年來,隨著測序技術(shù)的發(fā)展,促使更多綠色植物的完整葉綠體全基因組相繼公布在NCBI數(shù)據(jù)庫,在2010年NCBI數(shù)據(jù)庫中僅有146種,截止2019年4月已有3 000多種植物的葉綠體全基因組被記錄[6]。
矮扁桃(Amygdalusnana)屬薔薇科(Rosaceae Juss.)植物,起源于歐洲東南部和亞洲中西部[7]。作為古地中海第三紀(jì)子遺物種,主要分布在哈薩克斯坦、俄羅斯和中國,不僅可作為油料和藥物的原材料,還可以作為育種研究的原始材料。目前,國內(nèi)外對于扁桃亞屬(Subgen.Amygdalus)植物的研究主要集中在物質(zhì)鑒定、生長發(fā)育、植物引種、開發(fā)利用和進(jìn)化分析等方面[8~12]。在眾多關(guān)于扁桃亞屬研究中,基于葉綠體全基因組的相關(guān)研究比較缺乏。鑒于此,本研究對矮扁桃葉綠體全基因組進(jìn)行測序、組裝、注釋和特征剖析,并與其他28種近緣物種構(gòu)建系統(tǒng)發(fā)育樹,旨在豐富矮扁桃的葉綠體基因組遺傳信息,為今后桃屬植物的系統(tǒng)進(jìn)化關(guān)系研究和物種鑒定提供理論基礎(chǔ)。
矮扁桃新鮮葉片采集于新疆裕民縣(46°05′51.02″N,82°48′9.06″E),處理后保存于-80℃環(huán)境中備用。
1.2.1 葉綠體DNA的提取
常見的高等植物葉綠體DNA提取的方法主要有3種:蔗糖密度梯度離心法、Percoll密度梯度離心法和高鹽—低pH法,并已在高粱、甘蔗、蘋果[13~15]等物種的葉綠體DNA提取中成功應(yīng)用,未曾發(fā)現(xiàn)應(yīng)用于矮扁桃的報道。由于葉綠體基因組的穩(wěn)定性,在細(xì)胞質(zhì)遺傳、基因功能和遺傳多樣性等方面的研究廣泛應(yīng)用,而獲取無污染、結(jié)構(gòu)完整的葉綠體DNA則是開展相關(guān)研究的前提條件之一。因此本研究決定采用改良的蔗糖密度梯度離心法,便于提取完整的矮扁桃葉綠體DNA[16]。
1.2.2 葉綠體DNA測序分析
將提取的總?cè)~綠體DNA通過Nano Drop 2000微量分光光度檢測濃度是否符合標(biāo)準(zhǔn),并用1%瓊脂糖電泳檢測質(zhì)量。利用Invitrogen試劑盒對產(chǎn)物進(jìn)行純化,使所提取的葉綠體DNA達(dá)到高通量測序要求。最后將樣品送至北京百邁客生物科技有限公司檢測合格后,進(jìn)行Illumina HiSeq Xten測序,得到的原始序列(Original series)數(shù)據(jù)以FASTQ格式存儲。FASTQ文件中存在一定比例的低質(zhì)量序列,濾除質(zhì)量較低的序列末端、Adapter序列和含N比例達(dá)到10%的序列等[17],最終得到高質(zhì)量的待分析序列(Clean Reads)。
對低質(zhì)量過濾后的數(shù)據(jù)用SOAPdenovo 2.04拼接軟件(http://soap.genomics.org.cn/soap denovo.html)組裝成重疊群,再根據(jù)reads的paired-end和overlap優(yōu)化組裝結(jié)果。對于序列中的一些缺口(Gaps),通過Gapcloser對組裝結(jié)果進(jìn)行補(bǔ)洞和修正。最后利用BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)驗(yàn)證IR區(qū)和SC區(qū)的連接,進(jìn)而獲得完整的矮扁桃葉綠體全基因組。利用DOGMA在線注釋軟件(http://phylocluster.biosci.Ttexas.edu/dogma/)結(jié)合NCBI上已報道的薔薇科近緣物種的注釋結(jié)果對矮扁桃葉綠體全基因組進(jìn)行基因注釋,并通過GeneiousR8進(jìn)行手動修正注釋。最后利用OGDraw(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)[18]對矮扁桃葉綠體全基因組進(jìn)行基因組圖譜繪制。將新獲得的矮扁桃葉綠體全基因組上傳至GenBank數(shù)據(jù)庫,登錄號為MK764428。
利用在線軟件REPuter(https://bibiserv.cebitec.uni-bielefeld.de/reputer)[19],鑒定矮扁桃葉綠體全基因組中重復(fù)序列,包括正向重復(fù)(Forward repeats)、反向重復(fù)(Reverse repeats)、回文重復(fù)(Palindromic repeats)和互補(bǔ)重復(fù)(Complement repeats),最小重復(fù)長度設(shè)為20bp,兩個重復(fù)之間的一致率大于90%。利用MISA軟件(https://webblast.ipk-gatersleben.de/misa/index.php)鑒別矮扁桃葉綠體全基因組中簡單重復(fù)序列(Simple sequence repeats,SSR),最小重復(fù)次數(shù)設(shè)為:單核苷酸≥10,二核苷酸≥6,三核苷酸≥5,四核苷酸、五核苷酸、六核苷酸都為≥3。
葉綠體全基因組的長度多態(tài)性主要由于IR區(qū)的擴(kuò)張和收縮造成的,本研究比較矮扁桃、扁桃及其親緣物種的IR邊界區(qū)收縮與擴(kuò)張情況,并利用IRscope(https://irscope.shinyapps.io/irapp/)繪制對比圖[20]。
通過NCBI數(shù)據(jù)庫選取薔薇科和虎耳草科(Saxifragaceae)共計28種植物的葉綠體全基因組與矮扁桃葉綠體全基因組進(jìn)行系統(tǒng)發(fā)育分析。利用MAFFT軟件[21]對29個序列進(jìn)行多重序列比對,將比對結(jié)果檢驗(yàn)和校正后導(dǎo)入MEGAX軟件,以厚葉溲疏(Deutziacrassifolia)和黃脈繡球(Hydrangealuteovenosa)作為外類群,通過近鄰結(jié)合法(Neighbor-joining,NJ)構(gòu)建系統(tǒng)發(fā)育樹,自舉置信值基于重復(fù)抽樣1 000次。
矮扁桃的葉綠體全基因組長度為158 596 bp;呈現(xiàn)出經(jīng)典的四段式環(huán)狀結(jié)構(gòu),其中大單拷貝區(qū)(LSC)長度為86 771 bp,小單拷貝區(qū)(SSC)長度為19 037 bp,兩個反向重復(fù)序列(IRA/IRB)長度都為26 394 bp。矮扁桃的葉綠體全基因組中CG含量為36.8%,在LSC區(qū)域中CG含量分別為34.5%,SSC區(qū)域中CG含量分別為30.3%,IR區(qū)域中CG含量分別為42.7%和42.6%(見表1)。矮扁桃的葉綠體全基因組共注釋130個基因,其中蛋白編碼基因(Protein-coding genes,PCGs)為85個,轉(zhuǎn)運(yùn)RNA(tRNA)為37個,核糖體RNA(rRNA)為8個(見表2)。在130個注釋基因中,有92個為單拷貝基因,包括69個PCGs、23個tRNA基因;剩余19種基因均重復(fù)1次,包括PCGs中的ndhB、rpl2、rpl23、rps12、rps7、ycf15、ycf2、ycf1和tRNA基因中的trnA-UGC、trnI-CAU、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG、trnV-GAC以及4種rRNA基因。其中LSC區(qū)域完全包含59個PCGs和22個tRNA基因,SSC區(qū)域包含12個PCGs和1個tRNA基因,而IR區(qū)域則包含7種PCGs(rpl2、rpl23、ndhB、rps7、ycf1、ycf15、ycf2)和7種tRNA基因(trnA-UGC、trnI-CAU、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG、trnV-GAC)以及全部4種rRNA基因(見圖1)。
表1 矮扁桃葉綠體全基因組堿基組成
微衛(wèi)星DNA(Microsatellite DNA)又稱簡單重復(fù)序列(SSR),基本重復(fù)單位只有1~6 bp,存在于真核生物的細(xì)胞核、線粒體和葉綠體基因組中,在個體之間具有良好的通用性,被廣泛地應(yīng)用于物種鑒定及群體和個體之間的遺傳差異分析。通過所設(shè)置參數(shù),在矮扁桃葉綠體全基因組中共鑒定出71個SSR位點(diǎn),其中單核苷酸重復(fù)數(shù)目為56,二核苷酸重復(fù)數(shù)目為3,無三核苷酸重復(fù),四核苷酸重復(fù)數(shù)目為6,五核苷酸重復(fù)數(shù)目為2,沒有六核苷酸重復(fù),但有4個復(fù)合SSR位點(diǎn)(見表3)。在矮扁桃葉綠體全基因組的簡單重復(fù)序列中有91.07%為AT類型,而CG類型僅有5個,且有66.20%的SSR位點(diǎn)位于IGS區(qū),18.30%在內(nèi)含子區(qū),15.49%位于CDs中。
在矮扁桃的葉綠體全基因組中,檢測出48條長度大于20 bp的重復(fù)序列,其中正向重復(fù)有16個,反向重復(fù)有8個,回文重復(fù)有23個(見表4)。僅有1個互補(bǔ)重復(fù),位于trnT-UGU-trnL-UAA基因間隔區(qū)(IGS)。其中最長的重復(fù)序列為No.1,是回文重復(fù)序列,長53 bp,位于trnG-GCC-trnR-UCU基因間隔區(qū);最短是正向重復(fù)序列No.47,僅長23 bp,位于ycf1基因上。
表2 矮扁桃葉綠體全基因組注釋基因信息
注:(2)表示重復(fù)單元數(shù)為2
Note: (2)indicates that the number of the repeat unit is 2
矮扁桃葉綠體全基因組由4個經(jīng)典區(qū)域組成,包括2個反向重復(fù)序列區(qū)(IRA/IRB)、1個大單拷貝區(qū)(LSC)和1個小單拷貝區(qū)(SSC)。在綠色植物長期發(fā)育與進(jìn)化的過程中,IR區(qū)會出現(xiàn)與兩邊界的單拷貝區(qū)(LSC/SSC)重疊的現(xiàn)象,不同植物所表現(xiàn)的重疊長度的不同。我們選取矮扁桃的5種近緣種(扁桃Amygdaluscommunis;蒙古扁桃Amygdalusmongolica;桃Amygdaluspersica;大葉桂櫻Laurocerasuszippeliana;沙梨Pyruspyrifolia)的葉綠體全基因組作為參考序列,比較分析矮扁桃的IR區(qū)邊界的擴(kuò)張和收縮情況(見圖2)。分析結(jié)果顯示6種薔薇科近緣植物之間的葉綠體基因組結(jié)構(gòu)差異較小,表現(xiàn)出葉綠體基因組高度的保守性。6種被子植物的葉綠體基因組結(jié)構(gòu)相似,且都具有6個基因位于IR區(qū)邊界處,分別是LSC/IRB的rpl22、rps19和rpl2,IRB/SSC的ndhF,SSC/IRA的ycf1,IRA/LSC的trnH。但仍存在一定的差異性,這6種植物的葉綠體基因組中rps19基因全部橫跨LSC/IRB區(qū),但在IRB區(qū)向rps19基因不同程
表3 矮扁桃葉綠體全基因組SSR預(yù)測
注: p.單個SSR類型;p1/p2/p3/p4/p5/p6中數(shù)字分別表示構(gòu)成基序的堿基個數(shù);c.復(fù)合SSR類型;*為位于內(nèi)含子區(qū)
Note: p.Indicates single SSR type; The numbers in p1/p2/p3/p4/p5/p6 indicate the number of bases constituting the motif, respectively; c. Indicates composite SSR type;*is located in the intron region
表4 矮扁桃葉綠體全基因組的重復(fù)序列
注:F.正向重復(fù);R.反向重復(fù);C.互補(bǔ)重復(fù);P.回文重復(fù);*.重復(fù)序列位于內(nèi)含子區(qū)
Note: F.Direct repeat; R.Inverted repeat; C.Complementary repeat; P.Palindrome repeat;*is the repeat sequence located in the intron region.
圖1 矮扁桃葉綠體全基因組圖譜Fig.1 Chloroplast genome map of A.nana
圖2 6種植物的葉綠體IR區(qū)邊界分析Fig.2 Boundary analysis of chloroplast IR region of 6 plants
圖3 基于29種植物構(gòu)建的近鄰結(jié)合樹Fig.3 Nearest neighbor tree of 29 plants
度擴(kuò)張了68~183 bp;在矮扁桃和蒙古扁桃葉綠體基因組中ndhF基因完全位于SSC區(qū),而在其他的葉綠體基因組中IRB區(qū)發(fā)生了不同程度的擴(kuò)張。在這6種植物的葉綠體基因組中trnH基因與IRA/LSC邊界區(qū)的距離都有所不同,其中矮扁桃的距離最遠(yuǎn)。
選取矮扁桃在內(nèi)的29種植物進(jìn)行系統(tǒng)發(fā)育樹的構(gòu)建,以厚葉溲疏和黃脈繡球作為外類群,利用近鄰結(jié)合法構(gòu)建的發(fā)育樹包含25個節(jié)點(diǎn),低于100%的僅2個節(jié)點(diǎn),其余節(jié)點(diǎn)均為100%,表明聚類結(jié)果可信度較高(見圖3)。從系統(tǒng)發(fā)育樹中發(fā)現(xiàn)矮扁桃、蒙古扁桃和山桃(Amygdalusdavidiana)以100%的支持率聚在同一分支上,而榆葉梅(Amygdalustriloba)和長柄扁桃(Amygdaluspedunculata)所構(gòu)成的單系支持率也為100%。在扁桃亞屬中,矮扁桃在親緣關(guān)系上與蒙古扁桃更近,而與長柄扁桃和榆葉梅的親緣關(guān)系稍遠(yuǎn)。
被子植物的葉綠體基因組具有典型結(jié)構(gòu),一般為閉合環(huán)狀的雙鏈DNA并包括4個高度保守的區(qū)域,其大小通常為115~165 kB,編碼為110~130個基因[22]。4個結(jié)構(gòu)區(qū)域長度范圍通常為:IR區(qū)(16~27 kB)、LSC區(qū)(80~90 kB)和SSC區(qū)(20~28 kB)。盡管大多是植物的葉綠體基因組結(jié)構(gòu)保守,但是在各區(qū)域大小上卻不盡相同,如在木犀科(Oleaceae)植物中測得SSC區(qū)長度在13 252~17 908 bp[23]。本研究矮扁桃的葉綠體全基因組序列長度為158 596 bp,包括IRs區(qū)(26 394/26 394 bp)、LSC區(qū)(86 771 bp)和SSC區(qū)(19 037 bp),為進(jìn)一步確定被子植物葉綠體基因組的各結(jié)構(gòu)區(qū)域長度范圍提供參考依據(jù)。同時對包括矮扁桃在內(nèi)的6種植物進(jìn)行IR邊界區(qū)分析,發(fā)現(xiàn)6種植物的rps19基因全部橫跨LSC/IRB區(qū),這與5種已知的菊科(Compositae)植物的IR區(qū)分析結(jié)果相同[24],不僅降低了本研究結(jié)果的偶然性,也體現(xiàn)出被子植物葉綠體基因組的保守性。葉綠體基因組的SSR標(biāo)記不僅保留該基因組SSR標(biāo)記的特點(diǎn),而且有較高的重復(fù)性,可作為種質(zhì)鑒定的一種途徑。本研究中的矮扁桃的葉綠體全基因組中共有71個SSR位點(diǎn),其數(shù)量要遠(yuǎn)大于禾本科(Gramineae)植物[25],而小于???Moraceae)植物[26];并發(fā)現(xiàn)其中未涉及三核苷酸重復(fù)類型,然而在其他被子植物的葉綠體全基因組中卻存在三核苷酸重復(fù)類型[27]。
為進(jìn)一步確定矮扁桃在被子植物中的進(jìn)化地位和親緣關(guān)系,選取NCBI已公布的28種植物,以厚葉溲疏和黃脈繡球作為外類群進(jìn)行系統(tǒng)進(jìn)化分析。本研究中榆葉梅和長柄扁桃以100%的支持率聚于同一分支,這與邱蓉和程中平等人通過傳統(tǒng)植物學(xué)性狀和核質(zhì)DNA分析長柄扁桃和榆葉梅親緣關(guān)系的研究結(jié)果一致[28]。除此之外,矮扁桃、蒙古扁桃和山桃聚在同一分支上,并且矮扁桃與同屬的蒙古扁桃關(guān)系最近,這與邱蓉基于ITS序列構(gòu)建的系統(tǒng)發(fā)育樹相吻合[29]。
利用矮扁桃在內(nèi)29種植物葉綠體全基因組序列數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)育樹,為桃屬(Amygdalus)植物之間的進(jìn)化途徑及近緣物種間的親緣關(guān)系提供有力的證據(jù),同時對矮扁桃葉綠體基因組的分析為其在分子標(biāo)記開發(fā)和分子鑒定等研究提供參靠數(shù)據(jù)。