邱 濤,劉孝偉,唐 津,張 鵬,易洪楊,曹墨菊
(四川農(nóng)業(yè)大學(xué)玉米研究所,農(nóng)業(yè)部西南玉米生物學(xué)及遺傳育種重點(diǎn)實(shí)驗(yàn)室,成都611130)
細(xì)胞質(zhì)雄性不育現(xiàn)象在植物界普遍存在,植物細(xì)胞質(zhì)雄性不育表現(xiàn)為典型的細(xì)胞質(zhì)遺傳。因此關(guān)于植物細(xì)胞質(zhì)雄性不育分子水平的研究,主要圍繞葉綠體基因組及線粒體基因組展開。劉一農(nóng)等[1]根據(jù)葉綠體DNA(cpDNA)的熱溶解曲線及含變性劑的雙向電泳分析,發(fā)現(xiàn)玉米CMS-C型不育系與其保持系之間的cpDNA有明顯的差異;根據(jù)雙向電泳結(jié)果發(fā)現(xiàn)不育系與保持系的cpDNA存在若干內(nèi)切酶堿基組成的差異;根據(jù)電子顯微鏡的觀察發(fā)現(xiàn)不育系與保持系的葉綠體亞顯微結(jié)構(gòu)方面也有明顯的區(qū)別。劉一農(nóng)等[2]利用cpDNA的熱變性分析和限制性內(nèi)切酶EcoRI、BamHI消化分析,根據(jù)熱變性溶解曲線及酶切片段的單向電泳和含變性劑濃度梯度的雙向電泳結(jié)果,比較分析了玉米、小麥和油菜不育系與保持系的cpDNA,并認(rèn)為這3種植物的不育系與保持系的葉綠體DNA存在差異。劉祚昌[3]通過對葉綠體基因組翻譯產(chǎn)物分析,發(fā)現(xiàn)高粱不育系與其保持系之間存在差異,而甜菜不育系與保持系之間未檢測到差異。段乃彬等[4]對4個(gè)蘿卜細(xì)胞質(zhì)雄性不育系和1個(gè)保持系的葉綠體基因組及線粒體基因組進(jìn)行了組裝及比較分析。綜合前人的研究結(jié)果,可以發(fā)現(xiàn)大多數(shù)植物細(xì)胞質(zhì)雄性不育可能與線粒體基因組的變異有關(guān),某些細(xì)胞質(zhì)雄性不育則可能與葉綠體基因組的變異有關(guān)。不同作物細(xì)胞質(zhì)雄性不育系可能受控于不同的細(xì)胞質(zhì)遺傳系統(tǒng)。
在DNA水平對葉綠體基因組進(jìn)行研究的主要方法可歸納為3種[5]:①限制性內(nèi)切酶酶切圖譜分析法。1998年以前此方法廣泛應(yīng)用,通過酶切片段大小的比較,了解不同物種葉綠體基因組序列之間的變化。1980年,F(xiàn).Vedel等[6]以4種麥類作物為材料,結(jié)合4種酶切圖譜分析,研究葉綠體和線粒體之間的進(jìn)化關(guān)系,發(fā)現(xiàn)葉綠體基因組酶切多態(tài)性遠(yuǎn)小于線粒體基因組。1983年,劉一農(nóng)等[1-2]利用該法對玉米、小麥、油菜等不育系及其保持系的cpDNA進(jìn)行了比較分析,并認(rèn)為不育系與保持系的cpDNA存在有差異。②分子雜交和PCR法。③DNA測序技術(shù)。1986年煙草[7]和地錢[8]葉綠體基因組序列的發(fā)表使人們第一次有機(jī)會從堿基水平上對不同基因組之間進(jìn)行比較,在研究方法上有了實(shí)質(zhì)性的突破。之后,許多植物的葉綠體基因組測序相繼完成[9-11]。對于酶切圖譜分析法,由于酶切位點(diǎn)的限制,所得信息量有限,分析的局限性較大,因而將逐步被淘汰。分子雜交法主要是針對特異片段或特異位點(diǎn)進(jìn)行分析,因此其應(yīng)用也受到限制。隨著核酸測序技術(shù)的飛速發(fā)展,從全基因組水平檢測遺傳差異或多態(tài)性已經(jīng)被廣泛采用。高通量測序技術(shù)(next generation sequencing)的誕生,極大地提高了核酸測序的數(shù)據(jù)量,并使得測序成本大大降低。1995年R.Maier等[12]通過構(gòu)建葉綠體DNA的質(zhì)粒文庫,利用雙脫氧鏈終止測序法獲得了完整的玉米葉綠體基因組序列。2015年M.Bosacchi等[13]基于細(xì)胞總DNA的二代測序數(shù)據(jù),完成了6個(gè)玉米材料的葉綠體基因組的組裝。目前,基于混合樣品高通量測序?qū)χ参锛?xì)胞器基因組進(jìn)行組裝和分析的相關(guān)研究已有報(bào)道,且呈現(xiàn)出逐漸增多的趨勢[14-15]。
對植物細(xì)胞質(zhì)基因組進(jìn)行研究,傳統(tǒng)方法普遍需要先分離出相應(yīng)的細(xì)胞器,提取其DNA,再進(jìn)行測序分析。有時(shí)則需要分離出精制的細(xì)胞器,再提取其DNA進(jìn)行分析。而精制葉綠體的制備,通常需要特殊的設(shè)備和復(fù)雜的操作程序。目前,基于高通量測序數(shù)據(jù),借助于高效完善的計(jì)算機(jī)分析軟件,加之越來越多的各類核基因組及細(xì)胞器基因組測序的完成[12,16],為利用混合樣品的測序數(shù)據(jù)對細(xì)胞質(zhì)基因組進(jìn)行分析提供了可能和保障。利用計(jì)算機(jī)將這些大量的測序數(shù)據(jù)進(jìn)行質(zhì)量過濾和拼接,再通過比對參考基因組或者PCR試驗(yàn)來進(jìn)一步填補(bǔ)序列g(shù)ap,最終獲得完整的細(xì)胞質(zhì)基因組。
玉米細(xì)胞質(zhì)雄性不育作為雜種優(yōu)勢利用的重要工具以及核質(zhì)互作研究的理想材料,長期以來受到遺傳學(xué)家和育種學(xué)家的廣泛關(guān)注。玉米CMS-C在生產(chǎn)上具有較大的應(yīng)用前景。然而目前,關(guān)于玉米CMS-C及其保持系葉綠體全基因組的比較研究,尚未見報(bào)道。本研究試圖基于玉米線粒體DNA的高通量測序數(shù)據(jù),進(jìn)行葉綠體基因組組裝及分析,旨在探討該方法的可行性,并進(jìn)一步了解玉米同核異質(zhì)、同質(zhì)異核材料之間葉綠體基因組的差異表現(xiàn)。
取玉米細(xì)胞質(zhì)雄性不育系C48-2、C黃早四、C698-3、C478及其保持系48-2、黃早四種子,在滅菌的培養(yǎng)皿上放兩層吸水紙,待無菌水浸濕,在上面均勻擺放約30粒玉米種子,再覆以一層吸水紙,用無菌水完全浸濕上層吸水紙。將培養(yǎng)皿置于28℃恒溫培養(yǎng)箱催芽2 d,再將已發(fā)芽的種子轉(zhuǎn)移到盛有營養(yǎng)土的盆中,并定期補(bǔ)充水分,培養(yǎng)7 d左右。
線粒體的分離和線粒體DNA的提取采用Wang J.等[17]報(bào)道的方法。
線粒體基因組測序由北京百邁客生物科技有限公司協(xié)助完成。對供試材料的線粒體基因組DNA分別構(gòu)建文庫,然后用Hiseq2500對文庫進(jìn)行雙末端測序,測序讀長(reads)的長度為125 bp。為了使得后續(xù)分析的結(jié)果更加準(zhǔn)確可靠,對原始的測序數(shù)據(jù)進(jìn)行如下處理:①過濾某個(gè)位點(diǎn)N含量≥80%的所有reads;②截取read 1、read 2中高質(zhì)量區(qū)域序列;③過濾低質(zhì)量的reads;④過濾N含量大于10%的reads;⑤過濾當(dāng)adapter序列與reads比對上15 bp或以上且錯(cuò)配數(shù)≤3的reads;⑥當(dāng)一對reads完全比對上其他的reads,過濾此冗余的reads。
本試驗(yàn)分離提取的玉米線粒體DNA為粗制線粒體DNA,含有一定量的葉綠體DNA,故本研究通過以已發(fā)表在NCBI上的玉米葉綠體基因組為參照序列,利用Bowtie2(http://bowtie-bio.sourceforge.net/index.shtml),參數(shù)按軟件默認(rèn)設(shè)置,得到所需的sam文件。然后用perl語言編寫腳本,將提取序列中與參考序列匹配的reads,生成fastq格式文件,用于后續(xù)的拼接。短序列比對獲取測序結(jié)果中葉綠體DNA的reads。利用Velvet軟件對完成過濾和比對后的reads進(jìn)行組裝,通過尋找短序列之間的重疊區(qū)域(overlap)將高質(zhì)量的短序列拼接成重疊群序列(contig),然后將所有的短序列定位到拼好的重疊群序列(scaffold)上,再根據(jù)PE(pair-end)關(guān)系將重疊群連接成scaffold序列。因參數(shù)設(shè)置對Velvet的運(yùn)行結(jié)果有很大的影響,尤其是K-mer值和覆蓋深度(coverage)的設(shè)置。所以實(shí)驗(yàn)設(shè)置了多個(gè)參數(shù)進(jìn)行調(diào)試,再將組裝序列用BlastN比對到參考基因組,以此對組裝獲得的scaffold序列進(jìn)行排序。在scaffold序列內(nèi),根據(jù)gap上下游序列設(shè)計(jì)引物并進(jìn)行PCR擴(kuò)增,利用Sanger法測序擴(kuò)增產(chǎn)物,并將測序結(jié)果與組裝序列和參考序列進(jìn)行比較,以此填補(bǔ)組裝scaffold序列內(nèi)的gap序列,不同scaffold間的序列以同樣的方法進(jìn)行拼接,最終得到完整的環(huán)狀玉米葉綠體基因組。
采用在線注釋軟件DOGMA(http://dogma.ccbb.utexas.edu/)對2份玉米CMS-C不育系和2份保持系的葉綠體基因組完整序列進(jìn)行基因預(yù)測和基因功能分析,根據(jù)起始密碼子和終止密碼子序列手工調(diào)整DOGMA初步注釋的編碼蛋白基因范圍,并根據(jù)CpBase數(shù)據(jù)庫進(jìn)行了基因注釋,通過BLAST比對參考基因組和手工校準(zhǔn)相應(yīng)基因信息。
功能注釋使用同源比對的方法,通過基因預(yù)測得到樣品的氨基酸序列,與已知的蛋白數(shù)據(jù)庫進(jìn)行比對,把供試材料的基因和其相對應(yīng)的功能注釋信息結(jié)合起來,得到注釋結(jié)果,以推測它們的結(jié)構(gòu)、功能以及進(jìn)化上的聯(lián)系。由于每一條序列比對結(jié)果可能超過一條,為保證其生物意義,注釋時(shí)保留一條最優(yōu)比對結(jié)果作為該基因的注釋。
利用Nano Drop 2000檢測玉米線粒體DNA質(zhì)量,選取質(zhì)量合格的樣品,送北京百邁客生物科技有限公司,使用Hiseq 2500測序平臺對樣品進(jìn)行測序分析。對48-2、C48-2、黃早四和C黃早四4個(gè)材料的線粒體DNA分別構(gòu)建文庫,進(jìn)行雙末端測序,Reads長度為125 bp。對Illumina平臺Hiseq 2500測序系統(tǒng)產(chǎn)出的原始數(shù)據(jù)進(jìn)行整理(表1),原始文庫插入片段為500 bp,獲得的測序數(shù)據(jù)量均超過1.2 Gb,測序深度均超過2 000×。將低質(zhì)量的reads以及完全相同的冗余reads過濾后,Clean Data數(shù)據(jù)量均大于1 Gb,Q20值大于90%,Q30值大于85%。
表1 供試材料粗制線粒體DNA的測序結(jié)果Table 1 mtDNA sequencing result informations of 4 experimental materials
通過拼接組裝分別獲得2個(gè)不育系及2個(gè)保持系的葉綠體基因組序列,C48-2葉綠體基因組大小為140 473 bp,C黃早四為140 478 bp,48-2為140 458 bp,黃早四為140 448 bp,GC含量均為38.4%(表2)?;蚪M大小與已報(bào)道的玉米葉綠體基因組大小相近。采用在線注釋軟件DOGMA(http://dogma.ccbb.utexas.edu/)對2份玉米CMS-C不育系和2份保持系的葉綠體基因組完整序列進(jìn)行基因預(yù)測和基因功能分析,并根據(jù)CpBase數(shù)據(jù)庫進(jìn)行基因注釋,其中蛋白編碼基因均為84種,tRNA基因均有30種,rRNA基因均有4種。組裝的葉綠體基因組均由2個(gè)反向重復(fù)序列和1個(gè)長單拷貝序列及1個(gè)短單拷貝序列組成。重復(fù)序列含有4種rRNA基因及部分tRNA基因和蛋白編碼基因,故整個(gè)葉綠體基因組的rRNA基因有8個(gè),tRNA基因有48個(gè)或49個(gè),4份材料的蛋白編碼基因分布在117至122之間,數(shù)目不等。部分基因在不同胞質(zhì)材料中存在多拷貝現(xiàn)象。
表2 4份玉米葉綠體基因組的大小及基因組成Table 2 The size and gene content of novel assembly 4 maize chloroplast genomes
C48-2、C黃早四、48-2和黃早四4個(gè)葉綠體基因組均注釋到84種編碼基因。不育系C48-2、C黃早四以及保持系48-2葉綠體基因組中的atpF、ndhA、orf42、rps15、rps19、rps7、ycf15、ycf68基因均有2個(gè)拷貝,rpl23、rps12、ycf3基因有3個(gè)拷貝,ndhB和rpl2有4個(gè)拷貝,orf56和ycf2存在6個(gè)拷貝,拷貝數(shù)最多的基因是ycf1,共存在8個(gè)拷貝,其余基因均為單拷貝;黃早四中rps19只有1個(gè)拷貝,rpl2和rpl23只有2個(gè)拷貝,其余基因拷貝數(shù)均與其他材料相同。4個(gè)葉綠體基因組中除了注釋到84種蛋白編碼基因外,還預(yù)測到6個(gè)假基因ycf1,ycf2,ycf3,ycf4,ycf15,ycf68,分別以單拷貝或多拷貝存在,拷貝數(shù)最高可達(dá)8個(gè)。
組裝的4個(gè)玉米葉綠體基因組中均含有30種tRNA基因,且不同的tRNA基因其拷貝數(shù)也不同。C48-2、C黃早四、48-2和黃早四4個(gè)葉綠體基因組中的trnfM-CAU、trnL-CAA、trnL-UAA、trnM-CAU、trnN-GUU、trnV-GAC、trnV-UAC基因均存在2個(gè)拷貝;trnT-GGU存在3個(gè)拷貝;trnA-UGC存在4個(gè)拷貝;trnl-CAU存在6個(gè)拷貝。trnK-UUU在C48-2中僅有1個(gè)拷貝,而在其他材料中存在2個(gè)拷貝;trnH-GUG在黃早四中存在1個(gè)拷貝,在其他3個(gè)材料中有2個(gè)拷貝。4個(gè)供試材料的葉綠體基因組中均有4種rRNA基因,分別為rrn4.5、rrn5、rrn16和rrn23,且都為2個(gè)拷貝。
對C48-2、C黃早四、48-2和黃早四的葉綠體基因組進(jìn)行序列同源性比較和系統(tǒng)進(jìn)化分析發(fā)現(xiàn),兩個(gè)不育材料C48-2、C黃早四的葉綠體基因組間序列基本相同,48-2與不育材料進(jìn)化距離較近,而黃早四與不育材料進(jìn)化距離相對較遠(yuǎn)?;?個(gè)葉綠體基因組共線性分析,可以發(fā)現(xiàn)不同材料間葉綠體基因組高度保守(圖1、圖2)。
圖1的結(jié)果表明,來源相同的2個(gè)不育細(xì)胞質(zhì)材料具有較大的一致性,而2個(gè)保持系之間的差異大于同質(zhì)異核不育系之間的差異,說明核背景對細(xì)胞質(zhì)基因組的影響較小。圖2的結(jié)果顯示,2個(gè)不育材料葉綠體基因組間序列基本相同,不同材料間葉綠體基因組高度保守。
利用Codon Code Aligner軟件比對分析同核異質(zhì)玉米葉綠體基因組間的變異信息,篩選2組不育系及保持系中共有的SNP和InDel位點(diǎn)。C48-2與48-2比對檢索到29個(gè)SNP和21個(gè)InDel位點(diǎn),C黃早四與黃早四比對共檢索到42個(gè)SNP位點(diǎn)和24個(gè)InDel位點(diǎn)。比較這兩組同核異質(zhì)材料變異信息,統(tǒng)計(jì)共有的SNP和InDel位點(diǎn)見表3,從表3可以看出,大多數(shù)的堿基變異和全部的插入、缺失都發(fā)生在基因組的重復(fù)序列。
圖1 4個(gè)玉米材料葉綠體基因組系統(tǒng)進(jìn)化分析Figure 1 Phylogenetics analysis of chloroplast genomes among four maize materials
圖2 4個(gè)玉米材料葉綠體基因組共線性分析Figure 2 Synteny analysis of chloroplast genome among four maize materials
表3 兩套同核異質(zhì)系葉綠體基因組SNP和InDel共有位點(diǎn)統(tǒng)計(jì)Table 3 The common SNP and InDel sites of chloroplast genome between CMS-C lines and maintain lines
本試驗(yàn)利用WebSNAPER(https://pga.mgh.harvard.edu/cgi-bin/snap3/websnaper3.cgi)對檢索到的變異位點(diǎn)設(shè)計(jì)引物,然后以CMS-C不育系及其保持系DNA為材料進(jìn)行PCR擴(kuò)增驗(yàn)證?;谏鲜霾呗宰罱K設(shè)計(jì)出S8-C和S8-N兩對額外錯(cuò)配堿基引物(表4),兩對引物均能有效區(qū)分CMS-C不育細(xì)胞質(zhì)和正常細(xì)胞質(zhì)(圖4)。
表4 基于SNP設(shè)計(jì)的兩對引物序列Table 4 The primer sequences of S8 based on SNP
圖4 利用標(biāo)記S8-C和S8-N對不同細(xì)胞質(zhì)類型進(jìn)行PCR擴(kuò)增Figure 4 The PCR amplification results of chloroplastid SNP markers S8-C and S8-N for different cytoplasmic materials
植物細(xì)胞含有葉綠體、線粒體和細(xì)胞核3套不同的遺傳系統(tǒng)。一般情況下所提取的細(xì)胞總DNA,實(shí)際上是一個(gè)既包含核基因組DNA也包含細(xì)胞質(zhì)基因組DNA的混合體。目前基于總DNA混合樣品的高通量測序數(shù)據(jù),已經(jīng)在某些作物上完成了線粒體基因組或葉綠體基因組的組裝。本研究通過利用差速離心制備粗制線粒體,目的在于有效富集線粒體、葉綠體等細(xì)胞器遺傳物質(zhì),盡可能排除細(xì)胞核遺傳物質(zhì)。有資料報(bào)道[18],每個(gè)玉米葉片細(xì)胞中葉綠體DNA大約有3 000~4 000個(gè)拷貝,而相應(yīng)線粒體DNA的拷貝數(shù)量僅為30~100。這就為利用粗制線粒體DNA的高通量測序結(jié)果,分析葉綠體體基因組提供了理論基礎(chǔ)。本研究成功組裝出C48-2、C黃早四、48-2以及黃早四4個(gè)葉綠體基因組,通過與已經(jīng)測序的C-B37和N-B37葉綠體DNA序列進(jìn)行比較[13],發(fā)現(xiàn)在基因組大小、結(jié)構(gòu)以及基因組成等方面有較大的一致性,說明基于線粒體基因組的高通量測序數(shù)據(jù)可以有效組裝出葉綠體基因組。本研究組裝的4個(gè)葉綠體基因組大小與1995年首次完成的玉米葉綠體全基因組較為一致[12];并且均含有84種蛋白質(zhì)編碼基因、30種tRNA基因、4種rRNA基因,與1995年的報(bào)道的tRNA基因、rRNA基因數(shù)量完全一致,僅在蛋白質(zhì)編碼基因的數(shù)量上存在差異。
早期對葉綠體基因組的研究,通常需要分離出葉綠體,而葉綠體的分離不僅復(fù)雜繁瑣且受實(shí)驗(yàn)設(shè)備限制,一定程度上制約了葉綠體基因組的研究進(jìn)展。隨著計(jì)算機(jī)分析軟件發(fā)展、算法的改進(jìn)及測序方法的完善和提升,利用混合樣品測序數(shù)據(jù),可同時(shí)開展不同遺傳體系的基因組組裝分析,比如利用細(xì)胞總DNA的高通量測序數(shù)據(jù),可同時(shí)開展細(xì)胞核基因組、葉綠體基因組和線粒體基因組的組裝分析,這樣既省去了葉綠體和線粒體細(xì)胞器的分離純化過程,也提高了實(shí)驗(yàn)效率,使得對線粒體、葉綠體基因組的研究不再受制于細(xì)胞器的分離[19]。
通過對同質(zhì)異核和同核異質(zhì)葉綠體基因組進(jìn)行序列同源性比較和系統(tǒng)進(jìn)化分析,發(fā)現(xiàn)具有正常細(xì)胞質(zhì)的黃早四與48-2葉綠體基因組之間的序列相似性要小于同質(zhì)異核不育系C48-2與C黃早四之間的相似性。這與2015年M.Bosacchi等[13]的報(bào)道結(jié)果極為一致,即玉米CMS-C、CMS-S、CMS-T這3類不育胞質(zhì)之間葉綠體基因組的相似性小于來自于瑞德黃馬牙群(reid yellow dent)的自交系B73(選自BSSSC2)與B37(選自BSSSC0)之間葉綠體基因組的相似性。通過對本研究組裝的玉米葉綠體基因組進(jìn)行分析,盡管不同材料間玉米葉綠體基因組具有高度的保守性,然而它們之間卻仍然存在一些SNP位點(diǎn)。這與早期人們通過酶切圖譜分析或熱變性溶解曲線分析,所得的結(jié)果較為一致,即不育系與保持系的葉綠體DNA在堿基組成上有差異[1-2]。這些結(jié)果一致說明不育系與保持系的葉綠體DNA存在堿基組成上的差異。
比較本研究獲得的兩套同核異質(zhì)材料葉綠體基因組間的共有的SNP差異,并和已經(jīng)測序的玉米N-B37、C-B37葉綠體基因組相比,篩選到不育細(xì)胞質(zhì)CMS-C與正常細(xì)胞質(zhì)之間共有的SNP位點(diǎn)?;谶@些共有的SNP位點(diǎn),成功設(shè)計(jì)出能夠區(qū)分玉米CMS-C不育細(xì)胞質(zhì)和正常細(xì)胞質(zhì)的葉綠體特異引物。
四川農(nóng)業(yè)大學(xué)學(xué)報(bào)2019年1期