繆娜娜,丁明全,楊思晴,戎均康
(1.浙江農(nóng)林大學(xué)林業(yè)與生物技術(shù)學(xué)院,浙江臨安 311300; 2.浙江農(nóng)林大學(xué)農(nóng)業(yè)與食品科學(xué)學(xué)院,浙江臨安 311300)
小麥(TriticumaestivumL.)是世界上播種面積最大、產(chǎn)量?jī)H次于玉米(ZeamaysL.)和水稻(OryzasativaL.)的第三大糧食作物,提供人類約20%的能量,其蛋白質(zhì)和脂肪含量比其他農(nóng)作物更豐富[1]。由于當(dāng)前推廣的栽培小麥品種大多來(lái)源于少數(shù)核心種質(zhì),使得小麥育種資源的遺傳多樣性顯著下降[2-3]。從小麥野生近緣種中挖掘和利用新的優(yōu)質(zhì)基因資源是豐富普通小麥遺傳背景的有效途徑。
野生二粒小麥?zhǔn)瞧胀ㄐ←淎和B染色體組的供體,具有粒大、蛋白質(zhì)含量高和貯藏蛋白遺傳多樣性豐富等優(yōu)良性狀,并含有豐富的遺傳變異,能夠抵抗多種生物和非生物脅迫[4]。Garvin等[5]在野生二粒小麥中定位了Qfhs.ndsu-3AS和Qfhs.fcu-7AL等多個(gè)抗赤霉病相關(guān)的基因,可用于小麥赤霉病抗性的改良。Uauy等[6]在野生二粒小麥中發(fā)現(xiàn)籽粒蛋白質(zhì)含量基因GPC-B1,能夠顯著提高小麥的蛋白質(zhì)含量及鋅、鐵等微量元素含量,提升幅度超過(guò)10%~15%,對(duì)小麥品質(zhì)改良具有重要價(jià)值。以上研究均表明,利用野生二粒小麥改良栽培小麥具有非常重要的理論和現(xiàn)實(shí)意義。
以普通小麥品種中國(guó)春(Chinese Spring,CS)為背景的野生二粒小麥材料TTD140染色體臂置換系(chromosome arm substitution line,CASL)是由以色列Weizmann科學(xué)院Feldman教授利用常規(guī)雜交結(jié)合細(xì)胞學(xué)鑒定等方法創(chuàng)制的[7]。利用這套材料已鑒定到很多優(yōu)良或特異性狀,如CASL7AS/CASL4BS/CASL7AL的千粒重明顯高于CS[8],CASL2BS晚熟且與光周期基因Ppd-B1緊密連鎖[9]。由于CASL是通過(guò)CS端體與TTD140雜交后再和相應(yīng)CS端體多次回交產(chǎn)生,因此在非置換染色體臂上仍然會(huì)有野生二粒小麥片段殘余。Zhou等[9]通過(guò)749個(gè)SSR標(biāo)記鑒定該套CASL材料,其中277個(gè)在CS與TTD140間存在多態(tài)性,在非置換染色體上檢測(cè)到25個(gè)沒有被CS置換的TTD140染色體片段。由于小麥基因組巨大,常規(guī)分子標(biāo)記在小麥材料之間多態(tài)性較低,因此不能有效監(jiān)測(cè)所有置換區(qū)段[7-9];本研究利用轉(zhuǎn)錄組測(cè)序結(jié)合SNP分析技術(shù),不僅可以從全基因組水平研究基因的表達(dá),還可以更準(zhǔn)確地了解染色體臂置換系每條染色體的遺傳組成。因此,本研究利用三個(gè)CASL材料和中國(guó)春進(jìn)行RNA測(cè)序,比對(duì)CS參考基因組序列,分析純合SNP在染色體上的分布,最終確定野生二粒小麥置換區(qū)段的大小和位置,以期為CASL的鑒定提供新的有效手段。
中國(guó)春(CS)及其染色體臂置換系材料CASL3AL、CASL7BS和CASL4AL由Feldman等[7]創(chuàng)制。2016年10月將試驗(yàn)材料種植于浙江農(nóng)林大學(xué)試驗(yàn)田,每個(gè)材料連續(xù)種兩行,行間距約30 cm。拔節(jié)期每個(gè)材料取10株最上部展開葉混合,用錫箔紙包好,置于液氮中冷凍保存待用。
1.2.1 RNA提取
使用RNAprep Pure Plant Kit試劑盒(TIANGEN,北京)提取葉片組織總RNA,選取28S∶18S=2∶1,OD260/280值1.8~2.0,總量大于1 μg的樣品進(jìn)行建庫(kù)。
1.2.2 轉(zhuǎn)錄組測(cè)序
1.2.3 RNA-Seq分析步驟
通過(guò)分析變異位點(diǎn)在染色體上的分布來(lái)判斷野生二粒小麥的置換區(qū)段。分析步驟如下:
(1)去除測(cè)序原始讀段raw reads的測(cè)序接頭序列(fastp 0.19.5[10]),過(guò)濾掉低質(zhì)量reads,并去除3'末端和5'末端低質(zhì)量的堿基,得到高質(zhì)量clean reads;
(2)以CS基因組“IWGSC RefSeq v1.0”(https://urgi.versailles.inra.fr/download/iwgsc/IWGSC_RefSeq_Assemblies/v1.0/)[1]為參考基因組,使用Hisat2[11]建立索引,并將clean reads比對(duì)到參考基因組上,提取唯一比對(duì)short reads,將比對(duì)后的SAM文件進(jìn)行排序(GATK4.0:SortSam);
(3)過(guò)濾標(biāo)記PCR擴(kuò)增過(guò)程中產(chǎn)生的重復(fù)reads(GATK4.0:Markduplicates[12]),添加接頭文件(Picard:Add Or Replace Read Group);
(4)建立索引,檢測(cè)SNP變異位點(diǎn)(Samtools,GATK4.0:Haplotype Caller);
(5)對(duì)上述SNP位點(diǎn)進(jìn)行硬過(guò)濾(GATK 4.0:Variant Filtration[13]),過(guò)濾標(biāo)準(zhǔn)為QUAL<60.0,QD<2.0,MQ<40.0,F(xiàn)S>60,SOR> 3.0,MQRankSum<-12.5,ReadPosRankSum< -8.0,DP<10;
(6)重復(fù)上述流程對(duì)每個(gè)CASL材料進(jìn)行SNP變異的檢測(cè),使用Excel軟件統(tǒng)計(jì)每個(gè)材料純合(基因型為1/1)SNP數(shù)量及其在染色體的 分布;
(7)獲取CASL材料每個(gè)基因的表達(dá)量FPKM(Fragments per kilobase of transcript per million fragments mapped)(HTseq[14]:htseq-read),閾值為FPKM≥1。
1.2.4 SSR引物設(shè)計(jì)與標(biāo)記多態(tài)性驗(yàn)證
SSR分子標(biāo)記來(lái)源于GrainGenes 3.0網(wǎng)站(https://wheat.pw.usda.gov/GG3/),或根據(jù)發(fā)布的中國(guó)春和野生二粒小麥Zavitan的參考基因組(https://wheat.pw.usda.gov/graingenes_downloads/Zavitan/)信息,通過(guò)MISA[15](MicroSAtellite identification tools,http://pgrc.ipk-gatersleben.de/misa/misa.html)軟件對(duì)上述檢測(cè)出的置換區(qū)段的序列進(jìn)行SSR位點(diǎn)的預(yù)測(cè),標(biāo)準(zhǔn)為二核甘酸重復(fù)次數(shù)不低于6次,三、四、五核苷酸重復(fù)次數(shù)不低于5次。然后,用Primer 3.0(http://primer3.ut.ee)根據(jù)鑒定出的SSR位點(diǎn)批量設(shè)計(jì)引物,并通過(guò)e-PCR 2.3.12驗(yàn)證引物的特異性。設(shè)計(jì)好的引物由上海華大生物公司合成。
使用CTAB法提取TTD140、CS和CASL3AL的葉片基因組DNA。PCR反應(yīng)體系為15 μL,包含11.25 μL ddH2O、1.5 μL 10×Buffer、1 μL DNA、0.40 μL上下游引物、0.25 μL dNTPs、0.2 μL TakaraTaq酶。PCR反應(yīng)程序?yàn)椋?94 ℃預(yù)變性5 min;94 ℃變性30 s,58 ℃復(fù)性 30 s,72 ℃延伸 30 s,30個(gè)循環(huán);72 ℃延伸 7 min, 4 ℃保存。使用10%聚丙烯酰胺凝膠電泳檢測(cè)TTD140和CS之間的SSR標(biāo)記多態(tài)性。
1.2.5 SNP位點(diǎn)驗(yàn)證
在3A染色體SNP突變位點(diǎn)密集區(qū)域設(shè)計(jì)兩對(duì)特異性引物(表1)并進(jìn)行PCR擴(kuò)增。PCR體系為50 μL,包含19.5 μL ddH2O、25 μL GCbuffer、2 μL DNA、1 μL上下游引物、1 μL dNTPs、0.5 μL LaTaq酶。PCR反應(yīng)程序?yàn)椋?94 ℃預(yù)變性7 min;94 ℃變性30 s,62 ℃復(fù)性 30 s,72 ℃延伸1 min,35個(gè)循環(huán);72 ℃延伸 7 min, 4 ℃保存。將TTD140、CS和CASL3AL基因組中的擴(kuò)增產(chǎn)物直接割膠回收送生工生物工程(上海)股份有限公司測(cè)序。PCR產(chǎn)物目的片段約650 bp左右,使用MEGA7.0對(duì)這三個(gè)材料的擴(kuò)增序列和CS/TTD參考基因組目標(biāo)序列進(jìn)行比對(duì)。
表1 SNP驗(yàn)證引物序列Table 1 Primer sequence for SNP verification
經(jīng)檢測(cè),三個(gè)CASLs和CS的RNA總量為164~344 ng·μL-1,18S和28S條帶清晰且條帶亮度比值28S∶18S=2∶1(圖1),OD260/280在 1.8~2.0之間。本研究4個(gè)樣品的RNA在測(cè)序后共產(chǎn)生315 290 370個(gè)raw reads,過(guò)濾后得到 303 606 610個(gè)clean reads。質(zhì)控后四個(gè)材料Q20都大于96%,Q30約91%,說(shuō)明測(cè)序原始數(shù)據(jù)質(zhì)量可靠。將clean reads與中國(guó)春參考基因組比對(duì),發(fā)現(xiàn)四個(gè)樣品93.17%~95.56%的short reads能比對(duì)到參考基因組上,唯一比對(duì)(Unique mapped)率為81.60%~84.24%,非唯一比對(duì)(Multiple mapped)率為6.22%~9.00%,8.19%~10.57%的short reads未比對(duì)上(表2)。比對(duì)結(jié)果說(shuō)明絕大多數(shù)的short reads可以比對(duì)到參考基因組上進(jìn)行后續(xù)分析。
泳道M:Marker; 泳道1~4:CASL3AL、CASL4AL、CASL7BS和CS。
Lane M:Makers; Lanes 1-4:CASL3AL, CASL4AL, CASL7BS and CS.
圖1 CASLs與CS總RNA質(zhì)量瓊脂糖凝膠檢測(cè)結(jié)果
Fig.1Detection of total RNA from CASLs and CS with agarose gel
表2 高通量測(cè)序短片段(short reads)與參考基因組序列的比對(duì)率Table 2 Mapping rate of the short reads to the CS reference genome sequences
CASL間SNP數(shù)量分析發(fā)現(xiàn),每個(gè)CASL材料的表達(dá)基因數(shù)量不同,但每條染色體上表達(dá)基因數(shù)量占表達(dá)基因總數(shù)的百分比大致相同(表3)。表達(dá)基因在染色體上的分布呈現(xiàn)從著絲粒向端粒逐漸增加的趨勢(shì)(圖2d,f,h和j)。但不同CASL材料之間SNP的數(shù)量和其在染色體分布存在很大不同(圖2c,e,g和i)。CASL3AL、CASL7BS和CASL4AL分別有1 940、2 594和 6 037個(gè)SNP。SNP主要集中在CASL材料的置換染色體3A,7B和4A上(圖2)。其中CASL3AL的79.6%SNP分布于3A染色體的108-750 Mb區(qū)間,表明不僅3A染色體的整個(gè)長(zhǎng)臂被置換,同時(shí)短臂上靠近著絲粒約200 Mb的區(qū)段也被TTD140置換(圖2e);CASL7BS的 85.20%SNP主要集中在7B的0~510 Mb和5A上的30~460 Mb之間(圖2g),表明除置換染色體7B外,5A上也有430 Mb的區(qū)段來(lái)自于TTD140。CASL4AL的SNP分布復(fù)雜(圖2i),34.6%的SNP分布在染色體4A的40~710 Mb區(qū)段。余下的65.4%SNP位點(diǎn)分布在其他11條染色體,如7B上的713個(gè)SNP分布于0~570 Mb區(qū)段,5B的696個(gè)SNP分布在長(zhǎng)臂近末端410~675 Mb的區(qū)段;還有9條染色體含有超過(guò)100個(gè)SNP,分布于染色體端部100 Mb內(nèi)。有趣的是,CASL4AL較多的SNP分布在D組染色體亞組上,如475個(gè)SNP分布于5D上的530~566 Mb,347個(gè)SNP分布于7D上的13~46 Mb之間。
為了驗(yàn)證SNP分析鑒定出的CASL染色體組成的可靠性,在3A染色體上新設(shè)計(jì)222對(duì)SSR標(biāo)記,其中77對(duì)在CS和TTD140間存在多態(tài)性;加上20對(duì)具有多態(tài)性的公共分子標(biāo)記(barc、wmc、gwm、cfa系列),共計(jì)97對(duì)。這些標(biāo)記覆蓋整條3A染色體,標(biāo)記間平均距離約7.83 Mb。用這些標(biāo)記驗(yàn)證CASL3AL的置換區(qū)段,檢測(cè)到TTD140帶型的84對(duì)標(biāo)記集中在短臂上靠近著絲粒的P0409標(biāo)記和長(zhǎng)臂上的P2089標(biāo)記之間區(qū)段(108~750 Mb)(圖3),沒有檢測(cè)到TTD140條帶的標(biāo)記則集中在P0008-P0400標(biāo)記之間(0~108 Mb),說(shuō)明3A染色體的108~750 Mb區(qū)段來(lái)自于TTD140,檢測(cè)到TTD140帶型的SSR標(biāo)記分布區(qū)間與上述RNA-seq分析出的SNP分布區(qū)域(圖2e:3A)相吻合,證明使用RNA-seq結(jié)合SNP分析技術(shù)鑒定CASL材料的染色體組成是可靠的。
表3 表達(dá)基因在染色體上的分布Table 3 Distribution of expressed genes on chromosomes
括號(hào)內(nèi)的數(shù)據(jù)為每條染色體上表達(dá)基因數(shù)量占表達(dá)基因總數(shù)的百分比。
The data in bracket are the percentage of the number of expressed genes on each chromosome to the total number of expressed genes.
為驗(yàn)證SNP位點(diǎn),設(shè)計(jì)了兩對(duì)引物對(duì)SNP富集區(qū)域進(jìn)行擴(kuò)增,其中引物3A_SNP_1在CS和CASL3AL的擴(kuò)增產(chǎn)物測(cè)序結(jié)果顯示重疊峰,可能是該引物特異性不高導(dǎo)致PCR產(chǎn)物不純引起的,引物3A_SNP_2測(cè)序結(jié)果正常。將引物3A_SNP_2在CS、CTTD140和CASL3AL基因組中擴(kuò)增產(chǎn)物的序列與TTD和CS參考基因組進(jìn)行比對(duì),其中320 bp序列中存在7個(gè)SNP(圖4),本研究所用CS的序列和CS參考基因組一致,CASL3AL和TTD140的序列與Zavitan參考基因組一致,證明CASL3AL的該段DNA序列來(lái)自于TTD140。
a:小麥染色體長(zhǎng)度及其著絲粒位置(顏色較淺的為長(zhǎng)臂,顏色較深的為短臂);b:小麥注釋基因在染色體上的分布;c:中國(guó)春材料的純合SNP分布;d:中國(guó)春材料表達(dá)基因分布(FPKM≥1);e:CASL3AL上純合SNP的分布;f:CASL3AL材料表達(dá)基因的分布(FPKM≥1);g:CASL7BS上純合SNP的分布;h:CASL7BS料表達(dá)基因的分布(FPKM≥1);i:CASL4AL上純合SNP的分布;j:CASL4AL材料表達(dá)基因的分布(FPKM≥1)。
a:Length and centromeric position of chromosome in wheat(lighter colors indicate the long arm and dark colors indicate short arm); b:The distribution of annotated genes on chromosomesin wheat; c:The distribution of homozygous SNP in Chinese Spring; d:The distribution of genes expressed in Chinese Spring(FPKM≥1); e:The distribution of homozygous SNP in CASL3AL; f:The distribution of gene expressed in CASL3AL( FPKM≥1 ); g:The distribution of homozygous SNP in CASL7BS; h:The distribution of gene expressed in CASL7BS(FPKM≥1); i:The distribution of homozygous SNP in CASL4AL; j:The distribution of gene expressed in CASL4AL(FPKM≥1).
圖2 表達(dá)基因和SNP在染色體上的分布
Fig.2 Distribution of SNPs and expressed genes on chromosomes
P0058等為SSR標(biāo)記,標(biāo)記間間距為物理距離,深灰色區(qū)域代表CASL3AL中來(lái)自TTD140的染色體片段。
P0058,etc. are SSR markers. Intervals between SSRs are physical distance. The bar with dark grey represents the fragment from TTD140 in CASL3AL.
圖3 CASL3AL與CS間多態(tài)性SSR分子標(biāo)記在3A染色體上的分布
Fig.3 Distribution of SSR polymorphic molecular markers between CASL3AL and CS on chromosome 3A
CS_reference為IWGSC Ref Seqv1.0參考序列;CS為中國(guó)春測(cè)序結(jié)果;TTD_reference為Zavitan參考序列;TTD為TTD140;CASL3AL為染色體臂置換材料。
CS_reference is IWGSC Ref Sqv1.0 reference sequence; CS is the sequencing result of Chinesse Spring;TTD_reference is the Zavitan reference sequence; TTD is TTD140; CASL3AL is a chromosome arm substitution material.
圖4 CS/TTD140/CASL3AL測(cè)序片段與參考基因組的比對(duì)結(jié)果
Fig.4 Comparison of sequencing fragments of CS/TTD140/CASL3AL with reference genome
CASL材料是由CS端體與TTD140雜交,然后經(jīng)CS端體多次回交選育而成,理論上非置換臂還會(huì)存在少量的TTD染色體片段沒有被CS替換。Millet等[7]使用RFLP和SSR分子標(biāo)記對(duì)以普通小麥品種Bethlehem(BL)為背景的CASL染色體組成進(jìn)行了鑒定,發(fā)現(xiàn)在非置換染色體上確實(shí)有一定量的TTD存在;Zhou等[8]利用多態(tài)性SSR標(biāo)記對(duì)以CS為背景的CASL材料的染色體組成進(jìn)行了鑒定,也在非置換染色體上發(fā)現(xiàn)了少量TTD片段。本研究采用轉(zhuǎn)錄組測(cè)序結(jié)合SNP分析法,檢測(cè)三個(gè)CASL材料中的TTD置換片段。三個(gè)CASL材料的大多數(shù)SNP存在于置換染色體臂和靠近著絲粒附近約200 Mb的另一條臂上,此外,CASL7BS在非置換臂5A染色體上檢測(cè)到約430 Mb的TTD片段,CASL4AL在11條非置換染色體上也檢測(cè)到TTD片段。本研究在置換染色體上檢測(cè)到的TTD片段范圍比Millet等[7]和Zhou等[8]檢測(cè)到的片段范圍更精確,同時(shí)在非置換染色體上檢測(cè)到了更多的TTD片段。這可能是因?yàn)镸illet等[7]和Zhou等[8]所用的SSR標(biāo)記檢測(cè)具有一定的局限性,如Zhou等[8]用749對(duì)SSR標(biāo)記只篩選到277對(duì)多態(tài)性標(biāo)記用于TTD置換片段的檢測(cè),平均每條染色體13對(duì),明顯偏低。這表明使用傳統(tǒng)的SSR分子標(biāo)記檢測(cè)置換區(qū)段存在一些不足,如標(biāo)記多態(tài)性低、鑒定過(guò)程費(fèi)工費(fèi)時(shí)、標(biāo)記覆蓋密度低等。而利用轉(zhuǎn)錄組數(shù)據(jù)獲得的SNP分布廣且相對(duì)均勻,檢測(cè)更可靠。但該方法也存在一些不足,如轉(zhuǎn)錄組數(shù)據(jù)具有時(shí)間、組織、空間特異性等特點(diǎn),可能還有部分TTD置換區(qū)段無(wú)法被檢測(cè)到。為此,可在取樣時(shí)取多株不同時(shí)期不同部位的樣品混合測(cè)序,以達(dá)到全面鑒定置換區(qū)段的效果。綜上所述,本研究對(duì)置換材料的供體片段的鑒定提供了快速、準(zhǔn)確的方法,具有較高的應(yīng)用價(jià)值。