趙亞琴,樊叢照,張際昭,邱遠(yuǎn)金,辛海量,李曉瑾,張本剛,王果平*
1.新疆中藥民族藥研究所,新疆 烏魯木齊 830002
2.第二軍醫(yī)大學(xué),上海 200433
3.中國(guó)醫(yī)學(xué)科學(xué)院藥用植物研究所,北京 100193
啤酒花Humulus lupulusL.隸屬??疲∕oraceae)葎草屬HumulusL.,是新疆特色的藥食同源植物,其體內(nèi)含有的樹(shù)脂類(lèi)、黃酮類(lèi)、黃腐酚等化學(xué)成分具有抗病毒、抗氧化等藥用價(jià)值,同時(shí)啤酒花也是生產(chǎn)啤酒的基本原料,在保持啤酒風(fēng)味及延長(zhǎng)啤酒保質(zhì)期等方面發(fā)揮著重要的經(jīng)濟(jì)價(jià)值[1-2]。野生啤酒花主要分布在新疆阿勒泰地區(qū)的額爾齊斯河及其分支流域,如樺樹(shù)森林公園、哈巴河、布爾津、塔城地區(qū)和伊犁地區(qū)[3]。目前,在全國(guó)各地均有商業(yè)化種植。新疆不僅是啤酒花的原產(chǎn)地之一,也是我國(guó)啤酒花的主要產(chǎn)區(qū),但據(jù)調(diào)查,目前新疆栽培種植的啤酒花主要是美國(guó)和日本引進(jìn)的品種,在生產(chǎn)上存在品種單一、病蟲(chóng)害嚴(yán)重等問(wèn)題[2]。為培育本土品種,實(shí)現(xiàn)本地資源利用的最大化,探究新疆野生資源的遺傳多樣性及其與外來(lái)品種之間的遺傳差異性,有助于了解新疆本地野生資源的遺傳潛力,為其遺傳育種提供理論指導(dǎo)。目前對(duì)啤酒花遺傳特性的研究相對(duì)較少[5-6],特別是對(duì)其遺傳背景、新疆野生種與栽培種的關(guān)系等方面的研究,野生資源遺傳信息的缺乏也成為制約其遺傳育種的瓶頸。有研究表明,野生個(gè)體和栽培個(gè)體的遺傳多樣性在化學(xué)成分上存在明顯差異。所以探究新疆野生啤酒花植物的遺傳特征,明晰栽培個(gè)體與野生個(gè)體之間的遺傳背景及其遺傳關(guān)系,對(duì)培育地方品種、加強(qiáng)野生資源的利用具有重要意義。
隨著高通量測(cè)序技術(shù)的快速發(fā)展,基于第二代測(cè)序技術(shù)的簡(jiǎn)化基因組測(cè)序specific-locus amplified fragment sequencing(SLAF-seq)、restriction-site associated DNA sequencing(RAD-seq)、genotyping by sequencing(GBS)等推動(dòng)了進(jìn)化生物學(xué)的又一步快速發(fā)展[7]。其中,SLAF-seq是一種高通量、高分辨率的SNPs位點(diǎn)識(shí)別與分型技術(shù),是簡(jiǎn)化基因組測(cè)序的一次革命[8-10]。SLAF-seq技術(shù)利用生物信息學(xué)方法,對(duì)目標(biāo)物種的參考基因組進(jìn)行系統(tǒng)分析,設(shè)計(jì)一個(gè)合適的酶切方案,構(gòu)建SLAF-seq文庫(kù),篩選出特異性長(zhǎng)度片段,再應(yīng)用高通量測(cè)序技術(shù)獲得高通量標(biāo)簽序列,然后對(duì)數(shù)據(jù)分析,獲取滿(mǎn)足要求的SLAF片段。這些片段可以充分代表全基因組的序列特征信息,依據(jù)這些片段可以開(kāi)發(fā)出大量的分子標(biāo)記特別是單核苷酸多態(tài)(SNP)[11]。SLAF測(cè)序技術(shù)具高通量、高精度、短周期等優(yōu)點(diǎn),已經(jīng)被運(yùn)用于遺傳定位、高密度遺傳連鎖圖譜構(gòu)建及不同個(gè)體間的多態(tài)性分析、系統(tǒng)進(jìn)化和種質(zhì)資源鑒定等領(lǐng)域[12-13]。本研究基于SLAF-seq測(cè)序技術(shù)以及獲取在新疆同域分布的20個(gè)啤酒花的野生種及18個(gè)栽培個(gè)體的大量多態(tài)性SLAF標(biāo)簽,進(jìn)而開(kāi)發(fā)特異性強(qiáng)、穩(wěn)定性高的的群體SNP位點(diǎn)?;谶@些SNP位點(diǎn)從基因組水平明晰其野生種與栽培種之間的親緣關(guān)系及遺傳結(jié)構(gòu)。旨在分析啤酒花不同個(gè)體間的遺傳分化,探討啤酒花野生種與栽培種之間的親緣關(guān)系,為其野生資源育種提供科學(xué)依據(jù)。
本研究在野生啤酒花集中分布區(qū)采集20個(gè)野生個(gè)體,其中7份來(lái)源與阿勒泰地區(qū),5份來(lái)源于塔城地區(qū),1份來(lái)源于伊犁地區(qū),3份來(lái)源于新源縣,4份來(lái)源于昌吉地區(qū);18個(gè)栽培個(gè)體主要來(lái)源于阿勒泰地區(qū)、昌吉地區(qū)、哈密市及南疆的焉耆縣、沙雅縣及喀什地區(qū)。經(jīng)中國(guó)醫(yī)學(xué)科學(xué)院藥用植物研究所張本剛研究員鑒定為啤酒花H.lupulusL.。采樣過(guò)程中選擇生長(zhǎng)健壯、無(wú)病蟲(chóng)的植株,采集其幼嫩的葉片并記錄經(jīng)緯度,采集的新鮮樣品迅速用硅膠迅速干燥,存放于-80 ℃冰箱備用。
本實(shí)驗(yàn)采用3×CTAB法提取分布在38個(gè)地點(diǎn)啤酒花的總DNA。采用1%瓊脂糖凝膠電泳進(jìn)行電泳檢測(cè)DNA的產(chǎn)量和質(zhì)量,確保所提取基因組DNA質(zhì)量達(dá)到建庫(kù)要求,利用Thermo核酸檢測(cè)儀(Nanodrop 2000/2000c)測(cè)定DNA的濃度[14]。
根據(jù)已發(fā)布的啤酒花基因組信息(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/831/365/GCA_000831365.1_hl_SW_version_1.0.fasta/GCA_000831 365.1_hl_SW_version_1.0.fasta_genomic.fna.gz).(基因組大小2.05 Gb,GC含量38.57%)作為參考基因組,組裝出的基因組大小為2.05 Gb,GC含量為38.57%。利用北京百邁客生物技術(shù)公司自主研發(fā)的酶切預(yù)測(cè)軟件對(duì)參考基因組進(jìn)行酶切預(yù)測(cè),最終選擇Rsa I和HaeIII酶對(duì)基因組DNA酶切,酶切片段長(zhǎng)度在364~414 bp的序列定義為SLAF標(biāo)簽,SLAF標(biāo)簽在基因組上基本分布均勻。最終獲得酶切片段(SLAF標(biāo)簽)數(shù)滿(mǎn)足預(yù)期標(biāo)簽數(shù)[15]。
基于位于重復(fù)序列的酶切片段比例盡可能低,酶切片段在基因組上盡量均勻分布,酶切片段長(zhǎng)度與實(shí)驗(yàn)體系吻合程度等原則設(shè)計(jì)酶切方案,對(duì)檢測(cè)合格的各個(gè)地點(diǎn)的啤酒花個(gè)體基因組DNA分別進(jìn)行酶切。對(duì)得到的酶切片段(SLAF標(biāo)簽)進(jìn)行3’端加A處理、連接Dual-index測(cè)序接頭、PCR擴(kuò)增、純化、混樣、切膠選取目的片段,文庫(kù)質(zhì)檢合格后用Illumina測(cè)序平臺(tái)進(jìn)行測(cè)序。為評(píng)估酶切實(shí)驗(yàn)的準(zhǔn)確性,選用水稻日本晴Oryza sativaL.ssp.japonica作為對(duì)照進(jìn)行測(cè)序。對(duì)測(cè)序得到的原始數(shù)據(jù)進(jìn)行識(shí)別、過(guò)濾、質(zhì)檢、評(píng)估等分析,獲取各個(gè)個(gè)體的序列(reads)。
利用Dual-index[16]對(duì)測(cè)序得到的原始數(shù)據(jù)進(jìn)行識(shí)別,得到不同個(gè)體的reads分離的等位基因。過(guò)濾測(cè)序reads的接頭后,進(jìn)行測(cè)序質(zhì)量和數(shù)據(jù)量的評(píng)估。通過(guò)Control數(shù)據(jù)評(píng)估RsaI和HaeIII酶的酶切效率,以此判斷實(shí)驗(yàn)過(guò)程的準(zhǔn)確性和有效性。本試驗(yàn)測(cè)序產(chǎn)生reads來(lái)源于都是不同地點(diǎn)的啤酒花在同一限制性?xún)?nèi)切酶的作用下產(chǎn)生的長(zhǎng)度相同或相近的酶切片段,根據(jù)各個(gè)序列的相似度將38個(gè)個(gè)體的reads進(jìn)行聚類(lèi),聚類(lèi)到一起的reads來(lái)源于同一個(gè)SLAF標(biāo)簽[17-18]。同一SLAF標(biāo)簽在不同個(gè)體間的序列相似度遠(yuǎn)高于不同SLAF標(biāo)簽間的相似度;在同一個(gè)SLAF標(biāo)簽中存在不同個(gè)體間序列的差異(即有多態(tài)性),即可定義為多態(tài)性SLAF標(biāo)簽。以每個(gè)SLAF標(biāo)簽中深度最高的序列類(lèi)型作為參考序列開(kāi)發(fā)全基因組范圍的SNP標(biāo)記,對(duì)開(kāi)發(fā)出的SNP根據(jù)完整度>0.5,MAF>0.05的標(biāo)準(zhǔn)進(jìn)行篩選,最后利用篩選出的具有代表性的高質(zhì)量SNP進(jìn)行遺傳進(jìn)化樹(shù)分析[19]、遺傳結(jié)構(gòu)分析[20]和主成分分析(principal component analysis,PCA)[21]。
利用北京百邁客生物技術(shù)公司開(kāi)發(fā)的軟件計(jì)算遺傳多樣性,利用AMOVA分析種群內(nèi)、中群建和居群間的分子差異[22]。
SLAF-seq測(cè)序reads為基因組DNA的酶切片段,其堿基分布會(huì)受到酶切位點(diǎn)和PCR擴(kuò)增的影響,測(cè)序reads的前2個(gè)堿基會(huì)呈現(xiàn)與酶切位點(diǎn)一致的堿基分離,后續(xù)堿基分布會(huì)呈現(xiàn)不同程度的波動(dòng)(圖1)。
圖1 啤酒花測(cè)序堿基分布Fig.1 Sequence distribution of H.lupulus
結(jié)果表明本研究雙端比對(duì)效率在97.71%,比對(duì)效率基本正常。酶切效率是評(píng)價(jià)簡(jiǎn)化基因組實(shí)驗(yàn)是否成功的一個(gè)關(guān)鍵指標(biāo)?;蚪M上的復(fù)雜結(jié)構(gòu)區(qū)域(如環(huán)狀結(jié)構(gòu)域、連續(xù)酶切位點(diǎn)等)、基因組DNA樣品純度較低、酶切時(shí)間不足等因素都可能影響限制性?xún)?nèi)切酶的活性,導(dǎo)致部分酶切位點(diǎn)未被切開(kāi)。通過(guò)統(tǒng)計(jì)測(cè)序reads插入片段中殘留酶切位點(diǎn)的比例,統(tǒng)計(jì)比例越高,酶切效率越好。本實(shí)驗(yàn)中水稻日本晴數(shù)據(jù)的酶切效率為89.92%,雙端比對(duì)效率為97.71%,酶切效率為89.92%,表明酶切反應(yīng)及SLAF建庫(kù)均為正常。
本研究采用讀長(zhǎng)126 bp×2作為后續(xù)的數(shù)據(jù)評(píng)估和分析數(shù)據(jù)。測(cè)序質(zhì)量值(Q)是評(píng)估高通量測(cè)序單堿基錯(cuò)誤率的重要指標(biāo),測(cè)序質(zhì)量值越高對(duì)應(yīng)的堿基測(cè)序錯(cuò)誤率越低。如果某堿基測(cè)序出錯(cuò)的概率為0.001,則該堿基的質(zhì)量值Q應(yīng)該為30(Q30)。對(duì)38個(gè)地點(diǎn)個(gè)體的測(cè)序數(shù)據(jù)進(jìn)行統(tǒng)計(jì),包括reads數(shù)量、Q30和GC含量。測(cè)序平均Q30為93.42%,平均GC含量為42.53%。由于所測(cè)序列的Q30數(shù)據(jù)較高,表明堿基出錯(cuò)率很低,測(cè)序結(jié)果可靠(表1)。
表1 啤酒花測(cè)序質(zhì)量(Q30)及GC含量Table 1 Content of Q30 and GC of H.lupulus
通過(guò)序列分析,從38個(gè)地點(diǎn)的啤酒花基因組中共獲得了863 228個(gè)SLAF標(biāo)簽。標(biāo)簽的平均測(cè)序深度為13.40 X,其中,多態(tài)性SLAF標(biāo)簽有443 922個(gè),共獲得2 867 140個(gè)高質(zhì)量的群體SNP標(biāo)記(表2)。
表2 啤酒花SLAF標(biāo)簽Table 2 Label of SLAF of H.lupulus
基于2 867 140個(gè)SNP位點(diǎn)對(duì)38個(gè)不同地點(diǎn)啤酒花的野生種與栽培種進(jìn)行系統(tǒng)發(fā)育分析,結(jié)果表明38個(gè)啤酒花個(gè)體大致形成2個(gè)主要類(lèi)群,類(lèi)群I包括阿勒泰地區(qū)、塔城地區(qū)、伊犁地區(qū)的16個(gè)野生個(gè)體,類(lèi)群II主要包括所有的栽培個(gè)體及阜康及昌吉地區(qū)的4個(gè)野生種(YFK2、YFK3、YCJ3、YFK4,圖2)。聚類(lèi)分析顯示栽培個(gè)體與多數(shù)野生個(gè)體各自單獨(dú)聚成一類(lèi),表明栽培個(gè)體與野生個(gè)體之間的親緣關(guān)系較遠(yuǎn)。
圖2 基于鄰接法的啤酒花的進(jìn)化樹(shù)Fig.2 Evolutionary trees of H.lupulus based on NJ method
基于開(kāi)發(fā)出的2 867 140個(gè)SNP位點(diǎn)分析38個(gè)地區(qū)啤酒花的遺傳結(jié)構(gòu)。交叉驗(yàn)證聚類(lèi)結(jié)果表明,當(dāng)K=2時(shí),交叉驗(yàn)證錯(cuò)誤率最低,可將38份啤酒花可劃分成2個(gè)不同的類(lèi)群(圖3),結(jié)果與系統(tǒng)發(fā)育結(jié)果一致。S1類(lèi)群(綠色)包括16個(gè)地區(qū)的野生個(gè)體,S2類(lèi)群(黃色)包括18個(gè)地區(qū)的栽培個(gè)體及4個(gè)野生個(gè)體。結(jié)果表明野生個(gè)體與栽培個(gè)體之間存在較大的遺傳差異,形成了較明顯的遺傳分化。而在阜康及昌吉地區(qū)的栽培啤酒花品種來(lái)源多樣,遺傳組成比較復(fù)雜。
圖3 交叉各個(gè)K值對(duì)應(yīng)的個(gè)體聚類(lèi)圖及不同K值所對(duì)應(yīng)的的交叉驗(yàn)證錯(cuò)誤率Fig.3 Admixture individual cluster values corresponding to each K value and admixture validation error rate corresponding to different K values
基于開(kāi)發(fā)的SNP位點(diǎn)對(duì)20個(gè)野生個(gè)體及18個(gè)栽培個(gè)體進(jìn)行PCA分析(PC1和PC2的累積方差貢獻(xiàn)率為35.89%),如圖4所示,20個(gè)野生個(gè)體和18個(gè)栽培個(gè)體在空間上表現(xiàn)出明顯的分離趨勢(shì),說(shuō)明野生個(gè)體與栽培個(gè)體之間具有明顯的遺傳差異性。其中野生個(gè)體分布在主成分坐標(biāo)軸的右側(cè),且彼此緊密地混聚在一起,說(shuō)明采集的野生資源遺傳基礎(chǔ)總體較為狹窄,而栽培個(gè)體由于其品種來(lái)源多樣,遺傳背景復(fù)雜,表現(xiàn)出比野生個(gè)體更廣泛分布的特征,并且不同地區(qū)間的栽培個(gè)體之間也表現(xiàn)出較大的差異性。
圖4 PCA分析Fig.4 Analysis of principal components
38個(gè)啤酒花個(gè)體總的Shanon-Wiener指數(shù)為0.397,Nei多樣性指數(shù)為0.249。野生個(gè)體與栽培個(gè)體的遺傳多樣性具有一定的差異,整體表現(xiàn)為野生個(gè)體總的遺傳多樣性(0.454)大于栽培個(gè)體總的遺傳多樣性(0.398);總的Nei多樣性指數(shù)為0.249,其中野生個(gè)體的Nei多樣性指數(shù)(0.293)大于栽培個(gè)體(0.250)。分子方差分析表明野生個(gè)體與栽培個(gè)體之間存在較大的遺傳分化,其遺傳變異主要來(lái)源于野生個(gè)體與栽培個(gè)體之間。
簡(jiǎn)化基因組測(cè)序技術(shù)通過(guò)尋找合適的限制性?xún)?nèi)切酶來(lái)降低基因組的復(fù)雜程度,可顯著降低測(cè)序成本,同時(shí)還能獲得數(shù)量可觀的基因組變異信息并且能有效地克服基因組復(fù)雜的問(wèn)題,已經(jīng)被應(yīng)用于多種植物的遺傳變異研究上[24-25]?;赟ALF-seq簡(jiǎn)化基因組數(shù)據(jù)對(duì)啤酒花的20個(gè)野生個(gè)體及18個(gè)栽培個(gè)體的遺傳結(jié)構(gòu)分析表明,野生個(gè)體與栽培個(gè)體整體上存在較明顯的遺傳分化,但是在昌吉阜康區(qū)域的野生個(gè)體與栽培個(gè)體之間的遺傳分化并不顯著,存在一定的基因交流。這可能與當(dāng)?shù)剡M(jìn)行大范圍的野生資源育種相關(guān),尤其是昌吉地區(qū)啤酒花種植面積可達(dá)13.3 km2[26],大面積的栽培種植也增加了野生種之間的基因交流。
從聚類(lèi)分析及PCA分析均表明,絕大多數(shù)栽培個(gè)體與野生個(gè)體(昌吉及阜康地區(qū)除外)之間存在明顯的遺傳差異,在DNA水平上單獨(dú)聚類(lèi),形成各自的遺傳結(jié)構(gòu)。其中個(gè)別野生個(gè)體與當(dāng)?shù)卦耘鄠€(gè)體具有較近的親緣關(guān)系,說(shuō)明不同類(lèi)群間,尤其是利用野生資源育種的栽培個(gè)體和野生個(gè)體之間存在一定的基因交流??梢?jiàn)栽培種與野生種之間非絕對(duì)的生殖隔離,可以通過(guò)雜交的方式獲得變異植株,實(shí)現(xiàn)啤酒花種質(zhì)創(chuàng)新和遺傳基礎(chǔ)拓寬。利用遺傳信息對(duì)新疆啤酒花的野生個(gè)體與栽培個(gè)體進(jìn)行遺傳多樣性分析的報(bào)道較少,原俊鳳等[5-6]利用分子標(biāo)記技術(shù)對(duì)新疆4個(gè)野生居群的遺傳多樣性研究結(jié)果表明新疆的野生啤酒花居群具有很高的遺傳多樣性。本研究也發(fā)現(xiàn)新疆野生啤酒花個(gè)體的遺傳多樣性高于栽培個(gè)體,豐富的遺傳資源是野生啤酒花育種中不可或缺的寶貴資源,同時(shí)也為新疆野生啤酒花資源的利用及本土品種的培育提供了一定的指導(dǎo)價(jià)值。
利益沖突所有作者均聲明不存在利益沖突