李雪松,劉紹雄,孫達鋒,張俊波,馬 明,羅孝坤,岳萬松,華 蓉**
(1.云南云菌(集團)有限公司,云南 昆明 650221;2.云南省食用菌產(chǎn)業(yè)發(fā)展研究院,云南 昆明 650221;3.中華全國供銷合作總社昆明食用菌研究所,云南 昆明 650221)
大球蓋菇(Stropharia rugosoannulata Farl. ex Murrill) 別名皺環(huán)球蓋菇、酒紅色球蓋菇、皺球蓋等,商品名為赤松茸[1-2],是一種營養(yǎng)豐富、味道鮮美的食用菌,也是極具開發(fā)潛力的藥用真菌[3-4]。大球蓋菇多糖對大鼠的精神疲勞、運動疲勞和免疫力、抗氧化、抗病毒等方面有積極影響,同時對癌細(xì)胞有極顯著的抑制作用[5-8]。此外,大球蓋菇凝集素對肝癌Hep-G2細(xì)胞和白血病L1210 細(xì)胞均有抗增殖活性[9-10]。
大球蓋菇的市場需求在逐年擴大,現(xiàn)在普遍售賣的品種菌蓋為紅褐色至葡萄酒紅色,或暗褐色品種。金黃色大球蓋菇品種“中菌金球蓋1 號”是大球蓋菇新品種,具有菌蓋顏色鮮艷、菌褶顏色淺、產(chǎn)量高等優(yōu)良性狀,市場潛力巨大[11]。目前對大球蓋菇的研究,主要集中于其化學(xué)成分、胞外酶、生物學(xué)特性、原生質(zhì)體再生和單核化、栽培、加工方法等方面[12]。對于大球蓋菇各栽培種之間的遺傳關(guān)系,不同品種的產(chǎn)量、顏色、出菇溫度等具有較大差異的性狀的控制基因,以及這些基因的遺傳機理的相關(guān)研究尚未見報道[13]。
基因組是一個細(xì)胞或一個生物體的所有遺傳信息的集合,這些信息可以闡明生物有機體與其所處環(huán)境之間的協(xié)調(diào)機制,讓研究者可以通過某一物種特定的遺傳背景上直接去分析相關(guān)的生物學(xué)問題。目前,隨著高通量測序技術(shù)的快速發(fā)展,在大型真菌中已有近323 種(其中315 種分屬于70 個科,另外有8 個種不確定科別) 已完成或部分完成基因組測序和基因組大小評估[14]。通過高通量測序技術(shù),對金黃色大球蓋菇品種“中菌金球蓋1 號”(ZJJQG001) 的基因組大小、雜和率、(G+C) 含量及等信息進行評估,為后續(xù)大球蓋菇全基因組的測序策略以及高質(zhì)量完整基因組圖譜的繪制打下基礎(chǔ),同時對大球蓋菇顏色調(diào)控基因的挖掘、菌株篩選等研究具有重要意義。
試驗材料為金黃色大球蓋菇“中菌金球蓋1號”。樣品于2021 年6 月采自中華全國供銷合作總社昆明食用菌研究所寶峰基地實驗大棚,帶回實驗室后取組織塊放置于凍存管內(nèi),液氮速凍30 min 以上,后置于-80℃超低溫冰箱保存,備用。
采用改良CTAB 法提取基因組DNA,使用德國Qiagen Q13343 試劑盒純化。用NanoDrop 檢測儀和Qubit 檢測儀檢測濃度和純度。采用0.7%瓊脂糖凝膠脈沖電泳檢測,Marker 使用日本寶生物公司(TaKaRa) 15 kb DNA Marker 和λDNA /HindIII。
隨機打斷大球蓋菇的DNA 樣品,構(gòu)建1 個片段大小為500 bp 的文庫。構(gòu)建好的文庫通過武漢希望組生物科技有限公司的MGI PE150 測序平臺進行雙末端測序。
原始數(shù)據(jù)需要進行質(zhì)控處理,過濾低質(zhì)量序列。首先利用軟件fastp 對原始數(shù)據(jù)進行過濾,過濾標(biāo)準(zhǔn)包括:去掉reads 接頭序列;截掉reads 兩端測序不準(zhǔn)確的左右各5 個堿基;去除當(dāng)中含有N 的reads;當(dāng)一條reads 中超過20%的堿基質(zhì)量分?jǐn)?shù)小于20%,則舍棄該reads 所對應(yīng)的一對reads。然后使用軟件FastQC 對有效數(shù)據(jù)(clean data) 進行質(zhì)控,若質(zhì)控合格,則進行后續(xù)分析。
隨機取100 000 條質(zhì)控后的reads,利用BLASTN 將其與NT 數(shù)據(jù)庫進行比對[15],統(tǒng)計reads在NT 庫中的具體比對物種及分布比例,以此來判斷數(shù)據(jù)的污染情況。
利用findGSE 軟件[16]對序列文件中長度為k 的短序列(K-mer) 進行計數(shù)和統(tǒng)計;隨后,使用python 的scipy 包,根據(jù)擬南芥的基因組測序數(shù)據(jù),模擬目標(biāo)序列對應(yīng)深度下的雜合度,預(yù)估基因組大小和雜合度。
采用K-mer=17 構(gòu)建Contigs 和Scaffold,利用高質(zhì)量數(shù)據(jù)進行SOAP de novo[17]組裝,得到Scaffold 序列后用SOAP 將過濾后的reads 比對到該組裝序列上直接拼接,獲得原始基因組序列及堿基深度[15]。對組裝的基因組序列以5 kb 為窗口,無重復(fù)計算片段的平均(G+C) 含量和平均深度并作圖,可以根據(jù)此圖判斷出測序數(shù)據(jù)的(G+C) 偏向性和存在污染等問題。
金黃色大球蓋菇“中菌金球蓋1 號”的子實體經(jīng)過基因組DNA 提取后,獲得107 uL 的提取液。經(jīng)NanoDrop 檢 測 質(zhì) 量 濃 度 為447.1 ng·μL-1,OD260/280 比值為1.89,OD260/230 比值為2.32;Qubit 檢測質(zhì)量濃度為326.0 ng·μL-1,DNA 總量為34.9 ng。提取的基因組DNA 的Nc/Qc(NanDrop 檢測質(zhì)量濃度/Qubit 檢測質(zhì)量濃度) 的比值為1.37,說明提取DNA 質(zhì)量較好。
采用0.7%瓊脂糖凝膠脈沖電泳檢測。樣本DNA主帶在20 000 bp 以上,輕微斷裂,輕微降解,點樣孔中有輕微殘留,滿足建庫測序所需質(zhì)量要求。
提取的基因組DNA 測序獲得7.87 Gb 的原始數(shù)據(jù)(raw data),經(jīng)過質(zhì)控后得到約7.25 Gb 的有效數(shù)據(jù)(clean data)。正、反向測序數(shù)據(jù)分別為read1、read2,數(shù)據(jù)質(zhì)量良好,可用于后續(xù)基因組大小估計、contigs 序列構(gòu)建等分析。測序產(chǎn)出的原始read(raw read) 為52 442 796 條,過濾后的有效read(clean read) 為52 173 844 條,Q30 值為91.63%、(G+C)含量為47.25%。經(jīng)過分析獲得金黃色球蓋菇的基因組的測序深度為140×。
在開展進一步分析前,可通過4 個堿基的含量與平均(G+C) 含量分布,初步判斷數(shù)據(jù)的質(zhì)量。質(zhì)控后堿基含量分布見圖1,平均(G+C) 含量分布見圖2。
圖2 平均(G+C) 含量分布圖Fig.2 Distribution diagram of average (G+C) content
如圖1 所示,由于第二代高通量測序技術(shù)本身特性的限制,導(dǎo)致測序的前十幾個堿基含量會有一定的波動。但在十幾個堿基以后,A 與T、G 與C含量基本一致,表明數(shù)據(jù)堿基含量合格。平均(G+C) 含量分布是否符合正態(tài)分布是判斷測序數(shù)據(jù)污染或部分reads 構(gòu)成子集偏差的重要標(biāo)準(zhǔn)之一。如圖2所示,所得質(zhì)控數(shù)據(jù)的平均(G+C) 含量分布曲線形狀接近正態(tài),說明數(shù)據(jù)質(zhì)量良好。
隨機取100 000 條質(zhì)控后的reads,利用BLASTN將其與NT 數(shù)據(jù)庫進行比對,統(tǒng)計reads 在NT 庫中的具體比對物種及分布比例[15],結(jié)果見表1。
由表1 中可以看出,質(zhì)控后的數(shù)據(jù)有93%未在數(shù)據(jù)庫中找到對應(yīng)序列,但比對匹配到的物種都是與試驗材料近緣的大型真菌。其中,可以匹配上的數(shù)據(jù)中有一半以上都能比對到大球蓋菇的片段,表明測序數(shù)據(jù)無污染,獲得的數(shù)據(jù)就是大球蓋菇的基因組數(shù)據(jù)。
果然,當(dāng)我推開家里的門時,穎春正站在門口像迎接貴賓一樣等著我,而且,屋子里擺滿了鮮花。穎春笑瞇瞇地對我說,歡迎孫局長回家。我卻沒好氣地說,現(xiàn)在,你該滿意了吧?穎春一把擁住我說,怎么能說滿意呢?那不是一般的滿意,而是相當(dāng)?shù)臐M意。我卻推開了她說,穎春,可能要讓你失望了,今天下午,我已經(jīng)找周書記辭職了。穎春聽了,像看著一個癲子一樣看著我,然后,便哭著一枝枝地撕碎了那些擺在屋子里的鮮花。
表1 物種比對統(tǒng)計Tab.1 Species comparison statistics
用K-mer=17 進行分析時使用的是質(zhì)控后的有效數(shù)據(jù)(7.25 Gb),獲得了1 548 216 004 個K-mer,深度為140×,得出其頻率分布詳見圖3。
圖3 金黃色大球蓋基因組K-mer 為17 的分布曲線及雜合率模擬曲線Fig.3 The frequency distribution of K-mer=17 and simulation curves of heterozygosity in S. rugosoannulat(golden yellow)
從圖3 可以看出,深度為29×?xí)r出現(xiàn)的頻率最高,分布曲線成峰的情況較好,即在29×附近有個主峰值。基因組中雜合子和重復(fù)序列的存在影響了K-mer 深度分布[18]。在最高峰值的一半左右會出現(xiàn)一個小峰,因此判斷大球蓋菇基因組具有一定的雜合率。利用KMC 進行評估,并利用模式物種擬南芥(雜合率0.80%) 的基因組模擬對應(yīng)深度的短片段數(shù)據(jù),在雜合率不同梯度組合情況下進行K-mer 曲線擬合來估計大球蓋菇的雜合率[15],最終得到其雜合率為0.80%。
根據(jù)Survey 分析的結(jié)果,在深度為29×附近是主峰值,通過公式計算得到金黃色大球蓋菇的初步基因組大小為53.39 Mb 左右。
金黃色大球蓋菇基因組組裝分析結(jié)果見表2。
表2 金黃色大球蓋基因組組裝結(jié)果統(tǒng)計Tab.2 Genome assembly results of S. rugosoannulata(golden yellow) genome
如表2 所示,初步組裝后的金黃色大球蓋菇基因組大小為55.20 Mb,Contig N50 和Scaffold N50 為14 943 bp;scaffold 長度為55 195 731.00 bp,scaffold 數(shù)量為25 802.00 條;contig 長度為55 195 731.00 bp,contig 數(shù)量為25 802.00 條,其中最長為361 801 bp,總長為55 195 731 bp。金黃色大球蓋菇的基因組信息顯示該基因組為具有一定雜合率的復(fù)雜基因組,后續(xù)的測序和組裝需要考慮采用更長的測序讀長和更精確的測序方法來克服基因組的雜合問題。
金黃色大球蓋菇的(G+C) 含量和覆蓋深度見圖4。
由圖4 可知,大球蓋菇的基因組堿基深度主要分布在50×~80×和100×~160×;基因平均(G+C)含量主要分布在40%~60%?;蚪M(G+C) 含量無明顯分離的聚團現(xiàn)象,基因組堿基深度有少量分離,說明基因組中無明顯其他外源污染,大球蓋菇為高雜合的物種。
如表3 所示,目前球蓋菇屬已有1 種紅色大球蓋菇[19]完成了全基因組測序,基因組大小為50.41 Mb,(G+C) 含量為47.8%。本研究中,基于第二代高通量測序技術(shù)的金色大球蓋菇的基因組大小為55.20 Mb,與紅色大球蓋菇的基因組大小相近,比其略大,在整個科的基因組中屬于中等大小。
表3 大球蓋菇基因組組裝結(jié)果與12 個球蓋菇科基因組比較Tab.3 Comparison of Stropharia rugosoannulata assembly results with twelve Strophariaceae genomes
同時,結(jié)合圖4 可知,金黃色大球蓋菇基因組的(G+C) 含量為47.25%,與目前已測的球蓋菇科近緣物種基因組的含量相近[20-23]。雖然,球蓋菇科的各個物種的(G+C) 含量存在一定的差異,但(G+C)含量都位于46%~51%之間,沒有明顯的過高或過低的現(xiàn)象。本次測序獲得的數(shù)據(jù)的覆蓋度為140×,在整個球蓋菇科物種中屬于高覆蓋度的物種,僅次于紅韌黑傘(Hypholoma sublateritium)[24]和古巴光蓋傘(Psilocybe cubensis),結(jié)果是較為準(zhǔn)確和可靠的。
圖4 金黃色大球蓋菇的(G+C) 含量和覆蓋深度Fig.4 (G+C) content and average depth of Stropharia rugosoannulata
菌類在自然界中占據(jù)重要的生態(tài)位,同時又是人類的食用和藥用資源的重要來源[13];同時,具有豐富的生物多樣性,包括物種多樣性、遺傳多樣性和生態(tài)多樣性。但在我國食用菌產(chǎn)業(yè)的高速發(fā)展過程中,也出現(xiàn)了許多的科學(xué)問題[25],其中一些問題需要運用遺傳學(xué)的方法來進行解答。目前隨著高通量測序、遺傳轉(zhuǎn)化、基因編輯等分子生物學(xué)技術(shù)廣泛、成功地運用于遺傳學(xué)多個方面的研究,食用菌遺傳學(xué)正在成為一個研究熱點領(lǐng)域[25]。
通過對金黃色大球蓋菇品種“中菌金球蓋1號”進行全基因組調(diào)查,獲得了7.87 Gb 的高通量測序數(shù)據(jù),基于K-mer 為17 進行Survey 分析。金黃色球蓋菇的基因組大小約為55.20 Mb ,GC 含量為47.25%,雜合率為0.80%,與球蓋菇屬的多脂鱗傘、磚紅韌黑傘[23]、古巴光蓋傘等物種的基因組特征相似。但由于大球蓋菇的雜合度為0.80%,后續(xù)考慮采用三代測序(Nanopore) 結(jié)合二代測序(Illumina) 以及光學(xué)圖譜(Bio-NANO) 的策略來獲得高質(zhì)量的基因組精細(xì)圖,甚至是染色體級別的基因組完成圖。
上述研究得到的金黃色大球蓋菇Survey 分析結(jié)果,將為高質(zhì)量基因組完成圖譜的繪制提供重要的科學(xué)依據(jù)。同時,為下一步金黃色球蓋菇的顏色調(diào)控等遺傳機理研究和菌株篩選等提供了一定的理論基礎(chǔ)。