孫璐
(青海大學(xué)畜牧獸醫(yī)科學(xué)院,西寧 810000)
微生物是地球上分布最廣的生物群和重要的分解物,在許多方面起主導(dǎo)作用。傳統(tǒng)的微生物研究通常是在實驗室中通過分離和培養(yǎng)進行的,而在現(xiàn)實中,環(huán)境中大量的微生物是無法通過培養(yǎng)的方式被解析的。隨著高通量測序技術(shù)的發(fā)展,擴增子測序被用于特定生態(tài)環(huán)境中的微生物組成、物種間的進化關(guān)系和群落多樣性研究,而菌群的遺傳性、功能潛力及微生物、環(huán)境與宿主之間的關(guān)系則需要宏基因組來實現(xiàn)。宏基因組(metagenome)又被稱為微生物環(huán)境基因組(Microbial Environmental Genome)或元基因組,其概念早在1998 年由Handelsman J等提出,定義為“the genomes of the total microbiota found in nature”,即生境中全部微小生物遺傳物質(zhì)的總和,包括可培養(yǎng)和不可培養(yǎng)微生物的基因,目前主要指的是環(huán)境樣品中細菌和真菌的基因組總和[1]。宏基因組學(xué)(metagenomics)是以環(huán)境樣品中微生物群體的所有基因組為研究對象,以功能基因的篩選和測序分析為手段,以微生物多樣性、種群結(jié)構(gòu)、進化關(guān)系、功能活性、協(xié)作關(guān)系以及環(huán)境之間的關(guān)系為目的的微生物研究方法[2]。
其研究流程包括微生物樣本DNA的提取,構(gòu)建文庫后上機測序,測序數(shù)據(jù)質(zhì)量控制后進行組裝和拼接,對組裝好的大片段進行基因預(yù)測、物種注釋和功能注釋等,從基因和功能水平進行分析,拓展了微生物功能代謝研究。宏基因組的研究可以分為測序數(shù)據(jù)的產(chǎn)生和測序數(shù)據(jù)的生物信息學(xué)分析兩個部分。
宏基因組測序數(shù)據(jù)經(jīng)過樣品DNA提取、文庫構(gòu)建、上機測序等流程產(chǎn)生。
1.1樣品DNA提取
宏基因組樣品總DNA 的濃度、純度、片段大小和偏好性等將直接影響到宏基因組文庫的質(zhì)量和代表性。宏基因組研究中,DNA的提取方法分為直接提取法和間接提取法。直接提取法又稱原位裂解法,是通過物理、化學(xué)和酶法等直接裂解環(huán)境樣品中微生物的細胞壁提取和純化DNA的方法。該法獲得DNA的效率高、操作簡單、成本較低、具有良好的重復(fù)性,但是提取的DNA片段較小(1-50kb),純度較低,需通過純化處理之后才能繼續(xù)后續(xù)的分子生物學(xué)操作。間接提取法是將微生物細胞從樣品中分離出來,通過較溫和的方法提取 DNA并純化,該方法能夠獲得較高純度的DNA大片段(20-500kb),但是操作復(fù)雜,成本高,且在溫和的條件下一些具有較厚細胞壁的微生物DNA不容易提取。直接法和間接法各有優(yōu)缺點,目前關(guān)于環(huán)境微生物樣本DNA 的提取大多采用直接提取法。
1.2文庫構(gòu)建
DNA片段的大小決定了基因組文庫的完整性,構(gòu)建宏基因組文庫時要考慮到研究的總體目的和獲得的DNA的數(shù)量、純度及片段的大小等。宏基因組常用的載體包括質(zhì)粒(plasmid)、細菌人工染色體(bacterial artificial chromosome)、柯斯載體(cosmid)、福斯黏粒(fosmid)等,能夠滿足不同插入片段大小的要求[3]。無論選用哪種載體構(gòu)建文庫,都必須使文庫最大程度地覆蓋樣本中所有微生物的基因組。宿主菌株的選擇主要考慮轉(zhuǎn)化效率、基因的表達、重組質(zhì)粒在宿主細胞中的穩(wěn)定性以及目標性狀的篩選等[4]。最常用的宿主有大腸桿菌(E.coli)、芽胞桿菌(Bacillus)、變鉛青鏈霉菌(Streptomyceslividans)和惡臭假單胞菌(Pseudomonasputida)等[5]。
1.3上機測序
第二代測序技術(shù)依托的高通量測序平臺主要有羅氏公司的454測序儀、Illumina公司的Solexa Genoma Analyzer測序儀和ABI公司的SOLi D測序儀,它們的測序深度在一定程度上彌補了讀長較短的問題,深入且快速的測序過程使得他們成為目前應(yīng)用最廣泛的測序平臺。454焦磷酸測序儀是最早的循環(huán)微陣列測序平臺,獲得的讀長可達400bp,但存在著無法精確測量同聚物長度和測序通量較低的缺點?;凇斑吅铣蛇厹y序”原理的Illumina 測序需要的樣品量較少,文庫構(gòu)建過程簡單,運行成本較低,逐漸成為目前市面上的主流測序平臺,但是由于光信號的衰減和移相,導(dǎo)致序列讀長較短。SOLi D平臺采用的是基于連接測序的雙堿基測序技術(shù),以一個熒光信號對應(yīng)兩個堿基為基礎(chǔ),使每個位點都被檢測兩次,具有誤差小和自主校正的優(yōu)點。
宏基因組的生物信息分析內(nèi)容主要包括質(zhì)量控制、序列比對、序列組裝、基因預(yù)測、物種鑒定等,分析工具也主要在Shell和R兩種語言環(huán)境下運行,分析流程涉及到大量的軟件和數(shù)據(jù)庫,不同的分析流程影響著宏基因研究的準確性和精確性。
2.1質(zhì)量控制和去除宿主序列
宏基因組測序的數(shù)據(jù)是由樣本中大量微生物的短序列組成,存在一定比例的低質(zhì)量數(shù)據(jù),在研究動植物的微生物群落時,宿主的遺傳物質(zhì)也會被測序,導(dǎo)致數(shù)據(jù)污染和測序成本增加,為了確保后續(xù)分析結(jié)果的精確性和可靠性,需要對原始序列進行質(zhì)量控制(quality control,QC)和去除宿主序列的干擾,獲得純凈序列(clean reads)。
質(zhì)量控制指的是從測序數(shù)據(jù)中去除人為添加的引物、接頭以及產(chǎn)生的低質(zhì)量序列,常用的軟件主要有Trimmomatic、FASTX-Toolkit、Cutadapt、PRINSEQ等?;贗llumina平臺輸出而設(shè)計的Trimmomatic軟件是采用序列堿基和質(zhì)量分數(shù)兩種信息對序列進行過濾處理的分析工具,能夠去除引物、接頭和低質(zhì)量序列,并將序列剪切到一定長度且不干擾下游序列的分析。FASTX-Toolkit可以對序列進行匯總統(tǒng)計,但是產(chǎn)生結(jié)果的質(zhì)量不如Trimmomatic。Cutadapt可以去除任意指定的接頭。PRINSEQ可以剪切序列和堿基外,還可以通過 GC 含量過濾序列,對序列進行匯總統(tǒng)計。采用比對宿主序列的方式去除宿主序列,使用的軟件主要有TopHat2和Bowtie2。TopHat2 是利用計算機將序列映射并與參考基因組比對的軟件,需要有較高計算能力的計算機支持。Bowtie2是將測序的reads比對到長的參考序列,是一個快速、節(jié)約內(nèi)存的序列比對工具。
2.2基于序列(Read-based)的分析
宏基因組研究中基于序列(Read-based)的分析是將質(zhì)量控制和去除宿主后的clean reads直接比對到數(shù)據(jù)庫,獲得物種組成和功能信息的研究方法,該方法需要依托較完善的參考數(shù)據(jù)庫,目前人類各項研究的數(shù)據(jù)庫質(zhì)量比較高,該方法較適合于人類相關(guān)研究。
MetaPhlAn2是分析宏基因組測序數(shù)據(jù)中微生物群落組成的工具,它是從全基因組數(shù)據(jù)庫中使用分支特異性標記基因注釋序列,獲得細菌或古菌的物種水平分布。MetaPhlAn2很少單獨使用,目前被整合在有參宏基因組分析流程HUMANn2中,可直接使用reads獲得物種、功能、以及功能對應(yīng)物種組成信息。HUMANn2采用分層式算法比對標記基因、泛基因組和蛋白數(shù)據(jù)庫,能夠快速、準確獲得種水平的功能組成,建立物種與功能的聯(lián)系,并引入貢獻多樣性的概念(contributional diversity),解釋不同微生物群體類型生態(tài)學(xué)組裝的模式,使我們從類多樣性角度重新認識微生物組功能組成,以及與物種間的聯(lián)系。
物種注釋用于表明物種間關(guān)系遠近,不同分類數(shù)據(jù)庫注釋的結(jié)果差別較大,不同的注釋方法也會影響到物種注釋的準確性、分類水平高低、注釋的速度、計算機的資源消耗、系統(tǒng)兼容性等。目前基于序列層面的宏基因組物種注釋主要有兩種:一是將待注釋的序列比對到數(shù)據(jù)庫中,通過序列的相似度進行物種注釋,該方法受限于數(shù)據(jù)庫的完整性,比對結(jié)果不準確。 二是基于k-mer頻數(shù)的打分策略,利用參考基因組中所有kmer根據(jù)LCA進化樹,將reads的kmer進行索引,利用比對kmer頻數(shù)確定物種分類豐度的方法,是目前宏基因組研究公認的物種注釋較準確的方法,常用軟件有Kraken系列、Clark、Kaiju等。
2.3基于組裝(Assembly-based)的分析
在實際研究中,我們通常面對的是環(huán)境中大量未知的微生物,且參考數(shù)據(jù)庫并不完善的情況下,無法采用基于序列的分析方法獲得微生物組成和功能。針對該問題,出現(xiàn)了基于組裝(Assembly-based)的分析方法,即將原始序列組裝成重疊群(contigs),對重疊群進行基因注釋,根據(jù)已有的數(shù)據(jù)庫挖掘物種組成和功能。還可以在重疊群的層面上進行分箱(Binning)或宏基因組組裝基因組(metagenome assembled genome,MAG),拼出未培養(yǎng)菌(未知菌)的基因組,探索細菌基因組中的代謝通路等。宏基因組基于組裝的分析主要分為組裝(assembly)和分箱(binning)兩個關(guān)鍵步驟。
2.3.1組裝(assembly)
將測序獲得的短基因片段拼接成較長基因片段的過程叫做組裝(assembly)。測序獲得的讀長通過計算機軟件根據(jù)讀長之間的重疊區(qū)關(guān)系進行拼接獲得的更長的序列被稱為重疊群(contigs),將重疊群中間用N連接后形成的更長序列被稱為框架(scaffold)?;诘虏既R英圖(De Bruijn Graph,DBG)的組裝算法代表軟件有MEGAHIT,適合30G~300G范圍的多樣本混合組裝,默認按95%相似度的種水平聚類,但是無法拼接至株水平。metaSPAdes是目前宏基因組領(lǐng)域組裝指標最好,但最消耗時間和內(nèi)存的軟件,適合單樣本組裝,可以拼接株水平重疊群。
基于組裝的序列,我們可以實現(xiàn)基因預(yù)測、物種注釋、功能注釋等相關(guān)分析,研究微生物菌群的結(jié)構(gòu)、功能和作用機制。但是組裝過程中存在著兩大難題,一是宏基因組數(shù)據(jù)量大組裝過程復(fù)雜,序列相似性高組裝難度大。二是在開展動物胃腸道微生物、植物內(nèi)生菌等研究時,宿主污染不可避免,過濾宿主DNA的前提需要有宿主的基因組信息。Prodigal軟件是基于動態(tài)規(guī)劃的評分模型進行預(yù)測,主要用于細菌和古菌的基因預(yù)測,無法預(yù)測真核生物。該軟件被許多分析流程整合,運行速度快,支持多線程讀取,本地安裝或conda安裝等都很方便,還有在線分析平臺,適合初學(xué)者使用。MetaProdigal 是Prodigal基因預(yù)測的宏基因組版本,提高了宏基因組分析中的基因識別能力。GeneMark軟件采用的是無監(jiān)督學(xué)習(xí)模型的預(yù)測方法,是具有強大功能的軟件家族,可以實現(xiàn)多種類型的基因預(yù)測,包括宏基因組、宏轉(zhuǎn)錄組、真核生物、轉(zhuǎn)錄本、病毒、噬菌體、質(zhì)粒等,GeneMarkS-2是宏基因組基因預(yù)測的最新版本。組裝獲得的基因或基因集的功能需要通過基因注釋實現(xiàn),即在特定的功能數(shù)據(jù)庫中對基因或蛋白序列進行比對,將基因或蛋白質(zhì)與特定的功能聯(lián)系起來,幫助了解相關(guān)的代謝通路,并進一步理解宿主與菌群、宿主與環(huán)境之間的關(guān)系,常用的功能注釋數(shù)據(jù)庫主要有KEGG、EggNOG、CAZy、CARD、VFDB、MetaCyc等。
2.3.2分箱(Binning)
將組裝的重疊群(contigs)按照物種、亞種或者屬進行分類的過程被稱為Binning(中文翻譯為分箱)。宏基因組分箱技術(shù)有助于獲得不可培養(yǎng)微生物的全基因組序列、新物種的基因組序列和功能,是測序技術(shù)不成熟的產(chǎn)物,適用于研究復(fù)雜的微生物體系,對于分離的純菌和第三代測序技術(shù)獲得的準確率和測序深度較高的長片段該技術(shù)不適用。早在2011年宏基因組分箱技術(shù)首次應(yīng)用于牛瘤胃的樣本研究,引起廣泛關(guān)注,也逐漸出現(xiàn)了很多宏基因組分箱工具,如MEGAN、 MG-RAST、 LikelyBin、TETRA、 SCIMM、Abundance-Bin、 Canopy、MetaBAT、MaxBin和GroopM等,各軟件分析結(jié)果差異很大,流程多樣復(fù)雜,耗時費力,缺少評估和可視化的工具,使得宏基因組分箱研究帶來困難。2018年發(fā)布的兩款分箱提純工具 metaWRAP和 DAS Tool,將 3~5 款分箱工具進行整合,從原始數(shù)據(jù)直接到宏基因組bin和相關(guān)下游分析,它包括混合算法,來實現(xiàn)多種軟件分箱結(jié)果的整合,在人工重組和自然樣本數(shù)據(jù)中結(jié)果均優(yōu)于大部分主流軟件,還包括物種注釋、豐度估計、功能注釋和可視化等多個宏基因組分箱結(jié)果的下游分析功能。[6]
3.1EBI Metagenomics
EBI Metagenomics是 2011 年由歐洲生物信息學(xué)研究所(EBI)開發(fā)的宏基因組數(shù)據(jù)管理、分析、存儲平臺。注冊后可以上傳宏基因組的原始核苷酸讀數(shù)并在平臺中保留2 年,且以唯一的登錄號自動存儲在歐洲核苷酸檔案(European Nucleotide Archive,ENA)中。分析結(jié)果可以通過 EBI Metagenomics平臺的網(wǎng)絡(luò)界面獲得,提供多種下載格式,能夠?qū)崿F(xiàn)在線或獨立工具之間的兼容,平臺還提供比較分析工具,可以對數(shù)據(jù)庫中已經(jīng)存儲的樣本數(shù)據(jù)進行快速比較分類和功能分析。[7]
3.2IMG/M
IMG是由美國能源部聯(lián)合基因組研究所(Joint Genome Institute,JGI)開發(fā)的宏基因組數(shù)據(jù)存儲、管理和分析系統(tǒng)。IMG/M是將宏基因組數(shù)據(jù)集與來自IMG系統(tǒng)的微生物基因組整合在一起,是IMG的一個特定領(lǐng)域的工具,能夠與微生物群落的測序數(shù)據(jù)兼容,為微生物基因組和宏基因組數(shù)據(jù)的注釋、分析和發(fā)布等提供了免費支持。預(yù)處理、質(zhì)量控制和輸入數(shù)據(jù)的注釋由JGI的宏基因組注釋系統(tǒng)執(zhí)行。能夠使用KOG、FEGG、PFAM、GO等參考數(shù)據(jù)集對IMG/M存儲的數(shù)據(jù)進行注釋,包括系統(tǒng)發(fā)育組成、單個微生物組內(nèi)的功能或代謝潛力,以及微生物組間的比較等內(nèi)容。[8,9]
3.3MG-RAST
MG-RAST是一個開源的服務(wù)器,最初構(gòu)建在 SEED 項目框架上,于 2007 年首次發(fā)布,是最早的宏基因組在線分析工具之一。它不完全依賴 SEED 技術(shù),而是使用 SEED 子系統(tǒng)作為首選數(shù)據(jù)源,實現(xiàn)微生物的組成和功能分類。除了數(shù)據(jù)訪問之外,用戶注冊后還可以提交自己的 FASTA、FASTQ 和 SFF 格式的原始宏基因組數(shù)據(jù)以及詳細的樣本信息。該服務(wù)器支持包括系統(tǒng)發(fā)育、功能、代謝和兩個或多個宏基因組的比較分析。還提供了選擇數(shù)據(jù)庫的工具,以便根據(jù)測序數(shù)據(jù)對微生物種群進行定量分析。注冊用戶有權(quán)公開發(fā)布他們的數(shù)據(jù)或?qū)?shù)據(jù)保密,并可以在多個用戶之間共享數(shù)據(jù)并保護機密,在分析、隱私和數(shù)據(jù)共享方面提供了極大的靈活性。[10,11]
3.4NMDC
NMDC國家微生物科學(xué)數(shù)據(jù)中心是以中國科學(xué)院微生物研究所作為依托單位,聯(lián)合中國科學(xué)院海洋研究所、中國疾病預(yù)防控制中心傳染病預(yù)防控制所、中國科學(xué)院植物生理生態(tài)研究所,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心等單位共同建設(shè)的關(guān)于微生物的免費的一站式生物信息分析云平臺。截止2021年,中心數(shù)據(jù)資源總量超過3PB,數(shù)據(jù)記錄數(shù)超過40億條,數(shù)據(jù)內(nèi)容完整覆蓋了微生物資源、微生物和交叉技術(shù)方法、研究過程和工程、微生物組學(xué)、微生物技術(shù)以及微生物文獻、專利、專家、成果等微生物研究的整個生命周期??商峁┌ㄉ镄畔⒃诰€分析工具、計算資源、公共參考數(shù)據(jù)的整合在線服務(wù)。圖形化操作界面,每項分析都可以自定義分析參數(shù),實現(xiàn)在鼠標點擊之間即可在線進行生物信息數(shù)據(jù)分析。目前國家微生物科學(xué)數(shù)據(jù)中心已經(jīng)上線了84個分析工具和自定義的數(shù)據(jù)分析工作流,涵蓋了宏基因組分析流程、基因組拼接、基因組結(jié)構(gòu)分析、基因組注釋分析、元基因組分析、比較基因組分析、便攜分析等7大功能。
宏基因組學(xué)的研究經(jīng)過不斷的發(fā)展,已經(jīng)滲透到多個領(lǐng)域。在2019年武漢出現(xiàn)的原因不明肺炎,通過使用高通量測序技術(shù)迅速確定引起該病的病原為新型冠狀病毒,并獲得全基因組序列,為該病的病原核酸檢測、抗體檢測等檢測方法的建立提供了最重要信息,為發(fā)現(xiàn)早期病原提供了技術(shù)支持,在控制疫情傳播方面給予很大程度地幫助,為戰(zhàn)勝疫情提供了保障。動物領(lǐng)域,宏基因研究主要關(guān)注動物發(fā)育與免疫應(yīng)答、飼料利用率、疾病預(yù)防等。農(nóng)業(yè)領(lǐng)域主要研究集中于生物地球化學(xué)循環(huán)、作物栽培管理、病害預(yù)防和治理、土壤抗生素抗性機制研究、生物修復(fù)和生物肥料等。
宏基因組為捕捉不可接近的微生物世界提供了可能。同時將宏基因組學(xué)與宏轉(zhuǎn)錄組學(xué)、代謝組學(xué)、蛋白質(zhì)組學(xué)等的聯(lián)合應(yīng)用,以及伴隨著生物信息學(xué)、分子生物學(xué)等多學(xué)科理論知識的豐富,各類數(shù)據(jù)庫的完善,先進數(shù)據(jù)分析工具的應(yīng)用,為微生物的研究帶來了新的曙光。