唐勇劉旭
(1. 樂山職業(yè)技術(shù)學院,樂山 614000;2. 樂山豐野農(nóng)業(yè)科技有限責任公司,樂山 614000;3. 樂山市農(nóng)業(yè)局,樂山 614000)
基于SMRT測序技術(shù)的16S rRNA基因全長測序及其分析方法
唐勇1,2劉旭3
(1. 樂山職業(yè)技術(shù)學院,樂山 614000;2. 樂山豐野農(nóng)業(yè)科技有限責任公司,樂山 614000;3. 樂山市農(nóng)業(yè)局,樂山 614000)
被稱為第三代測序技術(shù)的單分子測序是最近幾年發(fā)展起來的高通量測序技術(shù)。其中,由Pacbio BioSciences公司開發(fā)的單分子實時測序技術(shù)(SMRT)是最先商用的技術(shù)。SMRT測序技術(shù)通過對模板序列循環(huán)測序產(chǎn)生環(huán)形一致序列(CCS),成功克服第三代測序技術(shù)準確率低的弊病。通過SMRT測序技術(shù),科學家可以更深入準確地探究復雜環(huán)境微生物的結(jié)構(gòu)和功能。介紹SMRT測序技術(shù)在微生物16S rRNA基因測序中的優(yōu)勢和劣勢,并就基于SMRT測序技術(shù)所得的全長16S rRNA基因序列的質(zhì)量控制、錯誤序列排除、聚類和注釋分析等重要分析環(huán)節(jié)進行概述,同時,提出利用SMRT測序技術(shù)研究復雜環(huán)境微生物可能存在的問題及其解決方法,期望能為研究人員提供參考。
單分子實時測序技術(shù);PacBio RS Ⅱ;第三代測序技術(shù);環(huán)形一致序列
16S rRNA基因是原核生物所特有的基因,并且在原核生物中具有極高的拷貝數(shù)[1]。全長1 542 nt的DNA序列包含9個間隔的高變區(qū),兼具特異性和保守性的16S rRNA基因序列作為微生物標記被廣泛應(yīng)用于研究中[2]。相比DNA探針、變性梯度凝膠電泳和Sanger測序等方法,高通量測序技術(shù)在16S rRNA基因序列研究中體現(xiàn)出極大的優(yōu)勢[3]。以Roche[4],Illumina[5]等為代表的第二代測序技術(shù)將16S rRNA基因測序的通量大幅提高,為研究者提供對特定環(huán)境微生物進行全面分析的可能。目前,第二代測序技術(shù)已經(jīng)成為環(huán)境微生物研究的主流手段。但是,第二代測序技術(shù)在16S rRNA基因測序中存在的缺陷也不可忽視——測序片段短。第二代測序平臺中,測序片段最長的是Roche公司開發(fā)的454 GS FLX+測序儀,其測序片段長度僅為700 bp。過短的測序片段使得研究人員在微生物16S rRNA基因測序中,只能選擇部分高變區(qū)進行研究,這對研究結(jié)果的準確性有較大影響。
單分子測序技術(shù)的出現(xiàn)為解決第二代測序技術(shù)中測序讀長短的問題提供了可能。單分子測序技術(shù)也被稱為第三代測序技術(shù)(Thrid-generation sequencing,TGS),包括Oxford Nanopore的納米孔測序技術(shù)[6]和單分子實時測序技術(shù)(SMRT)[7]等,其中,納米孔測序技術(shù)受限于其測序錯誤過高的問題,在微生物16S rRNA基因測序等領(lǐng)域應(yīng)用較少[8]。目前,只有PacBio的RS系列測序平臺被大量商用。PacBio RSⅡ測序儀的測序長度可達到20 000 bp,這為基于16S rRNA基因測序的微生物研究提供更好的選擇。本文將就PacBio的SMRT測序技術(shù)在16S rRNA基因測序中的優(yōu)勢綜述,然后介紹PacBio RS系列測序儀測得的全長16S rRNA序列分析方法及其應(yīng)用,最后提出目前存在的問題和可能的解決方案,以期為研究人員采用SMRT測序技術(shù)研究微生物16S rRNA基因提供參考。
1.1 讀長覆蓋全長16S rRNA基因
基于16S rRNA基因的微生物多樣性的研究中,測序部分高變區(qū)是目前最常用的方法。研究表明不同的高變區(qū)(V1-V9)對不同分類下的微生物分辨率不同[9]。研究表明,V1-V3區(qū)域所包含的信息量最接近全長16S rRNA基因的信息量,但是,兩者依然存在較大的差別[10]。因此,測序全長16S rRNA基因序列是最理想的方法?;赟MRT測序技術(shù)的PacBio RSⅡ測序儀在使用P6/C4試劑的情況下平均reads長度超過10 kb,N50(序列長度中位數(shù))超過20 kb,最長達到60 kb[11,12]。因此,該測序技術(shù)可以輕易完成16S rRNA基因全長序列的測序。Mosher等[13]使用PacBio RSⅡ及P4/C2試劑測得沉淀物樣本微生物16S rRNA基因片段平均長度為1 419-1 431 bp。在Benitez-Paez等和Schloss等[14,15]的研究中,使用全長16S rRNA基因序列對物種多樣性、微生物組成和微生物進化開展研究,對實驗的準確性和分辨率能夠帶來顯著的提升。同時,將研究深入到種水平,而不是局限在屬水平上[16]。
1.2 相對可靠度的16S rRNA基因序列
第三代測序技術(shù)最初無法運用于16S rRNA基因序列測序的原因是高測序錯誤率?;诩{米孔測序技術(shù)的MinION測序儀reads錯誤率高達40%[17],PacBio的reads測序錯誤達到15%,單堿基錯誤率1%[18]。顯然,如此高的錯誤率無法滿足16S rRNA基因用于微生物種屬的鑒定。
SMRT測序技術(shù)中的測序錯誤以單堿基的插入和缺失為主[18],而且呈現(xiàn)隨機分布的模型[19]。因此,采用循環(huán)測序的方法對同一條16S rRNA基因模板多次測序,再通過多重比對方法獲取環(huán)形一致序列(Circular consensus sequence,CCS),這樣可以大幅減少測序引起的堿基錯誤。據(jù)Eid等[20]2009年報道,堿基測序深度達到15X即可有效提高正確率至99.3%。Schloss等[15]在分析中進一步采用質(zhì)控、過濾和預聚類等生物信息分析步驟,將堿基錯誤率降低至0.03%。盡管,此方法的堿基錯誤率仍然高于Miseq、454等第二代測序平臺,但是其錯誤率已經(jīng)在可接受的范圍之內(nèi)。
1.3 測序速度更快
SMRT測序技術(shù)測序速度快,可以達到10 bp/s,能夠縮短測序工作的周期。相比第二代測序技術(shù)數(shù)天的測序時間,SMRT測序技術(shù)每個run的測序時間僅為0.5-4 h之間[11,21]。雖然科研中大多數(shù)情況對測序時間不敏感,但是對于臨床上需要快速對微生物進行鑒定診斷的情況下,SMRT測序技術(shù)更具備應(yīng)用的優(yōu)勢。
2.1 質(zhì)量控制
最新的PacBio RSⅡ測序儀的下機數(shù)據(jù)為bam格式(老版本軟件的輸出格式為h5,可以使用bax2bam將h5格式數(shù)據(jù)文件轉(zhuǎn)換為BAM格式)。PBCSS(https://github.com/PacificBiosciences/unanimity)是PacBio公司開發(fā)的PacBio raw reads分析工具,用于獲取CSS reads并同時進行質(zhì)量控制的軟件。該軟件以SAM格式為輸入和輸出文件,可以完成預測質(zhì)量值過濾、序列長度過濾、測序深度(PASS)過濾、CSS reads預測準確度過濾以及識別正負鏈。除此之外,還可以結(jié)合NGS QC Toolkit[22]、FASTQC[23]等軟件進行質(zhì)量控制。
通常CCS reads質(zhì)量可以從以下幾個方面控制:(1)測序所得的16S rRNA CCS reads的長度應(yīng)該為全長或者接近全長,遠遠低于或者超過預期長度的片段應(yīng)該過濾;(2)CCS reads預測準確度大于99%[13,24];(3)CCS的測序深度(PASS)至少為3,在測序數(shù)據(jù)充足的情況下,推薦值為10[15];(4)堿基質(zhì)量至范圍在2-93之間,考慮堿基錯誤為隨機分布,因此,通常采用CCS reads所有堿基平均質(zhì)量值作為過濾條件,推薦值為30;(5)包含模糊堿基(N)的序列同樣考慮進行過濾。
2.2 鑒定并過濾嵌合體
16S rRNA基因序列擴增和SMRT測序過程中,依然不可避免地會產(chǎn)生嵌合體序列(Chimera),嵌合體過濾仍然是不可缺少的分析步驟??紤]16S rRNA基因序列測序片段顯著增加,嵌合體序列的識別率也將得到提升。UCHIME[25]仍然是嵌合體檢測使用最普遍的軟件[26],結(jié)合SILVA[27]、RDP[28]和greengenes[29]等數(shù)據(jù)庫可以完成有參的嵌合體檢測分析。同時,考慮數(shù)據(jù)庫完整性問題,也可以使用UCHIME基于reads豐度的de novo檢測方法識別嵌合體序列。
2.3 CCS reads預聚類與低豐度序列過濾
預聚類的目的是通過將遺傳距離極小的CCS reads聚類在一起,以避免CCS reads中少量的堿基錯誤對后續(xù)的分析造成影響。在微生物16S rRNA基因序列聚類中,將相似度大于97%的序列劃分為同一種,來自同一種的16S rRNA基因序列差異可能由種內(nèi)遺傳變異或者測序錯誤引起。因此,選擇更高相似度作為預聚類閾值可以將這部分序列差異過濾掉[30]。在SMRT技術(shù)測序中,經(jīng)過序列矯正之后,序列的正確率可以達到99.3%[20]。因此,理論上選擇99%的相似度作為預聚類閾值可以排除錯誤堿基的影響。
低豐度序列往往更傾向于來自人工序列[31],當然,也不否認在低豐度序列中包含少數(shù)來自于稀有微生物的16S rRNA序列[32]。但是從環(huán)境微生物的研究角度考慮,過濾低豐度序列的利大于弊,而且這一方案在基于第二代測序技術(shù)的研究中取得較好的結(jié)果[33,34]?;赟MRT測序技術(shù)的CCS reads的錯誤序列隨機性更強,因此,可以推測隨機錯誤引起的錯誤序列更傾向于表現(xiàn)為低豐度。雖然,目前沒有實驗報道這一假設(shè),但是為了獲得更為保守的微生物多樣性結(jié)果,使用過濾低豐度CCS reads的策略更為妥當[13]。
對CCS reads預聚類和低豐度序列過濾能夠大幅度減少錯誤序列對OTUs聚類的干擾。但是,應(yīng)該謹慎選擇預聚類閾值和過濾的豐度值,避免造成微生物多樣性結(jié)果低估。以上兩個步驟能夠在UPARSE[35]、MOTHUR[36]等軟件中完成。
2.4 OTUs聚類與注釋
獲得預處理的CCS reads之后,按97%相似度進行OTUs聚類分析,可以選擇MOTHUR[36]、UPARSE[35]或者QIMME等任意軟件完成。其中,選擇OTUs代表序列有兩種方法可選,分別是使用高豐度序列和OTUs內(nèi)一致性序列[15]。目前,在已有的基于SMRT測序技術(shù)的16S rRNA基因序列研究中,兩種方法都有采用。
對全長16S rRNA基因進行注釋時,基于樸素貝葉斯分類器的RDP-Classifier[37]依然是最有效的工具[38]。而在數(shù)據(jù)庫的選擇上,RDP是更新最快,使用最廣泛的軟件,在屬及以上水平注釋的準確性最高。而greengene雖然更新速度慢,而且包含的參考序列少,但是卻有11%的序列具有種水平的注釋信息,這是其他數(shù)據(jù)庫無法比擬的優(yōu)勢[15]。此外,grengene的16S rRNA序列選自NCBI數(shù)據(jù)庫中長度大于1 200 bp的序列,長度更接近全長序列;相比之下,RDP只有不超過44%的細菌和15.3%的真菌16S rRNA基因序列長度超過1 200 bp[10]。因此,考慮測序長度為全長序列,參考序列應(yīng)該選擇更長的16S rRNA基因序列,或者綜合多個數(shù)據(jù)庫進注釋(表1)。
表1 主要16S rRNA數(shù)據(jù)庫
3.1 測序錯誤
SMRT測序技術(shù)的優(yōu)勢在于同時兼顧測序長度長和測序錯誤相對較低的優(yōu)點[39]。但是,單從測序錯誤率方面討論,其測序錯誤問題還需要進一步改善?;赟MRT測序技術(shù)中的堿基錯誤為隨機分布的假設(shè),通過提高循環(huán)測序深度(PASS)可以減少堿基錯誤。但是,Schloss等[15]的實驗發(fā)現(xiàn),SMRT測序技術(shù)也可能存在系統(tǒng)錯誤,從而導致錯誤堿基無法通過提高循環(huán)測序深度排除這部分堿基錯誤。除此之外,嵌合體序列也是不可避免的問題,目前暫時沒有辦法完全排除嵌合體的干擾。
3.2 數(shù)據(jù)庫完整性
目前,16S rRNA基因注釋數(shù)據(jù)庫的完整性普遍較差,而且數(shù)據(jù)庫中的參考序列長度較短。這直接造成兩個問題:(1)OTUs的注釋率偏低,而能夠注釋到種水平上的序列更少;(2)盡管可以獲得全長的16S rRNA基因序列,但參考序列長度不足導致注釋的準確性大打折扣。隨著SMRT測序技術(shù)的發(fā)展,越來越多的全長16S rRNA基因序列被準確測序,這也許能夠為提高16S rRNA基因數(shù)據(jù)庫的完整性提供新的契機。
3.3 測序成本偏高
PacBio SR Ⅱ測序平臺單個cell的測序價格低,但是單個cell的數(shù)據(jù)輸出量少,因此,單個堿基的價格要遠高于Illumina等第二代測序平臺[11]。滿足研究需求的測序量所付出的測序成本依然偏高,這是阻礙SMRT測序技術(shù)在16S rRNA基因測序中推廣應(yīng)用的主要因素。隨著PacBio SR測序平臺的升級,測序量和測序質(zhì)量不斷提升,測序成本逐漸降低,相信基于SMRT測序技術(shù)的全長16S rRNA基因測序會越來越多地運用于臨床和研究當中。
從2005年,454推出第一臺商用高通量測序儀開始,測序技術(shù)飛速發(fā)展,目前sanger測序技術(shù)、第二代測序技術(shù)和第三代測序技術(shù)憑借各自優(yōu)勢在研究中扮演著不同的角色?;?6S rRNA基因測序的微生物研究中,第二代測序技術(shù)仍然是主力。以SMRT技術(shù)為代表的第三代測序技術(shù)兼具測序長度和測序通量優(yōu)勢,為16S rRNA基因全長測序打開一扇新的窗戶。基于SMRT測序技術(shù)的微生物16S rRNA基因測序可以有效提高環(huán)境微生物研究的分辨率[15],將更多微生物注釋到種水平,并且提高物種豐度預測的準確性。基于此,結(jié)合微生物物種參考基因組,有望直接使用16S rRNA測序替代環(huán)境微生物宏基因組測序,即直接使用16S rRNA基因數(shù)據(jù)研究微生物基因水平和代謝通路水平差異[40]。
目前,SMRT測序技術(shù)自身仍然具有改進的空間,例如:減少測序錯誤、增加每個cell測序量等。而對于測序之后的進一步分析,也存在較多問題需要解決。首先,針對PacBio測序所得的CCS reads沒有專門的分析軟件。雖然,絕大部分分析環(huán)節(jié)可以使用mothur[36]等軟件處理,但是,其中分析環(huán)節(jié)的細節(jié)還需要進一步研究。例如,由于全長16S rRNA基因序列之間存在大量非高邊區(qū),使用97%作為OTU聚類分析閾值可能導致物種數(shù)量被低估。其次,數(shù)據(jù)庫完整性不足可能導致全長16S rRNA基因序列效果大打折扣,其中包括兩個方面:其一,數(shù)據(jù)庫注釋物種總量不,導致可注釋物種減少;其二,數(shù)據(jù)庫內(nèi)的參考序列長度不足,引起序列注釋偏差。
[1]Klappenbach JA, Saxman PR, Cole JR, et al. rrndb:the ribosomal RNA operon copy number database[J]. Nucleic Acids Research, 2001, 29(1):181-184.
[2]Sogin ML, Morrison HG, Huber JA, et al. Microbial diversity in the deep sea and the underexplored “rare biosphere”[J]. Proceedings of the National Academy of Sciences, 2006, 103(32):12115-12120.
[3]Roh SW, Abell GC, Kim K-H, et al. Comparing microarrays and next-generation sequencing technologies for microbial ecology research[J]. Trends in Biotechnology, 2010, 28(6):291-299.
[4]Margulies M, Egholm M, Altman WE, et al. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature, 2005, 437(7057):376-380.
[5]Bentley DR. Whole-genome re-sequencing[J]. Current Opinion in Genetics & Development, 2006, 16(6):545-552.
[6]Clarke J, Wu H-C, Jayasinghe L, et al. Continuous base identification for single-molecule nanopore DNA sequencing[J]. Nature Nanotechnology, 2009, 4(4):265-270.
[7]McCarthy A. Third generation DNA sequencing:pacific biosciences’ single molecule real time technology[J]. Chemistry & Biology, 2010, 17(7):675-676.
[8]Mikheyev AS, Tin MM. A first look at the Oxford Nanopore MinION sequencer[J]. Molecular Ecology Resources, 2014, 14(6):1097-1102.
[9]Chakravorty S, Helb D, Burday M, et al. A detailed analysis of 16S ribosomal RNA gene segments for the diagnosis of pathogenic bacteria[J]. Journal of Microbiological Methods, 2007, 69(2):330-339.
[10]Kim M, Morrison M, Yu Z. Evaluation of different partial 16S rRNA gene sequence regions for phylogenetic analysis of microbiomes[J]. J Microbiol Methods, 2011, 84(1):81-87.
[11]Rhoads A, Au KF. PacBio sequencing and its applications[J]. Genomics, Proteomics & Bioinformatics, 2015, 13(5):278-289.
[12]Roberts RJ, Carneiro MO, Schatz MC. The advantages of SMRT sequencing[J]. Genome Biology, 2013, 14(7):405.
[13]Mosher JJ, Bowman B, Bernberg EL, et al. Improved performance of the PacBio SMRT technology for 16S rDNA sequencing[J]. Journal of Microbiological Methods, 2014, 104:59-60.
[14]Benitez-Paez A, Portune KJ, Sanz Y. Species-level resolution of 16S rRNA gene amplicons sequenced through the MinIONTMportable nanopore sequencer[J]. Gigascience, 2016, 5(1):1-9.
[15]Schloss PD, Jenior ML, Koumpouras CC, et al. Sequencing 16S rRNA gene fragments using the PacBio SMRT DNA sequencing system[J]. PeerJ, 2016, 4:e1869.
[16]Lee CH, Bowman B, Hall R, et al. Developments in PacBio? metagenome sequencing:Shotgun whole genomes and full-length 16S[C]. International Plant and Animal Genome Conference Asia, 2014.
[17]Laver T, Harrison J, O’Neill P, et al. Assessing the performance of the Oxford Nanopore Technologies MinION[J]. Biomolecular Detection and Quantification, 2015, 3:1-8.
[18]Koren S, Schatz MC, Walenz BP, et al. Hybrid error correction and de novo assembly of single-molecule sequencing reads[J]. Nature Biotechnology, 2012, 30(7):693-700.
[19]Ross MG, Russ C, Costello M, et al. Characterizing and measuring bias in sequence data[J]. Genome Biology, 2013, 14(5):1.
[20]Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing from single polymerase molecules[J]. Science, 2009, 323(5910):133-138.
[21]Quail MA, Smith M, Coupland P, et al. A tale of three next generation sequencing platforms:comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers[J]. BMC Genomics, 2012, 13(1):341.
[22]Patel RK, Jain M. NGS QC Toolkit:a toolkit for quality control of next generation sequencing data[J]. PLoS One, 2012, 7(2):e30619.
[23]Andrews, S. FastQC:a quality control tool for high throughput sequence data[EB]. http://www.bioinformatics.babraham.ac.uk/ projects/fastqc/.
[24]Bowman B, Shin MY, Lee JE, et al. Analysis of full-length metagenomic 16S genes by SMRT?sequencing[J]. Chemistry, 2013, 4:C2.
[25]Edgar RC, Haas BJ, Clemente JC, et al. UCHIME improves sensitivity and speed of chimera detection[J]. Bioinformatics, 2011, 27(16):2194-2200.
[26]Haas BJ, Gevers D, Earl AM, et al. Chimeric 16S rRNA sequence formation and detection in Sanger and 454-pyrosequenced PCR amplicons[J]. Genome Research, 2011, 21(3):494-504.
[27]Quast C, Pruesse E, Yilmaz P, et al. The SILVA ribosomal RNAgene database project:improved data processing and webbased tools[J]. Nucleic Acids Research, 2013, 41(D1):D590-D596.
[28]Maidak BL, Cole JR, Lilburn TG, et al. The RDP-II(ribosomal database project)[J]. Nucleic Acids Research, 2001, 29(1):173-174.
[29]DeSantis TZ, Hugenholtz P, Larsen N, et al. Greengenes, a chimerachecked 16S rRNA gene database and workbench compatible with ARB[J]. Applied and Environmental Microbiology, 2006, 72(7):5069-5072.
[30]Bowman JS, Rasmussen S, Blom N, et al. Microbial community structure of Arctic multiyear sea ice and surface seawater by 454 sequencing of the 16S RNA gene[J]. The ISME Journal, 2012, 6(1):11-20.
[31]Tedersoo L, Nilsson RH, Abarenkov K, et al. 454 Pyrosequencing and Sanger sequencing of tropical mycorrhizal fungi provide similar results but reveal substantial methodological biases[J]. New Phytologist, 2010, 188(1):291-301.
[32]Lücking R, Lawrey JD, Gillevet PM, et al. Multiple ITS haplotypes in the genome of the lichenized basidiomycete Cora inversa(Hygrophoraceae):fact or artifact?[J]. Journal of Molecular Evolution, 2014, 78(2):148-162.
[33]Unterseher M, Jumpponen A, ?pik M, et al. Species abundance distributions and richness estimations in fungal metagenomicslessons learned from community ecology[J]. Molecular Ecology, 2011, 20(2):275-285.
[34]Kunin V, Engelbrektson A, Ochman H, et al. Wrinkles in the rare biosphere:pyrosequencing errors can lead to artificial inflation of diversity estimates[J]. Environmental Microbiology, 2010, 12(1):118-123.
[35]Edgar RC. UPARSE:highly accurate OTU sequences from microbial amplicon reads[J]. Nature Methods, 2013, 10(10):996-998.
[36]Schloss PD, Westcott SL, Ryabin T, et al. Introducing mothur:open-source, platform-independent, community-supported software for describing and comparing microbial communities[J]. Applied and Environmental Microbiology, 2009, 75(23):7537-7541.
[37]Wang Q, Garrity GM, Tiedje JM, et al. Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy[J]. Applied and Environmental Microbiology, 2007, 73(16):5261-5267.
[38]Liu Z, DeSantis TZ, Andersen GL, et al. Accurate taxonomy assignments from 16S rRNA sequences produced by highly parallel pyrosequencers[J]. Nucleic Acids Research, 2008, 36(18):e120.
[39]Burke CM, Darling AE. A method for high precision sequencing of near full-length 16S rRNA genes on an Illumina MiSeq[J]. Peer J, 2016, 4:e2492.
[40]Langille MG, Zaneveld J, Caporaso JG, et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences[J]. Nature Biotechnology, 2013, 31(9):814-821.
(責任編輯 李楠)
Full-length Sequencing of 16S rRNA Gene and Its Analysis Based on the SMRT Sequencing Technology
TANG Yong1,2LIU Xu3
(1. Leshan Vocational & Technical College,Leshan 614000;2. Leshan Fengye Agricultural Technology CO.,Ltd,Leshan 614000;3. Agricultural Bureau of Leshan,Leshan 614000)
Single-molecule sequencing,called as third-generation sequencing technology,is a high-throughput technique developed in last few years. Of them,single-molecule real-time(SMRT)sequencing technology,developed by Pacific BioSciences(PacBio),is the first commercial technology. SMRT sequencing technology could successfully overcome the disadvantage of low accuracy in the third-generation sequencing technology,by generating circular consensus sequence(CCS)through cycle sequencing the template sequence. Therefore,SMRT sequencing technology will allow scientists to profoundly and accurately study the structures and functions of microbial communities in complex environment. Here,we introduced the advantages and disadvantages of SMRT sequencing technology in 16S rRNA gene sequence of microorganism,and summarized the important steps,such as quality control,filtering of error tags,clustering analysis,annotation analysis,etc. of full-length 16S rRNA gene sequence acquired by SMRT sequencing technology. In addition,we pointed out the problems and the feasible solutions while applying SMRT sequencing technology in the study of microbial in complex environment,aiming at providing references for researchers in this field.
single-molecule real-time sequencing technology;PacBio RS II;third-generation sequencing technology;circular consensus sequence
10.13560/j.cnki.biotech.bull.1985.2017-0036
2017-01-20
樂山市科技局重點研究項目(16JSC128)
劉旭,女,碩士,研究方向:特種經(jīng)濟動物養(yǎng)殖;E-mail:331424471@qq.com
唐勇,男,博士,研究方向:營養(yǎng)生理;E-mail:ty20042028@163.com