馬素平
摘 要 高通量測序技術(shù)為生命科學(xué)研究提供了前所未有的機(jī)遇。本文主要對以DNase-seq、ChIP-seq和RNA-seq為代表的二代測序技術(shù),以及以Nanopore測序?yàn)榇淼娜鷾y序技術(shù)的原理、建庫步驟和優(yōu)缺點(diǎn)做了總結(jié),并對今后測序技術(shù)的發(fā)展做了展望。
關(guān)鍵詞 高通量測序技術(shù);DNase-seq;ChIP-seq;RNA-seq;Nanopore測序
高通量測序技術(shù),也稱二代測序技術(shù)、下一代測序技術(shù)(Next-Generation Sequencing,NGS)。人類全基因組序列草圖在2001年完成后,其他幾種模式生物的基因組序列也被確定,這些實(shí)驗(yàn)基于Sanger DNA測序技術(shù)完成,但逐漸暴露出該技術(shù)耗時(shí)較長、反應(yīng)數(shù)目有限的問題。自2005年起,454焦磷酸測序技術(shù)(Roche公司,2005年)、Solexa聚合酶測序技術(shù)(Illumina公司,2006年)和Solid連接酶測序技術(shù)(ABI公司,2007年)逐漸發(fā)展成熟,這三個(gè)技術(shù)擁有共同的突出特點(diǎn)是單次運(yùn)行即可產(chǎn)出大量的序列數(shù)據(jù),故統(tǒng)稱為高通量測序技術(shù)(High-throughput sequencing)。
高通量測序技術(shù)的發(fā)展,為人類探索基因組奧秘提供了重要的序列信息。近年來,該技術(shù)在動(dòng)植物等領(lǐng)域都得到了廣泛應(yīng)用,包括基因組的測序,轉(zhuǎn)錄組的測序及小 RNA的測序等,為多組學(xué)的發(fā)展提供了更多的思路和方案。
1二代測序技術(shù)
二代測序技術(shù)常用的測序平臺(tái)是Illumina/Solexa,其工作原理是邊合成邊測序,在測序之前需要先對樣品進(jìn)行橋式擴(kuò)增,以便得到更高的測序深度。后續(xù)實(shí)驗(yàn)流程為:以橋式擴(kuò)增后得到的單鏈DNA作為模板,添加帶有保護(hù)基團(tuán)與不同熒光標(biāo)記基團(tuán)的四種游離堿基,故每次反應(yīng)只會(huì)添加一個(gè)堿基,并且可用通過成像系統(tǒng)采集熒光以確定添加堿基的類別。該次反應(yīng)結(jié)束后,洗去游離堿基,并通過化學(xué)試劑移除保護(hù)基團(tuán),使熒光標(biāo)記失活,以進(jìn)行下一次反應(yīng)測定下一位堿基[1]。該技術(shù)初期只能讀取較短的序列(20-30bp),但隨著技術(shù)不斷地改進(jìn),現(xiàn)已可讀取100bp以上,并且雙端測序(Paired End,PE)也普遍應(yīng)用,雙端測序得到的讀長是單端的兩倍,測序深度也在不斷地增加。
1.1 DNase-seq技術(shù)
在過去的25年里,傳統(tǒng)的Southern印跡方法已鑒定出數(shù)百個(gè)DNase I 的高敏感位點(diǎn)(DHS,指位于核小體之間且可以被DNase I切割的位點(diǎn)),并發(fā)現(xiàn)它們與許多活性調(diào)控元件相關(guān),包括啟動(dòng)子、增強(qiáng)子、沉默子、絕緣子以及其他基因組調(diào)控區(qū)域,這使得DNase I高敏感位點(diǎn)的檢測成為鑒定基因調(diào)控元件的理想方式。傳統(tǒng)的Southern印跡方法雖然準(zhǔn)確有效但不適用于全基因組的分析,故DNase-seq技術(shù)被開發(fā)出來,此技術(shù)單次可檢測大量的DHS。該技術(shù)主要利用DNase I對基因組上具有高敏感性的位點(diǎn)進(jìn)行切割,實(shí)驗(yàn)流程為:利用合適濃度的DNase I對基因組進(jìn)行消解,然后對消解后的片段進(jìn)行擴(kuò)增,進(jìn)而測序。測序結(jié)果中片段富集的區(qū)域,通常就是轉(zhuǎn)錄因子或者核小體結(jié)合的位置[2-3]。
該方法的優(yōu)點(diǎn)是操作簡單、易于建立實(shí)驗(yàn)體系;可用于多種細(xì)胞;根據(jù)測序結(jié)果可大致推測出核小體及轉(zhuǎn)錄因子的結(jié)合位置。缺點(diǎn)是很難控制最佳的DNase I消解條件;需要細(xì)胞的起始量較多,因此不適用于細(xì)胞量較少的樣本;DNase I切割DNA具有序列依賴性,存在較大誤差。
1.2 ChIP-seq技術(shù)
染色質(zhì)免疫共沉淀技術(shù)(ChIP-seq, Chromatin Immunoprecipitation with high throughput sequencing)[4],也稱結(jié)合位點(diǎn)分析法,是繼ChIP、ChIP-chip之后將染色質(zhì)免疫共沉淀反應(yīng)與深度測序相結(jié)合的一種技術(shù),旨在研究生物體內(nèi)蛋白質(zhì)與DNA的相互作用,常用于轉(zhuǎn)錄因子結(jié)合位點(diǎn)以及組蛋白特異性修飾位點(diǎn)的研究。該技術(shù)大致實(shí)驗(yàn)流程包括:①利用甲醛交聯(lián)細(xì)胞或組織;②分離基因組DNA,超聲打斷;③加入目的蛋白的特異性抗體;④解交聯(lián),純化DNA片段;⑤加測序接頭,進(jìn)行PCR文庫擴(kuò)增;⑥高通量測序。
該技術(shù)與ChIP和ChIP-chip相比,優(yōu)點(diǎn)是可實(shí)現(xiàn)真正的全基因組范圍分析轉(zhuǎn)錄因子或組蛋白的結(jié)合;有較好的分辨率,能夠精確地募集到與蛋白結(jié)合的DNA序列;所需樣本量少;且不需要雜交。缺點(diǎn)是抗體的價(jià)格較昂貴。
1.3 RNA-seq技術(shù)
RNA-seq技術(shù)于2008年首次被提出,成為近年來利用轉(zhuǎn)錄組測序研究基因功能的最常用技術(shù)[5]。實(shí)驗(yàn)基本流程如下:①提取樣本中總的RNA;②通過Oligo(dT)磁珠富集mRNA;③超速離心片段化;④加入隨機(jī)引物逆轉(zhuǎn)錄形成cDNA;⑤進(jìn)行末端修復(fù)加上poly A尾及測序所需接頭序列;⑥片段選擇;⑦純化和PCR擴(kuò)增;⑧質(zhì)檢并測序。該技術(shù)被廣泛應(yīng)用因?yàn)槠渚哂泻芏鄡?yōu)勢:①定量準(zhǔn)確,對單堿基有較高的分辨率,可識(shí)別SNP;②適用于任何物種,無須提供基因注釋信息。③所需樣品量少,適用于不易獲得的樣品或稀缺樣品,比如,癌癥的干細(xì)胞測序。④可檢測可變剪接事件。RNA-seq雖優(yōu)勢眾多,但同時(shí)也存在缺點(diǎn):因?yàn)榧?xì)胞中存在大量的核糖體RNA(rRNA),所以人們常采用polyA RNA選擇的方法,但有研究人員發(fā)現(xiàn)這種方法只能檢測到人細(xì)胞內(nèi)部分的非核糖體RNA,故檢測的RNA不能代表細(xì)胞內(nèi)所有的mRNA水平[6]。
RNA-seq技術(shù)優(yōu)勢眾多,所以其應(yīng)用也尤為廣泛:①可用于定量分析基因的表達(dá)水平。②可用于轉(zhuǎn)錄本結(jié)構(gòu)的研究。RNA-seq利用其單堿基分辨率結(jié)合深度測序可以提供豐富的基因注釋信息,包括5′ UTR、3′ UTR以及新轉(zhuǎn)錄區(qū)域的鑒定等[7],同時(shí)可檢測到低豐度表達(dá)的轉(zhuǎn)錄本.③可用于非編碼區(qū)域的功能研究。在人類基因組中,93%以上的基因組可以轉(zhuǎn)錄出RNA,但只有不到2%的序列可以編碼蛋白質(zhì),剩余91%的基因組轉(zhuǎn)錄出來的RNA都不具有編碼蛋白質(zhì)的能力,這類RNA稱為ncRNA(non-coding RNA)。
2三代測序技術(shù)
近些年來,三代測序技術(shù)發(fā)展如火如荼,目前主要有兩大代表:PacBio的SMRT sequencing以及Nanopore公司的Nanopore sequencing(納米孔測序)。納米孔測序由于設(shè)備簡單,樣品制備靈活,更適合在普通實(shí)驗(yàn)室條件下進(jìn)行,所以這里主要介紹納米孔測序。
Nanopore技術(shù)的核心原理是有一個(gè)由蛋白(稱為“Reader”蛋白)構(gòu)成的納米級小孔,稱為“Pore”,一般是由跨膜蛋白經(jīng)基因工程改造后的蛋白,該蛋白插在一層電阻率很高的薄膜中,因薄膜兩側(cè)的電位不同,這樣就使得離子可以從膜的一側(cè)移動(dòng)到另一側(cè),小孔中便會(huì)有電流產(chǎn)生,當(dāng)測序的單鏈分子通過該小孔時(shí),就會(huì)對離子的流動(dòng)造成阻礙,因不同堿基阻礙大小不同,故可由記錄下來的電流波動(dòng)信號經(jīng)分析反推得到對應(yīng)的堿基。Nanopore測序技術(shù)的優(yōu)點(diǎn)是:①儀器輕便,方便攜帶。②讀長長。Nanopore可測得30~40w個(gè)堿基,可進(jìn)行De novo或者基因組結(jié)構(gòu)的預(yù)測。③可直接對RNA進(jìn)行測序,便于發(fā)現(xiàn)RNA上的堿基修飾。缺點(diǎn)是:①判讀堿基的準(zhǔn)確率有待提高。因每次通過小孔時(shí)會(huì)同時(shí)經(jīng)過5個(gè)堿基,所以形成的信號是5個(gè)堿基共同作用的結(jié)果;其次對于結(jié)構(gòu)相似的堿基,識(shí)別率低(如A與G;C與T) 。②試劑的穩(wěn)定性還有待提高[8]。由于納米孔測序原理的特殊性,甚至有團(tuán)隊(duì)試圖開發(fā)用其對氨基酸序列進(jìn)行直接測序的方法。
3展望
目前基因組學(xué)、生物物理學(xué)、計(jì)算生物學(xué)和數(shù)學(xué)建模等領(lǐng)域跨學(xué)科的發(fā)展,可有望實(shí)現(xiàn)在時(shí)間和空間上描繪出人類基因組的4D結(jié)構(gòu)特征,同時(shí)人工智能時(shí)代的到來將會(huì)加速這一進(jìn)程。相信在不久的將來,高通量測序技術(shù)的發(fā)展會(huì)為解析人類生命奧秘做出巨大貢獻(xiàn)。
參考文獻(xiàn)
[1] Fedurco M,Romieu A,Williams S,et al. BTA,a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies[J]. Nucleic acids research,2006,34(3):22.
[2] Song L,Crawford G E . DNase-seq:A High-Resolution Technique for Mapping Active Gene Regulatory Elements across the Genome from Mammalian Cells[J]. Cold Spring Harbor Protocols,2010,2010,(2):5384.[3]Hesselberth JR,Chen X,Zhang Z,et al. Global mapping of protein-DNA interactions in vivo by digital genomic footprinting[J]. Nature Methods,2009,6(4):283.
[4] Park PJ. ChIP-seq:advantages and challenges of a maturing technology[J]. Nature Reviews Genetics,2009,10(10):669.
[5] Marioni JC,Mason CE,Mane SM,et al. RNA-seq:An assessment of technical reproducibility and comparison with gene expression arrays[J]. Genome Research,2008,18(9):1509-1517.
[6] Raz T,Kapranov P,Lipson D,et al. Protocol Dependence of Sequencing-Based Gene Expression Measurements[J]. Plos One,2011,6(5):19287.
[7] Mortazavi A,Williams BA,McCue K,et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq[J]. Nature Methods,2008,5(7):621-628.
[8] Branton D,Deamer DW,Marziali A,et al. The potential and challenges of nanopore sequencing[J]. Nature Biotechnology,2008,26(10):1146-1153.