李妍 綜述;徐興祥 審校
(1.大連醫(yī)科大學 研究生院,遼寧 大連 116044;2.江蘇省蘇北人民醫(yī)院 呼吸科,江蘇 揚州 225001)
二代測序技術是在過去十年中不斷發(fā)展起來的測序技術[1]。在20世紀70年代,Sanger等[2]和Maxam與Gilbert[3]分別開發(fā)了通過鏈終止和斷裂技術對DNA進行測序的方法。這種生物轉(zhuǎn)化是通過提供破譯完整基因以及后來整個基因組的工具來實現(xiàn)。由于Sanger及其同事開發(fā)的技術,通常被稱為Sanger測序,與Maxam和Gilbert的方法相比,對有毒化學品和放射性同位素的處理要求較少,因此它成為未來30年內(nèi)更為普遍應用的DNA測序方法。隨著對測序通量需求的不斷增加,促進了實驗室自動化和測序流程的并行化,最終導致大量的測序儀器批量式生產(chǎn),由于這些進步,Sanger技術最終在2004年實現(xiàn)了第一個人類基因組測序的完成[4]。然而,人類基因組計劃(Human Genome Project,HGP)的完成需要大量的時間和資源,顯然我們需要更快,更高通量和更經(jīng)濟的測序技術。因此,在2004年,國家人類基因組研究所(National Human Genome Research Institute,NHGRI)發(fā)起了一項資助計劃,目標是在十年內(nèi)將人類基因組測序的成本降低到1000美元[5],這刺激了二代測序技術的開發(fā)和商業(yè)化。新的測序技術主要有三個方面的改進[6]:首先,它們不依賴于細菌DNA片段的克隆,而是依賴于非細胞系統(tǒng)中二代測序技術(next-generation sequencing,NGS)文庫的制備。其次,并行產(chǎn)生數(shù)千至數(shù)百萬個測序反應,而不是通常的數(shù)百個。第三,無需電泳即可直接檢測到測序輸出,整個過程是循環(huán)和并行進行的。NGS產(chǎn)生的大量讀數(shù)能夠以前所未有的速度對整個基因組進行測序。這些重大改進使科學家能夠在很短的時間內(nèi)以低成本處理整個基因組的測序,開辟了基因組學和分子生物學的新時代。
從1977年第一代DNA測序技術(Sanger法),發(fā)展至今三十多年時間,測序技術已取得了相當大的發(fā)展,從第一代到第三代乃至第四代,測序讀長從長到短,再從短到長,不斷經(jīng)歷著重大變革的同時也取得了技術上不斷的進步。目前,第二代測序技術在全球測序市場上已占據(jù)絕對的優(yōu)勢,同時第三和第四代測序技術也初露鋒芒。測序技術每一次變革,都對基因組研究,疾病醫(yī)療研究,藥物研發(fā),育種等領域產(chǎn)生巨大的推動作用。
二代測序技術的原理包括合成法測序及連接法測序。目前高通量測序的主要平臺代表有羅氏公司(Roche)的454測序儀(Roch GS FLX sequencer),Illumina公司的Solexa基因組分析儀(Illumina Genome Analyzer)和ABI的SOLiD測序儀(ABI SOLiD sequencer)。
羅氏454是第一個商業(yè)上成功的下一代測序系統(tǒng)。使用焦磷酸測序繼續(xù),而非雙脫氧核苷酸來終止鏈擴增,焦磷酸測序技術依賴于核苷酸摻入期間釋放的焦磷酸的檢測。羅氏公司的454焦磷酸測序技術原理為:在DNA聚合酶、ATP硫酸化酶、熒光素酶和雙磷酸酶的作用下,將每一個脫氧核糖核苷三磷酸(deoxy-ribonucleotide triphosphate,dNTP)的聚合與一次化學發(fā)光信號的釋放偶聯(lián)起來,通過檢測化學發(fā)光信號的有無和強度,達到實時檢測DNA序列的目的[7]。
該技術的流程可大致分為以下幾部分,第一步為DNA文庫制備,即基因組DNA/cDNA利用酶促或機械方法片段化處理至300~800 bp間,經(jīng)末端修復與特異性接頭等修飾后變性處理回收單鏈DNA。第二步為乳液聚合酶鏈式反應(polymerase chain reaction,PCR)[8]:單鏈DNA文庫被固定在直徑約28 μm的DNA捕獲磁珠上,乳化,形成油包水的混合物,每個獨特的片斷在自己的微反應器里進行獨立的擴增,回收純化。第三步為焦磷酸測序反應:攜帶DNA片段的磁珠被放入一種稱作“PicoTiterPlate”(PTP)的平板中供測序反應使用。測序方法采用焦磷酸測序法,將一種比PTP板上小孔直徑(約為44 μm)更小的磁珠放入小孔中,啟動測序反應。測序反應以磁珠上大量擴增出的單鏈DNA為模板,每次反應加入一種dNTP進行合成反應,如果dNTP能與待測序列配對,則會在合成后釋放相同數(shù)量的焦磷酸基團,釋放的焦磷酸基團會與反應體系中的三磷酸腺苷(adenosine triphosphate,ATP)硫酸化學酶反應生成ATP,生成的ATP和熒光素酶共同氧化使測序反應中的熒光素分子并發(fā)出熒光[9],同時由PTP板另一側(cè)的電荷耦合器件(charge coupled device,CCD)照相機記錄,最后通過計算機進行光信號處理而獲得最終的測序結果。由于每一種dNTP在反應中產(chǎn)生的熒光顏色不同,因此可以根據(jù)熒光的顏色來判斷被測分子的序列。反應結束后,游離的dNTP會在雙磷酸酶的作用下降解ATP,從而導致熒光淬滅,以便使測序反應進入下一個循 環(huán)。
由于454測序技術中,每個測序反應都在PTP板上獨立的小孔中進行,因而能大大降低相互間的干擾和測序偏差。此技術讀取長度最長,高質(zhì)量的讀長能達到400 bp[10],但通量最低。其主要的錯誤來自于同聚物,當測序遇到序列中存在類似于PolyA的多聚核苷酸的情況時,如TAAAAC序列,即相同的堿基的連續(xù)延伸,其中T和C的讀取沒有問題,但A只記錄了一次光信號,僅信號強度與TAC序列的A有所不同,因此同聚物越長,可能產(chǎn)生的誤差就越大,重復的堿基個數(shù)只能通過熒光強度推測獲得,堿基個數(shù)與信號強度不再成線性關系,引入插入和缺失的測序錯誤將不可避免,所以在檢測具有重復序列的DNA片段時該測序方法具有困難。
相對于Sanger測序、Solexa和SOLid測序而言,454焦磷酸測序可以提供中等的讀長和適中的價格,適合從頭測序、轉(zhuǎn)錄組測序、基因組結構分析、宏基因組研究等[11]。
2006年,Solexa發(fā)布了Genome Analyzer(GA)測序儀,2007年該公司被Illumina收購。測序儀采用合成測序技術(sequencing by synthesis,SBS)。該測序方法的核心技術是:“DNA簇”和“可逆性末端終止”。具體技術原理是:將基因組DNA的隨機片段附著到光學透明的測序芯片表面,稱為流動槽(flow cell),這些DNA片段經(jīng)過延伸和橋式擴增后,在flow cell上形成了數(shù)以億計的DNA簇,每個簇是具有數(shù)千份相同模板的單分子簇。然后利用帶熒光基團的四種特殊脫氧核糖核苷酸,通過可逆性終止的邊合成邊測序技術對待測的模板DNA進行測序[12]。
該測序方法具體步驟為,第一步文庫構建:方法同454測序,不同之處在于讀長,除特殊需要外,大多數(shù)研究主要是打斷成長度為200~500 bp的序列片段。第二步為簇的生成:flow cell是用于吸附流動DNA片段的槽道,每個flow cell有8個管道(channel),每個channel的表面都附有很多接頭,當文庫建好后,這些文庫中的DNA在通過flow cell的時候會隨機附著在flow cell表面的管道上,隨后DNA在其表面進行橋式PCR的擴增。第三步為橋式PCR擴增與變性,進行這一過程的目的在于實現(xiàn)將堿基的信號強度放大,以達到測序所需的信號要求。第四步測序:測序方法采用邊合成邊測序的方法。在dNTP被添加到合成鏈上后,所有未使用的游離dNTP和DNA聚合酶會被洗脫掉。隨后,再加入激發(fā)熒光所需的緩沖液,用激光激發(fā)熒光信號,并有光學設備完成熒光信號的記錄,最后利用計算機分析將光學信號轉(zhuǎn)化為測序堿基。這樣熒光信號記錄完成后,再加入化學試劑淬滅熒光信號并去除dNTP 3'-OH保護基團,以便能進行下一輪的測序反應。Illumina的這種測序技術每次只添加一個dNTP的特點能夠很好的地解決同聚物長度的準確測量問題,它的主要測序錯誤來源是堿基的替換,目前它的測序錯誤率大致在1%~1.5%之間。Solexa技術特色突出表現(xiàn)在:①每張測序芯片有8個通道,每個通道可單獨運行一個樣品,也可把多個樣品混合在一起檢測;②一次實驗可讀取大于15億個堿基/芯片;③可精確讀取重復序列,如:GGGGGG;④成本低,為傳統(tǒng)方法的1/100;⑤不需要建立文庫,自動化樣品制備,簡單易行。
Solexa平臺的應用范圍十分廣泛,幾乎覆蓋了目前基因組學研究的各個方面,如基因組從頭測序、轉(zhuǎn)錄組測序、表達譜分析、小RNA及非編碼RNA測序、表觀遺傳學研究等。此項技術讀取的片段多,測序通量高,高度自動化,適合大量小片段DNA的測序。其優(yōu)點在于性價比最高,不僅機器的售價比其他兩種低,而且運行成本也低,在數(shù)據(jù)量相同的情況下,成本只有焦磷酸測序的 1/10。但局限性在于可逆反應時隨反應次數(shù)的增加效率減低、信號減弱,且讀長短,從頭測序具有困難。Solexa的讀長在100~150 bp之間,適合小RNA鑒定、甲基化和表觀遺傳學研究。
SOLiD由Applied Biosystems于2006年購買。測序儀采用基于連接測序的雙堿基測序技術。該技術的獨特之處在于以四色熒光標記寡核苷酸的連續(xù)連接合成為基礎,取代了傳統(tǒng)PCR,可對單拷貝DNA片段進行大規(guī)模擴增和高通量并行測序[9]?;驹硎峭ㄟ^熒光標記的8個堿基單鏈DNA探針與模板配對連接,發(fā)出不同的熒光信號,其包含連接位點(第一個堿基),切割位點(第五個堿基)和4個不同的熒光染料(連接到最后一個堿基)[10],從而讀取目標序列的堿基排列順序。在該方法下,目標序列的所有堿基都被讀取了兩遍,因此,該測序方法最大的優(yōu)勢就是極高的準確率。該技術原理為:用連接法測序獲得基于“雙堿基編碼原理”的SOLiD顏色編碼序列,隨后的數(shù)據(jù)分析比較原始顏色序列與轉(zhuǎn)換成顏色編碼的reference序列,把SOLiD顏色序列定位到reference上,同時校正測序錯誤,并可結合原始顏色序列的質(zhì)量信息發(fā)現(xiàn)潛在單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點。
測序技術流程:第一步同樣為文庫構建,SOLiD系統(tǒng)能支持兩種測序模板:片段文庫或配對末端文庫,我們通常根據(jù)需要選擇對應的文庫。片段文庫多用于轉(zhuǎn)錄組測序、RNA定量、miRNA探索、目標(區(qū)域)重測序(targeted resequencing)、3',5'-RACE、甲基化分析、染色質(zhì)免疫共沉淀(chromatin immuno precipitation,ChIP)測序等。配對末端文庫多用于全基因組測序(whole genome sequencing,WGS)、SNP分析、結構重排/拷貝數(shù)等研究。第二步為乳液PCR/微珠富集:SOLiD的PCR過程也和454的方法類似,但這些微珠比起454系統(tǒng)來說則要小得多,只有1 μm。與454測序方法相比,在同一系統(tǒng)中高通量的實現(xiàn)顯得更為輕松。第三步為連接酶測序。這一步是SOLiD測序的獨特之處,就在于兩個堿基確定一個熒光信號,相當于一次能決定兩個堿基,這種測序方法也稱之為“雙堿基測序法”。第四步為數(shù)據(jù)分析,SOLiD測序完成后,得到了由顏色編碼組成的SOLiD原始序列??紤]到堿基與顏色信息的簡并性,為避免錯誤顏色編碼引起后續(xù)的連鎖解碼錯誤,SOLiD序列分析軟件不直接將SOLiD原始顏色序列解碼成堿基序列,而是依靠參考(reference)序列進行后續(xù)數(shù)據(jù)分析。
SOLiD的讀取長度最初是35 bp,每次運行輸出數(shù)據(jù)量為3 G。由于采用雙堿基測序方法,過濾后SOLiD可達到99.85%的高精度。ABI在2007年底發(fā)布了第一個SOLiD系統(tǒng),在2010年末發(fā)布了SOLiD 5500xl測序系統(tǒng)。從SOLiD到SOLiD 5500xl,ABI在短短三年內(nèi)發(fā)布了五次升級。SOLiD 5500xl實現(xiàn)了每次運行在讀長、精確度及輸出量分別為85 bp,99.99%和30 G。一次完整運行可在七天內(nèi)完成,目前是第二代測序技術中準確性最高的。并且由于Solid測序法采用的不是PCR反應進行DNA合成與測序,因此對于高GC含量的樣本具有很大優(yōu)勢。但在熒光解碼階段,鑒于其是雙堿基確定一個熒光信號,因而一旦發(fā)生錯誤就容易產(chǎn)生連鎖的解碼錯誤。另外,在這三種技術中該技術測序讀長為50 bp最短,后續(xù)序列拼接同樣比較復雜,且讀取長度受反應次數(shù)限制,給從頭測序拼接帶來困難。因此,我們在選擇測序方法之前應權衡利弊,選擇最合適的測序方法。該測序方法常用平臺為ABI 3730 XL,適于基因組重測序和單核苷酸多態(tài)性(SNP)檢測。
目前,我們可以根據(jù)要解決問題的不同使用不同的方法。初始輸入材料可以是基因組DNA(DNA-seq),信使或非編碼RNA(RNA-seq)或特異性獲得的任何核/核糖核酸材料。
包括全基因組測序[13],全外顯子測序(whole exome sequencing,WES)[14]和靶向測序[15]。
WGS允許對整個基因組測序,需要大的DNA樣品,為了準確地檢測臨床突變,可能需要100至200倍的測序覆蓋,即在時間和成本上具有一定的限制性。通常,采用足以鑒定結構重排的30至60倍測序。WGS的主要技術優(yōu)點是文庫制備不需要任何富集或擴增,測序特異性理論上為100%,在實踐中實現(xiàn)約為95%~98%,在整個輸入材料的感興趣區(qū)域(region of interest,ROI)中具有均勻的覆蓋。日常應用WGS最重要的障礙是成本高,數(shù)據(jù)的復雜通路分析和數(shù)據(jù)解釋。該方法特異度為95%~98%,測序深度為30~60 x,20 x以上的目標區(qū)域占所有目標區(qū)域的90%~95%,操作過程所需時間為6~24個小時[15-17]。
對于許多應用來說,整個基因組測序既不實用也不必要。WES僅對基因組的編碼區(qū)進行測序,關注基因組的外顯子,約2.5%的人類基因組已發(fā)現(xiàn)與疾病或表型相關的罕見或常見變體[18-19]。與WGS相比,WES降低了成本和時間。最常見的方法依賴于通過寡核苷酸探針雜交以“捕獲”靶向的DNA片段,從而富集外顯子序列。WES目前已應用于識別與癌癥相關的基因[20],糖尿病[21],免疫疾病[22-23]等。WES文庫制備/樣本處理最常用的技術為TruSeq,代表了Illumina測序的最新進展,旨在優(yōu)化數(shù)據(jù)準確性,研究可擴展性和用戶體驗。典型的測序工作流程包括樣品/文庫制備,簇擴增,DNA測序,圖像分析/堿基調(diào)用,讀取比對和變體發(fā)現(xiàn)。通過TruSeq技術,該流程中的每個步驟均經(jīng)過優(yōu)化,可提供最準確的數(shù)據(jù),以確保任何研究項目的最高質(zhì)量標準。通常,WES測序的特異度為75%~80%,測序深度為100~200 x,20 x以上的目標區(qū)域占所有目標區(qū)域的90%~95%,操作過程所需時間為6~72個小時。
靶向測序即測序集中于針對特定疾病的目標基因。由于靶向測序技術聚焦于對特定疾病ROI的選擇,在節(jié)約時間和成本方面,對于更多針對臨床應用研究的實驗室更加準確和方便。
RNA測序旨在對選擇性的基因剪接轉(zhuǎn)錄物的發(fā)現(xiàn)、轉(zhuǎn)錄后修飾、基因融合、突變/單核苷酸多態(tài)性(SNP)的檢測以及小和長非編碼RNA和基因表達變化等研究[24]。首先將提取的RNA富集并逆轉(zhuǎn)錄成互補DNA,然后加工。此外,即使當前沒有可用于診斷的相關基因測序板,使用NGS方法,仍然可以對表觀遺傳學改變,例如啟動子甲基化,微小RNA和其他小RNA的表達進行研究。
早期的RNA-seq研究經(jīng)常使用不保留鏈信息的方案。然而,真核轉(zhuǎn)錄組遠比我們預想的復雜得多,許多基因會產(chǎn)生反義轉(zhuǎn)錄物[25]。為了應對這種復雜性,已經(jīng)開發(fā)了許多特異性的RNA-seq方案,其中第一個出現(xiàn)在2008年[24]。這些方案使得鑒定具有重要生物功能的新型反義調(diào)控轉(zhuǎn)錄物成為可能[26-28]。目前,一些新型的樣品制備方法可允許在單細胞水平進行轉(zhuǎn)錄組分析。單細胞轉(zhuǎn)錄組學提供了與經(jīng)典方法相比更為詳細的轉(zhuǎn)錄動力學視圖。例如,來自對單細胞轉(zhuǎn)錄組的分析顯示,看似相同的細胞之間可能存在實質(zhì)的轉(zhuǎn)錄異質(zhì)性[29]。最近發(fā)表的一篇開創(chuàng)性研究描述了一種稱為熒光原位RNA測序(fluorescent in situ sequencing,FISSeq)的方法,不僅能夠研究單細胞的轉(zhuǎn)錄組,而且可以確定細胞內(nèi)每個轉(zhuǎn)錄物的精確位置[30]。
經(jīng)典RNA-seq僅限于測量RNA穩(wěn)態(tài)水平,通常不直接反映轉(zhuǎn)錄活性或蛋白質(zhì)合成速率。幾年前,開發(fā)了一種在單核苷酸分辨率下通過特異地測序新生轉(zhuǎn)錄物使轉(zhuǎn)錄可視化的方法。NET-seq是2011年開發(fā)的一種RNA測量工具,它是提供更高分辨率并保留RNA鏈信息的RNA聚合酶ChIP-seq的替代品。這里提到的ChIP-seq是將染色質(zhì)免疫共沉淀技術(ChIP)與NGS技術相結合的染色質(zhì)免疫共沉淀測序(ChIP-seq),最初被開發(fā)用于鑒定體內(nèi)蛋白質(zhì)-DNA相互作用[31],并已經(jīng)廣泛用于研究生物過程的多樣性。近年來,很多的突變都被這種技術檢測出來。
雖然,二代測序的出現(xiàn)為臨床診療提供了一個嶄新的平臺和廣闊的前景,包括個體化癌癥治療和精準醫(yī)學等廣泛應用[32-34]。然而,實施NGS的重大挑戰(zhàn)仍然存在,局限性仍然不容忽視。除以上列舉的技術性局限性之外,數(shù)據(jù)存儲和處理也是NGS面臨的重要挑戰(zhàn)。在未來幾年,成千上萬的新的人類基因組將使已經(jīng)令人印象深刻的可用序列數(shù)據(jù)量翻倍。越來越多的人選擇進行基因組測序,保密成為一個重要因素。這些信息將如何存儲以及訪問權限,是否可以讓測序者知道其基因組的每個細節(jié),或只知道與疾病診斷或治療相關的細節(jié),我們?nèi)绾畏乐箍赡艹霈F(xiàn)的“遺傳歧視”,以及道德問題等肯定會隨著個人基因組的發(fā)展而出現(xiàn),這些問題仍迫切需要解決。此外,以更高效的數(shù)據(jù)存儲和分析方法來跟上數(shù)據(jù)生產(chǎn)的增長速度也有待研究[35],后續(xù)大量的測序數(shù)據(jù)分析,以及如何以生物學知識去科學地解釋和實際應用都值得我們進一步探索。