韓九強(qiáng),吳思佳*,劉瑞玲,呂紅強(qiáng),鐘德星
(西安交通大學(xué)電子與信息工程學(xué)院,西安,710049)
第二代基因測(cè)序儀的硬件設(shè)計(jì)
韓九強(qiáng),吳思佳*,劉瑞玲,呂紅強(qiáng),鐘德星
(西安交通大學(xué)電子與信息工程學(xué)院,西安,710049)
隨著基因序列分析研究的深入,中短基因片段的快速準(zhǔn)確測(cè)序已經(jīng)成為生物信息研究的瓶頸。本文針對(duì)第二代基因測(cè)序儀的硬件設(shè)計(jì)問(wèn)題,在深入研究第二代基因測(cè)序原理和流程的基礎(chǔ)上完成了硬件總體方案設(shè)計(jì)。此方案采用自上而下逐步分解的方法,設(shè)計(jì)了流動(dòng)槽、PCR、邊合成邊測(cè)序、控制與數(shù)據(jù)傳輸?shù)扔布K,繼續(xù)分解設(shè)計(jì)了溫度控制、試劑控制、激光觸發(fā)、光學(xué)采集、掃描控制等硬件子模塊,并根據(jù)各個(gè)子模塊的功能和廠商的產(chǎn)品說(shuō)明書(shū)完成了部分關(guān)鍵器件的選型。為后續(xù)基因測(cè)序儀的機(jī)械結(jié)構(gòu)設(shè)計(jì)和硬件組裝奠定了基礎(chǔ)。
生物信息學(xué);基因測(cè)序儀;邊合成邊測(cè)序;硬件設(shè)計(jì)
隨著科學(xué)技術(shù)的進(jìn)步,在大批量測(cè)序任務(wù)處理中,第一代測(cè)序法易受成本高、速度慢、通量低等因素的限制,越來(lái)越無(wú)法滿足科學(xué)研究和生產(chǎn)應(yīng)用的需要。于是,以Roche公司的454技術(shù)[1,2]、Illumina公司的Solexa技術(shù)[3]和ABI公司的SOLiD[4]為標(biāo)志的第二代基因測(cè)序技術(shù)應(yīng)運(yùn)而生。與第一代基因測(cè)序技術(shù)相比,第二代基因測(cè)序技術(shù)在實(shí)現(xiàn)高通量測(cè)序的同時(shí),不僅保持了較高的準(zhǔn)確度,而且大大降低了測(cè)序成本并極大地提高了測(cè)序速率[5]。第二代基因組技術(shù)對(duì)于揭示基因組的結(jié)構(gòu)和功能有重要的推動(dòng)作用,在功能基因組、系統(tǒng)生物學(xué)、藥物基因組等的研究中有廣泛的應(yīng)用[6-8]。
第二代基因測(cè)序技術(shù)有多種實(shí)現(xiàn)平臺(tái),但它們的測(cè)序流程在概念上是相似的,均包括文庫(kù)制備、乳液或橋式PCR擴(kuò)增和合成或連接測(cè)序等過(guò)程。我們以Solexa測(cè)序技術(shù)為例研究第二代基因測(cè)序流程,如圖1所示。測(cè)試流程主要包括測(cè)序試劑的準(zhǔn)備、邊合成邊測(cè)序(包含合成反應(yīng)和光學(xué)圖像采集處理流程)、序列拼接組裝三個(gè)階段。具體內(nèi)容將在如下介紹。
1.1 測(cè)序試劑的準(zhǔn)備
測(cè)序試劑的準(zhǔn)備主要包含DNA提取、DNA碎片化、DNA片段處理和PCR擴(kuò)增4個(gè)階段。DNA提取:通過(guò)研磨敲碎、超聲波、冷融、堿或酶等方法裂解細(xì)胞,加入去污劑、蛋白酶、醋酸鹽等試劑去除掉膜脂和蛋白質(zhì)等雜質(zhì),最后利用吸附材料結(jié)合法、濃鹽法、有機(jī)溶劑抽提法或密度梯度離心法等獲得DNA溶液[9]。DNA碎片化:使用超聲儀器等設(shè)備將DNA隨機(jī)打斷成片段。DNA片段處理:DNA片段經(jīng)過(guò)末端修飾等操作后固定到流動(dòng)槽的接頭上。PCR擴(kuò)增[10]:在流動(dòng)槽上,通過(guò)對(duì)溫度、試劑等參數(shù)的控制,使得流動(dòng)槽上之前通過(guò)接頭固定的每一個(gè)DNA片段都完成了上萬(wàn)倍的復(fù)制形成了簇,完成DNA擴(kuò)增。
圖1 第二代基因測(cè)序流程Fig. 1 process of next-generation sequencing
1.2 邊合成邊測(cè)序
邊合成邊測(cè)序是第二代基因測(cè)序能夠大規(guī)模并行的關(guān)鍵。邊合成邊測(cè)序主要包括合成反應(yīng)堿基延伸、熒光激發(fā)及信號(hào)收集、剪切3個(gè)步驟。合成反應(yīng)堿基延伸:利用ddNTP(ddATP, ddCTP, ddGTP, ddTTP)完成合成反應(yīng),ddNTP具有終止DNA鏈延伸的作用,待測(cè)片段在每一個(gè)反應(yīng)中會(huì)生成不同長(zhǎng)度的終止于該反應(yīng)中包含的ddNTP的堿基片段。熒光激發(fā)及信號(hào)收集:四種堿基參與合成反應(yīng),由于結(jié)合不同的ddNTP在激光照射下會(huì)發(fā)出不同頻率的熒光信號(hào),光學(xué)采集系統(tǒng)掃描記錄下這些熒光,經(jīng)過(guò)一定的去噪等處理,通過(guò)計(jì)算機(jī)軟件等將光信號(hào)轉(zhuǎn)化為測(cè)序峰值信號(hào),獲得一定長(zhǎng)度的堿基讀取Read。剪切:采集信號(hào)完成后,關(guān)閉激光,用剪切劑去除測(cè)序序列延伸產(chǎn)物上的堿基所標(biāo)記的熒光基團(tuán),為下一輪測(cè)序做準(zhǔn)備。這三個(gè)步驟依次循環(huán)直至達(dá)到人為指定的最高循環(huán)次數(shù),即每個(gè)測(cè)序片段的讀長(zhǎng)。
1.3 序列拼接組裝
獲得的堿基讀取Read的長(zhǎng)度較短,需要通過(guò)貪婪算法[11]、基于De Bruijn圖的算法[12]等方法并結(jié)合已有的信息完成序列的拼接工作,以得到更長(zhǎng)的Contig甚至完整的待測(cè)基因序列,或者將Read比對(duì)到已有的基因組或者相近物種基因組上。這一部分是計(jì)算機(jī)軟件部分的工作內(nèi)容,其具體過(guò)程在本文中不做詳細(xì)介紹。
圖2 基因測(cè)序儀硬件總體方案Fig.2 Hardware design of next-generation sequencing instrument
表1 硬件需求表Tab.1 hardware requirements
表2 硬件選型表Tab.2 hardware selection
依據(jù)基因測(cè)序流程,可以將基因測(cè)序儀的硬件結(jié)構(gòu)按照所完成的功能劃分到不同的模塊中?;驕y(cè)序儀的硬件總體結(jié)構(gòu)方案如圖2所示。
2.1 流動(dòng)槽模塊
流動(dòng)槽也叫做基因芯片[13,14],是基因測(cè)序流程中PCR擴(kuò)增和邊合成邊測(cè)序的場(chǎng)所。在流動(dòng)槽的橫向分布著兩條長(zhǎng)方形的通道Lane。每條Lane上等間隔地分布著數(shù)十個(gè)布置有接頭的方形塊Tile,當(dāng)待測(cè)DNA試劑流過(guò)Tile上方的時(shí)候,DNA片段被以共價(jià)鍵的形式隨機(jī)地固定在Tile的接頭上。流動(dòng)槽被固定在流動(dòng)槽固定臺(tái)上。
2.2 PCR模塊
PCR模塊控制DNA片段完成PCR擴(kuò)增,包括溫度控制和試劑控制兩個(gè)子模塊。在溫度控制子模塊中,4個(gè)溫度傳感器均勻地分布在流動(dòng)槽上,實(shí)時(shí)獲得擴(kuò)增過(guò)程的溫度,并根據(jù)PCR擴(kuò)增中高溫變性、低溫退火和適溫延伸三個(gè)階段所需的溫度不同[15,16],接收控制與數(shù)據(jù)傳輸模塊命令,控制電熱片和制冷片2個(gè)執(zhí)行器的工作。在試劑控制子模塊中,2個(gè)流量傳感器實(shí)時(shí)獲得擴(kuò)增過(guò)程中原料供給情況,并根據(jù)PCR擴(kuò)增中不同階段所需試劑和PH值不同,接收控制與數(shù)據(jù)傳輸模塊命令,控制試劑泵的開(kāi)啟及向2條Lane泵入原料試劑的流量,使得PCR擴(kuò)增獲得所需的原料和合適的PH環(huán)境。
2.3 邊合成邊測(cè)序模塊
邊合成邊測(cè)序模塊完成合成反應(yīng)和光學(xué)圖像采集處理兩個(gè)工作。類(lèi)似PCR模塊,合成反應(yīng)不同階段所需溫度和試劑也不同,需要溫度控制子模塊和試劑控制子模塊控制電熱片、制冷片和試劑泵為合成反應(yīng)提供合適溫度和所需的原料。光學(xué)圖像采集處理則需要激光觸發(fā)子模塊、光學(xué)采集子模塊和掃描控制子模塊的協(xié)同工作。在激光觸發(fā)子模塊中,紅激光光源對(duì)應(yīng)A, C堿基,綠激光光源對(duì)應(yīng)G, T堿基。在光學(xué)采集子模塊中,四組濾光片分別對(duì)應(yīng)四種堿基反射的熒光,四個(gè)光學(xué)CCD相機(jī)分別采集記錄相應(yīng)的熒光信號(hào),并傳輸給控制與傳輸子模塊中轉(zhuǎn)化為峰值信號(hào)繼而獲得對(duì)應(yīng)的序列堿基。在掃描控制子模塊中,兩個(gè)位移傳感器獲得流動(dòng)槽固定臺(tái)在X和Y軸中的位置,接收控制與傳輸子模塊的命令,控制步進(jìn)電機(jī),移動(dòng)流動(dòng)槽固定臺(tái),以獲得流動(dòng)槽上所有Tile定期循環(huán)結(jié)果。
2.4 控制與傳輸模塊
控制與傳輸模塊是基因測(cè)序儀的邏輯控制中心和圖像數(shù)據(jù)處理中心。向下,控制與數(shù)據(jù)傳輸模塊接收來(lái)自上位機(jī)的控制信息,依據(jù)上位機(jī)的指令,通過(guò)儀器控制子模塊命令具體的執(zhí)行器執(zhí)行一些特定的動(dòng)作;向上,控制與數(shù)據(jù)傳輸模塊接收光學(xué)采集子模塊獲得的熒光信號(hào),通過(guò)圖像處理子模塊轉(zhuǎn)化為堿基數(shù)據(jù),并通過(guò)數(shù)據(jù)上傳子模塊將這些堿基數(shù)據(jù)和基因測(cè)序儀器的狀態(tài)信息傳給上位機(jī)。
將基因測(cè)序儀的硬件劃分為各個(gè)子模塊后,了解各個(gè)子模塊中傳感器、執(zhí)行器需求和參數(shù),如表1所示。通過(guò)查詢(xún)各個(gè)廠商產(chǎn)品的說(shuō)明書(shū),選擇各個(gè)傳感器和執(zhí)行器,如表2所示。控制與輸出模塊選擇一塊帶有網(wǎng)卡和多個(gè)其他接口的控制板并且安裝運(yùn)行Linux 2.6內(nèi)核操作系統(tǒng),這樣驅(qū)動(dòng)程序的書(shū)寫(xiě)簡(jiǎn)化為L(zhǎng)inux內(nèi)核模塊的編寫(xiě),控制和數(shù)據(jù)傳輸程序也簡(jiǎn)化為在Linux平臺(tái)上開(kāi)發(fā)網(wǎng)絡(luò)數(shù)據(jù)傳輸程序,同時(shí),由于Linux系統(tǒng)對(duì)硬件的要求不高,可以降低基因測(cè)序儀的硬件成本。
本文研究了基因測(cè)序技術(shù)的原理和流程,詳細(xì)地了解了基因測(cè)序儀的各個(gè)硬件部分及其需要完成的功能,對(duì)基因測(cè)序儀的硬件結(jié)構(gòu)進(jìn)行了模塊化的劃分,且完成了一些關(guān)鍵硬件器件的研究和選型。隨后需要對(duì)基因測(cè)序儀的硬件部分進(jìn)行下一步的機(jī)械結(jié)構(gòu)設(shè)計(jì)等,并在這些結(jié)構(gòu)設(shè)計(jì)完成后,采購(gòu)需要的硬件來(lái)組裝成完整的基因測(cè)序儀以驗(yàn)證硬件設(shè)計(jì)的正確性。
本論文的完成離不開(kāi)西安交通大學(xué)各位老師和同學(xué)的幫助,特別感謝謝盼、朱異靈等對(duì)本論文提出的意見(jiàn)和建議。
[1] Rothberg J M, Leamon J H. The development and impact of 454 sequencing [J]. Nature Biotechnology, 2008, 26(10): 1117-1124.
[2] Margulies M, Egholm M, Altman W E,et al. Genome sequencing in open microfabricated high-density picoliter reactors [J]. Nature, 2005, 437(7057): 376--380.
[3] Bentley D R, Balasubramanian S, Swerdlow H P,et al. Accurate whole human genome sequencing using reversible terminator chemistry [J]. Nature, 2008, 456(7218): 53-59.
[4] Valouev A, Ichikawa J, Tonthat T,et al. A high-resolution, nucleosome position map of C. elegans reveals a lack of universal sequence-dictated positioning [J]. Genome Research, 2008, 18(7): 1051-1063.
[5] Shendure J, Ji H. Next-generation DNA sequencing [J]. Nature Biotechnology, 2008, 26(10): 1135-1145.
[6] Ouyang Z, Zhou Q, Wong W H. ChIP-Seq of transcription factors predicts absolute and differential gene expression in embryonic stem cells [J]. Proceedings of the National Academy of Sciences, 2009, 106(51): 21521-21526.
[7] Taylor K H, Kramer R S, Davis J W,et al. Ultradeep bisulfite sequencing analysis of DNA methylation patterns in multiple gene promoters by 454 sequencing [J]. Cancer Research, 2007, 67(18): 8511-8518.
Hardware Design of Next-generation Sequencing Instrument
Han Jiuqiang, Wu Sijia*, Liu Ruiling, Lv Hongqiang, Zhong Dexing
(School of Electronic and Information Engineering, Xi’an Jiaotong University, Xi’an 710049)
With the development of genomics, fast and accurate short DNA fragments sequencing has become the bottleneck of bioinformatics research. In this paper, theory and method of high throughput sequencing is deeply studied. Based on top-down policy, four modules and eight sub-modules have been designed, which are flow cell, PCR, sequencing-by-synthesis and control modules with temperature control, reagent control, laser control, optical collection, scanning control, device control, image processing and data transmission sub-modules. In the end, the main hardware parts have also been selected according to the functions of submodules and product specification. This work will be the basis of further mechanism design and hardware assembling of sequencing instrument.
bioinformatics; DNA sequencing instrument; Sequencing-by-Synthesis; Hardware design
TP183
A
10. 11967/ 2017150110
TP183
A DOI:10. 11967/ 2017150110
高等學(xué)校博士學(xué)科點(diǎn)專(zhuān)項(xiàng)科研基金(20110201110010)。
韓九強(qiáng),男,教授,主要研究方向:機(jī)器視覺(jué),生物信息學(xué)。
吳思佳,女,博士研究生,主要研究方向:生物信息學(xué),Email: wsj_xjtu_1332@163.com.