陳 科, 李 凱, 周宇荀, 肖君華
(東華大學(xué) a.環(huán)境科學(xué)與工程學(xué)院; b.生物科學(xué)與技術(shù)研究所, 上海 201620)
利用二代測序數(shù)據(jù)判定SNP基因型
陳 科a, 李 凱b, 周宇荀b, 肖君華b
(東華大學(xué) a.環(huán)境科學(xué)與工程學(xué)院; b.生物科學(xué)與技術(shù)研究所, 上海 201620)
通過將二代測序數(shù)據(jù)與連接酶檢測反應(yīng)(ligase detection reaction, LDR)對(duì)單核苷酸多態(tài)性 (single nucleotide polymorphism, SNP)基因分型的結(jié)果進(jìn)行比對(duì), 確定二代測序數(shù)據(jù)判定SNP基因型的經(jīng)驗(yàn)性閾值.利用多重聚合酶鏈?zhǔn)椒磻?yīng)(multiplex polymerase chain reaction, multiplex PCR)對(duì)91個(gè)樣本進(jìn)行19個(gè)SNP位點(diǎn)的擴(kuò)增, 擴(kuò)增的產(chǎn)物混勻純化后在Ion torrent PGM儀器上進(jìn)行二代測序.利用LDR技術(shù)對(duì)相應(yīng)的SNP位點(diǎn)進(jìn)行檢測, 將其分型結(jié)果作為二代測序數(shù)據(jù)判定SNP基因型的標(biāo)準(zhǔn), 確定了二代測序數(shù)據(jù)判定SNP基因型的閾值: 測序深度≥6X, 等位基因比率在15%~85%的位點(diǎn)為雜合子, 在范圍之外的為純合子, 該閾值準(zhǔn)確度達(dá)到99.6%; 針對(duì)等位基因頻率分布在閾值邊緣的數(shù)據(jù), 結(jié)合聚類分析可將正確率提升至100%.研究結(jié)果為利用二代測序數(shù)據(jù)判定SNP基因型提供了一個(gè)準(zhǔn)確、快捷和經(jīng)驗(yàn)性的閾值與方案.
單核苷酸多態(tài)性(SNP);二代測序;多重聚合酶鏈?zhǔn)椒磻?yīng)(multiplex PCR)
單核苷酸多態(tài)性(SNP)是一種與復(fù)雜疾病相關(guān)的重要遺傳位標(biāo)[1].通常利用SNP進(jìn)行生物學(xué)分析, 如遺傳結(jié)構(gòu)分析、個(gè)體化用藥和復(fù)雜疾病定位.在過去的30年, 新SNP的發(fā)現(xiàn)依賴于以聚合酶鏈?zhǔn)椒磻?yīng)(PCR)和毛細(xì)管電泳(capillary electrophoresis, CE)為基礎(chǔ)的一代測序技術(shù), 而SNP分型方案則依賴于Taqman、 Sequenom、SnaPshot、連接酶檢測反應(yīng)(LDR)和基因芯片等技術(shù)[2].近10年來, 二代測序技術(shù)高速發(fā)展, 其通量的不斷提高以及成本的急劇下降, 使得二代測序技術(shù)開始成為SNP分型不可或缺的武器[3-4].
伴隨著重測序技術(shù), 如雜交后測序[5]、微液滴PCR[6]、分子內(nèi)探針[7]等技術(shù)的開發(fā), 將二代測序平臺(tái)結(jié)合重測序技術(shù)應(yīng)用于SNP分型已成為二代測序應(yīng)用的重要部分[8], 并逐漸取代傳統(tǒng)方案在SNP發(fā)現(xiàn)和分型上的作用[9-10].與此同時(shí), Thermo Fisher Scientific和Illumina等供應(yīng)商也開始提供商業(yè)化的試劑盒,以滿足研究人員同時(shí)針對(duì)上百個(gè)樣本和上百個(gè)目標(biāo)區(qū)段內(nèi)的SNP位點(diǎn)進(jìn)行分型, 為二代測序技術(shù)進(jìn)行大規(guī)模樣本SNP分型提供了可行性[11-12].
二代測序低廉的測序價(jià)格和超高的測序通量是進(jìn)行SNP分型的巨大優(yōu)勢, 但是在海量數(shù)據(jù)面前, 如何準(zhǔn)確地進(jìn)行SNP分型, 將是一個(gè)巨大的挑戰(zhàn).利用二代測序數(shù)據(jù)進(jìn)行SNP分型, 困難主要集中于兩個(gè)方面.一方面是等位基因偏差導(dǎo)致的困難.在二倍體個(gè)體中, 雜合子SNP位點(diǎn)的每條等位基因比率應(yīng)該是50%, 但是在目標(biāo)區(qū)段捕獲和文庫制備過程中, 因?yàn)椴东@效率和擴(kuò)增效率差異, 導(dǎo)致每條等位基因比率偏離50%.因此, 對(duì)于低覆蓋度的測序(平均每個(gè)位點(diǎn)測序深度<5X), 會(huì)導(dǎo)致雜合子中只有其中一條等位基因被測序, 出現(xiàn)假陰性的情況.在這種情況下, 進(jìn)行準(zhǔn)確的SNP分型是非常困難的[13].雖然提高測序深度可以有效解決雜合子兩條等位基因測序丟失的問題, 但是過度提高測序深度仍然無法徹底解決SNP分型錯(cuò)誤的問題[14].另一方面是測序錯(cuò)誤導(dǎo)致的困難.在二倍體個(gè)體中, 純合子SNP位點(diǎn)的兩條等位基因的基因型是相同的, 但是由于測序錯(cuò)誤會(huì)導(dǎo)致純合子的測序結(jié)果呈現(xiàn)出雜合子的可能性.隨著測序深度的提高, 假陰性的可能性急劇下降, 但是測序錯(cuò)誤經(jīng)過累加, 使得純合子判讀越來越困難, 假陽性的比例升高.同時(shí), 針對(duì)大規(guī)模平行測序時(shí), 增加測序深度會(huì)導(dǎo)致成本急劇增加.因此, 提出一個(gè)準(zhǔn)確、適當(dāng)?shù)腟NP分型閾值, 是利用二代測序?qū)Υ笠?guī)模樣本進(jìn)行SNP分型時(shí)的重要補(bǔ)充.
本文利用多重PCR對(duì)91個(gè)樣本進(jìn)行19個(gè)SNP位點(diǎn)的擴(kuò)增, 將PCR產(chǎn)物混合純化后在Ion torrent PGM平臺(tái)上進(jìn)行二代測序.同時(shí)利用PCR-LDR技術(shù)對(duì)上述所有對(duì)應(yīng)位點(diǎn)進(jìn)行SNP分型, 結(jié)合二代測序數(shù)據(jù)進(jìn)行驗(yàn)證, 以確定二代測序平臺(tái)針對(duì)SNP分型的經(jīng)驗(yàn)性閾值.以LDR分型結(jié)果為標(biāo)準(zhǔn), 與二代測序數(shù)據(jù)進(jìn)行對(duì)比, 提出一個(gè)準(zhǔn)確、經(jīng)驗(yàn)、有效的二代測序數(shù)據(jù)進(jìn)行SNP分型的閾值和方案.
1.1 DNA提取
91個(gè)人血樣,由無錫市精神衛(wèi)生中心提供.DNA提取采用AXYGEN(杭州愛思進(jìn)生物技術(shù)有限公司, 中國)血基因組小量制備試劑盒, 操作步驟依說明書進(jìn)行.以0.8%瓊脂糖凝膠電泳和NanoDrop2000c型超微量分光光度計(jì) (Thermo Fisher Scientific, 美國)確定DNA質(zhì)量和濃度.
1.2 引物的設(shè)計(jì)
19個(gè)SNP位點(diǎn)的rs號(hào)和基因序列信息來源于美國國立生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI).所有特異引物用Primer3在線軟件(http: //frodo.wi.mit.edu/primer3/)設(shè)計(jì), 特異引物的解鏈溫度(tm)在55 ~65 ℃, GC含量在20%~80%.特異引物上游和下游分別添加通用接頭序列: 上游通用序列5’-tgtaaaacgacggccagt-3’;下游通用序列5’-caggaaacagctatgacc-3’(見表1).為標(biāo)記不同樣本, 設(shè)計(jì)攜帶不同index序列的接頭引物以標(biāo)記不同樣本, 91個(gè)樣本分別由不同的接頭引物標(biāo)記.所有引物皆由上海翰宇生物科技有限公司合成.三輪PCR原理示意圖如圖1所示,特異引物包括兩個(gè)部分: 特異序列(白色)和通用序列(黑色);接頭引物由3部分組成: Ion torrent接頭序列(灰色)、特異index序列(斜線)和通用序列(黑色).
1.3 三輪PCR
PCR產(chǎn)物均一性是評(píng)價(jià)多重PCR的重要指標(biāo), 利用三輪PCR技術(shù)保證每對(duì)引物均勻擴(kuò)增.三輪PCR使用的特異引物濃度極低, 在反應(yīng)中又進(jìn)一步地稀釋特異引物濃度, 因此可以將低濃度特異引物盡可能地耗盡, 減少不同位點(diǎn)間的競爭, 以增加不同位點(diǎn)間均一性.與此同時(shí), 用于文庫構(gòu)建的每對(duì)接頭引物具有相同的擴(kuò)增通用序列, 可以保證不同樣本擴(kuò)增時(shí)PCR效率的一致性, 以增加不同樣本產(chǎn)物間的均一性.
表1 19個(gè)SNP位點(diǎn)引物
如圖1所示: 第一輪PCR, 添加低濃度特異引物擴(kuò)增;第二輪PCR, 取部分第一輪PCR產(chǎn)物作為模板添加到第二輪PCR體系中, 不額外添加引物擴(kuò)增, 盡可能將第一輪殘余引物消耗完;第三輪PCR, 直接將第三輪PCR體系添加到第二輪體系中, 利用接頭序列將所有PCR產(chǎn)物添加上測序接頭.經(jīng)過三輪PCR后, PCR產(chǎn)物可以直接作為二代測序文庫.
圖1 三輪PCR原理示意圖Fig.1 The schematic diagram of three-round PCR
1.3.1 第一輪PCR
PCR反應(yīng)體系(10 μL)包括4.0 μL雙蒸水, 1 μL 10×PCR Buffer(含100 mmol/L Mg2+), 0.8 μL dNTPs(2.5 mmol/L), 2 μL混合特異引物 (每條特異引物0.25 μmol/L), 1 U Hot Start DNA 聚合酶(5 U/μL) 和 2 μL DNA 模板(25 ng/μL).PCR反應(yīng)程序: 94 ℃變性15 min, 94 ℃變性30 s, 60 ℃退火1 min, 72 ℃延伸30 s, 20個(gè)循環(huán).
1.3.2 第二輪PCR
PCR反應(yīng)終體系(10 μL)包括5 μL 雙蒸水, 3 μL 第一輪PCR產(chǎn)物作為模板, 1.0 μL 10×PCR Buffer(含100 mmol/L Mg2+), 0.8 μL dNTPs(2.5 mM), 1 U Hot Start DNA 聚合酶(5 U/μL).PCR反應(yīng)程序: 94 ℃變性15 min, 94 ℃變性30 s, 60 ℃退火1 min, 72 ℃延伸30 s, 40個(gè)循環(huán).
1.3.3 第三輪PCR
第三輪PCR體系直接添加到第二輪反應(yīng)體系中, 第三輪PCR反應(yīng)體系(10 μL)包括7 μL 雙蒸水, 1.0 μL 10×PCR Buffer(含100 mmol/L Mg2+), 0.8 μL dNTPs(2.5 mmol/L), 1 μL接頭引物上下游引物(5 μmol/L), 1 U Taq DNA 聚合酶(1 μL) .PCR反應(yīng)程序: 94 ℃變性15 min, 94 ℃ 變性30 s, 60 ℃退火1 min, 72 ℃延伸30 s, 15個(gè)循環(huán);72 ℃補(bǔ)齊 10 min .
91個(gè)樣本的PCR產(chǎn)物等量混合在一起, 振蕩混勻.混勻的混合產(chǎn)物利用瓊脂糖凝膠回收試劑盒(北京天根生化科技有限公司, 中國)純化, 純化后的PCR產(chǎn)物可直接用于后續(xù)測序反應(yīng).
1.4 Ion torrent PGM測序
純化后的PCR產(chǎn)物于Ion torrent PGM測序儀(Thermo Fisher Scientific, 美國)上測序, 操作流程按照標(biāo)準(zhǔn)說明書進(jìn)行.首先, 純化后的PCR產(chǎn)物在OneTouch 2儀器上進(jìn)行乳液PCR擴(kuò)增, 通過乳液PCR擴(kuò)增將測序片段富集在微珠上;乳液PCR擴(kuò)增后的微珠由OneTouch 2 ES富集.富集的微珠結(jié)合318芯片(Thermo Fisher Scientific, 美國)和Ion PGMTMSequencing 200 Kit v2測序試劑盒在Ion torrent PGM儀器上測序, 測序流程嚴(yán)格按照說明書進(jìn)行.
1.5 LDR
針對(duì)91個(gè)樣本中19位點(diǎn)的LDR檢測由上海翼和應(yīng)用生物技術(shù)有限公司完成.
1.6 數(shù)據(jù)分析
二代測序數(shù)據(jù)經(jīng)過base calling的原始數(shù)據(jù)通常包含3個(gè)部分: index序列、接頭序列和特異序列.基于樣本index序列的差異, 利用FASTX-Toolkit軟件比對(duì)index序列, 根據(jù)index序列差異將原始數(shù)據(jù)中每個(gè)樣本的數(shù)據(jù)區(qū)分, 在比對(duì)index序列時(shí)最多允許一個(gè)堿基的錯(cuò)配;匹配到每個(gè)樣本的數(shù)據(jù)利用Cutadapt軟件將接頭序列去掉.運(yùn)用序列比對(duì)軟件BWA (v0.7.12)將去接頭后的序列與SNP位點(diǎn)參考序列(NCBI)比對(duì), 統(tǒng)計(jì)每個(gè)位點(diǎn)等位基因的reads數(shù)目, 計(jì)算其等位基因比率.
針對(duì)二代測序數(shù)據(jù)分型, 以LDR分型結(jié)果為標(biāo)準(zhǔn), 即將LDR基因分型結(jié)果直接作為二代測序數(shù)據(jù)分型的結(jié)果.在此基礎(chǔ)上, 將二代測序數(shù)據(jù)中位點(diǎn)的等位基因比率和LDR基因分型結(jié)果一一對(duì)應(yīng), 以確定二代測序數(shù)據(jù)中雜合子和純合子等位基因比率閾值.
2.1 二代測序結(jié)果
針對(duì)91個(gè)樣本, 對(duì)19個(gè)SNP位點(diǎn)進(jìn)行SNP分型.以X代表擴(kuò)增子的測序深度, 二代測序結(jié)果顯示, 1 721個(gè)擴(kuò)增子被成功捕獲, 而且至少被測序一次(測序深度≥1X);SNP位點(diǎn)的捕獲成功率為99.5%.擴(kuò)增于測序深度分布圖如圖2所示.
圖2 擴(kuò)增子測序深度分布圖Fig.2 Distribution of amplicons
由圖2可知,1 721個(gè)擴(kuò)增子的平均測序深度為136X, 96.2%擴(kuò)增子的測序深度>平均測序深度的0.2倍;同時(shí)擴(kuò)增子的測序深度呈現(xiàn)集中分布的趨勢, 94.5%擴(kuò)增子的測序深度集中在6X~300X (50倍差異).這種分布是利用二代測序技術(shù)對(duì)大規(guī)模樣本進(jìn)行SNP分型時(shí)測序深度分布的理想模型.該分布模型不僅保證了大多數(shù)擴(kuò)增子有足夠的測序深度, 同時(shí)避免了過多的高測序深度擴(kuò)增子占用測序通量, 有效地節(jié)省了測序成本.在此測序深度分布模型的基礎(chǔ)上, 結(jié)合LDR分型結(jié)果, 為二代測序數(shù)據(jù)進(jìn)行大規(guī)模樣本SNP分型提供一個(gè)準(zhǔn)確的閾值和方案.
2.2 擴(kuò)增子等位基因比率
二代測序數(shù)據(jù)顯示有1 721個(gè)擴(kuò)增子被成功測序, 將成功測序的擴(kuò)增子等位基因比率進(jìn)行統(tǒng)計(jì).LDR分型結(jié)果顯示,上述1 721個(gè)擴(kuò)增子中雜合子為612個(gè)(35.6%)和純合子為1 109個(gè)(64.4%).基于LDR技術(shù)的準(zhǔn)確性[2], 將LDR的基因分型結(jié)果作為標(biāo)準(zhǔn)結(jié)果賦予二代測序數(shù)據(jù): 利用二代測序數(shù)據(jù)中1 721個(gè)擴(kuò)增子計(jì)算等位基因比率, 并直接選取LDR的分型結(jié)果, 為二代測序判定SNP基因型提供一個(gè)準(zhǔn)確的閾值.擴(kuò)增子等位基因比率如圖3所示,以LDR技術(shù)對(duì)1 721個(gè)擴(kuò)增子的分型結(jié)果為基礎(chǔ), 結(jié)合二代測序數(shù)據(jù)中對(duì)應(yīng)擴(kuò)增子等位基因的測序深度比值作圖, 612個(gè)雜合子中, 610個(gè)(99.6%)雜合子等位基因比率在15%~85%.1 109個(gè)純合子中, 1 105個(gè)(99.6%)純合子等位基因比例在15%~85%之外.因此, 可以選取15%~85%作為判斷雜合子和純合子的閾值.
圖3 擴(kuò)增子等位基因比率Fig.3 Allelic ratio of amplicons
SNP位點(diǎn)等位基因比率分布如圖4所示.由圖4可知,94.5%的純合子等位基因比率分布在98.0%~100%之外;89.0%的雜合子等位基因比率分布在40%~60%.雜合子等位基因比率隨著測序深度的增加, 逐漸接近理想值50%, 說明隨著測序深度的提升, 雜合子的分型越來越來越容易(見圖3).與之相對(duì)的是純合子分型, 純合子的等位基因頻率不隨測序深度變化而轉(zhuǎn)變, 說明對(duì)于低測序深度, 純合子的判讀更容易.
圖4 SNP位點(diǎn)等位基因比率分布Fig.4 The allelic ratio distribution of amplicons
雜合子等位基因比率在15%~85%之外的2個(gè)數(shù)據(jù)中, 其中一個(gè)數(shù)據(jù)(rs140489)測序深度為2X, 偏差原因可能是測序深度過低, 導(dǎo)致等位基因只有一條被成功測序, 導(dǎo)致等位基因缺失[14];另外一個(gè)數(shù)據(jù)(rs3739470)測序深度為47X, 等位基因比率為14.9%, 該位點(diǎn)等位基因比率接近15%~85%閾值.類似的結(jié)果也發(fā)生在1 109個(gè)純合子中, 純合子等位基因偏差的4個(gè)數(shù)據(jù)中, 2個(gè)數(shù)據(jù)(rs140489和rs4842131)測序深度為5X, 偏差原因可能是測序深度過低, 隨機(jī)測序錯(cuò)誤引入導(dǎo)致等位基因比率變化過大;另外兩個(gè)數(shù)據(jù)(rs5754217和rs3093024)的測序深度分別為46X和160X, 等位基因比率分別是83.7%和84.4%, 接近15%~85%閾值之外. 上述結(jié)果表明, 針對(duì)二代測序數(shù)據(jù)判定SNP基因型選取15%~85%作為閾值, 無論純合子或者雜合子的準(zhǔn)確性都達(dá)到了99.6%, 難以判斷的數(shù)據(jù)只是過低的測序深度(<5X)和極度接近閾值邊緣的數(shù)據(jù), 顯示了該閾值的準(zhǔn)確性和適用性.
2.3 SNP位點(diǎn)等位基因比率
對(duì)19個(gè)SNP位點(diǎn)分型的二代測序數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,如2.2節(jié)描述, 610個(gè)(99.6%)雜合子的等位基因比率在15%~85%, 1 105個(gè)(99.6%)純合子等位基因比率在15%~85%之外, 將上述純合子和雜合子具體到每個(gè)SNP位點(diǎn)分析.SNP位點(diǎn)等位基因比率如圖5所示.
圖5 SNP位點(diǎn)等位基因比率Fig.5 The allelic ratio of SNP loci
由圖5(a)可知,每個(gè)SNP位點(diǎn)的雜合子等位基因比率分布有偏差, 19個(gè)SNP位點(diǎn)中有16個(gè)(84%)SNP位點(diǎn)的雜合子偏差集中在40%~60%, 另外3個(gè)SNP位點(diǎn)在20%~80%.與之相對(duì)的, 19個(gè)SNP位點(diǎn)中純合子無明顯偏差(見圖5(b)).不同SNP位點(diǎn)的雜合子等位基因比率有明顯差異, 但是每一個(gè)SNP位點(diǎn)內(nèi)等位基因偏差較小.其中最大偏差位點(diǎn)為rs140489, 從27.2%至100%, 相差72.8%;相對(duì)地, 最小偏差為位點(diǎn)rs3739470, 從19.3%至24.8%, 相差5.5%(見表2).
表2 SNP位點(diǎn)等位基因比率偏差
圖5顯示每個(gè)SNP位點(diǎn)內(nèi)雜合子偏差和純合子偏差有明顯區(qū)別, 利用該差異并結(jié)合2.2節(jié)所描述的分型閾值,可以對(duì)極度接近閾值邊緣的位點(diǎn)做進(jìn)一步分析,以便提高SNP分型的準(zhǔn)確性.如2.2節(jié)所述, 針對(duì)等位基因比率15%~85%的閾值, 612個(gè)雜合子有2個(gè)數(shù)據(jù)偏離. 其中一個(gè)數(shù)據(jù)為rs140489, 等位基因比率100%, 去除該數(shù)據(jù)后, 該SNP位點(diǎn)雜合子等位基因偏差范圍從27.2%~100%降低到27.2%~66.7%, 偏差原因是位點(diǎn)測序深度過低(2X), 導(dǎo)致等位基因測序缺失;另外一個(gè)數(shù)據(jù)為rs3739470, 該數(shù)據(jù)測序深度為47X, 等位基因偏差為14.9%, 按照15%~85%的閾值, 該位點(diǎn)被錯(cuò)誤地判斷為純合子.通過等位基因比率結(jié)合聚類分析可以糾正疑似位點(diǎn)的錯(cuò)誤判讀. SNP位點(diǎn)等位基因比率偏差如表2所示, 由表2可知, SNP位點(diǎn)rs3739470的純合子偏差在98.1%~100%, 雜合子偏差在14.9%~24.9%, 可以判斷14.9%的偏差仍為雜合子.同樣的, 針對(duì)1 109個(gè)純合子中偏離的4個(gè)數(shù)據(jù), 其中兩個(gè)數(shù)據(jù)測序深度為5X, 偏差原因是測序深度太低, 導(dǎo)致隨機(jī)測序錯(cuò)誤引入引起等位基因劇烈變化.另外兩個(gè)(rs5754217和rs3093024)測序深度>40X,其雜合子偏差分別在39.5%~68.0%和33.3%~61.1%;而純合子偏差分別是83.7%~100%和84.4%~100%. 按照2.2節(jié)所述閾值, 偏差83.7%和84.4%的位點(diǎn)為雜合子, 但結(jié)合表2中雜合子和純合子的分布差異, 可以判斷這兩個(gè)點(diǎn)為純合子.因此, 當(dāng)測序深度≥6X, 利用15%~85%的閾值結(jié)合聚類分析, 對(duì)二代數(shù)據(jù)進(jìn)行SNP分型的準(zhǔn)確度可以達(dá)到100%.
采用二代測序技術(shù)對(duì)SNP進(jìn)行分型時(shí), 利用15%~85%的經(jīng)驗(yàn)性閾值判斷SNP是準(zhǔn)確而便捷的, 但是雜合子位點(diǎn)等位基因比率有時(shí)會(huì)偏離但接近閾值, 原因是由于該SNP位點(diǎn)周圍空間構(gòu)象等問題導(dǎo)致引物結(jié)合偏好性不同, 或者SNP位點(diǎn)序列特異導(dǎo)致PCR擴(kuò)增偏好, 從而引起等位基因偏好擴(kuò)增[7, 15-16].這些SNP位點(diǎn)中雜合子等位基因比率會(huì)偏離閾值, 針對(duì)這些偏離但接近閾值的位點(diǎn), 必須結(jié)合聚類分析才能進(jìn)行準(zhǔn)確的SNP分型.
本文利用三輪PCR針對(duì)91個(gè)樣本進(jìn)行19個(gè)SNP位點(diǎn)的擴(kuò)增, 將擴(kuò)增產(chǎn)物進(jìn)行二代測序檢測.測序結(jié)果顯示1 721個(gè)擴(kuò)增子被成功捕獲.1 721個(gè)擴(kuò)增子的基因型以LDR的基因分型結(jié)果作為標(biāo)準(zhǔn)結(jié)果, 同時(shí)利用二代測序數(shù)據(jù)計(jì)算1 721個(gè)擴(kuò)增子的等位基因的比率, 兩者數(shù)據(jù)結(jié)合分析確定了二代測序數(shù)據(jù)判定SNP基因型的閾值和方案.結(jié)果顯示: 測序深度≥6X, 等位基因比率在15%~85%的為雜合子, 反之為純合子, 其準(zhǔn)確度為99.6%.但該閾值具有一定的局限性, 當(dāng)雜合子或者純合子的等位基因比率接近閾值邊緣時(shí)難以準(zhǔn)確判定, 解決方案是針對(duì)該位點(diǎn)進(jìn)行聚類分析從而進(jìn)行清晰的SNP分型.本文成功地提出了一個(gè)準(zhǔn)確、經(jīng)驗(yàn)性的針對(duì)二代測序進(jìn)行SNP分型的閾值, 同時(shí)利用聚類分析方案作為SNP分型閾值的補(bǔ)充, 有效地提高了對(duì)易出錯(cuò)位點(diǎn)判讀的準(zhǔn)確率.本文研究結(jié)果是利用二代測序技術(shù)對(duì)大規(guī)模樣本進(jìn)行SNP分型應(yīng)用的重要補(bǔ)充.
[1] SHAVRUKOV Y, SUCHECKI R, ELIBY S, et al. Application of next-generation sequencing technology to study genetic diversity and identify unique SNP markers in bread wheat from Kazakhstan[J]. BMC Plant Biology, 2014, 14: 258.
[2] SYVANEN A C. Accessing genetic variation: genotyping single nucleotide polymorphisms[J]. Nature Reviews Genetics, 2001, 2(12): 930-942.
[3] MARDIS E R. The impact of next-generation sequencing technology on genetics[J]. Trends in Genetics, 2008, 24(3): 133-141.
[4] SCHUSTER S C. Next-generation sequencing transforms today’s biology[J]. Nature Methods, 2008, 5(1): 16-18.
[5] GNIRKE A, MELNIKOV A, MAGUIRE J, et al. Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencing[J]. Nature Biotechnology, 2009, 27(2): 182-189.
[6] TEWHEY R, WARNER J B, NAKANO M, et al. Microdroplet-based PCR enrichment for large-scale targeted sequencing[J]. Nature Biotechnology, 2010, 28(2): 1025-1031.
[7] LEPROUST E. Target enrichment strategies for next generation sequencing[J]. Mlo Medical Laboratory Observer, 2012, 44(6): 111-118.
[8] MOKRY M, FEITSMA H, NIJMAN I J, et al. Accurate SNP and mutation detection by targeted custom microarray-based genomic enrichment of short-fragment sequencing libraries[J]. Nucleic Acids Research, 2010, 38(10): e116.
[9] LI R, LI Y, FANG X, et al. SNP detection for massively parallel whole-genome resequencing[J]. Genome Research, 2009, 19(6): 545-552.
[10] BOLAND J F, CHUNG C C, ROBERSON D, et al. The new sequencer on the block: Comparison of Life Technology’s Proton sequencer to an Illumina HiSeq for whole-exome sequencing[J]. Human Genetics, 2013, 132(10): 1153-1163.
[11] CONSORTIUM T 1 G P, ALTSHULER D L, DURBIN R M, et al. A map of human genome variation from population-scale sequencing[J]. Nature, 2010, 467(7319): 1061-1073.
[12] 王樂, 葉健, 白雪, 等. 二代測序技術(shù)及其在法醫(yī)遺傳學(xué)中的應(yīng)用[J]. 刑事技術(shù), 2015(5): 353-358.
[13] NIELSEN R, PAUL J S, ALBRECHTSEN A, et al. Genotype and SNP calling from next-generation sequencing data[J]. Nature Reviews Genetics, 2011, 12(6): 443-451.
[14] ROBASKY K, LEWIS N E, CHURCH G M. The role of replicates for error mitigation in next-generation sequencing[J]. Nature Reviews Genetics, 2014, 15(1): 56-62.
[15] QUINLAN A R, MARTH G T. Primer-site SNPs mask mutations.[J]. Nature Methods, 2007, 4(3): 192-192.
[16] MERTES F, ELSHARAWY A, SAUER S, et al. Targeted enrichment of genomic DNA regions for next-generation sequencing[J]. Briefings in Functional Genomics, 2011, 10(6): 374-386.
(責(zé)任編輯: 楊 靜)
SNP Genotyping Based on Next Generation Sequencing Data
CHENKea,LIKaib,ZHOUYuxunb,XIAOJunhuab
(a. School of Environmental Science and Engineering; b. Institute of Biological Sciences and Biotechnology, Donghua University, Shanghai 201620, China)
The next generation sequencing data were compared with ligase detection reaction(LDR) data to determine the empirical cut-off thresholds of next generation sequencing data for single nucleotide polymorphism (SNP) calling. The 19 loci from 91 human genomic DNA were amplified with multiplex polymerase chain reaction(multiplex PCR). Then, all the amplicons were sequenced in a single run on Ion torrent PGM platform.With LDR genotyping data, the empirical cut-off thresholds of next generation sequencing data for SNP calling were that sequencing depth was ≥6X and heterozygote ratio was fell in 15%-85%. Application of this method was able to accurately determine 99.6% of SNPs, but was failed to judge the data closed edge of the cut-off thresholds. Combining with clustering analysis could solve this problem for increasing the accuracy to 100%. The results of research provided an accurate, fast and empirical threshold for the next generation sequencing for single nucleotide polymorphism calling.
single nucleotide polymorphism(SNP); next generation sequencing; multiplex polymerase chain reaction(multiplex PCR)
1671-0444 (2017)03-0370-07
2016-05-17
國家自然科學(xué)基金面上資助項(xiàng)目(31371257);上海市科委關(guān)鍵資助項(xiàng)目(14140900502)
陳 科(1988—),男,河南焦作人,博士研究生,研究方向?yàn)楹怂釞z測新技術(shù). E-mail: ck20dyj@163.com 肖君華(聯(lián)系人),男,教授,E-mail:xiaojunhua@dhu.edu.cn
Q 446
A