盧宇++袁慧軍
利用Sanger測(cè)序技術(shù),2001年人類基因組計(jì)劃花費(fèi)13年耗資近30億美元完成了第一個(gè)人類全基因組測(cè)序;自2004年新一代測(cè)序平臺(tái)商業(yè)化以來,人類全基因組測(cè)序已經(jīng)實(shí)現(xiàn)從2-3個(gè)月低于1萬美元下降到今天3天1千美元的大規(guī)模商業(yè)化服務(wù)。革命性的技術(shù)進(jìn)步帶來了遺傳學(xué)和其他相關(guān)學(xué)科的快速發(fā)展,特別是大規(guī)模平行測(cè)序的應(yīng)用,已經(jīng)不局限于基礎(chǔ)研究,開始了臨床分子診斷領(lǐng)域的應(yīng)用。對(duì)于遺傳性疾病,最直接的鑒定致病原因的方法是直接對(duì)已知致病基因進(jìn)行測(cè)序。對(duì)于一些表型復(fù)雜的遺傳性疾病或罕見病,NGS能夠提供疾病相關(guān)的基因信息,利用測(cè)序信息集合臨床特征可對(duì)相關(guān)遺傳性疾病做出正確的診斷。Yang等人報(bào)道了對(duì)250例疑似遺傳性疾病患者進(jìn)行全外顯子組測(cè)序,25%的病例通過生物信息學(xué)分析鑒定了致病基因,明確了臨床診斷[1]。
新一代測(cè)序技術(shù)簡(jiǎn)介
由于全基因組測(cè)序的費(fèi)用在短時(shí)間內(nèi)很難下降到與目標(biāo)區(qū)域測(cè)序相當(dāng),在數(shù)據(jù)分析方面也不及目標(biāo)區(qū)域測(cè)序簡(jiǎn)便,目標(biāo)區(qū)域測(cè)序更適合以臨床應(yīng)用為目的獲得高深度的測(cè)序數(shù)據(jù);更重要的是,目前公認(rèn)大部分功能變異都位于基因的外顯子序列中[2]。
目標(biāo)區(qū)域測(cè)序主要包括目標(biāo)區(qū)域的捕獲富集、DNA短片斷測(cè)序、生物信息學(xué)分析3個(gè)主要步驟。目標(biāo)區(qū)域捕獲技術(shù)主要包括以NimbleGen為代表的固相靶向序列捕獲系統(tǒng)和以SureSelect為代表的液相靶向序列捕獲系統(tǒng)[3-4],兩種方法具有高準(zhǔn)確性、高特異性、高覆蓋度和卓越的可重復(fù)性,而且可以按需設(shè)計(jì)、定制方便,在NGS應(yīng)用中取得了廣泛的應(yīng)用[5]。
大規(guī)模平行測(cè)序數(shù)據(jù)分析
測(cè)序短片段序列篩選及定位:不同的測(cè)序技術(shù)和生物信息學(xué)分析獲得的測(cè)序結(jié)果差異非常大[6-11],正確認(rèn)識(shí)和理解新一代測(cè)序技術(shù)各個(gè)環(huán)節(jié)可能出現(xiàn)的錯(cuò)誤和偏倚,才能在數(shù)據(jù)分析中獲得完整準(zhǔn)確的結(jié)果,為臨床分子診斷提供可靠的依據(jù)。短片斷序列的定位不僅可以通過聯(lián)配為比對(duì)獲得SNV和indel提供基礎(chǔ),更可以在此之前對(duì)數(shù)據(jù)進(jìn)行再次質(zhì)控和篩選。SAMtools或Picard等軟件可以根據(jù)短片序列在基因組中定位去除重復(fù)的測(cè)序序列,特別是在目標(biāo)區(qū)域捕獲富集中PCR擴(kuò)增導(dǎo)致的重復(fù)片段。測(cè)序平臺(tái)直接提供的堿基質(zhì)量值在一定程度上提示該堿基的錯(cuò)誤率,但是往往和真實(shí)的錯(cuò)誤率有明顯偏差[12],短片短序列的定位同時(shí)也對(duì)質(zhì)量值提供了更精確的再次校準(zhǔn)。短片段序列通過與參考基因組序列的比對(duì)確定每個(gè)位點(diǎn)的基因型,從而找到樣本DNA中的變異。人類基因組之間存在約0.1%的差異,因此即使目標(biāo)區(qū)域測(cè)序也會(huì)在比對(duì)后得到至少上千個(gè)SNV/indel,也無法驗(yàn)證基因型是否準(zhǔn)確,但是比對(duì)結(jié)果的統(tǒng)計(jì)分析可以作為質(zhì)控的重要篩選標(biāo)準(zhǔn)[13]。目前序列比對(duì)方法對(duì)于indel的判斷差異較大,具體分析過程中往往依賴于定位區(qū)域內(nèi)短片段序列的重復(fù)比對(duì),而更大片段的變異,如拷貝數(shù)變異,則更依賴于樣品間的測(cè)序深度均一性比較。
候選SNV/indel注釋:通過一系列的數(shù)據(jù)分析過程,NGS獲得數(shù)以千計(jì)的候選變異,但是其中可能只有一個(gè)或幾個(gè)是真正的致病突變,生物信息學(xué)的篩選除了依賴于這些候選變異的準(zhǔn)確性,更重要的是根據(jù)基因組學(xué)大量的數(shù)據(jù)庫信息提供每個(gè)變異詳細(xì)的注釋信息以供分類和篩選。候選SNV/indel在基因組中的位置是首先要考慮的注釋內(nèi)容。人類基因組數(shù)據(jù)庫RefSeq、UCSC、Ensembl等對(duì)于已知基因位置的注釋存在差異,例如Ensembl的注釋條目是RefSeq的4倍以上,更詳細(xì)的注釋可以提高檢測(cè)的敏感度,但其中可能存在一些未被確認(rèn)的信息,造成注釋特異度相對(duì)的降低,甚至是假陽性。對(duì)候選SNV/indel致病可能性進(jìn)行評(píng)估是突變功能性篩選的主要依據(jù)。大多數(shù)估計(jì)變異致病性的方法是比較各個(gè)物種之間這個(gè)位點(diǎn)是否被自然選擇保留下來,即保守性分析。預(yù)測(cè)蛋白水平改變致病性的方法能夠提供進(jìn)化和生物化學(xué)等多方面的信息。無義突變和移碼突變通常認(rèn)為導(dǎo)致蛋白功能的缺失,因此作為致病突變的候選[14],但是其致病性并不是絕對(duì)的[15]。
候選SNV/indel篩選及樣本信息注釋:候選SNV/indel的篩選根據(jù)測(cè)序平臺(tái)、序列堿基和定位質(zhì)量值、變異在群體中的頻率、注釋信息等多方面因素,考慮具體的臨床分子診斷應(yīng)用,設(shè)置合理的標(biāo)準(zhǔn)。對(duì)于臨床分子遺傳學(xué)診斷,需要在測(cè)序方法的設(shè)計(jì)和數(shù)據(jù)分析的設(shè)置上對(duì)于特異性和敏感性有更高的要求,同時(shí)也對(duì)運(yùn)算速度和操作的便捷性有較高的要求,因此開源的工作流管理系統(tǒng)Galaxy、Taverna等可能更適合于個(gè)性化整合現(xiàn)有的生物信息學(xué)軟件并設(shè)置專有的篩選參數(shù)進(jìn)行遺傳性疾病的研究和臨床分子生物學(xué)診斷。患者的表型和遺傳背景信息是確定分子遺傳學(xué)診斷的重要依據(jù),患者的種族等遺傳背景在變異篩選過程中也需要加以區(qū)別。在臨床分子診斷中,通過初步候選獲得疑似致病的變異與已知突變是否一致是篩選的首要標(biāo)準(zhǔn),其次是該變異所在基因與已知致病基因的一致性。
大規(guī)模平行測(cè)序?qū)τ诿系聽栠z傳疾病的臨床分子診斷應(yīng)用仍然處于探索階段,目前并無統(tǒng)一的規(guī)范和標(biāo)準(zhǔn),獲取大量未知信息的意義也無法全部闡明,相關(guān)的醫(yī)學(xué)倫理學(xué)也是一個(gè)全新的問題,但是不可否認(rèn),新一代測(cè)序平臺(tái)是一個(gè)劃時(shí)代的技術(shù)革新,伴隨而來的是分子診斷領(lǐng)域全新的時(shí)代,值得我們?cè)谶@條道路上繼續(xù)探索前行。
參考文獻(xiàn)
[1]Yang Y,et al.Clinical whole-exome sequencing for the diagnosis of mendelian disorders.N Engl J Med,2013,369(16):1502-1511.
[2]Botstein D.and N.Risch,Discovering genotypes underlying human phenotypes:past successes for mendelian disease,future approaches for complex disease.Nat Genet,2003,33(Suppl):228-237.
[3]Kahvejian AJ.Quackenbush,and J.F.Thompson,What would you do if you could sequence everything?Nat Biotechnol,2008,26(10):1125-1133.
[4]Gnirke A,et al.Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencing.Nat Biotechnol,2009,27(2):182-189.
[5]Clark MJ,et al.Performance comparison of exome DNA sequencing technologies.Nat Biotechnol,2011,29(10):908-914.
[6]Choi M,et al.Genetic diagnosis by whole exome capture and massively parallel DNA sequencing.Proc Natl Acad Sci U S A,2009,106(45):19096-19101.
[7]Erlich Y,et al.Exome sequencing and disease-network analysis of a single family implicate a mutation in KIF1A in hereditary spastic paraparesis.Genome Res,2011,21(5):658-664.
[8]Manly KFD.Nettleton,and J.T.Hwang,Genomics,prior probability,and statistical tests of multiple hypotheses.Genome Res,2004,14(6):997-1001.
[9]Morton NE.Sequential tests for the detection of linkage.Am J Hum Genet,1955,7(3):277-318.
[10]Ng SB,et al.Exome sequencing identifies the cause of a mendelian disorder.Nat Genet,2010,42(1):30-35.
[11]Ng SB,et al.Targeted capture and massively parallel sequencing of 12 human exomes.Nature,2009,461(7261):272-276.
[12]Altmann A,et al.A beginners guide to SNP calling from high-throughput DNA-sequencing data.Hum Genet,2012,131(10):1541-1554.
[13]Li HJ.Ruan,and R.Durbin,Mapping short DNA sequencing reads and calling variants using mapping quality scores.Genome Res,2008,18(11):1851-1858.
[14]Ng SB,et al.Exome sequencing identifies MLL2 mutations as a cause of Kabuki syndrome.Nat Genet,2010,42(9):790-793.
[15]MacArthur,DG.and C.Tyler-Smith,Loss-of-function variants in the genomes of healthy humans.Hum Mol Genet,2010,19(2):125-130.