宗奕岑,胡承,賈偉平
上海交通大學(xué)附屬第六人民醫(yī)院,上海市糖尿病研究所,上海市糖尿病重點實驗室,上海 200233
DNA測序技術(shù)誕生于20世紀(jì)70年代,發(fā)展至今已40余年。從第一代基于Sanger法的DNA測序技術(shù)到第二代高通量測序(又稱下一代測序,next generation sequencing, NGS),再到第三代單分子測序,乃至最新的第四代固態(tài)納米測序,測序技術(shù)發(fā)展迅猛并不斷變革,測序通量和精確度不斷改善,測試時長不斷縮短。目前,第二代短讀長測序技術(shù)在全球測序市場上仍占據(jù)優(yōu)勢位置,而第三代和第四代測序技術(shù)近幾年在腫瘤、免疫等領(lǐng)域飛速發(fā)展。測序技術(shù)的每一次變革,都對疾病的病因機制研究和藥物研發(fā)等產(chǎn)生巨大的推動作用。
隨著人類基因組計劃的完成,其他物種生物的基因組信息也逐漸清晰。研究已發(fā)現(xiàn)不同物種間的基因差別僅為1 %,且主要集中在外顯子區(qū)域。外顯子作為DNA中的重要功能序列,包含了合成蛋白質(zhì)所需的全部信息,是基因發(fā)揮其功能最直接的體現(xiàn)。人類外顯子組序列僅占人類整個基因組序列的1 %(約30 Mb、18萬個外顯子),卻涵蓋了與個體表型/疾病相關(guān)的大部分功能變異,包含了約85%的致病突變[1-2]。全外顯子組測序(whole-exome sequencing, WES)是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進行高通量測序的基因組分析方法,相較于全基因組測序來說,更加簡便、高效、經(jīng)濟,且具有更高的覆蓋度。在臨床診療疾病的應(yīng)用中,WES不僅可以加快確定單基因突變疾病致病基因,從而明確臨床診斷,而且對于多基因復(fù)雜疾病如糖尿病、肥胖、腫瘤等致病基因的發(fā)現(xiàn)和易感基因的定位亦具有巨大推動作用[3-4]。本文將圍繞全外顯子組測序技術(shù)及其在糖尿病分子病因機制、臨床預(yù)警診療等方面的應(yīng)用進行系統(tǒng)闡述。
WES通過外顯子組的捕獲富集、高通量測序和生物信息學(xué)分析這三個主要步驟,最終定位潛在致病基因/位點。
外顯子區(qū)域DNA富集,需要將基因組DNA隨機打斷成200~300 bp的小片段,進行DNA片段末端修復(fù),5'端加磷酸基團,3'端加PloyA尾,經(jīng)過PCR擴增后形成完整的文庫。隨后將這些DNA片段與捕獲芯片上的引物雜交,分離出引物-DNA復(fù)合物,然后洗掉未雜交的DNA片段,將雜交的DNA片段洗脫,得到富集的目標(biāo)片段[5-6]。最后將目標(biāo)片段連接成長鏈DNA,再次隨機打斷并在其兩端連接上測序接頭,用與接頭相匹配的序列為引物進行PCR擴增,經(jīng)質(zhì)量檢測合格后的外顯子組文庫即可上機測序(圖1)。目前用于外顯子組捕獲的平臺主要有Agilent公司的SureSelect Human All Exon 50mb、Illumina公司的TruSeq Exome Enrichment、Roche/NimbleGen公司的SeqCap EZ Exome Library2.0。2011年,美國斯坦福大學(xué)醫(yī)學(xué)院對這三個平臺進行了綜合評估,認(rèn)為:從檢出變異體的數(shù)量角度來看,NimbleGen平臺相較于其他兩種平臺覆蓋了較少的基因組區(qū)域,但通過較少測序可以靈敏地檢出小變異,而另外兩者可以捕獲更多變異體;從捕獲區(qū)域方面來看,NimbleGen探針覆蓋到多次捕獲的堿基上是三者中密度最高的平臺,Agilent探針以緊密相連的方式覆蓋整個外顯子區(qū),而Illumina基于paried-endreads,將覆蓋區(qū)域擴大到探針序列以外,且覆蓋這些間隔區(qū)域,因此能捕獲非翻譯區(qū)序列;從測序深度方面分析,NimbleGen可以富集到更多的目標(biāo)堿基,Illumina和Agilent在更多的reads數(shù)量情況下可富集更多的目標(biāo)堿基。也就是說:高密度探針設(shè)計捕獲較少的目標(biāo)堿基,有更高的變異檢出效率;而低密度探針可捕獲更多的堿基,但需要更深度的測序。
圖1 WES流程簡圖
高通量測序技術(shù)原理是邊合成邊測序,將片段化的基因組DNA兩側(cè)接上通用的測序接頭,形成眾多PCR單克隆陣列并進行獨立的PCR反應(yīng),用不同顏色的熒光標(biāo)記4種不同的dNTP,反應(yīng)時每添加一種dNTP就會釋放不同熒光,捕獲并檢測熒光信號獲得待測DNA序列[7]。隨著測序技術(shù)的發(fā)展,第三代單分子測序儀不需要構(gòu)建DNA文庫,而是基于納米孔的單分子實時測序技術(shù),測序通量高,測序讀長較長,更有利于基因組的拼接,但缺點是錯誤率較高,需要加大測序深度確保更好的測序精度。目前高通量測序公司主要有Roche 454焦磷酸測序、Illumina Solexa 合成測序及ABI SOLiD連接法測序。相較而言,Illumina Solexa合成測序通量更高,樣本量更少,精確性更好,且成本更低,因此適用更加廣泛[8]。
WES數(shù)據(jù)的分析具有一定的挑戰(zhàn)性,需要進行大規(guī)模的數(shù)據(jù)處理,很多分析過程及文件的處理只能使用高性能的計算機和編程語言來實現(xiàn)。分析流程主要包括數(shù)據(jù)質(zhì)量評估、變異篩選、功能預(yù)測、對結(jié)果的解釋,以及用適當(dāng)?shù)男问匠尸F(xiàn)。具體步驟為:測序后首先進行堿基識別(Fastq格式),通過去除接頭序列,低質(zhì)量、長度太短的reads等一系列的質(zhì)量控制,將過濾后的數(shù)據(jù)與參考序列(Fasta格式)進行比對,通常需要指定測序靶標(biāo)區(qū)域;得到組裝后SAM/BAM格式文件后,再以BAM文件為基礎(chǔ),鑒定核苷酸變異(VCF格式)信息。WES目前已經(jīng)廣泛應(yīng)用于檢測遺傳變異,為研究疾病的遺傳關(guān)聯(lián)、人類的多樣性和種群歷史提供了重要的線索。然而,所有這些研究都依賴于對真陽性變異的準(zhǔn)確檢測和對測序錯誤、低等位基因分?jǐn)?shù)或較低的測序深度導(dǎo)致的假陽性變異的有效排除。GATK(Genome Analysis Toolkit)是目前檢測基因變異最常用的軟件之一,對于數(shù)據(jù)質(zhì)量的保證高度重視,功能強大且適用于各種規(guī)模的數(shù)據(jù)。通常,得到的原始變異結(jié)果中包含有大量的假陽性變異,過濾方法主要有兩種:一種是設(shè)置參數(shù)直接過濾,另一種是使用 GATK的VQSR(突變質(zhì)量重矯正)。使用VQSR的前提是數(shù)據(jù)量至少為 30個WES數(shù)據(jù),GATK建議使用VQSR。然后利用公共數(shù)據(jù)庫(dbSNP150、1000 genome、ExAc、ESP6500等)對過濾后的突變進行注釋,得到突變頻率信息。通過去除人群中常見的變異位點,再結(jié)合一些功能注釋軟件,如Polyphen2、SIFT、M-CAP及CADD分?jǐn)?shù)等對過濾后的變異進行蛋白功能影響預(yù)測,篩選出候選基因,通過分子生物學(xué)和功能實驗驗證,最終找到致病基因。
WES基于其高特異性、高準(zhǔn)確性和高覆蓋度的優(yōu)點,不僅廣泛應(yīng)用于孟德爾遺傳病分子病因的解析,在復(fù)雜疾病如糖尿病、肥胖和癌癥等疾病易感基因的識別方面亦發(fā)揮了巨大作用。無論是單基因疾病致病基因的定位,還是多基因復(fù)雜并易感基因的識別,都需要檢測大量的基因變異,一代測序無疑是研究的瓶頸,而WES則通過提高測序深度就能夠準(zhǔn)確大量快速地獲得所需要的數(shù)據(jù)。
大多單基因突變糖尿病,如青少年發(fā)病的成人型糖尿病(MODY)、新生兒糖尿病(NDM)都符合孟德爾遺傳定律。由于明確的基因型/表型相關(guān)性,解析孟德爾遺傳病的分子病因成為理解特定基因如何導(dǎo)致特定疾病及特殊表型的寶貴工具。孟德爾糖尿病的遺傳學(xué)研究在識別與發(fā)病機制有關(guān)的基因方面取得了顯著成功,定位了包括影響胰島素分泌(ABCC8、GCK、INS、KCNJ11)及胰腺發(fā)育的重要轉(zhuǎn)錄因子(HNF1A、HNF4A、PDX1、PTF1A)。隨著基因測序技術(shù)的不斷發(fā)展,越來越多的符合孟德爾遺傳方式的單基因糖尿病的分子病因被準(zhǔn)確解析,如Bonnefond等[9]通過對糖尿病家系的全外顯子組分析,發(fā)現(xiàn)KCNJ11基因突變Glu227Lys在家系中與糖尿病共分離,由此確認(rèn)了KCNJ11是該糖尿病家系致病基因,并定位了新的MODY亞型MODY13。此外,De Franco等人對一組胰腺發(fā)育不全的患者的先證者進行WES,定位到GATA6基因上的新突變,隨后擴大樣本量在更多的胰腺發(fā)育不全的患者中進行GATA6基因區(qū)域靶向測序,發(fā)現(xiàn)了該基因區(qū)域更多的非同義突變,隨訪研究證實GATA6基因突變攜帶者均患有不同程度的胰腺發(fā)育障礙和成年發(fā)病的糖尿病,但并不伴隨外分泌腺功能障礙[10-11]。該研究通過WES不僅證實了GATA6突變是胰腺發(fā)育不全的致病原因,還提示了該基因在胰腺發(fā)育中的重要作用。對于單基因糖尿病分子病因的解析不僅可以明確患者診斷,還有助于實現(xiàn)個體化治療。例如,由編碼KATP通道亞基的基因(如KCNJ11、ABCC8)上發(fā)生的突變而導(dǎo)致的糖尿病,這部分患者可直接應(yīng)用作用靶點在KATP通道的磺脲類藥物精準(zhǔn)控制血糖,而不需要幾藥聯(lián)合或胰島素治療[12]。
近10年,基于“常見變異-常見疾病”的理論模型,國際上通過全基因組關(guān)聯(lián)研究(GWAS)已經(jīng)發(fā)現(xiàn)了100余個2型糖尿病(type 2 diabetes, T2D)易感基因,但集結(jié)所有遺傳變異的效應(yīng),也只能解釋T2D 10%~15%的遺傳度,也就是說,仍有很多易感基因/變異未被發(fā)現(xiàn),用于解釋所謂丟失的遺傳度(missing heritability)。盡管高密度SNP芯片也可以檢測一些低頻和罕見的變異,但芯片的固定位點僅限于檢測已知序列的變異。高通量測序卻可以發(fā)現(xiàn)新的疾病的易感基因或者外顯子區(qū)域可以導(dǎo)致復(fù)雜形狀的編碼變異。一項研究通過對糖尿病易感基因KCNJ11和HHEX的重新測序發(fā)現(xiàn)了在該基因區(qū)域內(nèi)的罕見變異對糖尿病的發(fā)生貢獻度較高[13],由此,有研究者們提出了“罕見變異-常見疾病”的模型假設(shè)。但罕見變異對于復(fù)雜疾病T2D的貢獻度到底有多大目前仍具爭議。Albrechtsen等[14]基于WES技術(shù)對1 000例具有代謝異常的患者(包含T2D、肥胖和高血壓)和1 000例正常對照人群進行測序,發(fā)現(xiàn)COBLL1和MACF1基因常見變異與T2D顯著相關(guān)。Lohmueller等[15]在2 000例丹麥糖尿病病例對照人群中進行WES,但并未發(fā)現(xiàn)與T2D顯著相關(guān)的罕見變異。這兩項研究表明,在一般人群中,少數(shù)基因的罕見編碼變異在T2D的遺傳基礎(chǔ)中似乎并未起到主要作用。研究者們推測當(dāng)聚集在少數(shù)基因中時,中到強效應(yīng)的罕見編碼變異不太可能解釋大部分缺失的遺傳性。如果罕見的編碼變異是T2D風(fēng)險的一個重要因素,它們很可能分散在許多基因上。但是,來自于糖尿病遺傳高風(fēng)險種族的數(shù)據(jù)卻比較令人振奮。一項對Pima印第安人的WES研究發(fā)現(xiàn)(N=177),CYB5A(編碼酯酰輔酶A脫氫酶)和RNF10基因(功能不明)與美國印第安人群肥胖和T2D風(fēng)險顯著相關(guān)[16]。另一項來自于SIGMA type 2 consortium的大型國際合作研究對來自于墨西哥和美國拉丁裔的3 756例受試者開展WES(1794 例T2D,1 962例正常對照),發(fā)現(xiàn)胰腺轉(zhuǎn)錄因子肝細胞核因子1A(HNF1A)基因與T2D顯著相關(guān),其編碼區(qū)變異p.E508K可增加T2D發(fā)生風(fēng)險5倍以上。該變異在糖尿病患者中頻率為2.1%,而在正常人群中僅為0.36%。有趣的是,隨后的多種族驗證發(fā)現(xiàn)該變異僅存在于拉丁裔人群中,進一步機制研究亦證實突變體導(dǎo)致HNF-1A下游靶基因轉(zhuǎn)錄活性下降,從而導(dǎo)致糖代謝異常[17]。這兩項研究是應(yīng)用WES解析T2D這種復(fù)雜疾病分子病因的初步嘗試,盡管存在一些局限,但仍為定位T2D易感基因提供了新的方向。最近,全球百余名遺傳學(xué)者聯(lián)合在《自然》雜志公布了目前全球最大的T2D的全外顯子組測序結(jié)果(涉及約4.5萬病例/對照人群:20 791例2型糖尿病患者及24 440例正常糖調(diào)節(jié)人群),研究者希望能夠通過全外顯子組的大數(shù)據(jù)發(fā)現(xiàn)影響疾病風(fēng)險的編碼蛋白質(zhì)的遺傳變異,為疾病發(fā)病機制提供相關(guān)線索。研究者對來自5個不同種族(西班牙裔、歐裔、非裔美國、東亞及南亞人群)的4萬余例人群開展全外顯子組測序,發(fā)現(xiàn)MC4R、PAM、SLC30A8和UBE2NL這4個基因與T2D顯著相關(guān),其中UBE2NL基因是新發(fā)現(xiàn)的T2D相關(guān)基因。隨后研究者還比較了WES與GWAS對T2D的解析度,發(fā)現(xiàn)從GWAS中選取的與T2D最為相關(guān)的前100個基因信號在本研究人群中僅解釋了1.96%的遺傳變異度,而由WES發(fā)現(xiàn)的T2D最強罕見變異信號,可解釋25%的由GWAS發(fā)現(xiàn)的最強常見變異導(dǎo)致T2D的遺傳度[18]。
隨著測序通量的不斷加深及技術(shù)的不斷普及,基因組范圍的測序不僅對于認(rèn)識糖尿病的病理生理機制具有重要意義,還有利于糖尿病的精準(zhǔn)診斷和個體化治療,并有望發(fā)現(xiàn)新的藥物靶點。未來通過GWAS、二代甚至是三代測序可能會發(fā)現(xiàn)成百上千個糖尿病相關(guān)變異。對于性狀復(fù)雜的T2D來說,GWAS發(fā)現(xiàn)的常見變異與WES的罕見變異對于揭示T2D的遺傳特點仍具有互補性,前者有利于新基因新位點的發(fā)現(xiàn),而后者則側(cè)重于挖掘新基因新位點的潛在信息。此外,對于臨床醫(yī)生所關(guān)注的T2D精準(zhǔn)醫(yī)療來說,外顯子測序可以產(chǎn)生一些具有足夠效應(yīng)的罕見變異,并對T2D遺傳風(fēng)險預(yù)測提供一定貢獻度。然而,在目前已知的T2D藥物靶點基因中發(fā)現(xiàn)的罕見變異,其對于疾病的效應(yīng)需要樣本量高達75 000~185 000個測序方可達到全外顯子組的統(tǒng)計學(xué)效力,因此,在實際人群中,由外顯子組測序發(fā)現(xiàn)的罕見變異需要和由GWAS所產(chǎn)生的多基因位點評分共同參與評估疾病的風(fēng)險和個體化治療效果。