王秋權(quán) 黃莎莎 袁永一 康東洋 吳婕 張昕 戴樸
中國人民解放軍總醫(yī)院耳鼻咽喉頭頸外科醫(yī)學部,國家耳鼻咽喉疾病臨床醫(yī)學研究中心,聾病教育部重點實驗室,聾病防治北京市重點實驗室(北京 100853)
人類基因組上存在各種形式的遺傳變異和多態(tài)性,隨著各種基因工程技術(shù)的深入開展,單個核苷酸變異引起的多態(tài)性(Single Nucleotide Polymorphisms,SNPs)的突變機制及其與遺傳性疾病的關聯(lián)性更清晰明了,但其僅能闡明人類疾病復雜遺傳因素的一小部分。越來越多證據(jù)表明,拷貝數(shù)變異(Copy Number Variations,CNVs)可能解釋其余復雜遺傳因素。作為遺傳多樣性的一種普遍形式,CNVs被認為是與參考基因組相比,基因組DNA中大小為幾十個堿基(>50bp)到幾Mb的DNA拷貝數(shù)變異現(xiàn)象,包括基因組重復、缺失、倒置和易位等,其中重復和缺失是最常見的[1]。
早在1959年,Lejeune及團隊就發(fā)現(xiàn)人類基因組中存在長度大于5Mbp的基因變異[2]。2004年Iafrate小組和Sebat團隊分別報道人類基因組中CNVs以多態(tài)性廣泛存在,通過進一步分析發(fā)現(xiàn)其涉及的基因組區(qū)域包含許多參與調(diào)節(jié)細胞生長及代謝等功能的基因,且與多種出生缺陷疾病相關[3,4]。2006年,Redon團隊鑒定出涵蓋360Mbs大小,覆蓋人類基因組全長約12%,共計1447個拷貝數(shù)變異區(qū),并發(fā)布第一代人類基因組CNVs圖譜[5]。千人基因組計劃也已發(fā)現(xiàn)了100萬個短插入或缺失和2萬個CNVs位點[6],這極大程度地擴展了人類對遺傳學領域的認知?;蚪M變異數(shù)據(jù)庫(Database of Genomic Variants,DGV)整理并收錄了現(xiàn)已發(fā)現(xiàn)報道的CNVs數(shù)據(jù),目前發(fā)現(xiàn)CNVs約983845個,所覆蓋的基因組片段占人類基因組的29%以上,遠超SNPs。CNVs突變率大約是SNPs突變率的100~10000倍[7],對基因組遺傳變異的多樣性具有重要意義(詳見表1)。相對SNPs的概念,將人群中等位基因頻率>1%的CNVs定義為基因組拷貝數(shù)多態(tài)(Copy Number Polymorphisms,CNPs),超過90%的CNVs屬于這一類型,而頻率<1%的CNVs稱為罕見CNVs[8]。
表1 CNVs與SNPs的比較Table 1 CNVs versus SNPs
在臨床上常見兩類CNVs:復發(fā)性CNVs和非復發(fā)性CNVs[9]。復發(fā)性CNVs斷裂點常位于包含大量片段重復的固定區(qū)域,所以這類CNVs在不同個體中的情況基本一致,大量的不同臨床表型被證實與復發(fā)性CNVs相關。與之不同,非復發(fā)性CNVs的斷裂點處于特定序列區(qū)域,難獲取準確序列數(shù)據(jù),且微觀同源性較低,在端點連接處具有短插入或鈍端。部分致病性及非致病性CNVs屬于此類。大多數(shù)非復發(fā)性CNVs是簡單的刪除或串聯(lián)重復,但也有一些非常復雜,表現(xiàn)為數(shù)十個事件聚集在單個基因組區(qū)域中[10]。
目前提出的解釋大多數(shù)CNVs形成的機制主要有四種,包括非等位基因同源重組(Nonallelic Homologous Recombination,NAHR),非同源末端連接(Non-homologous End Joining,NHEJ),復制叉停滯和模板轉(zhuǎn)換機制(Fork Stalling and Template Switching,FoSTeS)及反轉(zhuǎn)錄轉(zhuǎn)座子驅(qū)動機制,對幾種主要機制特點及對比詳見表2。
表2 CNVs形成主要機制的特點及比較Table 2 Characteristics and comparison of the main mechanisms of CNVs formation
NAHR是由彼此具有高度同源性的兩個非等位基因DNA序列之間的比對和交叉引起的。據(jù)估計,大約28%的CNV可能通過NAHR形成而來[11],是串聯(lián)重復和缺失的重要來源[12]。NAHR發(fā)生位點的分布存在重組熱點現(xiàn)象,即存在有順式作用基序(motif)“CCNCCNTNNCCNC”的富集[13]。NAHR可在減數(shù)分裂過程中產(chǎn)生帶有CNVs的配子,并可遺傳給后代[14]。
一些結(jié)構(gòu)簡單的CNVs則可能是源自NHEJ。NHEJ是修復哺乳動物細胞DNA雙鏈斷裂(DNA Double Strand Break,DSB)的關鍵機制,當雙鏈斷裂時,如果來自不同染色體的兩個片段連接在一起,就會導致基因缺失和重復。有研究表明,56%的CNVs由NHEJ引起的。其產(chǎn)生的CNVs斷點更集中于重復序列內(nèi)部或周圍,某些可以引起DSB或DNA彎曲的DNA基序(如TTTAAA)附近也比較容易出現(xiàn)CNVs。由于NHEJ發(fā)生時不需要高度同源性的DNA序列反應底物,并可能會有部分堿基插入連接處,這些使其與其他CNVs產(chǎn)生機制有所差異[15]。
2007年Lee通過對基因組重排的觀察,發(fā)現(xiàn)當DNA的復制叉停滯時,滯后鏈將會從模板上脫落,通過微同源序列轉(zhuǎn)到另一個空間位置上接近的復制叉重新開始合成DNA,從而導致拷貝數(shù)刪除或重復,而轉(zhuǎn)換和重新合成可能會連續(xù)發(fā)生多次,導致更復雜的重排,據(jù)此提出了FoSTeS模型。而新復制叉在起始復制叉的上下游決定CNVs的類型[16]。
在人體中,逆轉(zhuǎn)座子可在三個方面上介導CNVs形成。首先,人類基因組中的某些逆轉(zhuǎn)錄轉(zhuǎn)座子仍然活躍,具有多態(tài)性,這些可被認為是CNVs本身[17]。其次,逆轉(zhuǎn)錄轉(zhuǎn)座機制有時會導致加工過的mRNA整合回到基因組中,可能導致基因劑量的增加[18]。最后,逆轉(zhuǎn)座子可能改變?nèi)旧w結(jié)構(gòu)可塑性而促進大片段CNVs的形成[19]。
聽力損失是臨床上最常見的致殘性疾病之一,全球約有4.66億人口因聾致殘,約占全球人口的5%,每1000個新生兒中就有2-3名耳聾或聽力障礙患者,其中大約50%-60%是由遺傳因素引起的[20,21],作為基因組變異的一種重要表現(xiàn)形式,CNVs也在遺傳性耳聾的多基因遺傳研究中越來越多的被發(fā)現(xiàn)。
早在1998年,Laer等人在DNFA5基因座上發(fā)現(xiàn)了一個插入/缺失突變,這是首次報道CNVs導致非綜合征耳聾的文章[22]。2001年,Verpy等人通過候選耳聾基因方法發(fā)現(xiàn)STRC基因存在大片段的刪除[23]。2012年,F(xiàn)rancey等人鑒定出17個STRC基因缺失,發(fā)現(xiàn)大片段CNVs是STRC基因的主要突變類型[24]。據(jù)評估,在日本散發(fā)的明確遺傳因素的中重度感音神經(jīng)性聾患兒中,約1/3與STRC基因CNVs有關[25]。越來越多的研究證實CNVs是遺傳性耳聾的常見原因之一,2014年Richard研究組發(fā)表的第一篇CNVs在遺傳性耳聾的大宗病例報道,發(fā)現(xiàn)在明確分子病因的患者中CNVs參與致病者占18.7%,涉及16個基因的143種CNVs[26]。同年,復旦大學李華偉團隊應用二代測序技術(shù)對79名散發(fā)耳聾患者進行檢測,在27個耳聾基因中發(fā)現(xiàn)了CNVs[27]。
OTOA基因被認為是第二常見的受CNVs影響的耳聾基因,已有近30個在不同種族人群導致聽力損失的OTOA基因缺失CNVs被報道[28]。在綜合征型耳聾基因中也發(fā)現(xiàn)了大量CNVs,如覆蓋EYA1基因的18q13基因片段上發(fā)生的缺失CNVs正是腮耳腎綜合征的病因之一,EYA1基因部分外顯子的重復也可導致此綜合征的發(fā)生[29,30]。此外,至少有50個CNVs發(fā)生在USU2A基因上而導致Usher綜合征[31]。截至目前已有64個耳聾基因被報道發(fā)生CNVs。在雙側(cè)耳聾患者中,20%的致聾基因被鑒定為存在CNVs,15%接受基因檢測的患者攜帶有CNVs[32]。
目前研究表明,人類基因組CNVs并不是隨機分布,近40%的CNVs更傾向分布于基因沙漠區(qū),但仍有大量疾病易感基因或致病基因定位于CNVs區(qū)域,可解釋多達20%的個體異常表型[5,33]。CNVs可通過基因破壞、基因融合、劑量效應、位置效應等機制導致疾病[34]。
CNVs可直接對聽力功能所必需的蛋白質(zhì)功能產(chǎn)生有害影響,從而導致耳聾。當CNVs累及整個基因時會導致耳聾發(fā)生,如當OTOA基因發(fā)生純合缺失時,其編碼序列缺失而無法編碼Otoancorin蛋白,使耳蝸蓋膜發(fā)生異常導致耳聾[35];當基因調(diào)控/啟動子區(qū)發(fā)生CNVs時也會引起耳聾,POU3F4基因僅在上游增強子區(qū)域發(fā)生CNVs時便可導致內(nèi)耳發(fā)育異常[36]。此外,CNVs可能會導致隱性基因暴露,如當TMPRSS3基因雜合變異時,復雜的基因組重排導致基因破壞,產(chǎn)生無效等位基因而導致耳聾[37]。
由于CNVs片段長度比較長,可能涵蓋數(shù)個基因,且其結(jié)構(gòu)復雜,因此其也可能通過影響分子表型或基因組表型異質(zhì)性,進而導致耳聾發(fā)生,所以需要更好的了解CNVs對基因表達的影響,以評估其在遺傳性耳聾復雜性狀中的作用。
CNVs導致遺傳性耳聾所涉及的具體基因及機制仍需進一步的分析和驗證。對遺傳性耳聾來說,有學者提出致病性CNVs應被定義為:1)覆蓋已知致聾基因的編碼區(qū),臨床表型及遺傳模式與已報道的該基因表型及模式吻合;2)覆蓋已知的致病CNVs;3)新發(fā)的CNVs或在多個受累家庭成員中發(fā)現(xiàn)已知引起疾病的基因突變與表型共分離CNVs;4)位于一個基因富集的區(qū)域;5)具有大片段的變異,CNVs處于特異的、富含基因序列的區(qū)域;6)為稀有CNVs,在內(nèi)部數(shù)據(jù)庫/公共數(shù)據(jù)庫人群攜帶率<1%[38]。
近年來,研究人員提出了很多與標準參照基因進行比較的CNVs檢測技術(shù),以確定變異區(qū)域的拷貝數(shù)及斷點位置為其重點研究方向,但不同的檢測方法及其應用的計算策略在變異類型和CNVs拷貝數(shù)鑒定,及斷點位置準確度等方面各有優(yōu)劣[39]。
實時熒光定量PCR(Real-time Fluorescent Quantitive Polymerase Chain Reaction,F(xiàn)Q-PCR)是首先用于目標區(qū)域CNVs的檢測技術(shù),其敏感性高,操作簡單,污染少,重復性好,但其不能進行高通量CNVs檢測。多重鏈接探針擴增技術(shù)(Multiplex Ligation-dependent Probe Amplification,MLPA)是對待檢DNA靶序列進行定性和半定量分析的檢測技術(shù),具有通量高,靈敏度高,特異性強,可重復性好的特點,但其只能檢測已知序列,且探針的特異性要求高,無法檢測出易位、倒位等情況。染色體微陣列分析技術(shù)中常用的微陣列比較基因組雜交(Array-based Comparative Genomic Hybridization,aCGH)技術(shù)使用雙雜交策略檢測待測樣本位點的拷貝數(shù)變化,由于其可同時分析數(shù)萬個基因,因此被廣泛地應用于全基因組CNVs檢測及產(chǎn)前診斷CNVs檢測中,但其不能檢測到倒位、易位及低水平的嵌合體,也無法檢測斷點信息,且對單拷貝數(shù)不敏感。下一代測序(Next Generation Sequencing,NGS)技術(shù),其具有高通量及高分辨率的特性,可對CNVs進行深度挖掘,精確定位和鑒定,除此之外其還可檢測到覆蓋全染色體非整倍體、大及更低比例的嵌合,基于NGS的CNV-seq也越來越多地應用于產(chǎn)前診斷中[40]。但其受限于讀長短特性,并易受覆蓋率影響,很難檢出較小的CNVs,且對斷點的精確定位仍存在困難。
目前,檢測技術(shù)都具有一定優(yōu)勢及不足,僅使用一種方法還不能完全的檢測出一個個體基因組所包含的所有CNVs。測序技術(shù)正朝通量更高,讀長更長,精度更高和成本更低的方向發(fā)展,如基于納米孔測序原理的第三代測序技術(shù)(Third Generation Sequencing,TGS),其不再需要PCR擴增過程,可對每一條DNA分子進行單獨測序,更好地解決復雜重復序列、高GC等問題。由于其長讀長的特性,可準確檢測CNVs,確定CNVs片段參考數(shù)據(jù),更可以精確地定位CNVs的準確位置,找到確切斷點信息[41]。
人類基因組中存在大量的CNVs,遺傳效應遠大于SNPs,對CNVs的研究更有助于對基因組變異與疾病間關系的深入理解。對于CNVs和耳聾基因突變的綜合作用,尤其是在正常聽力個體中CNVs多態(tài)性的認識,我們?nèi)蕴幱谠缙陔A段。隨著對CNVs研究方法及檢測技術(shù)的發(fā)展,可使我們更深入了解耳聾相關致病基因CNVs的致病機制,進一步理解遺傳性耳聾的表型及遺傳變異之間的關系,為遺傳性耳聾患者群體提供更有價值的分子診斷信息,指導臨床發(fā)現(xiàn)新的治療方法,以及制定更好的預防策略。