【摘要】結(jié)構(gòu)變異是基因的重排列,它對于進化有顯著的貢獻,在人類中自然變異通常涉及到基因相關(guān)的疾病。細(xì)胞壓力過大,錯誤的重組機制能夠?qū)е禄蛐蛄写罅坎煌慕Y(jié)構(gòu)變異,傳統(tǒng)的顯微鏡與陣列堿基方法常被用于檢測大的變異或者是重復(fù)序列變異。下一代基因測序海森理論的啟用對于在人類基因組中檢測各種類型的結(jié)構(gòu)變異都有空前的準(zhǔn)確性。事實上,一個顯著的挑戰(zhàn)在于發(fā)展中的各種計算方法是否有能力在生成的模擬數(shù)據(jù)上檢測出結(jié)構(gòu)變異,在過去的幾年中,基于在實驗數(shù)據(jù)中獲得四種不同類別的數(shù)據(jù)類發(fā)明了很多檢測工具,這四種數(shù)據(jù)類分別是:成對堿基讀取,讀取深度,分裂堿基讀取,組合序列。
【關(guān)鍵詞】結(jié)構(gòu)變異;重復(fù)序列變異;下一代基因測序;檢測算法;成對堿基讀取;讀取深度;分裂堿基讀取;重測序技術(shù);集合
1.引言
結(jié)構(gòu)變異描述了基因變異對于基因結(jié)構(gòu)的影響,盡管人類基因變異最有可能引起的原因是單堿基變異,但是在人類基因組中蛋白顯性與結(jié)構(gòu)變異的相關(guān)性遠遠高于單堿基變異。結(jié)構(gòu)變異發(fā)生的范圍可以從幾個bp(堿基的基本單位)到整個染色體。結(jié)構(gòu)變異對于人種的多樣性與疾病的發(fā)生有顯著的影響,并且在任何的基因?qū)W研究中是非常重要的。結(jié)構(gòu)體變異研究對于檢測大變異,比如非整倍性變異與用微復(fù)制方法重組染色體有一定的局限性。
對于陣列堿基法,目前來說序列堿基法更容易解決檢測小的微型的結(jié)構(gòu)變異。下一代測序技術(shù)理論上能用前所未有的速度夠識別出所有類型的結(jié)構(gòu)變異,幾種不同的方法在檢測數(shù)據(jù)中顯著的變異中都各有優(yōu)點與不足。然而這些方法需要大量的計算分析,大量的算法在過濾數(shù)據(jù)上由顯著的進展,與參考基因組或者其他樣列做對比發(fā)現(xiàn)有相近的結(jié)構(gòu)變異。在這里我將介紹結(jié)構(gòu)變異在人類與其他物種上的效果,組合機制的不同導(dǎo)致變異信息的不同,最終產(chǎn)生不同的結(jié)構(gòu)變異。隨后,我將給出一個能夠被用于檢測結(jié)構(gòu)變異所有方法的一個概述并提供目前可提供基于下一代測序技術(shù)用于檢測人類基因組結(jié)構(gòu)變異的計算工具的一個概述。
2.結(jié)構(gòu)變異
2.1 結(jié)構(gòu)變異的重要性
在人類基因組結(jié)構(gòu)變異現(xiàn)在已知能夠比單堿基覆蓋更多的核苷酸,成百上千的結(jié)構(gòu)變異產(chǎn)生于基因組上,有些變異跨染色體,打斷基因中某些有規(guī)律的元素,但是這些變異對于蛋白表達通常沒有影響,但是也能引起堿基數(shù)量變化,基因分裂,新融合基因,新的調(diào)整機制。
新的但堿基變異形成與不同的調(diào)整機制都取決于變異堿基的位置。盡管很多的結(jié)構(gòu)變異不在編碼區(qū),它們?nèi)匀灰肓舜罅康倪z傳因子和表型變異,不僅僅在人類中存在這一現(xiàn)象,在各個物種間都有。
考慮到結(jié)構(gòu)變異對于表達的影響,結(jié)構(gòu)變異的發(fā)生對于自然選擇與進化也有著顯著的影響。事實上,結(jié)構(gòu)變異在新物種的進化上與變異物種的進化上都有很大的關(guān)聯(lián),在植物與靈長類動物上有很多這樣的例子,同樣人類的一些特殊基因上也有這樣的例子。下面將展示與人類由飲食引起的基因進化,還有取決于結(jié)構(gòu)變異的疾病基因。
大量與疾病有關(guān)的結(jié)構(gòu)變異是結(jié)構(gòu)變異中的典型,變異影響基因的表達或者影響編碼序列都會產(chǎn)生廣泛而大量的基因疾病。倆個展示罕見和普通結(jié)構(gòu)變異與疾病之間關(guān)系的模型已經(jīng)被提出,第一個模型描述了在人類中罕見與常見的變異引起的疾病并收集了大量關(guān)于各種先天性疾病,神經(jīng)性疾病,腫瘤類疾病的信息。第二個模型關(guān)注人口中普遍存在的變異,特別是拷貝數(shù)量變異的家族基因,盡管收集信息時病情的復(fù)雜程度會影響模型的敏感性,特別是免疫系統(tǒng)的疾病。例如這個模型中的HIV,瘧疾,還有多種多樣的免疫疾病。盡管在倆個模型中能夠發(fā)現(xiàn)很多的例子,但這些例子在由結(jié)構(gòu)變異引起的人類疾病中也是不全面的。這個問題歸咎于我們對于普通變異與罕見變異的定義過于簡單化。然而,有一點是非常明確的就是檢測結(jié)構(gòu)變異對于人類疾病的調(diào)查有很深遠的影響,無論在診斷上還是在疾病的治療上。
除了在疾病中扮演的重要角色,結(jié)構(gòu)變異在人類普通日常功能上也很重要。類別轉(zhuǎn)換重組的過程就依賴于結(jié)構(gòu)變異對自身的刺激。這個過程對于抗原刺激使多種繁殖B細(xì)胞成熟時很重要的,同樣對于人類免疫系統(tǒng)的完善也至關(guān)重要。對于結(jié)構(gòu)變異的研究也告訴了我們關(guān)于遺傳的機制。在過去的幾年中對于制造結(jié)構(gòu)變異的需求以及結(jié)構(gòu)變異在遺傳機制中扮演的角色都變得顯著。然而,重要的是在各個研究領(lǐng)域中識別結(jié)構(gòu)變異的正確率問題。
2.2 引起結(jié)構(gòu)變異的原因
我們首先考慮的是結(jié)構(gòu)變異產(chǎn)生的隨機性,在特殊情況下結(jié)構(gòu)變異的形式,特殊環(huán)境的影響還有細(xì)胞壓力觸發(fā)的結(jié)構(gòu)變異。各種各樣的壓力源如:堿基復(fù)制,轉(zhuǎn)錄,或者細(xì)胞氧化再或者基因自身的重組都會觸發(fā)結(jié)構(gòu)變異。這些壓力源也會導(dǎo)致DNA斷裂與敏感處DNA復(fù)制失控從而導(dǎo)致結(jié)構(gòu)變異,特殊的序列對于結(jié)構(gòu)變異更加敏感是源于他們自己的結(jié)構(gòu),以及相關(guān)聯(lián)的蛋白與基因序列層次的改變。此外,功能基因重組涉及到免疫系統(tǒng)中的蛋白會產(chǎn)生迷失目標(biāo)的效果,從而導(dǎo)致DNA鏈雙項斷裂。在DNA鏈中隨后而來的錯誤配對與錯誤重組會引發(fā)結(jié)構(gòu)變異,從而對蛋白的定位或者在倆個指定位置間的近似定位產(chǎn)生錯誤,最后影響了基因的表達。
例如,非同源堿基末端重接的重組機制非常易于產(chǎn)生DNA雙鏈斷裂,單個的雙鏈斷裂對于DNA的自我修復(fù)能力來說是很容易修復(fù)的,但是如果在同一個染色體中有倆個雙鏈斷裂,會引起染色體中產(chǎn)生備用鏈。交替尾部鏈接機制是和基因重組有關(guān)而又不同的一種重組機制,然而這種重組機制的精確性目前來說我們還不知道,等位基因重組機制修復(fù)DNA雙鏈斷裂是用一個模板序列相對應(yīng)無差錯的修復(fù)。然而這種修復(fù)機制的缺陷在于它能夠?qū)е路堑任坏幕蛑亟M。基于這個事實,非等位序列經(jīng)常出現(xiàn)大量重復(fù)區(qū)域,假基因,以及多余復(fù)制堿基等因素導(dǎo)致的結(jié)構(gòu)變異。另外基于非同源末端重接的重組機制下的復(fù)制,轉(zhuǎn)錄也被認(rèn)為是產(chǎn)生結(jié)構(gòu)變異的主要原因,而這倆個原因還會引起染色體混亂重組?,F(xiàn)有幾個模型的存在來解釋這種結(jié)構(gòu)變異的產(chǎn)生。微同源序列斷裂修復(fù)模型指出單個DNA鏈斷裂,然后復(fù)制到任何一個相近似的DNA單鏈,隨后復(fù)制區(qū)域聚合,復(fù)制模板交換從而產(chǎn)生了染色體的混亂重組。還有一個相近的模型叫做錨點丟失與模版轉(zhuǎn)換模型,模型中復(fù)制區(qū)域的錨點模版轉(zhuǎn)換,聽起來和上一個相似但是這個模型的轉(zhuǎn)換是在DNA鏈沒有斷裂的情況下完成的。最后染色體內(nèi)部和外部的非同源堿基碎片隨機重組這一現(xiàn)象被稱為染色體碎裂。在這個模型中一個或多個染色體被碎裂,然后隨機融合。輻射和其它一些都可以引起大范圍的染色體斷裂。
2.3 結(jié)構(gòu)變異的類型
結(jié)構(gòu)變異可以以很多種形式發(fā)生,在這些形式中我們可以分為拷貝數(shù)量變異(CNV)與拷貝均衡變異??截惥庾儺惏崔D(zhuǎn)變異與移位變異。拷貝數(shù)量變異包括刪除,插入,復(fù)制。插入涉及一個新的序列或者異變堿基。新的序列的插入或者異變堿基的插入可能是由于堿基移位或者序列復(fù)制引起的。復(fù)制可能引起一系列串聯(lián)的復(fù)制。堿基的復(fù)制分割點可能在附近的DNA源上,或者穿插于附近的合并的DNA進行復(fù)制。這個事件可能發(fā)生在染色體的內(nèi)部。但是也有可能發(fā)生在不同的染色體間。從而導(dǎo)致染色體內(nèi)部變異。結(jié)構(gòu)變異的大小通常超過50bp或者1000bp。然而除了單堿基變異之外的任何變異都可以引起結(jié)構(gòu)體變異。我們討論的一些形式的變異通常發(fā)生在1bp到50bp之間,通常被稱為非單堿基基因變異。
當(dāng)然,一些變異的發(fā)生不單純是一種類型,而是混合了多種類型。比如說反轉(zhuǎn)序列碎片中可能同時包含一個刪除類型的變異與插入類型的變異,或者其他類型的組合。所有變異形式中檢測最不容易的是由染色體之間的重組導(dǎo)致的變異,額外還有,一條染色體上發(fā)生的刪除而恰恰這條染色體其他位置上還有一個大小一樣的插入,這導(dǎo)致很難發(fā)現(xiàn)變異的位置。然而不是所有形式的變異都可以檢測出發(fā)生位置能變異的大小。準(zhǔn)確的識別出結(jié)構(gòu)變異需要全面的認(rèn)知我們研究基因上的所有結(jié)構(gòu)變異。檢測變異類型的能力涉及不同變異類型,有的類型比較容易檢測出,有的則復(fù)雜一些。我們將在下面進行討論。
3.檢測結(jié)構(gòu)變異
像上面提到的那樣,結(jié)構(gòu)變異在大小上有很大的不同,比較大的結(jié)構(gòu)變異被認(rèn)為是微復(fù)制變異,它們可以被傳統(tǒng)的細(xì)胞遺傳技術(shù)所檢測出,細(xì)胞遺傳技術(shù)包括基因技術(shù),比如說染色體核型技術(shù),染色體繪畫型技術(shù)。這些技術(shù)仍然被廣泛應(yīng)用,這些方法能夠檢測出大部分類型的幾兆堿基大小的結(jié)構(gòu)變異與非整倍體結(jié)構(gòu)變異,基于這些技術(shù)上的提高仍在繼續(xù),為結(jié)構(gòu)變異的檢測問題的解決與靈敏度的提高都有待加強。
對于檢測小的亞微觀的結(jié)構(gòu)變異,這些結(jié)構(gòu)變異都有高分解度與高靈敏度,更多的新分子將在檢測中被用到。這些方法無論在矩陣堿基或者是序列堿基中都被稱為經(jīng)典。用這些方法識別結(jié)構(gòu)變異通常都用實驗基因與參考基因組或者其他的樣本基因組進行對比,來從他們的不同中來推斷變異,下面,我將簡要的介紹矩陣堿基與序列堿基法。
(1)矩陣堿基法
陣列原來是為了檢測RNA表達分析而發(fā)明的,但是現(xiàn)在被應(yīng)用在了一個更加廣泛的范圍上,包括檢測結(jié)構(gòu)變異。微矩陣堿基方法依靠在載玻片上識別微矩陣碎片,這些碎片用于固定基因中作為雜交試驗基因的目標(biāo)基因。盡管序列堿基法對于檢測拷貝數(shù)量變異更加符合成本效益而且更流行,但是臨床診斷上主要還是用微矩陣法進行篩查。用微矩陣法檢測拷貝數(shù)量變異通常用倆種陣列,雜交基因比較陣列與單堿基突變陣列。近來的一些檢測平臺,以及一些公司開發(fā)的市場像Agilent,Illumina,Roche和Affymetrix。這些檢測機構(gòu)能夠在一個基因碎片上檢測出成千上萬個探針,現(xiàn)在新發(fā)明的一些陣列變得更加靈敏更加實用。
(2)雜交基因比較陣列
雜交基因比較陣列平臺可被用于在目標(biāo)基因上倆個雜交熒光標(biāo)記樣本的相關(guān)單堿基變異的檢測。實驗的DNA是DNA碎片并且預(yù)先進行熒光標(biāo)記。用不同的熒光染料標(biāo)記,例如在不同的樣本用綠色和紅色進行標(biāo)記,檢測每種熒光的量就能知道實驗用DNA中每個樣本的數(shù)量大小。這對應(yīng)用已知參考樣本進行時很重要,比如一個樣本中增加而另一個樣本中發(fā)生了等量的缺失,再沒有熒光標(biāo)記之前是無法被檢測出的。為了精確的識別結(jié)構(gòu)變異,正規(guī)的來說我們通常都要知道實驗樣本所在DNA的GC含量,還有燃料是否失衡。
第一個雜交基因比較陣列實驗是用于一段大的插入的人造細(xì)菌染色體。把人造細(xì)菌染色體作為目標(biāo),在目標(biāo)中可以檢測范圍在100kb大小的單堿基變異甚至范圍更大的變異。目前用于檢測單堿基變異的寡核苷酸只能檢測幾千個堿基大小的單堿基變異。雜交基因比較陣列有一個比較大的優(yōu)勢是可以提供常用陣列,這些陣列可以像平臺一樣的被使用。雜交基因平臺可以達到一個相當(dāng)高的檢測率,特別是用于普通問題的檢測。
(3)單堿基突變陣列
單堿基突變陣列原本是被設(shè)計用于檢測單個堿基的多態(tài)性,但是目前已經(jīng)適應(yīng)單堿基變異的檢測。有一點與雜交基因比較陣列有些相似,單堿基突變陣列也是依靠目標(biāo)DNA的雜交。然而僅僅測試樣本是雜交的,而且不需要雜交的參考樣本。對于拷貝數(shù)變異的檢測是通過幻燈片上由許多點聚成群簇的強度而確定的??截悢?shù)量變異檢測是看樣本群簇值與參考基因組群簇值在實驗中與在數(shù)據(jù)中的不同,還有通過不同算法的分析。這些分析的概述在溫徹斯特的總結(jié)中可以看到。
與雜交基因比較陣列相似,單堿基突變陣列解決問題的能力與它第一次被應(yīng)用的時候相比有了顯著的提高,無論應(yīng)用于哪種類型的變異。目前一個DNA碎片上可以存在成千上萬個單堿基突變,為了增加解決問題的能力,設(shè)計陣列的重點在于要結(jié)合未知大小的拷貝數(shù)量變異區(qū)域內(nèi)的單堿基突變信息,在一個實驗樣本中增加可以被檢測出的變異數(shù)量來獲得這些信息。但是這樣做會有一個很嚴(yán)重的負(fù)面效果,它會使已知的拷貝數(shù)量變異產(chǎn)生很大的變差。單堿基突變陣列對于雜交基因比較陣列來說在檢測拷貝數(shù)量變異上的靈敏度較低,但是單堿基突變陣列在提供基因變異類型信息與拷貝數(shù)量變異同源基因信息上有很大的優(yōu)勢,在檢測拷貝數(shù)變異的時候也更加準(zhǔn)確,并且允許丟失一定的雜交體。
參考文獻
[1]Check,E.Human genome:patchwork people.Nature 437, 1084-6(2005).
[2]Conrad,D.F.et al.Origins and functional impact of copy number variation in the human genome.Nature 464,704-12(2010).
[3]Fanciulli,M.,Petretto,E.& Aitman,T.J.Gene copy number variation and common human disease.Clinical genetics 77,201-13(2010).
[4]Feuk,L.,Marshall,C.R.,Wintle,R.F.& Scherer,S.W.Structural variants:changing the landscape of chromosomes and design of disease studies.Human molecular genetics 15 Spec No,R57-66(2006).
[5]Hurles,M.E.,Dermitzakis,E.T.& Tyler-Smith,C.The functional impact of structural variation in humans.Trends in genetics :TIG 24,238-45(2008).
作者簡介:姜雷(1987—),男,黑龍江佳木斯人,哈爾濱師范大學(xué)數(shù)學(xué)系在讀研究生,研究方向:微分方程數(shù)值解。