耿彧 白濤
摘?要:高通量基因測序因具有費用更低、通量更高、速度更快的技術特點得以迅猛發(fā)展,不同測序平臺高質量仿真數據的產生有利于生物學研究。設計了一種適用于腫瘤異質性的讀段仿真工具,能夠真實反映腫瘤內復雜克隆結構,并可實現(xiàn)各種結構類型及不同測序平臺數據,研究者可根據自身研究環(huán)境以及測序數據類型的特異性,產生合適的仿真數據,為腫瘤研究奠定實驗基礎。
關鍵詞:腫瘤異質性;克隆結構;仿真工具
中圖分類號:TB?文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.03.096
1?引言
目前,腫瘤是急待解決的全球性醫(yī)學難題。腫瘤基因組學可從基因水平上挖掘腫瘤發(fā)病機理,深入理解克隆演變過程,為尋求耙向診療提供理論依據。高通量測序技術的飛速發(fā)展使得各種測序平臺產生海量的讀段數據,為腫瘤基因組學奠定了研究基礎。通常,實際情況在真實數據中是未知的,但仿真數據卻可直接測試結果。運用仿真工具模擬真實數據,不僅可充分體現(xiàn)真實數據的特征,減少成本,而且可以對數據的某一特性進行獨立分析,通過參數調整更好的評價算法性能。因此,采用合理有效的仿真數據不僅能夠驗證理論假設和模型有效性,而且為理論模型應用于實踐提供了有力的支持。
目前,各種類型的讀段仿真工具相繼被提出,分別適用于基因組、宏基因組、轉錄組和外顯子組等研究領域。其中,單基因組的仿真工具有來自于samtools軟件包的Wgsim,錯誤模型服從均勻分布;ART依據真實數據集產生具有上下文相關的錯誤模型;pIRS和ArtificialFastqGenerator基于GC含量進行覆蓋度的模型化設計。MetaSim、GemSIM、Grinder和NeSSM可指定物種的豐度來實現(xiàn)宏基因組的數據仿真。PBSIM對PacBio數據集進行分析,能產生適合第三代測序平臺的長讀段仿真數據。GENOME、FREGENE和FIGG考慮重組率和群體演變歷史,可實現(xiàn)群體全基因組仿真。Wessim主要針對外顯子區(qū)域進行數據仿真。盡管已有的仿真工具對各種測序平臺產生的真實數據仿真效果頗佳,然而它們不能充分體現(xiàn)多級繼承結構的數據特性。由此,本文設計了腫瘤基因組的仿真工具,TNSim,主要分析癌克隆中存在的多級克隆分布情況,形成合成的測序讀估,有助于對癌癥的克隆性及腫瘤異質性進行有效分析,并與已有的幾種仿真工具針對克隆繼承性進行了仿真性能比較。
2?方法
在Peter Nowell提出的CE理論模型中指出腫瘤發(fā)展的動態(tài)性,在治療中的抗藥性和選擇壓力下,不斷地分化出新的子克隆,而每種克隆又具有獨特遺傳變異特性,使得個體腫瘤發(fā)展具有異質性,克隆性及克隆進化模式成為理解腫瘤進展的關鍵。因此,對腫瘤中復雜克隆結構的讀段仿真成為了必然需求。TNSim由兩個階段組成,開發(fā)實現(xiàn)了一套完整的多級克隆結構仿真軟件包,包括正常細胞數據發(fā)生器生成(NorSim)、腫瘤細胞數據發(fā)生器生成(TumSim)、Reads數據生成器(ReadGen)。
第一階段設定正常細胞與腫瘤細胞樣本中變異位點及類型,明確變異間繼承關系,使具有上下級繼承關系的子克隆等位基因變化頻率的多態(tài)性保持不變,保證每一級子克隆新產生的變異情況不與其它子克隆的變異情況發(fā)生沖突,即克隆之間具有互斥關系。通過生成索引文件記錄克隆的位置變化信息,來有效地解決多個克隆之間的變異位點互斥問題。
腫瘤組織中既有遺傳變異,又有與疾病密切相關的體細胞變異,因此近來絕大多數研究都是聯(lián)合分析正常細胞和腫瘤組織,為了使所有的變異位點避免沖突,具有唯一性且保證繼承性,由讀段仿真器首先產生正常細胞和各級克隆的sim文件,此文件中采用64位無符號數標識量記錄變異位點信息,此標識量在數據結構層面僅為一個整型數值,卻可以解析出描述一個變異所需的全部信息,包括位點、變異類型、基因型和其他屬性,節(jié)約存儲空間,提高計算效率。工作流程如圖1所示。
第二階段為生成仿真數據階段,根據正常細胞和腫瘤細胞中子克隆各自的sim文件,形成包括各種變異情況的仿真環(huán)境并完成讀段隨機采集,在正反鏈上隨機生成指定長度的讀段文件(*.fq文件),該工具同時支持單末端讀段和雙末端讀段采集以及單體型序列的生成,其中雙末端讀段的插入距離符合正態(tài)分布。對于皮膚癌等腫瘤細胞具有局部變異率增高的特性,TNSim可以在任意位置設置任意長度區(qū)域的不同變異頻率。此外,可按著實際的需求調整來自于不同細胞和子克隆的覆蓋度構成比例,由于變異位點在數據發(fā)生器中單獨生成的,所以不會改變原有已生成的各自變異位點信息。TNSim還可以生成各種類型的變異,包括單點變異、短插入/缺失型結構變異、長插入/缺失型結構變異、串聯(lián)重復型結構變異、倒置型結構變異、缺失-插入型復雜結構變異。
3?實驗分析
為了驗證TNSim工具生成的具有腫瘤異質性的仿真數據可靠性,隨機選取人類基因組中的一條染色體作為參考序列,去除標識為“N”的無法確定的字符。設置正常細胞樣本的變異率為10-3,腫瘤細胞樣本的變異率為10-4。采用Wgsim、SInC、pRIS與TumorSim四種仿真方法實現(xiàn)克隆結構仿真數據的對比分析,進一步驗證TNSim的實用性與有效性,如圖2所示。選取美國腫瘤基因組路線圖計劃的三例腫瘤樣本(AML、BRCA、UCEC),編號分別為AB-2968、BH-A18P和B5-A0JV。原圖為發(fā)表在Nature上的亞克隆真實情況結果分布圖,Wgsim、SInC、pRIS和TNSim根據已知的變異數據和參數,采用相同的數據分析流程得到各自的仿真結果。從圖可見,Wgsim、SInC、pRIS都存在不同程度的峰值偏移和假陽性峰值問題,具有仿真誤差。與之相比,TNSim基本不存在峰值偏移的問題,假陽性峰也相對最少。實驗表明,TNSim更能真實的仿真腫瘤克隆結構及演變模式,更利于腫瘤異質性研究中的模型驗證。
4?結論
腫瘤演變中蘊含著不同層級的子克隆,各克隆間互為依存、相互影響,呈現(xiàn)繼承性與變異性共存,具有高度異質性的特點,群體遺傳進化過程中也存在類似特征。研究腫瘤演變和群體進化過程都需要多級結構的仿真數據,針對演變進化中的多級結構特性及異質性特點,專門設計了仿真工具,利用位點標志量設定變異相關的類型、位置、繼承關系并形成讀段仿真數據,充分展現(xiàn)了克隆或樣本之間保持相同等位基因變異頻率的多層級繼承關系。不僅適用于多級克隆結構的數據仿真,也能實現(xiàn)普通的讀段數據仿真。為驗證模型和算法的有效性提供依據。
參考文獻
[1]Kandoth C,McLellan MD,Vandin F,et al.Mutational landscape and significance across 12 major cancer types[J].Nature,2013,502(7471):333-339.
[2]Li,H.et al.The Sequence Alignment/Map format and SAMtools[J].Bioinformatics,2009,(25),2078-2079.
[3]Pattnaik et al.SInC:an accurate and fast error-model based simulator for SNPs,Indels and CNVs coupled with a read generator for short-read sequence[J].BMC Bioinformatics,2014,(15):40.
[4]Hu X,Yuan J,Shi Y,Lu J,Liu B,et al.pIRS:Profile-based Illumina pairend Reads Simulator[J].Bioinformatics,2012,(28):1533-1535.