張德楠 王亞東
摘 要:本文針對目前生物信息研究中常見的高通量測序技術(shù)Chip-seq數(shù)據(jù)的正規(guī)化問題進(jìn)行了研究。分析了目前常用的TMR正規(guī)化方法和LOWESS正規(guī)化方法中沒有考慮到基因組的結(jié)構(gòu)對于生物數(shù)據(jù)分布的影響這一不足,提出了一種新的基于基因組功能注釋的LOWESS正規(guī)化方法。該方法更符合基因組生物學(xué)特征,可以根據(jù)基因組本身不同的生物學(xué)功能的差異,分區(qū)域分類別進(jìn)行數(shù)據(jù)正規(guī)化處理,更符合基因組的生物學(xué)特征,也具有更高的可靠性。同時(shí)可以針對不同研究目的,依據(jù)不同的功能區(qū)域注釋信息有針對性的對該區(qū)域進(jìn)行正規(guī)化,具有更高的特異性和靈活性以及更低的時(shí)間和空間復(fù)雜度。
關(guān)鍵字:高通量測序技術(shù)Chip-seq;數(shù)據(jù)的正規(guī)化;基因組功能注釋;LOWESS正規(guī)化方法
中圖分類號:TP391.2 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-2163(2014)05-
Abstract:This paper studies the normalization methods of high-throughput sequencing technology Chip-seq data in current bioinformatics research. Current normalization methods commonly based TMR or LOWESS did not take into account the impact of structural genomics for the distribution of biological data. Due to this analysis, the paper proposes a new LOWESS normalization method based on features of genome annotation. This approach considering the biological characteristics of the genome data can process sub-regional normalization according to the different biological functions of genome itself and has higher reliability. At the same time, the proposed new method could normalize corresponding regions according to the different functional annotation for different research purposes with higher specificity and flexibility, as well as lower time and space complexity.
Key words: High-throughput Sequencing Technology Chip-seq; Normalization of Data, LOWESS Normalization; Functional Annotation of Genomes
0引 言
充足準(zhǔn)確的生物數(shù)據(jù)是進(jìn)行生物信息研究的基礎(chǔ)與關(guān)鍵。之前對于轉(zhuǎn)錄層面相關(guān)的研究所涉及到的數(shù)據(jù)如基因表達(dá)量、轉(zhuǎn)錄因子結(jié)合情況等都來自于低通量的生物學(xué)實(shí)驗(yàn)[1-2]。原有的產(chǎn)生高通量數(shù)據(jù)的實(shí)驗(yàn)方法均是基于Chip-chip芯片測試并展開的,除了信號噪聲較大外,這種芯片數(shù)據(jù)最大的問題則在于數(shù)據(jù)本身無法覆蓋全基因組[3-5]。隨著新一代測序技術(shù)的發(fā)展普及,尤其是Chip-seq技術(shù)出現(xiàn)之后,即以其高精度、低噪聲、全基因組覆蓋等優(yōu)勢而迅速成為時(shí)新的標(biāo)準(zhǔn)實(shí)驗(yàn)手段[6-7]。但基于Chip-seq實(shí)驗(yàn)產(chǎn)生的高通量數(shù)據(jù)卻有其自身特點(diǎn),在使用上不僅區(qū)別于低通量數(shù)據(jù),與較早的高通量測序技術(shù)Chip-chip也不盡相同。此外,在實(shí)際研究和仿真實(shí)驗(yàn)中又常常需要不同細(xì)胞條件下多組實(shí)驗(yàn)的相互對照,以便從中分析、且得到差異。因此,當(dāng)今在進(jìn)行生物信息學(xué)研究中,標(biāo)準(zhǔn)化的、使不同實(shí)驗(yàn)間數(shù)據(jù)可資比較的新一代高通量測序數(shù)據(jù)正規(guī)化方法研究即已顯得尤為重要且必要。
對于Chip-seq實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)目前常用的正規(guī)化方式主要包括TMR(total number of mapping reads)正規(guī)化方法[8]和LOWESS正規(guī)化方法[9]。具體來說,TMR正規(guī)化方法是一種通過將各樣本總體reads直接從數(shù)量上擴(kuò)大或縮小的手段來對不同生物條件下樣本進(jìn)行正規(guī)化的方法,只是這種直接比例擴(kuò)增的正規(guī)化方法根本沒有考慮到樣本內(nèi)部reads的分布情況,為此常常造成較大的誤差。而LOWESS正規(guī)化方法則是曾經(jīng)廣泛用于Chip-chip數(shù)據(jù)正規(guī)化的方法,后被引入到對Chip-seq數(shù)據(jù)進(jìn)行正規(guī)化處理。其實(shí)現(xiàn)過程是,LOWESS正規(guī)化方法是通過將實(shí)驗(yàn)中對照組之間數(shù)據(jù)值的對數(shù)差異,以及對照組之間數(shù)據(jù)值的對數(shù)平均值進(jìn)行局部加權(quán)平滑回歸而對數(shù)據(jù)完成了正規(guī)化處理。
但無論是TMR正規(guī)化方法還是LOWESS正規(guī)化方法都存在著一個(gè)重大缺陷:這些正規(guī)化方法根本沒有考慮到基因組的結(jié)構(gòu)對于其生物功能的影響。通過研究知道不同的DNA序列從功能上可以劃分成基因區(qū)、基因間區(qū)、啟動子區(qū)、3'和5'非翻譯區(qū)等區(qū)域,這些區(qū)域有著截然不同的生物學(xué)功能,而且在不同的細(xì)胞環(huán)境下其生物數(shù)據(jù)也分別有著不同的分布特征。上述正規(guī)化方式進(jìn)行的籠統(tǒng)而機(jī)械的正規(guī)化處理無疑破壞了這種生物學(xué)特征,還可能人為引進(jìn)不必要的誤差。
為了克服現(xiàn)有新一代高通量測序技術(shù)正規(guī)化方法的這種不足,研究根據(jù)基因組序列的生物功能注釋提出了一種新的、基于序列上下文環(huán)境的正規(guī)化方法,這一新的正規(guī)化方法不僅能夠保留樣本數(shù)據(jù)中隱含的基因組結(jié)構(gòu)信息,還避免了粗暴劃分正規(guī)化區(qū)間造成的人為干擾,為進(jìn)一步數(shù)據(jù)分析提供分布良好、細(xì)節(jié)豐富的數(shù)據(jù)樣本。
1基于基因組功能注釋信息的LOWESS正規(guī)化方法
基于上述工程實(shí)踐的研討分析,本文根據(jù)基因組序列的生物功能提出了一種新的基于序列功能注釋的正規(guī)化方法。該方法通過利用來自UCSC的基因組注釋信息對基因組進(jìn)行功能分組,再依次利用局部加權(quán)平滑LOWESS方法進(jìn)行正規(guī)化。這種基于序列上下文環(huán)境的正規(guī)化方法具體過程可做如下展開:
首先,注意對照組之間總的reads數(shù)量上的相互差異,如果差異較大則需要進(jìn)行一次總體上的數(shù)量調(diào)整,使其在總體上可以進(jìn)行比較;
利用基因組注釋信息,根據(jù)基因的功能區(qū)分將全基因組劃割為一個(gè)個(gè)生物學(xué)功能相關(guān)的小區(qū)域bin,并分別得到每一個(gè)區(qū)域上reads數(shù)量的原始初值。特別需要指出的是,本文的方法還可以根據(jù)設(shè)定的不同研究目、針對不同區(qū)域進(jìn)行正規(guī)化,同時(shí)不同區(qū)域分割的bin也可以采用不同的尺度,由此而達(dá)到精度和計(jì)算開銷的平衡。
由圖1可以看到,在未經(jīng)處理的原始全基因組Chip-seq數(shù)據(jù)MA-plot圖中,其數(shù)據(jù)的分布向下方傾斜(由灰色實(shí)線表示);而在經(jīng)過TMR正規(guī)化處理之后Chip-seq數(shù)據(jù)在全基因組上的分布則向上方傾斜(由灰色實(shí)線表示)。這兩種分布都與理想情況下的分布曲線(0點(diǎn)處灰色虛線)存在差異,由此說明無論是未經(jīng)處理的原始全基因組Chip-seq數(shù)據(jù)還是經(jīng)過TMR正規(guī)化之后的Chip-seq數(shù)據(jù)都仍然存在不同程度的偏差。
在圖2中,繼而又對全基因組分別采用LOWESS正規(guī)化方式和本文基于基因組功能注釋LOWESS正規(guī)化方法的正規(guī)化結(jié)果進(jìn)行了對比。由此可以發(fā)現(xiàn),從整體上看,兩種正規(guī)化方法在全基因組范圍上的正規(guī)化效果都比較好,體現(xiàn)樣本MA特征的灰色實(shí)線比較完美地契合灰色虛線表示的理想狀態(tài)下的MA特征曲線。但若仔細(xì)比較圖像上黑色圓點(diǎn)代表的數(shù)據(jù)分布即會發(fā)現(xiàn)本文提出的基于基因組功能注釋LOWESS正規(guī)化方法的正規(guī)化結(jié)果中,其數(shù)據(jù)的對稱性要好于普通LOWESS正規(guī)化方法的結(jié)果。這也形象展示了本文提出的新正規(guī)化方法的良好性能。
由于本文提出的基于基因組功能注釋LOWESS的正規(guī)化方法具有非常高的靈活性,可以根據(jù)研究者所關(guān)注的不同問題,依照不同的基因組功能注釋,對基因組的某些區(qū)域進(jìn)行正規(guī)化處理而不必針對全基因組進(jìn)行正規(guī)化。研究進(jìn)一步根據(jù)UCSC提供的基因組注釋信息簡單地將基因組分成啟動子調(diào)控區(qū)間(每個(gè)基因TSS附近-600bp~+400bp)、基因體區(qū)間(每個(gè)基因TSS下游400bp~基因結(jié)束)和背景區(qū)間(其他基因區(qū)間),在每一個(gè)染色體上根據(jù)這些不同的功能分區(qū)對對應(yīng)區(qū)間上Chip-seq數(shù)據(jù)進(jìn)行正規(guī)化處理。實(shí)驗(yàn)發(fā)現(xiàn),本文提出的基于基因組功能注釋的LOWESS正規(guī)化方法在三個(gè)功能區(qū)間上的正規(guī)化結(jié)果都很好,在圖3中,即是以16號染色體為例,對本文提出的新正規(guī)化方法結(jié)果進(jìn)行了真實(shí)呈現(xiàn)。
3結(jié)束語
本文針對目前生物信息研究中常見的高通量測序技術(shù)Chip-seq數(shù)據(jù)的正規(guī)化問題進(jìn)行了研究。分析了目前常用的TMR正規(guī)化方法和LOWESS正規(guī)化方法中沒有考慮到基因組的結(jié)構(gòu)對于生物數(shù)據(jù)分布的影響這一不足,提出了一種新的基于基因組功能注釋的LOWESS正規(guī)化方法。該方法可以根據(jù)基因組本身不同的生物學(xué)功能的差異,分區(qū)域分類別進(jìn)行數(shù)據(jù)正規(guī)化處理,更符合基因組的生物學(xué)特征,也具有更高的可靠性。同時(shí)還可以針對不同研究目的,依據(jù)不同的功能區(qū)域注釋信息有針對性地對該區(qū)域進(jìn)行正規(guī)化,結(jié)果展示了更高的特異性、靈活性以及更低的時(shí)間和空間復(fù)雜度。經(jīng)過與傳統(tǒng)Chip-seq高通量數(shù)據(jù)正規(guī)化方法的比較,尤其是與傳統(tǒng)LOWESS方法的比較,驗(yàn)證了本文提出的這種新的基于基因組功能注釋的LOWESS正規(guī)化方法具有更為良好的正規(guī)化效果。
參考文獻(xiàn):
[1] BUSTIN S A. Why the need for qPCR publication guidelines?--The case for MIQE [J]. Methods, 2010, 50(4): 217-226.
[2] BUSTIN S A, BENES V, GARSON J A, et al. The MIQE guidelines: minimum information for publication of quantitative real-time PCR experiments [J]. Clinical chemistry, 2009, 55(4): 611-622.
[3] HO J W, BISHOP E, KARCHENKO P V, et al. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis [J]. BMC genomics, 2011, 12(134).
[4] KAUFMANN K, MUINO J M, OSTERAS M, et al. Chromatin immunoprecipitation (ChIP) of plant transcription factors followed by sequencing (ChIP-SEQ) or hybridization to whole genome arrays (ChIP-CHIP) [J]. Nature protocols, 2010, 5(3): 457-472.
[5] SCHULZ S, HAUSSLER S. Chromatin immunoprecipitation for ChIP-chip and ChIP-seq [J]. Methods in molecular biology, 2014, 1149:591-605.
[6] LANDT S G, MARINOV G K, KUNDAJE A, et al. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia [J]. Genome research, 2012, 22(9): 1813-1831.
[7] PARK P J. ChIP-seq: advantages and challenges of a maturing technology [J]. Nature reviews Genetics, 2009, 10(10): 669-680.
[8] ZHONG M, NIU W, LU Z J, et al. Genome-wide identification of binding sites defines distinct functions for Caenorhabditis elegans PHA-4/FOXA in development and environmental response [J]. PLoS genetics, 2010, 6(2): e1000848.
[9] CLEVELAND W S. LOWESS: A program for smoothing scatterplots by robust locally weighted regression [J]. American Statistician, 1981.