陳昆
摘 要 在生物信息學(xué)中,錄因子結(jié)合位點(diǎn)與轉(zhuǎn)錄因子相互作用調(diào)控基因的轉(zhuǎn)錄過程。對轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別,是生物信息學(xué)的核心問題之一,簡稱為模體識別。如何高效完成模體識別對理解調(diào)控轉(zhuǎn)錄機(jī)制,建立調(diào)控轉(zhuǎn)錄模式有著重要的意義。本文重點(diǎn)描述了對轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別研究的歷程、近年來業(yè)界普遍采用的三類模體識別的研究方法、以及對其中各類具有典型特種的多種主流模體識別算法做出分析,初步形成整體脈絡(luò),并對下一代轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別問題提出了觀點(diǎn)。
【關(guān)鍵詞】轉(zhuǎn)錄因子結(jié)合位點(diǎn) 計(jì)算機(jī)技術(shù)
近年來隨著基因組計(jì)劃的執(zhí)行,海量的基因序列原始數(shù)據(jù)被發(fā)現(xiàn)。為了闡述數(shù)據(jù)的生物意義,數(shù)學(xué)、計(jì)算機(jī)學(xué)等學(xué)科被廣泛結(jié)合運(yùn)用,在研究過程中決定基因在生命工程中意義的基因表達(dá)就成了生物信息學(xué)主要的研究課題之一?;虮磉_(dá)是指基因在生物體內(nèi)的轉(zhuǎn)錄、剪接、翻譯以及轉(zhuǎn)變成有生命意義的蛋白質(zhì)分子的過程。
其中轉(zhuǎn)錄調(diào)控是基因表達(dá)的關(guān)鍵步驟,調(diào)控基因轉(zhuǎn)錄是由轉(zhuǎn)錄因子通過特異性結(jié)合調(diào)控區(qū)域的DNA序列來完成的,轉(zhuǎn)錄因子結(jié)合位點(diǎn)是與轉(zhuǎn)錄因子結(jié)合的長度通常在5~20 bp范圍內(nèi)的短小DNA片斷,一個轉(zhuǎn)錄因子往往同時調(diào)控若干個基因,而它在不同基因上的結(jié)合位點(diǎn)具有一定的保守性,但又不完全相同。對經(jīng)過生物實(shí)驗(yàn)驗(yàn)證的已知位點(diǎn)進(jìn)行分析可知,轉(zhuǎn)錄因子結(jié)合位點(diǎn)往往是在相關(guān)基因序列中具有保守性,可以表現(xiàn)出特定的模式,所以也被稱作模體。與其它常見的序列模體信號相比,轉(zhuǎn)錄因子結(jié)合位點(diǎn)模體除了長度較短以外,其堿基組成也更加靈活,容許較多的變體。識別轉(zhuǎn)錄因子結(jié)合位點(diǎn)模體問題在業(yè)內(nèi)通常簡化成為模體識別。
解決模體識別問題,需要運(yùn)用生物學(xué)、數(shù)學(xué)和計(jì)算機(jī)學(xué)等學(xué)科的綜合研究成果,在數(shù)學(xué)和計(jì)算機(jī)學(xué)的作用下,模體識別可以形象的認(rèn)為是在龐雜的復(fù)雜的背景信號中找到具有相對保守性的微小特征信號的模型。
而這類微小特征信號因?yàn)槟sw的片段較短,而較短的序列在規(guī)模較大基因組中重復(fù)出現(xiàn)的次數(shù)很多, 另外模體又現(xiàn)實(shí)存在一定的模體變體, 這使得背景中的噪音信號對所關(guān)注的信號有著很大的干擾,減少這種干擾就是模體識別問題的難點(diǎn)
1 模體的表示方法
在生物信息學(xué)領(lǐng)域,通常用三種模型來表現(xiàn)模體。分別是:一致序列(Consensus)模型、權(quán)值矩陣模型(Weight Matrix Model, WMM)、可視化模型。
1.1 一致序列(Consensus)模型
一致序列模型是指取各個模體實(shí)例中同一位置出現(xiàn)次數(shù)最多的堿基作為一致序列該位置的堿基,這樣組成的序列就被稱作一致序列。這樣一致序列模型是對模體的一種大致性表示,一致序列模型的結(jié)果并不一定存在于被表示DNA序列中。以表1作為例子來說明:
1.2 權(quán)值矩陣模型
由一致序列模型表示的模體除了簡單直觀在精確性上與實(shí)際要求相差很遠(yuǎn),隨著算法的發(fā)展,人們發(fā)現(xiàn)用權(quán)值矩陣矩陣更能表現(xiàn)出模體的特性。
矩陣的行代表了不同的堿基,矩陣的列代表了堿基序列的位置。假設(shè)該矩陣為 W, 那么 W(i,j)表示第 i 個堿基在堿基位置 j 出現(xiàn)的概率。以上表為例可以得出矩陣W(4,5),如圖1所示。
可以在權(quán)值矩陣模型下用似然函數(shù)來評價生物序列模體的保守程度。
1.3 可視化模型
logo模型是可視化模型的典型代表,它依據(jù)信息論用形象直觀的圖形方式來表示結(jié)合位點(diǎn)的特征。
在logo模型中,每個位上的值是所有在該位置上出現(xiàn)的堿基疊加生成,該位置上值的高度等于該位置上堿基出現(xiàn)的信息量之和,該位置上堿基的排列按照信息量的大小從上向下排列。例如我們把已在真實(shí)數(shù)據(jù)庫公布的模體用logo模型表示,如圖2。
logo模型可以用直觀圖形地表示出結(jié)合位點(diǎn)的保守度,以及堿基在具體位置上的分布和影響。
2 轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別研究歷程
根據(jù)轉(zhuǎn)錄因子結(jié)合位點(diǎn)在相關(guān)基因序列中的保守性,近年來人們開發(fā)了很多識別它們的算法。
較直觀使用的研究主要是基于字串枚舉的方法 ,其原理是:在給定的共表達(dá)基因上游區(qū)域中,模體序列的出現(xiàn)頻率比其背景序列片段現(xiàn)的頻率要高。因此,通過窮盡列舉輸入序列中所有可能的候選模體,計(jì)算出每個候選模體的實(shí)際現(xiàn)次數(shù)與其期望出現(xiàn)次數(shù)進(jìn)行比較衡量,選擇具有顯著統(tǒng)計(jì)特性的候選模體。
其中1984年Helden等人提出的Oligo-analysis方法;1992年 Pesole等人提出的模式驅(qū)動列舉(WordUp ) ;這兩種方法雖然簡單直觀但有兩個明顯的不足:時間復(fù)雜度高、僅適用于模體較小的情況,同時不能允許模體出現(xiàn)變體。接著,Helden對Oligo-analysis進(jìn)行了擴(kuò)展,2000年提出了dyad-analysis算法。該方法對兩端保守的模體識別率較高, 但當(dāng)模體保守區(qū)域長度定義后,搜索到的模體不能有變化,兩端保守區(qū)域也不能有變體的存在,因此只能應(yīng)用于某些特定結(jié)構(gòu)的模體識別。
2002年,Sinha,S等人提出了YMF法,即基于三階馬爾科夫鏈的簡單窮舉法。與之前算法不同,YMF可以用于預(yù)測的模體種類較多,但仍然有著枚舉法的通用弱點(diǎn)--如果模體較長則時間復(fù)雜度變得很差,識別精度也降低很快。為了能夠?qū)Y(jié)果更復(fù)雜,特征不明顯的較長(十幾至幾十堿基)模體進(jìn)行識別,2002年Eskin和Pevner提出了前綴樹法(Mitra)使用前綴樹描述搜索空間,通過分割搜索空間,刪除弱表達(dá)子空間,修剪完成后獲得的樹中各路徑即是顯著性模體。這種方法可以有效地減少搜索空間,能夠搜索較長的模體和組合型模體,缺點(diǎn)是模體長度需要預(yù)先設(shè)定,搜索空間較大。隨后在MITRA基礎(chǔ)上,Pavesi等人提出了后綴樹法(Weeder)方法。Weeder法對候選模體集并不是通過直接修剪搜索空間來獲得最終結(jié)果,而是通過對各候選模體在序列中實(shí)際現(xiàn)判定條件的嚴(yán)格限制,減少符合設(shè)定條件的模體數(shù)來得到。和Mitra方法相比Weeder方法不需要對模體長度進(jìn)行預(yù)先設(shè)定。endprint
在直觀的基于字串枚舉方法發(fā)展的同時,其他領(lǐng)域取得進(jìn)展的算法也在不停地被借鑒到模體識別問題中來。基于局部搜索的算法漸漸成為主流。此類算法是首先構(gòu)建一個模體的初始模型,例如相似度矩陣模型,然后對該模型在每次迭代中進(jìn)行相應(yīng)的調(diào)整,使其更接近真實(shí)的模體。經(jīng)過數(shù)次的迭代后,該模型最終收斂到一個局部最優(yōu)解。
其中:1990年La wrence等提出用EM 算法來解模體識別,但是它只能識別一個模體類型。于是在1995年Bailey和Elkan提出了改進(jìn)了的EM算法--ME ME算法, 通過擬合一個二元混合模型 ,優(yōu)化EM算法的初值來識別一個或多個模體的類型 。1999 年 , Hertz結(jié)合貪婪算法和E M算法編寫了CONSENSUS。 由于EM 算法常會陷入局部最優(yōu)解,在1993年La wrence等率先把吉布斯采樣法引入模體識別領(lǐng)域,吉布斯采樣算法是一種特殊的馬爾柯夫鏈蒙特卡羅方法。此后又現(xiàn)了很多基于吉布斯采樣算法的模體識別算法。如今已經(jīng)成為應(yīng)用最廣最成功的motif識別方法之一。
2000年,Pevzver和Sze 提出了植入(l,d)-motif模型,這具有里程碑的意義,i因?yàn)橐陨细鱾€方法都不能完全解答這個模型,需要尋找一個全面系統(tǒng)的同時能夠展示出基因序列間的拓?fù)浣Y(jié)構(gòu)、聯(lián)系、功能及進(jìn)化的模型。 這樣就把早在1969年Kau ffman就利用布爾關(guān)系構(gòu)建了那個原始的具有猜測性質(zhì)的基因網(wǎng)絡(luò),具現(xiàn)到(l,d)-模體識別這個問題上了。同時圖論的思想也被大量引入到模體識別領(lǐng)域。
3 轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別算法的分類
根據(jù)識別策略和搜索對象的不同,模體識別算法大致可分為三類:
第一類是de novo模體識別算法,該類算法是在沒有轉(zhuǎn)錄因子及其結(jié)合位點(diǎn)的先驗(yàn)信息的情況下,完全依靠計(jì)算方法在一系列共表達(dá)或者共調(diào)控基因的上游區(qū)域中識別未知模體;我們在第2章轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別研究歷程中所介紹的算法均屬于這一類。
第二類是結(jié)合ChIP-chip等高通量實(shí)驗(yàn)數(shù)據(jù)的預(yù)測算法;這種方法非常高效,以至于業(yè)內(nèi)稱之為下一代模體識別算法。
第三類是系統(tǒng)發(fā)育足跡分析法(Phylogenetic Footprinting),該類算法通過比較不同物種的DNA序列來搜索在多個物種之間保守的模體。
下面分別對上述三類算法進(jìn)行具體介紹:
3.1 de novo模體識別算法
de novo模體識別算法是指以一組共調(diào)控的基因作為輸入,用計(jì)算的方法查找在這些基因的上游調(diào)控序列中富集的模體。從策略上分可細(xì)分為窮舉型和比對型。在上一章中所介紹的Oligo-analysis方法、模式驅(qū)動方法、dyad-analysis方法、YMF方法、Mitra方法和Weeder方法等等均屬于窮舉型;而EM方法、MEME方法、吉布斯采樣方法引申出的各種方法等等均為比對型。
兩種方法各有優(yōu)勢也各有弱點(diǎn),窮舉法的弱點(diǎn)是所識別模體不可過長,否則耗費(fèi)時間過長,比對法的弱點(diǎn)是容易陷入局部最優(yōu)解。同時由于de novo模體識別算法依賴共調(diào)控信息使得二者都局限于只能對單物種進(jìn)行識別。
de novo模體識別算法一直以來都是模體識別領(lǐng)域的主要組成,各種經(jīng)典算法層出不窮,是這一領(lǐng)域的核心研究力量,近幾年來圖論和聚類算法的進(jìn)入,又給此類算法帶來新的活力。同時由此類算法向下一代算法引申變化以期更好解決模體識別問題的研究也一直在進(jìn)行中。
比如我們接下來介紹的基于染色質(zhì)免疫共沉淀技術(shù)的ChIP-seq算法。有很多方法是源自de novo算法。另外側(cè)重進(jìn)化層面的系統(tǒng)發(fā)育足跡分析法也大量借鑒了de novo算法的思想。
3.2 基于染色質(zhì)免疫共沉淀技術(shù)的ChIP-seq算法
染色質(zhì)免疫共沉淀技術(shù)(ChIP)的出現(xiàn)帶來了基因技術(shù)上的革命,CHIP-chip技術(shù)是ChIP技術(shù)和基因芯片技術(shù)的結(jié)合,帶來了大量的調(diào)控實(shí)驗(yàn)數(shù)據(jù),它可以間接確定DNA序列與轉(zhuǎn)錄因子結(jié)合與否,以及結(jié)合的強(qiáng)度。ChIP-chip技術(shù)的分辨率在800bp左右,遠(yuǎn)大于轉(zhuǎn)錄因子結(jié)合位點(diǎn)的長度,這樣就需要算法對其進(jìn)行進(jìn)一步的加工,在ChIP-tiling利用疊片式芯片進(jìn)一步增加了基因組的覆蓋率。將ChIP與第二代測序技術(shù)相結(jié)合的ChIP-Seq技術(shù),能夠高效地在全基因組范圍內(nèi)檢測與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段。ChIP-seq
技術(shù)的分辨率可以達(dá)到100bp甚至更高。
ChIP-Seq算法是這樣工作的:首先將測序得到的短序列片段匹配到參考基因組序列上;考慮到有一部分短序列不能匹配到參考基因組上,有可能是未知的基因組序列;另一部分是能夠匹配到基因組上的短序列,通常要對這些段序列進(jìn)行覆蓋度計(jì)算;繼而從匹配到基因組上的短序列中進(jìn)行富集區(qū)域的掃描。通常掃描到的富集區(qū)即被認(rèn)為是蛋白質(zhì)與DNA相互結(jié)合的區(qū)域。此時已得到我們所關(guān)注的結(jié)果,至于將計(jì)算數(shù)據(jù)轉(zhuǎn)變?yōu)檎鎸?shí)數(shù)據(jù)庫數(shù)據(jù)則是另一層面的問題。
和以往的de novo模體識別算法不同的是,以往的算法面對的是長度普遍在以千為數(shù)量級的,同源條數(shù)以幾十以內(nèi)的序列數(shù)據(jù),而ChIP-Seq算法面對的是長度為100左右而條數(shù)以十萬為數(shù)量級的序列數(shù)據(jù),這樣以往的算法就沒法照搬使用,針對這種情況,MEME算法、吉布斯采樣算法等經(jīng)典算法均做出了相應(yīng)的調(diào)整,形成了對ChIP技術(shù)的新變化。同時模式驅(qū)動和聚類求精之類的算法在ChIP技術(shù)的要求下形成了新型的算法...多種算法的形成不勝枚舉,在近一、兩年幾乎每天都有突破。可以說ChIP-Seq算法的下一代模體識別算法的地位已經(jīng)奠定。
3.3 系統(tǒng)發(fā)育足跡分析法
隨著測序技術(shù)的發(fā)展,越來越多的基因組被測序,系統(tǒng)發(fā)育足跡分析法在轉(zhuǎn)
錄因子結(jié)合位點(diǎn)預(yù)測中變得越來越重要。它的基本假設(shè)是,轉(zhuǎn)錄因子結(jié)合位點(diǎn)有調(diào)控功能,在進(jìn)化中應(yīng)該相對保守,進(jìn)化速度要慢于其它沒有功能的非編碼序列,因此預(yù)測轉(zhuǎn)錄因子結(jié)合位點(diǎn)就是搜索同源基因在多個物種中的對應(yīng)基因序列上的保守模體。endprint
2003年, Kellis、Cliften分別用此方法在酵母屬基因組中找到保守的模體, 2007 年,Kheradpour等對12個果蠅屬物種的全基因組進(jìn)行比較分析, 預(yù)測出若干保守模體存在于ChIP-Seq算法預(yù)測的有效富集區(qū)。均取得相應(yīng)的成果。
大部分此類算法思想是將共調(diào)控和進(jìn)化上保守兩種因素綜合起來,在de novo 預(yù)測算法的基礎(chǔ)上開發(fā)的,同時研究者將刻畫物種間進(jìn)化關(guān)系的進(jìn)化樹以及進(jìn)化距離等信息都添加到預(yù)測算法中,作為算法調(diào)控機(jī)制。以增加算法準(zhǔn)確率。其結(jié)果可以通過特定的ChIP-Seq算法驗(yàn)證。
和前兩種算法不同,系統(tǒng)發(fā)育足跡分析法面對在更宏觀背景下的模體識別問題,de novo算法與ChIP-Seq算法的每次進(jìn)步總是要對其產(chǎn)生促進(jìn),同時它的發(fā)展也對前兩者提供了驗(yàn)證信息和新的思路。最終生物信息學(xué)對生命的解讀將由這三類甚至更多、更新層級方法共同完成。
4 總結(jié)
可以看出轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別研究歷經(jīng)簡單枚舉、局部搜索、網(wǎng)絡(luò)模型、 與DNA芯片技術(shù)結(jié)合、與物種進(jìn)化結(jié)合等等過程,逐步形成了研究體系,各個過程中間不是簡單的技術(shù)換代,而是在新的技術(shù)條件下各種經(jīng)典的方法的延伸和發(fā)展。也就是說我們不能簡單地認(rèn)為局部搜索就優(yōu)于枚舉,或是ChIP-Seq算法優(yōu)于de novo算法等等,它們各階段的發(fā)展都是對彼此的促進(jìn)。在相互促進(jìn)融合的過程中,新的更適合當(dāng)下技術(shù)條件的算法會逐步被人們發(fā)現(xiàn)。只有通過各種數(shù)據(jù)的融合和相互校正,才能挖掘出可靠的轉(zhuǎn)錄因子結(jié)合位點(diǎn)和它對DNA序列轉(zhuǎn)錄調(diào)控關(guān)系。
通過對各類算法的分析,可以看出今后一個階段的研究仍是圍繞著減少序列背景中的噪音信號對所關(guān)注的模體信號的干擾,以及提高算法的時間效率來進(jìn)行的,新的實(shí)驗(yàn)技術(shù)和更多的同源序列信息被發(fā)現(xiàn),必將帶來更高效的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別算法。
參考文獻(xiàn)
[1]Patrik D'haeseleer,How does DNA sequence motif discovery work? Nature biotechnology volume 24 number 8 August 2006.
[2]Helden etc,Extracting regul atory sites from the upstream region of yeast genes by computational analysis of oligonucleotide frequencies. Journal of Mol ecular Biology, 1984, 281(5):527-842.
[3]Pesole etc,WORDUP:an efficient al gorithm for discovering statistically significant patterns in DNA sequences.Nucleic Acids Research, 1992,20(11):2871-2875.
[4]Helden etc,Discovering regulatory elements in non-coding sequences by analysis of spaced dyads.Nucl eic Acids Research,2000,28(8):1808-1818.
[5]Sinha,ect,Discovery of novel transcri ption factor binding sites by statistical overrespresentation. Nucleic Acids Research,2002, 30(24):5549-5560.
[6] Pavesi,G.,Mauri,G.ect Analgori thm for finding signals of unknown length in DNA sequences.Bi oinformat i cs,2002,17(1):207-214.
[7]Bailey,T.,L.and El kan,C.Fitting a mixture model by expectation maximizat i on to discover motifs in Bopolmers.Proc.of the 2th International Conference on Intelligent Systems for Molecular Biology,1994,pp28-36.
[8]Bailey ect,Unsupervised learning of multiple motifs in biopolymers using expectation maximization. Machine Learning.1995,21(1-2):51-80.
[9]Lawrence ect,Detecting subtle sequence signals:a gibbs samling strategy for multiple alignment. Science.1993,262:208-218.
[10]Pevzner PA,Sze SH(2000) Combinatorial approaches to finding subtle signals in DNA sequences. In: Altman R,Bailey TL,eds.Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology.California:AAAI Press.269-278.
[11]Ren B,Robert F,ect Genome-wide location and function of DNA binding proteins.Science,2000,290(5500): 2306-2309.
[12]Johnson DS ect Genome- wide mapping of in vivoprotein-DNA interactions. Science,2007,316(5830):1497-1502.
作者單位
西安電子科技大學(xué) 陜西省西安市 710070endprint
2003年, Kellis、Cliften分別用此方法在酵母屬基因組中找到保守的模體, 2007 年,Kheradpour等對12個果蠅屬物種的全基因組進(jìn)行比較分析, 預(yù)測出若干保守模體存在于ChIP-Seq算法預(yù)測的有效富集區(qū)。均取得相應(yīng)的成果。
大部分此類算法思想是將共調(diào)控和進(jìn)化上保守兩種因素綜合起來,在de novo 預(yù)測算法的基礎(chǔ)上開發(fā)的,同時研究者將刻畫物種間進(jìn)化關(guān)系的進(jìn)化樹以及進(jìn)化距離等信息都添加到預(yù)測算法中,作為算法調(diào)控機(jī)制。以增加算法準(zhǔn)確率。其結(jié)果可以通過特定的ChIP-Seq算法驗(yàn)證。
和前兩種算法不同,系統(tǒng)發(fā)育足跡分析法面對在更宏觀背景下的模體識別問題,de novo算法與ChIP-Seq算法的每次進(jìn)步總是要對其產(chǎn)生促進(jìn),同時它的發(fā)展也對前兩者提供了驗(yàn)證信息和新的思路。最終生物信息學(xué)對生命的解讀將由這三類甚至更多、更新層級方法共同完成。
4 總結(jié)
可以看出轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別研究歷經(jīng)簡單枚舉、局部搜索、網(wǎng)絡(luò)模型、 與DNA芯片技術(shù)結(jié)合、與物種進(jìn)化結(jié)合等等過程,逐步形成了研究體系,各個過程中間不是簡單的技術(shù)換代,而是在新的技術(shù)條件下各種經(jīng)典的方法的延伸和發(fā)展。也就是說我們不能簡單地認(rèn)為局部搜索就優(yōu)于枚舉,或是ChIP-Seq算法優(yōu)于de novo算法等等,它們各階段的發(fā)展都是對彼此的促進(jìn)。在相互促進(jìn)融合的過程中,新的更適合當(dāng)下技術(shù)條件的算法會逐步被人們發(fā)現(xiàn)。只有通過各種數(shù)據(jù)的融合和相互校正,才能挖掘出可靠的轉(zhuǎn)錄因子結(jié)合位點(diǎn)和它對DNA序列轉(zhuǎn)錄調(diào)控關(guān)系。
通過對各類算法的分析,可以看出今后一個階段的研究仍是圍繞著減少序列背景中的噪音信號對所關(guān)注的模體信號的干擾,以及提高算法的時間效率來進(jìn)行的,新的實(shí)驗(yàn)技術(shù)和更多的同源序列信息被發(fā)現(xiàn),必將帶來更高效的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別算法。
參考文獻(xiàn)
[1]Patrik D'haeseleer,How does DNA sequence motif discovery work? Nature biotechnology volume 24 number 8 August 2006.
[2]Helden etc,Extracting regul atory sites from the upstream region of yeast genes by computational analysis of oligonucleotide frequencies. Journal of Mol ecular Biology, 1984, 281(5):527-842.
[3]Pesole etc,WORDUP:an efficient al gorithm for discovering statistically significant patterns in DNA sequences.Nucleic Acids Research, 1992,20(11):2871-2875.
[4]Helden etc,Discovering regulatory elements in non-coding sequences by analysis of spaced dyads.Nucl eic Acids Research,2000,28(8):1808-1818.
[5]Sinha,ect,Discovery of novel transcri ption factor binding sites by statistical overrespresentation. Nucleic Acids Research,2002, 30(24):5549-5560.
[6] Pavesi,G.,Mauri,G.ect Analgori thm for finding signals of unknown length in DNA sequences.Bi oinformat i cs,2002,17(1):207-214.
[7]Bailey,T.,L.and El kan,C.Fitting a mixture model by expectation maximizat i on to discover motifs in Bopolmers.Proc.of the 2th International Conference on Intelligent Systems for Molecular Biology,1994,pp28-36.
[8]Bailey ect,Unsupervised learning of multiple motifs in biopolymers using expectation maximization. Machine Learning.1995,21(1-2):51-80.
[9]Lawrence ect,Detecting subtle sequence signals:a gibbs samling strategy for multiple alignment. Science.1993,262:208-218.
[10]Pevzner PA,Sze SH(2000) Combinatorial approaches to finding subtle signals in DNA sequences. In: Altman R,Bailey TL,eds.Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology.California:AAAI Press.269-278.
[11]Ren B,Robert F,ect Genome-wide location and function of DNA binding proteins.Science,2000,290(5500): 2306-2309.
[12]Johnson DS ect Genome- wide mapping of in vivoprotein-DNA interactions. Science,2007,316(5830):1497-1502.
作者單位
西安電子科技大學(xué) 陜西省西安市 710070endprint
2003年, Kellis、Cliften分別用此方法在酵母屬基因組中找到保守的模體, 2007 年,Kheradpour等對12個果蠅屬物種的全基因組進(jìn)行比較分析, 預(yù)測出若干保守模體存在于ChIP-Seq算法預(yù)測的有效富集區(qū)。均取得相應(yīng)的成果。
大部分此類算法思想是將共調(diào)控和進(jìn)化上保守兩種因素綜合起來,在de novo 預(yù)測算法的基礎(chǔ)上開發(fā)的,同時研究者將刻畫物種間進(jìn)化關(guān)系的進(jìn)化樹以及進(jìn)化距離等信息都添加到預(yù)測算法中,作為算法調(diào)控機(jī)制。以增加算法準(zhǔn)確率。其結(jié)果可以通過特定的ChIP-Seq算法驗(yàn)證。
和前兩種算法不同,系統(tǒng)發(fā)育足跡分析法面對在更宏觀背景下的模體識別問題,de novo算法與ChIP-Seq算法的每次進(jìn)步總是要對其產(chǎn)生促進(jìn),同時它的發(fā)展也對前兩者提供了驗(yàn)證信息和新的思路。最終生物信息學(xué)對生命的解讀將由這三類甚至更多、更新層級方法共同完成。
4 總結(jié)
可以看出轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別研究歷經(jīng)簡單枚舉、局部搜索、網(wǎng)絡(luò)模型、 與DNA芯片技術(shù)結(jié)合、與物種進(jìn)化結(jié)合等等過程,逐步形成了研究體系,各個過程中間不是簡單的技術(shù)換代,而是在新的技術(shù)條件下各種經(jīng)典的方法的延伸和發(fā)展。也就是說我們不能簡單地認(rèn)為局部搜索就優(yōu)于枚舉,或是ChIP-Seq算法優(yōu)于de novo算法等等,它們各階段的發(fā)展都是對彼此的促進(jìn)。在相互促進(jìn)融合的過程中,新的更適合當(dāng)下技術(shù)條件的算法會逐步被人們發(fā)現(xiàn)。只有通過各種數(shù)據(jù)的融合和相互校正,才能挖掘出可靠的轉(zhuǎn)錄因子結(jié)合位點(diǎn)和它對DNA序列轉(zhuǎn)錄調(diào)控關(guān)系。
通過對各類算法的分析,可以看出今后一個階段的研究仍是圍繞著減少序列背景中的噪音信號對所關(guān)注的模體信號的干擾,以及提高算法的時間效率來進(jìn)行的,新的實(shí)驗(yàn)技術(shù)和更多的同源序列信息被發(fā)現(xiàn),必將帶來更高效的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別算法。
參考文獻(xiàn)
[1]Patrik D'haeseleer,How does DNA sequence motif discovery work? Nature biotechnology volume 24 number 8 August 2006.
[2]Helden etc,Extracting regul atory sites from the upstream region of yeast genes by computational analysis of oligonucleotide frequencies. Journal of Mol ecular Biology, 1984, 281(5):527-842.
[3]Pesole etc,WORDUP:an efficient al gorithm for discovering statistically significant patterns in DNA sequences.Nucleic Acids Research, 1992,20(11):2871-2875.
[4]Helden etc,Discovering regulatory elements in non-coding sequences by analysis of spaced dyads.Nucl eic Acids Research,2000,28(8):1808-1818.
[5]Sinha,ect,Discovery of novel transcri ption factor binding sites by statistical overrespresentation. Nucleic Acids Research,2002, 30(24):5549-5560.
[6] Pavesi,G.,Mauri,G.ect Analgori thm for finding signals of unknown length in DNA sequences.Bi oinformat i cs,2002,17(1):207-214.
[7]Bailey,T.,L.and El kan,C.Fitting a mixture model by expectation maximizat i on to discover motifs in Bopolmers.Proc.of the 2th International Conference on Intelligent Systems for Molecular Biology,1994,pp28-36.
[8]Bailey ect,Unsupervised learning of multiple motifs in biopolymers using expectation maximization. Machine Learning.1995,21(1-2):51-80.
[9]Lawrence ect,Detecting subtle sequence signals:a gibbs samling strategy for multiple alignment. Science.1993,262:208-218.
[10]Pevzner PA,Sze SH(2000) Combinatorial approaches to finding subtle signals in DNA sequences. In: Altman R,Bailey TL,eds.Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology.California:AAAI Press.269-278.
[11]Ren B,Robert F,ect Genome-wide location and function of DNA binding proteins.Science,2000,290(5500): 2306-2309.
[12]Johnson DS ect Genome- wide mapping of in vivoprotein-DNA interactions. Science,2007,316(5830):1497-1502.
作者單位
西安電子科技大學(xué) 陜西省西安市 710070endprint