安相靜 周小安 張靜 沈沖沖
摘要:隨著基因組計劃的開展,DNA序列相似性分析成了現(xiàn)代生物學(xué)研究不可缺的一部分。本研究以H5N1、H1N1和H2N2等7種病毒的DNA序列作為研究對象,使用整數(shù)法將DNA序列編碼成時間序列信息,計算時間序列之間的互模式熵(Mutual Mode Entropy.MME)。分析不同DNA序列的MME對序列相似性的表達準(zhǔn)確性。實驗表明通過整數(shù)表示方法的DNA序列的MME能夠定性地解釋7種DNA序列之間的相似性關(guān)系。
關(guān)鍵詞:相似性分析;DNA序列;DNA表示方法;互模式熵
0引言
在人類基因組計劃(Human Genome Proiect.HGP)實施之前,生物技術(shù)比較陳舊,無法獲得長的、連續(xù)的基因序列,對DNA分子序列的研究只局限在分析相鄰堿基對之間的相關(guān)性,以及DNA片段中堿基密度的不均勻性討論。隨著HGP順利實施,生物信息學(xué)應(yīng)運而生,圍繞DNA序列和蛋白質(zhì)序列開展了一系列研究分析。DNA序列的相似性研究就是其中的一個分支。
迄今為止,DNA序列相似性分析方法層出不窮,Bemdt與Clifford提出的動態(tài)時間彎曲(DynamicTime Warping.DTW)是把時間序列規(guī)劃和距離測度相結(jié)合的非線性規(guī)劃技術(shù),用于計算兩個時間序列的最大相似性,李梅等將DTW應(yīng)用到DNA序列相似性研究當(dāng)中,取得了較好的效果,但DTW距離在本研究中計算時間復(fù)雜度較高。樣本熵的方法精度較高,能夠分析出更為微小復(fù)雜的序列之間的變化,但評估的時間尺度比較單一。近似熵算法雖有一定的抗噪性,但因其在度量序列復(fù)雜度時引入了自身數(shù)據(jù)的比較,會造成統(tǒng)計數(shù)據(jù)不穩(wěn)定。本研究采用互模式熵(MME)實現(xiàn)對DNA序列相似性估計,MME算法修改了判定矢量相似的準(zhǔn)則,不再考慮被比較的2個矢量縱坐標(biāo)位置是否相同,而通過2個矢量對應(yīng)的波形片段作為2個矢量相似的判定依據(jù)。此判定準(zhǔn)則能有效減少判斷矢量相似過程中對容限閾值r的依賴,不會因為信號大幅度波動或者信號長度忽然改變影響相似矢量的個數(shù),有效解決了近似熵存在的統(tǒng)計穩(wěn)定問題。
1 基于MME的序列相似性分析算法原理
模式熵(Mode Entropy.ModEn)算法的概念是寧新寶等人在2005年首次提出的,有效解決了度量短時大幅度緩慢變化的信號其復(fù)雜度的問題。互模式熵(Mutual Mode Entropy.MME)是ModEn算法的延伸。用來度量不同序列之間是否存在高度耦合的問題。計算步驟如下:
首先,對于2組包含N個數(shù)據(jù)的時間序列:{u(i):O≤i≤N-1},{v(j):0≤j≤N-1}從每組數(shù)據(jù)中連續(xù)取m個數(shù)據(jù)點,分別組成其對應(yīng)的m維矢量:
x(i)=[u(i),u(i+1),…,u(i+m-1)];Y(j)=[v(j),v(j+1),…,v(j+m-1)],(1)
基準(zhǔn)線分別是每一個m維矢量的平均值,其計算公式為:
MME算法是不同序列之間的相似程度的量化。不僅可以用于計算不同DNA序列之間的差異,還可以用于了解同一個序列不同區(qū)間段之間的差異,對于DNA序列相似性的分析研究具有十分重要的意義。
2 實驗結(jié)果及分析
2.1 實驗數(shù)據(jù)
本文實驗中采用7種DNA片段序列數(shù)據(jù),是由NCBI數(shù)據(jù)庫中下載(詳細(xì)信息見:http://www.ncbi.nlm.nih.gov),接下來運用ModEn算法及MME法來分析研究這些DNA片段序列。
2.2 DNA序列的整數(shù)表示方法
由于7種病毒DNA序列的片段信息都是字符串形式,不利于實驗分析研究,因此需要將其轉(zhuǎn)化為時間序列。采用整數(shù)表示方法,其映射關(guān)系為:
2.3 實驗結(jié)果
從公式(7)可知,DNA序列之間的MME值是由編碼長度m、容限閾值r、序列長度n.3個參數(shù)共同決定。依次計算為m=1.2.…,7時,H5N1(1)與其它6種病毒之間的MME值。令R=|0.2*cov(u.v)|,N=900。實驗結(jié)果見表1。
由表1可知,m=2時,MME最小;m=1.3時,H5N1(1)與H5N1(2)之間的MME值和H5N1(2)與其它5個序列之間的MME值相差1個數(shù)量級,m=4.5.7時,MME相差1-2個數(shù)量級,m=2.6時,MME相差2個數(shù)量級,差異最大。綜上所述,當(dāng)編碼長度m=2時最能保證實驗陸能和準(zhǔn)確性。
令編碼長度m=2.r=|0.2*cov(u.v)
分別對7種病毒的DNA序列進行MATLAB仿真,得到7種病毒的DNA序列之間的MME值見表2。
由表2實驗結(jié)果可知:H5N1(1)與H5N1(2)之間的MME最小,說明其相似程度最高。H5N1(1)與SARS的MME值在表2的第一行中是最大的,也就是說H5N1(1)與SARS之間的相似程度最小。
實驗結(jié)果及分析證明MME算法在DNA序列之間的相似性研究中,能有效判斷出不同DNA序列之間的相似程度。
3 結(jié)束語
本研究通過MME算法對7種病毒做DNA序列相似性研究,實驗結(jié)果的定性分析更加穩(wěn)定、有效。本研究是MME算法應(yīng)用的冰山一角還有更多非線性研究領(lǐng)域可以對其展開更深入的研究,對DNA序列相似性進行定量分析是未來的研究方向。