劉旻昊
摘 要:Shannon熵理論可用于描述“無(wú)序狀態(tài)”,而以Shannon熵為基礎(chǔ)的AMI圖形的算法則包含了生物序列的獨(dú)特信息。DNA序列蘊(yùn)含了生命的所有信息,基于Shannon熵為基礎(chǔ)的AMI則描述了這種“無(wú)序狀態(tài)”的變化趨勢(shì)。這種計(jì)算方法簡(jiǎn)單易行,在遺傳學(xué)、醫(yī)學(xué)和生物學(xué)等領(lǐng)域都有廣泛的應(yīng)用。
關(guān)鍵詞:Shannon熵 基因突變 多樣性
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2015)03(a)-0242-01
隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,對(duì)復(fù)雜冗長(zhǎng)的DNA序列的分析研究變?yōu)楝F(xiàn)實(shí)。如何分析這些數(shù)據(jù),提取相應(yīng)的特征量來(lái)描述生命體之間的聯(lián)系,是近年研究的熱門問(wèn)題。通過(guò)近幾年的發(fā)展,也開發(fā)出一系列對(duì)比軟件,常用的有CLUSTRALW等軟件。
該文擬提取出不同DNA序列的平均互信息AMI作為特征參數(shù),通過(guò)多元統(tǒng)計(jì)的方法對(duì)DNA序列進(jìn)行描述,進(jìn)而可以進(jìn)行分類,在遺傳學(xué)、醫(yī)學(xué)等領(lǐng)域廣泛應(yīng)用。此種方法的優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單且速度較快,對(duì)大量數(shù)據(jù)的處理非常方便且準(zhǔn)確率較高。
1 平均互信息AMI
對(duì)隨機(jī)變量M,事件m的自信息定義為:
其中p(m)是事件m發(fā)生的概率,自信息I(m)是事件m發(fā)生的可能性的一種度量,表示事件M=m發(fā)生時(shí),事件m所含有的所能提供的信息量。
對(duì)隨機(jī)變量M和N,M的事件m與N的事件n之間的互信息定義為:
其中表示在事件n發(fā)生的概率下m發(fā)生的條件概率。
根據(jù)上述公式,可以定義基因序列的平均互信息(AMI):
其中為4種核苷酸A、C、G、T的集合,如果固定X在基因序列上的某一位置,則Y為X下游方向間隔k個(gè)位置的核苷酸。和是核苷酸為X和Y的概率。其中表示前一個(gè)核苷酸為X,下游方向間隔k個(gè)位置為Y的組合的個(gè)數(shù),這樣就表示X和Y間隔為k的聯(lián)合分布概率。當(dāng)k=0時(shí),就表示了緊鄰二聯(lián)體核苷酸的概率,k=1時(shí)表示次緊鄰二聯(lián)體核苷酸的分布率[1]。
[2]就是基因序列的AMI,不同的k值對(duì)應(yīng)不同的,對(duì)于每一個(gè)基因組,我們都能夠得到一組向量,不同的基因序列,則可以得到不同的向量。
2 相關(guān)系數(shù)
在該文中我們選擇的是pearson相關(guān)系數(shù),又稱為線性相關(guān)系數(shù),它能反映兩個(gè)數(shù)據(jù)集之間的線性相關(guān)程度。
令為兩個(gè)向量和的Pearson相關(guān)系數(shù),和代表的AMI各有k個(gè)分量(,,…,)和(,,…, )。
這是一個(gè)范圍在[-1,+1]之間的數(shù)值,若相關(guān)系數(shù)為+1,表示兩個(gè)數(shù)據(jù)集合之間呈現(xiàn)完美的正線性相關(guān);若相關(guān)系數(shù)為-1,則表示量數(shù)據(jù)集之間是負(fù)線性相關(guān);若相關(guān)系數(shù)為0,則表示兩組數(shù)據(jù)之間沒(méi)有線性相關(guān)性。
3 距離計(jì)算
根據(jù)相關(guān)系數(shù),我們定義兩種基因的AMI之間的距離為:
通過(guò)計(jì)算的距離可以看出各個(gè)物種與自己的距離為0,與其他物種的距離則根據(jù)進(jìn)化關(guān)系的遠(yuǎn)近而不同。
4 聚類分析
通過(guò)計(jì)算不同物種兩兩之間的AMI距離,可以得到一個(gè)距離矩陣。對(duì)于這個(gè)距離,該文選用“ward”法即離差平方和方法進(jìn)行聚類[3]。
5 K值選擇
對(duì)于不同的基因組,首先提取各自序列的AMI的值,對(duì)于k值大小的選取,通過(guò)反復(fù)計(jì)算,認(rèn)為取0到500是比較合適的。這樣每種基因組就得到一個(gè)向量,共有501個(gè)分量。對(duì)于不同基因組的AMI向量,計(jì)算相關(guān)系數(shù)得到距離,兩兩相比較距離得到一個(gè)距離矩陣,對(duì)距離矩陣通過(guò)ward法聚類,最后得到結(jié)果。
6 具體應(yīng)用
通過(guò)此種方法,可以很方便地對(duì)各類DNA序列進(jìn)行分類和研究。該課題研究者對(duì)64種脊椎動(dòng)物線粒體DNA繪制了生物進(jìn)化樹,進(jìn)行分類進(jìn)而構(gòu)建它們之間的進(jìn)化關(guān)系的應(yīng)用。
參考文獻(xiàn)
[1] Yuan Zhi fa,Zhou Jing yu,Guo Man cai,et al.Gene Diversity and Shannon Information Entropy.Animal[A]Biotechnology Bulletin,8(1):353-358.
[2] 羅遼復(fù).生命進(jìn)化的物理觀[M].上海:上海科學(xué)技術(shù)出版社,2000,168-183.
[3] Mark Bauer,Sheldon M Schuster, Khalid Sayood.The Average Mutual Information Profile as a Genomic Signature[J].BMC Bioinformatics,2008 Jan 25,9:48.