• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于基因本體的相似度計算方法

    2019-01-11 06:00:10榮河江王亞東
    智能計算機與應(yīng)用 2019年1期
    關(guān)鍵詞:信息量祖先計算方法

    榮河江, 王亞東

    (哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

    0 引 言

    本體作為知識工程、知識表示等計算機學(xué)科的研究熱點和重要領(lǐng)域知識描述工具,也成為了生物數(shù)據(jù)的重要描述方式。本體通過明確的語言,以形式化的方式描述給定領(lǐng)域的概念及概念之間的關(guān)聯(lián)。每一個事物都有一些性質(zhì)和關(guān)系,一個事物的性質(zhì)和關(guān)系統(tǒng)稱為事物的屬性。比較事物的相似度就是定量評估事物間的屬性。本體是研究不同術(shù)語關(guān)系的一種有效方法?;虮倔w在過去十年間,成為應(yīng)用最為廣泛的生物醫(yī)學(xué)本體之一。

    基因作為遺產(chǎn)信息的攜帶者,其相似性的研究在生物醫(yī)學(xué)領(lǐng)域受到高度關(guān)注。研究基因及基因產(chǎn)物之間的相互作用關(guān)系,對于探索生命奧秘具有重要的意義。

    基因本體(Gene Ontology)可以計算不同分子功能術(shù)語或生物過程術(shù)語之間的相似度,從而衡量不同分子功能或生物過程之間的關(guān)系;基于疾病本體(Disease Ontology)可以計算不同疾病術(shù)語之間的相似度,從而衡量不同疾病之間的關(guān)聯(lián)關(guān)系。

    隨著高通量生物技術(shù)的進步,人類基因組測序和多物種基因測序工作的發(fā)展,推動了基因識別的研究進程,積累了海量的基因數(shù)據(jù)。為了更好地利用生物數(shù)據(jù)及其包含的信息,通過相似性分析獲得已有的基因信息來推斷基因的結(jié)構(gòu)、功能和進化關(guān)系,可以為生物學(xué)家的研究提供幫助。相似性分析是生物信息學(xué)的基礎(chǔ)之一,也是生物信息學(xué)的熱點研究領(lǐng)域。目前,如何充分利用現(xiàn)有的基因數(shù)據(jù)和注釋信息來計算基因的相似性,提高計算精度,是將基因技術(shù)轉(zhuǎn)化為生物醫(yī)學(xué)應(yīng)用亟需解決的問題之一。

    1 基因相似性計算現(xiàn)狀

    1.1 基因本體研究解析

    基因本體項目(Gene Ontology project)從1998年創(chuàng)立至今,基因本體數(shù)據(jù)得到了急速積累。該項目的重點是將基因做系統(tǒng)性的注釋,不僅僅用基因的序列來描述,而是用更加豐富多元化的方式來描述基因的性質(zhì),基因本體就是基因的注釋分類。由于生物系統(tǒng)驚人的復(fù)雜性,并且要分析的數(shù)據(jù)集數(shù)量不斷增加,生物醫(yī)學(xué)研究越來越依賴于以計算機形式存儲的知識?;虮倔w(GO)項目提供了目前可用于計算基因和基因產(chǎn)物功能的最全面資源[1]。

    基因本體可用于形式化、規(guī)范地注釋基因和基因產(chǎn)物的特性。基因本體包含3個分支,可闡釋如下。

    (1)分子功能(Molecular function):描述分子的化學(xué)功能。

    (2)生物過程(Biological process):描述基因產(chǎn)物可行使功能的生物學(xué)目的和過程。與分子功能相比,生物過程必須有多個清晰的步驟。

    (3)細(xì)胞組件(Cellular component):描述亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物。

    基因本體信息可以構(gòu)建一個有向無環(huán)圖(Directed Acyclic Graph, DAG)。其設(shè)計結(jié)構(gòu)可如圖1所示。節(jié)點表示本體中的術(shù)語。邊表示術(shù)語之間的關(guān)系,包括“is-a”、“part-of”、“regulate”三種類型。如果一個節(jié)點是另一個節(jié)點的子孫節(jié)點,那么前一個節(jié)點是后一個節(jié)點的子類型。

    圖1 GO結(jié)構(gòu):有向無環(huán)圖

    根據(jù)Pesquita等人[2]2009年發(fā)表文章綜述,現(xiàn)有醫(yī)學(xué)本體節(jié)點語義相似性的計算分為3類,分別是:基于邊的方法(edge-based)、基于點(node-based)的方法和混合方法(hybrid)。其中,基于邊的方法、即基于距離的方法,主要計算圖中2個術(shù)語之間的路徑數(shù)目。該技術(shù)利用最短路徑或所有路徑的平均值來定義概念間的距離,如果數(shù)據(jù)間的距離越大,表明數(shù)據(jù)之間的相似度越小。基于點的方法,又稱為基于信息量(Information Content)的計算方法。該方法認(rèn)為2個術(shù)語共享的信息越多,相似度越高。混合方法則基于術(shù)語的有向無環(huán)圖的計算方法,既考慮術(shù)語祖先對其信息量的影響,也考慮術(shù)語所在位置的影響。諸如,基于語義覆蓋的Combine算法就是混合方法。

    1.2 術(shù)語的相似性分析

    術(shù)語的相似性主要基于2個因素:術(shù)語包含的信息量(information content, IC)和術(shù)語的層次結(jié)構(gòu)。直觀上看,如果術(shù)語經(jīng)常被用來注釋實體,那么其中所含有的信息量就會減少,即術(shù)語的信息量與其所注釋實體的數(shù)量成反比。

    在這里,Sheldon[3]對術(shù)語信息量(information content)做出了如下定義:

    IC(t)=-log(p(t))

    (1)

    其中,anno(t)是術(shù)語t的直接注釋實體數(shù)量,則分子表示t及其子孫對應(yīng)的注釋實體數(shù)量,分母表示根節(jié)點(root)子孫節(jié)點注釋實體數(shù)量,即為集合內(nèi)實體的總數(shù)。

    p(t)公式也可以簡化表示為:

    (2)

    其中,F(xiàn)req(t)表示t及其后代的注釋實體數(shù)量,|I(DO)| 表示集合內(nèi)實體的總數(shù)。

    從數(shù)學(xué)角度解釋,基因術(shù)語C的信息量定義為其在所有基因術(shù)語實體中出現(xiàn)的概率p(c)的負(fù)對數(shù)函數(shù)。由式(1)、式(2)可以很簡明地看出,p(t)越接近0,則信息量IC(t) 越大,這也符合信息增益理論;p(t)越小,其在信息本體構(gòu)成的有向無環(huán)圖中的層次越低(遠(yuǎn)離根節(jié)點),其注釋到的基因也越少,表示的內(nèi)容越具體,因此信息量越大。

    1.3 基于節(jié)點的算法研究總述

    按照前文信息量的定義,每個基因術(shù)語的信息量都可以通過計算自身及其后代節(jié)點的注釋實體個數(shù)得到。研究人員提出如下一種假設(shè):2種術(shù)語,如果這2種術(shù)語的祖先節(jié)點信息量越大,則兩者之間就會越相似。由此產(chǎn)生了一系列基于節(jié)點的相似度計算方法。

    將2個節(jié)點的祖先(common ancestor)節(jié)點定義如下:對于基因術(shù)語C1和C2,兩者通常有一個到多個共同祖先,令CA(C1,C2)表示這些祖先集合。Resnik[4]認(rèn)為2個節(jié)點共享的信息越多,則這2個節(jié)點間就越相似,由此提出采用一種語義相似度計算方法:C1和C2的相似度用CA(C1,C2)中信息量最大的那個祖先(most informative common ancestor, MICA)的信息量來表示。研究推得數(shù)學(xué)公式表述如下:

    SimResnik(C1,C2)=IC(MICA(C1,C2))

    (3)

    Resnik提出最大信息量共同祖先的概念。這是較早的、也是經(jīng)典的語義相似性計算方法,但是該方法只考慮了節(jié)點的共性,而忽略了本體架構(gòu)方面的信息,當(dāng)2個節(jié)點的最低公共祖先相同時,其下層的節(jié)點語義相似性將不能進行區(qū)分。在此基礎(chǔ)之上,Jiang等人[5]就隨即提出了最低共同祖先(lowest/least common ancestor, LCA)的概念。根據(jù)最低共同祖先的概念,疾病C1和C2的相似度為IC(LCA(C1,C2))。Wu等人[6]也相繼提出了最近共同祖先(most recent common ancestor, MRCA)的概念,由此得到MRCA的數(shù)學(xué)定義可見如下:

    (4)

    其中,dist(C1,C)表示C1與C1和C2的共同祖先C的最短距離。根據(jù)Wu等人的計算方法,疾病C1和C2的相似度為IC(MRCA(C1,C2))。

    Couto等人[7]引入公共不相容祖先結(jié)合的概念(common disjunctive ancestors, CDAs)。不相容祖先節(jié)點的數(shù)學(xué)公式描述如下:

    DisjAnc(t)={(C1,C2)|

    (?P:(P∈Paths(C1,t))∧(C2?p))∧

    (?P:(P∈Paths(C2,t))∧(C1?p))}

    (5)

    從上述定義可以看出,節(jié)點t的不相容祖先節(jié)點為:如果存在一條路徑,從C1到t而不通過C2,同時有另外一條路徑,從t到C2而不通過C1,那么節(jié)點C1和C2就是節(jié)點t的不相容祖先節(jié)點。綜合上述定義推得,疾病C1和C2的相似度計算公式為:

    (6)

    其中,|CDAs(C1,C2)|表示共同不相容祖先的個數(shù)。

    上述基于祖先節(jié)點信息量的疾病相似性方法,都是基于共同祖先的概念,從單個或部分祖先節(jié)點的角度考慮2個術(shù)語的相似性,而忽略了屬于自身的信息和不同層次的節(jié)點信息差異。以圖2的DAG圖為例,利用MICA的計算方式,2個節(jié)點的相似度為這2個節(jié)點在DAG結(jié)構(gòu)中擁有最大信息量的共同祖先節(jié)點的信息量。而在圖2中,節(jié)點B、C和節(jié)點B、D擁有相同的MICA,得到的相似度相同。但是分析后卻會發(fā)現(xiàn),C和D屬于不同的層次關(guān)系,B、C的相似度應(yīng)該高于B、D的相似度。因此不同層次的節(jié)點信息差異也是研究參考因素之一。

    圖2 基因本體DAG圖示

    Lin[8]認(rèn)為Resnik的方法忽略了2個術(shù)語自身的信息量,當(dāng)2個術(shù)語信息量較大時,對相似度準(zhǔn)確性的影響也較大。基于此,Lin則提出了一種新的相似度計算方法,定義疾病C1和C2的相似度為:

    (7)

    Lin的方法融入了術(shù)語自身的信息量,但是卻并未考慮不同層次節(jié)點信息差異。直觀上,2個疾病的MICA越靠近根節(jié)點,其所共享的信息量就越小。為了解決這一問題,Schlicker等人[9]研發(fā)提出了修正后的Simlin公式,采用系數(shù)1-p(c)進行修正。研究中遵循的相似度計算公式如下:

    SimSchlicker(C1,C2)=Simlin(C1,C2)×(1-p(c))

    (8)

    完整的計算公式即為:

    (9)

    其中,tMICA表示t為疾病C1和C2的MICA,當(dāng)t為根節(jié)點時,p(tMICA)=0,這與實際不符。在此基礎(chǔ)上,Li等人[10]又提出了新的修正系數(shù),調(diào)整后的節(jié)點C1和C2相似度計算公式如下:

    SimLi(C1,C2)=Simlin(C1,C2)×

    (10)

    接下來,在基于邊和基于點的相似度計算方法之上,Wang等人[11]設(shè)計提出了一種利用混合技術(shù)的相似度計算方法。對DAG圖中的每一條邊依據(jù)節(jié)點的關(guān)系(is-a關(guān)系或as-a關(guān)系)賦予不同的權(quán)值。根據(jù)定義,一個節(jié)點的子有向無環(huán)圖為該節(jié)點及其祖先節(jié)點。同時,研究中又定義了一個指標(biāo),用于描述位于節(jié)點A的子有向無環(huán)圖中的任意一個節(jié)點t,叫做節(jié)點t對節(jié)點A的語義貢獻值。該值是節(jié)點t到節(jié)點A的最優(yōu)路徑中所有邊權(quán)的乘積。公式描述如下:

    (11)

    約定we為語義的貢獻因子,根據(jù)節(jié)點關(guān)系的不同,賦予不同范圍區(qū)間的值。

    根據(jù)Wang等人的定義,2個節(jié)點C1和C2的相似度為:

    (12)

    其中,SV(C1)為節(jié)點C1在DNA圖中總的語義貢獻值。即使是同一個祖先,由于相對于C1和C2的位置不同,該祖先對C1和C2的貢獻度可能也不同。Wang的方法利用了本體節(jié)點之間的拓?fù)浣Y(jié)構(gòu),考慮到了本體上路徑信息特征,雖然不是基于信息量的,但是具有較好的實驗效果。

    此外,李榮等人[12]提出了語義路徑覆蓋的概念。該算法根據(jù)路徑的相交程度來計算彼此之間的相似性的值。采用基于語義鏈接(semantic links)的方法對每一概念的信息量進行計算。分別計算2個節(jié)點語義路徑上交集節(jié)點的信息量之和與并集節(jié)點的信息量之和,將兩者的比率作為其相似性的值。Combine算法求解v1和v2的計算過程可分述如下。

    (1)計算出GO中節(jié)點的總個數(shù)N。

    (2)對每個節(jié)點φ,計算出該節(jié)點的子孫節(jié)點的個數(shù)φ′。

    (3)計算每個φ的子孫節(jié)點出現(xiàn)的概率p(φ)=φ′/N。

    (4)計算φ的信息量IC(φ)。

    (5)計算節(jié)點v1和節(jié)點v2語義路徑交α、語義路徑并β。

    (6)分別計算α所包含節(jié)點的信息量IC(α),β所包含節(jié)點的信息量IC(β)。

    (7)定義節(jié)點v1和v2的相似性為IC(α)和IC(β)的比率,即:

    (13)

    2 改進的基因相似度計算方法

    利用2種疾病的祖先節(jié)點信息計算2個疾病的相似性,方法簡單且利于理解。但是只利用祖先節(jié)點信息,忽略自身的信息量,以及忽略注釋實體之間關(guān)系,都會對相似度的準(zhǔn)確性造成影響。研究可知,疾病本體DO包括16層節(jié)點,每層節(jié)點信息的分布箱線圖如圖3所示。通過對圖3的考察分析可以發(fā)現(xiàn),節(jié)點的位置與信息量成明顯相關(guān)性[13],必須充分考慮不同層次節(jié)點信息量的差異。

    圖3 DO不同層節(jié)點信息量分布箱線圖

    Fig.3BoxplotofinformationcontentdistributionamongnodesfromdifferentlayerofDO

    本文在兩節(jié)點最近公共祖先點(most recent common ancestor)和最低公共祖先節(jié)點(least common ancestor)的基礎(chǔ)上,定義Ri公共節(jié)點(Ri common ancestor, RiCA)的公式具體如下:

    RiCA=α×IC(LCA(C1,C2))+β×IC(MRCA(C1,C2))

    (14)

    其中,α,β為常系數(shù)因子;LCA(C1,C2)表示C1,C2節(jié)點的最低公共祖先節(jié)點,從C1,C2的祖先節(jié)點集合中,選擇距離根節(jié)點(root)距離最遠(yuǎn)的節(jié)點,并用信息量IC公式計算其信息量。MRCA(C1,C2)表示最近祖先節(jié)點,將其定義為C1,C2的所有祖先節(jié)點中,與C1,C2的距離最短的點,即所跨越的邊個數(shù)最短的點。換言之就是,LCA考慮了標(biāo)定的2個術(shù)語之間的相似性。而MRCA結(jié)合了拓?fù)浣Y(jié)構(gòu)中邊的概念,使得注釋實體在本體路徑上得到了新式的更佳利用。通過乘以α,β兩個常數(shù)因子,將2種方法得到的信息量整合起來,形成新的信息量評價值RiCA。

    同時,由于兩節(jié)點的祖先節(jié)點相似度計算僅利用到了祖先節(jié)點信息,忽略了其它實體關(guān)系,而Li的公式包含了屬于自身信息量和不同層次節(jié)點的信息差異,且有較好表現(xiàn),基于Li的公式,引入RiCA算子,得出兩節(jié)點相似度的Ri計算即如式(15)所示:

    (15)

    3 實驗對比分析

    3.1 實驗數(shù)據(jù)和評價指標(biāo)

    本體術(shù)語間相似度的評價是一個難題,一些本體術(shù)語間的實際功能相似性仍然無法準(zhǔn)確知道。以疾病本體基因為例,一些疾病的關(guān)聯(lián)性需要通過臨床驗證才能得出準(zhǔn)確評價。沒有一個公認(rèn)的評價標(biāo)準(zhǔn)。在這里,研究采用了專家評分的方式進行評價。

    李榮的研究團隊從GO術(shù)語庫篩選了25對術(shù)語,分別讓10位與研究項目無關(guān)的生物學(xué)專家對術(shù)語之間的相似性進行打分[12],然后將專家打分的平均分作為評價基準(zhǔn)。計算結(jié)果與專家結(jié)果的相似度高,則認(rèn)為該方法準(zhǔn)確性高。

    本文采用25對術(shù)語進行篩選,去掉一些已經(jīng)過時的術(shù)語,選取其中的15對進行測試。挑選的術(shù)語對列表可見表1。

    表1 挑選的GO術(shù)語對

    采用ZZL方法、Rensik方法、Lin方法、Combine方法和本文提出方法對15對術(shù)語的相似度進行計算,計算結(jié)果見表2。

    表2 人工打分各項對比

    3.2 實驗結(jié)果和分析

    經(jīng)過反復(fù)測試數(shù)據(jù),當(dāng)α= 0.6,β= 0.4時,相關(guān)系數(shù)取得最大值。得到的本文方法與人工打分的相關(guān)系數(shù)為0.872 1。研究得到的各種算法的運算結(jié)果與人工打分的相關(guān)系數(shù)可詳見表3。

    表3 各方法的相關(guān)系數(shù)

    從上述的比較結(jié)果中可以看出,本文的方法獲得了較高的相關(guān)系數(shù),表明在計算術(shù)語相似度方面取得較好的效果。主要是因為本文研究中不但基于兩術(shù)語祖先節(jié)點的計算方法,而且結(jié)合了最近祖先節(jié)點和最低祖先節(jié)點的信息量,獲得較優(yōu)的信息量評價指標(biāo)。同時考慮到了語義節(jié)點自身包含的信息量和不同層次語義結(jié)構(gòu)的差異性影響,借鑒Li提出的語義相似度的方法,有效綜合這些因素,因此獲得了更好的準(zhǔn)確性。

    4 結(jié)束語

    基因術(shù)語相似度計算,具有重要的意義。研究在Li方法的基礎(chǔ)上,結(jié)合最近公共祖先節(jié)點和最低層次公共祖先節(jié)點,提出一種改進的相似度計算方法。該方法能夠在評測術(shù)語節(jié)點間信息量的同時,考慮了2個術(shù)語自身的信息量,加入信息量均值的處理,使得算法具有較好的表現(xiàn)。實驗結(jié)果表明,相比其它算法,取得了較高的相關(guān)系數(shù)。在多數(shù)情況下,本算法求出的結(jié)果具有更優(yōu)的生物學(xué)意義。在后續(xù)的工作中,將進一步綜合影響術(shù)語相似性度量的因素,以提高算法的正確性。

    猜你喜歡
    信息量祖先計算方法
    浮力計算方法匯集
    烏龜:想不到祖先最早是“宅男”
    始祖鳥不是鳥祖先
    我們的祖先是條魚
    基于信息理論的交通信息量度量
    如何增加地方電視臺時政新聞的信息量
    新聞傳播(2016年11期)2016-07-10 12:04:01
    隨機振動試驗包絡(luò)計算方法
    不同應(yīng)變率比值計算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
    誰說我們一定要像祖先一樣過
    基于多尺度互信息量的數(shù)字視頻幀篡改檢測
    計算機工程(2015年4期)2015-07-05 08:29:20
    德化县| 保靖县| 汝阳县| 滦平县| 沂源县| 聂荣县| 晋宁县| 沈丘县| 汝州市| 凤山市| 遂溪县| 荥阳市| 措美县| 白玉县| 九台市| 依安县| 油尖旺区| 英德市| 鄂尔多斯市| 旬阳县| 遵义市| 兴化市| 巫溪县| 乐平市| 洪江市| 莱芜市| 隆尧县| 聂拉木县| 武汉市| 易门县| 永修县| 安岳县| 南京市| 大石桥市| 安多县| 重庆市| 彭水| 滁州市| 西畴县| 正蓝旗| 双柏县|