• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于組合核的蛋白質(zhì)交互關(guān)系抽取

      2013-04-23 12:25:44李麗雙黃德根
      中文信息學(xué)報(bào) 2013年1期
      關(guān)鍵詞:卷積蛋白質(zhì)文獻(xiàn)

      李麗雙,劉 洋,黃德根

      (大連理工大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116023)

      1 引言

      隨著信息數(shù)字化和生物醫(yī)學(xué)的快速發(fā)展,生物醫(yī)學(xué)文獻(xiàn)正以指數(shù)級的速度增長,要從這些浩如煙海的文獻(xiàn)中找出所需的信息越來越難。作為生物醫(yī)學(xué)信息抽取領(lǐng)域的一個(gè)重要部分,蛋白質(zhì)交互關(guān)系抽取具有很高的應(yīng)用價(jià)值,尤其是對蛋白質(zhì)知識網(wǎng)絡(luò)的建立、蛋白質(zhì)關(guān)系的預(yù)測、新藥的研制等均具有重要意義。

      目前用于PPI抽取的方法可以分為三種,基于詞共現(xiàn)的方法,基于模式匹配的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法?;谠~共現(xiàn)的方法將在同一個(gè)句中出現(xiàn)的詞進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)學(xué)原理判斷是否存在蛋白質(zhì)交互關(guān)系。由于基于同現(xiàn)的方法簡單而且靈活,這種方法被廣泛應(yīng)用于關(guān)系抽取,并且能獲得很高的召回率。文獻(xiàn)[1]把同現(xiàn)統(tǒng)計(jì)應(yīng)用到句子水平的關(guān)系抽取,抽取性能得到了提高。但是這種方法由于缺乏對新關(guān)鍵詞的統(tǒng)計(jì),所以很難發(fā)現(xiàn)新的PPI。

      基于模式匹配的方法是利用事先定義好的模式和規(guī)則進(jìn)行關(guān)系抽取。文獻(xiàn)[2]提出利用動(dòng)態(tài)規(guī)劃算法自動(dòng)從文獻(xiàn)中獲得匹配模式的方法進(jìn)行蛋白質(zhì)交互關(guān)系抽取,取得了較好效果。文獻(xiàn)[3]提出了一個(gè)規(guī)則學(xué)習(xí)方法,并且證明了這種規(guī)則獲得方法比手工方法好。但基于模式匹配的方法并不能涵蓋全部的模式,也不能產(chǎn)生新的模式。

      基于機(jī)器學(xué)習(xí)的方法彌補(bǔ)了上述兩種方法的缺陷,將關(guān)系抽取轉(zhuǎn)化為分類問題。機(jī)器學(xué)習(xí)方法又可分為基于特征向量和基于核函數(shù)的方法,如文獻(xiàn)[4]在詞匯、 基本短語塊等特征中融入依存樹特征,采用SVM進(jìn)行蛋白質(zhì)交互關(guān)系抽取,在AIMED語料上獲得的F值為54.7%,取得了較好的效果。但基于特征的方法無法用于復(fù)雜的結(jié)構(gòu),研究者采用核函數(shù)代替特征向量內(nèi)積運(yùn)算計(jì)算兩個(gè)對象的相似度,并具有很好復(fù)合性。文獻(xiàn)[5]應(yīng)用卷積樹核實(shí)現(xiàn)了英文命名實(shí)體關(guān)系抽取,并提出最短路徑閉包樹,經(jīng)過實(shí)驗(yàn)驗(yàn)證其用于關(guān)系抽取效果最好,并嘗試將平面核與樹核結(jié)合,在ACE2004上得到了P/R/F為76.1%/68.4%/72.1%的最好結(jié)果。文獻(xiàn)[6]提出用圖核的方法完成蛋白質(zhì)交互關(guān)系的自動(dòng)抽取,把潛在的關(guān)系定義成一個(gè)圖表示法,為了有效地從圖中學(xué)習(xí),定義了一個(gè)基于圖的核函數(shù),在AIMED上得到了P/R/F為52.9%/61.8%/56.4%的結(jié)果。文獻(xiàn)[7]提出了一種組合核的方法進(jìn)行關(guān)系抽取,把基于幾個(gè)句法分析器的核組合起來,抽取了更多有用的信息,在AIMED上取得了P/R/F為58.7%/66.1%/61.9%的最好結(jié)果。文獻(xiàn)[8]使用了一種集成核的方法從生物文本中抽取蛋白質(zhì)交互關(guān)系,把詞等特征與自定義的路徑核相結(jié)合,在IEPA上達(dá)到了P/R/F為73.03%/82.09%/74.38%的結(jié)果。總之核函數(shù)的方法在關(guān)系抽取領(lǐng)域取得了很好的效果。

      本文首先用完全樹(Complete Tree,CT)、最小完全樹(Minimum Complete Tree,MCT)、最小樹(Minimum Tree,MT)和最短路徑閉包樹(Shortest Path Enclosed Tree,SPT)等簡單的句法解析樹在AIMED上進(jìn)行PPI抽取實(shí)驗(yàn),經(jīng)驗(yàn)證使用SPT效果最好,F(xiàn)值為53.89%;但在提取SPT樹的過程中,發(fā)現(xiàn)一些對PPI抽取有用的結(jié)構(gòu)化信息可能被刪減,所以當(dāng)SPT樹所含信息過少時(shí)對其進(jìn)行動(dòng)態(tài)拓展。本文提出一種動(dòng)態(tài)拓展策略建立動(dòng)態(tài)拓展樹(Dynamic Extended Tree,DET),利用動(dòng)態(tài)拓展樹在AIMED進(jìn)行10倍交叉實(shí)驗(yàn),其精確率、召回率、F值分別達(dá)到了79.41%、43.99%、56.62%。最后將平面核與樹核結(jié)合,在AIMED上進(jìn)行10倍交叉實(shí)驗(yàn),獲得了較好的效果,其中將平面核與基于動(dòng)態(tài)拓展樹的核函數(shù)組合后精確率、召回率、F值分別達(dá)到了82.40%、51.30%、63.23%。結(jié)果要優(yōu)于其他先進(jìn)的方法。

      2 SVM

      設(shè)原始輸入空間X?Rn(n為輸入空間的維數(shù)),訓(xùn)練集S={(x1,y1),(x2,y2),...,(x,y)}xi∈X,yi∈{-1,1}是xi的標(biāo)記,若xi屬于正類,yi=1,若xi屬于負(fù)類,yi=-1,為樣本的個(gè)數(shù)。SVM就是尋找能夠?qū)⒂?xùn)練數(shù)據(jù)劃分為兩類的最優(yōu)超平面,該超平面可以通過求下面凸二次規(guī)劃問題的解得到,如式(1)所示:

      max

      subject to

      (1)

      其中K(xi,xj)=φ(xi)·φ(xj)為Kernel函數(shù),αi為與每個(gè)樣本對應(yīng)的Lagrange乘子,c>0是自定義的懲罰系數(shù)。給定一個(gè)測試實(shí)例x,它的類別由下面的決策函數(shù)(式2)決定:

      sv為支持向量。

      3 基于組合核函數(shù)的蛋白質(zhì)交互關(guān)系抽取

      3.1 特征向量的抽取

      3.1.1 詞特征

      本文使用的詞特征包括兩個(gè)蛋白質(zhì)名字中的詞,兩個(gè)蛋白質(zhì)之間的詞,蛋白質(zhì)周圍的詞,以及表示兩個(gè)蛋白質(zhì)交互關(guān)系的交互詞。下面以句子A: “The effects of theBbetachainoffibrinogenare mediated through cell surfacecalreticulin”為例。在這個(gè)句子中,Bbetachainoffibrinogen和calreticulin分別表示兩個(gè)蛋白質(zhì)。

      (1) 兩個(gè)蛋白質(zhì)名字中的詞(ProName)

      即出現(xiàn)在兩個(gè)蛋白質(zhì)名字中的所有單詞。在句子A中,Bbetachainoffibrinogen和calreticulin分別表示兩個(gè)蛋白質(zhì)的名字,那么名字中的每一個(gè)詞都被當(dāng)作一個(gè)特征。句子A中兩個(gè)蛋白質(zhì)名字分別被表示成p1_B, p1_beta,p1_chain,p1_of,p1_fibrinogen,p2_calreticulin。

      (2) 兩個(gè)蛋白質(zhì)之間的詞(Betwords)

      指位于兩個(gè)蛋白質(zhì)之間的所有詞。如果兩個(gè)蛋白質(zhì)之間沒有別的單詞,那么該特征被設(shè)置為NULL。句子A中,兩個(gè)蛋白質(zhì)之間的詞為: are mediated through cell surface,那么對應(yīng)的特征值就為: b_are,b_mediated,b_ through,b_cell,b_surface。

      (3) 兩個(gè)蛋白質(zhì)周圍的詞(Surwords)

      指位于第一個(gè)蛋白質(zhì)左側(cè)的n個(gè)詞,和第二個(gè)蛋白質(zhì)右側(cè)的n個(gè)詞。在本文實(shí)驗(yàn)中,n的取值為5。如果第一個(gè)蛋白質(zhì)左側(cè)沒有單詞,或者第二個(gè)蛋白質(zhì)右側(cè)沒有單詞,則把該向量設(shè)置為NULL。在句子A中,第一個(gè)蛋白質(zhì)Bbetachainoffibrinogen左側(cè)共有四個(gè)單詞 the effect of the, 第二個(gè)蛋白質(zhì)calreticulin右側(cè)為0 個(gè)單詞。在特征向量中分別被表示為: l_the,l_effect,l_of, l_the, r_null。

      (4) 交互詞特征(Keyword)

      所謂交互詞指的是能表示兩個(gè)蛋白質(zhì)之間交換關(guān)系的詞(如: regulate, interact,modulate 等)。一個(gè)句子中是否含有交互詞對判斷兩個(gè)蛋白質(zhì)之間是否有交互關(guān)系具有重要的作用。它是兩個(gè)蛋白質(zhì)具有交互關(guān)系的必要條件。如果在兩個(gè)蛋白質(zhì)之間或者周圍有一個(gè)交互詞,則把這個(gè)詞作為交互詞特征。如果在一個(gè)句子中有兩個(gè)或兩個(gè)以上的交互詞,則選擇離兩個(gè)蛋白質(zhì)最近的那個(gè)詞作為交互詞;如果在一個(gè)句子中沒有表示兩個(gè)蛋白質(zhì)交互關(guān)系的詞,則把該特征設(shè)置為NULL。在句子A中,我們選擇mediate 作為交互詞。

      3.1.2 鏈接特征

      鏈接語法分析器(Link grammar parser)可以用來分析句子的鏈接語法。根據(jù)解析結(jié)果可以判斷第一個(gè)蛋白質(zhì)到第二個(gè)蛋白質(zhì)之間是否存在一個(gè)解析路徑。一般來說,兩個(gè)蛋白質(zhì)之間具有交互關(guān)系,那么很大程度上,它們之間存在一條鏈接路徑。如果在兩個(gè)蛋白質(zhì)之間有一條鏈接路徑,其特征值被設(shè)置為: LINK_Y,否則的話,特征值被設(shè)置為: LINK_N。

      3.1.3 兩個(gè)蛋白質(zhì)之間的距離特征

      在一個(gè)句子中,兩個(gè)蛋白質(zhì)離得越近,那么它們之間具有交互關(guān)系的可能性也就越大。因此蛋白質(zhì)之間的距離可以作為判斷兩個(gè)蛋白質(zhì)是否具有交互關(guān)系的一個(gè)因素。本文使用兩種距離特征:

      (1) TwoProDis: 這個(gè)特征是指兩個(gè)蛋白質(zhì)之間其他單詞的個(gè)數(shù)。如果兩個(gè)蛋白質(zhì)之間單詞的個(gè)數(shù)小于等于3,則把該特征值設(shè)為1,如果兩個(gè)蛋白質(zhì)之間的單詞的個(gè)數(shù)大于3小于等于6,則把該特征值設(shè)為2。如果兩個(gè)蛋白質(zhì)之間的單詞個(gè)數(shù)大于6小于等于9,則把該特征值設(shè)為3,否則的話,把該特征值設(shè)為4。

      在句子A中,兩個(gè)蛋白質(zhì)之間具有5個(gè)單詞,所以蛋白質(zhì)之間的TwoProDis值為 2。

      (2) ProNumDis: 兩個(gè)蛋白質(zhì)之間是否具有交互關(guān)系,除了受兩個(gè)蛋白質(zhì)之間單詞的個(gè)數(shù)影響外,還與兩個(gè)蛋白質(zhì)之間是否有別的蛋白質(zhì)有關(guān)。因此這種情形也被考慮進(jìn)去,并稱之為ProNumDis 特征。如果兩個(gè)蛋白質(zhì)之間沒有其他的蛋白質(zhì),那么該特征的特征值被設(shè)為0,如果兩個(gè)蛋白質(zhì)之間有其他蛋白質(zhì),那么該特征的特征值為兩個(gè)蛋白質(zhì)之間其他蛋白質(zhì)的個(gè)數(shù)。在句子A中,Bbetachainoffibrinogen和calreticulin之間沒有其他的蛋白質(zhì),所以該特征值為0。

      3.2 卷積樹核

      樹核是將句子通過句法解析生成句法樹后,計(jì)算任意兩棵樹之間的相似度。由Collins等人[9]提出的卷積樹核是一個(gè)典型的樹核。其通過計(jì)算兩棵樹之間的公共子樹個(gè)數(shù)來計(jì)算相似度,如式(3)所示:

      式(3)中Nj是句法解析樹Tj的節(jié)點(diǎn)集,Δ(n1,n2)遞歸計(jì)算以n1和n2為根的公共子樹的數(shù)量。計(jì)算公式(4):

      1) 如果以n1和n2為根的上下文無關(guān)語法規(guī)則不同,Δ(n1,n2)=0;否則轉(zhuǎn)到2)。

      2) 如果n1和n2都是POS標(biāo)簽,那么Δ(n1,n2)=1*λ;否則轉(zhuǎn)到3)。

      3) 遞歸計(jì)算Δ(n1,n2):

      其中#ch(n)表示節(jié)點(diǎn)n的孩子數(shù)量,ch(n,k)表示節(jié)點(diǎn)n的第k個(gè)孩子,λ(0<λ<1)為衰減因子,作用是在不同大小的子樹間取得平衡。

      3.3 卷積樹核中句法樹的剪裁及動(dòng)態(tài)拓展

      3.3.1卷積樹核中句法樹的剪裁

      本文利用Stanford Parser[10]對句子進(jìn)行解析,在解析之前用PROTAIN_1 和PROTAIN_2對蛋白質(zhì)對進(jìn)行替換,句子中其他的蛋白質(zhì)則用PROTAIN替換。例如,句子B: “HvSPY coexpression largely abolishedGA3induced activity of analpha-amylasepromoter .” 其中GA3和alpha-amylase是蛋白質(zhì)對。在解析這個(gè)句子之前,用PROTAIN_1 和PROTAIN_2取代兩個(gè)蛋白質(zhì)GA3和alpha-amylase。于是,原句子變?yōu)榫渥覥: “HvSPY coexpression largely abolished PROTAIN_1 induced activity of an PROTEIN_2 promoter .”然后利用Stanford Parser 對句子C進(jìn)行解析,得到其語法解析樹,如圖1所示。

      在本文中將這種對一句話解析得到的整棵樹叫做Complete Tree(CT),CT樹所含信息很完整,但包含的冗余信息也很多,直接用其進(jìn)行PPI抽取會引入過多噪聲,會對抽取效果產(chǎn)生負(fù)面影響。所以我們按Zhang等[5]策略得到Minimum Complete Tree(MCT)和Shortest Path Enclosed Tree(SPT)。分別如圖2和圖3所示。

      圖1“HvSPY coexpression largely abolished GA3 induced activity of an alpha-amylase promoter .”經(jīng)Stanford Parser解析出的CT樹。

      圖2 MCT樹

      圖3 SPT樹

      MCT是在CT基礎(chǔ)上保留最近公共父節(jié)點(diǎn)的子樹,SPT是在MCT的基礎(chǔ)上刪除連接兩個(gè)蛋白質(zhì)路徑閉包之外的所有節(jié)點(diǎn)。若只保留路徑上的節(jié)點(diǎn),便得到了Minimum Tree(MT)[11],如圖4所示。

      圖4 MT樹

      3.3.2 卷積樹核中句法樹的動(dòng)態(tài)拓展

      經(jīng)驗(yàn)證,SPT樹在以上幾種基本句法樹中效果最好,但一些含有蛋白質(zhì)對的句子結(jié)構(gòu)較簡單,含有的結(jié)構(gòu)化信息較少,如句子“PROTEIN_1 PROTEIN_2”和“PROTEIN_1 and PROTEIN_2”(其SPT結(jié)構(gòu)如圖5、圖6所示),它們的SPT樹中包含的信息不足以判斷其中蛋白質(zhì)對是否有關(guān)系,而表示兩個(gè)蛋白質(zhì)關(guān)系的交互詞在很大程度上可能出現(xiàn)在以其最近公共父節(jié)點(diǎn)為根的樹上,所以有必要在SPT樹上進(jìn)行拓展??紤]到這種信息量不足的SPT樹節(jié)點(diǎn)數(shù)一般不多于7個(gè),所以我們提出如下三種拓展策略:

      (1) 當(dāng)SPT中包含的節(jié)點(diǎn)個(gè)數(shù)少于7時(shí),用MCT代替SPT;

      (2) 當(dāng)SPT中包含的節(jié)點(diǎn)個(gè)數(shù)少于7時(shí),用SPT根節(jié)點(diǎn)的父節(jié)點(diǎn)的MCT代替SPT;

      (3) 當(dāng)SPT中包含的節(jié)點(diǎn)個(gè)數(shù)少于7時(shí),若SPT與MCT不相同,用MCT代替SPT; 否則用SPT根節(jié)點(diǎn)的父節(jié)點(diǎn)的MCT代替SPT。

      圖5 “PROTEIN_1 PROTEIN_2”的SPT

      圖6 “PROTEIN_1 and PROTEIN_2”的SPT

      3.4 組合核

      基于特征向量的核充分利用了實(shí)例的平面特征卻忽略了實(shí)例的結(jié)構(gòu)化信息,而樹核僅利用了結(jié)構(gòu)化信息而忽略了平面特征。兩種核各有優(yōu)缺點(diǎn)而又互補(bǔ)。所以,為了最大限度獲取PPI抽取的有用信息,我們將多項(xiàng)式核與卷積樹核結(jié)合。本文使用Moschitti等人開發(fā)SVMlightTK工具包[12]。組合核函數(shù)定義如式(5)所示:

      其中kt為上文已介紹過的卷積樹核,kb為多項(xiàng)式核函數(shù),定義如式(6)所示:

      其中s,c,d為參數(shù)。

      4 實(shí)驗(yàn)及結(jié)果

      本文中所述實(shí)驗(yàn)均在AIMED語料上完成。AIMED語料來自PubMed摘要,其中蛋白質(zhì)關(guān)系是根據(jù)DIP數(shù)據(jù)庫識別的。在摘要中專家標(biāo)注了人類的基因和蛋白質(zhì)關(guān)系。本文從該語料中抽出4 500對蛋白質(zhì)關(guān)系實(shí)例,其中有1 000對正例和3 500對負(fù)例。為提高實(shí)驗(yàn)的可靠性,本文中所涉及的實(shí)驗(yàn)均使用10倍交叉驗(yàn)證。SVM參數(shù)值全部選取工具包中的默認(rèn)參數(shù)。

      4.1 基于特征向量的PPI抽取

      按上文3.1所述抽取特征,進(jìn)行啟發(fā)式實(shí)驗(yàn),最終得到的性能指標(biāo)如表1所示。

      表1 多項(xiàng)式核的PPI抽取

      由表1可知單獨(dú)使用多項(xiàng)式核精確率達(dá)到了的82.83%,召回率達(dá)到了41.87%,F(xiàn)值為55.62%。

      4.2 基于卷積樹核的PPI抽取

      4.2.1 四種基本句法樹的有效性驗(yàn)證實(shí)驗(yàn)

      按3.3中所述策略修剪出相應(yīng)的句法樹,使用相同的訓(xùn)練集和測試集, 用SVMlightTK工具包中的卷積樹核進(jìn)行訓(xùn)練和測試。表2 給出了不同句法樹有效性驗(yàn)證的結(jié)果。

      表2 不同句法樹有效性驗(yàn)證

      從表2中可以看出,經(jīng)過修剪后,MCT樹、SPT樹、MT樹的性能指標(biāo)均要比CT樹好。這是由于MCT樹、SPT樹和MT樹比CT樹中含有的冗余信息少,引入的噪聲減少,結(jié)構(gòu)化信息的比重提高,所以精確率、召回率和F值都有大幅提高。

      三種經(jīng)過修剪的句法樹中,SPT樹用于PPI抽取的效果最好。因?yàn)镾PT樹中包含了較完整的結(jié)構(gòu)化信息及相對較少的冗余信息。其F值比CT樹提高34.49%,比MCT樹提高7.69%。MT樹是在SPT樹的基礎(chǔ)上進(jìn)行進(jìn)一步修改而得到的,雖然其包含的冗余信息最少,但同時(shí)其包含的有用的結(jié)構(gòu)化信息也被大幅刪減,導(dǎo)致其召回率很低,只有12.22%,所以其抽取效果不如SPT樹,但仍然比CT樹的抽取效果好。

      4.2.2 三種SPT拓展樹的有效性驗(yàn)證實(shí)驗(yàn)

      雖然SPT樹在以上幾種基本句法樹中效果最好,但其仍有不足,需對其進(jìn)行拓展,表3給出了采用三種拓展策略(見3.3.2)與SPT用于PPI抽取的結(jié)果比較。

      從表3可以看出: 方法(1),方法(2)和方法(3)的效果都要比不拓展要好,方法(1)的精確率比不拓展提高了0.90%,召回率比不拓展提高了2.10%,F(xiàn)值比不拓展提高了2.01%。方法(2)的精確率比不拓展提高了0.65%,召回率和不拓展是相同的,F(xiàn)值比不拓展提高了0.16%。方法(3)的精確率比不拓展提高1.08%,召回率比不拓展提高2.91%,F(xiàn)值比不拓展提高2.73%。原因分析如下:

      ① 經(jīng)方法(1),方法(2)和方法(3)拓展后,大部分如圖5,圖6所示的句法結(jié)構(gòu)中增加了有用的結(jié)構(gòu)化信息,使得召回率有較大提高,雖然方法(2)的召回率沒有變化,但綜合考慮這三種方法均比不拓展要好。

      ② 方法(2)考慮到一些句子的SPT樹和MCT樹相同,按方法(1)進(jìn)行拓展時(shí)這類句子相當(dāng)于沒有擴(kuò)充結(jié)構(gòu)化信息,所以用上一層的MCT樹進(jìn)行拓展,但是SPT樹和MCT樹相同的句子在語料中所占的比例較低,雖然對這種特例進(jìn)行了拓展,但對其他滿足條件的句子進(jìn)行拓展后,引入了比方法(1)多的噪聲,所以結(jié)果沒有方法(1)和方法(3)好。

      ③ 在這三種拓展策略中,方法(3)的效果最好,分析原因,是其結(jié)合了方法(1)和方法(2)的優(yōu)點(diǎn),能夠?qū)π枰卣沟木浞溥M(jìn)行拓展,同時(shí)盡量少的引入噪聲。方法(3)的F值比不拓展提高2.73%,提高較為顯著,說明拓展策略對PPI抽取有益。

      方法(3)實(shí)際使用的是一種動(dòng)態(tài)策略,不妨稱其為Dynamic Extended Tree(DET)。

      4.3 基于組合核的PPI抽取

      用3.4介紹的方法構(gòu)造組合核,表4給出了用組合核進(jìn)行PPI抽取的結(jié)果。

      表4 基于組合核的PPI抽取

      由表4可知, 將多項(xiàng)式核與卷積樹核組合后的抽取效果好于單個(gè)核函數(shù)。組合核的精確率比多項(xiàng)式核低0.43%、召回率提高9.43%、F值提高7.61%;組合核的精確率比卷積樹核提高2.99%,召回率提高7.31%,F(xiàn)值提高6.61%。 這是因?yàn)樘卣骱撕蜆浜藦牟煌姆矫嬗?jì)算兩條實(shí)例的相似度,覆蓋了更多的有用信息,即平面特征和句法樹中的結(jié)構(gòu)化特征具有互補(bǔ)性。

      通過對基于組合核進(jìn)行關(guān)系抽取的相關(guān)文獻(xiàn)[5,13-15]分析發(fā)現(xiàn),組合核較單個(gè)核函數(shù)的性能都有所提高。例如文獻(xiàn)[5]將特征核與樹核組合,在ACE語料上進(jìn)行實(shí)體關(guān)系抽取,并驗(yàn)證了SPT樹的抽取效果最好,該文采用線性核與樹核組合后,在語料ACE2003上的F值為70.10%, 比單獨(dú)使用特征核高15.70%,比單獨(dú)使用樹核高6.50%。文獻(xiàn)[14]在SPT樹的基礎(chǔ)上提出一種動(dòng)態(tài)的上下文敏感的拓展策略,并提出上下文敏感樹核,實(shí)驗(yàn)證明這種樹核優(yōu)于基于SPT樹的樹核,最后將上下文敏感樹核與線性核組合,在語料ACE2004上得到的F值為75.80%,比單獨(dú)使用特征核高5.70%,比單獨(dú)使用上下文敏感樹核高2.60%。 文獻(xiàn)[13]同樣在Aimed語料上進(jìn)行蛋白質(zhì)交互關(guān)系抽取,將特征核與樹核組合后,F(xiàn)值比單獨(dú)使用特征核提高5.36%,比單獨(dú)使用樹核提高5.81%。

      通過以上實(shí)驗(yàn)及分析可知,對基于組合核的關(guān)系抽取,其性能要高于單個(gè)核函數(shù),并且其提高的程度可能不僅取決于單個(gè)核函數(shù)的性能,可能也與所用語料有關(guān)。

      4.4 與其他先進(jìn)方法比較

      為了能更好地評價(jià)本文的方法,我們選擇同樣在AIMED上使用核函數(shù)方法進(jìn)行PPI抽取的文獻(xiàn)進(jìn)行比較,結(jié)果如表5所示。

      文獻(xiàn)[6]中使用圖核進(jìn)行PPI抽取,未使用詞特征等平面信息,本文F值比文獻(xiàn)[6]提高6.83%。文獻(xiàn)[7]中將深層句法解析器和淺層句法解析器結(jié)合使用,并將BOW(Bag Of Words)核、樹核和圖核組合,得到的P/R/F分別為58.70%/66.10%/61.90%。由于充分使用了結(jié)構(gòu)化信息,所以得到了不錯(cuò)的效果,但其沒有使用平面特征,所以F值比我們的方法低1.33%。文獻(xiàn)[13]將特征核、樹核、圖核、語法路徑核等多種核函數(shù)組合,得到了F值為64.41%的最好結(jié)果,本文只比較其特征核與樹核的組合結(jié)果,其特征核與樹核結(jié)合,F(xiàn)值為58.05%,本文較之提高5.18%。經(jīng)以上比較,可以看出本文提出的PPI抽取方法是有優(yōu)勢的。

      表5 與其他先進(jìn)方法比較

      5 結(jié)論

      為提高PPI抽取系統(tǒng)的性能,本文首先對基本句法解析樹進(jìn)行裁剪并在卷積樹核上進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明用SPT抽取PPI的效果最優(yōu),F(xiàn)值為53.89%。然后對性能最好的SPT采用三種策略進(jìn)行拓展,條件是當(dāng)SPT樹的節(jié)點(diǎn)數(shù)少于7時(shí),分別用MCT、以SPT根節(jié)點(diǎn)的父結(jié)點(diǎn)為根的MCT和DET代替SPT。DET取得了最好的效果,F(xiàn)值達(dá)到了56.62%。最后將基于特征的平面核與樹核結(jié)合,在AIMED上進(jìn)行了10倍交叉驗(yàn)證實(shí)驗(yàn),得到了P/R/F為82.40%/51.30%/63.23%的最好結(jié)果。效果優(yōu)于其他先進(jìn)的PPI抽取系統(tǒng)。

      考慮到現(xiàn)行的修剪策略雖然使得句法樹包含較精練的信息,但還存在噪聲,本文考慮下一步對句法樹進(jìn)行更精確修剪與擴(kuò)充;并考慮從基因本體庫中提取相關(guān)的語義信息來提高PPI抽取系統(tǒng)的性能。

      [1] Bunescu R, Mooney R, Ramani A., et al. Integrating Co-occurrence Statistics with Information Extraction for Robust Retrieval of Protein Interactions from Medline[C]//Proceedings of BioNLP-2006, 2006: 49-56.

      [2] Huang M, Zhu X, Hao Y, et al. Discovering patterns to extract protein-protein interactions from full biomedical texts [J]. Bioinformatics, 2004, 20(18):3604-3612

      [3] Bunescu R C, Mooney R J. A shortest path dependency kernel for relation extraction[C]//Proceedings of the Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, Vancouver, 2005:724-731.

      [4] 劉兵,錢龍華,徐華,等. 依存信息在蛋白質(zhì)關(guān)系抽取中的作用[J]. 中文信息學(xué)報(bào). 2011, 25(2):21-26.

      [5] Zhang M, Zhang J, Su J, et al.. A Composite Kernel to Extract Relation between Entities with both Flat and Structured Feature[C], in Proc.COLINGACL, Sydney,Australia,2006: 825-832.

      [6] Airola A, Pyysalo S, Bj?ne J, et al. A Graph for Protein-Protein Interaction Extraction[C]//Proceedings of BioNLP.Columbus,USA 2008.

      [7] Miwa M, Satre R, Miyao Y, et al. Protein-protein interation extration by leveraging multiple kernels and parser[J]. Int.J.Med. Inform.2009,doi:10.1016/j.ijmedif.

      [8] Lishuang Li, Jinyu Ping, Degen Huang. Protein-protein interacion extracion from biomedical literatures based on a combined kernel [J]. Journal of Information and Computational Science, 2010, 7(5): 1065-1073.

      [9] Collins M, Duffy N. Covolution kernels for natural language[C].NIPS’2001,2001: 625-632.Cambridge,MA.

      [10] De Marneffe M C,MacCartney B, Manning C D. Generating Typed Dependency Parses from Phrase Structure Parses[C]//In Proeeedings of the IEEE/ACL2006 Workshop on Spoken Language Technology.The Stanford Natural Language Proeessing Group.

      [11] 孔芳. 指代消解關(guān)鍵問題研究[D]. 蘇州:蘇州大學(xué),2009.

      [12] http://disi.unitn.it/moschitti/Tree-Kernel.htm

      [13] Yang Z H, Tang N, Zhang X, et al. Multiple kernel learning in protein-protein interaction extraction from biomedical literature[J]. Artif Intell Med (2011), doi:10.1016/j.artmed.2010.12.

      [14] Zhou G D, Zhang M, Ji D H et al. (2007b). Tree kernel-based relation extraction with context-sensitive structured parse tree information[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP/CoNLL-2007): 728-736.

      [15] Qian L H, Zhou G D, Zhu Q M, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]//Proceedings of International Conference on Computational Linguistics (COLING’2008): 697-704.

      猜你喜歡
      卷積蛋白質(zhì)文獻(xiàn)
      蛋白質(zhì)自由
      肝博士(2022年3期)2022-06-30 02:48:48
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      人工智能與蛋白質(zhì)結(jié)構(gòu)
      海外星云(2021年9期)2021-10-14 07:26:10
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      蛋白質(zhì)計(jì)算問題歸納
      积石山| 朝阳区| 济南市| 南召县| 仪陇县| 定边县| 张北县| 绥棱县| 都昌县| 商城县| 崇州市| 琼结县| 察隅县| 衡东县| 太谷县| 湾仔区| 丰原市| 浪卡子县| 湖口县| 丰镇市| 石家庄市| 霍城县| 开化县| 博乐市| 漳平市| 丹东市| 旬邑县| 安达市| 荥经县| 青川县| 天台县| 五指山市| 新建县| 谢通门县| 纳雍县| 浦城县| 衡阳县| 景东| 远安县| 惠水县| 固镇县|