• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于神經網絡的微生物生長環(huán)境關系抽取方法*

      2017-06-21 15:07:18王健李虹磊林鴻飛楊志豪張紹武
      關鍵詞:語料實例實體

      王健 李虹磊 林鴻飛 楊志豪 張紹武

      (大連理工大學 計算機科學與技術學院, 遼寧 大連 116024)

      基于神經網絡的微生物生長環(huán)境關系抽取方法*

      王健 李虹磊 林鴻飛 楊志豪 張紹武

      (大連理工大學 計算機科學與技術學院, 遼寧 大連 116024)

      提出一種基于神經網絡的方法實現(xiàn)細菌和棲息地的關系抽取,充分利用神經網絡的特性實現(xiàn)對隱含的深層特征的自動學習,以避免傳統(tǒng)人工特征設計的復雜性和冗余性.該方法利用單詞以及實體屬性的分布式向量豐富句法和語義信息,使用兩個不同神經網絡模型從不同角度進行關系抽取,并融合文檔級別的分類結果,在生物醫(yī)學自然語言處理BioNLP-ST 2016共享任務的BB-event語料上進行實驗,取得了不錯的F1值,表明該方法在微生物生長環(huán)境關系抽取上具有良好的性能.

      微生物生長環(huán)境關系抽??;卷積神經網絡;長短時記憶神經網絡;分布式向量

      生物領域內的文獻數(shù)量急劇增長,自動準確地從這些文獻中抽取出有價值的信息,構建完善的信息檢索系統(tǒng),對于輔助生物學家利用其中潛在的信息進行相關研究來說至關重要.因此,致力于識別生物實體之間的關系或事件的生物信息抽取技術吸引了大量研究學者的注意[1].然而,隨著信息抽取技術的日益成熟,通用的信息抽取,如蛋白質關系抽取,已不能滿足生物學家的需求,所以研究者的焦點也慢慢轉移到了涉及生物多樣性知識的橫向問題上.例如,基因調控、疾病、代謝和環(huán)境等多種生物學問題在文獻中出現(xiàn)得非常廣泛[2],但是幾乎不能以結構化的形式展現(xiàn)給生物學家,造成定位所需的有用信息非常困難,在一定程度上影響了從生物文獻中挖掘潛在的知識,因此,針對這種具體的生物學問題進行特定的信息抽取研究,對生物學領域的研究有著重要的作用.

      現(xiàn)如今,針對非結構化文本的信息抽取技術已經應用到了生物學的多個領域中,許多生物信息抽取系統(tǒng)應運而生.近年來出現(xiàn)了許多用于蛋白質關系抽取的公開評測任務,如LLL[3]、BioCreative[4]等,在此背景下就產生了許多蛋白質交互作用關系抽取系統(tǒng)[5],對于蛋白質復雜網絡的構建、預測隱含的蛋白質關系有重要應用.進一步地,2009年首次提出了關于生物醫(yī)學事件抽取的BioNLP共享任務,與簡單的蛋白質關系抽取等二元關系抽取任務不同的是,該任務旨在抽取細粒度的生物實體之間的復雜關系,如催化、基因表達以及磷酸化等,最具有代表性的事件抽取系統(tǒng)是UturKu,該系統(tǒng)將事件抽取任務視為多分類問題,使用基于機器學習的方法人工設計大量特征,采用SVM模型進行事件抽取,F(xiàn)1值達到51.95%,在所有參賽隊伍中位居第一[6],并且該系統(tǒng)的設計思路在BioNLP 2011和BioNLP 2013任務中被許多參賽隊伍所沿用并改進,都取得了不錯的性能.然而,標注數(shù)據的規(guī)模限制了傳統(tǒng)機器學習方法的進一步提升,所以為能夠利用包含領域知識的大量未標注語料,文獻[7]提出了基于對偶分解和詞向量的方法進行事件抽取.詞向量能夠從大量未標注語料中學習到豐富的語義特征,將其集成到大量的傳統(tǒng)特征中可以更好地檢測事件,在BioNLP2013語料中F1值有2.22%的提高.

      為更好地適應生物學家的需求,生物信息抽取領域提出了許多新的熱點問題,如癌癥遺傳學、通路管理、基因調控網絡構建、微生物生長環(huán)境關系抽取等生物領域的熱點.其中,針對微生物生長環(huán)境的識別就是在此背景下產生的,它旨在從生物文獻中自動地抽取微生物和棲息地之間的復雜關系,這不僅對構建全面的、可理解的細菌及其棲息地的關系數(shù)據庫有重要指導作用,而且能夠促進微生物、健康科學和食物加工等領域的發(fā)展與實際應用.2011年,Alvis系統(tǒng)[8]利用大量語言學和詞法學知識,通過人工設計模式進行關系匹配,實現(xiàn)細菌和棲息地的關系抽取;Uturku系統(tǒng)[9]將微生物生長環(huán)境抽取看作二分類問題,抽取大量特征,利用機器學習方法進行關系抽取.

      總體來看,針對微生物生長環(huán)境關系抽取任務的方法主要分為基于規(guī)則的方法和基于機器學習的方法[10].這兩種方法都需要人工設計大量的規(guī)則和特征,精心選擇分類器,而且沒有利用未標注語料,存在一定的局限性,因此文中提出了一種基于神經網絡的微生物生長環(huán)境關系抽取方法,實現(xiàn)特征的自動學習,避免了過多的人工干預,同時能夠利用大量未標注語料中的領域知識.首先,運用word2vec工具[11]訓練收集到的PubMed文獻摘要,得到單詞的分布式向量表示,同時對實驗語料集進行分句、確定實體在句中位置等預處理.其次確定細菌-棲息地實體對,并通過實體對之間的單詞以及實體屬性特征,共同構建候選實例.之后使用分布式向量初始化候選實例,作為卷積神經網絡(CNN)和長短時記憶神經網絡(LSTM)的輸入,進行特征自動學習并通過softmax分類器[12]進行分類,并將分類結果進行融合,得到最終答案文檔.最后在BioNLP-ST 2016評測任務的BB-event數(shù)據集上進行實驗.

      1 抽取方法概述

      文中提出的基于神經網絡的微生物生長環(huán)境關系抽取系統(tǒng)流程如圖1所示,主要分為3個模塊:輸入實例表示(分布式向量學習和候選實例構建)、神經網絡模型(CNN和LSTM)訓練、分類結果融合.

      圖1 系統(tǒng)流程圖

      1.1 輸入實例表示

      在機器學習以及深度學習方法中,輸入對于模型學習來說至關重要.為了從不同角度豐富輸入表示,文中分別從句子級別和文檔級別兩個角度對輸入實例建模,減少了跨句子關系的缺失;同時舍棄了大量的人工設計特征,僅使用實體對上下文信息、實體屬性特征以及分布式向量初始化來對輸入實例建模.

      (1)學習分布式向量.從PubMed數(shù)據庫中下載大量的文獻摘要,構成訓練詞向量的輸入語料.對語料進行過濾等預處理之后,利用word2vec工具對收集到的語料進行詞向量的訓練,最后得到蘊含豐富句法和語義信息的單詞的分布式向量表示[13].

      (2)對實驗語料進行預處理.由于跨句子的關系存在的比例較少,而且鑒于跨句子關系處理的復雜性,初步實驗設計只考慮單個句子中的關系抽取,稱為Sen級別的關系抽取,即先對實驗語料進行分句,然后以句子為單位確定細菌-棲息地實體對.

      此外,為了在一定程度上彌補跨句子的關系缺失,實驗增加了文檔級別的關系抽取,稱為Doc級別的關系抽取,即不對語料進行分句,以全文檔為單位確定細菌-棲息地實體對.為了簡化實驗的復雜性和避免負例的大幅度增加,實驗不考慮指代消解,并且如果細菌和棲息地之間的單詞距離過大,實體對將會被過濾.

      (3)提取實體屬性特征.實體本身的信息對于明確實體對之間的關系有很重要的影響.實體的類別信息、實體對之間的單詞距離信息,可以指明實體對之間的親疏關系,將作為補充信息加入候選輸入實例的構建中,稱作實體屬性特征,記為T=(a1,a2,…,am),m為實體屬性特征的數(shù)量.

      (4)模型輸入實例表示.僅選取實體對及其之間的單詞以及實體對的屬性特征作為候選實例表示,簡化了人工特征設計的復雜性,并通過明確候選實例實體本身的屬性來提高模型對關系的辨別能力.同時,使用分布式向量初始化候選實例中的單詞,使其在輸入模型之前就保留有單詞之間的原始語義信息,促進模型更好地進行特征自動學習.

      最后,得到的模型輸入實例的向量化表示為(e1,x1,x2,…,xj,…,xn,e2,T),其中e1和e2是兩個實體向量,(x1,x2,…,xj,…,xn)是實體對之間的單詞向量表示,T=(a1,a2,…,am),是該實例對應的實體屬性特征的特征向量表示.在實驗中,實體屬性特征向量隨機初始化,并在訓練過程中進行動態(tài)調整.

      1.2 神經網絡模型

      近幾年,隨著深度學習模型的不斷成熟與發(fā)展,它已成功應用到了不同的研究領域,如圖像分類、音視頻識別[14]、自然語言處理[15]等,并且都取得了比較好的效果,在生物領域的信息抽取中同樣引起了廣泛的關注,文中選取卷積神經網絡和循環(huán)神經網絡兩個深度學習模型框架進行生物領域的微生物生長環(huán)境關系抽取.下面簡要介紹一下這兩種深度學習模型的相關知識.

      1.2.1 卷積神經網絡

      數(shù)學上定義的卷積,是指其中一個函數(shù)翻轉并平移后與另一個函數(shù)的乘積的積分,是一個對平移量的函數(shù).對于函數(shù)y和函數(shù)g的卷積,可以表示為

      (1)

      卷積操作被看作是滑動平均的推廣,在實際應用中,可以減少局部數(shù)據或信號源的噪音干擾,使得獲取的信息最有效.卷積神經網絡[16]中加入了卷積操作,與數(shù)學上的卷積有異曲同工之妙.利用卷積核去獲得局部數(shù)據的最顯著特征,然后通過組合局部低層特征形成更高層的特征.如式(2)所示:

      dj=σ(WTxj∶j+w-1+b)

      (2)

      式中:W代表一種卷積核,xj∶j+w-1代表窗口大小為w的文本的分布式向量[xj,xj+1,…,xj+w-1],b為偏倚項,σ為激活函數(shù);通過卷積操作,得到該窗口下文本的特征值dj.滑動窗口在輸入實例上依次滑動就可以得到不同窗口下的特征值,最后卷積神經網絡通過池化操作來篩選這組特征值,從而獲得最有價值的特征.通常采用的池化操作有兩種,一是最大化操作,即選取同一組特征中的最大值;二是平均操作,即對同一組特征值取平均操作.同時,卷積神經網絡為了提取不同類型的特征,會通過增加不同的卷積核來學習輸入的隱含特征.

      1.2.2 循環(huán)神經網絡

      循環(huán)神經網絡引入了時序和記憶機制,即神經網絡學習了歷史信息并進行選擇性的記憶,對當前時刻的輸出產生影響.具體的表現(xiàn)形式為隱藏層之間的節(jié)點不再是無連接的,而是有連接的,這樣神經網絡就會對前面的信息進行記憶并應用于當前輸出的計算中.循環(huán)神經網絡在不斷演化和改進中產生了許多不同的模型[17- 18],其中,使用較為廣泛且應用成功的模型是LSTM,即長短時記憶模型,它的成功之處在于彌補了傳統(tǒng)循環(huán)神經網絡中不能很好地處理長距離依賴的缺點[19].

      LSTM引入了區(qū)塊的概念,這樣的區(qū)塊可以看成是一種智能網絡單元,有記憶不定時間長度內的信息的功能.區(qū)塊中包含的主要元素有輸入門i、忘記門f、輸出門o和記憶細胞單元c,3個門用來保護和控制記憶細胞單元,決定輸入是否重要、是否被記憶以及是否允許輸出[20].對于某一時刻t,給定輸入xt,隱藏層節(jié)點狀態(tài)ht的計算和更新操作如式(3)所示:

      (3)

      其中,σ(·)和tanh(·)是激活函數(shù),W(·)、U(·)、V(·)是權重矩陣,b(·)是偏倚項.

      通過LSTM神經網絡對原始輸入的學習,最終可以學習到輸入的特征向量表示,更好地表達原始輸入隱含的有價值信息和特征.

      1.2.3 模型學習

      微生物生長環(huán)境關系抽取任務實質上是確定微生物領域中細菌及棲息地之間是否存在“居住”關系的二元分類問題,最終目的是確定出有關系的細菌-棲息地實體對.對于分類問題,傳統(tǒng)的方法是使用基于機器學習的方法,這需要人工設計大量的特征,過程復雜且易造成特征冗余.為了避免復雜的人工特征設計,文中利用單詞以及實體屬性的分布式向量表示,基于神經網絡的方法實現(xiàn)特征的自動學習.對于候選輸入實例的構建,文中使用實體對之間的上下文信息以及實體屬性特征,設計簡單且有效,同時用單詞的分布式向量初始化輸入,使輸入包含豐富的語義信息,最終將其輸入到神經網絡模型中進行特征的自動學習.

      文中利用卷積神經網絡能夠學習局部特征的特性,分別構造句子級別和文檔級別的候選輸入實例,然后分別輸入到包含多個不同窗口的并行卷積層的卷積神經網絡中,通過神經網絡對隱含特征的自動學習,動態(tài)調整原始輸入的分布式向量表示和卷積核參數(shù),最終學習到原始輸入的特征向量表示,以此作為預測細菌-棲息地實體對是否存在關系的特征表示輸入到softmax分類器進行分類.

      此外,文中還利用LSTM神經網絡模型對候選輸入實例進行特征自動學習,利用該模型區(qū)塊的記憶和時序特性挖掘輸入中的潛在句法和語義信息,最終可以將輸入實例表示成一個特征向量,使用softmax分類器實現(xiàn)細菌-棲息地關系的分類.

      1.3 結果融合

      不同的神經網絡模型對于特征的學習角度有所差異,卷積神經網絡偏向于學習輸入中所有可能短語的局部特征,LSTM神經網絡更偏向于記憶歷史信息對當前單詞預測的影響.通過不同神經網絡學習的特征向量能夠從不同方面突出輸入的特點,作為分類依據各有優(yōu)缺點,產生的結果互相補充.文中采取對分類結果進行簡單的并集融合的方法,提高細菌和棲息地關系抽取的整體性能.系統(tǒng)通過增加文檔級別的關系抽取方法CNN-Doc來彌補句子級別關系抽取方法CNN-Sen對跨句子關系抽取能力的缺失,通過使用兩個不同的深度學習模型CNN和LSTM來彌補單一模型分類性能的局限性,從而減少分類錯誤的正例.兩個不同的模型從不同角度考慮實體之間的關系,各有優(yōu)點,使得分類出來的結果可以互相補充,從而提高召回率.

      2 實驗與分析

      2.1 數(shù)據集與評測指標

      文中采用BioNLP-ST2016評測任務的BB-event數(shù)據集,該數(shù)據集主要描述的是細菌及其棲息地的關系,數(shù)據的來源是相關科學文獻的英文摘要.數(shù)據集包括訓練集、調試集和測試集,全部數(shù)據均已經標注出細菌和棲息地實體名稱及其在文檔中的位置,訓練集和調試集給出了實體之間的關系類別信息.表1給出了數(shù)據集的詳細統(tǒng)計信息.

      表1 BB-event數(shù)據集統(tǒng)計

      文中通過BioNLP-ST2016共享任務在線評測平臺對分類結果進行度量,評測指標有召回率(R)、準確率(P)和F1值.式(4)給出了各個評測指標的具體計算方法,其中S代表模型預測正確的正例數(shù),N代表語料中的正例數(shù),M代表模型預測的所有正例數(shù).

      (4)

      2.2 實驗結果與分析

      為了驗證神經網絡模型對微生物生長環(huán)境關系抽取的有效性,文中同時增加支持向量機(SVM)模型在BB-event語料上進行實驗作為比照.此外,文中根據CNN、LSTM和SVM的特點,給定不同的特征輸入到模型中.對于CNN和SVM,每個輸入實例的原始信息包含實體本身、兩個實體之間的單詞、實體類別和兩個實體間距;對于LSTM,由于其保留歷史信息的特點,實例單詞之間應該存在關聯(lián),所以輸入實例的原始信息只保留實體本身及其之間的單詞.對于CNN和LSTM兩個神經網絡模型,都使用單詞的分布式向量豐富輸入實例的語義信息;而對于SVM模型,使用傳統(tǒng)的one-hot特征向量表示原始輸入實例.不同模型及其組合在BB-event語料上的具體結果見表2.

      表2BB-event測試集上的實驗結果

      Table2ExperimentalresultsonthetestdatasetsforBB-eventtask

      方法R/%P/%F1/%SVM33.659.442.9CNN-Sen38.256.845.7LSTM45.456.550.3CNN-Sen+CNN-Doc62.749.555.4CNN-Sen+CNN-Doc+LSTM66.349.356.6

      從表2的實驗結果可以看出,神經網絡模型CNN-Sen和LSTM的分類效果優(yōu)于SVM模型,F(xiàn)1值提高幅度分別為2.8個百分點和7.4個百分點,尤其是召回率提升明顯.這表明,神經網絡模型對于特征的自動學習是有效的,能夠挖掘出句子中潛在的深層句法和語義信息,更好地辨別細菌-棲息地之間的關系.對于文中提出的融合文檔級別的關系抽取方法CNN-Doc的分類結果的思路,從實驗結果來看此方法是有效的,F(xiàn)1值達到了55.4%,相比較CNN-Sen方法,F(xiàn)1值提高了近10個百分點.這表明語料中存在不少的跨句子關系,通過融合文檔級別的抽取結果,能夠彌補句子級別關系抽取方法CNN-Sen跨句子關系抽取能力的缺失.進一步地,將LSTM模型的分類結果融合在其中,F(xiàn)1值也有所提升,這表明通過使用兩個不同的深度學習模型(CNN和LSTM)可以彌補單一模型分類性能的局限性,從而減少分類錯誤的正例.綜上所述,文中提出的結果融合方法在微生物生長環(huán)境關系抽取的性能上優(yōu)于單個模型,也表明了神經網絡模型在細菌及其棲息地關系抽取任務上的有效性.

      表3給出了BioNLP-ST2016評測中BB-event任務參賽隊伍的性能,這里只列出了前三名參賽隊伍的結果.從表中可以看出,文中方法在細菌群落棲息地關系抽取上取得了很好的效果,優(yōu)于其他3個系統(tǒng),而且在4種系統(tǒng)中,文中方法的召回率最高,再次說明多模型融合方法對于召回率的正向作用.再者,文中沒有沿用傳統(tǒng)的人工特征設計的方法,而是使用簡單的輸入、強大的特征自動學習模型,減少了人工干預,具有很好的泛化性和可移植性.從表3的F1值還可以發(fā)現(xiàn),這些系統(tǒng)的F1值都沒有超過60%,對于微生物領域的實際應用需求來說,還是遠遠不夠的;這可能是由于細菌及其棲息地的高度多樣性、以及語料數(shù)量相對小所導致的.所以,對于微生物生長環(huán)境關系抽取技術的研究還有很大的改進空間,既是挑戰(zhàn)也是機遇,是未來微生物信息抽取領域需要不斷努力的方向.

      表3 不同方法在BB-event測試集上的實驗結果

      Table3ExperimentalresultsofdifferentmethodsonthetestdatasetsforBB-eventtask

      方法R/%P/%F1/%文中方法66.349.356.6VERSE61.551.055.8TurkuNLP44.862.352.1LIMST64.638.848.5

      3 結語

      文中提出了一種基于神經網絡的微生物生長環(huán)境抽取方法,利用細菌和棲息地實體之間的上下文信息、實體屬性特征對候選關系實例進行表示,并通過大量未標注語料訓練單詞的分布式向量表示,用其初始化候選實例的每個單詞,使其含有豐富句法和語義信息.其次,文中提出了3種模型實現(xiàn)關系識別,系統(tǒng)通過增加文檔級別的關系抽取方法來彌補句子級別關系抽取方法對跨句子關系抽取能力的缺失,通過使用兩個不同的深度學習模型來彌補單一模型分類性能的局限性,最后對分類結果進行簡單的并集融合的方法,提高了關系抽取的整體性能.對于如何進一步提高系統(tǒng)的準確率,如何解決語料稀疏問題,如何更充分利用神經網絡的自主學習能力,進一步地提高微生物生長環(huán)境關系抽取的整體性能,是下一步需要探索和深入研究的工作重點.

      [1] 肖春,周建龍. 生物醫(yī)學領域中的文本信息抽取技術與系統(tǒng)綜述 [J]. 計算機應用研究,2007,24(9): 1- 7. XIAO Chun,ZHOU Jian-long. Overview of information extraction techniques and systems in biomedical domain [J]. Application Research of Computers,2007,24(9): 1- 7.

      [2] NéDELLEC C,BOSSY R,KIM J D,et al. Overview of BioNLP shared task 2013 [C]∥Proceedings of the Bio-NLP Shared Task 2013 Workshop.Sofia∶Association for Computational Linguistics,2013: 1- 7.

      [3] NéDELLEC C. Learning language in logic-genic interaction extraction challenge [C]∥Proceedings of the 4th Learning Language in Logic Workshop (LLL05).Bonn: ICML,2005: 1- 7.

      [4] KRALLINGER M,LEITNER F,RODRIGUEZ-PENAGOS C,et al. Overview of the protein-protein interaction annotation extraction task of BioCreativeII [J]. Genome bio-logy,2008,9(Suppl 2): S4.

      [5] MADKOUR A,DARWISH K,HASSAN H,et al. Bio-Noculars: extracting protein-protein interactions from bio-medical text [C]∥Proceedings of the Workshop on BioNLP 2007: Biological,Translational,and Clinical Language Processing.Morristown:Association for Computational Linguistics,2007: 89- 96.

      [6] BJ?RNE J,HEIMONEN J,GINTER F,et al. Extracting complex biological events with rich graph-based feature sets [C]∥Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing:Shared Task.Boulder:Association for Computational Linguistics,2009:10- 18.

      [7] LI L,LIU S,QIN M,et al.Extracting biomedical event with dual decomposition integrating word embeddings [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB),2016,13(4): 669- 677.

      [8] RATKOVIC Z,GOLIK W,WARNIER P,et al. BioNLP 2011 task bacteria biotope: the Alvis system [C]∥Proceedings of the BioNLP Shared Task 2011 Workshop.Portland:Association for Computational Linguistics,2011:102- 111.

      [9] KARADENIZ I,OZGüR A. Bacteria biotope detection,ontology-based normalization,and relation extraction using syntactic rules [C]∥Proceedings of the BioNLP Shared Task 2013 Workshop. Sofia:Association for Computational Linguistics,2013:170- 177.

      [10] BOSSY R,GOLIK W,RATKOVIC Z,et al. BioNLP Shared Task 2013-an overview of the bacteria biotope task [C]∥Proceedings of the BioNLP Shared Task 2013 Workshop.Sofia:Association for Computational Linguistics,2013:161- 169.

      [11] MIKOLOV T,YIH W,ZWEIG G.Linguistic regularities in continuous space word representations [C]∥Proceedings of NAACL-HLT 2013.Atlanta:Association for Computational Linguistics,2013:746- 751.

      [12] DUAN K,KEERTHI S S,CHU W,et al. Multi- category classification by soft-max combination of binary classifiers[C]∥Proceedings of International Workshop on Multiple Classifier Systems.Guildford:Springer,2003:125- 134.

      [13] HINTON G E. Learning distributed representations of concepts [C]∥Proceedings of the Eighth Annual Conference of the Cognitive Science Society.Amherst:Lawrence Erlbaum Associates,1986 :12.

      [14] LECUN Y,BENGIO Y,HINTON G. Deep learning [J]. Nature,2015,521(7553):436- 444.

      [15] COLLOBERT R,WESTON J,BOTTOU L,et al. Natural language processing (almost) from scratch [J]. Journal of Machine Learning Research,2011,12:2493- 2537.

      [16] KIM Y. Convolutional neural networks for sentence classification [C]∥Proceedings of Emprical Methods in Natural Language Processing.Doha:Association for Computational Linguistic,2014:1746- 1751.

      [17] SUTSKEVER I,MARTENS J,HINTON G E. Generating text with recurrent neural networks [C]∥Proceedings of the 28th International Conference on Machine Learning (ICML-11).Bellevue:International Machine Learning Society,2011:1017- 1024.

      [18] LIU S,YANG N,LI M,et al. A recursive recurrent neural network for statistical machine translation [C]∥ Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore:Association for Computational Linguistics,2014:1491- 1500.

      [19] HOCHREITER S,SCHMIDHUBER J. Long short- term memory [J]. Neural Computation,1997,9(8):1735- 1780.

      [20] RAVURI S V,STOLCKE A. Recurrent neural network and LSTM models for lexical utterance classification [C]∥Proceedings of Sixteenth Annual Conference of the International Speech Communication Association. Dresden:International Speech Communication Association(ISCA),2015:135- 139.

      Bacteria Biotope Extraction on the Basis of Neural Network

      WANGJianLIHong-leiLINHong-feiYANGZhi-haoZHANGShao-wu

      (School of Computer Science and Technology, Dalian University of Technology, Dalian 116024, Liaoning, China)

      Proposed in this paper is a neural network-based method for extracting the relationship between bacteria and their habitats. In this method, implicit senior features are learnt automatically to avoid the complexity and redundancy of the traditional artificial design of features, and, distributed vector representation with rich syntactic and semantic knowledge for words and entities, two different neural network models, as well as integrated document- level extraction results, are comprehensively employed to make an evaluation on the BB- event corpus from BioNLP- ST 2016. Experimental results show that the proposed method achieves preferableF1score, which means that it is effective in bacteria biotope extraction.

      bacteria biotope extraction; convolutional neural network; long short- term memory neural network; distributed vector representation

      2016- 11- 18

      國家自然科學基金資助項目(61572098,61572102,61562080);國家重點研發(fā)計劃項目(2016YFB1001103) Foundation items: Supported by the National Natural Science Foundation of China(61572098, 61572102, 61562080) and the National Key Research Development Program of China(2016YFB1001103)

      王健(1967-),女,教授,博士生導師,主要從事信息檢索、文本挖掘和自然語言處理研究.E-mail:wangjian@dlut.edu.cn

      1000- 565X(2017)03- 0076- 06

      TP 391;TP 18

      10.3969/j.issn.1000-565X.2017.03.011

      猜你喜歡
      語料實例實體
      前海自貿區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      兩會進行時:緊扣實體經濟“釘釘子”
      振興實體經濟地方如何“釘釘子”
      基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學中的應用
      《苗防備覽》中的湘西語料
      國內外語用學實證研究比較:語料類型與收集方法
      完形填空Ⅱ
      完形填空Ⅰ
      武夷山市| 伊宁县| 巴塘县| 馆陶县| 土默特左旗| 柳江县| 开封县| 牡丹江市| 民县| 荔波县| 铜川市| 辽源市| 获嘉县| 鄂州市| 山丹县| 云梦县| 兴化市| 呼和浩特市| 师宗县| 密云县| 仁布县| 仲巴县| 衡水市| 徐闻县| 镇平县| 武清区| 阳春市| 天祝| 兴业县| 焉耆| 五大连池市| 青冈县| 嘉禾县| 寻乌县| 共和县| 香格里拉县| 广汉市| 稻城县| 和龙市| 香港| 同仁县|