• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      信息抽取技術(shù)及其發(fā)展

      2022-01-15 07:53:56明,曾
      關(guān)鍵詞:評測語料實體

      肖 明,曾 莉

      (1.西南民族大學計算機科學與工程學院,四川 成都 610041;2.西南民族大學數(shù)學學院,四川 成都 610041)

      隨著信息技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)信息飛速增加,從網(wǎng)絡(luò)獲取信息資源變得更加快捷,傳統(tǒng)搜索引擎能幫用戶獲得海量網(wǎng)頁信息,但這還需要進行人工排查和篩選,在成千上萬的反饋中去找尋所需的準確信息,猶如大海撈針.因此,信息的精準獲取,已是信息處理的一項熱點.信息抽取(Information Extraction,IE)的任務(wù)就是對海量的信息內(nèi)容進行自動分類、提取和重構(gòu),轉(zhuǎn)換為便于構(gòu)建知識圖譜或者能直接查詢的結(jié)構(gòu)化信息[1].由于當前網(wǎng)絡(luò)信息的絕大多都以文本形式存在,所以當前信息抽取的主要研究范圍是文本信息抽取(Text Information Extraction)[2].

      從20世紀60年代,國外已有不少學者開始對自動信息抽取技術(shù)進行研究,從1987年到1998年,MUC(Message Understanding Conference,消息理解系列會議)[3]連續(xù)舉辦七屆,MUC會議以其特有的信息抽取系統(tǒng)評測機制,推動IE技術(shù)不斷向前發(fā)展.特別是在1995年舉辦的第六屆MUC會議中,引入了多語種命名實體識別評測任務(wù),除傳統(tǒng)的英文語料外,中文、日文也參與評測.在1998年第七屆MUC中,命名實體識別被具體化為人名、地名、機構(gòu)名等七類實體的識別.從1999年起ACE(Automatic Content Extraction,自動內(nèi)容抽取評測會議)[4]接力推動信息抽取技術(shù)的向前發(fā)展,不僅評測內(nèi)容擴大,包含了實體檢測、數(shù)值檢測、關(guān)系檢測和事件檢測等多項內(nèi)容,語料來源也從原來MUC的限定領(lǐng)域語料變?yōu)閮?nèi)容更為廣泛的書面新聞?wù)Z料,相應(yīng)語料規(guī)模也大幅增加.從2009年開始,ACE被歸入TAC(Text Analysis Conference,文本分析評測會議),評測任務(wù)納入了實體鏈接和屬性的抽取.

      中文文本信息抽取研究起步相對較晚,20世紀90年代初期,學者們陸續(xù)對中文的通用命名實體進行了研究[4,6-8].如:宋柔使用規(guī)則來識別人名[4],孫茂松采用統(tǒng)計和概率識別人名[6],劉挺設(shè)計了一個基于信息抽取的自動文摘系統(tǒng)[7],而Zhang等人在ACL2000上演示了他們利用記憶學習算法獲取規(guī)則的中文信息抽取系統(tǒng)[8].

      1 信息抽取的任務(wù)

      信息抽取目前的主要對象還是各類文本信息,其任務(wù)有:命名實體識別(Named Entity Recognition,NER)、命名實體消歧(Named Entity Disambiguation)、實體關(guān)系抽取(Entity Relation Extraction)和事件抽取(Extracting Events)[9].命名實體(Named Entity,NE)是指信息數(shù)據(jù)中的固有名稱、縮寫及其他唯一標識.命名實體識別是自然語言處理中的一項關(guān)鍵技術(shù),是從文本信息句子中找出包括人名、地名、組織名等各類專有名詞,并同時標注它們的類型.命名實體消歧根據(jù)上下文信息,確定有多個客觀實體對應(yīng)的命名實體,在此處指代的真實世界實體.如,“蘋果”一詞可以代表日常生活中的一種水果,也可以代表美國的一家高科技公司.命名實體消歧可分為基于聚類和基于實體鏈接的兩類實體消歧方法.基于聚類的實體消歧的基本思想是通過指稱項的上下文因素,利用聚類算法進行消歧.如,文本“今天蘋果發(fā)布了新的手機”,可由其上下文中的“發(fā)布”“手機”通過相似度計算確定“蘋果”對應(yīng)到高科技公司.而基于實體鏈接的實體消歧是指先給定目標實體列表,然后計算指稱項與各鏈接實體候選項的一致性分數(shù),選擇得分最高的候選項來實現(xiàn)消歧.實體關(guān)系抽取是指確定實體間的語義關(guān)系,關(guān)系抽取結(jié)果可以用三元組來表示,如,從“四川的省會是成都”中可抽取出三元組(四川,省會,成都).事件抽取是指從信息中抽出用戶關(guān)注的事件,并將其轉(zhuǎn)換為結(jié)構(gòu)化的形式.事件抽取可分為事件識別任務(wù)和論元角色分類任務(wù),事件識別任務(wù)是一個基于單詞的多分類任務(wù),它需識別出句子中的單詞歸屬的事件類型,事件識別又可分為觸發(fā)詞(event trigger)識別、事件類型(event type)分類兩項任務(wù);論元角色分類任務(wù)是對句子中的觸發(fā)詞對和實體之間的角色關(guān)系進行判別,其進一步分為論元(event argument)識別和角色(argument role)分類任務(wù)兩項任務(wù).

      2 信息抽取技術(shù)的發(fā)展

      2.1 基于規(guī)則的階段

      命名實體識別最早在1995年的第六屆MUC會議上被明確提出.實際上,早在20世紀90年代初,針對中文信息處理做分詞處理時,由于出現(xiàn)大量的未登錄詞影響分詞效果,國內(nèi)很多學者就開始對中文專用名進行研究[4,6,8,10].早期的命名實體識別常采用基于規(guī)則的方法,一般由語言學專家先根據(jù)欲識別實體類型的特點,挑選出能代表某類實體的各類特征,如人名的姓氏用字,職位稱呼等,構(gòu)建有限的規(guī)則模板,再通過模式匹配的手段完成命名實體的抽取[4,6,11].這類系統(tǒng)大多依賴語言學專家領(lǐng)域知識,不僅耗時耗力,還不免會有遺漏.由此,也有學者嘗試通過算法自動生成規(guī)則,Collins等[12]提出的DLCoTrain方法,就是通過對小規(guī)模的種子規(guī)則集不斷迭代訓練,滾動生成越來越多的規(guī)則.基于規(guī)則的方法存在著前期投入大、魯棒性和移植性差、局限于特定領(lǐng)域的缺點.

      最早的關(guān)系抽取是基于模式匹配的方法,它是通過定義文本中表達的字符、語法或者語義模式,將模式與文本的匹配作為主要手段,來實現(xiàn)關(guān)系實例的抽取.模式的來源可以由專家定義或者算法自動抽取,專家定義的模式質(zhì)量精良,抽取準確率高,但成本高昂,召回率低.自動抽取模式方式采用滾雪球的方式實現(xiàn)模式抽取和實體抽取的循環(huán)迭代,其特點是自動、高效,但準確率不高.

      2.2 統(tǒng)計學習階段

      隨著機器學習發(fā)展,基于統(tǒng)計的機器學習也不斷應(yīng)用于信息抽取.此類方法中將文本中每個詞的各類特征(如詞法特征、詞性標注,詞義特征等)表達為一個特征向量,然后通過不同的模型方法對大規(guī)模的訓練語料進行學習,最后通過學習好的模型來進行實體識別.常見的模型有:HMM(Hidden Markov Mode,隱馬爾可夫模型)[13-14]、ME(Maxmium Entropy,最大熵)[15]、SVM(Support Vector Machine,支持向量機)[16-17]和CRF(Conditional Random Fields,條件隨機場)[18-21].HMM是基于轉(zhuǎn)換概率的模型,其基本思想是用前面的幾個連續(xù)狀態(tài)去預測當前狀態(tài).張華平等[14]在隱馬爾可夫模型的基礎(chǔ)上引入一種角色標注NER的方法,他們首先利用Viterbi算法,根據(jù)人名構(gòu)成和統(tǒng)計信息,對詞進行角色標注,然后再用最大模式匹配從訓練語料庫中自動識別人名,最終綜合指標為95.4%.

      實體關(guān)系抽取的本質(zhì)是一個多分類問題,因此,各種分類學習方法均可應(yīng)于實體關(guān)系抽取.歸納出來主要有兩類,第一類是基于特征向量的方法,第二類是基于核函數(shù)的方法.基于特征向量的方法,首先預定義好需要抽取的關(guān)系類型,再根據(jù)訓練語料中實體的詞法、句法、實體間文本距離以及語義特征等構(gòu)造特征向量,最后通過各種不同的機器學習分類模型進行關(guān)系抽取.基于核函數(shù)的方法不用明確給出計算對象的特征向量,它可以利用多種不同的數(shù)據(jù)組織形式,綜合各方面的知識信息來表示實體關(guān)系,通過核函數(shù)的映射,在高維空間中完成實體關(guān)系的分類.Zelenko最先在文本的淺層解析表示的基礎(chǔ)上,定義了一個多項式核函數(shù)用于關(guān)系抽取[22].劉克彬等人[23]借助知網(wǎng)提供的中文本體知識庫構(gòu)造語義核函數(shù),取得不錯的關(guān)系抽取效果.

      2.3 深度學習階段

      近年來,隨著詞向量(Word Embedding)的引入,掀起了在自然語言處理中應(yīng)用深度學習方法的高潮.Word2Vec是詞向量的代表,它的基本思想是用具有統(tǒng)一維度的向量來表示模型中的每個詞[24].這樣不僅解決了高維度向量空間帶來的數(shù)據(jù)稀疏問題,還能將更多語義特征融入其中,同時使異構(gòu)文本能得到統(tǒng)一維度的向量特征表示.

      Liu等[25]最早用CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))來自動提取特征,它用詞向量和詞法特征進行對句子進行編碼,然后接卷積層、全連接層、softmax層完成分類,它在ACE 2005數(shù)據(jù)集上比基于kernel的方法F1值提高了9%.Zeng等[26]使用預訓練詞向量和位置特征,還在CNN層后使用了最大池化層.Nguyen和Grishman[27]完全擯棄詞法特征,讓CNN自動學習,利用多窗口卷積獲得不同尺度的n-gram信息,通過端到端的神經(jīng)網(wǎng)絡(luò)取得較好效果.2016年Wang等[28]提出了結(jié)合多級注意力機制(Attention)的CNN來實現(xiàn)關(guān)系抽取,其第一級Attention在輸入層,計算所有詞對目標實體的注意力大小,第二級Attention在CNN的輸出部分,利用卷積操作將提取到的特征矩陣和目標關(guān)系嵌入矩陣,計算對于目標關(guān)系的注意力大小,再將計算結(jié)果和特征矩陣相乘,最后使用最大池操作得到目標的關(guān)系向量.

      相比于傳統(tǒng)的機器學習的方法,基于CNN的方法取得了不錯的成績,但CNN對于時序特征的抽取能力偏弱.而RNN(recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡(luò))模型則適合做時序特征的抽取.Zhang等[29]首次使用BRNN(Bidirectional RNN,雙向循環(huán)神經(jīng)網(wǎng)絡(luò))來進行關(guān)系抽取,BRNN相當于集成了前向和后向兩個RNN,其先分別按照正向和逆向?qū)⒕渥又械膯卧~喂輸入到兩個RNN中,再將這兩個RNN的隱含層輸出疊加.

      Cai等人[30]于2016年提出了一種基于最短依賴路徑(Shortest Dependency Path,SDP)的深度學習關(guān)系抽取模型:雙向遞歸卷積神經(jīng)網(wǎng)絡(luò)模型(BRCNN).論文的主要思想是對兩個實體間的詞法句法的SDP進行建模,利用雙通道的LSTM(Long Short-Term Memory,長短期記憶神經(jīng)網(wǎng)絡(luò))對SDP進行全局信息編碼,并利用CNN捕獲每個依存關(guān)系鏈接的兩個單詞的局部特征,增強了實體對之間關(guān)系方向分類的能力.

      Miwa等人[31]于2016年首次將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于命名實體識別與實體關(guān)系抽取的聯(lián)合模型.模型基于LSTM-RNN,采用端到端執(zhí)行方式,模型由三個表示層組成,底層是詞嵌入層完成信息編碼,在詞嵌入層上有兩個雙向的LSTM-RNN,一個基于詞序列結(jié)構(gòu)用于實體識別任務(wù),一個基于依存樹結(jié)構(gòu)用于關(guān)系抽取,這兩部分共享編碼信息,并堆疊形成一個整體的模型,前一個的輸出和隱含層作為后一個結(jié)構(gòu)輸入的一部分,使得實體識別與抽取相互影響.

      Katiyar等人[32]在2017年將注意力機制Attention與BiLSTM聯(lián)合用于命名實體識別和關(guān)系抽取.該模型借鑒了Miwa等人[31]的模型,改善了原模型依賴于詞性序列、依存樹等特征的缺點.模型具有一個詞嵌入表示的輸入層,兩個輸出層,一個用于輸出識別出的實體,一個使用注意力模型進行關(guān)系分類.

      2018年,Devlin等人[33]提出了BERT(Bidirecttional Encoder Representations from Transformers)模型,BERT屬于預訓練語言模型,所謂預訓練模型,就是先用大量的自由文本進行預訓練,使模型學習得到通用的語言知識,再根據(jù)下游任務(wù)進行Fine-tuning階段訓練,讓模型參數(shù)按具體任務(wù)要求和領(lǐng)域知識進行微調(diào).

      3 基于BERT的實體和關(guān)系聯(lián)合抽取模型

      基于BERT的強大能力,本文設(shè)計了一個基于BERT的實體和關(guān)系聯(lián)合抽取模型,本模型將實體和關(guān)系的聯(lián)合抽取轉(zhuǎn)換為序列標注問題,模型總體分為4個部分:嵌入層、BERT層、BiLST層和CRF層.模型結(jié)構(gòu)如圖1所示:

      圖1 基于BERT的實體和關(guān)系聯(lián)合抽取模型Fig.1 Joint Extraction Model of Entity Relationship Based on BERT

      3.1 文本預處理

      預處理過程中先對數(shù)據(jù)源進行清洗和篩選,過濾掉一些無關(guān)的文本或數(shù)值.再對訓練文本序列進行標注,標注時每個文字都標注一個標簽,標簽內(nèi)容最多有4部分,分別是實體邊界、實體類型、關(guān)系類別和關(guān)系角色.實體邊界標簽采用“BIO”方式,字母“B”表示實體的頭部,字母“I”表示在實體中部或?qū)嶓w尾部,字母“O”表示非實體部分.實體類型標簽由實體類型確定,如“Per”表人名、“Org”表示公司名.實體關(guān)系標簽由關(guān)系類別來確定,如在金融領(lǐng)域中我們處理五種實體關(guān)系,分別用“Coo”“Dea”“Pun”“Mem”“Sto”表示合作、交易、處罰、成員和股權(quán)關(guān)系.關(guān)系角色用1、2、3分別表示關(guān)系主體、關(guān)系客體和重疊關(guān)系.標注過程如圖2所示.

      圖2 輸入句子標注過程Fig.2 Input sentence tagging process

      3.2 嵌入層

      BERT模型的輸入表示由Token Embedding,Segment Embedding和Position Embedding三部分相加組合而成.Token Embedding部分首先是[CLS]標志,然后是文字序列內(nèi)容,[SEP]標志句子的結(jié)束,可用于分開輸入句子,在這里每個Token都表示為一個768維的向量.Segment Embedding部分用于訓練句子的相互關(guān)系,區(qū)分每一個Token屬于句子A還是句子B,如果只有一個句子就只使用A.Position Embedding嵌入部分對文字出現(xiàn)位置進行編碼,在BERT模型中位置向量的值由正余弦函數(shù)生成,具體公式如下:

      其中,pos指當前Token在句子中的位置,d_model表示位置向量中每個值的維度.三向量相加后,進行歸一化和Dropout處理后送入BERT層進行特征提取.

      3.3 BERT層

      BERT采用雙向Transformer做特征抽取器,在預訓練時通過遮蔽語言模型(Masked Language Model,MLM),按照完形填空的思想,在輸入中隨機選擇15%的Token屏蔽掉,再根據(jù)其上下文來預測被屏蔽的Token.為了和后期Fine-tuning匹配,被選擇的Token只有80%的直接用[Mask]屏蔽,另外10%的隨機選擇別的Token代替,10%的使用原Token.此外,BERT還引入了下一句預測(Next Sentence Prediction,NSP)任務(wù),采用自監(jiān)督學習方式,學習文本對的表示.通過對海量自由文本的學習,BERT能自動學習得到文本中潛在的語言知識,并將這些知識以網(wǎng)絡(luò)參數(shù)的方式存儲起來,供后期具體任務(wù)的Fine-tuning使用.在做Fine-tuning任務(wù)時,BERT結(jié)構(gòu)無需改變,只需使用標注的數(shù)據(jù)對網(wǎng)絡(luò)進行訓練微調(diào).

      BERT中用到的是Transformer的Encoder單元,每個Encoder單元的結(jié)構(gòu)如圖3所示,其中包含兩個子層,第一子層由多頭自注意力層(Mulit-Head Attention)和規(guī)范化層(Add&Norm)以及一個殘差(Residual)連接;第二子層包括一個前饋全連接層(Feed Forward)和規(guī)范化層以及一個殘差連接.自注意力機制使用三元組(Query,Key,Value)表示,當Encoder對某個Token編碼時,用當前Token的Query表示向量Q,與其他所有Token的Key表示向量T做點積,再將點積結(jié)果歸一化后用softmax函數(shù)處理,然后與當前Token的Value表示向量V做乘法,即可得到最終的表示結(jié)果.自注意力機制能表達輸入序列的各部分(包括自己)與當前Token之間的聯(lián)系度,具體計算方法如下:

      圖3 Transformer Encoder單元Fig.3 Transformer Encoder Unit

      多頭(Multi-Head)機制,則是通過隨機初始化多組Q,K和V,經(jīng)過訓練后,得到多個不同權(quán)重的結(jié)果表示,再將這些結(jié)果通過乘法連接,多頭注意力機制增加了模型表達詞匯的多種特征的能力,從而均衡單一注意力機制可能產(chǎn)生的偏差,使多詞義詞能有多元表達.

      在進行了Attention操作之后,Encoder還使用一個前饋全連接層,對每個Token向量進行兩次線性變換和一次ReLU激活輸出.在多頭自注意力層和前饋全連接層后都有一個規(guī)范化層,其主要作用是進行數(shù)值的規(guī)范化,防止經(jīng)過多層計算后輸出開始出現(xiàn)過大或過小情況,使其特征值保持在合理范圍內(nèi).

      本文采用BERT-base模型,其中模型深度L=12層,隱藏層向量大小H=768維,多頭注意力機制A=12頭,模型參數(shù)總數(shù)是12*768*12=110 M.

      3.4 BiLSTM層

      LSTM屬于RNN的一種,它巧妙運用門控概念,實現(xiàn)了長距離依賴信息的學習.BiLSTM則是將兩個不同方向的LSTM進行疊加,從而能獲取全局信息.在BERT的頂層上套接一個BiLSTM是為了使整個模型能針對實體和關(guān)系聯(lián)合抽取任務(wù)快速學習到訓練參數(shù),適應(yīng)性更強.LSTM神經(jīng)單元中有遺忘門、記憶門和輸出門結(jié)構(gòu),可以根據(jù)細胞狀態(tài)和輸入值確定信息遺忘更新還是繼續(xù)傳遞,從而使有用信息能長期保存,而無用信息被丟棄.

      3.5 CRF層

      通過BiLSTM層能得到輸入序列中每個文字對應(yīng)各標注標簽的得分,但并不是直接按分值高低標注就是最優(yōu)結(jié)果,例如,每個序列的第一個標簽的實體邊界就只能是O或者B,不可能是I,以及I只能出現(xiàn)B或者I之后等.由此,在BiLSTM層上引入CRF層,能在預測標簽時充分考慮上下文關(guān)聯(lián),學習得到各標簽的轉(zhuǎn)移矩陣,更好的契合實體與關(guān)系的聯(lián)合抽取任務(wù).

      設(shè)輸入的序列x=(x1,x2,…,xn),經(jīng)過BERT和BiLSTM模塊后的輸出為矩陣P(n,k),k是標簽的個數(shù),Pi,j表示xi被標記為第j個標簽的概率.標簽序列為y=(y1,y2,…,yn),定義路徑得分公式為:

      其中,A為概率轉(zhuǎn)移矩陣,Ai,j表示第i個標簽轉(zhuǎn)移到第j個標簽的概率.

      3.6 實體及關(guān)系的輸出

      根據(jù)CRF輸出的序列標注結(jié)果,即可按照抽取算法,進行實體和關(guān)系的抽取.抽取算法如下:

      算法1:由CRF輸出標注序列(y1,y2,…,yn),抽取實體及關(guān)系.

      輸入:模型輸入文字序列(x1,x2,…,xn),CRF輸出標注序列(y1,y2,…,yn).

      輸出:實體集合N1,N2,…,Nk(k為實體類型數(shù)),關(guān)系集合R1,R2,…,Rm(m為關(guān)系種類數(shù)).

      步驟1:位序標記i=1,實體全體置為空,關(guān)系集合全體置為空,臨時實體名na置為空串,未匹配實體集Nn置為空.

      步驟2:如果i>n,則轉(zhuǎn)到步驟5執(zhí)行;否則做下一步.

      步驟3:如果標注yi代表O,則i++,再轉(zhuǎn)到第二步執(zhí)行;否則,如果標注yi代表B,則將其對應(yīng)輸入文字xi存入na,同時保存yi的實體屬性、關(guān)系屬性、角色屬性,i++,再轉(zhuǎn)到下一步執(zhí)行.

      步驟4:如果標注yi代表I,且yi與yi-1的其余屬性一致,則將其對應(yīng)輸入文字xi接在na的后面,i++,再重復執(zhí)行步驟4;否則做下一步.

      步驟5:根據(jù)實體屬性將na存入對應(yīng)實體集合Nj(j為對應(yīng)實體類型下標)中,并在未匹配實體集Nn中查找是否有與na關(guān)系屬性和角色屬性均匹配的實體,匹配時關(guān)系屬性應(yīng)相同,角色屬性1與2、3匹配、2與1、3匹配、3與1、2匹配,若能找到,則將其取出并與na合成關(guān)系三元組,再存入相應(yīng)類型的關(guān)系集合Rt(t為對應(yīng)關(guān)系類型下標)中;若不能找到,則將na及其所有屬性存入未匹配實體集Nn中.如果i>n,轉(zhuǎn)到步驟6執(zhí)行;否則,i++,再轉(zhuǎn)到步驟2執(zhí)行.

      步驟6:輸出實體集合N1,N2,…,Nk,關(guān)系集合R1,R2,…,Rm,算法結(jié)束.

      4 數(shù)據(jù)集與評測情況

      4.1 數(shù)據(jù)集介紹

      在信息抽取領(lǐng)域常用的數(shù)據(jù)集有MUC數(shù)據(jù)集、ACE數(shù)據(jù)集和SemEval數(shù)據(jù)集等.

      MUC數(shù)據(jù)集是MUC會議的數(shù)據(jù)庫語料,其主要來源于新聞?wù)Z料,MUC-6包含來自《華爾街日報》的318篇文章;MUC-7有來自紐約時報新聞的約158 000篇文章,語料范圍限定在海軍軍事情報、恐怖襲擊、人事職位變動等方面[3].

      ACE數(shù)據(jù)集相比MUC數(shù)據(jù)集不僅評測內(nèi)容擴大,語料來源也從原來MUC的限定領(lǐng)域語料變?yōu)閮?nèi)容更為廣泛的書面新聞?wù)Z料,應(yīng)用較廣是ACE-2004和ACE-2005.其中ACE-2004語料數(shù)據(jù)來源于LDC(linguistic data consortium,語言數(shù)據(jù)聯(lián)盟),分成廣播新聞和新聞專線兩部分,總共包括451和文檔和5 702個關(guān)系實例.ACE-2005對ACE-2004進行了擴充和完善,包括有英文、阿拉伯語和中文三個語種的資源,內(nèi)容涵蓋廣播新聞、廣播對話、新聞專線、微博和網(wǎng)絡(luò)新聞等[4].

      SemEval數(shù)據(jù)集是國際語義評測大會SemEval(International Workshop on Semantic Evaluation)的評測競賽數(shù)據(jù)集,SemEval由國際計算語言學協(xié)會(Association for Computational Linguistics,ACL)主辦,是目前規(guī)模最大、參賽人數(shù)最多、權(quán)威性最高的語義評測競賽.其中,SemEval-2010 Task 8數(shù)據(jù)集是2010年SemEval語義評測的子任務(wù),用于語義關(guān)系的分類,共包含10 717條數(shù)據(jù),訓練集8 000條,測試集2 717條,分別屬于9種不相容關(guān)系[34].

      4.2 典型論文的評測情況

      在信息抽取中常用的評測基本指標有三項,分別為:正確率(Precision)、召回率(Recall)和F值(Fmeasure).準確率反映系統(tǒng)正確抽取信息的能力,召回率反映系統(tǒng)在信息抽取時查全所有實體和關(guān)系的能力,而F值是綜合準確率和召回率指標的評估指標,用于綜合反映整體的指標,是目前使用最為廣泛的評測標準.表1是典型論文的數(shù)據(jù)集及其評測情況.

      表1 典型論文的數(shù)據(jù)集及其評測情況Table 1 Data sets of typical papers and their evaluation

      5 信息抽取展望

      目前基于深度學習的信息抽取方法已取得很好發(fā)展,但仍有很多方面值得深入研究.首先,深度學習模型擅于處理單句語義信息,但在實際應(yīng)用中,很多實體關(guān)系是由多個語句共同來表達,這就需要模型對文檔中的多個語句進行綜合理解、記憶和推理,進行文檔級關(guān)系抽取.其次,目前信息抽取的研究多集中預設(shè)好的抽取任務(wù)集上,但今后的應(yīng)用將是面向開放領(lǐng)域的信息抽取,因此,還需要不斷探索如何在開放領(lǐng)域中自動發(fā)現(xiàn)新的實體關(guān)系及其事實.最后,當前研究往往限于單語種的文本信息,而人類在接受信息時,可以多種信息綜合處理,因此,需要探索如何綜合利用多語言的文本、聲音和視頻信息進行關(guān)系抽取.總之,信息抽取的研究要面向?qū)嶋H需求,適應(yīng)開放關(guān)系和復雜的信息語境,以建立穩(wěn)定和高效的實用信息抽取系統(tǒng).

      猜你喜歡
      評測語料實體
      次時代主機微軟XSX全方位評測(下)
      次時代主機微軟XSX全方位評測(上)
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      攻坡新利器,TOKEN VENTOUS評測
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      Canyon Ultimate CF SLX 8.0 DI2評測
      中國自行車(2017年1期)2017-04-16 02:54:06
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學中的應(yīng)用
      沙洋县| 土默特右旗| 固阳县| 河池市| 清涧县| 洛宁县| 山丹县| 桃园县| 会昌县| 石城县| 乌兰察布市| 乌拉特后旗| 手机| 永寿县| 泸州市| 克东县| 呼伦贝尔市| 博湖县| 增城市| 探索| 阿坝| 女性| 逊克县| 元谋县| 金寨县| 平果县| 温宿县| 靖江市| 清丰县| 远安县| 甘德县| 天峻县| 湖南省| 大荔县| 安徽省| 南投市| 连江县| 玉门市| 尚志市| 武宁县| 台北县|