• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于RBBLC模型的中文事件抽取方法

      2022-09-27 12:01:56楊登輝
      關(guān)鍵詞:論元標(biāo)簽卷積

      楊登輝,劉 靖

      (內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021)

      伴隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)飛速發(fā)展,各式數(shù)據(jù)的規(guī)模爆炸式增長(zhǎng),大數(shù)據(jù)時(shí)代已然到來,大數(shù)據(jù)處理技術(shù)也應(yīng)運(yùn)而生. 各行各業(yè)都已經(jīng)受到大數(shù)據(jù)思維的影響,開始依托大數(shù)據(jù)及其處理技術(shù)進(jìn)行生產(chǎn)流程的優(yōu)化. 大數(shù)據(jù)包含的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中都存在著豐富的知識(shí)等待發(fā)掘,也催生了對(duì)不同結(jié)構(gòu)數(shù)據(jù)的大量處理方法和技術(shù). 在許多典型應(yīng)用場(chǎng)景中,圖像、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)是主要的分析數(shù)據(jù)類型,但在公檢法、紀(jì)檢監(jiān)察等領(lǐng)域融入大數(shù)據(jù)分析時(shí),對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本大數(shù)據(jù)的處理需求也是十分迫切的,并且是更加常用的. 基于這類數(shù)據(jù)進(jìn)行業(yè)務(wù)分析時(shí),需要重點(diǎn)提取數(shù)據(jù)背后的隱型關(guān)聯(lián),而事件抽取是對(duì)此類文本數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析的核心基礎(chǔ). 事件抽取作為自然語言處理中的一項(xiàng)重要任務(wù),其目標(biāo)是從含有事件信息的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中以結(jié)構(gòu)化的形式將事件信息呈現(xiàn)出來,進(jìn)而支持如自動(dòng)文摘、自動(dòng)問答、信息檢索等豐富的下游應(yīng)用.

      當(dāng)前的事件抽取任務(wù)研究中,事件抽取被分成了事件檢測(cè)和要素識(shí)別兩個(gè)子任務(wù),二者相互承接共同完成事件信息的抽取. 事件檢測(cè)子任務(wù)的目標(biāo)是在非結(jié)構(gòu)化的文本信息中進(jìn)行觸發(fā)詞識(shí)別進(jìn)而確定事件的類型,而事件要素識(shí)別子任務(wù)的目標(biāo)是在事件檢測(cè)得到的事件類型的基礎(chǔ)之上完成不同事件要素的抽取. 當(dāng)前多數(shù)研究工作中將事件抽取任務(wù)分步執(zhí)行的方式也帶來了一些隱患,誤差會(huì)在兩項(xiàng)任務(wù)之間進(jìn)行傳播,事件要素抽取的準(zhǔn)確率嚴(yán)重依賴于事件觸發(fā)詞識(shí)別和事件類型識(shí)別的準(zhǔn)確率. 而少數(shù)以聯(lián)合抽取方式進(jìn)行事件抽取的研究工作中,也因Word2Vec等經(jīng)典文本向量化工具無法獲取文本中存在的相關(guān)上下文信息的缺陷,造成抽取效果不佳的問題.

      本文提出并構(gòu)建了一種新的聯(lián)合事件抽取模型RBBLC. 針對(duì)兩級(jí)子任務(wù)的誤差傳播問題,本文提出的RBBLC模型以序列標(biāo)注的方式同時(shí)完成事件檢測(cè)和事件要素識(shí)別,最大限度避免了誤差的傳播并能有效地捕捉觸發(fā)詞與事件論元之間的相互依賴. 文獻(xiàn)[1]提出了一種基于變壓器的雙向編碼表征(bidirectional encoder representation from transformers,BERT)模型,而針對(duì)聯(lián)合抽取模型中因經(jīng)典文本工具缺陷造成的抽取效果不佳,本文基于魯棒優(yōu)化的BERT預(yù)訓(xùn)練方法(a robustly optimized BERT pretraining approach,RoBERTa)模型進(jìn)行文本的向量化,解決經(jīng)典文本向量化工具存在的上下文特征缺失問題,其經(jīng)過在大量數(shù)據(jù)上進(jìn)行的無監(jiān)督訓(xùn)練,能夠在提取出詞向量的同時(shí),保留句子中存在的上下文相關(guān)信息. 進(jìn)而利用融合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)(Bi-directional long short-term memory and convolutional neural network,BiLSTM-CNN)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步捕捉文本上下文關(guān)聯(lián)信息,最后以序列標(biāo)注的方式完成事件抽取任務(wù).

      1 相關(guān)工作

      1.1 事件抽取基本概念

      事件是包含時(shí)間、地點(diǎn)、主體、行為等不同元素信息的綜合概括,是事件抽取任務(wù)中最重要的知識(shí)單元結(jié)構(gòu). 而事件抽取就是要提取出文本數(shù)據(jù)中所包含事件的觸發(fā)詞、類型及其他事件相關(guān)元素,以結(jié)構(gòu)化形式應(yīng)用到下游的信息檢索、智能問答、閱讀理解等工作中. 事件抽取任務(wù)可細(xì)分為兩個(gè)相互承接的子任務(wù):事件觸發(fā)詞抽取和事件類型識(shí)別子任務(wù),目標(biāo)是從非結(jié)構(gòu)化文本數(shù)據(jù)中定位事件,并識(shí)別出事件的觸發(fā)詞,進(jìn)而將事件分類. 事件論元抽取子任務(wù),目標(biāo)是依據(jù)觸發(fā)詞和事件類別,在非結(jié)構(gòu)化文本數(shù)據(jù)中進(jìn)一步挖掘時(shí)間、地點(diǎn)、參與者等事件要素. 針對(duì)事件抽取任務(wù),當(dāng)下的主流方式包括兩類:管道方式,以順序方式進(jìn)行兩項(xiàng)子任務(wù),在觸發(fā)詞識(shí)別和事件分類的基礎(chǔ)之上完成要素抽取. 聯(lián)合抽取方法,采用端到端的模型,同時(shí)完成觸發(fā)詞識(shí)別和論元識(shí)別任務(wù).

      1.2 基于管道方法事件抽取的研究

      依據(jù)ACE會(huì)議對(duì)事件抽取的定義,當(dāng)前許多工作將事件抽取任務(wù)分為兩步進(jìn)行. 早期的事件抽取多基于模板匹配的方式,需要人工依據(jù)預(yù)設(shè)的規(guī)則制定抽取模板. 文獻(xiàn)[2]提出了一種利用語言模型發(fā)掘事件信息的方法. 文獻(xiàn)[3]提出了一種利用模板匹配新聞文本,挖掘事件信息的方法. 但模板匹配的方式成本高,拓展性差,因而事件抽取伴隨著機(jī)器學(xué)習(xí)的快速發(fā)展和神經(jīng)網(wǎng)絡(luò)在自然語言處理(natural language processing,NLP)領(lǐng)域的廣泛應(yīng)用也開始了神經(jīng)網(wǎng)絡(luò)時(shí)代. 文獻(xiàn)[4]提出了一種基于動(dòng)態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)(dynamic multi-pooling convolutional neural networks,DMCNN)以管道方式實(shí)現(xiàn)事件抽取,并引入詞向量和卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)以自動(dòng)學(xué)習(xí)詞匯和句子級(jí)別的特征. 文獻(xiàn)[1]文中提出了一種BERT模型和圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolution network,GCN)網(wǎng)絡(luò)的觸發(fā)詞檢測(cè)模型BGCN. 文獻(xiàn)[5]提出了一種利用卷積化雙向LSTM模型神經(jīng)網(wǎng)絡(luò)識(shí)別中文事件觸發(fā)詞并分類的方法,并對(duì)比了基于詞和基于字的2種向量嵌入方法. 文獻(xiàn)[6]提出一種事件要素注意力與編碼層融合的事件觸發(fā)詞抽取模型,能夠有效地利用事件要素信息,提高觸發(fā)詞抽取性能. 文獻(xiàn)[7]為了提高自動(dòng)特征選擇和分類能力,提出了一種端到端卷積公路神經(jīng)網(wǎng)絡(luò)和極限學(xué)習(xí)機(jī)框架來檢測(cè)生物醫(yī)學(xué)事件觸發(fā)詞. 文獻(xiàn)[8]提出了一種基于隱馬爾可夫模型和多階段的中文事件抽取方法.

      1.3 基于聯(lián)合抽取方法事件抽取的研究

      雖然神經(jīng)網(wǎng)絡(luò)的應(yīng)用已經(jīng)讓事件抽取任務(wù)的效率和準(zhǔn)確率大幅度提升,但以管道方式進(jìn)行事件抽取會(huì)產(chǎn)生級(jí)聯(lián)錯(cuò)誤的弊端已經(jīng)成為制約事件抽取效果的重要因素,且事件要素抽取子任務(wù)獲得的事件要素信息本可以對(duì)觸發(fā)詞識(shí)別和事件類型識(shí)別提供較大的輔助,但因兩級(jí)子任務(wù)分離無法反饋而失去作用. 因而,聯(lián)合抽取成為了一個(gè)不錯(cuò)的選擇,不僅解決了兩級(jí)子任務(wù)間的錯(cuò)誤傳遞問題,還充分利用了觸發(fā)詞與事件要素的相互依賴關(guān)系提升了抽取效果. 文獻(xiàn)[9]提出一種基于樹結(jié)構(gòu)長(zhǎng)短期記憶網(wǎng)絡(luò)(tree-structu red long short-term memory networks,TREE-LSTM)和門控循環(huán)單元網(wǎng)絡(luò)(gated recurrent unit,GRU)的模型,模型中加入了觸發(fā)詞的依存句法分析. 文獻(xiàn)[10]提出了一種混合神經(jīng)網(wǎng)絡(luò)模型,同時(shí)對(duì)實(shí)體和事件進(jìn)行抽取,挖掘兩者之間的依賴關(guān)系. 模型采用雙向LSTM識(shí)別實(shí)體,并將在雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)中獲得的實(shí)體上下文信息進(jìn)一步傳遞到結(jié)合了自注意力和門控卷積的神經(jīng)網(wǎng)絡(luò)來抽取事件. 文獻(xiàn)[11]提出了一種組合卷積神經(jīng)網(wǎng)絡(luò)CNN與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的中文事件抽取模型. 文獻(xiàn)[12]提出了一種基于深度學(xué)習(xí)的文檔級(jí)無觸發(fā)詞的事件抽取聯(lián)合模型.

      2 RBBLC模型

      2.1 RBBLC模型架構(gòu)

      RBBLC模型以文本數(shù)據(jù)為輸入,以序列標(biāo)注的形式給出文本的觸發(fā)詞及論元識(shí)別結(jié)果和各觸發(fā)詞及論元所屬事件類別的分類結(jié)果. 在事件抽取過程中,RBBLC模型通過RoBERTa組件將輸入文本數(shù)據(jù)中每個(gè)漢字轉(zhuǎn)換為768維的字向量. 而RoBERTa輸出的由字向量組成的句子將送入模型的LSTM-CNN部分,由LSTM網(wǎng)絡(luò)捕捉文字之間存在的長(zhǎng)距離和短距離依賴關(guān)系,同時(shí)由CNN網(wǎng)絡(luò)進(jìn)行局部上下文關(guān)聯(lián)特征提取. 最后將LSTM和CNN的輸出進(jìn)行融合,經(jīng)兩個(gè)線性層分別輸出對(duì)句子中文字的觸發(fā)詞及論元類別標(biāo)簽預(yù)測(cè)結(jié)果和事件類型預(yù)測(cè)結(jié)果. 本文構(gòu)建的RBBLC模型架構(gòu)如圖1所示.

      圖1 RBBLC模型結(jié)構(gòu)圖

      2.2 RoBERTa模型

      RBBLC模型需要基于一種能比經(jīng)典文本向量化工具捕捉更多文本信息和上下文關(guān)聯(lián)信息的文本向量化模型,而近期受到很多研究者關(guān)注的BERT模型系列模型成為了最優(yōu)的選擇[13]. BERT是一種預(yù)訓(xùn)練語言表示的方法,在大量文本語料上以無監(jiān)督的方式訓(xùn)練了一個(gè)通用的語言理解模型. BERT模型的結(jié)構(gòu)如圖2所示,BERT選用Transformer作為基礎(chǔ)的算法框架,其能夠捕捉語句中深層的雙向關(guān)系,這很好得契合了本文模型基于文本中存在的上下文關(guān)系進(jìn)行標(biāo)簽預(yù)測(cè)的序列標(biāo)注工作的特點(diǎn). Facebook提出的RoBERTa作為BERT的改進(jìn)版本,以動(dòng)態(tài)掩碼的方式在更大規(guī)模的語料集上以更大的步長(zhǎng)對(duì)模型進(jìn)行了訓(xùn)練,從而在多項(xiàng)任務(wù)中獲得了比基礎(chǔ)BERT更好的效果,因此本文選用了由哈工大訊飛聯(lián)合實(shí)驗(yàn)室構(gòu)建的中文RoBERTa模型,RBBLC模型將原始輸入文本數(shù)據(jù)以句子為單位,將句子中的每個(gè)文字通過查詢字向量表轉(zhuǎn)化為一維向量并計(jì)算每個(gè)字對(duì)應(yīng)的段向量和位置向量,共同作為BERT模型的輸入,進(jìn)而產(chǎn)生各字對(duì)應(yīng)的融合全句語義信息后的向量表示,在此過程中也同時(shí)規(guī)避了由中文分詞工具帶來的誤差.

      圖2 BERT結(jié)構(gòu)圖

      2.3 BiLSTM-CNN神經(jīng)網(wǎng)絡(luò)

      RBBLC模型的任務(wù)是根據(jù)文本信息以序列標(biāo)注的方式為句子中的每個(gè)文字分配正確的論元標(biāo)簽和事件類型標(biāo)簽. 而詞性標(biāo)注、命名實(shí)體識(shí)別等同樣可以通過序列標(biāo)注完成的任務(wù),已經(jīng)證明了能夠?qū)W習(xí)并利用文本上下文信息的循環(huán)神經(jīng)網(wǎng)絡(luò)是最優(yōu)的選擇. 循環(huán)神經(jīng)網(wǎng)絡(luò)的單元結(jié)構(gòu)保證了其可以保存序列輸入之間的關(guān)聯(lián)關(guān)系,并依據(jù)序列各輸入的關(guān)聯(lián)關(guān)系和當(dāng)前輸入進(jìn)行輸出. 因此RBBLC模型中引入了LSTM網(wǎng)絡(luò)層對(duì)句子中存在的上下文關(guān)聯(lián)關(guān)系進(jìn)行學(xué)習(xí). LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的改進(jìn),解決了長(zhǎng)序列在訓(xùn)練過程中可能出現(xiàn)梯度消失或爆炸的缺陷. 但單向的LSTM網(wǎng)絡(luò)只能依據(jù)之前的時(shí)序信息預(yù)測(cè)下一刻的輸出,在本文的序列標(biāo)注任務(wù)中,上下文信息也就是之前時(shí)刻的時(shí)序信息和未來的時(shí)序信息同樣重要. 因此本文選用雙向的LSTM網(wǎng)絡(luò)捕捉語句中詞語前后兩個(gè)方向的長(zhǎng)距離和短距離依賴,雙向LSTM網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示. RBBLC模型將RoBERTa組件輸出的由字向量組成的句子送入雙向LSTM網(wǎng)絡(luò),從前后兩個(gè)方向?qū)渥又写嬖诘纳舷挛年P(guān)聯(lián)信息進(jìn)行學(xué)習(xí).

      圖3 雙向LSTM結(jié)構(gòu)

      同時(shí)因中文詞匯多是由幾個(gè)文字共同組成,一個(gè)中文詞匯中文字對(duì)應(yīng)的標(biāo)簽需要保持一致. 因此在進(jìn)行標(biāo)簽預(yù)測(cè)時(shí),每個(gè)文字前后幾個(gè)文字和其本身組成的范圍內(nèi)的局部特征就具有了重要價(jià)值,RBBLC模型引入CNN網(wǎng)絡(luò)層來提取局部特征. 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是機(jī)器學(xué)習(xí)的重要基礎(chǔ)算法,它是包含卷積和其他相關(guān)計(jì)算并具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),其對(duì)局部特征的獲取和處理能力,對(duì)自然語言處理也具有很大的現(xiàn)實(shí)意義. RBBLC模型對(duì)每個(gè)輸入文字進(jìn)行標(biāo)簽預(yù)測(cè)時(shí),緊密結(jié)合句子中該文字和前后幾個(gè)文字組成的窗口部分的局部特征. 所以本文模型將RoBERTa組件輸出的字向量分別送入多個(gè)一維卷積層來獲取文字的深層局部特征. 本文選擇舍去池化層,因?yàn)槌鼗瘜拥淖顝?qiáng)特征選擇可能會(huì)導(dǎo)致其他重要信息的丟失,本文方法選擇直接將卷積結(jié)果與雙向LSTM網(wǎng)絡(luò)的輸出結(jié)果相結(jié)合,共同決定輸出標(biāo)簽的種類.

      3 實(shí)驗(yàn)結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集及數(shù)據(jù)預(yù)處理

      ACE會(huì)議發(fā)布的ACE2005數(shù)據(jù)集構(gòu)建出了中文、英語、阿拉伯語3種語言的事件抽取數(shù)據(jù)集,被眾多論文用于實(shí)驗(yàn)評(píng)估. 我國(guó)對(duì)事件抽取領(lǐng)域的重視程度也在逐步提升,上海大學(xué)語義智能實(shí)驗(yàn)室構(gòu)建了中文突發(fā)實(shí)踐語料庫(Chinese emergency corpus,CEC)數(shù)據(jù)集.

      CEC的標(biāo)注格式為XML語言,共設(shè)定了6個(gè)最重要的數(shù)據(jù)結(jié)構(gòu)也就是標(biāo)記:Event、Denoter、Time、Location、Participant和Object. 此外每一個(gè)標(biāo)記還具有與之相關(guān)的屬性,CEC語料庫的整體結(jié)構(gòu)如圖4所示.

      圖4 CEC語料庫結(jié)構(gòu)

      本文使用BIO標(biāo)注法對(duì)文段進(jìn)行標(biāo)注,共定義了13類標(biāo)簽,分別對(duì)應(yīng)觸發(fā)詞、相關(guān)論元和其他元素. 文本的標(biāo)注形式如圖5所示,而事件觸發(fā)詞及論元的標(biāo)簽及其含義如表1所示. 同時(shí)對(duì)每個(gè)事件所對(duì)應(yīng)的觸發(fā)詞和論元根據(jù)事件類型進(jìn)行事件類型標(biāo)注,事件類型標(biāo)簽及其含義如表2所示. 最后將數(shù)據(jù)以7∶1∶2的比例劃分了訓(xùn)練集、驗(yàn)證集、測(cè)試集.

      圖5 BIO標(biāo)注及事件類型標(biāo)注

      表1 事件觸發(fā)詞及論元標(biāo)簽

      表2 事件類型標(biāo)簽

      3.2 實(shí)驗(yàn)參數(shù)設(shè)定

      本文參數(shù)的設(shè)定均基于實(shí)驗(yàn)比較. 采用OAT參數(shù)敏感度分析法可以發(fā)現(xiàn)模型中LSTM單元個(gè)數(shù)、訓(xùn)練迭代次數(shù)和輸入序列長(zhǎng)度3個(gè)超參數(shù)對(duì)模型的影響最大,本文對(duì)這3個(gè)參數(shù)進(jìn)行了實(shí)驗(yàn)分析比對(duì),最終參數(shù)的設(shè)定如表3所示.

      表3 參數(shù)設(shè)定

      在多次訓(xùn)練過程中發(fā)現(xiàn)模型在10輪訓(xùn)練之后會(huì)存在過擬合問題,因而設(shè)定模型訓(xùn)練迭代次數(shù)為10. 序列長(zhǎng)度設(shè)定會(huì)影響長(zhǎng)序列超長(zhǎng)部分的保留,設(shè)定太小會(huì)導(dǎo)致信息丟失,設(shè)定太大無法提高模型性能,反而影響模型訓(xùn)練速度,在經(jīng)實(shí)驗(yàn)對(duì)比和對(duì)全部句子長(zhǎng)度的分析之后,序列長(zhǎng)度設(shè)置為160取得了最好的效果. LSTM的單元參數(shù)設(shè)定會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大的影響,如單元數(shù)量太多將導(dǎo)致參數(shù)數(shù)量過多,在有限的數(shù)據(jù)集上難以取得最優(yōu)的訓(xùn)練效果,而單元數(shù)量太少,會(huì)導(dǎo)致訓(xùn)練過程中信息丟失,影響模型最終效果,經(jīng)試驗(yàn)LSTM單元數(shù)量設(shè)定為256時(shí),模型取得了最佳效果. CNN主要用于提取更多的局部上下文特征,如卷積核大小設(shè)定太大,將導(dǎo)致遠(yuǎn)距離上下文對(duì)標(biāo)簽預(yù)測(cè)結(jié)果產(chǎn)生更大的影響,進(jìn)而產(chǎn)生負(fù)面效果,因而本文選定卷積核大小分別為5、7、9的3個(gè)CNN網(wǎng)絡(luò)提取局部上下文信息,而局部特征信息量有限,過濾器數(shù)量太多也無法產(chǎn)生實(shí)際的有效信息,因此設(shè)定為32.

      3.3 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)與評(píng)估方法

      實(shí)驗(yàn)的評(píng)估度量指標(biāo)為準(zhǔn)確率(precision,P)、召回率(recall,R),F1值(F1-measure),其中,序列標(biāo)注是基于字級(jí)別的多分類任務(wù),而評(píng)估時(shí)論元是基于詞級(jí)別的,所以詞語的BIO標(biāo)簽預(yù)測(cè)都計(jì)入評(píng)估.

      (1)

      (2)

      (3)

      Score=Type×Role×F1_Word,

      (4)

      (5)

      (6)

      (7)

      Type表示論元事件種類預(yù)測(cè)結(jié)果是否正確;Role表示論元角色預(yù)測(cè)結(jié)果是否正確;Matching_Num代表預(yù)測(cè)論元和人工標(biāo)注論元共有字的數(shù)量;Predict_Num表示預(yù)測(cè)論元字?jǐn)?shù);Artificial_Num表示人工標(biāo)注論元字?jǐn)?shù). 其中Score、F1_Word、P_Word、R_Word分別為預(yù)測(cè)論文得分、字級(jí)別匹配F1值、字級(jí)別匹配P值、字級(jí)別匹配R值.

      3.4 實(shí)驗(yàn)結(jié)果與分析

      在實(shí)驗(yàn)中,將本文模型與7個(gè)對(duì)照模型進(jìn)行了對(duì)比,本文模型與其對(duì)照模型的實(shí)驗(yàn)結(jié)果如表4所示. 本文方法在準(zhǔn)確率P、召回率R和F1值上均表現(xiàn)最好. 本文分別設(shè)置了4類對(duì)照模型:第一類對(duì)照模型設(shè)定為基線方法Embedding-BiLSTM,用以評(píng)定本文方法的有效性. 第二類對(duì)照模型用BERT模型和Embedding層代替本文使用的RoBERTa模型,用以評(píng)定RBBLC模型選用RoBERTa模型進(jìn)行文本向量化的正確性. 第三類對(duì)照模型用BiGRU-CNN網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)代替本文的BiLSTM-CNN網(wǎng)絡(luò),用以評(píng)定RBBLC模型中BiLSTM-CNN網(wǎng)絡(luò)的上下文關(guān)聯(lián)信息的抽取能力. 第四類對(duì)照試驗(yàn)為目前 CEC數(shù)據(jù)上優(yōu)秀的事件抽取模型,用于證明本文方法對(duì)事件抽取性能的提升.

      表4 事件抽取模型對(duì)照

      在第一類對(duì)照模型實(shí)驗(yàn)中,RBBLC模型與基線方法相比,F1值大幅度提升了23.7%,證明了本文模型的有效性.

      在第二類對(duì)照模型實(shí)驗(yàn)中,與BERT-BiLSTM-CNN模型和Embedding-BiLSTM-CNN的對(duì)比,本文方法的F1值分別提升了4.2%和21.6%,有力證明了RoBERTa在文本表示中能夠更好的獲取上下文語義,為后續(xù)序列標(biāo)注提供更好的支撐.

      在第三類對(duì)照模型實(shí)驗(yàn)中,通過與RoBERT-BiLSTM模型的比較可以發(fā)現(xiàn),F1值提升了1.5%,因而本文提出的加入CNN以提取更強(qiáng)的局部特征的方法,可以更好的幫助模型確定標(biāo)簽種類. 而與RoBERT-BiGRU-CNN模型對(duì)比,LSTM獲得了比GRU更好的準(zhǔn)確率、召回率和F1值,雖然GRU作為L(zhǎng)STM最成功的變體,其結(jié)構(gòu)更為精簡(jiǎn),收斂也更為迅速,但在訓(xùn)練充分的情況下,LSTM仍舊可以保存最完整的長(zhǎng)距離依賴信息.

      在第四類對(duì)照模型實(shí)驗(yàn)中,Joint-RNN是在具有雙向遞歸神經(jīng)網(wǎng)絡(luò)的聯(lián)合框架中進(jìn)行事件抽取的模型[14]. Lattice LSTM是一種網(wǎng)格結(jié)構(gòu)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中文緊急事件抽取模型,該模型利用預(yù)訓(xùn)練模型進(jìn)行字符向量嵌入,并使用條件隨機(jī)場(chǎng)捕獲觸發(fā)詞和事件元素間的相互作用[15]. 本文所提RBBLC模型得益于RoBERTa更為強(qiáng)大的文本信息表達(dá)能力和LSTM-CNN網(wǎng)絡(luò)結(jié)構(gòu)對(duì)更深層語句上下文關(guān)聯(lián)信息及局部特征的獲取能力,在CEC語料庫上的F1值較Joint-RNN模型提升3.21%,較Lattice LSTM模型提升1.11%,證明了本文所提RBBLC模型對(duì)事件抽取性能的提升.

      綜上所述,本文提出的RBBLC模型在CNN數(shù)據(jù)集上的性能較其他模型有所提升.

      4 結(jié)論

      本文構(gòu)建了一種RBBLC模型用于以序列標(biāo)注的方式完成文本數(shù)據(jù)的聯(lián)合事件抽取任務(wù),以RoBERTa作為文本向量化工具,最大限度提取并保留句子中存在的上下文關(guān)聯(lián)信息,進(jìn)而利用BiLSTM-CNN的網(wǎng)絡(luò)結(jié)構(gòu)獲取句子中存在的語義關(guān)聯(lián)和局部特征,最后輸出文本的序列標(biāo)注結(jié)果. RBBLC模型經(jīng)對(duì)比驗(yàn)證,在CEC數(shù)據(jù)上具有優(yōu)于其他模型的事件抽取性能. RBBLC模型聯(lián)合抽取的方法最大限度減少了誤差的傳播,并充分利用了事件觸發(fā)詞和論元之間的相互依賴關(guān)系,取得了良好的效果. 但受限于訓(xùn)練語料規(guī)模較小,后續(xù)應(yīng)用時(shí)仍需對(duì)模型進(jìn)行相應(yīng)適應(yīng)性調(diào)整. 且考慮后續(xù)在擴(kuò)大的語料庫中訓(xùn)練時(shí),引入Attention機(jī)制,進(jìn)一步捕捉句子級(jí)詞語級(jí)的關(guān)聯(lián)性信息,輔助觸發(fā)詞和論元識(shí)別分類.

      猜你喜歡
      論元標(biāo)簽卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
      基于論元結(jié)構(gòu)和題元指派對(duì)漢語處置義“把”字句的句法語義分析
      標(biāo)簽化傷害了誰
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      英語中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
      巍山| 阿图什市| 额济纳旗| 昌江| 永康市| 云和县| 保亭| 金湖县| 泽普县| 滁州市| 云南省| 贺州市| 密山市| 安仁县| 南江县| 灵武市| 霍州市| 绥宁县| 桂阳县| 东阿县| 德庆县| 湖口县| 蒙自县| 宁晋县| 二连浩特市| 亳州市| 鹰潭市| 花莲市| 伊金霍洛旗| 海门市| 阳曲县| 磴口县| 岢岚县| 来安县| 凤山县| 富锦市| 姜堰市| 五原县| 安徽省| 临朐县| 河西区|