馬春明,李秀紅*,李哲,王惠茹,楊丹
(1.新疆大學 信息科學與工程學院,烏魯木齊 830046;2.香港理工大學 電子及資訊工程學系,香港 999077)
事件抽取研究具有重大意義和實用價值,是不同學科發(fā)展和融合的需要。在實際生活中,事件抽取研究在信息收集、信息檢索、文檔合成、信息問答等方面有著廣泛應用,促使自然語言處理技術的發(fā)展取得了重大突破。事件抽取可以定義為檢測特定類型事件并識別有關信息,即事件類別識別和事件元素識別。
將事件句從文本中檢測出來,然后根據(jù)其特征判斷其所屬類別,即事件類別識別。在事件句的檢測過程中,一般使用基于觸發(fā)詞的方法,在訓練時實例化其中的每一個詞,可以判定觸發(fā)詞是否存在于機器學習模型中。然而許多反例也被引進來,使正反例嚴重失衡。為解決上述問題,文獻[1]中首先進行事件檢測,然后對事件進行分類。這種方法是對部分事件進行特征選擇,把特征選擇中的正特征和負特征組合在一起,識別的效果較好。在基于觸發(fā)詞的方法中,不僅正反例嚴重失衡,還產(chǎn)生了數(shù)據(jù)稀疏性問題。為解決此問題,文獻[2]中提出了一種全新的關于自動識別事件類別的算法。在事件句的分類問題中,主要使用了最大熵模型(Maximum Entropy Model,MEM)和支持向量機(Support Vector Machine,SVM)分類器進行分類。在進行候選事件句類別識別時,文獻[3-4]中在基于二分類策略中均使用了以上兩種分類器。在實際應用中,使用多元分類處理一個事件句屬于多個事件類別的情況比使用二元分類更好,而用合適的事件特征來描述事件句以此提高分類的準確性是事件句分類的難點。文獻[5]中利用選取詞、上下文及其詞典信息描述候選事件,在ACE(Automatic Content Extraction)2005 上進行測試,該方法的F 值為61.2%,效果良好。如果在原來的基礎上引進依存分析,然后尋找觸發(fā)詞和別的詞已有的句法關系,最后根據(jù)這個特征讓事件句在支持向量機分類器上進行分類,該方法的F 值為69.3%。為提高事件類別的相關識別率,未來研究將會重點放在分類器和事件特征的選取上。
識別出真正關于命名實體、時間表達式和屬性值的事件元素,然后對它們進行正確的角色標注,即事件元素識別。事件句一般包含許多實體、時間表達式、屬性值等事件信息。為了過濾真實的事件元素,必須首先識別并標注信息,對于信息理解會議(Message Understanding Conference,MUC)來說,這是很重要的研究內容。對于事件元素識別來說,如果事件信息識別及其標注在文本預處理時已經(jīng)結束,事件元素識別在任務方面會產(chǎn)生和語義角色標簽(Semantic Role Labeling,SRL)類似的效果。在一個句子中,動詞(謂詞)和有關聯(lián)的不同短語的語句間有著語義關系,根據(jù)語義關系把語義角色信息給予這些句子的成分,即語義角色標注。例如施事、受事或者工具等。文獻[6]中角色標注了任職事件和會見事件的元素,在條件隨機場(Conditional Random Field,CRF)取得了良好的標注效果,這也說明事件元素和語義角色之間存在一定的聯(lián)系。
文獻[7]中在進行事件元素的識別時運用了上述聯(lián)系。對于底層的模塊,如分詞以及句法分析等,很依賴這種聯(lián)系;如果它們不夠成熟,可能造成很多級聯(lián)錯誤,對事件元素的識別有一定影響。為解決此問題,使用分類問題的思想來進行事件元素的識別,運用了MEM。在對候選元素進行描述時,從四種特征多方面進行:取詞法、類別、上下文以及句法結構。為實現(xiàn)事件元素進行自動識別,運用了二元和多元兩種分類策略[3]。
在最近的事件抽取研究中,文獻[8]中提出了一種基于對比學習的預訓練框架CLEVE,讓預訓練模型更好地從大型無監(jiān)督數(shù)據(jù)中學習事件知識和對應的語義結構,從而在有監(jiān)督和無監(jiān)督的兩種場景下都取得了良好結果。
本文從不同角度對事件抽取的研究現(xiàn)狀進行了總結與展望??纱笾路譃? 個部分:
1)從全局出發(fā)總結事件抽取算法以及評價方法,并介紹事件抽取所用的各種數(shù)據(jù)集以及與之相關的事件表示方法。
2)根據(jù)事件抽取的研究方向,詳細介紹了元事件抽取和主題事件抽取的抽取方式以及使用不同抽取方式的研究現(xiàn)狀。
3)介紹了中英文事件抽取的研究現(xiàn)狀以及成果;跨語言事件抽取面臨的問題及其解決方法,以及在未來研究中跨語言事件抽取的研究趨勢。
4)根據(jù)不同研究角度,總結事件抽取相關技術,包括事件表示、元事件抽取、主題事件抽取、跨語言事件抽取的分類及特點。
5)事件抽取研究面臨的問題以及未來研究趨勢。
事件抽取算法可分為四種:基于建立事件、事件句模板或者事件本體的模式匹配法;基于關鍵詞的觸發(fā)詞法;基于領域本體的本體方法;把不同模型利用不同技術聯(lián)合在一起的前沿聯(lián)合模型方法。下文將對這四種事件抽取算法以及當前事件抽取主要的評價方法進行介紹。
以人工或自動構建的事件句子特征形式表示模板為指導的事件抽取,一般稱為模式匹配。語義角色標注法與事件本體法是現(xiàn)有研究中最常用的構建模板的方法。
1.1.1 語義角色標注法
事件元素對應其語義角色,即語義角色標注法。對于實體、中心詞詞性以及關鍵詞的層次,它們的語義約束在事件元素中完成定義。如果要使事件被匹配到,必要元素與相應的語義角色對應就會出現(xiàn)。首先預處理文本信息,然后在文本信息里進行語義角色標注,語義角色標注的語義信息通過詞法分析對應得到;接著通過語義信息建立概念圖,如果領域場景能被匹配到,就讓規(guī)則庫中的規(guī)則和映射規(guī)則一起匹配;最后,通過映射信息點實現(xiàn)抽取[9]。基于語義角色與概念圖的抽取流程如圖1 所示。
1.1.2 事件本體法
定義實體元素組、事件類別和事件的關系,從中得到特征項構建,再根據(jù)得到的特征項對事件和事件間的關系進行挖掘,即事件本體法。文獻[10]中提出了一種基于事件本體的文本特征重構方法,該方法表明了事件本體法的實用性。在構建事件的特征項時,包括兩個流程:一是基于本體進行特征壓縮,這主要指對同義項進行合并;二是基于本體進行擴充,這主要指在事件文本中,添加已經(jīng)失去的事件元素特征。
在“中獎欺詐”“網(wǎng)絡色情”“非法交易”三類語料庫上比較了基于事件本體并且支持向量機的方法和只支持向量機的方法的準確性,實驗結果如表1 所示,與只支持向量機的方法(平均準確率為85.0%)相比,基于事件本體并且支持向量機的方法(平均準確率為78.7%)更加準確,這也說明了事件本體能讓分類變得更準確。
表1 基于支持向量機與基于事件本體+支持向量機的文本分類結果Tab.1 Text classification results based on support vector machine and based on event ontology+support vector machine
觸發(fā)詞法也叫作事件關鍵詞法。在統(tǒng)計處理事件句時,在句子的文本中有一類情況出現(xiàn)的事件句比較多,這種情況基本都是在句子文本中有某一種術語或者詞匯,因此可以通過創(chuàng)建事件觸發(fā)詞詞典,使得事件抽取出現(xiàn)更好的效果[11]。
創(chuàng)建事件觸發(fā)詞詞典的方法有兩類:一是在應用中,如果觸發(fā)詞的詞量沒發(fā)生多少變化,就基于領域經(jīng)驗由領域專家手工創(chuàng)建,不過這種方法很依賴領域專家的經(jīng)驗;二是根據(jù)詞匯在事件句中已經(jīng)存在的分析統(tǒng)計,把觸發(fā)詞從相應的事件句中提取出來,這類方法比第一類方法在觸發(fā)詞的查重率方面有所提高。在觸發(fā)詞字典中,也有兩類方法進行系統(tǒng)應用:一是通過程序自動地讀取建立的觸發(fā)詞庫,這種方法比較靈活并且容易維護;二是在程序代碼中直接寫入觸發(fā)詞,這種方法不夠靈活,必須通過對程序進行修改才能進行觸發(fā)詞的增減操作[12]。
領域本體事件基于專業(yè)領域的概念、領域概念的屬性、方法及其概念之間的關系,但是這些概念可能并不僅僅是事件,甚至有些基本不包含事件。如果把某一領域的事件作為研究的對象,那么該領域概念可以用事件來表示,并且概念間關系對應于事件間關系;但在事件實體里面,元素之間的關系一般不存在[13]。在事件抽取算法中,都會有一個預處理階段,這個階段一般包括有分詞、詞性標注、去噪、特征提取等。通過本體例庫里存在的命名實體以及命名實體之間的關系等語義信息,合并有聯(lián)系的詞,刪掉無用信息構成領域實體;為了使特征項變少,可以合并同義概念,增加預處理性能。鄰域本體通常和觸發(fā)詞、模式匹配、語義分析或者機器學習算法一起使用,即基于本體的事件抽取算法。
前沿聯(lián)合模型方法是利用技術把不同的模型聯(lián)合在一起。下面介紹三種聯(lián)合模型。
1.4.1 模式識別和支持向量機聯(lián)合
文獻[14]中在進行模式識別時,使用了基于SVM 的算法。在實驗中設計了單分類器和多分類器兩種算法,這是根據(jù)多元關系的特征進行研究,抽取事件的關系識別及其關系元。對于識別多元關系的全部角色,研究只使用了一種分類器,即單分類器算法;對于不一樣語義約束的角色進行識別,研究在多種分類器上進行,即多分類器算法,實驗結果表明,后者的算法效果比前者好。
1.4.2 機器學習和詞嵌入聯(lián)合
文獻[15]中提出了一種抽取中文事件的方法。這屬于商務事件抽取中的一種全新方法。在深度學習中,研究對模式、詞嵌入技術以及機器學習模型進行集成。為擴展事件觸發(fā)詞的字典,運用了詞嵌入以及事件觸發(fā)詞字典。在機器學習的算法中,引入了觸發(fā)器特征,這種特征在字典中是存在的,研究使得事件類型識別變得更精細。
1.4.3 深度學習和詞嵌入聯(lián)合
文獻[16]中提出了一種表示方法,該方法屬于多重分布式表示,可應用在生物醫(yī)學事件抽取中。在訓練模型時,該方法中深度學習模型的輸入使用了基于依賴的詞嵌入和任務特征的分布式方法;在標記示例候選時使用了Softmax 分類器。實驗結果表明了該方法的先進性。
主流的事件抽取評價方法有兩種:
1)微平均值法。
設P表示正確標注的數(shù)量與系統(tǒng)中進行標注的總數(shù)之比,即準確率;R表示正確標注的數(shù)量與按語料標準進行標注的總數(shù)之比,即召回率;F為它們的綜合度量值。計算公式如式(1)所示:
2)錯誤識別代價法。
設L表示丟失率;M表示誤報率;Cmiss表示一次丟失代價;Cfa表示一次誤報代價;Ltar表示當系統(tǒng)作出肯定判斷時的先驗概率,一般為常值。錯誤識別代價C的計算公式如式(2)所示:
在分析不同的算法效果時要運用不同的評價方法。通常單一的事件抽取都使用微平均值法來進行測評,而對于需要作出錯誤判斷的事件比如話題追蹤類任務等常用錯誤識別代價法來進行測評。
目前為止,事件抽取技術大多使用ACE2005 數(shù)據(jù)集,但是它數(shù)據(jù)規(guī)模較小,具有嚴重的數(shù)據(jù)稀疏問題,因此后續(xù)研究又使用了其他數(shù)據(jù)集或者借助其他資源來解決數(shù)據(jù)集問題。
ACE2005 數(shù)據(jù)集是一種以阿拉伯文、英文以及中文作為培訓數(shù)據(jù)并由關系、實體以及事件注釋構成的不同類型的數(shù)據(jù)集。
ACE 語料解決了實體、值、關系、時間表達式以及事件這5 個子任務識別的問題,文檔中存在的語言數(shù)據(jù)通過系統(tǒng)處理,這是子任務的要求。此外文檔還要輸出提到或者討論子任務的信息。
下面是關于此版本中數(shù)據(jù)量、注釋狀態(tài)以及數(shù)據(jù)源縮略語信息:
adj、fp1、fp2、timex2norm 文件夾分別表示不同的標注過程。ACE 語料在所有任務上都是通過兩個獨立工作的標注器來進行標注。第一輪的標注成為1P,與之獨立的雙重第一輪標注成為DUAL。對于1P 和DUAL 來說,一個標注器完成文件的所有任務。文件是通過自動標注工作流程系統(tǒng)(Annotation Work-flow System,AWS)來進行分配的,而且文件分配是雙盲的。Note:1P 和DUAL 在文件夾里都是以fp1和fp2 來存放的,也就是說1P 和fp1 對應,DUAL 和fp2 對應。每個文件的1P 和DUAL 版本之間的差異由資深標注員或者小組負責人來進行裁決,從而得到一個高質量的gold standard 文件。gold standard 裁決文件被稱為ADJ(即ADJ 文件夾)。在裁決之后,TIMEX2 值被標準化處理以后得到NORM。這個語料中的所有數(shù)據(jù)集都已經(jīng)被NORM 標注。表2 為英文數(shù)據(jù)源的注釋狀態(tài),表3 為中文和阿拉伯文數(shù)據(jù)源的注釋狀態(tài)。
表2 英文數(shù)據(jù)源的注釋狀態(tài)Tab.2 Annotation status of English data sources
表3 中文和阿拉伯文數(shù)據(jù)源的注釋狀態(tài)Tab.3 Annotation status of Chinese and Arabic data sources
第四次信息理解會議(Fourth Message Understanding Conference,MUC-4)事件抽取數(shù)據(jù)集包含1 700 篇發(fā)生在拉丁美洲恐怖襲擊的新聞報道。MUC-4 數(shù)據(jù)集被切分為了1個dev 集和4 個測試集,其中dev 集包含1 300 篇文檔,每個測試集中包含100 篇文檔。在使用MUC-4 數(shù)據(jù)集時,使用了dev 集中的1 300 篇文章進行訓練,test1+test2中的200 篇文章作為dev集,test3+test4 中的200 篇文章作為測試集。
MUC-4包含4 種類型的事件模板ARSON、ATTACK、BOMBING、KIDN。事件共用4 種槽位Prepetrator、Instrument、Target 和Victim。Prepetrator 是Prepetrator Invdividual 和Prepetrator Organization 的組合。MUC-4 數(shù)據(jù)集的標注樣例如圖2 所示。
Freebase 包含超過1.25×108個tuple 關系元組、超 過4 000 種類別、超過7 000 種屬性,支持超大規(guī)模的collaborative data creation and maintenance,也就是支持信息之間的豐富關聯(lián)并且賦予這種關聯(lián)的使用。
Freebase 里的數(shù)據(jù)包含非常多話題和類型的知識,如關于人類、媒體、地理位置等信息。同時Freebase 不僅提供一個數(shù)據(jù)集或數(shù)據(jù)庫,還提供較為便捷的訪問方式。它支持面向對象的查詢語言(Metaweb Query Language,MQL)與結構化的查詢對象;還支持HTTPweb(Hyper Text Transfer Protocol web)端的訪問和JSON(JavaScript Object Notation)數(shù)據(jù)格式的API(Application Program Interface)。
1)FrameNet(Frame Network)數(shù)據(jù)集是一個人讀和機讀的英語詞匯數(shù)據(jù)庫。它的基本思想很簡單:事件、實體或者關系以及對參與者的描述叫作語義框架,而借助語義框架可以很好地對大部分單詞含義進行理解。在ACE2005 數(shù)據(jù)集中許多類別事件存在著數(shù)據(jù)稀疏問題;為了解決該問題,引入FrameNet 數(shù)據(jù)集,在定義的事件類型里,讓它與ACE2005數(shù)據(jù)集匹配,從而建立新的事件識別數(shù)據(jù)集。
2)TAC KBP(Text Analysis Conference,Knowledge Base Population)數(shù)據(jù)集2009—2018。TAC KBP 是通過美國國防高級研究計劃局進行資助的一種對實體鏈接的評測,TAC KBP 數(shù)據(jù)集一般可用于事件抽取中,用手工進行標注,新聞與論壇是數(shù)據(jù)來源。
3)中文事件語料庫(Chinese Emergency Corpus,CEC)屬于生語料數(shù)據(jù)集,生語料來自互聯(lián)網(wǎng)上5 種突發(fā)事件的新聞報道,經(jīng)過了一系列操作處理,最終把標注結果保存到語料庫。該語料庫總計332篇,全面標注了事件及其事件的要素。
把信息通過結構化的形式表示出來,即事件。而把結構化形式的信息表示為計算機能夠理解的形式稱為事件表示,它促進了人工智能的發(fā)展,與事件抽取任務有著密切聯(lián)系。人們早期基本使用離散的事件表示,后來開始研究以深度學習為基礎,用神經(jīng)網(wǎng)絡來進行向量表示的稠密事件表示。
早期研究者們基本都使用由事件元素構成元組的離散事件表示。如文獻[17]中使用三元組(Oi,P,t)對事件進行表示,O表示給定對象集合,對象的謂詞Oi?O;P表示對象與對象的關系或者屬性;t表示事件的發(fā)生時間。文獻[18]中則在事件表示中加入了角色元素,使用了六元組(P,O1,O2,O3,O4,t)進行標記,其中,P為事件發(fā)生時的動作或者狀態(tài),也即對象與對象的關系或者屬性;O1為不同數(shù)量事件的實施者;O2為不同數(shù)量事件作用的對象;O3為使不同數(shù)量事件發(fā)生的工具;O4表示一個或者多個地點;t為時間戳,也即事件的發(fā)生時間。文獻[19]中使用了四元組(O1,P,O2,t),P表示事件動作,也即對象與對象的關系或者屬性;O1為實施事件者;O2為受事者,也即不同數(shù)量事件作用的對象;t為時間戳。一個事件僅有一個實施事件者和受事者。文獻[20]中提出了一種事件表示方法。在腳本事件預測任務里,以時間為順序將該方法與有關事件合成事件鏈。而在該方法中,構成以每個事件表示為動作并且動作和角色之間存在依存關系的二元組。由于角色在相同事件鏈中都是相同的,所以不用在事件表示中加入角色。
在離散的事件表示研究中,研究者們做了大量工作來對事件進行泛化,提出了基于語義的知識庫,這很好地解決了離散事件表示所面臨的稀疏性問題。例如文獻[19]在事件元素中,基于WordNet(Word Network)把單詞還原成詞干,為得到泛化事件,把事件動作詞泛化為一種類別名稱,該類別名稱存在于VerbNet(Verb Network)里。
研究者們在深度學習技術不斷發(fā)展的基礎上對文本學習分布式的語義表示進行了探索。把字、詞等文本單元嵌入向量空間,對于任意文本單元語義信息,由語義單元所在的向量空間位置確立,即分布式語義。在此基礎上產(chǎn)生了稠密的事件表示,它的基礎是預訓練詞向量,對此按照事件的結構進行語義組合。對于低維、稠密的向量,可計算事件的向量表示。稠密的事件表示分為兩類:基于詞向量參數(shù)化加法的事件表示和基于張量神經(jīng)網(wǎng)絡的事件表示。
3.2.1 基于詞向量參數(shù)化加法的事件表示
對事件元素的詞向量進行相加或拼接操作,再根據(jù)輸入的參數(shù)化函數(shù)將它映射到事件空間向量,即基于詞向量參數(shù)化加法的事件表示。文獻[21]中提出對事件元素詞向量進行操作,求取它的平均值。該方法屬于基線方法。文獻[22]中提出了一種向量表示方法,該方法拼接了事件元素詞向量。文獻[23]中提出一種詞向量組合方法,組合前拼接了事件元素詞向量,在多層全連接神經(jīng)網(wǎng)絡里面進行輸入再組合操作。而文獻[24]中忽視了組合事件元素的詞向量,在文獻[25-26]中直接用事件向量進行事件表示。不僅在事件表示中用事件元素向量的和或者平均值來表示,而且在不同的事件元素角色中出現(xiàn)相同詞時使用不同詞向量來表示。用|V|表示詞表的大小,|R|表示角色的數(shù)量,H表示詞向量的維數(shù),三維張量T∈R|V|×|R|×H由不同角色詞向量組成。通過三個矩陣A、B、C來表示三維張量T,并且用F個一階張量的乘積來表示張量的分解,減少了模型參數(shù)數(shù)量。如式(3)所示:
設r表示角色獨熱向量,r和三維張量T的切片相對應。r和T的切片wr如式(4)所示:
最后,對于事件元素對應角色的詞向量矩陣,可以在其中尋找其詞向量,并且和所有事件元素詞向量組合成事件向量。
3.2.2 基于張量神經(jīng)網(wǎng)絡的事件表示
對于基于詞向量參數(shù)化加法的事件表示,雖然取得了良好效果,使詞向量信息被完全利用,但對于建模事件元素來說,很難以實現(xiàn)交互,而且在建模時,事件表面形式的微小差異使之很困難。為了解決其中的問題,基于張量神經(jīng)網(wǎng)絡的事件表示被提出,該方法的事件元素通過雙線性張量運算組合得到。
v1,v2∈Rd表示兩個事件元素向量,三維張量神經(jīng)網(wǎng)絡T∈Rk×d×d,可得張量計算公式如式(5)所示:
vcomp的結果是k維向量,由向量v1、v2以及矩陣Ti相乘得到k維向量里一個維度i上的元素。為了取得事件論元的交互,在雙線性張量運算中,模型作了相乘運算;因此,雖然事件論元只有很小的表面區(qū)別,但是對于事件表示來說,語義上會有很大差別。
文獻[27]中使用了三元組(O1,P,O2),P表示事件動作或者狀態(tài),O1為實施事件者,O2為受事者。研究考慮了它的事件結構,使用了神經(jīng)張量網(wǎng)絡模型,模型結構如圖3 所示。若使用O1、P、O2分別表示三種事件元素的詞向量,即實施事件者O1的詞向量為O1、事件動作或者狀態(tài)P的詞向量為P、受事者O2的詞向量為O2,使用E表示組合兩個向量的最終事件向量,Wi和bi均為張量參數(shù)。由張量運算、線性運算以及激活函數(shù)f組合起來,計算公式如式(6)~(8)所示:
文獻[21]中同樣使用了三元組(s,p,o),考慮了事件結構,其中:s表示主語,p表示謂語,o表示賓語,使用了謂詞張量模型以及角色—因式張量模型,模型結構見圖4。對謂語p用三維張量T進行建模。分別用s表示主語s的向量、p表示謂語p的向量、o表示賓語o的向量,事件向量e由主語向量s和賓語向量o通過張量T語義組合形成,它的每個元素ei的計算公式如下:
謂詞張量(Predicate Tensor)模型通過張量T由謂語詞向量p動態(tài)計算得出,然后由張量T語義組合主語和賓語。模型參數(shù)用W和U來表示,d表示詞向量維數(shù),W和U都是d×d×d的三維張量,如式(10)~(11)所示:
角色-因式張量(Role-Factored Tensor)模型單獨地對事件的主語及謂語、謂語及賓語進行語義組合,組合后的兩個向量通過線性變換后相加得到事件向量,如式(12)~(14)所示:
文獻[28]中使用了較小維度的張量值來分解低矢量的張量,使模型參數(shù)變少了。低秩張量分解運算的示意圖見圖5。用T1∈Rk×d×r、T2∈Rk×d×r、t∈Rk×d這三個參數(shù)來代替三階張量參數(shù)T,而T的近似值為Tappr,表示每一個切片,如式(15)所示:
在使用低矢量張量的分解時,不僅減少了模型參數(shù),還能取得和以前模型差不多甚至更好的性能效果。
元事件抽取方式有三類:基于模式匹配、基于機器學習和基于神經(jīng)網(wǎng)絡的元事件抽取。本章將對這三種類型進行詳細介紹。
模式的作用是在目標信息的上下文指定構成約束環(huán),并且對語言和領域知識進行融合。在模式的指導下對元事件進行識別和抽取,即基于模式匹配的元事件抽取。為了使模式約束的信息得到滿足,必須使用多種模式匹配算法進行抽取,構建模式是核心?;谀J狡ヅ涞脑录槿》譃閮刹剑耗J将@取、元事件抽取,它的抽取框架見圖6。
在基于模式匹配的元事件抽取中,早期使用手工方法獲取模式,這種方法費時間和人力,而且用戶要有相當高的技能水平。文獻[29]中對句型模板進行填充時建立了抽取規(guī)則,該規(guī)則是通過手工來確定的。在文本進行處理后,對事件信息進行抽取并填充句型模板。文獻[30]中研究了自動獲取模式,提出了一種學習方法,該方法基于領域無關概念知識庫。在學習模式中,信息抽?。↖nformation Extraction,IE)任務被用戶定義,在沒有分類和標準語料中,IE 模式能自動被系統(tǒng)學習出來,降低了對用戶的勞動力和技能的要求。文獻[31]中將軍事演習組塊的識別和領域詞典結合起來了,這是一種基于種子模式的自舉方法。實驗結果說明了該方法的有效性。
通常,使用模式匹配的方法來進行元事件抽取可以在特定領域內產(chǎn)生更好的結果;但是系統(tǒng)的可移植性不好,從一個領域移到另一個領域時,必須重新創(chuàng)建模式。建模既費時又費力,并且需要該領域的專家指導。盡管引入機器學習方法可以在一定程度上加快模式的獲取,但是模式之間的沖突也是一個難題。此外,大多數(shù)可用的研究語義級別仍處于句法級別,并且語義級別仍需要改進。
4.2.1 基于機器學習的元事件抽取方法
基于機器學習的元事件抽取有兩類方法:管道式抽取方法、聯(lián)合學習方法。
管道式元事件抽取方法將抽取分為觸發(fā)詞以及論元識別等任務,它被轉化為多階段進行分類的問題。抽取的基礎是觸發(fā)詞的識別,后面的抽取依賴觸發(fā)詞識別取得的成果。文獻[3]中在抽取元事件時使用了管道式方法,分成觸發(fā)詞檢測、論元檢測、事件對齊以及事件關系檢測四部分,并對它們進行特征選擇,模型構建時選擇了K近鄰以及MEM 算法,針對同一任務對兩類算法進行性能對比。
由于在管道式方法中,先進行觸發(fā)詞檢測再進行論元檢測,論元信息在前者不能被考慮到,這對前者的精度有所影響。針對該問題,研究者們提出了聯(lián)合學習方法。這種方法對各個任務都建立了一個聯(lián)合學習的模型,使得在提取觸發(fā)詞與論元信息時,它們之間有相互促進的良好效果。文獻[32]中使用了聯(lián)合預測模型,使用帶不精確搜索的結構化感知器來聯(lián)合提取同一句子中同時發(fā)生的觸發(fā)點和論據(jù)。根據(jù)當前模型w尋找最佳配置z∈y,f(x,y′)表示特征向量,如式(16)所示:
感知器在線學習模型w,設D=為訓練實例集(j索引當前訓練實例)。在每次迭代中,x在當前模型下找到最優(yōu)配置z,如果z不正確,則更新權值,如式(17)所示:
由于技術的挑戰(zhàn),還沒有將聯(lián)合產(chǎn)出結構作為一項單一任務進行預測的工作。而文獻[33]中將實體識別和事件抽取作為一個聯(lián)合任務進行,并用基于轉移的神經(jīng)方法進行建模。為了解決問題,研究使用了基于神經(jīng)轉換的框架建立了第一個模型,在狀態(tài)轉換過程中逐步預測復雜的關節(jié)結構,動作預測模型見圖7。在該預測模型中,存儲歷史行為用棧A表示;存儲的部分實體用棧e表示;維護未被處理的單詞用緩沖區(qū)β表示;維護處理過的元素用棧σ表示;維護暫時從σ中出棧的元素;未來還會回棧的用隊列δ表示;λ是一個變量,每次只提及一個元素。在標準基準上的結果顯示了聯(lián)合模型的優(yōu)勢,它給出了文獻中最好的結果。
文獻[34]中設計了一種基于跨度的事件提取器,采用聯(lián)合學習抽取的方法對所有帶注釋的事件現(xiàn)象進行抽取。在新冠肺炎的預測任務中,自動提取的癥狀信息改善了測試結果的預測。該方法還將在事件抽取相關領域繼續(xù)使用。
總而言之,盡管基于機器學習的元事件抽取方法對語料的內容格式不是很依賴,然而卻存在著數(shù)據(jù)稀疏性問題,必須使用大規(guī)模語料?,F(xiàn)如今的語料不能滿足要求,使用人工標注又比較浪費人力資源;另外,機器學習的結果與特征選取有關。因此機器學習方法研究的重點是解決數(shù)據(jù)稀疏性問題和選擇合適特征。
4.2.2 核心任務及面臨問題
事件類別識別、分類和事件元素識別是元事件識別的兩種核心任務。當識別元事件利用機器學習的方法時,元事件的分類及其文本分類存在差異,它的主要特點是分類簡短,大部分是完整的句子。由于它是事件表述語句,因此語句中包含的信息量很大。
在事件元素的識別任務中,文獻[35]中第一次引入MEM,實現(xiàn)了事件抽取。該模型在估計概率時使用了除所施加的約束以外盡可能少的假設原則。這些約束通常來自訓練數(shù)據(jù),表達特征和結果之間的某種關系。滿足上述性質的概率分布是具有MEM 的概率分布,它是唯一的,與最大似然分布一致,并具有指數(shù)形式,如式(18)所示:
其中:o表示結果;h表示歷史(或上下文);Z(h)是歸一化函數(shù)。每個特征函數(shù)是二元函數(shù)。例如,在預測單詞是否屬于單詞類時,o是true 或false,h指的是周圍的上下文。如式(19)所示:
文獻[36]中在研究語義角色標注時,用了CRF 模型來做實驗。這還有利于在TimeML(Time Markup Language)進行事件抽取,使得系統(tǒng)的性能大大提高了。為了使系統(tǒng)識別的能力提升,有時候讓機器學習和模型匹配混合使用或者使用多個機器學習算法。如文獻[3]中為了完成事件類別識別和元素識別,把MegaM 和TiMBL(Tilburg Memory-Based Learner)這兩類機器學習算法聯(lián)系在一起,并在ACE 語料庫上進行了實驗,證明了該方法比單一算法好。
以上對于事件的探測,都利用了觸發(fā)詞,但它只占全部詞的小部分,致使在訓練時許多反例被引進來,正反例嚴重失衡。并且在判斷每個詞的時候,增加了額外的計算量。為了解決此問題,文獻[37]中在對事件類別進行識別時,采用了將觸發(fā)詞擴展與二元分類結合的方法。在相同特征下,分別測試文獻[2]與文獻[37]中的方法,實驗對比結果如表4所示,表明了文獻[2]中的方法更有優(yōu)勢。此外,在訓練模型時,文獻[2]中的詞典收錄了觸發(fā)詞并且擴展了同義詞,解決了正反例嚴重失衡的問題,還使數(shù)據(jù)稀疏得到了緩解,在ACE 數(shù)據(jù)集上的實驗結果顯示得了良好的效果。
表4 相同特征下不同方法的實驗結果對比 單位:%Tab.4 Comparison of experimental results of different methods under same features unit:%
文獻[2]和文獻[4]在進行事件探測時不使用傳統(tǒng)的基于觸發(fā)詞方法,而使用了基于事件實例方法。該方法識別實例為句子而不是詞語,解決了正反例嚴重失衡的問題,數(shù)據(jù)稀疏也得到了緩解。在文獻[2]的實驗中,為把非事件句篩選掉,使用了二元分類器,再對取得的候選事件句進行分類,使用了多元分類器。在實驗中,分別對8 類事件類別以及33類事件子類別進行測試和訓練,實驗結果如表5。文獻[4]中則將問題轉化為聚類問題,以此得到事件句。
表5 文獻[2]方法在不同事件類別上的實驗結果 單位:%Tab.5 Experimental results of literature[2] method on different types of events unit:%
此外,文獻[38]中提出了一個新的學習范式,將事件抽取轉換成為一個機器閱讀理解問題。該方法是將事件模式轉換成一組自然問題,是一種基于網(wǎng)絡的問答過程,以事件抽取的形式檢索答案。實驗結果顯示了該方法在解決數(shù)據(jù)稀疏性和正反例失衡問題的優(yōu)越性。
在元事件抽取方法中,結合神經(jīng)網(wǎng)絡進行抽取是一種主要方法,該方法屬于有監(jiān)督多元分類,該方法有特征選擇以及分類模型兩大流程。本文分別從使用特征的范圍不同、模型學習方式不同、是否融合外部資源三方面對該方法進行描述。
4.3.1 根據(jù)使用特征的范圍分類
句子級和篇章級是元事件抽取根據(jù)使用特征范圍的分類。特征僅由句子內部得到的是句子級事件抽取,它的特征適用于全部事件抽取;特征里面有跨句子、跨文檔信息的是篇章級事件抽取,它的特征適用于面向實際任務挖掘。
在句子級基于神經(jīng)網(wǎng)絡的事件抽取中,與傳統(tǒng)離散特征的區(qū)別是它的特征是連續(xù)型向量,并在此基礎上學習了更抽象的特征,該特征依托在各種各樣神經(jīng)網(wǎng)絡模型上。如文獻[5]中在事件抽取和事件識別任務中都使用了同樣的方法,即神經(jīng)網(wǎng)絡方法。在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)模型中,為使性能方面有所突破,加入了動態(tài)多池(dynamic multi-pooling)機制,構成了動態(tài)多池CNN(Dynamic Multi-pooling CNN,DMCNN),DMCNN的結構[5]如圖8 所示。
對于當前詞,輸入這個詞和它前后的c個詞的embedding,通過DMCNN 可以得到特征向量,再通過特征向量進行有監(jiān)督訓練完成抽取和識別。此外,對于事件抽取和識別,在初始表示每個單詞時都選擇了預訓練詞向量;在建模研究中,都對單詞的語義和語法信息進行了組合。實驗結果表明使用神經(jīng)網(wǎng)絡特征對句子級事件進行抽取可以取得良好效果。
在篇章級基于神經(jīng)網(wǎng)絡的事件抽取中,需要跨句子或跨文檔信息,以此作為特征來完成任務。如文獻[7]中首先研究端到端神經(jīng)序列模型(帶有預先訓練的語言模型表示)如何在文檔級角色填充提取中執(zhí)行,以及捕獲的上下文長度如何影響模型的性能。為了動態(tài)地聚集在不同粒度級別(例如句子級和段落級),提出了一種新的多粒度閱讀器。
在多粒度閱讀器模型結構嵌入層中,每個token 通過單詞嵌入和上下文符號表征拼接表示;詞嵌入使用GloVe(Global Vectors for word representation)詞向量模型,獲得固定長度的預訓練詞向量。預訓練語言模型表征已經(jīng)被證明了擁有可以超出句子邊界建模上下文的能力,并且在一系列自然語言處理任務上表現(xiàn)良好。在MUC-4 事件抽取數(shù)據(jù)集上評估了該模型,結果表明最佳系統(tǒng)比以前的工作表現(xiàn)更好。多粒度閱讀器模型結構如圖9 所示。該模型與DMCNN 類似,均是由嵌入層到句子級別,再進行后續(xù)抽取和識別;而與DMCNN 分類器提取結果不同的是該模型使用了融合機制再到CRF 的過程。
文獻[39]中提出了一種文檔級別的神經(jīng)事件參數(shù)抽取模型,通過將任務公式轉化為事件模板后的條件生成,還通過創(chuàng)建一個端到端的零觸發(fā)事件提取框架表明了模型的移植性。
在以前的事件抽取研究中,大多數(shù)方法都直接基于觸發(fā)詞的有關特性進行研究,如一些分類的任務被用來輔助論元角色;但在對觸發(fā)詞進行識別的任務里,沒有研究論元信息對它的作用。文獻[40]中通過結合注意力模型,在事件識別里面成功地輸入了論元信息,該注意力模型屬于有監(jiān)督論元。實驗結果表明當識別事件觸發(fā)詞時,可以使用論元信息進行輔助。在該論元注意力模型中,在進行觸發(fā)詞的識別時,將論元信息直接與之結合起到輔助作用,這與在聯(lián)合模型中間接地對觸發(fā)詞和論元信息進行結合然后共同輔助是不一樣的。如果把事件檢測當成多分類任務,而在句子中,將每一個符號全當成候選觸發(fā)詞,對候選觸發(fā)詞進行分類就是它的目標。
論元注意力模型由上下文表示學習和事件檢測器兩部分組成。其中,上下文表示學習的主要作用是通過注意機制獲取上下文詞匯的表示和實體類型信息的表示;事件檢測器的作用是基于已經(jīng)學習到的表示來對每一個候選詞進行分類,也就是對事件進行分類。模型結構如圖10 所示,該模型與DMCNN 均采用了分部分層次進行事件抽取的操作,最后均由分類器對結果進行輸出。
4.3.2 根據(jù)模型學習的方式分類
根據(jù)模型學習方式分類的元事件抽取有流水線和聯(lián)合模型。
流水線模型把元事件抽取分為觸發(fā)詞識別和論元識別等任務,依次完成全部任務。其中,在所有元事件抽取流程中,基礎是觸發(fā)詞識別,它取得的成果將會對之后的工作產(chǎn)生很大影響。由于文獻[3]中沒有考慮到論元信息,其觸發(fā)詞的精確度有影響,因此研究者們提出了聯(lián)合學習方法。
文獻[32]中在進行事件識別及其對論元角色進行分類時,采用了聯(lián)合學習的方法。結構化感知機(structured perceptron)在研究中起到輔助作用,用來在聯(lián)合學習中完成2 個任務,即實體識別和實體對的關系分類。研究中還使用離散特征進行特征表示。該研究發(fā)現(xiàn)了聯(lián)合學習方法比流水線方法效率更高,這在論元角色進行分類時更為突出。在基于神經(jīng)網(wǎng)絡的元事件抽取中,使用聯(lián)合神經(jīng)網(wǎng)絡模型還簡化了特征工程。文獻[41]中在進行事件識別及其對論元角色進行分類時,也采用了聯(lián)合學習的方法,設計了一種基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)的模型。為進行特征表示,設計了局部和全局特征,其中,文本序列和局部窗口特征屬于局部特征。在基于RNN 的模型中傳入句子表示,序列特征由此獲得;局部窗口特征通過窗口里面的詞向量獲得。此外,還設計了記憶網(wǎng)絡(Memory Network)模型進行建模,由此獲取了全局特征,并且2 個任務的性能也有所提升,取得了良好效果。
以前大多采用聯(lián)合學習方法進行事件識別及其對論元角色進行分類,而文獻[42]中首次對聯(lián)合學習實體進行識別。在文檔中抽取事件以及實體,在此環(huán)節(jié)通過聯(lián)合推斷讓信息流貫穿3 個子模塊,并且在全局優(yōu)化中為觸發(fā)變量t、論元角色變量r及實體變量α賦值,如式(20)所示:
式(20)由三部分組成:第一項是在事件內部結構模塊的預估參數(shù)上單個事件置信度之和;第二項是事件對模塊的預估參數(shù)上事件之間關系的置信度之和;第三項是實體識別的置信度之和。實驗結果在置信度上取得了良好效果,該研究也在聯(lián)合學習實體識別任務上取得了重大突破。
此外,文獻[43]中提出了一種事件提取的可解釋方法,通過為兩個目標聯(lián)合訓練來緩解泛化和可解釋之間的緊張關系。使用一個編碼器-解碼器架構,它聯(lián)合訓練一個用于事件提取的分類器以及一個規(guī)則解碼器,生成解釋事件分類器決策的語法-語義規(guī)則。在解釋事件分類器中,有以下學習以及訓練過程,如式(21)~(26)所示:
其中:Wq、WK、Wv為學習矩陣,維數(shù)為200×200;HE包含雙向長短時記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)的隱藏狀態(tài);Hz是HE中實體z的隱藏狀態(tài)。將每個上下文向量C與實體向量H連接起來,并使用一個Softmax 函數(shù)將連接的向量提供給兩個前饋層,使用其輸出預測該位置是否有觸發(fā)器,使用二進制日志損失函數(shù)計算分類器的損失。這種方法可以用于半監(jiān)督學習,并且當在由基于規(guī)則的系統(tǒng)生成的自動標記的數(shù)據(jù)上進行訓練時,其性能得到了提高。
文獻[44]中提出利用事件中參數(shù)的角色信息,設計一個分層策略網(wǎng)絡(Hierarchical Policy Network,HPNet)來執(zhí)行聯(lián)合事件抽取(Event Extraction,EE)。整個事件處理過程是通過一個兩級層次結構來完成的,該結構由兩個用于事件檢測和參數(shù)檢測的策略網(wǎng)絡組成,實現(xiàn)了子任務之間的深層信息交互,處理多事件問題更加自然。在ACE2005 和TAC2015進行大量實驗,分別使用MEM[35]、DMCNN[5]、HPNet[44]的實驗結果如表6 所示。從表6 可以看出HPNet 具有最先進的性能,并且對于具有多個事件的句子,優(yōu)勢更明顯。
表6 ACE2005和TAC2015數(shù)據(jù)集上各個模型的結果對比 單位:%Tab.6 Results comparison of different models on ACE2005 and TAC2015 datasets unit:%
4.3.3 根據(jù)是否融合外部資源分類
在元事件抽取任務中,大多使用ACE2005 數(shù)據(jù)集,它含有很稀缺的有標記事件數(shù)據(jù),但是標注質量不太好,而且規(guī)模很小、事件類型也很稀疏,這對完成事件抽取整體任務有很大影響,所以大量研究都試著使用外部資源來完成抽取。根據(jù)是否融合外部資源,可分成基于同源數(shù)據(jù)和融合外部資源兩類。
文獻[45]職工為解決事件類型稀疏的問題,使用了FrameNet 數(shù)據(jù)集來輔助抽取。將ACE2005 的事件類型上加入FrameNet 里面的框架進行匹配,研究設計了全新的基于FrameNet 的數(shù)據(jù)集,該數(shù)據(jù)集在事件識別等任務上取得了良好效果。
對從FrameNet 檢測到的事件進行間接評估,它基于的直覺是具有更高精度的事件預計會給基本模型帶來更多的改進。使用自動檢測到的事件擴充ACE 語料,然后分別使用文獻[5]方法、文獻[40]方法、文獻[41]方法、只使用人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)[45]、在ANN 中加入FrameNet 方法[45]共5 種方法進行實驗,結果如表7 所示??芍墨I[45]中的兩個方法在FrameNet 事件檢測中的有效性。
表7 使用自動檢測到的事件擴展訓練數(shù)據(jù)的效果 單位:%Tab.7 Effect of expanding training data with events automatically detected unit:%
此外,文獻[46]中融合外部資源,研究設計了一個基于維基百科的事件數(shù)據(jù)集,該數(shù)據(jù)集使用了Freebase 來輔助設計。在Freebase中,首先使用了統(tǒng)計方法找到在它任一事件類型里面的關鍵論元集合,然后通過在維基百科里面的每個句子,判斷它里面是否存在Freebase 里的任一事件實例的全部關鍵論元,以此來判斷里面有沒有存在事件。在存在事件的維基百科句子里使用了統(tǒng)計方法,以此找到每個Freebase事件類型里面的重要觸發(fā)詞。為對觸發(fā)詞進行篩選和對名詞性的觸發(fā)詞進行擴展,還借用了FrameNet 來輔助進行,最后得到了數(shù)據(jù)集。該數(shù)據(jù)集是從維基百科中得到的有標注的數(shù)據(jù)集,它被用來和ACE2005 數(shù)據(jù)集一起訓練模型。
為了獲取事件抽取所需數(shù)據(jù)的方法,可用Freebase 和FrameNet 進行自動標注。任一事件類型的關鍵論元與觸發(fā)詞都可以通過以上方法探測得到,最后利用得到的關鍵論元與觸發(fā)詞來從文本中標注事件。該方法的體系結構如圖11。
文獻[47]中使用了外部資源來建立批量事件數(shù)據(jù)集,該數(shù)據(jù)集是從維基百科和Freebase 中建立的。為確定事件是否發(fā)生,該研究以是否含有關鍵論元來確定,這和以前在ACE2005 中用觸發(fā)詞的方式來確定有所不同。此外,為獲得每個事件類型的關鍵論元集,該研究也使用了統(tǒng)計方法,從Freebase 里面進行抽取。設計中還含有事件抽取正例,這是從事件實例的關鍵論元的維基百科句子得來的。此外,為得到質量更高的有標注數(shù)據(jù)集,該研究還對遠距離監(jiān)督的進程實現(xiàn)了約束。
在以上研究中,事件抽取是直接抽取關鍵的論元,再加上論元大多是詞組,因此將事件抽取轉化成一個序列標注問題。目標是標出句子里的標簽結構BIO(Beginning,Inside,Outside),從而找到了這一堆實體,再去元數(shù)據(jù)CVT(Compound Value Types)表里匹配即可。序列標注的模型使用Bi-LSTM+CRF+整數(shù)線性規(guī)劃(Integer Linear Programming,ILP)。Bi-LSTM 可以對于每個單獨的詞,很好地預測標簽BIO;CRF 的目標函數(shù)是整個序列的聯(lián)合概率,可以讓相鄰的標簽之間滿足該有的依存規(guī)則;ILP 的過程是最大化目標函數(shù),如式(27)所示:
其中:P和A分別是CRF 中的發(fā)射分數(shù)(emission score)和過渡分數(shù)(transition score);Pi,j表示標簽i到標簽j的概率;Ai,j表示標簽i到標簽j的過渡分數(shù),是給定的參數(shù)。
此外,文獻[48]中使用了外部資源來進行事件抽取,通過設計一種面向任務的對話系統(tǒng),形成了一個由強化學習驅動的框架,實現(xiàn)了利用事件參數(shù)關系來進行事件抽取,并在ACE2005 上評估了該方法的優(yōu)越性。文獻[49]中則是將事件抽取范例公式化為一個問答任務,基于問答系統(tǒng)以端到端的方式提取事件參數(shù),實驗結果表明了該方法的優(yōu)越性。
元事件抽取只能在句子層面進行抽取,為了滿足對一個及其以上的文檔進行抽取,主題事件抽取應運而生,它是由一個以上的動作或者狀態(tài)構成。為了對相同主題事件中的文檔進行描述,需要確定進行描述的文檔集合;并且在主題事件的集合里面有許多片段,需要將它們進行合并,這些是主題事件抽取的核心。將主題事件抽取分為基于事件框架和基于本體的主題事件抽取兩類。
對事件框架進行定義,將它結構化、層次化,然后對主題事件抽取進行指導,通過框架來闡述主題事件的各方面以及歸納事件信息,即基于事件框架的主題事件抽取??梢园芽蚣墚斪饕活愔R表示的方法,可對有關概念的輪廓框架進行刻畫。在人們處在一個新的狀態(tài)時,會在人腦中進行搜索,從眾多情景狀態(tài)里面找到其中一個,讓它來認識新事物。這些眾多的情景狀態(tài)就叫知識框架。對于事件側面,在語義上能夠對它進行分離,因此框架結構屬于一種分類體系,把它用來對各種各樣的事件側面進行分隔。對于事件,需要用詞語形容它的不同側面,這樣的詞語稱為“側面詞”。而分類體系可通過“側面詞”進行創(chuàng)建,這就是事件框架。對于框架方法,核心是要出現(xiàn)完全的事件框架體系;對于研究者們,研究的方向是提高構建框架的完整性和自動化程度,這也是研究的重點。
在知識工程與人工智能中,本體是很重要的課題,主要用來得到有關的領域知識。關于領域知識,它們之間有共同理解,還能找到其中一起認可的詞匯,對于這一系列詞匯彼此之間的關系,能從各種各樣的層次形式化模式里得到。根據(jù)本體的特點,很適合進行主題事件抽取。對于基于本體的主題事件抽取,主要是按照本體描述的信息來進行抽取,該信息包括概念、關系等,抽取的內容是文本里面的有關實體信息和側面事件。抽取按照3 步進行:建立領域本體,是后續(xù)抽取工作的基礎;基于領域本體根據(jù)文本內容進行自動語義標注;基于語義標注進行抽取。
文獻[50]中設計了一類基于本體的事件抽取。在建立本體的過程中,提出了領域層、類別層、事件層、擴展概念層4 層模型。本體中所在領域的名稱是領域層,許多個專家定義的類別層構成了它;任一類別都包括一系列事件集合;任一類別包含的事件類由事件層定義;事件和對象的概念以及對任一類事件相關的角色和概念及對應的子事件,這在擴展概念層進行定義。當對新聞事件進行抽取和在自動文摘中,可使用這個構建模型的本體,實驗結果表明在中文氣象這類新聞事件抽取時能更好地運用這個系統(tǒng)。
文獻[51]中構建了一個進化的事件知識本體,以此探索從文本中自動獲取事件知識的框架,指出未來研究將用此框架擴展數(shù)據(jù),并將進化的事件本體擴展到大規(guī)模的事件實例中。
中文事件抽取存在著一系列問題:一方面是方法問題;另外一方面是語言特性問題,其中詞句意合特性是首要問題。中文詞語之間未曾出現(xiàn)顯式間隔,并且分詞之間顯然存在著錯誤與誤差。
在中文事件抽取中,文獻[52]中指出觸發(fā)詞的不一致,并把該問題分為跨語言不一致以及內詞語不一致兩個類別。為解決上述問題,提出了兩種方法:1)在基于詞語的觸發(fā)詞標注中,可以對測試集里面分詞不一致的觸發(fā)詞進行修正;使用訓練集創(chuàng)建一個全局勘誤表,該表可以對測試集進行修改。2)在基于字符的觸發(fā)詞標注中,可以對觸發(fā)詞檢測進行操作,將它轉變?yōu)樾蛄袠俗栴}?;谠~語和字符的方法之間的性能比較如表8 所示,實驗結果表明基于字符的方法比基于詞語的方法性能更好。
表8 基于詞語和字符的方法之間的性能比較 單位:%Tab.8 Performance comparison between methods based on words and characters unit:%
文獻[53]中除了利用基于序列的字符標注法,還運用了Bi-LSTM 以及CRF,利用它們來抽取句子特征。在對上下文語義特征進行抽取時,還使用了CNN,更好地完成了中文事件抽取。另外,中文事件抽取還存在著嚴重的數(shù)據(jù)稀疏問題,觸發(fā)詞相當多,而大量未知的觸發(fā)詞將會出現(xiàn)在測試集中。文獻[54]中對未知的以及分詞錯誤的觸發(fā)詞進行識別時,使用了中文語言組合語義以及語言一致性,使得系統(tǒng)性能有很大提升。
基于統(tǒng)計以及機器學習的方法是研究英文事件抽取的主要方法。文獻[35]中使用了MEM 來進行事件抽取研究,在命名實體等不復雜特征上具有很好成效。
文獻[3]中將事件類型與觸發(fā)詞的識別進行等同,基于觸發(fā)詞進行事件抽取。在對事件類別和子類別進行識別時,除了使用觸發(fā)詞識別的二元分類以外,還使用了多元分類器,在ACE2005 上顯示了其效果很好。文獻[55]中創(chuàng)建了關于跨文檔的事件抽取系統(tǒng),對當前句信息進行操作,在其基礎上,把有關的文本背景知識植入進去。文獻[56]中使用了文檔級別信息,用它提升了系統(tǒng)性能。文獻[32]中提出了一個聯(lián)合學習模型,該模型基于結構化感知機,在實驗中對事件觸發(fā)詞與論元進行學習然后抽取,該實驗效果良好。
基于易得的大規(guī)模語料,事件抽取在中英等單語上已經(jīng)取得足夠優(yōu)秀的成果,而跨語言事件抽取仍然面臨著許多問題。
迄今為止,利用跨語言訓練來提高性能的工作非常有限。為解決此問題,文獻[57]中對眾多雙語平行語料進行操作,對跨語言謂詞集進行抽取,接著使用抽到的謂詞集對中英文事件抽取進行操作,以提高其召回率。文獻[58]中對特征進行疊加,以此融合雙語信息,還在中英文事件中都完成了觸發(fā)詞分類。文獻[59]中則是提出了一種全新的跨語言事件抽取方法。這種方法訓練了大量的語言,并通過語言特征的依賴性和不依賴性來促使性能提高。該方法不采用高質量的機器翻譯或者手動對齊文檔,因為給定目標語言是無法滿足該需求的。
此外,跨語言還需解決缺乏標注數(shù)據(jù)給事件檢測帶來的挑戰(zhàn)性問題,通過在不一樣的語言之間傳遞知識,促使性能提升。以前的方法嚴重依賴并行資源,限制了適用性。為解決此問題,文獻[60]中提出了跨語言檢測的新方法,實現(xiàn)了并行資源的最小依賴。為了構建不同語言之間的詞匯映射,設計了一種上下文依賴的翻譯方法;為了解決語序差異問題,提出了一種用于多語言聯(lián)合訓練的共享句法順序事件檢測器。在兩個標準數(shù)據(jù)集上進行了大量實驗,實驗結果表明該方法在執(zhí)行不同方向的跨語言遷移和解決注解不足的情況下具有良好的效果。
從資源不足以及注釋不足的語料庫中進行復雜語義結構的識別(例如事件和實體關系)是很困難的,這已經(jīng)成為了一個具有挑戰(zhàn)性的跨語言事件抽取任務。為解決此問題,文獻[61]中通過使用CNN,將所有實體信息片段、事件觸發(fā)詞、事件背景放入一個復雜、結構化多語言公共空間,然后從源語言注釋中訓練一個事件抽取器,并將它應用于目標語言。文獻[62]中引入了一個圖形注意力轉換編碼器(Graph Attention Transformer Encoder,GATE)。由于對句法分析的依賴,GATE 產(chǎn)生了健壯性,有助于跨語言的傳輸。實驗結果表明了該方法在跨語言事件抽取上的良好遷移效果。
基于以前的研究,很多小語種缺少標注語料。由于面臨著語義表征等問題,面向小語種的跨語言事件任務成為目前研究的難點。
在事件抽取中,元事件抽取是動作狀態(tài)級的,動作產(chǎn)生或狀態(tài)發(fā)生變化,一般由動詞驅動;而主題事件抽取是事件級別的,指的是核心或者與之有關的事件或者活動。表9 詳細總結了事件抽取與之相關的各項技術分類以及特點。
表9 事件抽取技術總結Tab.9 Summary of event extraction technologies
事件抽取經(jīng)過長期的發(fā)展已經(jīng)取得了大量的研究成果,尤其在最近幾年,隨著社會化網(wǎng)絡、電子商務應用的快速發(fā)展,事件抽取的研究進步更明顯。但是從整體來看,還是存在以下問題需要解決:
1)目前研究事件抽取主要用的是ACE 標注語料,但是定義事件類型有限。當前方法僅僅對特定類型事件有用,缺乏可移植性和可擴展性。
2)現(xiàn)階段的事件框架體系不是通用的。僅通過人工來標注語料數(shù)據(jù),費時費力且成本高昂,并且通過這種方式產(chǎn)生的事件語料數(shù)據(jù)規(guī)模小、類型少。
3)事件抽取依賴于子任務結果,為實現(xiàn)多任務聯(lián)合,怎樣設計神經(jīng)網(wǎng)絡模型是一大難點。
4)大量小語種缺少標注語料,面向小語種的跨語言事件抽取面臨著語義表征等問題。
在事件抽取技術的研究與發(fā)展過程中,盡管面臨諸多挑戰(zhàn),也必將受到研究者越來越多的關注,并在未來的研究中呈現(xiàn)出以下趨勢:
1)如今對事件抽取進行研究時,都是分開提取短語和依存句法分析信息的特征,怎樣對這兩種句法分析獲取的信息進行全面分析,獲得更有效的句法特征需要進一步研究。
2)在事件抽取中,對當前方法的局限性進一步分析;對任一子任務的影響程度進行量化。不僅需要提升句法分析這些基本任務性能,還需要使用新的方法與技術來提升事件抽取中任一子任務的精度。
3)如今對中文事件進行抽取時,大多都是基于現(xiàn)有語料的,實體信息都是已經(jīng)標注好的語料,在沒有標注好的生語料中抽取效果很不好。怎樣對沒有標注文本的中文事件進行抽取也值得進一步研究。
4)如何解決標注語料的缺失、面臨語義表征等問題的面向小語種跨語言事件抽取是進一步研究的重點和難點。
從當前研究來看,盡管研究者們對事件抽取技術已經(jīng)進行了大量研究,在理論以及應用上都取得了許多成果,但依然沒有達到實際應用的水平,事件抽取仍然存在大量需要研究的方向,同時還有許多問題需要解決,如如何更好地從無結構純文本中自動抽取結構化事件知識等。研究者可能最需要關注的是可移植性以及系統(tǒng)性能問題;從作者自身角度上說,如今的事件抽取技術可能大多集中在某一領域進行研究,希望未來研究能滲透到不同領域,讓事件抽取技術在多個領域實現(xiàn)創(chuàng)新和發(fā)展;諸如小樣本和零樣本這樣的事件抽取研究甚少,希望未來研究能解決某些技術性難題,在這些方面有所貢獻;主題事件抽取的研究尚未成熟,還面臨著許多困難,能否借鑒神經(jīng)網(wǎng)絡以及外部資源來進行主題事件抽取是作者自身的一個猜想。
此外,事件抽取是自然語言處理的一個分支,它的研究價值已得到廣泛重視和認可,不僅需要認識并研究它,還需要對比它和自然語言其他領域的區(qū)別和聯(lián)系,以求創(chuàng)新來引導事件抽取研究的不斷發(fā)展和進步。