彭楚越
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
隨著信息技術(shù)的飛速發(fā)展,人類社會(huì)邁入大數(shù)據(jù)時(shí)代,大量網(wǎng)絡(luò)平臺(tái)每天都有數(shù)以萬(wàn)計(jì)的自然語(yǔ)言文本產(chǎn)生,為了精準(zhǔn)、快速地從海量的數(shù)據(jù)中篩選、獲取可用信息,信息抽取研究已然成為自然語(yǔ)言處理研究領(lǐng)域的熱點(diǎn)分支。事件抽取是信息抽取的重要子任務(wù),目標(biāo)是從包含事件信息的非結(jié)構(gòu)化的文本中將事件信息以結(jié)構(gòu)化的形式抽取出來(lái)。事件抽取可應(yīng)用于反恐情報(bào)收集、新聞自動(dòng)摘要等任務(wù),結(jié)構(gòu)化的事件信息可進(jìn)一步應(yīng)用于事件推理、信息檢索、知識(shí)庫(kù)建設(shè)等任務(wù),具有豐富的研究?jī)r(jià)值。事件抽取的研究發(fā)展到現(xiàn)階段以基于神經(jīng)網(wǎng)絡(luò)的方法為主,將事件抽取任務(wù)轉(zhuǎn)化為事件識(shí)別和論元角色分類任務(wù),訓(xùn)練神經(jīng)網(wǎng)絡(luò)從標(biāo)注數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類特征,在事件抽取研究工作中取得了較好成效。本文第一部分對(duì)事件抽取的定義作出詳細(xì)解釋,第二部分重點(diǎn)介紹自神經(jīng)網(wǎng)絡(luò)方法被應(yīng)用到事件抽取研究以來(lái)的相關(guān)工作。
事件抽取可按照是否預(yù)先定義事件類型結(jié)構(gòu)(事件類型及每類事件包含的事件角色),分為限定域的事件抽取和開(kāi)放域的事件抽取。限定域的事件抽取會(huì)預(yù)先定義好抽取哪些類型的事件,如“襲擊”事件、“殺人”事件、“審判”事件等。在定義事件類型的同時(shí),也會(huì)定義好每類事件的參與者的角色,如“襲擊”事件中包含“襲擊者”、“受害者”、“工具”、“時(shí)間”、“地點(diǎn)”等事件角色。開(kāi)放域的事件抽取旨在抽取出所有表達(dá)了事件的文本中的事件信息,不需要預(yù)先定義事件類型結(jié)構(gòu)。通常在文章不特指“開(kāi)放域”的情況下,所述的事件抽取都是限定域的事件抽取,本文主要研究“限定域”的事件抽取,下文提及的事件抽取皆指限定域的事件抽取。
事件:在特定環(huán)境、特定時(shí)間發(fā)生,并有若干角色參與的一件事情。
事件提及:包含有事件觸發(fā)詞及若干事件論元的一段文本。
事件觸發(fā)詞:清晰表達(dá)事件發(fā)生的核心詞。
事件論元:在事件中充當(dāng)了某個(gè)角色的實(shí)體提及、時(shí)間表達(dá)、數(shù)值表達(dá)。
論元角色:事件論元在事件中充當(dāng)?shù)氖录巧?/p>
事件抽取就是從包含有事件信息的非結(jié)構(gòu)化文本中,將事件觸發(fā)詞與事件論元以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)。
事件抽取具體可分為四個(gè)子任務(wù):事件觸發(fā)詞識(shí)別、事件類型分類、事件論元識(shí)別、論元角色分類。前兩個(gè)子任務(wù)可合并為事件識(shí)別任務(wù),即識(shí)別事件提及中的觸發(fā)詞及其觸發(fā)的事件類型,后兩個(gè)子任務(wù)可合并為論元角色分類任務(wù),即識(shí)別在事件提及中充當(dāng)了事件角色的論元及其充當(dāng)?shù)氖录巧?/p>
例:假設(shè)定義“襲擊”事件為待抽取事件類型之一,針對(duì)自然語(yǔ)言文本“五名旁觀者在格拉斯哥機(jī)場(chǎng)襲擊事件中受傷”,事件抽取的任務(wù)是識(shí)別出觸發(fā)詞“襲擊”,表達(dá)的事件類型為“襲擊”,并且識(shí)別出事件論元“五名旁觀者”、“格拉斯哥機(jī)場(chǎng)”,在此襲擊事件中充當(dāng)?shù)慕巧謩e為“受害者”、“地點(diǎn)”。
初期事件抽取的研究主要基于規(guī)則匹配或統(tǒng)計(jì)分析、人工設(shè)計(jì)特征的方法[1-5],這些方法或依賴于特定領(lǐng)域的專家對(duì)該領(lǐng)域掌握的專業(yè)知識(shí),在不同領(lǐng)域之間的可移植性很低,或依賴于人為構(gòu)建特征工程,工作量大且仍受人類知識(shí)局限的影響。近年來(lái),將神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語(yǔ)言處理任務(wù)的研究取得了良好的進(jìn)展,事件抽取的主流方法也發(fā)展為基于神經(jīng)網(wǎng)絡(luò)的方法,旨在利用神經(jīng)網(wǎng)絡(luò)自動(dòng)地從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到可用于事件抽取任務(wù)的數(shù)據(jù)特征。本文主要研究基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取。
基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取按照解決事件識(shí)別、論元角色分類這兩個(gè)子任務(wù)的流程又可分為管道式的事件抽取和聯(lián)合式的事件抽取。管道式的事件抽取將事件識(shí)別與論元角色分類兩個(gè)子任務(wù)以先后順序獨(dú)立進(jìn)行。Chen等人[6]在2015年提出的DMCNN(動(dòng)態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò))就是很經(jīng)典的管道式事件抽取模型,此模型將句子中每個(gè)詞編碼為詞嵌入向量,并加入了相對(duì)位置嵌入向量作為輔助事件類型分類的特征,在得到句子級(jí)別的特征時(shí),與傳統(tǒng)CNN(卷積神經(jīng)網(wǎng)絡(luò))普遍采用的最大池化方式的不同之處在于,Chen的方法考慮到了一個(gè)句子中可能包含多個(gè)事件的情況,采用動(dòng)態(tài)多池化的方式。在事件識(shí)別階段,根據(jù)當(dāng)前待預(yù)測(cè)的候選觸發(fā)詞的位置,將句子經(jīng)過(guò)卷積得到的特征圖進(jìn)行分段池化,保留每個(gè)分段的最大值,這樣做可以捕獲句子不同部位的突出特征。完成事件識(shí)別任務(wù)后,觸發(fā)詞的事件類型得以確定,需要填充的事件角色隨之確定,再進(jìn)入論元角色分類階段,根據(jù)觸發(fā)詞與候選事件論元的位置將句子經(jīng)過(guò)卷積得到的特征圖分為三段進(jìn)行池化,將各段池化的結(jié)果拼接構(gòu)成句級(jí)特征。
管道式的事件抽取存在錯(cuò)誤傳播的問(wèn)題,事件類型識(shí)別錯(cuò)誤,直接導(dǎo)致論元角色分類錯(cuò)誤,且管道式的過(guò)程不可逆轉(zhuǎn),論元角色的分類信息無(wú)法對(duì)事件識(shí)別任務(wù)起到輔助作用。聯(lián)合式的事件抽取對(duì)事件識(shí)別和論元角色分類兩個(gè)子任務(wù)進(jìn)行聯(lián)合建模,利用子任務(wù)之間的交互信息達(dá)到協(xié)同訓(xùn)練事件抽取模型的效果,提升事件抽取模型的整體性能。Nguyen[7]等人在2016年提出將RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))運(yùn)用到事件觸發(fā)詞和事件論元的聯(lián)合抽取任務(wù)中,對(duì)事件識(shí)別和論元角色分類兩個(gè)子任務(wù)進(jìn)行聯(lián)合建模,該模型利用雙向的RNN從前到后、從后到前地為句中每個(gè)詞進(jìn)行編碼,預(yù)測(cè)當(dāng)前候選觸發(fā)詞的事件類型時(shí),使用記憶向量記錄之前預(yù)測(cè)出的事件類型,以達(dá)到利用事件之間的關(guān)聯(lián)特征輔助后續(xù)事件識(shí)別的效果,若當(dāng)前詞被識(shí)別為觸發(fā)詞,則將當(dāng)前詞與各候選事件論元分別配對(duì)進(jìn)行論元角色分類,在預(yù)測(cè)當(dāng)前候選事件論元的角色時(shí),使用記憶向量矩陣記錄之前預(yù)測(cè)出的事件類型和論元角色,以輔助當(dāng)前候選事件論元的角色分類。Sha等人[8]針對(duì)過(guò)去神經(jīng)網(wǎng)絡(luò)事件抽取模型對(duì)句法信息的利用不充分的現(xiàn)象,在2018年提出了DBRNN(Dependency-Bridge RNN,依存橋循環(huán)神經(jīng)網(wǎng)絡(luò)),若兩詞之間具有依存句法關(guān)聯(lián)則建立依存橋,在預(yù)測(cè)當(dāng)前詞是否為觸發(fā)詞及其觸發(fā)的事件類型時(shí),考慮到與之以依存橋相連的詞的編碼信息,并為每類依存句法關(guān)系學(xué)習(xí)了權(quán)重,在融合信息時(shí)采取加權(quán)的形式。另外,作者利用張量刻畫(huà)所有候選事件論元之間的關(guān)聯(lián)特征,以提升論元角色分類的效果。
上述聯(lián)合式的事件抽取模型均通過(guò)共享神經(jīng)網(wǎng)絡(luò)底層參數(shù)和向量的方式達(dá)到聯(lián)合建模抽取事件觸發(fā)詞和事件論元的目的,但盡管在同一模型中,事件識(shí)別與論元角色分類仍存在先后順序,并非同時(shí)進(jìn)行,如何真正意義上同步實(shí)現(xiàn)事件觸發(fā)詞和事件論元的聯(lián)合抽取,仍是事件抽取研究的難題之一。
基于神經(jīng)網(wǎng)絡(luò)的方法依賴大量標(biāo)注數(shù)據(jù),當(dāng)前用于事件抽取研究的最廣泛也是最權(quán)威的數(shù)據(jù)集ACE2005規(guī)模較小,只涵蓋33個(gè)事件類型,且其中超過(guò)一半的事件類型的標(biāo)注實(shí)例不超過(guò)100個(gè)。標(biāo)注數(shù)據(jù)的稀缺是事件抽取研究面臨的一大瓶頸,而人工獲取事件信息的標(biāo)注數(shù)據(jù),對(duì)時(shí)間和人力資源的消耗亦是巨大的。于是,自動(dòng)地獲取更多標(biāo)注數(shù)據(jù)成為事件抽取的一大研究趨勢(shì)。Liu等人[9]在2016年提出融合框架關(guān)系詞典FrameNet擴(kuò)充事件標(biāo)注數(shù)據(jù)集,利用現(xiàn)有ACE2005數(shù)據(jù)集訓(xùn)練ANN(人工神經(jīng)網(wǎng)絡(luò))事件識(shí)別模型,識(shí)別FrameNet中與ACE2005數(shù)據(jù)集中定義的33種事件類型存在良好映射的框架類型的例句,得到該例句的候選事件類型,再通過(guò)3個(gè)約束確定其事件類型,由此構(gòu)建了基于FrameNet和ACE2005的事件標(biāo)注數(shù)據(jù)集。Chen等人[10]在2017年提出將語(yǔ)義知識(shí)庫(kù)Freebase中的CVT看作事件實(shí)例,統(tǒng)計(jì)每類事件中事件角色被論元填充的頻數(shù),計(jì)算每個(gè)事件角色與事件類型的相關(guān)度,選擇相關(guān)度高的事件角色作為該類事件的關(guān)鍵論元角色,依靠遠(yuǎn)程監(jiān)督的方法為Wikipedia語(yǔ)料中包含了某類事件關(guān)鍵論元的句子標(biāo)注對(duì)應(yīng)的事件類型,由此得到基于Wikipedia語(yǔ)料構(gòu)建的事件標(biāo)注數(shù)據(jù)集。Huang等人[11]在2018年提出將零樣本遷移學(xué)習(xí)的方法用于事件抽取,利用已有標(biāo)注數(shù)據(jù)的事件類型的標(biāo)注數(shù)據(jù)CNN對(duì)所有事件類型結(jié)構(gòu)(包括沒(méi)有標(biāo)注數(shù)據(jù)的事件類型)和事件提及的AMR語(yǔ)義結(jié)構(gòu)進(jìn)行編碼,使事件提及與其所屬事件類型的語(yǔ)義結(jié)構(gòu)特征相似度盡可能高而與其他類別的語(yǔ)義結(jié)構(gòu)特征相似度低,從而實(shí)現(xiàn)事件提及的事件類型分類,此方法不需要針對(duì)新定義的事件類型重新人工標(biāo)注數(shù)據(jù),也能進(jìn)行對(duì)新定義事件類型的識(shí)別。
以上工作為解決事件抽取研究缺乏可用標(biāo)注數(shù)據(jù)的問(wèn)題作出了貢獻(xiàn),但不同語(yǔ)種的語(yǔ)料資源和自然語(yǔ)言處理工具的開(kāi)發(fā)差異仍限制著許多事件抽取研究工作的跨語(yǔ)言通用性。
本文首先描述了事件抽取的研究背景、研究意義,接著對(duì)事件抽取的相關(guān)術(shù)語(yǔ)及任務(wù)的定義進(jìn)行了闡述,簡(jiǎn)要概括了基于規(guī)則匹配、特征工程的事件抽取方法的短板,引出基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取相關(guān)工作,將神經(jīng)網(wǎng)絡(luò)事件抽取模型分為管道式和聯(lián)合式兩類進(jìn)行了重點(diǎn)介紹。基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取研究在不斷進(jìn)步,但神經(jīng)網(wǎng)絡(luò)方法對(duì)大量標(biāo)注數(shù)據(jù)的依賴與現(xiàn)有事件標(biāo)注數(shù)據(jù)集規(guī)模小、人工標(biāo)注事件數(shù)據(jù)代價(jià)大之間存在的沖突對(duì)事件抽取研究的發(fā)展形成了不小的阻礙,近年來(lái)為了解決缺乏事件標(biāo)注數(shù)據(jù)的問(wèn)題,有學(xué)者提出融合外部資源的方法自動(dòng)地產(chǎn)生事件標(biāo)注數(shù)據(jù)并獲取了值得肯定的結(jié)果,但事件抽取研究仍有很多難題等待著我們?nèi)スタ恕?/p>