(四川大學(xué)網(wǎng)絡(luò)空間安全研究院 四川 610065)
事件是現(xiàn)實(shí)世界中客觀事實(shí)的陳述,每一個(gè)事件都反映了特定目標(biāo)在一定的時(shí)間和環(huán)境內(nèi)參與并表現(xiàn)出的動(dòng)作特征。事件作為信息表示的一種重要形式[1],蘊(yùn)含著豐富的信息,人們通常通過認(rèn)識(shí)事件以及事件之間的聯(lián)系來認(rèn)識(shí)和了解現(xiàn)實(shí)世界。隨著互聯(lián)網(wǎng)的發(fā)展以及人工智能技術(shù)的興起,自然語言處理領(lǐng)域關(guān)于事件與事件之間聯(lián)系的研究也隨之得到發(fā)展。在現(xiàn)實(shí)世界中,事件往往不是獨(dú)立發(fā)生的,其發(fā)生以及后續(xù)的發(fā)展都蘊(yùn)藏著深層的邏輯聯(lián)系,一些看似無關(guān)的事件背后往往存在著一定的邏輯聯(lián)系。通過事件相關(guān)關(guān)系識(shí)別,能夠?qū)Υ罅康目此齐x散的安全事件,進(jìn)行有效的事件演化、發(fā)展的推理與預(yù)測(cè)。事件之間存在的關(guān)系是極其復(fù)雜的,目前,在學(xué)術(shù)界,事件間的因果關(guān)系以及事件間的時(shí)序關(guān)系是主要研究方向,但在事件的相關(guān)關(guān)系上的研究較少,本文主要研究事件之間的相關(guān)關(guān)系。
Radinsky[2]等人通過新聞標(biāo)題構(gòu)建事件因果關(guān)系模板規(guī)則,利用模板匹配的方式,判斷新聞標(biāo)題之間的因果性,從新聞標(biāo)題中自動(dòng)抽取事件對(duì),并將這種事件對(duì)用于新聞事件預(yù)測(cè)。Zhao[3]等人在此基礎(chǔ)上,利用類似的方法進(jìn)行事件對(duì)的抽取,然后利用WordNet 以及VerbNet 對(duì)事件泛化,構(gòu)建抽象的事件因果關(guān)系網(wǎng)絡(luò),再將事件因果關(guān)系網(wǎng)絡(luò)映射到一個(gè)連續(xù)的向量空間中,進(jìn)行股票預(yù)測(cè)、事件預(yù)測(cè)等。
黃一龍[4]等人基于ACE(Automatic Content Extraction)2005 數(shù)據(jù)集,提出了一個(gè)基于數(shù)據(jù)集中事件的多種特征的事件識(shí)別方法,根據(jù)已標(biāo)注出的7 項(xiàng)事件屬性以及4 項(xiàng)擴(kuò)展特征,使用最大熵分類器進(jìn)行事件相關(guān)關(guān)系判定。Chambers[5]等人先提取出事件中的事件描述屬性,如時(shí)態(tài)、語法以及句法特征,然后使用SVM 進(jìn)行事件時(shí)序關(guān)系的判定。
付劍鋒[6]等人將事件關(guān)系識(shí)別轉(zhuǎn)化為對(duì)事件序列的標(biāo)注問題,采用兩層CRF 標(biāo)注出事件之間的因果關(guān)系。
本文將對(duì)事件對(duì)關(guān)系的抽取問題轉(zhuǎn)化為對(duì)事件對(duì)關(guān)系的二分類問題,提出基于層級(jí)注意力網(wǎng)絡(luò)的事件相關(guān)關(guān)系識(shí)別方法?;贏CE 2005 數(shù)據(jù)集,標(biāo)注ACE_COR 語料庫;在此基礎(chǔ)上進(jìn)行事件句特征提取,一方面通過神經(jīng)張量網(wǎng)絡(luò)獲取事件對(duì)語義特征;另一方面通過事件句的結(jié)構(gòu)特征提取獲得5 項(xiàng)事件對(duì)結(jié)構(gòu)特征,最后將事件對(duì)語義特征和事件對(duì)結(jié)構(gòu)特征進(jìn)行融合,經(jīng)過Softmax 分類器,獲取事件之間相關(guān)關(guān)系的識(shí)別結(jié)果。
本文以ACE 2005 中文數(shù)據(jù)集為研究基礎(chǔ),抽取以下幾個(gè)方面的特征作為事件對(duì)結(jié)構(gòu)特征。
(1)事件對(duì)類型(TYPE)
事件對(duì)類型表征了相關(guān)事件的類型相關(guān)的可能概率。本文將事件對(duì)中的兩個(gè)事件實(shí)例的類型進(jìn)行組合,形成事件對(duì)類型特征。ACE 數(shù)據(jù)集有8 類事件類型,兩兩組隊(duì)可以形成28 類事件對(duì)類型。將28 類事件對(duì)類型進(jìn)行編號(hào),按類型相關(guān)的可能概率依次遞增,則將事件對(duì)類型的特征標(biāo)記為事件對(duì)類型對(duì)應(yīng)的編號(hào)數(shù)值。
(2)事件對(duì)子類型(STYPE)
事件對(duì)子類型進(jìn)一步細(xì)化了相關(guān)事件的子類型相關(guān)的可能概率。本文將事件對(duì)中的兩個(gè)事件實(shí)例的子類型進(jìn)行組合,形成事件對(duì)子類型特征。ACE 數(shù)據(jù)集有33 類事件子類型,兩兩組隊(duì)可以形成528 類事件對(duì)子類型。將528 類事件對(duì)子類型進(jìn)行編號(hào),按子類型相關(guān)的可能概率依次遞增,則將事件對(duì)子類型的特征標(biāo)記為事件對(duì)子類型對(duì)應(yīng)的編號(hào)數(shù)值。
本文設(shè)計(jì)了一個(gè)基于神經(jīng)張量網(wǎng)絡(luò)[7](Neural Tensor Network,NTN)的語義模型對(duì)事件論元進(jìn)行語義組合,能更好捕獲事件論元間的交互信息,然后構(gòu)建了一個(gè)孿生神經(jīng)網(wǎng)絡(luò)模型(ECR_NTN)對(duì)事件對(duì)進(jìn)行建模,如圖1 所示例。
圖1 ECR_NTN 模型
本文模型主要分為4 個(gè)步驟:
(1)本文基于ACE 數(shù)據(jù)集的特點(diǎn),將事件表示為一個(gè)四元組的形式:e={v,o1,o2,o3,o4},其中v 是動(dòng)詞,o 是事件核心參數(shù)。將這些事件論元進(jìn)行拼接,然后通過Word2Vec 獲得每一個(gè)事件的詞向量表示作為模型輸入,維度為300 維。
(2)通過兩個(gè)共享權(quán)重參數(shù)的張量神經(jīng)網(wǎng)絡(luò)NTN,對(duì)事件的詞向量表示進(jìn)行更深一步的挖掘,捕獲事件論元的交互信息,完成事件的表示,然后通過concat 方式,將兩個(gè)事件表示連接成事件對(duì)表示。
(3)通過兩個(gè)隱藏層,維度大小分別為100 與50,將事件對(duì)表示維度降低后,與事件對(duì)結(jié)構(gòu)特征進(jìn)行拼接,獲取最終的向量表示。
(4)最后通過,一個(gè)激活函數(shù)為“softmax”的Dense 層完成事件對(duì)相關(guān)關(guān)系的預(yù)測(cè)。
數(shù)據(jù)源采用的是信息抽取領(lǐng)域的主要數(shù)據(jù)集ACE 2005,本文在其之上進(jìn)行標(biāo)注,形成ACE_COR 數(shù)據(jù)集,數(shù)據(jù)集情況如表1 所示。
表1 數(shù)據(jù)集情況
為了更加充分地評(píng)估本文模型的性能和有效性,將本文模型與傳統(tǒng)機(jī)器學(xué)習(xí)SVM、RF 模型、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)RNN 以及常見的深度學(xué)習(xí)Bi-GRU、Bi-LSTM 模型進(jìn)行對(duì)比,本組實(shí)驗(yàn)使用本文所構(gòu)建的ACE_COR 語料庫,并在同等參數(shù)條件下建立以上5 種模型,各類模型性能對(duì)比結(jié)果如表2 所示。
如表2 所示,不難看出,基于傳統(tǒng)機(jī)器學(xué)習(xí)的SVM、RF 模型在準(zhǔn)確率、召回率、F1 值方面遠(yuǎn)低于其他模型,這是因?yàn)镾VM、RF 模型都只是淺層的機(jī)器學(xué)習(xí)模型,無法挖掘出深層次的數(shù)據(jù)特征,并且SVM、RF 模型只利用了提取出的事件對(duì)結(jié)構(gòu)特征,并沒有利用到事件對(duì)語義特征,缺失了對(duì)于事件相關(guān)關(guān)系識(shí)別較重要的語義信息。
對(duì)于淺層神經(jīng)網(wǎng)絡(luò)RNN 模型來說,淺層神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠利用事件句并捕獲到數(shù)據(jù)中更加復(fù)雜的特征,所以準(zhǔn)確率、召回率以及F1值都高于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,但是該類模型也只能捕獲到局部的數(shù)據(jù)特征。
表2 與其他模型性能對(duì)比結(jié)果
對(duì)于深度神經(jīng)網(wǎng)絡(luò)Bi-GRU 以及Bi-LSTM 模型來說,能夠?qū)⒉东@的上文信息以及下文信息進(jìn)行融合,極大地豐富了向量的信息表示能力,最終生成的向量能夠更好地表達(dá)事件句的內(nèi)在信息,因此這兩類模型的準(zhǔn)確率、召回率以及F1 值相較前述的四類模型有明顯提高。
本文建立的ECR_NTN 模型的各性能評(píng)估值高于其他模型,這是因?yàn)镋CR_NTN 模型利用層級(jí)注意力網(wǎng)絡(luò)捕捉到高注意度的詞句,從而學(xué)習(xí)到更加本質(zhì)的事件句語義特征,進(jìn)而提升了事件相關(guān)關(guān)系的識(shí)別能力。
本文設(shè)計(jì)了一個(gè)用于中文事件關(guān)系識(shí)別的深度神經(jīng)網(wǎng)絡(luò)模型ECR_HAN,ECR_HAN 模型使用層級(jí)注意力網(wǎng)絡(luò),以層次結(jié)構(gòu)的形式提取事件句的語義特征,并結(jié)合事件對(duì)結(jié)構(gòu)特征,完成事件相關(guān)關(guān)系的識(shí)別。本文基于ACE 2005 中文數(shù)據(jù)集標(biāo)注了一個(gè)中文事件相關(guān)關(guān)系語料庫,在此基礎(chǔ)上建立了ECR_HAN 模型,將ECR_HAN 模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型以及常用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,ECR_NTN 模型在準(zhǔn)確率、召回率、F1 值上均有提高性。在本文工作中,在事件關(guān)系上只考慮了事件對(duì)之間的相關(guān)關(guān)系,在后續(xù)的工作中,可以對(duì)具有事件相關(guān)關(guān)系的事件對(duì)進(jìn)行更加細(xì)粒度的劃分,從而更好探索事件之間蘊(yùn)含的邏輯關(guān)系。