基于神經(jīng)張量網(wǎng)絡(luò)的事件相關(guān)關(guān)系識(shí)別

2021-04-24 13:05:14

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2021年4期

（四川大學(xué)網(wǎng)絡(luò)空間安全研究院四川 610065）

事件是現(xiàn)實(shí)世界中客觀事實(shí)的陳述，每一個(gè)事件都反映了特定目標(biāo)在一定的時(shí)間和環(huán)境內(nèi)參與并表現(xiàn)出的動(dòng)作特征。事件作為信息表示的一種重要形式[1]，蘊(yùn)含著豐富的信息，人們通常通過認(rèn)識(shí)事件以及事件之間的聯(lián)系來認(rèn)識(shí)和了解現(xiàn)實(shí)世界。隨著互聯(lián)網(wǎng)的發(fā)展以及人工智能技術(shù)的興起，自然語言處理領(lǐng)域關(guān)于事件與事件之間聯(lián)系的研究也隨之得到發(fā)展。在現(xiàn)實(shí)世界中，事件往往不是獨(dú)立發(fā)生的，其發(fā)生以及后續(xù)的發(fā)展都蘊(yùn)藏著深層的邏輯聯(lián)系，一些看似無關(guān)的事件背后往往存在著一定的邏輯聯(lián)系。通過事件相關(guān)關(guān)系識(shí)別，能夠?qū)Υ罅康目此齐x散的安全事件，進(jìn)行有效的事件演化、發(fā)展的推理與預(yù)測(cè)。事件之間存在的關(guān)系是極其復(fù)雜的，目前，在學(xué)術(shù)界，事件間的因果關(guān)系以及事件間的時(shí)序關(guān)系是主要研究方向，但在事件的相關(guān)關(guān)系上的研究較少，本文主要研究事件之間的相關(guān)關(guān)系。

1 國內(nèi)外研究現(xiàn)狀

Radinsky[2]等人通過新聞標(biāo)題構(gòu)建事件因果關(guān)系模板規(guī)則，利用模板匹配的方式，判斷新聞標(biāo)題之間的因果性，從新聞標(biāo)題中自動(dòng)抽取事件對(duì)，并將這種事件對(duì)用于新聞事件預(yù)測(cè)。Zhao[3]等人在此基礎(chǔ)上，利用類似的方法進(jìn)行事件對(duì)的抽取，然后利用WordNet 以及VerbNet 對(duì)事件泛化，構(gòu)建抽象的事件因果關(guān)系網(wǎng)絡(luò)，再將事件因果關(guān)系網(wǎng)絡(luò)映射到一個(gè)連續(xù)的向量空間中，進(jìn)行股票預(yù)測(cè)、事件預(yù)測(cè)等。

黃一龍[4]等人基于ACE（Automatic Content Extraction）2005 數(shù)據(jù)集，提出了一個(gè)基于數(shù)據(jù)集中事件的多種特征的事件識(shí)別方法，根據(jù)已標(biāo)注出的7 項(xiàng)事件屬性以及4 項(xiàng)擴(kuò)展特征，使用最大熵分類器進(jìn)行事件相關(guān)關(guān)系判定。Chambers[5]等人先提取出事件中的事件描述屬性，如時(shí)態(tài)、語法以及句法特征，然后使用SVM 進(jìn)行事件時(shí)序關(guān)系的判定。

付劍鋒[6]等人將事件關(guān)系識(shí)別轉(zhuǎn)化為對(duì)事件序列的標(biāo)注問題，采用兩層CRF 標(biāo)注出事件之間的因果關(guān)系。

2 事件相關(guān)關(guān)系識(shí)別模型ECR_NTN

本文將對(duì)事件對(duì)關(guān)系的抽取問題轉(zhuǎn)化為對(duì)事件對(duì)關(guān)系的二分類問題，提出基于層級(jí)注意力網(wǎng)絡(luò)的事件相關(guān)關(guān)系識(shí)別方法?；贏CE 2005 數(shù)據(jù)集，標(biāo)注ACE_COR 語料庫；在此基礎(chǔ)上進(jìn)行事件句特征提取，一方面通過神經(jīng)張量網(wǎng)絡(luò)獲取事件對(duì)語義特征；另一方面通過事件句的結(jié)構(gòu)特征提取獲得5 項(xiàng)事件對(duì)結(jié)構(gòu)特征，最后將事件對(duì)語義特征和事件對(duì)結(jié)構(gòu)特征進(jìn)行融合，經(jīng)過Softmax 分類器，獲取事件之間相關(guān)關(guān)系的識(shí)別結(jié)果。

2.1 事件對(duì)結(jié)構(gòu)特征

本文以ACE 2005 中文數(shù)據(jù)集為研究基礎(chǔ)，抽取以下幾個(gè)方面的特征作為事件對(duì)結(jié)構(gòu)特征。

（1）事件對(duì)類型（TYPE）

事件對(duì)類型表征了相關(guān)事件的類型相關(guān)的可能概率。本文將事件對(duì)中的兩個(gè)事件實(shí)例的類型進(jìn)行組合，形成事件對(duì)類型特征。ACE 數(shù)據(jù)集有8 類事件類型，兩兩組隊(duì)可以形成28 類事件對(duì)類型。將28 類事件對(duì)類型進(jìn)行編號(hào)，按類型相關(guān)的可能概率依次遞增，則將事件對(duì)類型的特征標(biāo)記為事件對(duì)類型對(duì)應(yīng)的編號(hào)數(shù)值。

（2）事件對(duì)子類型（STYPE）

事件對(duì)子類型進(jìn)一步細(xì)化了相關(guān)事件的子類型相關(guān)的可能概率。本文將事件對(duì)中的兩個(gè)事件實(shí)例的子類型進(jìn)行組合，形成事件對(duì)子類型特征。ACE 數(shù)據(jù)集有33 類事件子類型，兩兩組隊(duì)可以形成528 類事件對(duì)子類型。將528 類事件對(duì)子類型進(jìn)行編號(hào)，按子類型相關(guān)的可能概率依次遞增，則將事件對(duì)子類型的特征標(biāo)記為事件對(duì)子類型對(duì)應(yīng)的編號(hào)數(shù)值。

2.2 事件對(duì)語義特征

本文設(shè)計(jì)了一個(gè)基于神經(jīng)張量網(wǎng)絡(luò)[7]（Neural Tensor Network，NTN）的語義模型對(duì)事件論元進(jìn)行語義組合，能更好捕獲事件論元間的交互信息，然后構(gòu)建了一個(gè)孿生神經(jīng)網(wǎng)絡(luò)模型（ECR_NTN）對(duì)事件對(duì)進(jìn)行建模，如圖1 所示例。

圖1 ECR_NTN 模型

本文模型主要分為4 個(gè)步驟：

（1）本文基于ACE 數(shù)據(jù)集的特點(diǎn)，將事件表示為一個(gè)四元組的形式：e={v，o1，o2，o3，o4}，其中v 是動(dòng)詞，o 是事件核心參數(shù)。將這些事件論元進(jìn)行拼接，然后通過Word2Vec 獲得每一個(gè)事件的詞向量表示作為模型輸入，維度為300 維。

（2）通過兩個(gè)共享權(quán)重參數(shù)的張量神經(jīng)網(wǎng)絡(luò)NTN，對(duì)事件的詞向量表示進(jìn)行更深一步的挖掘，捕獲事件論元的交互信息，完成事件的表示，然后通過concat 方式，將兩個(gè)事件表示連接成事件對(duì)表示。

（3）通過兩個(gè)隱藏層，維度大小分別為100 與50，將事件對(duì)表示維度降低后，與事件對(duì)結(jié)構(gòu)特征進(jìn)行拼接，獲取最終的向量表示。

（4）最后通過，一個(gè)激活函數(shù)為“softmax”的Dense 層完成事件對(duì)相關(guān)關(guān)系的預(yù)測(cè)。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)源

數(shù)據(jù)源采用的是信息抽取領(lǐng)域的主要數(shù)據(jù)集ACE 2005，本文在其之上進(jìn)行標(biāo)注，形成ACE_COR 數(shù)據(jù)集，數(shù)據(jù)集情況如表1 所示。

表1 數(shù)據(jù)集情況

3.2 實(shí)驗(yàn)方法

為了更加充分地評(píng)估本文模型的性能和有效性，將本文模型與傳統(tǒng)機(jī)器學(xué)習(xí)SVM、RF 模型、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)RNN 以及常見的深度學(xué)習(xí)Bi-GRU、Bi-LSTM 模型進(jìn)行對(duì)比，本組實(shí)驗(yàn)使用本文所構(gòu)建的ACE_COR 語料庫，并在同等參數(shù)條件下建立以上5 種模型，各類模型性能對(duì)比結(jié)果如表2 所示。

3.3 實(shí)驗(yàn)結(jié)果

如表2 所示，不難看出，基于傳統(tǒng)機(jī)器學(xué)習(xí)的SVM、RF 模型在準(zhǔn)確率、召回率、F1 值方面遠(yuǎn)低于其他模型，這是因?yàn)镾VM、RF 模型都只是淺層的機(jī)器學(xué)習(xí)模型，無法挖掘出深層次的數(shù)據(jù)特征，并且SVM、RF 模型只利用了提取出的事件對(duì)結(jié)構(gòu)特征，并沒有利用到事件對(duì)語義特征，缺失了對(duì)于事件相關(guān)關(guān)系識(shí)別較重要的語義信息。

對(duì)于淺層神經(jīng)網(wǎng)絡(luò)RNN 模型來說，淺層神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠利用事件句并捕獲到數(shù)據(jù)中更加復(fù)雜的特征，所以準(zhǔn)確率、召回率以及F1值都高于傳統(tǒng)的機(jī)器學(xué)習(xí)模型，但是該類模型也只能捕獲到局部的數(shù)據(jù)特征。

表2 與其他模型性能對(duì)比結(jié)果

對(duì)于深度神經(jīng)網(wǎng)絡(luò)Bi-GRU 以及Bi-LSTM 模型來說，能夠?qū)⒉东@的上文信息以及下文信息進(jìn)行融合，極大地豐富了向量的信息表示能力，最終生成的向量能夠更好地表達(dá)事件句的內(nèi)在信息，因此這兩類模型的準(zhǔn)確率、召回率以及F1 值相較前述的四類模型有明顯提高。

本文建立的ECR_NTN 模型的各性能評(píng)估值高于其他模型，這是因?yàn)镋CR_NTN 模型利用層級(jí)注意力網(wǎng)絡(luò)捕捉到高注意度的詞句，從而學(xué)習(xí)到更加本質(zhì)的事件句語義特征，進(jìn)而提升了事件相關(guān)關(guān)系的識(shí)別能力。

4 結(jié)束語

本文設(shè)計(jì)了一個(gè)用于中文事件關(guān)系識(shí)別的深度神經(jīng)網(wǎng)絡(luò)模型ECR_HAN，ECR_HAN 模型使用層級(jí)注意力網(wǎng)絡(luò)，以層次結(jié)構(gòu)的形式提取事件句的語義特征，并結(jié)合事件對(duì)結(jié)構(gòu)特征，完成事件相關(guān)關(guān)系的識(shí)別。本文基于ACE 2005 中文數(shù)據(jù)集標(biāo)注了一個(gè)中文事件相關(guān)關(guān)系語料庫，在此基礎(chǔ)上建立了ECR_HAN 模型，將ECR_HAN 模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型以及常用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比，ECR_NTN 模型在準(zhǔn)確率、召回率、F1 值上均有提高性。在本文工作中，在事件關(guān)系上只考慮了事件對(duì)之間的相關(guān)關(guān)系，在后續(xù)的工作中，可以對(duì)具有事件相關(guān)關(guān)系的事件對(duì)進(jìn)行更加細(xì)粒度的劃分，從而更好探索事件之間蘊(yùn)含的邏輯關(guān)系。