陳新元,廖 濤
(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)
事件論元抽取是指從自然語言文本的事件中識別出所有論元[1],并為這些論元分配相應(yīng)的角色屬性,然后將其以結(jié)構(gòu)化信息的形式呈現(xiàn)給用戶。在公開數(shù)據(jù)集ACE2005中,將事件分為8個父類型和33個子類型,將論元分為35種角色。目前,研究者大多關(guān)注論元本身的語義特征,而忽略了依存關(guān)系特征、觸發(fā)詞和論元的位置關(guān)系特征以及觸發(fā)詞類型特征等隱層信息,導(dǎo)致論元抽取的效果不夠理想。為了能更好地利用隱層信息特征,本文提出基于依存感知建模的事件論元抽取方法,有效提高了論元抽取性能。
本文的模型主要分為3層:輸入層、特征抽取層和輸出層,具體流程如圖1所示。
圖1 事件論元抽取模型
首先,本文采用中文維基百科語料庫訓(xùn)練Word2Vec,并通過該模型的skip-gram模式獲取目標(biāo)文本的詞向量表示e(wori);其次,通過候選論元的空間關(guān)系構(gòu)建一個10維的位置向量表示e(posi);最后,通過觸發(fā)詞的標(biāo)注類型構(gòu)建一個35維的類型向量e(typi)。因此,可得處于第i位置詞語的最終上下文語義增強(qiáng)向量表示ei,如公式(1)所示。
公式(1)中,⊕表示的是通過拼接的方式整合上述向量,最終得到事件句的上下文語義增強(qiáng)向量表示E={e1,e2,e3,……en},其中,ei代筆第i個候選論元的向量表示。
此外,句子文本在通過Bert預(yù)訓(xùn)練之后,每一個詞都捕獲了局部以及全局的語義信息。給定事件句向量X={x1,x2,x3,……xn},其中n代表事件句的長度,xi代表事件候選論元,將向量X輸入到Bert中進(jìn)行預(yù)訓(xùn)練,得到訓(xùn)練后的句子向量表示H={h1,h2,h3,……h(huán)n}。同時,為了獲取句子中候選論元的依存關(guān)系表示,本文采用百度的自然語言處理工具DDParser進(jìn)行依存句法分析,獲取到詞間的依存關(guān)系表示為R={r1,r2,r3,……rn}。
為了讓候選事件論元能夠?qū)﹃P(guān)鍵的語義依存特征給予更多的關(guān)注,本層構(gòu)建了依存嵌入注意力網(wǎng)絡(luò)。依存嵌入注意力網(wǎng)絡(luò),即是利用候選論元之間的語義依存關(guān)系,將語義依存特征和上下文特征進(jìn)行相關(guān)性計(jì)算,從而使文本中的事件論元能夠具備依存嵌入注意力。依存嵌入注意力網(wǎng)絡(luò)一共有N層,其中每一層的輸出結(jié)果是下一層的輸入信息,每一層網(wǎng)絡(luò)接收到信息后與語義依存特征向量進(jìn)行相關(guān)性計(jì)算。
隨著依存嵌入注意力網(wǎng)絡(luò)的訓(xùn)練層數(shù)逐漸加深,會面臨梯度消失或梯度爆炸的風(fēng)險,進(jìn)而影響整體的擬合效果。本文引用殘差網(wǎng)絡(luò)(ResNet)的思想對依存嵌入注意力網(wǎng)絡(luò)進(jìn)行調(diào)整,保證信息在正向傳遞的過程中,經(jīng)過殘差網(wǎng)絡(luò)的修正后,下一層網(wǎng)絡(luò)蘊(yùn)含的信息量多于上一層網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)基本結(jié)構(gòu)由殘差單元組成,殘差單元由卷積層、歸一化層和激活函數(shù)組成。對于給定的輸入序列信息,首先殘差網(wǎng)絡(luò)將輸入信息依次通過卷積層訓(xùn)練、ReLU激活函數(shù)激活以及BN層歸一化操作,然后將得到的輸出信息送入多個殘差單元中,最后再通過BN層和全連接層處理得到最終結(jié)果。
本文將事件句中的每個候選詞看作一個節(jié)點(diǎn),將詞間的依存關(guān)系看作是結(jié)點(diǎn)之間的邊,每個節(jié)點(diǎn)都包含3種邊:自環(huán)邊、正向傳播邊和反向傳播邊,根據(jù)依存關(guān)系可以得到該事件句的依存鄰接矩陣G={A,B}。為了加強(qiáng)捕捉依存關(guān)系的同時不錯失其他關(guān)鍵的節(jié)點(diǎn)信息,本文通過依存感知建模算法對依存關(guān)系進(jìn)行感知建模,具體過程如表1所示。
表1 依存感知建模算法
在另一通道中,經(jīng)由輸入層傳來的上下文語義增強(qiáng)向量,將被輸送到Bi-GRU中進(jìn)行序列編碼,該雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)的具體計(jì)算過程如公式(2)和(3)所示。
公式(2)和公式(3)分別代表正向和反向的序列編碼計(jì)算,通過將正向和反向的GRU編碼結(jié)果進(jìn)行拼接得到上下文語義增強(qiáng)特征表示P={p1,p2,p3,……pn}。
由前述可知,通過特征抽取層得到依存感知特征表示O={o1,o2,o3,……on}和上下文語義增強(qiáng)特征表示P={p1,p2,p3,……pn},本文通過多頭注意力機(jī)制把兩個特征進(jìn)行融合。該層將含有依存感知特征的句子向量切割為三部分,分別與上下文語義增強(qiáng)特征表示進(jìn)行注意力運(yùn)算,得到最終的候選論元隱層信息表示lesn如公式(4)所示。
式中,att(E,m,n)表示對所有的候選論元進(jìn)行線性加權(quán)操作。對于第i個候選論元wi,通過一個全連接網(wǎng)絡(luò)為得到的每個類別進(jìn)行打分,計(jì)算公式如(5)所示。
其中,W表示權(quán)重矩陣,參數(shù)b表示偏移量。得到打分之后,通過softmax函數(shù)對事件論元角色進(jìn)行分類預(yù)測,如公式(6)所示。同時,本文通過自適應(yīng)矩估計(jì)算法對參數(shù)進(jìn)行更新,同時采用Dropout機(jī)制以防止出現(xiàn)過擬合現(xiàn)象。
本實(shí)驗(yàn)數(shù)據(jù)集使用的是由上海大學(xué)語義智能實(shí)驗(yàn)室構(gòu)建的CEC2.0中午突發(fā)事件語料庫。本文隨機(jī)選取260篇文本作為訓(xùn)練集,選取37篇作為測試集,剩余35篇作為驗(yàn)證集。本文在實(shí)驗(yàn)過程中,通過驗(yàn)證集不間斷的檢測F1的分?jǐn)?shù),直至找到最大值并保留對應(yīng)的實(shí)驗(yàn)參數(shù),以作為最終結(jié)果。本文詞向量設(shè)置為200維,事件觸發(fā)詞類型向量設(shè)置為35維,位置向量設(shè)置為10維,總共245維,設(shè)置防過擬合機(jī)制Dropout的實(shí)驗(yàn)參數(shù)為0.4。本文通過準(zhǔn)確率P、召回率R和F1值作為實(shí)驗(yàn)的評估標(biāo)準(zhǔn)。
本文與當(dāng)前主流模型的實(shí)驗(yàn)結(jié)果對比,如表2所示。
表2 事件論元分類實(shí)驗(yàn)結(jié)果對比
此外,本文通過不同的依存嵌入注意力網(wǎng)絡(luò)層數(shù)的實(shí)驗(yàn)結(jié)果對比,確立事件論元抽取性能最佳的網(wǎng)絡(luò)層數(shù),不同網(wǎng)絡(luò)層數(shù)實(shí)驗(yàn)結(jié)果如表3所示。與不構(gòu)建依存嵌入注意力網(wǎng)絡(luò)相比,利用依存嵌入注意力計(jì)算能夠明顯提升事件論元抽取的性能。
表3 不同層數(shù)實(shí)驗(yàn)結(jié)果對比
因此,依據(jù)語義依存關(guān)系的影響程度不同,給予關(guān)鍵語義依存關(guān)系更高的注意力權(quán)重,能很好地提升模型的效果。對于使用不同依存嵌入注意力網(wǎng)絡(luò)層數(shù)的模型,其得到的準(zhǔn)確率P、召回率R和F1值各不相同。當(dāng)模型層數(shù)為1時,模型出現(xiàn)欠擬合現(xiàn)象,隨著層數(shù)的加深,準(zhǔn)確率小幅度下降,召回率和F1逐步提升,當(dāng)層數(shù)為7時F1值最大,模型達(dá)到最優(yōu)效果。
本文通過獲取事件句的依存結(jié)構(gòu)關(guān)系,并提出了依存感知建模算法對該關(guān)系進(jìn)行建模,得到了依存感知特征;同時構(gòu)建上下文語義增強(qiáng)向量,輸入到雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)中進(jìn)行序列編碼,得到了上下文語義增強(qiáng)特征;最后融合上述特征,并進(jìn)行事件論元的角色分類,在CEC2.0語料庫上的F1值達(dá)到了64.1%。