摘 要:文檔級(jí)事件抽取面臨論元分散和多事件兩大挑戰(zhàn),已有工作大多采用逐句抽取候選論元的方式,難以建??缇涞纳舷挛男畔?。為此,提出了一種基于多粒度閱讀器和圖注意網(wǎng)絡(luò)的文檔級(jí)事件抽取模型,采用多粒度閱讀器實(shí)現(xiàn)多層次語義編碼,通過圖注意力網(wǎng)絡(luò)捕獲實(shí)體對(duì)之間的局部和全局關(guān)系,構(gòu)建基于實(shí)體對(duì)相似度的剪枝完全圖作為偽觸發(fā)器,全面捕捉文檔中的事件和論元。在公共數(shù)據(jù)集ChFinAnn和DuEE-Fin上進(jìn)行了實(shí)驗(yàn),結(jié)果表明提出的方法改善了論元分散問題,提升了模型事件抽取性能。
關(guān)鍵詞:多粒度閱讀器; 圖注意力網(wǎng)絡(luò); 文檔級(jí)事件抽取
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)08-012-2329-07
doi:10.19734/j.issn.1001-3695.2024.01.0001
Document level event extraction based on multi granularityreaders and graph attention networks
Xue Songdong, Li Yonghao, Zhao Hongyan
(School of Computer Science & Technology, Taiyuan University of Science & Technology, Taiyuan 030024, China)
Abstract:Document level event extraction faces two major challenges: argument dispersion and multiple events. Most exis-ting work adopts the method of extracting candidate arguments sentence by sentence, which makes it difficult to model contextual information across sentences. Therefore, this paper proposed a document level event extraction model based on multi granularity readers and graph attention networks. It used multi-granularity readers to achieve multi-level semantic encoding, and used the graph attention network to capture local and global relations between entity pairs. It constructed a pruned complete graph based on entity pair similarity as a pseudo trigger to comprehensively capture events and arguments in the document. Experiments conducted on the public datasets of ChFinAnn and DuEE-Fin show that the proposed method improves the problem of argument dispersion and enhances model’s event extraction performance.
Key words:multi-granularity reader; graph attention network; document-level event extraction
0 引言
事件抽?。╡vent extraction,EE)旨在從非結(jié)構(gòu)化文本中識(shí)別事件及其事件論元(參與事件的實(shí)體),是信息抽取的重要任務(wù)之一。目前的研究主要集中在句子級(jí)事件抽?。╯entence level event extraction,SEE)[1]任務(wù)上,側(cè)重于從一個(gè)句子中識(shí)別事件觸發(fā)詞[2]、確定事件類型、識(shí)別論元以及判斷論元角色。然而,一個(gè)事件往往會(huì)分布在多個(gè)句子或整篇文檔中,句子級(jí)的事件抽取無法滿足人工智能和自然語言處理相關(guān)領(lǐng)域的應(yīng)用需求。因此,近些年來文檔級(jí)事件抽取引起了學(xué)者們的研究熱潮。
文檔級(jí)事件抽取(document level event extraction,DEE)是從文檔中確定事件類型、識(shí)別論元及判斷論元角色[3]。與句子級(jí)事件抽取相比,文檔級(jí)事件抽取面臨論元分散和多事件兩個(gè)挑戰(zhàn)。論元分散問題是指一個(gè)事件的論元可能分散在多個(gè)句子中;多事件問題是指一篇文檔中可能會(huì)同時(shí)存在多個(gè)事件。如圖1所示,該示例來自于ChFinAnn數(shù)據(jù)集(https://github.com/dolphin-zs/Doc2EDAG),文檔級(jí)事件抽取的任務(wù)就是從左邊給定的文檔中抽取出所有事件、對(duì)應(yīng)論元以及論元角色,并以結(jié)構(gòu)化形式表示。該文檔包含了兩個(gè)“質(zhì)押事件”,其中第一個(gè)“質(zhì)押事件”涉及到的事件論元角色包括“質(zhì)押人、質(zhì)押股份、質(zhì)權(quán)人、持有股份總數(shù)、總持有比率、質(zhì)押股份總數(shù)、起始日期、釋放日期”,這些論元分散在文檔中的第5、8和10個(gè)句子中;第二個(gè)“質(zhì)押事件”涉及到的事件論元角色包括“質(zhì)押人、質(zhì)押股份、質(zhì)權(quán)人、起始日期、釋放日期”,這些論元分散在文檔中的第5和7個(gè)句子中。如何從文檔的多個(gè)句子中識(shí)別出每一個(gè)事件的多個(gè)論元是一項(xiàng)極其復(fù)雜和極具挑戰(zhàn)性的工作,它不僅需要考慮句內(nèi)局部信息,還要考慮文檔中句間的全局信息。
目前,DEE任務(wù)的研究主要分為串行預(yù)測(cè)和并行預(yù)測(cè)兩種。串行預(yù)測(cè)先預(yù)測(cè)事件類型,再確定其預(yù)定義的論元角色順序,然后按照預(yù)定義論元角色順序?qū)φ撛M(jìn)行二元分類,判斷論元與論元角色是否匹配。DCFEE模型[4]利用遠(yuǎn)程監(jiān)督方法擴(kuò)展訓(xùn)練語料庫,對(duì)逐個(gè)句子提取觸發(fā)詞和論元,將觸發(fā)詞和論元與當(dāng)前句子連接,利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[5]判斷當(dāng)前句子是否為關(guān)鍵句,同時(shí)提出一種補(bǔ)全策略,從關(guān)鍵事件所在句子的周圍句子中獲得論元進(jìn)行補(bǔ)全,但該方法沒有考慮論元識(shí)別階段的誤差傳遞。Doc2EDAG[6]提出將論元識(shí)別問題轉(zhuǎn)換為基于論元的有向無環(huán)圖(directed acyclic graph,DAG)的路徑擴(kuò)展問題,從而實(shí)現(xiàn)了無觸發(fā)詞的事件類型檢測(cè)。確定事件類型后,通過預(yù)定義論元角色的順序生成有向無環(huán)圖進(jìn)行識(shí)別,由于DAG的每條路徑都表示一個(gè)事件,所以需要通過論元節(jié)點(diǎn)來擴(kuò)展路徑。有向無環(huán)圖的生成類似于表格的填寫,根據(jù)預(yù)定義論元角色一步步填寫論元。通過預(yù)定義角色順序逐個(gè)確定論元,理論上可以提取一個(gè)文檔中的多個(gè)事件,解決了文檔中的多事件問題。然而當(dāng)事件論元出現(xiàn)在不同句子時(shí),通過Transformer[7]融合句子和論元信息很難捕獲內(nèi)部依賴關(guān)系。為此,GIT模型[8]基于Doc2EDAG提出了異構(gòu)圖和tracker模塊,異構(gòu)圖用于捕獲不同句子和論元提及之間的全局交互,tracker模塊用于存儲(chǔ)已解碼的事件記錄。但在同一事件中,先捕獲的論元信息不能考慮到后面捕獲的實(shí)體信息。張虎等人[9]提出一種基于多粒度實(shí)體異構(gòu)圖的篇章級(jí)事件抽取方法,該方法主要的創(chuàng)新點(diǎn)在于它結(jié)合了句子級(jí)和段落級(jí)實(shí)體抽取,并利用圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)[10]來增強(qiáng)對(duì)文檔上下文的感知,能夠有效地處理跨句信息,從而提高了事件抽取的精度和效果。但同時(shí)段落級(jí)方法可能忽略了文檔中不同部分事件之間更廣泛的上下文,而且其相對(duì)復(fù)雜的模型和較高的資源需求是需要考慮的問題。綜上所述,采用串行預(yù)測(cè)方法對(duì)單個(gè)論元提取時(shí),僅考慮了前面已識(shí)別的論元,無法利用所有論元的上下文語義信息,影響了模型性能。
針對(duì)上述文檔級(jí)事件抽取串行預(yù)測(cè)方法的局限性,有學(xué)者提出并行預(yù)測(cè)的文檔級(jí)事件抽取方法,其核心思想是把論元和論元角色的識(shí)別問題轉(zhuǎn)換成一種生成任務(wù),不僅能夠解決串行預(yù)測(cè)僅關(guān)注局部論元信息的問題,而且極大地提高了模型的解碼速度。例如PTPCG模型[11]將論元組合表示為一個(gè)修剪的完全圖,把重要論元作為一組具有雙向連接的偽觸發(fā)器,其他普通論元以定向方式與這些偽觸發(fā)器連接,并設(shè)計(jì)了一種具有非自回歸解碼策略的高效事件論元組合提取算法。但該模型采用雙向長短時(shí)記憶網(wǎng)絡(luò)(bi-directional long short-term memoU0UrENzyRVH+hlcFjvB/WAhguFd4hDMKUbz1+DM1jJo=ry,BiLSTM)[12]提取論元組合,主要關(guān)注局部信息,難以捕獲全局語義信息,導(dǎo)致實(shí)體抽取質(zhì)量不高。DEE-CF模型[13]通過分割文檔為不同的段落,優(yōu)化了模型抽取范圍,能夠充分抽取更細(xì)致的語義信息。利用BiLSTM獲取局部的段落特征信息和全局的文檔序列特征信息,結(jié)合局部與全局視角的優(yōu)勢(shì),增強(qiáng)了模型對(duì)文檔級(jí)事件的理解能力。DE-RCGNN模型[14]結(jié)合了閱讀理解和圖神經(jīng)網(wǎng)絡(luò)來解決篇章級(jí)事件抽取中的挑戰(zhàn),有效地利用了論元角色先驗(yàn)信息和篇章級(jí)信息來提高事件元素抽取的準(zhǔn)確性和整體性能,但該方法需要對(duì)每個(gè)事件論元角色構(gòu)建問答,導(dǎo)致樣本數(shù)量增加,降低了運(yùn)行效率。
綜合考慮上述文檔級(jí)事件抽取模型的優(yōu)缺點(diǎn),本文提出了一種新的非自回歸文檔級(jí)事件抽取模型——基于多粒度閱讀器和圖注意力網(wǎng)絡(luò)的文檔級(jí)事件抽取模型(MGR-GATPCG)。該模型引入多粒度閱讀器有效整合分散在不同句子中的論元信息,提高模型對(duì)文檔全局上下文的捕獲能力;提出一種滾雪球式的圖注意力網(wǎng)絡(luò)[15]來增強(qiáng)跨句論元間復(fù)雜關(guān)系的交互,有助于處理文檔中的多事件問題;采用一種非自回歸解碼策略,并行處理多個(gè)論元,提高模型解碼速度和效率,而且避免了串行預(yù)測(cè)中的誤差累積問題,使模型在考慮全局信息的同時(shí),快速準(zhǔn)確地識(shí)別和分類事件論元??傊?,本文的主要貢獻(xiàn)如下:
a)構(gòu)建了一種新的基于多粒度閱讀器的文檔級(jí)事件語義表示模型,從局部到全局對(duì)文檔進(jìn)行不同粒度語義編碼,并提出一種門控機(jī)制的信息融合方法,動(dòng)態(tài)地聚合句子級(jí)上下文信息和文檔級(jí)上下文信息,實(shí)現(xiàn)局部信息和全局信息的融合。
b)提出了一種滾雪球式的圖注意力網(wǎng)絡(luò)方法,融合句內(nèi)的論元信息和句間的論元信息,從而增強(qiáng)實(shí)體語義表示,為觸發(fā)器的確定提供了保障。
c)在ChFinAnn和DuEE-Fin數(shù)據(jù)集上進(jìn)行大量對(duì)比實(shí)驗(yàn),結(jié)果表明本文模型的性能在大多評(píng)價(jià)指標(biāo)上優(yōu)于先進(jìn)的基線模型,并采用消融實(shí)驗(yàn)驗(yàn)證了模型各個(gè)模塊的性能。
1 MGR-GATPCG模型
本文模型MGR-GATPCG架構(gòu)如圖2所示,包括基于多粒度閱讀器的語義表示、候選論元識(shí)別、滾雪球式的圖注意力網(wǎng)絡(luò)方法、事件類型檢測(cè)和事件檢測(cè)五個(gè)子模塊。其中基于多粒度閱讀器的語義表示模塊對(duì)文檔分別進(jìn)行文檔級(jí)和句子級(jí)編碼,采用一種基于門控機(jī)制[16]的信息融合方法來融合不同粒度的信息;候選論元識(shí)別模塊利用CRF層獲取論元提及,將論元提及與預(yù)定義論元提及類型拼接后進(jìn)行最大池化,獲得候選論元;滾雪球式的圖注意力網(wǎng)絡(luò)方法模塊對(duì)論元提及進(jìn)行局部語義編碼和全局語義編碼,得到最終論元集;事件類型檢測(cè)模塊對(duì)句子采用最大池化方法進(jìn)行二分類事件類型檢測(cè);事件檢測(cè)模塊計(jì)算論元對(duì)之間的相似度,構(gòu)建剪枝完全圖的相鄰矩陣;最后對(duì)相鄰矩陣解碼組合后,進(jìn)行事件類型、論元角色與論元配對(duì),最終生成事件。
1.1 基于多粒度閱讀器的語義表示
雖然同粒度嵌入層的詞嵌入的初始化詞是相同的,但每個(gè)標(biāo)記的上下文表示在編碼時(shí)會(huì)因其所在句子的上下文或段落的上下文中不同而有所不同。為了實(shí)現(xiàn)不同粒度(句子級(jí)和文檔級(jí))上下文感知的語義表示,本文提出一種基于多粒度閱讀器的文檔級(jí)語義表示方法。首先,模型使用BiLSTM對(duì)句子級(jí)信息進(jìn)行編碼,以捕獲句子內(nèi)部的細(xì)節(jié)和上下文語義信息。然后,通過maxpooling對(duì)這些句子編碼進(jìn)行整合,并使用Transformer模型強(qiáng)大的自注意力機(jī)制來捕獲句子之間的復(fù)雜關(guān)系和全文檔的上下文信息。此外,為了在更宏觀的層面上捕捉文檔的整體結(jié)構(gòu)和長距離依賴關(guān)系,直接對(duì)文檔使用Bi-LSTM進(jìn)行編碼,該編碼策略增強(qiáng)了不同粒度的上下文信息處理——從細(xì)粒度的句子級(jí)編碼到粗粒度的文檔級(jí)編碼,使模型不僅能夠理解每個(gè)句子內(nèi)的細(xì)節(jié)信息,同時(shí)也能夠把握整個(gè)文檔的結(jié)構(gòu),為文檔級(jí)事件抽取提供全面的信息支持。
具體來說,給定一個(gè)輸入的文檔D={Si}Ni=1,它由N個(gè)句子組成,其中Si={wj}Mj=1,每個(gè)句子由M個(gè)單詞序列組成。本文模型構(gòu)建了兩個(gè)子模塊(BiLSTMsent-Transformer和 BiLSTMdoc)分別進(jìn)行句子級(jí)和文檔級(jí)上下文表示。該模塊句子級(jí)的上下文表示為{(Si)1…(Si)j},文檔級(jí)的上下文表示為{(S1)1…(S1)j…(Si)1…(Si)j}。
1.1.1 基于句子級(jí)的文檔編碼
在句子級(jí)編碼子模塊中,首先采用BiLSTMsent依次對(duì)文檔中的每個(gè)句子進(jìn)行編碼,具體表示如下:
{(Si)1,(Si)2,…,(Si)j}=BiLSTMsent({(Si)1,(Si)2,(Si)j})(1)
其中:Si代表第i個(gè)句子;(Si)j表示第Si句子中的第j個(gè)詞嵌入。然后對(duì)所有句子內(nèi)的詞嵌入使用maxpooling方法后,使用Transformer對(duì)文檔中的所有詞嵌入和句子表示進(jìn)行編碼,得到基于句子級(jí)的文檔編碼,其中‖用來連接句子表示:
{(S1)1…(S1)j…(Si)1…(Si)j}=
Transformer({(S1)1…(S1)j…(Si)1…(Si)j‖Si})(2)
1.1.2 基于文檔級(jí)編碼
在文檔級(jí)子編碼模塊中,本文依然采用一個(gè)BiLSTM編碼器(BiLSTMdoc)應(yīng)用于整個(gè)文檔,以捕獲文檔中標(biāo)記間的依賴關(guān)系:
{P^(S1)1…P^(S1)j…P^(Si)1…P^(Si)j}=
BiLSTMdoc({(S1)1…(S1)j…(Si)1…(Si)j})(3)
其中:P^(Si)j是經(jīng)過編碼的文檔級(jí)上下文表示。
1.1.3 融合不同粒度的文檔編碼
為了融合在句子級(jí)((Si)j)和文檔級(jí)(P^(Si)j)學(xué)習(xí)到的語義信息,本文提出一種門控融合算法,融合局部語義信息和全局語義信息,具體如式(4)(5)所示。
g(Si)j=sigmoid(w1(Si)j+w2P^(Si)j+b)(4)
p(Si)j=g(Si)j⊙(Si)j+(1-g(Si)j)⊙(Si)j(5)
其中:符號(hào)⊙表示門控裝置;w1和w2是可訓(xùn)練參數(shù);g(Si)j是門控融合計(jì)算的門向量,該向量由句子級(jí)表示(Si)j和文檔級(jí)表示P^(Si)j組成,以控制從兩個(gè)表示中合并信息的多少;g(Si)j為最終標(biāo)簽序列。
1.2 候選論元識(shí)別
通過考慮標(biāo)簽之間的依賴關(guān)系,對(duì)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行全局約束,以生成最佳的標(biāo)簽序列。本文在上節(jié)網(wǎng)絡(luò)的輸出層之后添加了一個(gè)條件隨機(jī)場(chǎng)(conditional random fields,CRF)[17]層,用于對(duì)每個(gè)標(biāo)記位置的標(biāo)簽進(jìn)行歸一化概率計(jì)算。
最后,根據(jù)文獻(xiàn)[6],本文將融合不同粒度的文檔編碼進(jìn)行候選論元識(shí)別,建模為序列標(biāo)記任務(wù)。通過候選論元識(shí)別,從給定的句子Si中獲得候選論元集ε= {ei}|Na|i=1,|Na|為識(shí)別出的候選論元個(gè)數(shù)。論元抽取的訓(xùn)練目標(biāo)是最小化每個(gè)句子的負(fù)對(duì)數(shù)似然損失Lner,如式(6)所示。
Lner=-∑Si∈Dlog P(ySi|P(Si)j)(6)
其中:ySi是輸入序列Si的黃金標(biāo)簽序列;P(Si)j為預(yù)測(cè)的標(biāo)簽序列,在推理過程中,該文采用Viterbi[18]算法解碼最大概率標(biāo)簽序列。
本文在詞嵌入級(jí)層上采用最大池化(maxpooling)操作以獲得最終候選論元嵌入i,該方法已被文獻(xiàn)[6]證明了對(duì)下游子模塊有效。通過查找嵌入表將預(yù)測(cè)的論元類型轉(zhuǎn)換為向量。將論元ei與論元類型嵌入li拼接起來,得到論元提及表示i =(ei‖li)∈Euclid ExtraaBpda,其中da=dh+dl, dl表示li的維數(shù)。最后,對(duì)一個(gè)論元的所有提及表示進(jìn)行聚合,然后通過最大池化方法確定最終候選論元的標(biāo)簽序列。
1.3 滾雪球式的圖注意力網(wǎng)絡(luò)方法
為了更好地建模論元語義表示,本文使用了圖注意力網(wǎng)絡(luò)對(duì)論元集ε={i}|ε|i=1進(jìn)行局部編碼和全局編碼。
首先,根據(jù)文檔級(jí)事件抽取存在的知識(shí)進(jìn)行句內(nèi)論元語義交互和句間論元語義交互。句內(nèi)論元語義交互的依據(jù)是基于在同一句子中的論元更有可能是同一事件的論元的先驗(yàn)知識(shí)。句間論元語義交互的依據(jù)是包含相同論元的句子往往敘述相同的事件?;谝陨现R(shí)以及文獻(xiàn)[19],本文使用圖注意力網(wǎng)絡(luò)對(duì)實(shí)體集進(jìn)行局部編碼和全局編碼。
a)局部語義編碼。本文采用一個(gè)圖注意力網(wǎng)絡(luò),在不同句子中提取相同論元提及,然后將這些不同句子中的所有相關(guān)論元提及與當(dāng)前論元提及連接組成局部圖注意力網(wǎng)絡(luò)。例如,在圖2滾雪球式的圖注意力網(wǎng)絡(luò)方法中,候選論元A、B和C在同一句子中,B和D在同一句子中,E和F分別在另外的單獨(dú)句子中。由于B同時(shí)在兩個(gè)句子中,則對(duì)A、B、C和D四個(gè)候選論元進(jìn)行局部語義編碼。
b)全局語義編碼。與整個(gè)文檔中的論元進(jìn)行交互的方法可以在更宏觀的層面上理解事件的上下文,包括跨句子或跨段落的論元關(guān)系。同時(shí),在處理包含多個(gè)相互關(guān)聯(lián)事件的長文檔時(shí),能夠提供更豐富的語義信息,從而提高事件抽取的準(zhǔn)確性和效率。往往數(shù)據(jù)集中句子中出現(xiàn)的單個(gè)候選論元很大可能是起始日期或者結(jié)束日期,局部語義編碼無法獲取文檔全部的論元信息。為此,在全局語義編碼中候選論元的鄰接矩陣由它與所有的其他論元提及連接組成全局圖注意力網(wǎng)絡(luò)。
一般來說,GAT層的輸入是一個(gè)無向無權(quán)圖G =(V,E),鄰接矩陣F和G分別代表局部注意力網(wǎng)絡(luò)和全局注意力網(wǎng)絡(luò)的邊,節(jié)點(diǎn)屬性向量為論元集ε。本文用D′表示GAT輸出。為了獲得圖中不同節(jié)點(diǎn)對(duì)被關(guān)注節(jié)點(diǎn)的重要性,本文在圖中采用了注意力機(jī)制,注意力評(píng)分αij表示鄰居節(jié)點(diǎn)j對(duì)被關(guān)注節(jié)點(diǎn)i的重要程度:
αij=exp(σ(aT[Wi‖Wj]))∑k∈Niexp(σ(aT[Wi‖Wk]))(7)
其中:σ為LeakyReLU[20]激活函數(shù);a∈Euclid ExtraaBp2D′為全連通層;W∈Euclid ExtraaBpD′×D為權(quán)重矩陣;Ni為節(jié)點(diǎn)i的鄰居。
模型采用帶有K個(gè)頭的多頭注意機(jī)制從不同的表征子空間中捕獲更多的信息,得到最終實(shí)體集ε′={e′i}|ε|i=1,如式(8)所示。
e′i=σ(1k∑Kk=1∑j∈NiαkijWkj)(8)
其中:αkij表示第k個(gè)注意力機(jī)制計(jì)算得到的歸一化注意力系數(shù);Wk是相應(yīng)輸入線性變化的權(quán)重矩陣;e′i為平均K個(gè)頭的GAT輸出特征。
1.4 事件類型檢測(cè)
對(duì)于文檔D,本文遵循文獻(xiàn)[6],對(duì)每種事件類型進(jìn)行二元分類。將事件檢測(cè)Ldet的損失函數(shù)定義為二元交叉熵?fù)p失。通過對(duì)預(yù)測(cè)序列中每個(gè)句子表示P(Si)j作最大池化,獲得文檔中每個(gè)句子的文檔感知表示hSi。由于文檔中會(huì)包含多種事件類型,為了預(yù)測(cè)文檔中的事件類型,對(duì)文檔表示hSi上的每種事件類型進(jìn)行二元分類。這里將文檔感知表示hSi輸送到多個(gè)前饋網(wǎng)絡(luò)中,以判斷每個(gè)事件預(yù)測(cè)是否為空:
ydec=softmax(hSiWte)(9)
其中:Wte∈Euclid ExtraaBpd×2表示t種事件的可學(xué)習(xí)參數(shù),t∈T,T是數(shù)據(jù)集中所有預(yù)定義的事件類型。最后使用得到的預(yù)測(cè)值ydec和黃金數(shù)據(jù)yi求二元交叉熵?fù)p失函數(shù):
Ldec=-[yilog ydec+(1-yi)log(1-ydec)](10)
1.5 事件檢測(cè)
1.5.1 完全圖構(gòu)建
在文檔級(jí)事件抽取任務(wù)的研究中,傳統(tǒng)的觸發(fā)詞識(shí)別方法面臨著明顯的局限性,即單一句子或局部文本片段往往不足以準(zhǔn)確識(shí)別和分類復(fù)雜事件。這是因?yàn)槭录娜部赡芊稚⒃谖臋n的多個(gè)部分,包括跨句子甚至跨段落的信息。為了克服這些限制,本文提出了一個(gè)創(chuàng)新的模型設(shè)計(jì),結(jié)合了偽觸發(fā)器和完全圖的構(gòu)建,旨在全面捕捉文檔中的事件和論元之間的關(guān)系。
為此,本文模型引入了偽觸發(fā)器,即不依賴于傳統(tǒng)意義上的觸發(fā)詞,而且根據(jù)觸發(fā)器常有的兩個(gè)作用:a)觸發(fā)器可用于識(shí)別論元組合;b)觸發(fā)器可用于區(qū)分不同的論元組合,實(shí)現(xiàn)對(duì)論元間關(guān)系的全面捕捉,采用了完全圖的構(gòu)建方法。為此,本文設(shè)計(jì)了一個(gè)重要性分?jǐn)?shù)來評(píng)估論元可以作為偽觸發(fā)器的可能性。形式上,通過縮放點(diǎn)積[6]作為重要性分?jǐn)?shù):
ei=e′i×WTi+bi(11)
ej=e′j×WTj+bj(12)
Aij=eTiejdk(13)
其中:Aij表示相似度矩陣;Wi、Wj∈Euclid ExtraaBpda×da和bi、bj ∈Euclid ExtraaBpda是語義空間線性投影的可訓(xùn)練參數(shù)。對(duì)于論元集中的任意兩個(gè)偽觸發(fā)器a(i)t和a(j)t,它們是雙向連接的,其中相鄰矩陣y(i,j)A=y(j,i)A=1。對(duì)于論元集中的偽觸發(fā)器a(i)t和普通論元a(j)0,它們之間用一個(gè)定向鏈接連接,即y(i,j)A= 1。此外,每個(gè)論元a(i)都有一個(gè)自循環(huán)連接,即y(i,i)A=1。重要性分?jǐn)?shù)Aij作為預(yù)測(cè)分?jǐn)?shù),在訓(xùn)練中,本文使用二元交叉熵函數(shù)來表示組合損失:
Lcomb=-1|A|∑j∑i[y(i,j)Alog Aij+(1-y(i,j)A)log(1-Aij)](14)
在重要性分?jǐn)?shù)Aij中,通過式(15)確定候選論元之間的聯(lián)系,其中γ為閾值。
ij=1 Aij≥γ0otherwise(15)
1.5.2 非自回歸組合解碼
基于預(yù)測(cè)的相鄰矩陣ij,使用非自回歸解碼算法提取事件論元組合。本文采用文獻(xiàn)[11]提出的方法,首先,通過分析節(jié)點(diǎn)的出度信息,可以識(shí)別所有的偽觸發(fā)器,并將它們組成一個(gè)集合。偽觸發(fā)器是指具有非零出度(除了自循環(huán))的論元。對(duì)于只有一個(gè)偽觸發(fā)器的情況,所有的組合都是以該偽觸發(fā)器為中心的樹結(jié)構(gòu)。對(duì)于偽觸發(fā)器數(shù)量大于1的情況,采用Brown-Kerbosch(BK)算法[21]來查找所有可能的集合。這樣可以對(duì)事件觸發(fā)器進(jìn)行更準(zhǔn)確的識(shí)別和分類。
在每個(gè)集合中,本文利用偽觸發(fā)器的鄰居節(jié)點(diǎn)執(zhí)行交集操作,以找到共同共享的普通論元。普通論元是指在集合中不是偽觸發(fā)器的普通論元。通過提取普通論元,可以更全面地描述事件,并捕捉到不同論元之間的關(guān)系和聯(lián)系。通過這種組合方式,可以建立事件的整體框架結(jié)構(gòu),并進(jìn)一步推斷和預(yù)測(cè)事件的其他屬性。由于非自回歸解碼不涉及基于DAG的多步驟圖鏈接依賴,所以該方法具有較快的訓(xùn)練和推理速度。
1.5.3 事件記錄生成
從修剪的完全圖中獲得論元組合集之后,下一步是將這些組合填充到事件表中,使所有的組合都與事件類型和論元角色匹配。本文遵從文獻(xiàn)[11],對(duì)于所有事件類型TP={tj}|Tp|j=1和論元角色組合C,執(zhí)行笛卡爾積,得到所有類型組合對(duì){〈tj,rk〉|1≤j≤|TP|,1≤k≤|C|}。對(duì)于每一對(duì)〈tj,rk〉,使用事件相關(guān)的前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network,F(xiàn)NN)作為分類器來獲得角色rk中所有論元εk的可能論元角色。損失函數(shù)采用二元交叉熵函數(shù),如式(16)(17)所示。
p(j)role(tj|rk)=sigmoid(FFNj(εk))(16)
Lrole=-∑k∑i[y(j,k)rolelog p(j)role(tj|rk)+(1-y(j,k)role)log(1-log p(j)role(tj|rk))](17)
其中:y(j,k)role角色是最符合ck的黃金答案。為了適應(yīng)角色分類的損失計(jì)算,每個(gè)預(yù)測(cè)組合都使用黃金組合進(jìn)行評(píng)估,它們具有相同的事件類型和相同的參數(shù)。其余不匹配的論元不參與損失計(jì)算。
1.6 優(yōu)化
MGR-PTPCG模型是一個(gè)端到端的模型,在訓(xùn)練時(shí)采用聯(lián)合訓(xùn)練策略[22]。總損失為所有損失的加權(quán)和,表示為
Lall=λ1Lner+λ2Ldet+λ3Lcomb+λ4Lrole(18)
其中:λ1、λ2、λ3、λ4是超參數(shù),用于平衡各種損失。
2 實(shí)驗(yàn)
2.1 數(shù)據(jù)集
本文使用文獻(xiàn)[6]的公共數(shù)據(jù)集ChFinAnn和百度發(fā)布的金融領(lǐng)域數(shù)據(jù)集DuEE-Fin來評(píng)估本文模型。其中ChFinAnn數(shù)據(jù)集采用大量的金融文本構(gòu)建。它由32 040個(gè)文檔組成,是迄今為止最大的文檔級(jí)事件抽取數(shù)據(jù)集。它主要關(guān)注股權(quán)凍結(jié)(EF)、股權(quán)回購(ER)、股權(quán)減持(EU)、股權(quán)增持(EO)和股權(quán)質(zhì)押(EP)五種事件類型,共有35種不同的論元角色。本文遵循數(shù)據(jù)集的標(biāo)準(zhǔn)分割,根據(jù)8∶1∶1的比例劃分了訓(xùn)練集、驗(yàn)證集和測(cè)試集。在該數(shù)據(jù)集中,每個(gè)文檔大約包含20個(gè)句子,平均由912個(gè)詞組成。每個(gè)事件記錄平均涉及6句話,29%的文檔包含了多個(gè)事件。DuEE-Fin共包含13個(gè)已定義好的事件類型和1.15萬篇中文篇章(存在部分非目標(biāo)篇章作為負(fù)樣例),其中6 900個(gè)作為訓(xùn)練集,1 150個(gè)作為驗(yàn)證集,3 450個(gè)作為測(cè)試集。
2.2 實(shí)驗(yàn)設(shè)置與實(shí)現(xiàn)方法
實(shí)驗(yàn)環(huán)境:Intel Xeon Platinum 8358P CPU @ 2.60 GHz 100 GB內(nèi)存,Linux,GPU處理器為4塊RTX 3090(24 GB)的獨(dú)立顯卡。
a)實(shí)現(xiàn)方法與模型架構(gòu)設(shè)置。本文模型使用PyTorch框架實(shí)現(xiàn)。MGR-PTPCG模型包括基于多粒度閱讀器的語義表示、候選論元識(shí)別、滾雪球式的圖注意力網(wǎng)絡(luò)方法、事件類型檢測(cè)和事件檢測(cè)五個(gè)子模塊?;诙嗔6乳喿x器的語義表示模塊采用兩層BiLSTM進(jìn)行文檔級(jí)編碼,使用兩層BiLSTM進(jìn)行句子級(jí)編碼,同時(shí)使用兩層Transformer對(duì)經(jīng)過maxpooling的句子進(jìn)行句子級(jí)編碼,使用門控機(jī)制融合文檔級(jí)編碼和句子級(jí)編碼,以便進(jìn)行事件檢測(cè)和論元提取。候選論元識(shí)別模塊將經(jīng)過CRF得到的實(shí)體論元與實(shí)體論元類型拼接得到候選論元集。滾雪球式的圖注意力網(wǎng)絡(luò)模塊采用了兩個(gè)圖注意網(wǎng)絡(luò)組成的局部注意力和全局注意力進(jìn)行論元編碼,通過門控機(jī)制動(dòng)態(tài)融合論元上下文信息。事件類型檢測(cè)模塊中,使用softmax對(duì)經(jīng)過多粒度閱讀器的語義表示的句子進(jìn)行二元分類,確定事件類型。事件檢測(cè)模塊中,對(duì)候選論元集進(jìn)行縮放點(diǎn)積作為重要性分?jǐn)?shù),γ為閾值確定候選論元之間的聯(lián)系,生成完全圖。對(duì)所有事件類型和論元角色通過笛卡爾積作組合,對(duì)每個(gè)類型與角色對(duì)使用FFFM2NIozSOZfNCQIXjL4DHjGrgJ4OH/N7mwU+UHSLU+A=N作分類器來獲得符合該角色的候選論元。
b)參數(shù)設(shè)置。圖注意力網(wǎng)絡(luò)用了八個(gè)多頭注意力,輸入維度為800,激活函數(shù)采用LeakyReLU函數(shù)。使用與文獻(xiàn)[6]相同的詞匯表,并隨機(jī)初始化dh=768和dl=32的所有嵌入。使用Adam[23] 優(yōu)化器,學(xué)習(xí)率為5E-4, 批量訓(xùn)練大小為32。λ1、λ2、λ3、λ4的權(quán)重分別為0.05、1.0、1.0、1.0,γ為0.5。按照文獻(xiàn)[6]的設(shè)置,本文訓(xùn)練了100個(gè)epoch。
2.3 基線模型
為了驗(yàn)證本文模型的有效性,本實(shí)驗(yàn)采用的基線模型如下:
a)DCFEE[4]:提出了一種關(guān)鍵事件檢測(cè)方法,以指導(dǎo)事件表,該事件表中填充了來自關(guān)鍵事件提及和周圍句子的論元。DCFEE有兩個(gè)版本,DCFEE-o只從一個(gè)文檔中提取一個(gè)事件,而DCFEE-m是從一個(gè)文檔中提取多個(gè)事件。
b)Doc2EDAG[6]:提出了一種DEE的端到端模型,該模型將DEE轉(zhuǎn)換為基于實(shí)體路徑擴(kuò)展填充事件表的事件抽取模式。有一個(gè)簡(jiǎn)單的Doc2EDAG基線,名為GreedyDec,它只貪婪地填充一個(gè)事件表?xiàng)l目。
c)PTPCG[11]:使用非自回歸解碼算法,對(duì)在自動(dòng)選擇的偽觸發(fā)器的指導(dǎo)下構(gòu)造的剪枝完全圖進(jìn)行事件論元組合提取。
d)MEHG[9]:提出一種結(jié)合句子級(jí)和段落級(jí)的文檔級(jí)實(shí)體抽取,并利用圖卷積神經(jīng)網(wǎng)絡(luò)來增強(qiáng)對(duì)文檔的上下文感知,之后使用與GIT相同的實(shí)體路徑擴(kuò)展填充時(shí)的事件抽取模式。
e)DE-RCGNN[14]:提出一種結(jié)合閱讀理解和圖神經(jīng)網(wǎng)絡(luò)的模型來解決篇章級(jí)事件抽取中的挑戰(zhàn),利用論元角色先驗(yàn)信息和篇章級(jí)信息來提高事件元素抽取的準(zhǔn)確性和整體性能。
2.4 評(píng)估模型
本文采用了Doc2EDAG模型使用的評(píng)價(jià)準(zhǔn)則,并選擇在開發(fā)集上F1得分最高的檢查點(diǎn)在測(cè)試集上進(jìn)行評(píng)估。具體來說,對(duì)于每個(gè)篇章的所有黃金事件,采用不放回的方式預(yù)測(cè)事件類型相同且論元角色正確數(shù)量最多的事件,并以此作為模型的預(yù)測(cè)結(jié)果,分別采用精度(P)、召回率(R)和F1值(F1分?jǐn)?shù))進(jìn)行評(píng)測(cè)。由于事件類型通常包括多個(gè)角色,所以論元角色評(píng)測(cè)采用Micro-F1指標(biāo)。 計(jì)算過程如式(19)~(21)所示。
p=nrightargpredarg s(19)
R=nrightarggoldarg s(20)
F1=2×precision×recallprecision+recall(21)
其中:nrightarg是指事件類型相同且論元角色正確的數(shù)量;predarg s是所有預(yù)測(cè)論元的數(shù)量;gold arg s是所有黃金論元的數(shù)量。
2.5 實(shí)驗(yàn)結(jié)果
2.5.1 在ChFinAnn數(shù)據(jù)集上的實(shí)驗(yàn)
本文首先在ChFinAnn的測(cè)試集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。從結(jié)果可以看出:MGR-GATPCG模型在大部分事件類型上均取得了最好的F1值;與MEHG模型相比,在EF、ER、EU、EP 上的F1值分別提高了1.1、0.3、0.7、0.7百分點(diǎn),與DE-RCGNN模型相比,本文模型在EF、ER、EU、EP上的F1分別提高了1.1、1.3、2.1、0.4百分點(diǎn)。這一性能的提升主要?dú)w因于本文模型融合了句子級(jí)和文檔級(jí)的語義信息,以及它有效地利用圖注意力網(wǎng)絡(luò)獲取更全面的語義信息。模型特別在EF、ER、EU、EP事件類型上展現(xiàn)出優(yōu)越的性能,這證明了其在捕獲文檔中復(fù)雜事件結(jié)構(gòu)和細(xì)節(jié)方面的有效性。尤其是,在處理那些跨句子或跨段落的事件時(shí),本文模型能夠更準(zhǔn)確地識(shí)別和鏈接相關(guān)的信息,從而提高了事件抽取的準(zhǔn)確度。雖然在EO任務(wù)上,本文模型性能并未達(dá)到最佳,分析原因可能包括非自回歸模型在論元角色和論元交互生成任務(wù)上的訓(xùn)練難度較高,以及ChFinAnn數(shù)據(jù)集在EO任務(wù)上的占比最高,導(dǎo)致模型容易過擬合。
2.5.2 基于預(yù)測(cè)論元vs基于黃金論元的實(shí)驗(yàn)比較
為了證明論元質(zhì)量對(duì)事件抽取效果的影響,本文將采用黃金論元代替預(yù)測(cè)論元進(jìn)行事件檢測(cè)和論元識(shí)別任務(wù),比較不同模型使用預(yù)測(cè)論元和黃金論元時(shí)的F1值。從實(shí)驗(yàn)結(jié)果表2可以看出,當(dāng)采用黃金論元替代預(yù)測(cè)論元進(jìn)行事件檢測(cè)和論元識(shí)別任務(wù)時(shí),所有模型的性能都有所提高。這一點(diǎn)在模型中表現(xiàn)尤為明顯,其采用黃金論元得到的F1值達(dá)到了87.6%,不僅高于其他模型,而且比采用預(yù)測(cè)論元時(shí)高出了6.1百分點(diǎn)。這一結(jié)果強(qiáng)調(diào)了優(yōu)化論元識(shí)別精度的重要性。模型通過引入多粒度閱讀器和圖注意網(wǎng)絡(luò),有效提高了論元識(shí)別的準(zhǔn)確性,并增強(qiáng)了論元對(duì)的語義編碼,從而在采用預(yù)測(cè)論元時(shí)就已經(jīng)展現(xiàn)出了較高的性能。此外,滾雪球式的圖注意網(wǎng)絡(luò)方法進(jìn)一步增強(qiáng)了模型處理黃金論元時(shí)的性能,使其在論元質(zhì)量較高時(shí)能夠更好地捕捉事件的復(fù)雜性和細(xì)節(jié),從而提高了事件抽取的整體效果。
2.5.3 單事件和多事件抽取實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文模型在ChFinAnn數(shù)據(jù)集上的每種事件類型下的F1綜合表示,對(duì)文檔級(jí)事件抽取任務(wù)的性能,本文將數(shù)據(jù)集分為單事件(S)和多事件(M)進(jìn)行實(shí)驗(yàn)。具體方法是根據(jù)文檔的索引對(duì)事件類型進(jìn)行標(biāo)記,單事件表示一個(gè)文檔只涉及一個(gè)事件類型,而多事件表示一個(gè)文檔涉及多個(gè)同類型或不同類型的事件,實(shí)驗(yàn)結(jié)果如表3所示。
所有模型在處理單事件文檔時(shí)的性能普遍優(yōu)于多事件文檔。這一現(xiàn)象表明,文檔中事件數(shù)量的增加給事件抽取任務(wù)帶來了額外的復(fù)雜性。特別是對(duì)于多事件文檔,事件之間可能存在相互作用和依賴,這要求模型不僅要能夠識(shí)別出事件本身,還要準(zhǔn)確理解和表示這些事件之間的關(guān)系。
特別是在處理多事件文檔上,本文模型的優(yōu)勢(shì)更為明顯。這一結(jié)果可能歸因于模型采用了多粒度閱讀器語義表示和滾雪球式的圖注意網(wǎng)絡(luò),這些技術(shù)提高了模型對(duì)文檔中不同粒度信息的捕獲能力,以及對(duì)事件之間復(fù)雜關(guān)系的建模能力。多粒度閱讀器能夠從不同層次上理解文檔,捕獲從細(xì)節(jié)到整體的不同信息,這對(duì)于識(shí)別和區(qū)分文檔中的單個(gè)或多個(gè)事件至關(guān)重要。滾雪球式的圖注意力網(wǎng)絡(luò)通過動(dòng)態(tài)構(gòu)建和更新論云之間的關(guān)系圖,有效地增強(qiáng)了模型對(duì)論元間復(fù)雜相互作用的理解。這種方法有助于處理包含多個(gè)相關(guān)事件的復(fù)雜文檔。
2.5.4 在DuEE-Fin數(shù)據(jù)集上的實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文模型的通用性,本文也在DuEE-Fin數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。
從結(jié)果看,本文模型在驗(yàn)證集和測(cè)試集上都取得了最優(yōu)的性能,這表明該模型在準(zhǔn)確性、完整性和泛化能力方面均表現(xiàn)出色。這是由于模型可能采用了多粒度閱讀器,能夠同時(shí)捕獲句子級(jí)和文檔級(jí)的信息,從而提高了對(duì)文檔全局語義的理解能力。這使得模型在處理論元分散和多事件問題時(shí)更為有效。通過圖注意力網(wǎng)絡(luò),模型能夠捕獲論元對(duì)之間的復(fù)雜語義關(guān)系,全面豐富的語義表示有助于模型更準(zhǔn)確地理解和抽取與事件相關(guān)的信息。
2.5.5 消融實(shí)驗(yàn)
為了進(jìn)一步評(píng)估模型各個(gè)模塊的貢獻(xiàn),本文進(jìn)行了以下的消融實(shí)驗(yàn),結(jié)果如表5所示。其中,-MG-reader表示去掉多粒度閱讀器;-part GAT表示去掉局部圖注意網(wǎng)絡(luò);-global GAT表示去掉全局圖注意網(wǎng)絡(luò)。
從表5的實(shí)驗(yàn)結(jié)果可以看出,在MGR-GATPCG模型的基礎(chǔ)上去掉多粒度閱讀器的語義表示模塊后,EF、ER、EU、EO、EP的F1值分別下降了3.1、2.1、2.7、1.7、1.8百分點(diǎn),反映了多粒度閱讀器在提升文檔編碼的精細(xì)度和論元識(shí)別精度方面的關(guān)鍵作用。多粒度閱讀器通過捕捉文檔不同層次的語義信息,為模型提供了豐富的上下文表示,從而增強(qiáng)了模型對(duì)事件結(jié)構(gòu)和論元關(guān)系的理解。去掉局部GAT模塊后,EF、ER、EU、EO、EP的F1值分別下降了8.2、9.0、8.4、7.5、8.1百分點(diǎn),F(xiàn)1值下降最多,局部GAT在促進(jìn)句內(nèi)論元與句間論元之間的語義編碼和相互作用中發(fā)揮了至關(guān)重要的作用。局部GAT通過精細(xì)化的注意力機(jī)制,強(qiáng)化了模型對(duì)于句內(nèi)外論元關(guān)系的捕捉,對(duì)于維護(hù)事件的內(nèi)部一致性和上下文關(guān)聯(lián)性至關(guān)重要。去掉全局GAT模塊后,EF、ER、EU、EO、EP的F1值分別下降了5.1、6.5、5.5、6.1、6.8百分點(diǎn)。全局GAT的去除雖然對(duì)模型性能的影響略小于局部GAT,但仍然十分顯著,特別是在提供全局語義信息和支持跨句子論元關(guān)系構(gòu)建方面。全局GAT通過整合文檔級(jí)別的信息,確保了模型能夠理解和利用跨越多個(gè)句子的論元關(guān)系,對(duì)于處理文檔中分散的、跨句子的論元及其相互作用極為關(guān)鍵。
2.6 案例分析
為了進(jìn)一步分析所提模型的效果,對(duì)本文模型MGR-GATPCG和PTPCG模型的圖1股權(quán)質(zhì)押(event pledge,EP)事件案例預(yù)測(cè)結(jié)果進(jìn)行比較,如圖3所示。從圖中可以看出本文模型正確預(yù)測(cè)了持有股份總數(shù)、總持有比率、質(zhì)押股份總數(shù)和起始日期的事件記錄,而PTPCG預(yù)測(cè)不到起始日期、總持有比率等事件論元角色。將PTPCG模型的錯(cuò)誤預(yù)測(cè)歸為兩類。首先,PTPCG未能充分考慮更多的上下文信息,降低了論元識(shí)別的精度,影響了最終事件抽取的效果;其次,PTPCG未能充分提取跨句之間論元的交互,不能幫助論元對(duì)獲取更多語義信息。本文模型通過基于多粒度閱讀器的語義表示和滾雪球的圖注意力網(wǎng)絡(luò)方法提升了論元識(shí)別的精度,從而促進(jìn)了論元對(duì)的語義交互,提升了事件抽取的性能。
3 結(jié)束語
本文提出了一種基于多粒度閱讀器的語義表示模型對(duì)文檔進(jìn)行不同粒度的編碼,以獲取更細(xì)致的語義信息,進(jìn)而改善因抽取特征不充分而造成的事件類型及論元標(biāo)簽錯(cuò)誤問題;采用滾雪球式的圖注意網(wǎng)絡(luò)方法對(duì)論元對(duì)進(jìn)行局部編碼和全局編碼,增強(qiáng)了事件抽取的上下文語義表示,從而提升了論元識(shí)別和事件抽取性能。大量實(shí)驗(yàn)對(duì)比證明了本文模型的有效性。未來的工作中,將會(huì)進(jìn)一步探索外部知識(shí)在事件抽取和論元識(shí)別任務(wù)上的應(yīng)用。
參考文獻(xiàn):
[1]朱藝娜, 曹陽, 鐘靖越, 等. 事件抽取技術(shù)研究綜述[J]. 計(jì)算機(jī)科學(xué), 2022,49(12): 264-273. (Zhu Yina, Cao Yang, Zhong Jingyue, et al. A review of event extraction technology[J]. Compu-ter Science, 2022, 49(12): 264-273.)
[2]趙宇豪, 陳艷平, 黃瑞章, 等. 基于跨度回歸的中文事件觸發(fā)詞抽?。跩]. 應(yīng)用科學(xué)學(xué)報(bào), 2023,41(1): 95-106. (Zhao Yuhao, Chen Yanping, Huang Ruizhang, et al. Chinese event triggered word extraction based on span regression[J]. Journal of Applied Science, 2023, 41(1): 95-106.)
[3]王人玉, 項(xiàng)威, 王邦, 等. 文檔級(jí)事件抽取研究綜述[J]. 中文信息學(xué)報(bào), 2023, 37(6): 1-14. (Wang Renyu, Xiang Wei, Wang Bang, et al. A review of research on document level event extraction[J]. Journal of Chinese Information Processing, 2023, 37(6): 1-14.)
[4]Hang Yang, Chen Yubo, Liu Kang, et al. DCFEE: a document-level Chinese financial event extraction system based on automatically labeled training data[C]//Proc of ACL 2018, System Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2018: 50-55.
[5]O’Shea K, Nash R. An introduction to convolutional neural networks [EB/OL]. (2015-12-02). https://arxiv.org/abs/1511.08458.
[6]Zheng Shun, Cao Wei, Xu Wei, et al. Doc2EDAG: an end-to-end document-level framework for Chinese financial event extraction[EB/OL]. (2019-09-23). https://arxiv.org/abs/1904.07535.
[7]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [EB/OL]. (2023-08-02). https://arxiv.org/abs/1706.03762.
[8]Xu Runxin, Liu Tianyu, Li Lei, et al. Document-level event extraction via heterogeneous graph-based interaction model with a tracker[EB/OL]. (2021-05-31). https://arxiv.org/abs/2105.14924.
[9]張虎, 張廣軍. 基于多粒度實(shí)體異構(gòu)圖的篇章級(jí)事件抽取方法[J]. 計(jì)算機(jī)科學(xué), 2023, 50(5): 255-261. (Zhang Hu, Zhang Guangjun. Document-level event extraction based on multi-granularity entity heterogeneous graph[J]. Computer Science, 2023, 50(5): 255-261.)
[10]徐冰冰, 岑科廷, 黃俊杰, 等. 圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2020, 43(5): 755-780. (Xu Bingbing, Cen Keting, Huang Junjie, et al. Overview of graph convolutional neural networks[J]. Journal of Computer Science, 2020, 43(5): 755-780.)
[11]Zhu Tong, Qu Xiaoye, Chen Wenliang, et al. Efficient document-level event extraction via pseudo-trigger-aware pruned complete graph[EB/OL]. (2022-10-04). https://arxiv.org/abs/2112.06013.
[12]Sepp H, Jürgen S. Long short-term memory[J]. Neural Computer, 1997, 9(8): 1735-1780.
[13]葛君偉, 喬蒙蒙, 方義秋. 基于上下文融合的文檔級(jí)事件抽取方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(1): 48-53. (Ge Junwei, Qiao Mengmeng, Fang Yiqiu. Document level event extraction method based on context fusion[J]. Application Research of Computers, 2022, 39(1): 48-53.)
[14]張亞君, 譚紅葉. 基于閱讀理解與圖神經(jīng)網(wǎng)絡(luò)的篇章級(jí)事件抽?。跩]. 中文信息學(xué)報(bào), 2023, 37(8): 95-103. (Zhang Yajun, Tan Hongye. Document-level event extraction based on reading comprehension and graph neural networks[J]. Journal of Chinese Information Processing, 2023, 37(8): 95-103.)
[15]Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL]. (2017-10-30). https://arxiv.org/abs/1710.10903.
[16]陳佳麗, 洪宇, 王捷, 等. 利用門控機(jī)制融合依存與語義信息的事件檢測(cè)方法[J]. 中文信息學(xué)報(bào), 2020, 34(8): 51-60. (Chen Jiali, Hong Yu, Wang Jie, et al. Combination of dependency and semantic information via gated mechanism for event detection[J]. Journal of Chinese Information Processing, 2020, 34(8): 51-60.)
[17]Lafferty J D, McCallum A, Pereira F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proc of the 18th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann Publishers Inc., 2001: 282-289.
[18]Forney G D. The Viterbi algorithm[J]. Proc of the IEEE, 1973, 61(3): 268-278.
[19]Huang Yusheng, Jia Weijia. Exploring sentence community for document-level event extraction[M]//Moens M F, Huang Xuanjing, Specia L, et al. Findings of the Association for Computational Linguistics: EMNLP 2021. Stroudsburg, PA: Association for Computational Linguistics, 2021: 340-351.
[20]Xu Bing, Wang Naiyan, Chen Tianqi, et al. Empirical evaluation of rectified activations in convolutional network[EB/OL]. (2015-05-05). https://arxiv.org/abs/1505.00853.
[21]Bron C, Kerbosch J. Algorithm 457: finding all cliques of an undirected graph[J]. Communications of the ACM, 1973, 16(9): 575-577.
[22]Bengio S, Vinyals O, Jaitly N, et al. Scheduled sampling for sequence prediction with recurrent neural networks[EB/OL]. (2015-06-09). https://arxiv.org/abs/1506.03099.
[23]Kinga D P, Ba J. A method for stochastic optimization[EB/OL]. (2014-12-22). https://arxiv.org/abs/1412.6980.