摘" 要: 針對(duì)復(fù)雜語境中存在多義詞或上下文聯(lián)系不強(qiáng)的實(shí)體,導(dǎo)致模型難以正確識(shí)別其關(guān)系的問題,提出一種基于BERT和聯(lián)合解碼的實(shí)體關(guān)系抽取模型。該模型首先采用BERT對(duì)實(shí)體進(jìn)行語義編碼,提取出實(shí)體的上下文信息;然后,利用自注意力機(jī)制標(biāo)記出頭實(shí)體,并對(duì)尾實(shí)體進(jìn)行預(yù)測;最后,設(shè)計(jì)聯(lián)合解碼機(jī)制,結(jié)合實(shí)體語義信息和關(guān)系抽取任務(wù)進(jìn)行聯(lián)合解碼。實(shí)驗(yàn)結(jié)果表明,與基準(zhǔn)模型相比,所提模型在紐約時(shí)報(bào)(NYT)數(shù)據(jù)集和WebNLG數(shù)據(jù)集上的準(zhǔn)確率和F1值均有所提高,能夠有效地提高實(shí)體關(guān)系提取的準(zhǔn)確性。
關(guān)鍵詞: 實(shí)體關(guān)系抽??; 實(shí)體語義; BERT; 聯(lián)合編碼; 自注意力機(jī)制; 知識(shí)圖譜
中圖分類號(hào): TN919.5?34; TP391.1" " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " 文章編號(hào): 1004?373X(2024)14?0041?05
Joint decoding for entity relation extraction with integrated entity semantics
ZHANG Xin1, ZHANG Sijia1, 2, 3
(1. College of Information Engineering, Liaoning Provincial Key Laboratory of Marine Information Technology, Dalian Ocean University, Dalian 116023, China;
2. MOE Key Laboratory of Environment Controlled Aquaculture, Dalian Ocean University, Dalian 116023, China;
3. Dalian Key Laboratory of Smart Fisheries, Dalian 116023, China)
Abstract: In allusion to the problem of polysemous words or entities with weak contextual connections in complex contexts, which makes it difficult for the model to recognize their relationships correctly, an entity relationship extraction model based on BERT and joint decoding is proposed. In this model, the BERT (bidirectional encoder representations from transformers) is used to semantically encode entities and extract their contextual information. Then, the self attention mechanism is used to label the head entity and predict the tail entity. A joint decoding mechanism is designed to combine entity semantic information and relationship extraction tasks for joint decoding. The experimental results show that, in comparison with the benchmark model, the proposed model can improve the accuracy and F1 value on the New York times (NYT) dataset and WebNLG dataset, effectively improving the accuracy of entity relationship extraction.
Keywords: entity relation extraction; entity semantics; BERT; joint decoding; self attention mechanism; knowledge graph
0" 引" 言
知識(shí)圖譜是用于表示實(shí)體及其關(guān)系的圖結(jié)構(gòu),它以圖的形式描述和展示知識(shí)的結(jié)構(gòu)、關(guān)系和過程。實(shí)體關(guān)系抽取作為構(gòu)建知識(shí)圖譜的關(guān)鍵技術(shù),是指從文本中識(shí)別并抽取實(shí)體之間三元組關(guān)系[1]的過程。這些三元組所蘊(yùn)含的語義信息,為構(gòu)建大規(guī)模知識(shí)圖譜奠定了堅(jiān)實(shí)基礎(chǔ)。確保實(shí)體和關(guān)系的精確提取,對(duì)保障知識(shí)圖譜的質(zhì)量至關(guān)重要。
目前,基于深度學(xué)習(xí)的有監(jiān)督關(guān)系抽取方法主要分成兩種:流水線方法和聯(lián)合抽取方法[2]。Chan Y S等人使用流水線方法先識(shí)別輸入語句中的實(shí)體,再將實(shí)體組合并對(duì)其進(jìn)行關(guān)系分類[3]。此外,不少基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法也沿用了流水線方式。然而,該方法忽略了實(shí)體抽取與關(guān)系抽取任務(wù)之間的相互依賴性,容易導(dǎo)致由實(shí)體識(shí)別錯(cuò)誤引發(fā)關(guān)系抽取任務(wù)誤差傳遞的問題。同時(shí),實(shí)體識(shí)別和關(guān)系抽取環(huán)節(jié)之間缺乏交互聯(lián)系,這限制了準(zhǔn)確率的進(jìn)一步提升。
針對(duì)上述問題,一些研究開始探索聯(lián)合抽取方法。這種方法將實(shí)體識(shí)別和關(guān)系抽取兩項(xiàng)任務(wù)緊密結(jié)合,旨在減少因?qū)嶓w抽取導(dǎo)致的關(guān)系錯(cuò)誤。Ma Y等人提出了一種聯(lián)合命名實(shí)體識(shí)別和關(guān)系抽取方法,通過BERT的雙向編碼器增強(qiáng)了填充方法[4]。Wang T提出了一種分布式實(shí)體關(guān)系聯(lián)合提取框架,可以在聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)的任何候選節(jié)點(diǎn)上進(jìn)行模型訓(xùn)練,而無需從其他節(jié)點(diǎn)收集數(shù)據(jù)[5]。Zhao X Y等人提出了實(shí)體和關(guān)系相互聯(lián)系的方法,但只能在訓(xùn)練時(shí)訪問特征,作為關(guān)系抽取的特征[6]。Zheng S等人提出了一種標(biāo)注框架,將實(shí)體關(guān)系抽取轉(zhuǎn)化為端到端序列標(biāo)注問題,實(shí)現(xiàn)了聯(lián)合解碼同時(shí)抽取實(shí)體和關(guān)系,并直接在實(shí)體關(guān)系三元組層面進(jìn)行建模[7]。
然而,由于端到端的序列標(biāo)注方式采用就近組合的思想,導(dǎo)致其無法解決實(shí)體關(guān)系重疊的問題[8]。為了解決這一問題,一些研究提出了新的框架和模型,如CasRel和SPN模型等[9?10],但它們?cè)趯?shí)體間聯(lián)系和交互方面仍有待優(yōu)化。
面對(duì)這些挑戰(zhàn),本文提出了一種融合實(shí)體語義的實(shí)體關(guān)系聯(lián)合解碼模型。該模型采用聯(lián)合解碼的策略來提高實(shí)體和關(guān)系的識(shí)別準(zhǔn)確率,并加強(qiáng)它們之間的聯(lián)系。首先利用BERT編碼器深入挖掘?qū)嶓w和句子中的語義信息;然后,利用自注意力機(jī)制標(biāo)記出頭實(shí)體并對(duì)尾實(shí)體預(yù)測;最后通過創(chuàng)新的聯(lián)合解碼機(jī)制,從語義計(jì)算的角度計(jì)算它們之間的語義相似度,從而精準(zhǔn)地輸出一個(gè)三元組。在公開數(shù)據(jù)集NYT和WebNLG上的實(shí)驗(yàn)結(jié)果及與現(xiàn)有方法相比,本文提出的方法在準(zhǔn)確率和F1值方面均表現(xiàn)出良好的性能,證明了該方法的有效性。
1" 融合語義的實(shí)體關(guān)系聯(lián)合解碼
模型的實(shí)體關(guān)系抽取總體結(jié)構(gòu)如圖1所示。首先,將語句輸入預(yù)訓(xùn)練模型BERT中進(jìn)行編碼,提取出上下文信息和句子語義;然后,通過自注意力機(jī)制提取出頭實(shí)體和尾實(shí)體的語義,作為融合特征向量;最后,通過聯(lián)合解碼框架將實(shí)體語義和關(guān)系語義與句子語義結(jié)合,確定輸入語句中實(shí)體所在位置和實(shí)體間的關(guān)系。
1.1" 問題定義
本文對(duì)數(shù)據(jù)中每個(gè)句子作為一個(gè)語義單元,定義長度不超過512個(gè)字符且包含實(shí)體的短文本作為句子。假設(shè)訓(xùn)練集為S={s1,s2,…,sn},其中n表示訓(xùn)練集句子數(shù)量,[si]表示第i個(gè)句子。本文訓(xùn)練一個(gè)基于句子語義的關(guān)系提取器,然后標(biāo)記出頭實(shí)體并根據(jù)頭實(shí)體和關(guān)系預(yù)測尾實(shí)體,最后判斷句子中的實(shí)體存在何種關(guān)系。故定義[w]與[j]分別為頭實(shí)體和尾實(shí)體,且[w∈si]、[j∈si],其中“[∈]”表示實(shí)體來源于句子。
1.2" 數(shù)據(jù)嵌入表示
選用BERT(Bidirectional Encoder Representations from Transformers)作為預(yù)訓(xùn)練模型,它是一個(gè)基于Transformer的預(yù)訓(xùn)練模型,其目的是通過雙向訓(xùn)練對(duì)輸入語句中的每個(gè)字符的上下文聯(lián)合條件作用來學(xué)習(xí)深度表征,模型結(jié)構(gòu)方面主要是對(duì)Transformer的n次堆疊。首先定義句子的嵌入方式為:
[vCLSivi=Bert(si)]" " " " " " (1)
式中:[vi]表示句子[si]的嵌入向量值;[vCLSi]表示輸入句子[si]的CLS位對(duì)應(yīng)向量表示。將[si]進(jìn)行BERT編碼后得到模型的的輸入向量[vi]和[vCLSi]。圖2為BERT編碼后的模型結(jié)構(gòu)。
1.3" 標(biāo)記頭實(shí)體
頭實(shí)體標(biāo)記階段是對(duì)BERT編碼后的語句序列進(jìn)行解碼,并對(duì)頭實(shí)體的開始和結(jié)束位置進(jìn)行二元標(biāo)記,1表示頭實(shí)體的開始或結(jié)束位置,0表示不是,具體公式如下:
[pstart_wt=sigmoid(Sstart_wvi+bstart_w)]" "(2)
[pend_wt=sigmoid(Send_wvi+bend_w)]" " (3)
式中:[pstart_wt]表示語句中第t個(gè)詞是頭實(shí)體開始位置的概率;[pend_wt]表示語句中第t個(gè)詞是頭實(shí)體結(jié)束位置的概率。模型設(shè)置一個(gè)臨界值,若大于這個(gè)臨界值則將標(biāo)簽置為1,小于該臨界值則將標(biāo)簽置為0。
頭實(shí)體標(biāo)記模塊以似然函數(shù)來識(shí)別語句[s]中頭實(shí)體[w],公式如下:
[pθwws=l∈start_w,end_wt=1NpltIylt=11-pltIylt=0] (4)
式中:N表示語句的字符數(shù);[ystart_wt]和[yend_wt]分別表示語句中第t個(gè)字符是頭實(shí)體的開始位置和結(jié)束位置的二元標(biāo)記值;當(dāng)I{·}表示的事件為真,則I{·}的值為1,否則為0。
1.4" 尾實(shí)體預(yù)測
在上一模塊獲得頭實(shí)體標(biāo)記后,對(duì)語句進(jìn)行尾實(shí)體預(yù)測。
利用關(guān)系r,結(jié)合頭實(shí)體w,組成(w,r)頭實(shí)體關(guān)系對(duì),根據(jù)不同的關(guān)系對(duì)尾實(shí)體j標(biāo)記,具體如下:
[pstart_jt=sigmoid(Wstart_jvwt+bstart_j)] (5)
[pend_jt=sigmoid(Wend_jvwt+bend_j)] (6)
式中:[pstart_jt]和[pend_jt]分別表示語句中第t個(gè)字符是三元組中尾實(shí)體的開始位置和結(jié)束位置的概率。
對(duì)于關(guān)系r的尾實(shí)體預(yù)測模塊,采用優(yōu)化似然函數(shù)來識(shí)別輸入語句S和頭實(shí)體和尾實(shí)體j的跨度,如下所示:
[pθjjw,r,S=l∈start_j,end_jt=1NpltIylt=11-pltIylt=0] (7)
式中:N是語句的字符數(shù);[ystart_jt]和[yend_jt]分別表示語句中第t個(gè)字符是尾實(shí)體的開始位置和結(jié)束位置的標(biāo)記。
1.5" 聯(lián)合解碼
對(duì)于每個(gè)頭尾實(shí)體,計(jì)算實(shí)體中的句子[si]與[sj]在句子語義層面是否能建立關(guān)系,在1.2節(jié)中已介紹如何獲取輸入語句的編碼值[vCLS]、[vi]。獲得編碼值以后,開始輸入句子中的頭實(shí)體和尾實(shí)體,采用BIO標(biāo)記模式,對(duì)于給定輸入的每個(gè)字符,計(jì)算其屬于某個(gè)關(guān)系的概率值,具體計(jì)算如下:
[pBIOm=?Wsm+b]" " " "(8)
式中:[sm]為輸入的字符向量,有[sm∈vi];W為可訓(xùn)練權(quán)重;b為偏置;[?]表示激活函數(shù);[pBIOm]表示識(shí)別輸入序列中第m個(gè)字符為BIO某類型的概率。
對(duì)于輸入的句子對(duì)[si]與[si+1]或[si-1]與[si],將[vCLSi]與[vCLSi-1]或者[vCLSi-1]與[vCLSi]進(jìn)行拼接,并對(duì)拼接項(xiàng)目所對(duì)應(yīng)的可能關(guān)系概率進(jìn)行計(jì)算打分,提取最高排名關(guān)系類型,具體過程如下:
[prew,j=SoftmaxvCLSi,vCLSi+1]" " " (9)
式中:[pre(w,j)]表示頭實(shí)體[ew]與尾實(shí)體[ej]之間關(guān)系為r的概率大小,并選取概率最大的輸出。
在聯(lián)合任務(wù)中,對(duì)模型進(jìn)行訓(xùn)練,通過Adam隨機(jī)梯度下降法在小批量上最大化聯(lián)合概率p,并定義聯(lián)合計(jì)算過程為:
[p=prew,jpBIOwpBIOj]" " "(10)
2" 實(shí)" 驗(yàn)
2.1" 數(shù)據(jù)集
本文使用了兩個(gè)公開數(shù)據(jù)集進(jìn)行模型評(píng)估:紐約時(shí)報(bào)(NYT)數(shù)據(jù)集和WebNLG數(shù)據(jù)集。NYT數(shù)據(jù)集包含大量紐約時(shí)報(bào)新聞文章,是自然語言處理領(lǐng)域常用的大型文本數(shù)據(jù)集之一。WebNLG數(shù)據(jù)集是一個(gè)用于自然語言生成任務(wù)的開源數(shù)據(jù)集,涵蓋了來自不同領(lǐng)域的各種文章。這兩個(gè)數(shù)據(jù)集具有豐富的語義,信息文本內(nèi)容多樣,因此適合用于評(píng)估模型在準(zhǔn)確抽取三元組方面的性能。
2.2" 評(píng)測指標(biāo)
本實(shí)驗(yàn)選用召回率、精確率以及F1指數(shù)作為評(píng)測指標(biāo),具體計(jì)算方式如下。
定義TP表示實(shí)際為正例且預(yù)測正確的數(shù)量,F(xiàn)P表示預(yù)測為正例但實(shí)際為反例的數(shù)量。精確率公式為:
[P=TPTP+FP]" " " " " " "(11)
定義FN表示實(shí)際為正例但預(yù)測為反例的數(shù)量,因此召回率表示為:
[R=TPTP+FN]" " " " "(12)
F1指數(shù)計(jì)算公式為:
[F1=2PRP+R]" " " (13)
2.3" 基線模型
為了驗(yàn)證模型的準(zhǔn)確性,選用5個(gè)模型作為基準(zhǔn)模型來對(duì)比,具體內(nèi)容如下。
1) CasRel[9]:提出了二進(jìn)制標(biāo)記框架、矩形級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型以及無監(jiān)督預(yù)訓(xùn)練方法,這些方法共同解決了實(shí)體關(guān)系抽取中的實(shí)體重疊、實(shí)體冗余和模型泛化等問題。
2) FLAT[11]:提出了一種采用詞匯增強(qiáng)的方式來增強(qiáng)模型能力的方法,將匹配到的詞匯直接添加到整句話的最后,利用全局注意力機(jī)制獲取增強(qiáng)詞的信息,將詞匯融合到模型中。
3) GraphRel[12]:提出了一種端到端抽取模型,利用關(guān)系加權(quán)圖卷積網(wǎng)絡(luò)(GCN)來聯(lián)合實(shí)體識(shí)別和關(guān)系抽取。
4) BERT+BiLSTM+CRF[13]:將預(yù)訓(xùn)練模型BERT與BiLSTM和CRF模型相結(jié)合,利用上下文信息、序列建模和標(biāo)簽轉(zhuǎn)移能力,提高了實(shí)體識(shí)別和關(guān)系抽取的性能,能夠更準(zhǔn)確地識(shí)別和分類句子中的實(shí)體和關(guān)系。
5) JPEA[14]:通過融合預(yù)訓(xùn)練模型和注意力的方法,提出了實(shí)體關(guān)系聯(lián)合抽取模型JPEA,解決了現(xiàn)有模型對(duì)語義關(guān)系挖掘能力差的問題。
2.4" 設(shè)備配置
實(shí)驗(yàn)中使用的設(shè)備配置及參數(shù)設(shè)置如表1所示。
2.5" 結(jié)果分析
本文模型通過注意力機(jī)制來計(jì)算頭尾實(shí)體在句子層面的語義聯(lián)系,提取到了比其他模型更深層的語義特征和句子特征;然后對(duì)實(shí)體間所對(duì)應(yīng)的可能關(guān)系概率進(jìn)行計(jì)算,并提取出最高概率,提升了準(zhǔn)確率。從表2的對(duì)比結(jié)果上可以看出,該模型在NYT數(shù)據(jù)集和WebNLG數(shù)據(jù)集上,對(duì)比FLAT模型的F1值分別提升了0.5%和0.4%,準(zhǔn)確率分別提升1.1%和0.8%。
本文模型在WebNLG數(shù)據(jù)集訓(xùn)練時(shí),損失函數(shù)曲線如圖3所示。由圖3可知,隨著訓(xùn)練損失逐漸下降,達(dá)到最低值時(shí)在第14個(gè)周期左右。
2.6" 消融實(shí)驗(yàn)
考慮到引入了BERT預(yù)訓(xùn)練模型,因此選用三種不同方式對(duì)比初始嵌入表示帶來的收益。BERT表示最終使用方案,BERT(random)表示使用了BERT的隨機(jī)初始化方式獲取數(shù)據(jù)嵌入表示,LSTM是通過LSTM獲得字符向量表示。模型在上述兩個(gè)數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn),具體結(jié)果如表3所示。
本實(shí)驗(yàn)最終獲得F1指數(shù)如表2、表3所示。本文模型在所有對(duì)比方法中均取得了最高的F1得分。在消融實(shí)驗(yàn)環(huán)節(jié),即使沒有利用預(yù)先訓(xùn)練BERT模型,也得到了與對(duì)比算法接近的結(jié)果。這證明了語義為關(guān)系的判定帶來了充足的特征知識(shí),同時(shí)也說明了預(yù)訓(xùn)練模型對(duì)上下文的理解力與重要性。
3" 結(jié)" 論
本文提出了一個(gè)實(shí)體關(guān)系抽取的聯(lián)合模型,通過BERT獲取句子向量,并針對(duì)頭實(shí)體和尾實(shí)體進(jìn)行標(biāo)記和解碼。該聯(lián)合模型通過計(jì)算實(shí)體之間存在語義關(guān)系的概率,并選取概率最大的三元組進(jìn)行抽取。實(shí)驗(yàn)在NYT數(shù)據(jù)集和WebNLG數(shù)據(jù)集上驗(yàn)證了該模型的有效性,并取得了較高的準(zhǔn)確率和F1得分。然而,本文模型仍在一些方面存在不足,如當(dāng)數(shù)據(jù)集中存在較多標(biāo)注錯(cuò)誤的數(shù)據(jù)時(shí),模型的性能可能會(huì)受到影響。因此,在后續(xù)的工作中,需要解決如何提高模型的穩(wěn)定性問題。
注:本文通訊作者為張思佳。
參考文獻(xiàn)
[1] 常思杰,林浩田,江靜.融合雙階段解碼的實(shí)體關(guān)系聯(lián)合抽取方法[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(20):138?146.
[2] ZHENG S, HAO Y, LU D, et al. Joint entity and relation ex?traction based on a hybrid neural network [J]. Neurocomputing, 2017, 257: 59?66.
[3] CHAN Y S, DAN R. Exploiting syntactico?semantic structures for relation extraction [C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. [S.l.]: ACM, 2011: 551?560.
[4] MA Y, HIRAOKA T, OKAZAKI N. Named entity recognition and relation extraction using enhanced table filling by contextualized representations [J]. Journal of natural language processing, 2022, 29(1): 187?223.
[5] WANG T, ZHENG L, Lü H, et al. A distributed joint extraction framework for sedimentological entities and relations with federated learning [J]. Expert systems with applications, 2023, 213: 119216.
[6] ZHAO X Y, YANG M, QU Q, et al. Exploring privileged features for relation extraction with contrastive student?teacher learning [J]. IEEE transactions on knowledge and data engineering, 2022(2): 21?30.
[7] ZHENG S, WANG F, BAO H, et al. Joint extraction of entities and relations based on a novel tagging scheme [EB/OL]. [2024?01?17]. https://arxiv.org/pdf/1706.05075.
[8] 馮鈞,張濤,杭婷婷.重疊實(shí)體關(guān)系抽取綜述[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(1):1?11.
[9] WEI Z, SU J, WANG Y, et al. A novel cascade binary tagging framework for relational triple extraction [EB/OL]. [2023?07?14].https://www.xueshufan.com/publication/3020923281.
[10] SUI D, CHEN Y, LIU K, et al. Joint entity and relation ex?traction with set prediction networks [J] IEEE transactions on neural networks and learning systems, 2023(17): 1?12.
[11] LI Xiaonan, YAN Hang, QIU Xipeng, et al. FLAT: Chinese NER using flat?lattice transformer [EB/OL]. [2023?04?05].https://arxiv.org/abs/2004.11795.
[12] FU T J, LI P H, MA W Y. GraphRel: modeling text as relational graphs for joint entity and relation extraction [C]// Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2019: 1136.
[13] 謝騰,楊俊安,劉輝.基于BERT?BiLSTM?CRF模型的中文實(shí)體識(shí)別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(7):48?55.
[14] 李智杰,韓瑞瑞,李昌華,等.融合預(yù)訓(xùn)練模型和注意力的實(shí)體關(guān)系抽取方法[J].計(jì)算機(jī)科學(xué)與探索,2023,17(6):1453?1462.