田佳來 呂學(xué)強 游新冬,? 肖剛 韓君妹
基于分層序列標(biāo)注的實體關(guān)系聯(lián)合抽取方法
田佳來1呂學(xué)強1游新冬1,?肖剛2韓君妹2
1.北京信息科技大學(xué), 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室, 北京 100101; 2.復(fù)雜系統(tǒng)仿真總體重點實驗室,軍事科學(xué)院系統(tǒng)工程研究院, 北京 100101; ?通信作者, E-mail: youxindong@bistu.edu.cn
為了提高實體關(guān)系聯(lián)合抽取的效果, 提出一種端到端的聯(lián)合抽取模型(HSL)。HSL 模型采取一種新的標(biāo)記方案, 將實體和關(guān)系的聯(lián)合抽取轉(zhuǎn)化成序列標(biāo)注問題, 同時采用分層的序列標(biāo)注方式來解決三元組重疊問題。實驗證明, HSL 模型能有效地解決三元組重疊問題, 在軍事語料數(shù)據(jù)集上 F1 值達到 80.84%, 在公開的 WebNLG 數(shù)據(jù)集上 F1 值達到 86.4%, 均超過目前主流的三元組抽取模型, 提升了三元組抽取的效果。
實體關(guān)系聯(lián)合抽取; 三元組重疊; 序列標(biāo)注; 知識圖譜; HSL
實體關(guān)系三元組抽取是知識圖譜構(gòu)建過程中不可缺少的步驟, 實體關(guān)系三元組抽取指從文本中抽取出實體對, 并確定實體之間的關(guān)系。實體關(guān)系三元組結(jié)構(gòu)為(主語, 關(guān)系, 賓語), 例如(魯迅, 屬于, 中國)。
早期的三元組抽取一般采用流水線方法: 各個任務(wù)依次處理。例如 Nadeau 等[1]和Zelenko 等[2]都是首先識別文本中的實體, 然后抽取出文本中實體之間的關(guān)系。如果原文本句子中的實體相互之間沒有關(guān)系, 也會強制給任意兩實體之間附加一種關(guān)系。但是, 流水線方法忽略兩個任務(wù)之間的聯(lián)系[3], 所以有學(xué)者提出實體關(guān)系聯(lián)合抽取模型: 用單一模型抽取出文本中的實體關(guān)系三元組, 能夠增強實體抽取任務(wù)與關(guān)系抽取任務(wù)的聯(lián)系。Ren 等[4]、Li 等[5]和 Miwa 等[6]采用實體關(guān)系聯(lián)合抽取模型抽取文本中的實體關(guān)系三元組, 但其模型都需要人工構(gòu)造大量的特征, 同時也依賴相關(guān)的 NLP 工具包自動抽取。由于 NLP 工具包抽取結(jié)果不穩(wěn)定, 可能導(dǎo)致錯誤, 影響抽取的效果。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展, 其在NLP 任務(wù)中也取得成效。王國昱[7]將深度學(xué)習(xí)方法應(yīng)用在命名實體識別任務(wù)中, 取得不錯的 F1 值。Zeng 等[8]和 Xu 等[9]使用深度學(xué)習(xí)的方法來解決關(guān)系分類問題, 得到的 F1 值比以往的機器學(xué)習(xí)模型提升明顯。Zheng 等[10]采用基于 LSTM 的神經(jīng)網(wǎng)絡(luò)實體關(guān)系聯(lián)合抽取模型, 選取序列標(biāo)注抽取實體關(guān)系三元組, 其模型按照就近原則的關(guān)系鏈接方式, 然而該模型忽略了實體對完全重疊(EPO)和單一實體重疊(SPO)的情況。Zeng 等[11]首先提出解決三元組重疊問題, 并基于 Seq2seq 思想, 提出實體關(guān)系聯(lián)合抽取模型, 能夠解決三元組重疊問題, 但模型依賴解碼的結(jié)果, 導(dǎo)致實體識別不完全。Fu 等[12]采用基于圖卷積神經(jīng)網(wǎng)絡(luò)改進的方法, 進行實體關(guān)系三元組抽取, 效果比 Zeng 等[11]的模型有所提高。
還有許多學(xué)者專注于三元組的抽取研究。李明耀等[13]對中文實體關(guān)系三元組抽取進行研究, 根據(jù)依存句法分析和中文語法制定抽取規(guī)則, F1 值達到76.78%。黃培馨等[14]采用一種融合對抗學(xué)習(xí)的方法, 利用帶有偏置的激活函數(shù)來增強信息的多通道傳輸特性, 取得不錯的效果。趙哲煥[15]對生物學(xué)實體關(guān)系三元組進行抽取, 首先通過多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)對實體進行抽取, 最后用領(lǐng)域詞典查詢的方法抽出實體關(guān)系三元組。張永真等[16]針對專利文本三元組抽取, 通過機器學(xué)習(xí)模型, 分析詞性特征、位置特征和上下文特征的重要性, 剔除弱的特征, 提升了專利文本三元組抽取的效果。王昊[17]構(gòu)建知識庫來協(xié)助實體關(guān)系抽取任務(wù), 當(dāng)目標(biāo)實體在知識庫三元組中出現(xiàn)的次數(shù)大于某個閾值時, 將其關(guān)系定義為關(guān)系高頻詞, 同時采用 Word2vec 語言模型訓(xùn)練嵌入詞向量, 用于增強模型語義信息, 并通過定義關(guān)系高頻詞和增加先驗特征來提高模型效果。
盡管目前主流的三元組抽取模型可以在一定程度上解決三元組重疊問題, 但是由于模型結(jié)構(gòu)的原因?qū)е戮幋a能力弱, 抽取效果差, F1 值低于 50%。為了提高具有三元組重疊中實例的三元組抽取效果, 本文提出一種端到端的聯(lián)合抽取模型(HSL), HSL 模型采取一種新的標(biāo)記方案, 將實體與關(guān)系的聯(lián)合提取轉(zhuǎn)化成序列標(biāo)注問題, 同時采用分層的序列標(biāo)注方式來解決三元組重疊問題。實驗中采用人工標(biāo)記的軍事語料和 WebNLG 公開數(shù)據(jù)集。結(jié)果證明, 無論在特定領(lǐng)域的語料上還是在公開語料上, HSl 模型的準(zhǔn)確率和召回率都比目前主流的三元組抽取模型有所提升, 能夠更有效地抽取三元組。
三元組抽取目標(biāo)為抽取句子中的(,,), 其中,為主語,為賓語,為與的關(guān)系。本文的三元組抽取模型設(shè)計思路來源于百度三元組抽取比賽中的一個 Baseline[18], 參考 Seq2Seq 模型[19]的思路, 先抽取主語, 然后根據(jù)主語的先驗信息抽取關(guān)系及賓語。Seq2Seq 模型的解碼公式如下:
其中,為先驗句子。給定一個, 在所有的上面建模, 使生成1,2, …,y的概率最大似然。首先輸入得到第一個1詞語, 再將和1作為先驗特征輸入模型中, 解碼出2, 依此類推, 解碼出3, …,y。
由此, 可以得出三元組抽取公式:
其中,是輸入的句子。首先抽取出主語, 然后將主語和句子解碼出關(guān)系和賓語。
從式(2)來看, 一個句子中只能抽取出一組三元組, 所有我們將三元組抽取問題轉(zhuǎn)化成序列標(biāo)注問題。序列標(biāo)注時, 對一個字符序列中的每一個字符打上相應(yīng)的標(biāo)簽(圖 1), 根據(jù)標(biāo)簽抽取出命名實體。將主語的識別過程轉(zhuǎn)化成序列標(biāo)注問題, 一個句子可以抽取出個主語, 再分別將各個主語作為先驗特征進行關(guān)系和客體的抽取。另外, 一個句子只能識別出一個客體和一種關(guān)系, 所以根據(jù)主語抽取的思想, 同樣通過對句子進行序列標(biāo)注來抽取客體和關(guān)系。但是, 一個句子只能生成一條序列標(biāo)簽, 無法確定主語與賓語的關(guān)系。因此, 在序列標(biāo)注時, 將標(biāo)簽設(shè)計成帶有關(guān)系類別的標(biāo)簽, 以便確定主語和賓語的關(guān)系。這種方法不能解決三元組抽取的實體對重疊問題(EPO), 即兩個三元組主語與賓語完全重疊而僅僅關(guān)系不同的情況。
為了解決實體對重疊(EPO)問題, 本文采用分層的序列標(biāo)注方法, 在抽取賓語和關(guān)系時, 每層標(biāo)注序列產(chǎn)生的賓語都與主語對應(yīng)一種提前設(shè)定好的關(guān)系, 最終生成的標(biāo)注序列數(shù)量與關(guān)系的數(shù)量相同。
本文中三元組抽取順序是先抽取主語, 再根據(jù)主語的先驗特征來預(yù)測客體和關(guān)系。HSL 模型先標(biāo)注句子序列, 生成主語的標(biāo)注序列, 再生成賓語的標(biāo)注序列。
圖1 主語標(biāo)簽設(shè)計
圖 1 是抽取主語時, 句子經(jīng)過序列標(biāo)注后生成對應(yīng)標(biāo)簽的一個例子。根據(jù)標(biāo)簽, 可以容易地提取出主語。采用 BIO 的標(biāo)注方案, B 代表當(dāng)前字符是主語的首個字符, I 表示當(dāng)前字符是主語的中間或結(jié)尾部分, O 表示當(dāng)前字符與主語無關(guān)。圖 1 的句子中, John 對應(yīng)的字符是 B, 表示其是主語的開頭字符, 向后搜尋, 如果下一個字符對應(yīng)的標(biāo)簽為 I, 說明當(dāng)前字符也是主體的一部分, 直到下一個字符為O 標(biāo)簽, 則主語提取完畢。所以, 從圖 1 的句子中最終提取出來的主語為John。
如圖 2 所示, 經(jīng)上一步驟抽取出主語 John 后, 結(jié)合主語的先驗特征 John, 對句子進行分層序列標(biāo)注, 生成帶有與主語對應(yīng)關(guān)系類別的賓語標(biāo)簽序列, 這種方法稱為分層序列標(biāo)注。HSL 模型基于有監(jiān)督學(xué)習(xí), 所以事先預(yù)定的關(guān)系類別是固定的, 有幾種關(guān)系類別就會生成幾條賓語標(biāo)簽序列, 從代表某一關(guān)系類別的賓語標(biāo)簽序列中提取的賓語就表示該賓語與先驗主語之間的關(guān)系為該類別。同樣采用 BIO的標(biāo)注方案, 在圖 2 的句子中提取的賓語為 Jenny和 Tom, Jenny 所在的賓語標(biāo)簽序列對應(yīng)的關(guān)系類別為 wife, Tom 所在的賓語標(biāo)簽序列對應(yīng)的關(guān)系類別為 son。所以, 最終抽取出兩個三元組, 一個是(John, wife, Jenny), 另一個是(John, son, Tom)。如果Tom 被判斷為主語, 同樣會重復(fù)以上抽出三元組的操作。
在早期序列標(biāo)注任務(wù)中, 通常采用條件隨機場和馬爾可夫模型。近年來, 序列標(biāo)注任務(wù)得到飛速發(fā)展, 隨著神經(jīng)網(wǎng)絡(luò)的出現(xiàn), 端到端模型逐漸應(yīng)用于序列標(biāo)注任務(wù)中。本文的端到端聯(lián)合抽取模型(HSL)將三元組抽取分成兩個序列標(biāo)注任務(wù), 模型結(jié)構(gòu)如圖 3 所示。首先, HSL 采用語言模型和位置編碼, 將文本轉(zhuǎn)化成具有語義和距離信息的詞向量; 然后, 將詞向量經(jīng)過 12 層的 GLU Dilated CNN 編碼, 得到句子編碼向量, 再通過 Self Attention 機制, 進一步提取特征, 解碼出主語; 最后, 將主語作為先驗特征輸入 BILSTM 模型中, 與句子編碼向量相加和, 通過 Self Attention 機制, 進一步提取特征, 解碼出關(guān)系和賓語。
采用 12 層 GLU Dilated CNN 編碼。卷積神經(jīng)網(wǎng)絡(luò)最早應(yīng)用在圖像領(lǐng)域中, 能充分地提取圖片中的特征。在自然語言處理中領(lǐng)域, Kim[20]最早提出利用文本卷積進行文本分類任務(wù), 發(fā)現(xiàn)卷積能夠充分地提取文本特征與挖掘詞語之間的關(guān)聯(lián)。Dauphin等[21]提出一種新的非線性單元 GLU (gated linear units), 將激活函數(shù)轉(zhuǎn)化成另一種表達方式, 可以防止梯度消失現(xiàn)象, Gehring 等[22]在 Facebook 文章中也引用 GLU 方法。Yu 等[23]提出 Dilated 卷積方法, 過程如圖 4 所示, 當(dāng)膨脹率為 1 時, 卷積為標(biāo)準(zhǔn)卷積; 當(dāng)膨脹率為 2 時, 卷積操作會跳過中間詞語, 將輸入向量1和3關(guān)聯(lián)起來, 能夠增加遠距離詞語間的相互關(guān)聯(lián)性。將詞嵌入后得到的向量all通過帶有 GLU 方法的 Dilated 卷積, 得到向量與通過閥門數(shù)值控制的all加和, 最終可以得到編碼后的向量。
圖2 賓語和關(guān)系標(biāo)簽設(shè)計
圖3 實體關(guān)系三元組抽取模型結(jié)構(gòu)
GLU Dilated CNN 的結(jié)構(gòu)如圖 5 所示, 計算方法如式(3)和(4)所示。GLU 方法能夠提高模型信息多通道傳輸能力, 膨脹卷積方法可以提高模型特征抽取能力。
編碼完成后, 首先解碼主語, 再解碼關(guān)系及賓語。在兩次解碼過程中, 都采用 Self Attention 機制[24]來進一步提取特征。
首先進行主體解碼。圖 6 展示經(jīng)過 12 層 GLU Dilated CNN 編碼得到的向量通過 Self Attention機制的具體操作,向量經(jīng)過 3 個不同的全連接層, 得到,和。向量T表示詞語與其他詞語的相關(guān)程度, 對T進行標(biāo)準(zhǔn)化, 并輸入 Softmax 激活函數(shù), 得到詞語之間的相關(guān)程度向量。將相關(guān)度程度向量與做點乘, 得到向量1, Self Attention 機制表達如下:
圖4 膨脹卷積[23]
圖5 GLU Dilated CNN結(jié)構(gòu)
圖6 Self Attention機制
其中,d為經(jīng)驗參數(shù), 能夠使訓(xùn)練時梯度更加穩(wěn)定。
Linear 層為全連接層, 能通過點積的方式, 得到輸出維度為標(biāo)簽數(shù)量的向量, 從而獲得每個字對應(yīng)標(biāo)簽的概率。由于主語只需要一條標(biāo)簽序列, 所以對向量1只需做一次 Linear 層的操作。由于標(biāo)簽維度為 3, 所以 Linear 層輸出維度為 3, Linear 層的激活函數(shù)采用 Softmax,1通過 Linear 層得到每個詞語對應(yīng)的標(biāo)簽概率, 每個詞語取其對應(yīng)標(biāo)簽中概率最大的標(biāo)簽為最終標(biāo)簽, 生成主語標(biāo)簽序列(圖 3)。主語解碼過程如下:
其中, MaxpTag()為對應(yīng)標(biāo)簽概率最大的函數(shù)。
圖 7 為賓語和關(guān)系的解碼結(jié)構(gòu)。在對賓語和關(guān)系解碼時, 需要將式(6)得到的主語作為先驗特征, 加入賓語及關(guān)系解碼結(jié)構(gòu)中, 找到主語在文中的開始和結(jié)尾索引位置, 從 GLU Dilated CNN 編碼后的向量中取出對應(yīng)的向量subject, 使用 BILSTM 模型進一步提取其特征。將向量與 Self Attention機制得到的結(jié)果向量和 BILSTM 模型的結(jié)果向量加和, 得到最終向量。由于關(guān)系數(shù)量與賓語標(biāo)簽序列數(shù)量相同, 假設(shè)關(guān)系有種, 解碼時將最終向量解碼成種關(guān)系類別的賓語標(biāo)簽序列, 每個賓語標(biāo)簽序列提取的賓語與主語的關(guān)系就是本條賓語標(biāo)簽序列預(yù)定義的關(guān)系, 即需要個 Linear 層和 Softmax層, 最終生成圖 2 所示的賓語標(biāo)簽序列。
采用兩種數(shù)據(jù)源來驗證 HSL 模型的有效性: 1)從環(huán)球軍事網(wǎng)采集數(shù)據(jù)并自行標(biāo)注構(gòu)建的軍事語料數(shù)據(jù)集; 2)WebNLG 數(shù)據(jù)集。數(shù)據(jù)集的具體信息如表 1 所示。
環(huán)球軍事網(wǎng)包含大量武器裝備信息, 內(nèi)容偏軍事文本描述。自行標(biāo)注數(shù)據(jù) 2925 條, 其中 2625 條用于訓(xùn)練, 299 條用于測試。
圖7 賓語和關(guān)系的解碼結(jié)構(gòu)
表1 軍事語料數(shù)據(jù)集和WebNLG數(shù)據(jù)集的重疊情況
WebNLG 數(shù)據(jù)集是評估三元組抽取模型效果最常用的通用領(lǐng)域數(shù)據(jù)集, 其中的每個句子都會包含多個實體關(guān)系三元組。公平起見, 本文采用其發(fā)布的 WebNLG 部分數(shù)據(jù)集進行模型評估, 其中 5019條句子進行訓(xùn)練, 500 條進行驗證, 729 條進行測試。根據(jù)句子的三元組重疊程度, 將句子分為正常(Normal)、主體客體完全重疊(EPO)和單個實體重疊(SEO)3 個類別。從表 1 可以看出, WebNLG 數(shù)據(jù)集中大多數(shù)句子都屬于 SEO 類別, 如果模型在該語料上的 F1 值較好, 則說明模型具備解決單個實體重疊問題的能力。
為了驗證本文模型的有效性, 采用與 Gardent等[25]相同的準(zhǔn)確率()和召回率()相結(jié)合的 F1 值來評判。當(dāng)預(yù)測產(chǎn)生的三元組與真實三元組的名稱和類別完全一致時, 稱為正確識別的三元組。
HSL 模型運行在戴爾服務(wù)器的 Ubuntu 16.04 操作系統(tǒng)中, 服務(wù)器運行內(nèi)存為 64G。GPU 為 8 塊Tesla V100 顯卡, 每塊顯存為 16G, 編碼語言為python3.6, 采用 Keras 深度學(xué)習(xí)框架。實驗結(jié)果表明, 不同的參數(shù)對實體關(guān)系三元組的識別結(jié)果有一定程度的影響。經(jīng)過調(diào)參, 最終確定的最優(yōu)參數(shù)如表 2 所示。
將 HSL 模型與目前在三元組抽取任務(wù)中效果最好的 4 個模型(NovelTagging 模型[10]、CopyR 模型[11]、GraphRel 模型[12]和 Baseline 模型[18](BL 模型))進行比較。除 BL 模型外, 其余模型在相同WebNLG 數(shù)據(jù)集上的得分都是從原始文章復(fù)制而來, 并在軍事語料數(shù)據(jù)集上對各個模型進行測試。在 WebNLG 數(shù)據(jù)集上的實驗結(jié)果如表 3所示。
在 WebNLG 數(shù)據(jù)集上, HSL 的 F1 值比目前最優(yōu)的 BL 模型高 42.4%, 準(zhǔn)確率和召回率均超過其他模型, 證明了 HSL 模型的有效性。同時, HSL 模型的召回率和準(zhǔn)確率相差不大, 說明模型比較穩(wěn)定。另外, WebNLG 數(shù)據(jù)集屬于通用數(shù)據(jù)集, 實體關(guān)系種類大于 100 種, 表明 HSL 在通用數(shù)據(jù)集上效果好且穩(wěn)定。在 WebNLG 數(shù)據(jù)集中, 單個實體重疊(SEO)的句子占比非常大, 由于 NovelTag-ging 方法假設(shè)每個實體標(biāo)簽只能對應(yīng)一種關(guān)系, 忽略了三元組抽取的三元組重疊問題, 所以其召回率僅為 19.3%。CopyR 模型和 GraphRel 模型考慮了重疊問題, 所以召回率有所上升。由于 BL 模型是先識別主語, 后識別關(guān)系賓語, 能夠解決三元組重疊問題, 所以召回率和準(zhǔn)確率達到 74.2%和 75.1%。HSL 在 BL 的基礎(chǔ)上增加更多先驗信息(字詞向量和位置向量), 增加 GLU Dilated CNN 編碼器和 Self Attention 機制, 比 BL 模型的 F1 值提升 10%, 充分說明 HSL 的有效性。
表2 模型參數(shù)設(shè)置
表3 WebNLG數(shù)據(jù)集和軍事語料數(shù)據(jù)集的實驗結(jié)果(%)
軍事語料數(shù)據(jù)集是武器裝備領(lǐng)域的中文數(shù)據(jù)集, 在軍事語料數(shù)據(jù)集上不同模型的實驗結(jié)果如表 3所示??梢钥闯? BL 模型的準(zhǔn)確率最高, 但由于其編碼能力弱和無先驗信息, 導(dǎo)致識別出的三元組偏少, 所以召回率只有 60.50%。HSL 模型的召回率為 76.28%, 說明其具有較強編碼能力, 能夠識別更多的三元組。由于其他模型需要先分詞, 再進行分類任務(wù), 所以 F1 值肯定不理想, 本文不做比較。
為進一步證明 HSL 具有良好的解決三元組重疊問題能力, 分別在不同重疊程度的WebNLG 數(shù)據(jù)集和軍事語料數(shù)據(jù)集上統(tǒng)計 HSL 的準(zhǔn)確率、召回率和 F1 值(表 4)??梢钥闯? HSL 在不同重疊程度數(shù)據(jù)集上的 F1 值都高于 75%, 說明其具有解決三元組重疊問題的能力。
本文提出一種基于分層序列標(biāo)注的實體關(guān)系三元組抽取模型(HSL), 通過加入位置編碼向量來增加模型對位置的關(guān)注力, 采用 GLU Dilated CNN和 Self Attention 機制來增加模型特征抽取能力, 通過分層序列標(biāo)注的方式來解決三元組重疊問題。實驗證明, 無論在哪種三元組重疊情況下, HSL 模型的 F1 值均高于目前主流的三元組抽取模型; 在WebNLG 數(shù)據(jù)集和軍事語料數(shù)據(jù)集上的 F1 值均高于主流三元組抽取模型。
表4 HSL在不同重疊程度的軍事語料數(shù)據(jù)集和WebNLG數(shù)據(jù)集上的實驗結(jié)果(%)
[1] Nadeau D, Sekine S. A survey of named entity recog-nition and classification. Lingvisticae Investigationes, 2007, 30(1): 3–26
[2] Zelenko D, Aone C, Richardella A. Kernel methods for relation extraction. Journal of Machine Learning Research, 2003, 3(6): 1083–1106
[3] Chan Y S, Roth D. Exploiting syntacticosemantic structures for relation extraction // Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, 2011: 551–560
[4] Ren Xiang, Wu Zeqiu, He Wenqi, et al. Cotype: joint extraction of typed entities and relations with know-ledge bases //26th International Conference. Interna-tional World Wide Web Conferences Steering Com-mittee. Perth, 2017: 1015–1024
[5] Li Qi, Ji Heng. Incremental joint extraction of entity mentions and relations // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Baltimore, 2014: 402–412
[6] Miwa M, Sasaki Y. Modeling joint entity and relation extraction with table representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, 2014: 1858–1869
[7] 王國昱. 基于深度學(xué)習(xí)的中文命名實體識別研究[D]. 北京: 北京工業(yè)大學(xué), 2015
[8] Zeng Daojian, Liu Kang, Lai Siwei, et al. Relation classification via convolutional deep neural network // 25th International Conference on Computational Lin-guistics: Technical Papers. Dublin, 2014: 2335–2344
[9] Xu Kun, Feng Yansong, Huang Songfang, et al. Se-mantic relation classification via convolutional neural networks with simple negative sampling. Computer Science, 2015, 71(7): 941–9
[10] Zheng Suncong, Wang Feng, Bao Hongyun, et al. Joint extraction of entities and relations based on a novel tagging scheme [EB/OL]. (2017–07–07)[2020–05–20]. https://arxiv.org/abs/1706.05075
[11] Zeng Xiangrong, Zeng Daojian, He Shizhu, et al. Extracting relational facts by an end-to-end neural model with copy mechanism // Proceedings of the 56th Annual Meeting of the Association for Compu-tational Linguistics (Volume 1: Long Papers). Mel-bourne, 2018: 506–514
[12] Fu T J, Li P H, Ma W Y. GraphRel: modeling text as relational graphs for joint entity and relation extrac-tion // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, 2019: 1409–1418
[13] 李明耀, 楊靜. 基于依存分析的開放式中文實體關(guān)系抽取方法. 計算機工程, 2016, 42(6): 201–207
[14] 黃培馨, 趙翔, 方陽, 等. 融合對抗訓(xùn)練的端到端知識三元組聯(lián)合抽取. 計算機研究與發(fā)展, 2019, 56(12): 2536–2548
[15] 趙哲煥. 生物醫(yī)學(xué)實體關(guān)系抽取研究[D]. 大連: 大連理工大學(xué), 2017
[16] 張永真, 呂學(xué)強, 申閆春, 等. 基于 SAO 結(jié)構(gòu)的中文專利實體關(guān)系抽取. 計算機工程與設(shè)計, 2019, 40(3): 706–712
[17] 王昊. 面向網(wǎng)絡(luò)的中文實體關(guān)系抽取的研究[D]. 北京: 中國科學(xué)院大學(xué), 2015
[18] 蘇劍林. 百度三元組抽取比賽 Baseline [EB/OL]. (2019–06–03)[2020–05–20]. https://github.com/bojone/ kg-2019-baseline
[19] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks [EB/OL]. (2014–12–14)[2020–05–20].https://arxiv.org/abs/1409.3215
[20] Kim Y. Convolutional neural networks for sentence classification [EB/OL]. (2014–09–03) [2020–05–20]. https://arxiv.org/abs/1408.5882
[21] Dauphin Y N, Fan A, Auli M, et al. Language mode-ling with gated convolutional networks // Procee-dings of the 34th International Conference on Ma-chine Learning-Volume 70. Sydney, 2017: 933–941
[22] Gehring J, Auli M, Grangier D, et al. Convolutional sequence to sequence learning // Proceedings of the 34th International Conference on Machine Learning-Volume 70. Sydney, 2017: 1243–1252
[23] Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions [EB/OL]. (2016–04–30) [2020–05–20]. https://arxiv.org/abs/1511.07122
[24] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // Advances in Neural Information Pro-cessing Systems. Red Hook, 2017: 5998–6008
[25] Gardent C, Shimorina A, Narayan S, et al. Creating training corpora for NLG micro-planning // Procee-dings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, 2017: hal-01623744
Joint Extraction of Entities and Relations Based on Hierarchical Sequence Labeling
TIAN Jialai1, Lü Xueqiang1, YOU Xindong1,?, XIAO Gang2, HAN Junmei2
1. Beijing Information Science and Technology University, Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing 100101; 2. National Key Laboratory for Complex Systems Simulation, Institute of Systems Engineering,Beijing 100101; ? Corresponding author, E-mail: youxindong@bistu.edu.cn
In order to further improve the effect of entity relationship joint extraction, this paper proposes an end-to-end joint extraction model (HSL). HSL model adopts a new labeling scheme to transform the joint extraction of entities and relationships into sequence labeling problems, and uses a layered sequence labeling method to solve the problem of triple overlap. The experiments demonstrates that HSL model can effectively deal with the problem of triple overlap and improve the extraction effect. The F1 value on the military corpus data set reaches 80.84%, and 86.4% on the WebNLG open data set, which exceeds the current mainstream triple extraction model, impro-ving the effect of triple extraction.
entity relationship joint extraction; triple overlap; sequence annotation; knowledge graph; HSL
10.13209/j.0479-8023.2020.083
2020–06–11;
2020–08–14
國家自然科學(xué)基金(61671070)、國家語委重點項目(ZDI135-53)、國防科技重點實驗室基金(6142006190301)、北京信息科技大學(xué)促進高校內(nèi)涵發(fā)展科研水平提高項目(2019KYNH226)和北京信息科技大學(xué)“勤信人才”培育計劃(QXTCPB201908)資助