• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種新型高效的文庫(kù)知識(shí)圖譜實(shí)體關(guān)系抽取算法

    2021-02-21 07:00:58胡代旺焦一源李雁妮
    關(guān)鍵詞:語(yǔ)句圖譜實(shí)體

    胡代旺,焦一源,李雁妮

    (西安電子科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710071)

    實(shí)體關(guān)系抽取旨在檢測(cè)/抽取給定語(yǔ)句中兩個(gè)實(shí)體間的語(yǔ)義關(guān)系。從非結(jié)構(gòu)化的文本中進(jìn)行實(shí)體關(guān)系的抽取以自動(dòng)構(gòu)建知識(shí)圖譜,是信息抽取的一個(gè)重要任務(wù),也是自然語(yǔ)言處理中很多下游應(yīng)用的重要基礎(chǔ)組件,例如智能問(wèn)答和知識(shí)庫(kù)構(gòu)建等。

    隨著深度學(xué)習(xí)迅猛發(fā)展,近年來(lái)已產(chǎn)生了一些較好的深度實(shí)體關(guān)系抽取算法。ZENG等[1]采用卷積神經(jīng)網(wǎng)絡(luò)通過(guò)捕獲每個(gè)單詞周圍的文本信息進(jìn)行實(shí)體關(guān)系抽取,但是這種方法受限于卷積核的大小,難以獲取遠(yuǎn)距離文本的信息。XU等與ZHOU等[2-3]借助長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)來(lái)獲取句子語(yǔ)義信息,以實(shí)現(xiàn)實(shí)體關(guān)系的抽取。該算法在一定程度上緩解了卷積神經(jīng)網(wǎng)絡(luò)的缺陷,但是仍然難以獲取長(zhǎng)句子的全局文本語(yǔ)義信息。近些年,預(yù)訓(xùn)練語(yǔ)言模型在自然語(yǔ)言處理的各個(gè)領(lǐng)域都取得了非凡的表現(xiàn),例如:機(jī)器翻譯、語(yǔ)音處理、實(shí)體關(guān)系抽取等。DEVLIN等[4]提出的預(yù)訓(xùn)練語(yǔ)言模型BERT在許多自然語(yǔ)言處理的任務(wù)中取得了不錯(cuò)的結(jié)果。WU等[5]提出一種基于BERT新的實(shí)體關(guān)系抽取方法。該算法首先通過(guò)在語(yǔ)句中兩個(gè)實(shí)體前后插入不同的標(biāo)志來(lái)標(biāo)注實(shí)體的位置,然后使用BERT計(jì)算句子中兩個(gè)實(shí)體的上下文重表示,并使用兩個(gè)實(shí)體上下文重表示的拼接作為關(guān)系的隱狀態(tài)輸入到分類層。SOARES等[6]同樣采用BERT模型,在此基礎(chǔ)上測(cè)試了多種實(shí)體標(biāo)注方式與輸出方式,進(jìn)一步提出了一種使用大量無(wú)標(biāo)簽數(shù)據(jù)訓(xùn)練模型的方式。然而,BERT中參數(shù)數(shù)量過(guò)于龐大,訓(xùn)練緩慢,且難以擴(kuò)展,將上述基于BERT的上述方法稱為基于序列的方法。這類方法受到無(wú)結(jié)構(gòu)文本的限制,且只能提取單個(gè)句子的局部語(yǔ)義信息,因此,其實(shí)體關(guān)系抽取的精度受限。

    圖神經(jīng)網(wǎng)絡(luò)[23]依據(jù)圖的鄰接關(guān)系提取信息,打破了無(wú)結(jié)構(gòu)文本的限制,因此被廣泛地應(yīng)用于實(shí)體關(guān)系抽取。其中最為常見(jiàn)的是基于語(yǔ)法依賴樹(shù)的實(shí)體關(guān)系抽取模型。MIWA等[7]提出了基于依賴關(guān)系樹(shù)的實(shí)體關(guān)系抽取模型,通過(guò)長(zhǎng)短期記憶網(wǎng)絡(luò)依據(jù)依賴關(guān)系獲取更可靠的上下文表示。之后,ZHANG等[8]提出了一種剪枝策略,依據(jù)兩個(gè)實(shí)體之間的最短依賴路徑刪除依賴樹(shù)中不相干內(nèi)容并篩選有效信息,同時(shí)采用了一種擴(kuò)展的圖卷積神經(jīng)網(wǎng)絡(luò)以提升計(jì)算效率。GUO等[9]和SUN等[10]都采用了軟剪枝策略,讓模型自動(dòng)學(xué)習(xí)如何有選擇地關(guān)注對(duì)關(guān)系提取任務(wù)有用的相關(guān)子結(jié)構(gòu)。為了避免域外解析器的錯(cuò)誤傳播影響關(guān)系提取性能,JIN等[12]設(shè)計(jì)了一種完全依賴樹(shù)林,對(duì)所有可能的樹(shù)進(jìn)行編碼。VEYSEH等[13]、GUO等[14]和VEYSEH等[15]通過(guò)隱含構(gòu)建模擬語(yǔ)法依賴樹(shù)的方式,擺脫實(shí)體關(guān)系抽取模型對(duì)語(yǔ)法解析器的依賴。上述這些方法都針對(duì)于單個(gè)語(yǔ)句中僅包含一對(duì)實(shí)體的情況,沒(méi)有考慮同一個(gè)句子中多個(gè)實(shí)體或不同句子中實(shí)體之間的聯(lián)系。ZHU等[16]和CHRISTOPOULOU等[17]考慮了一個(gè)語(yǔ)句中包含多個(gè)實(shí)體的情況,分別設(shè)計(jì)了以句中實(shí)體為頂點(diǎn)的實(shí)體關(guān)系圖。考慮到一個(gè)實(shí)體在多個(gè)語(yǔ)句中出現(xiàn)的情況,ZHAO等[19]考慮整個(gè)文庫(kù)中所有實(shí)體對(duì)之間的聯(lián)系,建立了實(shí)體對(duì)圖。NAN等[18]針對(duì)文檔級(jí)別實(shí)體關(guān)系抽取問(wèn)題,將文檔中出現(xiàn)的所有實(shí)體作為頂點(diǎn)建圖,在文檔的多個(gè)句子之內(nèi)和之間進(jìn)行信息整合。然而,上述方法沒(méi)有考慮關(guān)聯(lián)句子的相關(guān)程度,因此,不能對(duì)相關(guān)有關(guān)聯(lián)的句子中的信息進(jìn)行篩選/提取,一定程度上阻礙了實(shí)體關(guān)系抽取的精度提升。

    與這些僅利用大量數(shù)據(jù)進(jìn)行訓(xùn)練的方式不同,目前出現(xiàn)了一些工作開(kāi)始在集成先驗(yàn)知識(shí)輔助實(shí)體關(guān)系抽取的方向上進(jìn)行探索。例如,ZHANG等[24]和PETERS等[25]提出了一種通用方法,將多個(gè)知識(shí)圖譜嵌入到大型模型中,利用大型文本語(yǔ)料庫(kù)和知識(shí)圖譜來(lái)訓(xùn)練增強(qiáng)的語(yǔ)言表示模型,使得模型可以同時(shí)充分利用詞匯,句法和知識(shí)信息,然而知識(shí)表示過(guò)程與語(yǔ)言表示的預(yù)訓(xùn)練過(guò)程完全不同,會(huì)出現(xiàn)異構(gòu)信息融合的問(wèn)題。ZHANG等[11]設(shè)計(jì)了一種二部圖記錄統(tǒng)計(jì)的實(shí)體對(duì)類型與關(guān)系類型之間的概率分布,然后將先驗(yàn)概率分布作為知識(shí)與語(yǔ)句特征信息結(jié)合。但上述方法依賴預(yù)先標(biāo)注的實(shí)體類型這一信息,這一條件通常在實(shí)際中難以滿足,因此,該類方法存在一定的局限性,難以實(shí)用。

    綜上所述,現(xiàn)有實(shí)體關(guān)系抽取模型大多僅從包含一對(duì)實(shí)體的單個(gè)語(yǔ)句中挖掘信息,存在很大局限性;少數(shù)跨語(yǔ)句間獲取信息的工作并未對(duì)跨語(yǔ)句獲取信息進(jìn)行篩選,會(huì)引入不相關(guān)信息;在引入外部知識(shí)方向進(jìn)行探索的工作受困于異構(gòu)信息融合的問(wèn)題。此外,通過(guò)對(duì)實(shí)體關(guān)系抽取問(wèn)題常用數(shù)據(jù)集觀察發(fā)現(xiàn),數(shù)據(jù)集中混雜大量負(fù)樣本(類別標(biāo)簽為無(wú)具體意義的”other”或者”no_relation”)。這些負(fù)樣本雜亂無(wú)章地分布在特征空間,嚴(yán)重影響實(shí)體關(guān)系抽取問(wèn)題的精度?,F(xiàn)有實(shí)體關(guān)系抽取模型都未對(duì)這些負(fù)樣本做特殊處理,而是將其直接作為一個(gè)新類別。這種方式忽視了負(fù)樣本散布在空間中,無(wú)法聚簇的特征,不能有效避免負(fù)樣本的干擾,導(dǎo)致模型精度受限。

    為了克服已有算法的缺陷,筆者首先設(shè)計(jì)了一種基于整個(gè)訓(xùn)練文庫(kù)的語(yǔ)義關(guān)系圖,建立了文中所有語(yǔ)句中實(shí)體之間的關(guān)聯(lián)關(guān)系,在此基礎(chǔ)上,基于圖神經(jīng)網(wǎng)絡(luò)及負(fù)樣本訓(xùn)練,提出了一種新型高效的文庫(kù)知識(shí)圖譜的實(shí)體關(guān)系抽取算法(Entity Relation Extraction with Corpus Knowledge Graph,ERECKG)。主要工作可概括如下:

    (1)基于訓(xùn)練語(yǔ)料庫(kù),構(gòu)建了所有語(yǔ)句中相關(guān)實(shí)體間的語(yǔ)義關(guān)系圖,以此作為實(shí)體關(guān)系抽取的知識(shí)圖譜。提出了一種基于實(shí)體關(guān)系相似度的圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它可以從知識(shí)圖譜中挖掘與待抽取關(guān)系語(yǔ)句相關(guān)的知識(shí)。

    (2)采用待抽取關(guān)系語(yǔ)句本身信息和與之相關(guān)的知識(shí)相結(jié)合的方式組成特征,同時(shí)引入了一種負(fù)樣本學(xué)習(xí)方法,以此拉開(kāi)不同實(shí)體關(guān)系類樣本特征間的距離,并保持同類實(shí)體關(guān)系樣本特征緊湊。

    (3)在此基礎(chǔ)上,提出了一種新的高效深度實(shí)體關(guān)系抽取算法ERECKG。并將該算法與當(dāng)前最具代表性的深度實(shí)體關(guān)系算法在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),驗(yàn)證了該算法的正確性與高效性。

    1 新型高效的文庫(kù)知識(shí)圖譜的實(shí)體關(guān)系抽取算法——ERECKG

    1.1 ERECKG模型概述

    顯而易見(jiàn),對(duì)一對(duì)實(shí)體語(yǔ)義關(guān)系的深入挖掘,會(huì)使得對(duì)這對(duì)實(shí)體之間的語(yǔ)義關(guān)系預(yù)測(cè)更加準(zhǔn)確?,F(xiàn)有方法大多從包含實(shí)體對(duì)的單個(gè)句子中挖掘信息。對(duì)于給定的語(yǔ)料庫(kù)S中每個(gè)句子中的信息都只是該句子局部的信息,不利于精確的關(guān)系提取。為此,筆者設(shè)計(jì)了一種表示不同句子中實(shí)體之間關(guān)聯(lián)的語(yǔ)義實(shí)體圖作為知識(shí)圖譜積累從文庫(kù)中學(xué)習(xí)到的知識(shí),然后將從知識(shí)圖譜中挖掘的相關(guān)知識(shí)與待抽取關(guān)系語(yǔ)句本身信息相結(jié)合組成特征,同時(shí)引入了一種負(fù)樣本學(xué)習(xí)方式,提高對(duì)負(fù)樣本的利用程度。筆者提出的模型由3部分組成:文本特征提取模塊、知識(shí)圖譜模塊和基于負(fù)樣本的分類器模塊。其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

    圖1 ERECKG深度網(wǎng)絡(luò)結(jié)構(gòu)圖

    1.2 ERECKG算法

    1.2.1 文本特征提取模塊

    眾所周知,高質(zhì)量句子的深度重/隱表示對(duì)于實(shí)體關(guān)系抽取至關(guān)重要。研究發(fā)現(xiàn):在諸多應(yīng)用領(lǐng)域已取得巨大成功的預(yù)訓(xùn)練語(yǔ)言模型ALBERT[20],由于其具有嵌入層參數(shù)分解和跨層參數(shù)共享兩種策略,當(dāng)參數(shù)量較小時(shí),可獲取強(qiáng)大的上下文語(yǔ)義表達(dá)能力,因此引入ALBERT作為文中算法的語(yǔ)句特征提取器。

    對(duì)于一個(gè)關(guān)系陳述三元組Γ=〈s,ei,ej〉,首先在句子s的句首和句尾分別插入兩個(gè)標(biāo)志符號(hào)“[CLS]”和“[SEP]”。然后在該句子中插入兩個(gè)標(biāo)志符〈e1s〉和〈e1e〉以分別標(biāo)記第一個(gè)實(shí)體ei開(kāi)始和結(jié)束位置,以同樣的方式對(duì)語(yǔ)句中的第2個(gè)實(shí)體ej標(biāo)記其開(kāi)始與結(jié)束位置〈e2s〉和〈e2e〉。之后將該標(biāo)記后的句子輸入到ALBERT中,以獲取該句子中每個(gè)單詞(token)的上下文重表示向量。

    按照預(yù)訓(xùn)練語(yǔ)言模型的慣例,用句首標(biāo)志位”[CLS]”的上下文重表示向量作為句子語(yǔ)義的隱狀態(tài)向量hs,兩個(gè)實(shí)體提及包含單詞的上下文重表示的平均分別作為兩個(gè)實(shí)體的隱狀態(tài)向量hei和hej。句子語(yǔ)義的隱狀態(tài)向量和兩個(gè)實(shí)體的隱狀態(tài)向量都被輸入到知識(shí)圖譜模塊,用于構(gòu)建和更新知識(shí)圖譜。此外,兩個(gè)實(shí)體的隱狀態(tài)向量還被用于組成從文本中挖掘的待抽取關(guān)系語(yǔ)句本身信息記為C??紤]到關(guān)系的有向性,抽取語(yǔ)句s中ei到ej的語(yǔ)義關(guān)系與抽取語(yǔ)句s中ej到ei的語(yǔ)義關(guān)系不同,即陳述Γ=〈s,ei,ej〉中的語(yǔ)義關(guān)系與陳述?!?〈s,ej,ei〉中的語(yǔ)義關(guān)系不同。文本信息C(Γ)與C(?!?如下所示:

    C(Γ)=hei⊕hej,C(?!?=hej⊕hei。

    (1)

    1.2.2 知識(shí)圖譜模塊

    為了獲取更豐富的關(guān)于一個(gè)句子中包含實(shí)體對(duì)的信息,采取了在文庫(kù)中跨語(yǔ)句獲取額外信息作為知識(shí)的方式,避免了異構(gòu)信息融合。利用整個(gè)文庫(kù)S中包含的所有實(shí)體作為頂點(diǎn),如果兩個(gè)實(shí)體出現(xiàn)在同一個(gè)語(yǔ)句中,則在這兩個(gè)實(shí)體頂點(diǎn)之間增加一條邊,考慮到兩個(gè)實(shí)體可能同時(shí)出現(xiàn)在多個(gè)語(yǔ)句中,兩個(gè)頂點(diǎn)之間可以有多條邊。按照這種方式,構(gòu)建一張龐大的實(shí)體關(guān)系圖作為知識(shí)圖譜。對(duì)于一個(gè)實(shí)體頂點(diǎn),直接利用圖神經(jīng)網(wǎng)絡(luò)從該實(shí)體頂點(diǎn)的所有鄰居中公平的獲取信息無(wú)法篩選有效信息,即與當(dāng)前待分類的語(yǔ)句相關(guān)性較高的信息。

    如上所述,該問(wèn)題面臨的主要難點(diǎn)在于如何從知識(shí)圖譜中挖掘與待抽取關(guān)系陳述相關(guān)性高的信息??紤]到如果兩個(gè)句子的語(yǔ)義越相似,則這兩個(gè)句子講述的內(nèi)容越相關(guān),于是引入了語(yǔ)義相似度用來(lái)評(píng)價(jià)兩個(gè)句子內(nèi)容的相關(guān)性。當(dāng)抽取一個(gè)句子中兩個(gè)實(shí)體之間的語(yǔ)義關(guān)系時(shí),這個(gè)句子被稱為目標(biāo)語(yǔ)句。對(duì)于其中一個(gè)實(shí)體,通過(guò)從文庫(kù)中其他包含該實(shí)體的語(yǔ)句中挖掘相關(guān)信息,豐富對(duì)該實(shí)體的認(rèn)識(shí)。文庫(kù)中包含該實(shí)體的其他語(yǔ)句被稱為參考語(yǔ)句。在這個(gè)過(guò)程中,計(jì)算目標(biāo)語(yǔ)句與每一條參考語(yǔ)句的語(yǔ)義相似度,用來(lái)評(píng)價(jià)參考語(yǔ)句與目標(biāo)語(yǔ)句講述內(nèi)容是否類似。通過(guò)將語(yǔ)義相似度作為從參考語(yǔ)句中獲取信息的權(quán)重,實(shí)現(xiàn)了對(duì)鄰居信息的篩選,防止不相關(guān)或相關(guān)性較低信息對(duì)關(guān)系抽取精度的影響。為了實(shí)現(xiàn)這一過(guò)程,需要記錄每一條句子的語(yǔ)義信息,于是筆者提出了一種新的語(yǔ)義關(guān)系圖——SRG(Semantic Relation Graph)。

    不同于其它實(shí)體關(guān)系抽取方法,對(duì)于分類語(yǔ)料庫(kù)S中的每個(gè)關(guān)系陳述,僅考慮當(dāng)前關(guān)系陳述中句子的局部信息。SRG將S中的所有關(guān)系陳述中的實(shí)體作為其頂點(diǎn),以實(shí)體間的關(guān)系作為其邊。即:給定S中的一個(gè)關(guān)系陳述Γ=〈s,ei,ej〉,將在深度模型中獲得的實(shí)體ei和ej的隱狀態(tài)hei和hej記錄在對(duì)應(yīng)頂點(diǎn)處,將句子s在神經(jīng)網(wǎng)絡(luò)中獲得的語(yǔ)義信息隱狀態(tài)hs記錄在連接ei和ej的邊上。SRG示意圖如圖2所示。

    圖2 ERECKG從所構(gòu)建的實(shí)體語(yǔ)義關(guān)系圖(文庫(kù)知識(shí)圖譜)中挖掘相關(guān)知識(shí)示例

    為了準(zhǔn)確預(yù)測(cè)關(guān)系陳述Γ=〈s,ei,ej〉的關(guān)系類別標(biāo)簽,基于SRG匯總關(guān)于兩個(gè)實(shí)體(ei,ej)的全局信息。為了在匯總信息的過(guò)程中有效篩選出相關(guān)性較高的信息,降低不相關(guān)或相關(guān)度較低信息對(duì)算法精度的影響,筆者設(shè)計(jì)了一種基于語(yǔ)義相似度的知識(shí)挖掘方法。即分析其他同樣包含ei或ej的句子語(yǔ)義,依據(jù)這些句子與當(dāng)前句子s語(yǔ)義相似程度,為這些句子賦予不同的權(quán)重,從權(quán)重較高的句子中獲取更多的信息。具體如下,令N(ei)為ei在SRG中鄰居頂點(diǎn)集合;V((ei,ej))=N(ei)∪N(ej)-{ei,ej},為{ei,ej}這一對(duì)實(shí)體的鄰居頂點(diǎn)集合;Sij(ei,ej)為包含實(shí)體ei與ej的句子集合,即ei與ej之間的邊集;Ψ(ek,(ei,ej))=Sik(ei,ek)∪Sij(ei,ej),為包含實(shí)體對(duì)(ei,ek)或?qū)嶓w(ej,ek)的句子的集合,即一個(gè)實(shí)體與一對(duì)實(shí)體之間邊的集合。為了從知識(shí)圖譜中挖掘和關(guān)系陳述Γ=〈s,ei,ej〉相關(guān)的知識(shí),考慮到計(jì)算復(fù)雜度,本文在知識(shí)挖掘過(guò)程中只涉及實(shí)體對(duì)(ei,ej)的直接鄰居V((ei,ej))。對(duì)于ek∈V((ei,ej)),計(jì)算ek和實(shí)體對(duì)(ei,ek)每一條邊s′∈Ψ(ek,(ei,ej))與s的語(yǔ)義相似度,作為ek與實(shí)體對(duì)(ei,ej)的相關(guān)度Sk,如下所示:

    (2)

    然后,加和所有的相似度作為實(shí)體ek與實(shí)體對(duì)(ei,ej)的相關(guān)度,即從ek獲取信息的權(quán)重αk,如下所示:

    (3)

    之后,筆者設(shè)計(jì)了一種基于語(yǔ)義相似度的圖神經(jīng)網(wǎng)絡(luò),根據(jù)式(3)獲得的語(yǔ)義相似度在SRG中挖掘與關(guān)系陳述Γ=〈s,ei,ej〉相關(guān)的知識(shí)K(Γ):

    (4)

    其中,W(·)是可學(xué)習(xí)的深度網(wǎng)絡(luò)權(quán)重矩陣,b是偏移。

    例如,給定一個(gè)包含9個(gè)句子的文庫(kù),其實(shí)體集合為{e1,…,e7},語(yǔ)句集合為{s1,…,s9},所構(gòu)建的SRG如圖2右圖所示。當(dāng)要預(yù)測(cè)一對(duì)實(shí)體間關(guān)系時(shí),通過(guò)基于語(yǔ)義相似度的圖神經(jīng)網(wǎng)絡(luò)從構(gòu)建好的SRG中獲取全局信息。例如,當(dāng)預(yù)測(cè)關(guān)系陳述Γ=〈s9,e1,e2〉時(shí),文中為e1和e2分別聚集各自的鄰居信息。其中,N(e1)={e2,e3,e4,e5},N(e2)={e1,e5,e6,e7},V((e1,e2))={e3,e4,e5,e6,e7}。對(duì)于實(shí)體對(duì)(e1,e2)的鄰居集合中的每一個(gè)實(shí)體e∈V((e1,e2)),先計(jì)算其與實(shí)體對(duì)(e1,e2)的相關(guān)度,例如e5和e7,Ψ(e5,(e1,e2))={s3,s4},Ψ(e7,(e1,e2))={s6,s7},計(jì)算S5和S7如下所示:

    S5=cos(s3,s9)+cos(s4,s9),S7=cos(s6,s9)+cos(s7,s9) 。

    (5)

    然后,計(jì)算獲取信息的權(quán)重αk如下所示:

    (6)

    根據(jù)αk從SRG中獲取相關(guān)信息并匯聚,得到關(guān)于關(guān)系陳述Γ的知識(shí)K(Γ):

    K(Γ)=α3e3+α4e4+α5e5+α6e6+α7e7。

    (7)

    上述過(guò)程顯示,雖然文庫(kù)中所有實(shí)體構(gòu)建了一張龐大的網(wǎng)絡(luò)結(jié)構(gòu)圖,但當(dāng)抽取一條語(yǔ)句中實(shí)體對(duì)之間語(yǔ)義關(guān)系時(shí),計(jì)算只涉及到這兩個(gè)實(shí)體各自的鄰居,是一種局部小體量的計(jì)算,這保證了網(wǎng)絡(luò)模型的效率。此外,考慮到二階鄰居實(shí)體頂點(diǎn)包含信息與待分類關(guān)系實(shí)體對(duì)的相關(guān)性較低,不能有效提高實(shí)體關(guān)系抽取精度,甚至?xí)?dǎo)致無(wú)效信息損害精度,所以僅使用一層圖神經(jīng)網(wǎng)絡(luò),獲取與待分類關(guān)系實(shí)體對(duì)最相關(guān)的信息,豐富對(duì)待分類實(shí)體對(duì)的了解,提高關(guān)系抽取精度。

    將關(guān)于關(guān)系陳述Γ的文本信息C(Γ)與關(guān)于Γ的知識(shí)K(Γ)拼接在一起作為關(guān)系陳述的Γ特征F(Γ),然后將F(Γ)輸入到基于負(fù)樣本的分類器模塊。F(Γ)的計(jì)算如下所示:

    F(Γ)=C(Γ)⊕K(Γ) 。

    (8)

    1.2.3 基于負(fù)樣本的分類器模塊

    筆者觀察到數(shù)據(jù)集中混雜大量負(fù)樣本。為了降低負(fù)樣本對(duì)模型的干擾,提升模型精度,擬引入一種負(fù)樣本已知的訓(xùn)練方式。近些年,如何在訓(xùn)練過(guò)程中使用數(shù)據(jù)集中的負(fù)樣本已經(jīng)成了一個(gè)熱點(diǎn)的研究問(wèn)題。HardNet[26]通過(guò)最大化批次中最接近的正樣本和最接近的負(fù)樣本之間的距離,提升精度。NAT[27]強(qiáng)制分類器在負(fù)樣本上為每個(gè)類別輸出相等的概率,避免將負(fù)樣本聚簇。FaceNet[28]提出了一種損失函數(shù)三元組損失的概念,最小化同類樣本特征間距離,最大化不同類樣本特征之間的距離。受FaceNet的啟發(fā),引入了三元組負(fù)樣本損失函數(shù)。

    基于負(fù)樣本的分類器模塊,將Γ特征F(Γ)作為輸入送入softmax分類器,輸出預(yù)測(cè)的Γ的標(biāo)簽,其形式化如下所示:

    p(y|Γ)=soft max(W(F(Γ))+b) ,

    (9)

    (10)

    之后就可以根據(jù)預(yù)測(cè)結(jié)果計(jì)算分類損失。分類損失使用交叉熵?fù)p失函數(shù)如下所示:

    (11)

    此外,基于以三元組損失用于最小化同類樣本特征間的距離,最大化不同類樣本特征之間的距離,可以使得特征提取結(jié)果類內(nèi)耦合,類間分散。令Γ為當(dāng)前待抽取關(guān)系陳述,即錨點(diǎn);Γp為正樣本,即與Γ相同類型的其他關(guān)系陳述,Γn為負(fù)樣本,即與Γ不同類型的其他關(guān)系陳述。三元組損失計(jì)算如下所示:

    Ltriplet=max(d(Γ,Γp)-d(Γ,Γn)+m,0) ,

    (12)

    其中,d為距離函數(shù),采用的是余弦相似度;m是一個(gè)參數(shù),筆者取值0.5。

    最終的損失函數(shù)由這兩部分之和組成:

    L=Lclassify+Ltriplet。

    (13)

    式(13)的損失函數(shù)一方面直接關(guān)注分類精度,另一方面通過(guò)利用負(fù)樣本學(xué)習(xí)拉開(kāi)不同類關(guān)系陳述特征之間的距離,間接地提升了模型的精度。

    2 實(shí)驗(yàn)結(jié)果及分析

    2.1 實(shí)驗(yàn)數(shù)據(jù)集

    使用兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集SemEval-2010 Task 8[21]和TACRED[22]以評(píng)價(jià)筆者提出的算法及基準(zhǔn)算法的性能。

    SemEval-2010 Task 8:包含9個(gè)語(yǔ)義關(guān)系類型和另一種人工關(guān)系類型Other。該關(guān)系不屬于這9個(gè)關(guān)系類型。9種關(guān)系類型分別是Cause-Effect,Component-Whole,Content-Container,Entity-Destination,Entity-Origin,Instrument-Agency,Member-Collection,Message-Topic和Product-Producer。該數(shù)據(jù)集中有10 717個(gè)句子,每個(gè)句子包含實(shí)體,以及句子中的對(duì)應(yīng)關(guān)系類型。關(guān)系是有方向的,這意味著Component-Whole(e1,e2)與Component-Whole(e2,e1)不同。對(duì)于SemEval-2010 Task 8,使用宏平均F1分?jǐn)?shù),它被官方用作評(píng)估指標(biāo)。

    TACRED:是一個(gè)大規(guī)模的實(shí)體關(guān)系抽取數(shù)據(jù)集,有106 264個(gè)例子,來(lái)自每年TAC知識(shí)庫(kù)人口(TAC KBP)挑戰(zhàn)使用的語(yǔ)料庫(kù),通過(guò)新聞通訊社和網(wǎng)絡(luò)文本構(gòu)建。在TAC KBP挑戰(zhàn)中使用的TACRED 包含41關(guān)系類型的例子或者如果沒(méi)有定義的關(guān)系被標(biāo)記為no_relation。這些例子是通過(guò)結(jié)合TAC KBP挑戰(zhàn)提供的人工注釋創(chuàng)建的。數(shù)據(jù)集已經(jīng)被劃分為68 124個(gè)訓(xùn)練實(shí)例、22 631個(gè)開(kāi)發(fā)實(shí)例和15 509個(gè)測(cè)試實(shí)例。對(duì)于TACRED,使用微平均F1分?jǐn)?shù),這是在此數(shù)據(jù)集上使用的主要評(píng)估指標(biāo)。

    2.2 實(shí)驗(yàn)環(huán)境

    所有實(shí)驗(yàn)都是在HP ProDesk 480 G1 MT Mini Tower(Intel(R)Xeon(R)Gold 5115 CPU,2.40 GHz,97 GB RAM和NVIDIA Tesla P40上進(jìn)行的。本文的模型使用Python 3.6 和Pytorch 1.2實(shí)現(xiàn)和測(cè)試的。為了對(duì)特定關(guān)系提取任務(wù)微調(diào)ALBERT模型,并在訓(xùn)練過(guò)程中避免過(guò)擬合,采用了dropout策略。針對(duì)兩種數(shù)據(jù)集SemEval-2010 Task 8和TACRED,在實(shí)驗(yàn)中所設(shè)置的網(wǎng)絡(luò)超參分別為:初始權(quán)重是ALBERTxxlarge,學(xué)習(xí)率是2×10-5,語(yǔ)句最大長(zhǎng)度是128,訓(xùn)練次數(shù)是10次,Dropout率是0.1。

    2.3 算法性能評(píng)價(jià)指標(biāo)

    遵循實(shí)體關(guān)系抽取這一任務(wù)中廣泛使用的衡量標(biāo)準(zhǔn)即F1得分,定義如下所示:

    (14)

    其中,P和R分別是精度和召回率。

    2.4 實(shí)驗(yàn)結(jié)果

    為了有效評(píng)價(jià)文中算法的性能,選擇了幾個(gè)最具代表性的深度實(shí)體關(guān)系算法作為基準(zhǔn)算法。它們是:C-GCN[8],R-BERT[5],BERTEM[6],AGGCN[9],LST-AGCN[10],Student-R[11],F(xiàn)ORESTFT-DDCNN[12]和MVC[15];其中,BERTEM[6]和AGGCN[9]分別采用其論文中結(jié)果最好的變種MTB+ BERTEM和C-AGGCN。實(shí)驗(yàn)中所采用的深度模型分別為CNN[1],Attention Bi-LSTM[3],PA-LSTM[22]。實(shí)驗(yàn)結(jié)果如表1和表2所示。

    表2 在TACRED上的實(shí)驗(yàn)結(jié)果

    表1和表2的實(shí)驗(yàn)結(jié)果表明:(1)在數(shù)據(jù)集SemEval-2010 Task 8上,文中算法的F1性能優(yōu)于現(xiàn)有最好算法MTB+ BERTEM[6],超出1.9%;與現(xiàn)有模型相比,本文最高超出5.7%;平均超出對(duì)比模型4.58%。(2)在數(shù)據(jù)集TACRED上,文中算法的F1性能優(yōu)于現(xiàn)有最好算法MTB+ BERTEM[6],超出3.2%;與現(xiàn)有模型相比,文中算法最高超出9.6%;平均超出對(duì)比模型6.54%。(3)文中算法ERECKG在SemEval-2010 Task 8和TACRED的兩個(gè)基準(zhǔn)測(cè)試中均優(yōu)于所有代表性的基準(zhǔn)算法,表明了筆者提出算法的正確性和有效性。

    2.5 消融研究

    本節(jié)驗(yàn)證語(yǔ)義關(guān)系圖和基于語(yǔ)義相似度的圖神經(jīng)網(wǎng)絡(luò)對(duì)于分類精度的貢獻(xiàn)程度。筆者設(shè)計(jì)了下面實(shí)驗(yàn)。在數(shù)據(jù)集SemEval-2010 Task 8和TACRED上,測(cè)試以下4種模型方案的性能。

    方案1 取關(guān)系陳述Γ的文本信息C(Γ)為特征,僅使用分類損失Lclassify;

    方案2 取關(guān)系陳述Γ的文本信息C(Γ)與Γ的知識(shí)K(Γ)拼接作為Γ的特征,僅使用分類損失Lclassify;

    方案3 取關(guān)系陳述Γ的文本信息C(Γ)為特征,使用分類損失Lclassify與三元組損失Ltriplet之和作為損失函數(shù);

    方案4 取關(guān)系陳述Γ的文本信息C(Γ)與關(guān)于Γ的知識(shí)K(Γ)拼接作為Γ的特征,使用分類損失Lclassify與三元組損失Ltriplet之和作為損失函數(shù)。實(shí)驗(yàn)結(jié)果如表3所示:

    表3 消融研究實(shí)驗(yàn)結(jié)果

    觀察表3中實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:(1)相比第1種方案,第2種方案在兩個(gè)數(shù)據(jù)集上分別取得了優(yōu)于第1種方案1.3%和2.1%的結(jié)果,這說(shuō)明本文設(shè)計(jì)的知識(shí)圖譜模塊可以有效提高算法的分類精度;(2)第3種方案在兩個(gè)數(shù)據(jù)集上分別取得了優(yōu)于第一種方案 0.7% 和1.6%的結(jié)果,這說(shuō)明本文引入的三元組損失同樣可以提高算法的分類精度;(3)第4種方案在兩個(gè)數(shù)據(jù)集上分別取得了優(yōu)于第2種方案 0.6% 和0.8%的結(jié)果,以及優(yōu)于第3種方案1.2%和1.3%的結(jié)果,這說(shuō)明筆者設(shè)計(jì)的知識(shí)圖譜模塊與引入的三元組損失兩者并不沖突,同時(shí)采用可以得到最高的算法精度。

    3 結(jié)束語(yǔ)

    針對(duì)已有深度實(shí)體關(guān)系抽取不能有效抽取實(shí)體間的語(yǔ)義關(guān)系,導(dǎo)致其算法精度較低的缺陷,筆者設(shè)計(jì)了一種新的語(yǔ)義關(guān)系圖作為知識(shí)圖譜和一種基于語(yǔ)義相似度的圖神經(jīng)網(wǎng)絡(luò);在此基礎(chǔ)上,引入負(fù)樣本學(xué)習(xí)及ALBERT預(yù)訓(xùn)練語(yǔ)言模型,提出了一種新的高效的深度實(shí)體關(guān)系抽取算法ERECKG。大量的實(shí)驗(yàn)結(jié)果表明筆者所提出算法的正確性與有效性。

    猜你喜歡
    語(yǔ)句圖譜實(shí)體
    繪一張成長(zhǎng)圖譜
    重點(diǎn):語(yǔ)句銜接
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    精彩語(yǔ)句
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    主動(dòng)對(duì)接你思維的知識(shí)圖譜
    如何搞定語(yǔ)句銜接題
    延长县| 库尔勒市| 陇西县| 天全县| 行唐县| 玉龙| 婺源县| 象山县| 盱眙县| 武宣县| 天长市| 孟村| 高雄市| 新乐市| 元江| 芒康县| 岑巩县| 乌什县| 涿鹿县| 海原县| 枣强县| 青田县| 普宁市| 浦县| 东乡族自治县| 乌什县| 当阳市| 肇州县| 波密县| 京山县| 青铜峡市| 宜兴市| 西和县| 专栏| 马鞍山市| 天柱县| 襄汾县| 安福县| 崇左市| 梅州市| 精河县|