基于圖神經(jīng)網(wǎng)絡的實體對齊表示學習方法比較研究

2023-10-29 04:20:28曾維新唐九陽

計算機與生活 2023年10期

彭鐄，曾維新，周杰，唐九陽，趙翔

國防科技大學大數(shù)據(jù)與決策實驗室，長沙 410073

知識圖譜（knowledge graphs，KG）是以三元組的形式（頭實體、關系、尾實體）存儲和表示知識的一種圖數(shù)據(jù)庫，其中每個節(jié)點都代表真實世界中的某個唯一的對象，而邊則表示這些對象之間的關系。知識圖譜已被廣泛用于改進各種下游任務，例如語義搜索[1]、推薦系統(tǒng)[2-3]和自然語言問答[4-5]。在實際應用中，不同的知識圖譜通常是從不同數(shù)據(jù)來源獨立構(gòu)建而得，因此難以覆蓋某一領域的全部知識[6]。為提高知識圖譜的完備性，一種常用的做法是將其他知識圖譜融合進來，因為這些知識圖譜可能包含額外的或者互補的信息[7]。在這一過程中，一個關鍵的步驟是識別出兩個不同知識圖譜（分別被稱為源知識圖譜和目標知識圖譜）中的等價實體，即指向真實世界中相同對象的實體[8]。這一任務被稱為實體對齊（entity alignment，EA）。

當前的實體對齊方法大都假設不同知識圖譜中的相同實體具有相似的鄰接結(jié)構(gòu)信息，然后通過表示學習和對齊推理兩個步驟完成實體對齊任務[9]。其中，表示學習旨在將知識圖譜表示為低維向量，根據(jù)向量之間的關聯(lián)建立不同知識圖譜中實體的關聯(lián)。表示學習的效果對最終對齊的結(jié)果有著較大影響，因此當前的大多數(shù)研究都致力于提升表示學習的準確性。實體對齊中表示學習的早期代表方法為TransE[10]，該方法假設每個三元組(h,r,t)滿足近似等式h+r≈t，并根據(jù)該假設學習三元組的表示。后續(xù)提出的改進方法TransH[11]、BootEA[12]、MTransE[13]等也都是對該假設的變換。而近期的實體對齊工作，大多都采用圖神經(jīng)網(wǎng)絡（graph neural network，GNN）[14]來學習知識圖譜的表示，主要通過建模實體的鄰居特征來生成實體的向量表示。具體地，基于圖神經(jīng)網(wǎng)絡的方法通過消息的傳遞與聚合，使得每個實體的表示都融合了其鄰居實體、關系或其他類型的特征信息，從而生成準確的實體表示[15]。目前基于圖神經(jīng)網(wǎng)絡的方法已從初始的一跳鄰居實體特征的學習，發(fā)展到了對更大范圍的多種特征的學習，并且附加了輔助增強學習效果的模塊[16-19]。

圖神經(jīng)網(wǎng)絡由于模型結(jié)構(gòu)與知識圖譜的相容性和強大的圖結(jié)構(gòu)信息的學習能力，在實體對齊的表示學習中得到了廣泛的應用，發(fā)展出了結(jié)構(gòu)紛雜多樣的各種方法。為了以一個統(tǒng)一的便于理解的框架描述這些方法，剖析其內(nèi)部結(jié)構(gòu)和工作原理，并為未來方法的優(yōu)化改進提供參考，本文對這些模型進行了歸納與比較研究。本文的主要工作可以總結(jié)為以下三點：

（1）提出了一種描述這類表示學習方法的通用框架，并選取了近期具有代表性的工作進行總結(jié)和對比，根據(jù)該通用框架對這些工作中的表示學習模型的各個部分進行了解構(gòu)和歸納。

（2）進行了這些模型之間的對比實驗和表示學習模型內(nèi)部結(jié)構(gòu)的消融和替換實驗，揭示了當前方法的優(yōu)缺點，為后續(xù)的研究提供參考。

（3）針對當下興起的語言大模型與知識圖譜結(jié)合的研究方向，通過初步的實驗指出了該場景下現(xiàn)有表示學習方法的問題以及下一步需要研究的方向。

1 模型概述

1.1 通用框架

為更好地理解當前基于圖神經(jīng)網(wǎng)絡的表示學習方法，本文提出一個通用框架來描述這些方法，如圖1所示。該框架包括六部分：預處理模塊、消息傳遞模塊、注意力模塊、聚合模塊、后處理模塊和損失函數(shù)。

圖1 表示學習通用框架Fig.1 Universal framework of representation learning

首先是預處理階段，旨在對原始知識圖譜的三元組信息進行處理，以生成初始的實體或關系向量表示；然后通過一個或若干基于圖神經(jīng)網(wǎng)絡的模型獲得更好的表示。一個圖神經(jīng)網(wǎng)絡通常包含三個步驟，即消息傳遞、注意力和聚合。消息傳遞過程基于圖譜的結(jié)構(gòu)、屬性和語義等信息，提取鄰居實體或關系的特征，用于后續(xù)的特征整合與更新；注意力模塊旨在計算不同特征的權重來進而優(yōu)化鄰接信息的整合過程[20-21]；聚合模塊則基于前述所提取的鄰接特征以及注意力機制計算出的權重來聚合特征，并得到更新后的向量表示[22-23]。一些方法還通過后處理操作，增強得到的最終表示。在訓練階段，損失函數(shù)決定了表示學習模型訓練的方向。

1.2 結(jié)構(gòu)比較

按照上述通用框架，本文選取了十種近期實體對齊工作中的表示學習模型，并總結(jié)如表1所示。下面分別闡述這六部分的現(xiàn)狀：

（1）預處理模塊。部分方法未進行預處理操作，直接采用隨機的初始化方法。其他方法主要分為兩類：一類是使用預訓練模型，輸入名稱或文本描述來生成初始表示；另一類則是使用較為簡單的GNN 學習結(jié)構(gòu)信息來生成初始表示。

（2）消息傳遞模塊。從表1中可以看出大部分模型采用了線性變換的方法，即用一個可學習的參數(shù)矩陣乘以鄰居特征。其他消息傳遞的方法則包括多頭鄰居消息的拼接，直接使用鄰居特征等。

（3）注意力模塊。根據(jù)計算公式中相似度的計算方式，可對這些模型進行分類。其中大部分模型采用了拼接乘積的形式計算中心實體和鄰居的相似度。具體而言，便是將中心實體與鄰居的特征進行拼接，然后乘以一個可學習的參數(shù)向量。還有部分模型采用了內(nèi)積的形式，通過計算中心實體與鄰居特征的內(nèi)積來得到兩者的相似度。

（4）聚合模塊。按照計算公式中聚合的對象對這些模型進行了分類。從表1 中可以看到幾乎所有模型都聚合了1跳鄰居實體或者關系的信息，同時也有個別模型結(jié)合了多跳鄰居的信息。

（5）后處理模塊。大多數(shù)模型采用了拼接GNN中各隱藏層的中間結(jié)果來強化最終的表示，還有一些模型使用了如門控機制[34]的自適應策略來結(jié)合不同特征，獲得最終的表示。

（6）損失函數(shù)。當前絕大多數(shù)模型均在訓練時使用基于邊緣的損失函數(shù)，使表示學習模型生成的正例樣本對距離盡可能近，且負例樣本對距離盡可能遠。有的模型在此基礎上加上了TransE損失函數(shù)，有的則利用歸一化和LogSumExp操作[35]進行改進。

2 模型詳述

為了更詳細地解析當前表示學習模型的結(jié)構(gòu)，本文將對表1 中十種模型的各個部分進行闡述。其中圖神經(jīng)網(wǎng)絡中的各個步驟可概括為如下公式：

2.1 基于門控多跳鄰接聚合的對齊模型AliNet

AliNet利用了多跳鄰居實體來進行實體表示[24]，其方法如下。

在聚合模塊，使用了多跳的聚合策略。對于兩跳的聚合，公式為：

其中N2表示兩跳鄰居。之后將多跳的聚合結(jié)果合成實體表示，一跳和兩跳信息聚合如下：

對于注意力部分，該模型使用中心實體與鄰居實體表示的內(nèi)積來計算不同鄰居的注意力權重：

在消息傳遞模塊，該模型中鄰居實體特征的提取是通過一個簡單的線性變換實現(xiàn)的，即Messaging(i,j)=，其中Wq表示第q跳鄰居的變換矩陣。

后處理部分，最終的實體表示由GNN 中所有層的輸出拼接而成：

其中⊕表示拼接操作，norm(?)為L2歸一化函數(shù)。其損失函數(shù)定義為：

其中A-是隨機采樣的負樣本的集合，||?||表示L2范數(shù)，[?]+=max(0,?)。

2.2 面向跨語言知識圖譜的實體對齊方法MRAEA

該工作提出利用關系信息促進實體表示學習過程的模型MRAEA（meta relation aware entity alignment）[25]。對于預處理模塊，首先為每個關系生成一個反向關系，得到擴充的關系集合R，然后通過平均和拼接鄰居實體和鄰居關系的嵌入得到初始的實體特征：

其中實體和關系的嵌入均為隨機初始化得到。

其中Mi,j表示由ei指向ej的關系，σ為LeakyReLU激活函數(shù)。值得注意的是，該方法同樣也可以用于多頭注意力機制。

對于消息傳遞，這一過程中的鄰居實體特征即為預處理階段對應的特征。后處理部分，最終實體表示由不同層的輸出拼接而成：

損失函數(shù)定義為：

2.3 基于關系鏡像變換的實體對齊RREA

該工作提出了使用關系鏡像變換聚合特征來學習實體表示的模型RREA（relational reflection entity alignment）[26]。

在聚合模塊，實體表示計算公式如下：

對于消息傳遞，這一過程中的鄰居實體特征即為預處理階段對應的特征，即Msg(i,j,k)=。

后處理階段，與前述方法類似，網(wǎng)絡中不同層的輸出被拼接在一起形成表示，然后將實體表示與其鄰居關系的嵌入拼接在一起得到最終的實體表示：

損失函數(shù)定義為：

2.4 基于可靠路徑推理和關系感知異構(gòu)圖轉(zhuǎn)換的實體對齊RPR-RHGT

RPR-RHGT（reliable path reasoning-relation aware heterogeneous graph transformer）引入了基于元路徑的相似度計算框架，將預對齊的種子實體的鄰居當作可靠的路徑。關于可靠路徑的生成參考文獻[27]第3.3節(jié)。

對于預處理模塊，該模型首先通過聚合鄰居實體的表示來生成關系嵌入：

其中Hr和Tr分別為關系r連接的所有頭實體和尾實體集合，bh和bt分別是頭尾實體的權重系數(shù)，||表示拼接操作，初始的實體表示e0由實體名稱經(jīng)過一個預訓練的文本嵌入得到。

在聚合模塊，實體h的表示由鄰居實體傳遞的消息經(jīng)過注意力系數(shù)加權后得到：

其中⊕表示覆蓋操作。

注意力部分，多頭注意力計算方式如下：

消息傳遞部分，多頭消息傳遞計算方式如下：

其中V_Lineari是尾實體的線性投影，與實體對應關系的表示拼接后得到第i頭的消息。

后處理階段，該模型通過殘差連接[37]將結(jié)構(gòu)特征與名稱特征結(jié)合在一起?；陉P系結(jié)構(gòu)Trel和路徑結(jié)構(gòu)Tpath，可以分別生成基于關系的實體表示Erel和基于路徑的實體表示Epath。

最終的總損失函數(shù)為基于邊緣的排序損失函數(shù)：

其中L 為種子實體對，L′為負樣本實體對，λ1是邊緣超參數(shù)，||?||1為L1 范數(shù)，Lpath的定義與Lrel類似。θ是控制兩種損失權重的超參數(shù)。

2.5 面向?qū)嶓w對齊的鄰居匹配網(wǎng)絡NMN

NMN（neighborhood matching network）同時利用實體的拓撲結(jié)構(gòu)和鄰居的差異信息來獲得更好的實體表示[28]。

在預處理階段，該工作使用了谷歌翻譯將實體名稱統(tǒng)一翻譯為英語[38]，然后使用預訓練好的向量[39]作為輸入。接著用一個簡單的帶有highway 網(wǎng)絡[34]的圖卷積神經(jīng)網(wǎng)絡（graph convolutional network，GCN）對實體表示進行預訓練，詳細設置可參見文獻[28]第3.2 節(jié)，得到的實體i的表示記為hi。利用預訓練得到的實體表示，NMN 提出一種對實體的鄰居進行采樣的方法，形式化地，該方法給出了實體i的第j個鄰居被采樣的概率分布，之后還為每個實體挑選了若干候選對齊實體，E2為目標知識圖譜的實體集合，細節(jié)描述參見文獻[28]第3.3節(jié)和第3.4節(jié)。

聚合模塊，NMN 對跨圖譜的鄰居信息進行了傳遞和聚合。給定實體對(ei,cik)，p和q分別是ei和cik的鄰居，計算公式為：

消息傳遞部分，NMN 通過鄰居之間的差異傳遞特征，即Msg(p,q)=hp-hq。因此mp實際衡量了中心實體的鄰居p與對應候選實體的鄰居的差異程度。

注意力部分，NMN采用內(nèi)積來計算注意力權重，公式為：

后處理階段，首先將聚合得到的向量與實體表示拼接得到鄰居的增強表示，β為超參數(shù)。然后將鄰居的增強表示累加[40]：

其中αip即為實體i的鄰居p被采樣的概率，σ()為sigmoid函數(shù)，Wg和WN均為可學習參數(shù)。最終實體表示為

損失函數(shù)為基于邊緣的損失，與式（12）類似，不再贅述。

2.6 面向全局實體對齊的關系感知圖注意力網(wǎng)絡RAGA

RAGA（relation-aware graph attention network）利用自注意力機制將實體信息傳遞給關系，之后再把關系信息傳遞回實體，以此增強實體表示的質(zhì)量[29]。

在預處理階段，使用預訓練好的向量[39]作為輸入，并通過一個兩層的帶有highway 網(wǎng)絡的GCN 編碼結(jié)構(gòu)信息。詳細實現(xiàn)可參見文獻[29]第4.2節(jié)。

對于聚合模塊，在RAGA 模型中有三個主要的GNN網(wǎng)絡。記由預處理部分得到的實體ei的初始表示為hi。第一個GNN 通過聚合所有與其相連的頭實體和尾實體來得到關系的表示。對于關系rk，其所有頭實體的聚合計算過程與式（10）類似，其聚合對象為關系rk的所有頭實體，以及與這些頭實體對應的所有尾實體。對于尾實體的聚合通過一個類似的過程得到。關系的表示則為

之后，第二個GNN 通過把關系信息聚合回實體獲得關系感知的實體表示。對于實體ei，所有其向外的關系嵌入的聚合過程如下：

最后，第三個GNN 將關系感知的實體表示作為輸入，再對一跳鄰居實體進行聚合得到輸出

注意力部分，對應三個GNN網(wǎng)絡，RAGA模型中有三個注意力權重的計算。在第一個GNN 中，頭尾實體分別進行線性變換后拼接得到注意力中的相似度，其中a1是可學習的注意力向量，σ為LeakyReLU 函數(shù)。在第二個GNN 中，實體的表示與其鄰居關系被直接拼接在一起，沒有進行線性變換。第三個GNN 中注意力的計算方式，即Att3(i,j)，與上述類似，只是將鄰居關系替換為鄰居實體，不再贅述。

消息傳遞部分，該模型中只有第一個GNN 使用了線性變換作為消息傳遞的方式，即Msg1(i)=Whi，其中W在聚合頭實體時為Wh，聚合尾實體時為Wt。

后處理階段，最終增強的實體表示是第二個和第三個GNN輸出的拼接

損失函數(shù)定義類似公式（12）。

2.7 基于結(jié)構(gòu)、屬性和值的實體對齊AttrGNN

該工作提出一種屬性值編碼器和將知識圖譜劃分成子圖來對不同類型的屬性三元組進行有效的建模[30]。

在預處理階段，根據(jù)屬性類型的不同，知識圖譜被劃分為四個子圖：第一個子圖包含所有“名稱”屬性的三元組，第二個和第三個子圖分別包含屬性值為文本和數(shù)值類型的三元組，第四個子圖則包含關系三元組。在跨語言數(shù)據(jù)集上，知識圖譜中所有文本都通過谷歌翻譯轉(zhuǎn)換為英語。文中使用了預訓練的BERT（bidirectional encoder representations from transformers）模型[41]生成每個屬性三元組中屬性值的向量表示。第一個子圖中實體的初始表示為其名稱的嵌入向量，而其他三個子圖中的實體和屬性均被隨機初始化為相同固定長度的向量。

每個子圖的實體表示均由兩層有殘差連接[37]的圖神經(jīng)網(wǎng)絡生成。對于聚合模塊，AttrGNN在圖神經(jīng)網(wǎng)絡的第二層使用簡單的平均值操作聚合實體與其鄰居的特征[42]：

其中W2為可學習參數(shù)，mean(?)為取均值操作，σ為ReLU激活函數(shù)。

而在第一層中，實體的表示由實體的屬性與屬性值聚合生成：

在消息傳遞部分，AttrGNN將實體的所有屬性和屬性值進行拼接，并通過線性變換提取特征：

其中W1為可學習權重參數(shù)，aj和vj分別是該實體的第j個屬性和對應的屬性值的向量。

注意力部分，計算公式與式（4）類似，其中相似度部分由實體的初始表示與屬性向量拼接計算得到，即，其中u為可學習的注意力向量，為預處理階段得到的實體的初始表示。

對于損失函數(shù)，AttrGNN為每個子圖分別計算損失，公式與式（9）類似，其中使用的距離函數(shù)為余弦距離dis(?,?)=1-cos(?,?)。

2.8 無負采樣的實體對齊方法PSR

PSR（high performance，scalability and robustness）利用鏡像變換對知識圖譜進行表示學習，并提出一種無需負采樣的損失函數(shù)和半監(jiān)督的訓練方法[31]。

在聚合模塊，受RREA 啟發(fā)，PSR 將關系鏡像變換運用于消息傳遞和注意力計算中。具體地，定義變換函數(shù)如下：

受BYOL（bootstrap your own latent）[44]和SimSiam[45]的啟發(fā)，PSR 沒有進行負采樣，而是采用凍結(jié)部分反向傳播計算的方式進行訓練，其損失函數(shù)定義如下：

2.9 基于歸一化硬樣本挖掘的雙注意力匹配網(wǎng)絡Dual-AMN

Dual-AMN（dual attention matching network）提出利用圖譜內(nèi)和跨圖譜的信息來學習實體表示[32]。該工作通過構(gòu)造一組虛擬節(jié)點，即代理向量，在圖譜之間進行消息傳遞和聚合。

注意力部分，對于圖譜內(nèi)信息的學習，注意力權重通過關系rk的表示hrk乘以可學習參數(shù)計算而來，該表示由He_initializer[46]隨機初始化。對于跨圖譜信息的學習，通過計算實體與代理向量之間的相似性來計算注意力權重：

消息傳遞部分，對于第一個GNN，消息傳遞的過程與RREA相同，即用一個關系鏡像變換矩陣來傳遞鄰居特征。對于第二個GNN，鄰居實體的特征被表示為實體與代理向量之間的差：

受批歸一化能夠減小數(shù)據(jù)協(xié)方差偏移的啟發(fā)[47]，該模型提出使用歸一化操作，將樣本損失的均值和方差進行修正并減小對超參數(shù)數(shù)值大小的依賴，得到新的損失最后，總損失定義如下：

其中P為正樣本的集合，E1和E2分別是兩個圖譜的實體集。

2.10 語義驅(qū)動嵌入學習的高效實體對齊SDEA

SDEA（semantic driven entity embedding method for entity alignment）使用雙向門控循環(huán)單元（bidirectional gated recurrent unit，BiGRU）來捕獲鄰居間的相關性和生成實體表示[33]。

在預處理階段，該方法用屬性嵌入模塊來捕獲實體的關聯(lián)。具體地，給定實體ei，首先將其屬性的名稱和描述拼接起來，記為S(ei)。然后將S(ei)送入BERT[41]模型生成屬性嵌入Ha(ei)。

在聚合模塊，該模型在聚合鄰居信息中使用了注意力機制：

由于SDEA將鄰居當成一個序列處理，t實際表示ei的第t個鄰居實體，而Messaging()是一個BiGRU[48]。

該模型通過簡單的內(nèi)積來計算注意力：

而在消息傳遞部分，與其他模型不同，SDEA 捕獲了鄰居之間的相關性，而實體ei的所有鄰居被當成一個序列作為BiGRU 的輸入。給定實體ei，記xt為第t個輸入嵌入（即ei的第t個鄰居的屬性嵌入，由預處理部分得到），而ht表示第t個隱藏單元的輸出。將這些嵌入輸入BiGRU，得到兩個方向的輸出，而消息傳遞部分的輸出，是兩個方向之和：

后處理階段，在獲得了屬性嵌入Ha(ei)和關系嵌入Hr(ei)后，兩者被拼接起來并送入一個MLP層中，得到Hm(ei)=MLP([Ha(ei)||Hr(ei)])。最終，Ha(ei)、Hr(ei)和Hm(ei)被拼接在一起得到Hent(ei)=[Hr(ei)||Ha(ei)‖Hm(ei)]，而該表示被用于對齊階段。

該模型使用如下基于邊緣的排序函數(shù)作為損失函數(shù)來訓練屬性嵌入模塊：

其中D是訓練集，Ha和分別是源圖譜和目標圖譜的屬性嵌入，β>0 是用于分離正負樣本對的邊緣超參數(shù)。關系嵌入模塊的訓練使用了類似式（38）的損失函數(shù)，Ha(ei)被替換為[Hr(ei)||Hm(ei)]。

2.11 小結(jié)

本文詳細介紹了十種近期實體對齊的表示學習方法的結(jié)構(gòu)，可以看出不同方法的差異主要表現(xiàn)在利用信息的種類和方式上。

利用信息的種類方面，大多數(shù)方法都是利用兩種信息進行實體表示的學習。AliNet、MRAEA、AttrGNN分別是較早期利用多跳鄰居信息、關系信息和屬性信息的代表；NMN 則發(fā)掘了跨圖譜的實體差異信息；而Dual-AMN 和RPR-RHGT 則是利用了三種信息進行學習，其中RPR-RHGT 提出了利用路徑信息，其本質(zhì)上是增強的關系和結(jié)構(gòu)信息。

利用信息的方式方面，較早期的方法AliNet、AttrGNN 均只使用一個GNN 進行實體表示的學習。MRAEA 和NMN 則在預處理階段使用了額外的GNN 輔助學習。RREA 雖然其他部分沒有太大亮點，但在消息傳遞過程中對鄰居信息提取方式進行了簡潔而有效的改進，也影響了后續(xù)的一些工作。PSR則是對損失函數(shù)進行了創(chuàng)新性的改進，簡化了模型訓練。RAGA 使用了三個GNN，對結(jié)構(gòu)和關系信息進行了更充分的利用。SDEA 則另辟蹊徑，使用BiGRU取代GNN進行消息傳遞，提升對鄰居信息的利用率。

3 實驗

本章首先進行模型之間的總體比較實驗來展示當前表示學習方法的效果，之后對表示學習中的六部分分別進行實驗，比較采用不同方法和結(jié)構(gòu)的效果。

3.1 實驗設置

實驗中使用最為常用的DBP15K 數(shù)據(jù)集[38]來評估模型。該模型分為中英數(shù)據(jù)集（ZH-EN）、日英數(shù)據(jù)集（JA-EN）和法英數(shù)據(jù)集（FR-EN），并按照較為常見的設置，將30%的種子實體對用作訓練集[8]。

實驗在Intel Core i7-12700F CPU 和NVIDIA GeForce RTX 3090 GPU 上進行，內(nèi)存大小為32 GB，顯存為24 GB。在模型的總體比較實驗中，在相同的設置下使用十種模型的公開源代碼復現(xiàn)了結(jié)果。特別地，為了比較的公平性，實驗中修改和統(tǒng)一了這些模型的對齊部分，強制這些模型使用L1距離和貪婪算法進行對齊推理。由于不同的模型有各種不同的超參數(shù)，實驗中只對一些共同的參數(shù)進行了統(tǒng)一，例如邊緣損失函數(shù)中的邊緣λ=3，負采樣數(shù)量k=5。對于其他參數(shù)，實驗中保持原論文的默認設置。在進一步的消融和替換實驗中，選擇了RAGA 模型作為基底模型。

根據(jù)現(xiàn)有研究，使用Hits@k（k=1，10）和平均倒數(shù)排序（mean reciprocal rank，MRR）作為評估指標。Hits@k和MRR 越高，效果越好。在實驗中，將三次獨立運行結(jié)果的平均值作為記錄的結(jié)果。

3.2 總體比較結(jié)果與分析

首先比較了十種現(xiàn)有模型的效果，如表2 所示，其中最好的結(jié)果用粗體標出，次優(yōu)的結(jié)果用下劃線標出。從結(jié)果可以得出以下結(jié)論：

（1）沒有模型在三個數(shù)據(jù)集上都達到最好的效果。這表明當前方法在不同情況下均有各自的優(yōu)勢和缺陷。

（2）SDEA在中英數(shù)據(jù)集和法英數(shù)據(jù)集上取得了最好的效果，而RPR-RHGT 在日英數(shù)據(jù)集上效果最好?？紤]到這兩種模型均使用了預訓練模型來生成輸出嵌入，并提出了獨特的方法來提取鄰居特征，能夠得出使用預訓練模型有益于表示學習，并且有效的消息傳遞對總體的結(jié)果很重要的初步結(jié)論。

（3）在法英數(shù)據(jù)集上NMN取得了第二的Hits@1指標，RAGA則在Hits@10和MRR指標上達到了第二的效果。RAGA 在日英數(shù)據(jù)集上是第二優(yōu)，而Dual-AMN 在中英數(shù)據(jù)集上是第二優(yōu)。注意到RAGA 和NMN 也都用了預訓練模型，這進一步驗證了使用預訓練模型進行初始化的有效性。Dual-AMN 使用代理向量幫助捕獲跨圖譜信息，以此提高了表示學習的能力。

（4）AliNet在三個數(shù)據(jù)集上的效果都最差。因為AliNet是唯一聚合了兩跳鄰居實體的模型，結(jié)合一些已有研究的結(jié)論[49-50]，這可能表示聚合兩跳鄰居信息難以帶來性能的提升，而這一點在后續(xù)對聚合部分的實驗中也有印證。

3.3 進一步的實驗

為了比較表示學習各部分的不同方法，接下來以RAGA模型為基礎進行了進一步的實驗。

3.3.1 預處理部分

RAGA以預訓練向量為輸入，并通過一個兩層帶highway結(jié)構(gòu)的GCN網(wǎng)絡生成初始表示。為了檢驗預訓練向量與結(jié)構(gòu)嵌入的效果，將這兩部分分別移除，并進行比較。表3展示了結(jié)果，其中“w/o Pretrained”表示移除了預訓練向量，“w/o GNN”表示移除了GNN，“w/o Both”表示移除了整個預處理部分。從結(jié)果可以看到，移除結(jié)構(gòu)特征和預訓練向量后模型的表現(xiàn)明顯下降，而移除了整個預處理部分的模型達到了最差的效果。由此可以得出結(jié)論，在初始化嵌入時提取有用的特征是十分重要的。更進一步地，可以看到預訓練模型中提供的語義特征要比結(jié)構(gòu)向量更有用，這驗證了預訓練向量中蘊含的先驗知識的有效性。使用結(jié)構(gòu)向量來初始化的效果相對不太明顯，主要是因為表示學習中接下來的步驟同樣也可以提取結(jié)構(gòu)特征來生成有用的表示。

表3 使用RAGA對預處理部分的分析Table 3 Analysis of pre-processing module using RAGA

3.3.2 消息傳遞部分

在消息傳遞部分，線性變換是使用最為廣泛的方法。RAGA 僅在第一個GNN 中使用了線性變換，因此該部分設計了兩種變體，一種是將線性變換完全去除，另一種則是給剩下的GNN 加上額外參數(shù)。表4 展示了實驗結(jié)果，后綴“+Linear Transform”表示在消息傳遞部分使用了更多線性變換的RAGA，而“-Linear Transform”表示完全不使用線性變換。此外，還比較了這些變體的收斂速度并繪制了圖2。從表中可以明顯看到線性變換能夠提升RAGA 的性能，特別是在日英和法英數(shù)據(jù)集上，Hits@1分別提升了1.1個百分點和1.2個百分點。

表4 使用RAGA對消息傳遞部分的分析Table 4 Analysis of messaging module using RAGA

圖2 不同變體收斂速度比較Fig.2 Comparison of convergences of different variants

此外，沒有使用變換的RAGA 性能下降很明顯。這證明了消息傳遞的改進能夠提升表示學習的能力。圖2 進一步表明線性變換還能加快模型收斂速度，可能是因為引入了額外的參數(shù)。

3.3.3 注意力部分

對于注意力模塊，當前有兩種主要的實現(xiàn)方式，即內(nèi)積和拼接。為了比較這兩種方式，實驗中將RAGA 中的拼接計算改成了內(nèi)積計算，變體后綴為“-Inner product”，將vT[ei||ej]改成(M1ei)T(M2ej)，其中M1、M2是可學習矩陣。實驗還設計了移除注意力機制的變體，后綴名為“w/o Attention”，用取均值操作代替注意力系數(shù)的計算。如表5前三行所示，兩種變體模型與原始模型表現(xiàn)幾乎相同?？紤]到預處理部分生成的初始表示的影響，實驗移除了預處理部分的預訓練向量并進行了相同的比較。

表5 使用RAGA對注意力部分的分析Table 5 Analysis of attention module using RAGA

如表5后三行所示，移除了注意力機制后模型表現(xiàn)有所下降，因此得出初步結(jié)論，注意力機制可能在缺乏先驗知識的情況下能夠發(fā)揮更好的作用。至于注意力計算的兩種方式，內(nèi)積計算比拼接計算在中英數(shù)據(jù)集上表現(xiàn)更好，但在日英和法英數(shù)據(jù)集上表現(xiàn)更差，表明這兩種方式在不同數(shù)據(jù)集上作用不同。

3.3.4 聚合部分

對于聚合部分，因為RAGA 同時結(jié)合了一跳鄰居實體和關系信息來更新實體表示，實驗測試了兩種變體，其中一種增加了兩跳鄰居實體信息（“-2hop”），一種移除了關系表示（“w/o rel.”）。結(jié)果如表6 所示?？梢钥吹揭瞥P系表示學習后的模型表現(xiàn)明顯下降，這表明集成關系表示能夠確實增強模型的學習能力。此外，在加入兩跳鄰居實體后，模型的表現(xiàn)稍有下降，說明并不是所有實體都是有用的，兩跳鄰居信息會引入噪聲影響模型學習效果。

3.3.5 后處理部分

RAGA 通過將關系感知的實體表示和一跳鄰居聚合來得到最終實體表示。實驗測試了兩種變體，“-highway”是將拼接操作替換成highway 網(wǎng)絡，“w/o post-processing”是將關系感知的實體表示去除，即不進行后處理。

從表7 的實驗結(jié)果中可以看到移除了后處理部分的模型表現(xiàn)下降，表明后處理操作能夠增強最終表示并提升對齊效果。在把拼接操作替換成highway網(wǎng)絡后，模型在日英數(shù)據(jù)集上表現(xiàn)下降，而在法英數(shù)據(jù)集上表現(xiàn)上升，說明兩種后處理方式并無明顯的絕對優(yōu)劣之分。

表7 使用RAGA對后處理部分的分析Table 7 Analysis of post-processing module using RAGA

3.3.6 損失函數(shù)部分

RAGA 在訓練中使用了基于邊緣的損失函數(shù)。實驗考慮了另外兩種較典型的方法，即基于TransE的損失和邊緣損失+TransE 損失。具體地，基于TransE 的損失公式為，其中(hk,rk,tk)是隨機采樣的三元組。

從表8所示的結(jié)果可以看出，模型在使用或添加了TransE 損失后表現(xiàn)下降，這主要是因為TransE 假設并不通用。例如，在本次實驗使用的RAGA中，關系的表示實際上是由頭實體和尾實體相加得到的，這與TransE的假設存在沖突。

表8 使用RAGA對損失函數(shù)部分的分析Table 8 Analysis of loss function module using RAGA

3.4 實驗總結(jié)

本章進行了十個表示學習模型的總體比較實驗，之后為了比較每個模塊的不同方法，選取RAGA作為基底模型，分別對六個模塊進行了消融和替換實驗。實驗結(jié)果表明：

（1）預訓練模型生成的初始向量在提升模型性能上能夠發(fā)揮重要作用。在模型的整體比較實驗中，表現(xiàn)最好的兩個模型均使用了預訓練模型來生成實體的初始表示。在預處理部分的消融實驗中，移除了初始預訓練向量的模型性能顯著下降。這些都表明預訓練模型中包含的先驗知識對模型的學習有非常大的幫助。

（2）消息傳遞方法的改進能夠增強模型表示學習的能力。在總體比較實驗中，兩個表現(xiàn)最好的模型都使用了獨特的消息傳遞方式；在消息傳遞部分的實驗中，使用更多線性變換的模型比更少的模型性能有所提升。這表示未來的研究可以聚焦于改進消息傳遞的方式。

（3）當前注意力部分和后處理部分的方法較少，但它們是必要的。后處理部分能夠增強實體的最終表示，而注意力機制能夠在缺乏先驗知識的情況下幫助優(yōu)化聚合過程。另外，這兩部分都有兩種不同的方法，但是它們都有自己的優(yōu)勢，其效果依賴于具體情況和數(shù)據(jù)。

（4）在聚合部分和損失函數(shù)部分，有些方法并不通用。在聚合部分的實驗中增加了兩跳鄰居信息的變體和在后處理部分實驗中增加了TransE損失的變體都出現(xiàn)了性能下降。這證明了這兩部分并不是越復雜的結(jié)構(gòu)越好，甚至可能會造成更差的結(jié)果。

4 大模型方向探究

近年來預訓練語言大模型（pretrained language models，PLM）因其強大的通用能力，被廣泛用于各種下游任務中。而在一些文本生成類任務中，預訓練語言模型表現(xiàn)出了具有真實世界的知識的特征。于是將預訓練語言模型當作一種參數(shù)化的知識庫，并通過各種方式將其中的知識提取出來成為近期新興的研究方向[51]。

如何將預訓練語言模型中提取的知識與現(xiàn)有知識圖譜進行融合，現(xiàn)有表示學習在這些知識上的效果如何，本文對這些問題進行了初步實驗探究。本章設計了一個簡單的實驗，首先用LAMA 數(shù)據(jù)集[52]中的三元組構(gòu)建了一個簡單的知識圖譜作為現(xiàn)有知識圖譜，然后選擇其中的一些頭實體和關系，利用OptiPrompt[53]構(gòu)造提示詞，其中包含了頭實體和關系的內(nèi)容，以及一個需要由大模型填補的空白，將提示詞輸入預訓練的BERT 模型，使BERT 輸出后續(xù)內(nèi)容，即為尾實體的名稱。例如，三元組，構(gòu)造包含其頭實體與關系的提示詞“Dante was born in[MASK]”，其中[MASK]為需要大模型輸出的內(nèi)容，若其輸出“Florence”，則說明大模型具有該知識。之后，將現(xiàn)有的知識圖譜與大模型輸出的內(nèi)容構(gòu)成的新知識進行實體對齊，檢驗表示學習在這種情況下學習的能力。此處依然使用RAGA 模型，但沒有在預處理階段使用預訓練向量。對齊結(jié)果如表9所示。

表9 預測練語言大模型輸出知識對齊結(jié)果Table 9 Alignment of knowledge from pretrained language models

根據(jù)實驗中大模型輸出的內(nèi)容以及對齊的結(jié)果，有以下發(fā)現(xiàn)：

（1）詞匯表決定了大模型的知識上限和粒度。語言模型不能輸出詞匯表中不存在的內(nèi)容，因此詞匯表中包含的概念、實體等數(shù)量決定了大模型知識的上限，當其遇到的問題的答案在詞匯表中不存在時，大模型不能輸出正確答案。此外，詞匯表還決定了大模型知識的粒度。本實驗使用的大模型為預訓練的BERT，從其輸出可以發(fā)現(xiàn)BERT 掌握了相當?shù)恼鎸嵤澜缰械某ＷR知識，例如國家與國民的關系，但對于一些具體領域的知識，則顯得較為無力。

（2）現(xiàn)有表示學習模型不能很好地學到語言模型輸出知識的表示。最主要的原因在于語言模型輸出的知識較為碎片化，且其中存在錯誤的事實。在人工構(gòu)建的知識圖譜中，大多數(shù)實體都有許多不同的鄰居，也具有許多不同的關系，現(xiàn)有表示學習模型正是建立在對這種鄰居和關系的學習上。而本實驗中大模型一次僅能輸出一個頭實體與關系對應的尾實體，且并不能保證該尾實體的正確性。

（3）語言大模型輸出結(jié)果的正確性較難評估。本實驗使用的LAMA 數(shù)據(jù)集中有許多測試數(shù)據(jù)，可以對語言大模型輸出的結(jié)果進行評估，但在真實應用情景下，例如使用語言大模型對現(xiàn)有知識圖譜進行補充，則難以判斷輸出的正確性。此外，對于一些答案不唯一的問題，即一個頭實體和關系可能存在多個尾實體，如何辨別語言大模型輸出的結(jié)果哪些是正確的哪些是錯誤的，也是有待進一步研究解決的問題。

基于以上發(fā)現(xiàn)和問題，本文認為對于語言大模型和知識圖譜方向的未來工作，可以從以下方面開展：

（1）從更大的語言模型中提取知識。BERT系列的語言模型存儲的知識有限，且大多為粗粒度的常識知識，將這種知識與現(xiàn)有知識圖譜融合的意義不大。若要用語言大模型對現(xiàn)有知識圖譜進行補充，應當選擇較大參數(shù)量的大模型。

（2）利用文本信息輔助知識融合。利用結(jié)構(gòu)和鄰居關系來學習的實體對齊方法難以學習語言大模型輸出的內(nèi)容，因此對齊效果較差。但語言模型輸出的形式均為文本，因此可以考慮利用文本信息，使用基于規(guī)則或者文本嵌入的方法輔助實體對齊。

（3）使用知識圖譜糾正語言大模型的錯誤。相較于語言大模型，知識圖譜具有可靠、可控、可解釋的特點，可以用高質(zhì)量的知識圖譜輔助語言大模型推理，或者利用知識圖譜對語言大模型進行微調(diào)，從而產(chǎn)生更準確可靠的結(jié)果。

5 結(jié)束語

實體對齊是知識融合的重要步驟，主要分為表示學習和對齊推理兩個階段。本文提出了一種表示學習的框架，將表示學習分為六部分，并按該框架總結(jié)和剖析了十種現(xiàn)有對齊工作中表示學習的組成。之后，進行了不同表示學習方法的對比實驗和表示學習方法中每部分不同策略的對比實驗，總結(jié)并指出了表示學習的各個模塊不同策略的優(yōu)劣差異。最后，探討了語言大模型與知識融合相結(jié)合的新興任務，通過初步的實驗提出了目前存在的問題和下一步研究的方向。