車 超,劉 迪
(大連大學(xué)先進(jìn)設(shè)計(jì)與智能計(jì)算省部共建教育部重點(diǎn)實(shí)驗(yàn)室,遼寧大連 116622)
知識(shí)圖譜將非結(jié)構(gòu)化知識(shí)轉(zhuǎn)化為結(jié)構(gòu)化的三元組知識(shí),廣泛應(yīng)用于機(jī)器閱讀[1]、機(jī)器翻譯[2]、推薦系統(tǒng)[3]、問答系統(tǒng)[4]等自然語言處理(Natural Language Processing,NLP)任務(wù)。隨著知識(shí)圖譜基礎(chǔ)工程技術(shù)的完善和進(jìn)步,人們已經(jīng)建立了越來越多的單語言知識(shí)圖譜,例如DBpedia[5]、YAGO[6-7]和BabelNet[8],它們通常將現(xiàn)實(shí)世界的知識(shí)表示為一種特定結(jié)構(gòu)的知識(shí)圖譜。不同的知識(shí)圖譜的創(chuàng)建目的不同,側(cè)重點(diǎn)不同,通常會(huì)包含許多互補(bǔ)信息。將這些知識(shí)圖譜整合在一起會(huì)大幅提高知識(shí)的利用效率,但是同一實(shí)體在不同的知識(shí)圖譜中有不同的表現(xiàn)形式。如何在不同的知識(shí)圖譜之間集成異構(gòu)知識(shí)成為一個(gè)迫切需要解決的問題,實(shí)體對齊就是解決該問題的有效方法。
早期的實(shí)體對齊方法主要依賴于定義各種獨(dú)立于語言的特征或者機(jī)器翻譯技術(shù)來發(fā)現(xiàn)跨語言的連接。近年來,基于嵌入的實(shí)體對齊方法將知識(shí)圖譜嵌入到低維向量空間中進(jìn)行運(yùn)算,顯著提升了實(shí)體對齊效果。基于嵌入的實(shí)體對齊方法主要分為基于翻譯模型[9]和基于圖神經(jīng)網(wǎng)絡(luò)[10]兩類。翻譯模型利用頭尾實(shí)體和關(guān)系在空間中的平移不變性計(jì)算知識(shí)圖譜實(shí)體和關(guān)系的嵌入表示。在應(yīng)用于實(shí)體對齊時(shí),首先通過翻譯模型學(xué)習(xí)實(shí)體和關(guān)系在不同知識(shí)圖譜中的嵌入,然后利用已有的實(shí)體對齊種子作為紐帶將它們對齊到統(tǒng)一的向量空間。該方法不僅可以保留知識(shí)圖譜的結(jié)構(gòu),而且可以隱式地利用現(xiàn)有知識(shí)中缺失的連接補(bǔ)全知識(shí)圖譜。基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體對齊方法[11]利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[12]增強(qiáng)實(shí)體與其鄰居信息的嵌入,可以更好地利用實(shí)體對齊種子來傳播相似信息到整個(gè)圖,僅需少量對齊種子便能達(dá)到較好的效果。為了實(shí)現(xiàn)對關(guān)系的編碼,研究人員進(jìn)行大量研究并取得了一系列重要成果。SCHLICHTKRULL等[13]提出關(guān)系圖卷積網(wǎng)絡(luò)(Relational Graph Convolutional Network,R-GCN)模型,該模型通過為每種關(guān)系分配一個(gè)權(quán)重矩陣來建模多關(guān)系圖。WU 等[14]提出高速門圖卷積網(wǎng)絡(luò)模型(HGCN-JE),該模型利用少量的對齊實(shí)體種子學(xué)習(xí)的實(shí)體嵌入來近似關(guān)系表示。通過近似關(guān)系表示和初步實(shí)體嵌入相結(jié)合得到實(shí)體聯(lián)合表示,進(jìn)一步訓(xùn)練模型,取得了不錯(cuò)的實(shí)體對齊效果。
除了關(guān)系信息以外,屬性信息同樣重要,知識(shí)圖譜中存在大量屬性信息,對實(shí)體對齊效果產(chǎn)生重要影響。同時(shí),現(xiàn)有的大部分基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體對齊方法并不重視預(yù)測階段的處理,通常僅計(jì)算單個(gè)方向的實(shí)體相似度排行矩陣,利用單一矩陣進(jìn)行對齊預(yù)測,導(dǎo)致預(yù)測結(jié)果出現(xiàn)偏差。針對以上問題,借鑒在HGCN-JE模型中聯(lián)合生成實(shí)體和關(guān)系向量的思想,并加入屬性信息與雙向?qū)R機(jī)制,本文提出一種融合屬性信息的雙向?qū)R圖卷積網(wǎng)絡(luò)模型(Bidirectional alignment Graph Convolutional Network with Attribution information,BiGCN-A)進(jìn)行實(shí)體對齊,將屬性信息融入到實(shí)體對齊中,并且在對齊預(yù)測階段進(jìn)行雙向?qū)嶓w對齊以獲得更高的對齊準(zhǔn)確率。
近年來,由于圖結(jié)構(gòu)的強(qiáng)大表現(xiàn)力,利用機(jī)器學(xué)習(xí)方法分析圖的研究越來越受到重視。圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)[10]是一類基于深度學(xué)習(xí)的圖域信息處理方法,因較好的性能和可解釋性,已成為一種被廣泛應(yīng)用的圖分析方法。GCN 是GNN 的變體,是一種基于圖操作的神經(jīng)網(wǎng)絡(luò),它能高效地結(jié)合實(shí)體鄰接節(jié)點(diǎn)信息,學(xué)習(xí)知識(shí)圖譜的結(jié)構(gòu)信息,對知識(shí)圖譜進(jìn)行編碼。GCN 對節(jié)點(diǎn)分類、關(guān)系抽取、語義角色標(biāo)注等NLP 問題均具有較好的應(yīng)用效果。針對GCN 無法編碼關(guān)系信息的問題,研究人員進(jìn)一步提出R-GCN,通過賦予每類關(guān)系一個(gè)權(quán)重矩陣編碼關(guān)系信息,生成關(guān)系向量。圖注意力(Graph Attention,GAT)網(wǎng)絡(luò)[15]通過使用注意力機(jī)制對鄰近節(jié)點(diǎn)特征加權(quán)求和,鄰近節(jié)點(diǎn)特征的權(quán)重完全取決于節(jié)點(diǎn)特征,獨(dú)立于圖結(jié)構(gòu),在節(jié)點(diǎn)分類問題上取得了較好的效果。
一些研究人員使用字符串相似性作為主要對齊方法,例如NGOMO 等[16]使用三角不等式來計(jì)算實(shí)體相似性的近似值,通過計(jì)算相似度高的實(shí)體對的實(shí)際相似度,返回實(shí)際字符串相似度最高的實(shí)體對。隨著知識(shí)表示學(xué)習(xí)技術(shù)的發(fā)展,眾多翻譯模型被應(yīng)用于實(shí)體對齊。由于TransE 的簡單性和有效性,因此大量的實(shí)體對齊工作使用TransE模型完成。聯(lián)合嵌入方法(JE)[17]將翻譯模型應(yīng)用在實(shí)體對齊中,通過學(xué)習(xí)不同知識(shí)圖譜在統(tǒng)一向量空間中的嵌入,在該空間中執(zhí)行實(shí)體對齊。多語言知識(shí)圖譜嵌入方法(MTransE)[18]將兩個(gè)知識(shí)圖譜嵌入到獨(dú)立的低維向量空間,通過對齊實(shí)體種子產(chǎn)生映射矩陣實(shí)現(xiàn)實(shí)體對齊。聯(lián)合屬性保持嵌入方法(JAPE)[19]將結(jié)構(gòu)嵌入和屬性嵌入相結(jié)合,匹配不同知識(shí)圖譜中的實(shí)體,結(jié)構(gòu)嵌入使用TransE 模型,屬性嵌入使用Skip-gram[20]模型。自舉法(BootEA)[21]通過迭代增加實(shí)體對齊種子方法學(xué)習(xí)知識(shí)圖譜的嵌入。多視圖嵌入法(MultiKE)[22]將單個(gè)知識(shí)圖譜分成名稱、屬性、關(guān)系3 個(gè)視圖,分別訓(xùn)練實(shí)體向量并將3 個(gè)視圖的實(shí)體向量相結(jié)合進(jìn)行對齊。多映射關(guān)系法(MMR)[23]提出一種新的知識(shí)表示方法,通過重新定義能量函數(shù)彌補(bǔ)了TransE 在編碼復(fù)雜關(guān)系問題上的劣勢,提高了實(shí)體對齊性能。雖然基于TransE 的實(shí)體對齊方法在三元組層面的表示上具有不錯(cuò)的效果,但是全局結(jié)構(gòu)表示不理想。隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究的主要方向轉(zhuǎn)到利用圖卷積網(wǎng)絡(luò)進(jìn)行實(shí)體對齊。圖卷積法(GCN-Align)[11]通過圖卷積網(wǎng)絡(luò)編碼實(shí)體和屬性進(jìn)行實(shí)體對齊。對偶關(guān)系圖卷積法(RDGCN)[24]通過構(gòu)建一個(gè)對偶關(guān)系圖,與原始知識(shí)圖譜之間相互交互,使編碼關(guān)系信息進(jìn)入實(shí)體。門控多階鄰居信息法(Alinet)[25]使用圖卷積網(wǎng)絡(luò)結(jié)合實(shí)體的一階鄰域,利用圖注意力網(wǎng)絡(luò)結(jié)合二階鄰域使實(shí)體的嵌入更有表達(dá)力,從而提升對齊效果?;旌隙嘟嵌刃畔⒎ǎ℉MAN)[26]通過多語言BERT 模型計(jì)算實(shí)體的描述信息相似度并將其與實(shí)體的結(jié)構(gòu)嵌入相結(jié)合,在對齊階段取得了不錯(cuò)的效果。上述方法均采用了圖卷積網(wǎng)絡(luò)對知識(shí)圖譜進(jìn)行編碼,為本文方法提供了可參考的思路,因此本文方法在HGCN-JE 的基礎(chǔ)上融入了屬性信息。
在多語言知識(shí)圖譜G中,使用L表示G所包含的語言的集合,使用GL={Ei,Ri,Ai,Vi}表示特定語言的知識(shí)圖譜,其中,Ei、Ri、Ai、Vi分別表示實(shí)體、關(guān)系、屬性、屬性值。該知識(shí)圖譜由關(guān)系三元組(hi,ri,ti)和屬性三元組(hi,ai,νi)組成,其中,hi,ti∈Ei,ri∈Ri,ai∈Ai和νi∈Vi。給定用源語言L1和目標(biāo)語言L2表示的兩個(gè)知識(shí)圖譜G1和G2,存在一組預(yù)先對齊的實(shí)體集合L={(e,u)|e∈E1,u∈E2},將其作為訓(xùn)練數(shù)據(jù)訓(xùn)練模型。跨語言實(shí)體對齊的任務(wù)是利用現(xiàn)有的對齊實(shí)體種子對模型進(jìn)行訓(xùn)練,自動(dòng)發(fā)現(xiàn)剩余的對齊實(shí)體對。
BiGCN-A 模型整體框架如圖1 所示。給定知識(shí)圖譜G1和G2,實(shí)體對齊種子L,BiGCN-A 模型通過具有高速網(wǎng)絡(luò)機(jī)制[27]的GCN 對知識(shí)圖譜進(jìn)行編碼得到實(shí)體嵌入,利用高速網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)得到屬性嵌入,將實(shí)體和屬性嵌入融合實(shí)現(xiàn)知識(shí)圖譜的預(yù)對齊,然后采用預(yù)對齊穩(wěn)定后的模型訓(xùn)練出的實(shí)體表示近似表示關(guān)系,通過將關(guān)系表示和實(shí)體表示結(jié)合生成聯(lián)合實(shí)體表示,進(jìn)一步使用多層GCN 迭代集成鄰居信息,以獲得更好的實(shí)體和關(guān)系表示,最終通過雙向?qū)R方法進(jìn)行實(shí)體對齊預(yù)測。
圖1 BiGCN-A 模型的整體框架Fig.1 Overall framework of the BiGCN-A model
如 圖1 所 示,將G1和G2放在圖Ga=(Ea,Ra,Aa,Va)中構(gòu)成模型的輸入。利用現(xiàn)有的對齊實(shí)體種子訓(xùn)練模型,采用訓(xùn)練出的穩(wěn)定模型發(fā)現(xiàn)更多潛在的對齊實(shí)體,完成初步的實(shí)體對齊工作。使用兩層GCN 獲取實(shí)體的嵌入表示,使其能夠更好地結(jié)合鄰居實(shí)體信息。根據(jù)Alinet[25]得出的結(jié)論,實(shí)體的直接鄰居與遠(yuǎn)距離鄰居相比異構(gòu)性更小,因此不需要基于注意力的鄰域聚集來選擇相關(guān)的鄰居實(shí)體。GCN層的輸入是實(shí)體特征矩陣H,l層的GCN 將特征表示H(l)作為輸入,輸出H(l+1)可表示如下:
0作為初始輸入。為控制跨層積累的噪聲并保存從交互中學(xué)習(xí)到的有用的關(guān)系信息,按照RAHIMI 等[28]提出的方法,在GCN 層之間引入高速網(wǎng)絡(luò)機(jī)制,具體如下:
式(1)為基本的GCN 網(wǎng)絡(luò)層結(jié)構(gòu)。為了融入屬性信息,將實(shí)體屬性作為詞袋特征進(jìn)行顯式建模。類似于One-Hot向量,構(gòu)造基于計(jì)數(shù)的N-Hot向量Xa,(i,j)項(xiàng)表示實(shí)體Ei的第j個(gè)屬性的計(jì)數(shù)。值得注意的是,僅考慮最頻繁的前F個(gè)屬性,以避免數(shù)據(jù)稀疏問題。因此,對于每個(gè)實(shí)體,其屬性特征都是F維向量,受到HMAN[26]的啟發(fā),如果通過圖結(jié)構(gòu)傳播屬性信息,鄰居實(shí)體屬性的傳播會(huì)引入噪聲,僅關(guān)注當(dāng)前實(shí)體的屬性效果更好。因此,通過一個(gè)前向神經(jīng)網(wǎng)絡(luò)獲取相關(guān)屬性信息的嵌入,同時(shí)在前向神經(jīng)網(wǎng)絡(luò)中加入高速網(wǎng)絡(luò)機(jī)制,最終前饋神經(jīng)網(wǎng)絡(luò)定義如下:
其中:Xa對應(yīng)于原始屬性特征;分別表示訓(xùn)練屬性信息的模型參數(shù);φ(·)是ReLU 函數(shù);σ(·)是Sigmoid 函數(shù)。至此,便獲得初步的實(shí)體表示,⊕表示拼接操作。
訓(xùn)練階段的目標(biāo)是將跨語言實(shí)體嵌入到相同的低維向量空間中,在該空間中等價(jià)實(shí)體嵌入距離要盡量相近,非等價(jià)實(shí)體的嵌入距離要盡量遠(yuǎn)。給定兩個(gè)知識(shí)圖譜G1和G2,以及一組預(yù)先對齊的實(shí)體對L(G1,G2)作為訓(xùn)練數(shù)據(jù),模型使用基于邊緣排名損失函數(shù)進(jìn)行訓(xùn)練,定義如下:
其中:L表示種子對齊對;L′表示由最近鄰采樣產(chǎn)生的L的負(fù)例集合;d(p,q)表示p,q之間的曼哈頓距離。因?yàn)橐粋€(gè)實(shí)體在另一個(gè)知識(shí)圖譜中只能有一個(gè)對應(yīng)的實(shí)體,最佳的負(fù)例實(shí)體是與目標(biāo)實(shí)體最接近的實(shí)體。通過d(·)計(jì)算兩實(shí)體之間的距離得到距離最小的實(shí)體。給定預(yù)先對準(zhǔn)的實(shí)體對(p,q)∈L,其中,p∈E1,q∈E2,K是負(fù)樣本的數(shù)目,選擇E2中最接近q的K個(gè)實(shí)體作為負(fù)例,反之亦然。至此,待模型穩(wěn)定,便完成了融入屬性的初步實(shí)體對齊工作。
因?yàn)闊o法通過GCN 直接得到關(guān)系向量,所以通過上節(jié)得到的實(shí)體嵌入近似來表示關(guān)系嵌入,用于構(gòu)建聯(lián)合實(shí)體表示向量。通過觀察發(fā)現(xiàn),一個(gè)關(guān)系連接的頭實(shí)體和尾實(shí)體的統(tǒng)計(jì)信息能夠在一定程度上反映關(guān)系的淺層語義信息,因此可以通過聚合實(shí)體表示近似得到關(guān)系表示。給定一個(gè)關(guān)系r∈Ra,存在關(guān)系均為r的三元組集合,Tr=(hr,r,tr),首先將關(guān)系r對應(yīng)的頭實(shí)體集向量和尾實(shí)體集向量分別求平均值,將得到的平均頭尾實(shí)體向量進(jìn)行拼接,之后引入一個(gè)矩陣W對拼接后的向量進(jìn)行一次線性變換得到關(guān)系的表示。因?yàn)閷?shí)體和關(guān)系在知識(shí)圖譜中密不可分,實(shí)體中會(huì)包含關(guān)系的語義信息,同時(shí)關(guān)系中也會(huì)包含實(shí)體的語義信息,并且具有對齊性質(zhì)的實(shí)體通常具有相似的關(guān)系,具有相似關(guān)系的實(shí)體對齊可能性更大,所以利用先前得到的實(shí)體和關(guān)系的嵌入表示生成新的聯(lián)合嵌入,用于進(jìn)一步訓(xùn)練模型。具體而言,首先訓(xùn)練融入屬性的GCN-A模型,對于每個(gè)實(shí)體,通過一個(gè)實(shí)體關(guān)系的鄰接矩陣提供的信息,計(jì)算出一個(gè)實(shí)體的關(guān)系上下文向量,然后將這個(gè)關(guān)系上下文向量與預(yù)訓(xùn)練得到的實(shí)體向量進(jìn)行拼接,形成實(shí)體的聯(lián)合表示向量。
將實(shí)體對齊預(yù)測問題看作排序問題,當(dāng)G1的實(shí)體與G2中的實(shí)體對齊時(shí),需要計(jì)算e1∈G1與所有的ej∈G2之間的相似度,得到相似度矩陣Ds。通過相似度大小進(jìn)行排序,得到排行矩陣Dr,Dr中的每一行代表了實(shí)體對齊的排序結(jié)果。不同知識(shí)圖譜之間知識(shí)分布的差異會(huì)影響對齊預(yù)測的準(zhǔn)確性。具體而言,對于e1∈G1能夠得到一個(gè)排名第一的ej∈G2作為預(yù)測結(jié)果,雖然表面上看似合理,因?yàn)閑j在e1對G2所有實(shí)體的相似度矩陣中的相似度分?jǐn)?shù)最高且與e1的距離最近,但在ej對G1的所有實(shí)體的相似度矩陣中e1的相似度得分不一定最高,在其相似度排名中甚至?xí)旁趲资唬谶@種情況下ej并不是e1的最優(yōu)選擇,反而產(chǎn)生了誤差。因此,對齊預(yù)測過程需要考慮兩個(gè)方向,而以往多數(shù)研究僅考慮一個(gè)方向。本文通過計(jì)算得到兩個(gè)方向的排行矩陣來解決該問題,從G1和G2兩個(gè)方面出發(fā),分別得到G1對應(yīng)于G2和G2對應(yīng)于G1的兩個(gè)方向的排行矩陣Dr1、Dr2,將排序矩陣重定義為并將其作為最終的相似度排行矩陣,其中表示G2排序矩陣的轉(zhuǎn)置。
相似度排行矩陣實(shí)例如圖2 所示,其中,圖2(a)為法語-英語方向相似度排行rank1,圖2(a)為英語-法語方向相似度排行rank2,數(shù)字表示排名,數(shù)字越小排名越靠前,實(shí)體名稱均來自DBP FR-EN 數(shù)據(jù)集。法語實(shí)體Pi.l.du.Br的對齊實(shí)體對應(yīng)于英語實(shí)體Pe.I.Br。從法語-英語方向看,與法語實(shí)體Pi.l.du.Br 相似度最高的是英語的Pe.I.Br,但是對于英語-法語方向的相似度排行而言,Pe.I.Br 對應(yīng)的英語Em.du.Br,Pi.l.du.Br 排名為3,在對齊預(yù)測時(shí)如果只考慮一個(gè)方向的相似度排行矩陣錯(cuò)誤可能性就會(huì)增大,不能夠正確預(yù)測出對齊實(shí)體對Pi.l.du.Br和Pe.I.Br。綜合兩個(gè)相似度排行矩陣,將rank2的相似度矩陣進(jìn)行轉(zhuǎn)置,與rank1 的相似度矩陣相加得到最終的排名,Pi.l.du.Br 和Pe.I.Br 的最終排名為2,Pe.I.Br 在所有排名中最靠后(Pi.l.du.Br 對于英語實(shí)體的相似度排名分別為2、8、4、3、4),從而正確預(yù)測出對齊實(shí)體。
圖2 相似度排行矩陣實(shí)例Fig.2 Examples of similarity ranking matrixes
采用DBP15K 數(shù)據(jù)集進(jìn)行測試,DBP15K 數(shù)據(jù)集包含DBP ZH-EN(漢語-英語)、DBP FR-EN(法語-英語)和DBP JA-EN(日語-英語)3 個(gè)跨語言的真實(shí)世界數(shù)據(jù)集,3 個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表1 所示,其中每一個(gè)數(shù)據(jù)集都是通過抽取DBpedia 多語言版本的15 000 個(gè)對齊實(shí)體鏈接構(gòu)建的。為了方便和之前的工作[14,19]進(jìn)行對比,使用30%的預(yù)對齊實(shí)體對作為訓(xùn)練數(shù)據(jù),70%用于測試,使用Hits@k作為評價(jià)指標(biāo),即通過計(jì)算排名在相似度排名列表前k個(gè)中正確對齊的實(shí)體的比例來得到Hits@k分值。
表1 DBP15K 數(shù)據(jù)集Table 1 DBP15K dataset
實(shí)驗(yàn)設(shè)置閾值γ為1、學(xué)習(xí)率為0.005。每經(jīng)過50代對負(fù)例實(shí)體進(jìn)行采樣,其中k=125。實(shí)驗(yàn)基于兩層GCN,并使用前1 000 個(gè)最頻繁的屬性(即F=1 000)來構(gòu)建N-Hot特征向量。為更好地進(jìn)行模型初始化,在不同的知識(shí)圖譜中使用實(shí)體名稱。通過谷歌翻譯器將非英文實(shí)體翻譯為英文實(shí)體,并利用預(yù)訓(xùn)練好的詞向量得到初始化表示。需要注意的是,因?yàn)槿嗣⒌孛仍~匯對應(yīng)不同語言,然而不同語言的表示風(fēng)格不同,所以可能會(huì)導(dǎo)致谷歌翻譯的結(jié)果出現(xiàn)部分錯(cuò)誤。
3.2.1 與圖嵌入方法的性能對比
實(shí)驗(yàn)選 取GCN-Align[11]、HGCN-JE[14]、JE[17]、MTransE[18]、JAPE[19]、HMAN[26]等6 種主流的圖嵌入方法與本文BiGCN-A 模型進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2 所示,其中:JE、MTransE 和JAPE 是基于翻譯模型進(jìn)行實(shí)體對齊;GCN-Align、HGCN-JE 和HMAN 是基于GCN進(jìn)行實(shí)體對齊,均屬于跨語言實(shí)體對齊的SOTA 方法,GCN-Align 方法使用屬性信息,通過GCN 將屬性信息與結(jié)構(gòu)信息進(jìn)行聚合,由于BERT 模型對于知識(shí)圖譜嵌入方面效果不好,因此實(shí)驗(yàn)未涉及與基于BERT 的實(shí)體對齊方法的比較。
表2 與其他圖嵌入方法的實(shí)體對齊結(jié)果對比Table 2 Comparison of entity alignment results with other graph embedding methods %
在表2 中,HMAN 方法中的結(jié)果保留小數(shù)點(diǎn)后1 位,為了更好對比,用0 補(bǔ)全到小數(shù)點(diǎn)后2 位。由表2 可以看出:1)通過捕獲豐富的相鄰結(jié)構(gòu)信息,基于GCN 的實(shí)體對齊方法在Hits@1 上的性能優(yōu)于基于翻譯的實(shí)體對齊方法,在Hits@10 上的性能優(yōu)于MTransE 和JE 方法;2)HMAN 使用知識(shí)圖譜中實(shí)體的描述信息,相較其他未使用實(shí)體名稱嵌入的向量作為實(shí)體初始化嵌入的方法,在所有數(shù)據(jù)集上都取得了最優(yōu)結(jié)果;3)HGCN-JE 方法因?yàn)槭褂酶咚倬W(wǎng)絡(luò)的GCN 并融入關(guān)系信息,同時(shí)利用實(shí)體名稱嵌入的向量作為實(shí)體初始化嵌入,在所有數(shù)據(jù)集上的效果明顯優(yōu)于HMAN 方法;4)BiGCN-A 模型因?yàn)槭褂昧藢?shí)體初始化嵌入以及屬性信息并在對齊預(yù)測階段使用雙向?qū)R機(jī)制,所以在所有數(shù)據(jù)集上的效果均達(dá)到最優(yōu),特別是在DBP ZH-EN 數(shù)據(jù)集上Hit@1 比HGCN-JE 提升了4.24 個(gè)百分點(diǎn);5)BiGCN-A 模型在DBP ZH-EN 數(shù)據(jù)集和DBP JA-EN 數(shù)據(jù)集上有大幅的性能提升,即使在效果已經(jīng)非常好的DBP FR-EN數(shù)據(jù)集上仍有小幅的性能提升,這充分驗(yàn)證了其有效性。
3.2.2 消融實(shí)驗(yàn)
為驗(yàn)證屬性信息和雙向?qū)R機(jī)制的有效性,將BiGCN-A 模型與只使用屬性信息的GCN-A 模型和只使用雙向?qū)R的BiGCN 模型進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表3所示。由表3 可以看出,相較GCN-A 模型和BiGCN 模型,除了DBP FR-EN 數(shù)據(jù)集之外,BiGCN-A 模型均達(dá)到了最優(yōu)的效果,這證明了屬性信息結(jié)合雙向?qū)R機(jī)制的有效性。與不使用屬性信息的BiGCN 模型相比,BiGCN-A 模型在DBP ZH-EN、DBP JA-EN 數(shù)據(jù)集上效果均有所提升,這表明添加屬性信息是非常有效的。因?yàn)橄嗨频膶?shí)體傾向于擁有相似的屬性,增加了屬性信息,豐富了實(shí)體嵌入的要素,效果自然會(huì)有提升。但是觀察到在DBP FR-EN 數(shù)據(jù)集上增加屬性信息效果會(huì)略微下降,這是因?yàn)檩斎雽?shí)體嵌入的初始化是先通過谷歌翻譯器得到英文實(shí)體,再使用訓(xùn)練好的詞向量對實(shí)體特征初始化,而法英語言比較接近,翻譯錯(cuò)誤率小,得到的實(shí)體的初始化特征好,當(dāng)拼接融入屬性的實(shí)體特征時(shí),反而使得相似度下降,導(dǎo)致結(jié)果略微下降。因此,只使用屬性信息的GCN-A 模型效果劣于只使用雙向?qū)R機(jī)制的BiGCN 模型,更劣于結(jié)合屬性信息和雙向?qū)R機(jī)制的BiGCN-A 模型。實(shí)體對齊僅考慮一個(gè)方向會(huì)忽略實(shí)體分布的差異,對實(shí)體對齊結(jié)果造成誤導(dǎo),而兩個(gè)方向的相似度排行相互疊加可以中和實(shí)體分布差異,減少對實(shí)體對齊的影響。
表3 基于屬性信息和雙向?qū)R的實(shí)體對齊結(jié)果對比Table 3 Comparison of entity alignment results based on attribute information and bidirectional alignment %
3.2.3 對齊種子比率敏感度分析
為探究對齊種子比率對實(shí)體對齊效果的影響,分別按照10%、20%、30%、40%、50%的對齊種子比率劃分訓(xùn)練集,并與不同對齊種子比率的JAPE、GCN-Align方法進(jìn)行對比,結(jié)果如圖3所示。由圖3可以看出,BiGCN-A模型在不同的對齊種子比率和數(shù)據(jù)集下的表現(xiàn)均遠(yuǎn)優(yōu)于JAPE與GCN-Align方法,在僅有10%的對齊種子比率作為訓(xùn)練集時(shí)Hits@1仍能達(dá)到67.99%(DBP ZH-EN數(shù)據(jù)集)、74.73%(DBP JA-EN數(shù)據(jù)集)、87.56%(DBP FR-EN數(shù)據(jù)集),遠(yuǎn)優(yōu)于另外兩種方法在有50%的對齊種子比率作為訓(xùn)練集時(shí)的結(jié)果??梢姡珺iGCN-A模型對于對齊種子比率的變化不敏感,具有較強(qiáng)的魯棒性。
圖3 不同對齊種子比率對實(shí)體對齊效果的影響Fig.3 Effect of different alignment seed ratios on entity alignment effect
本文提出一種基于BiGCN-A 模型的跨語言實(shí)體對齊方法,通過實(shí)體屬性的相似性提高實(shí)體對齊的準(zhǔn)確率,利用雙向?qū)R機(jī)制求得兩個(gè)方向的相似度排行矩陣并進(jìn)行融合,得到最終的相似度排行矩陣,實(shí)現(xiàn)跨語言實(shí)體對齊的預(yù)測。在DBP15K 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于BiGCN-A 模型的實(shí)體對齊方法整體性能優(yōu)于目前主流的基于圖嵌入的實(shí)體對齊方法。后續(xù)將嘗試引入知識(shí)圖譜中的實(shí)體描述等信息來進(jìn)一步提高實(shí)體對齊的準(zhǔn)確率。另外,BiGCN-A 模型在初始化向量時(shí)通過谷歌翻譯器得到實(shí)體的英文表示,其中可能存在一些翻譯錯(cuò)誤,這也是下一步工作的重點(diǎn)方向。