徐 漫,劉 爽,張?jiān)葡?,朱曉?/p>
(大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連116650)
目前,世界上存在很多不同的知識(shí)庫,通用知識(shí)庫(如DBpedia[1]、YAGO[2]、Freebase[3])和特定領(lǐng)域的知識(shí)庫(如醫(yī)學(xué)[4]和科學(xué)知識(shí)庫[5])。這些知識(shí)庫被應(yīng)用于各種下游應(yīng)用當(dāng)中,如搜索[6]、問答[7]、推薦[8]等。這些豐富的知識(shí)庫為不同的人工智能應(yīng)用提供了堅(jiān)實(shí)基礎(chǔ)。
然而,由于知識(shí)庫是有單一的數(shù)據(jù)源獨(dú)立構(gòu)造的,其收集知識(shí)的側(cè)重點(diǎn)不同,對(duì)于同一個(gè)對(duì)象的描述就會(huì)產(chǎn)生差異,一部分知識(shí)圖譜的知識(shí)可能側(cè)重于某個(gè)方面上的描述,另一部分知識(shí)圖譜可能側(cè)重于的是該實(shí)體與其他實(shí)體之間關(guān)系的描述。即分類不同、屬性表述方式不同等,導(dǎo)致當(dāng)前的知識(shí)庫仍然存在覆蓋面不全、偏領(lǐng)域化、數(shù)據(jù)不夠豐富等問題。單個(gè)知識(shí)圖譜很難滿足下游應(yīng)用的各種知識(shí)需求,而人工構(gòu)建知識(shí)庫難度大、出錯(cuò)多、更新慢、成本高等問題,針對(duì)這種情況,如果能在現(xiàn)有知識(shí)庫基礎(chǔ)上進(jìn)行數(shù)據(jù)融合從而形成一個(gè)覆蓋全面的知識(shí)庫,這就是知識(shí)融合的研究?jī)?nèi)容。通過整合來自其他知識(shí)庫的知識(shí),這些知識(shí)可能包含額外或補(bǔ)充信息來提高完整性。實(shí)體對(duì)齊(Entity Alignment,EA)就是知識(shí)融合中的關(guān)鍵技術(shù)。
實(shí)體對(duì)齊任務(wù)也稱為實(shí)體匹配或?qū)嶓w解析,它目的是連接不同知識(shí)庫中潛在的等價(jià)實(shí)體,這些等價(jià)實(shí)體在語義上表示的是真實(shí)世界中的同一個(gè)對(duì)象。例如DBpedia中的珠穆朗瑪峰和Wikidata[9]中的Q513均指向?yàn)槭澜缱罡叻逯槟吕尸敗_@些事實(shí)可以通過對(duì)齊的實(shí)體進(jìn)行融合,將DBpedia知識(shí)庫和Wikidata知識(shí)庫中的實(shí)體連接起來,就可以得到針對(duì)珠穆朗瑪峰這一實(shí)體更加豐富的信息描述。
早期的實(shí)體對(duì)齊主要使用人工標(biāo)注、基于本體語言中明確定義的等價(jià)關(guān)系的推理或基于相似度計(jì)算的模型來獲取兩個(gè)知識(shí)庫的等效實(shí)體對(duì)[10]。然而隨著知識(shí)庫規(guī)模不斷擴(kuò)大,人工標(biāo)注的方法變得十分困難。尤其是面對(duì)獨(dú)立構(gòu)建的知識(shí)圖之間的結(jié)構(gòu)異質(zhì)性時(shí),自動(dòng)提取等價(jià)實(shí)體的方法能夠得到一個(gè)更好的效果。本文將對(duì)實(shí)體對(duì)齊過程和最近幾年出現(xiàn)的基于嵌入的實(shí)體對(duì)齊算法進(jìn)行總結(jié)。
給定兩個(gè)異構(gòu)的知識(shí)圖譜為G1和G2,表示為
G1=(E1,R1,A1,T1),G2=(E2,R2,A2,T2)。
(1)
其中,E、R、A、V、T分別表示知識(shí)圖譜實(shí)體集合、關(guān)系集合、屬性集合、三元組集合。
定義實(shí)體e的相鄰實(shí)體集合為Ne,即與實(shí)體直接相連并形成事實(shí)三元組的實(shí)體集的鄰居實(shí)體為
Ne={e′|(e,r,e′)∈T}∪{e′|(e′,r,e)∈T},T=T1∪T2。
(2)
定義已經(jīng)存在對(duì)齊關(guān)系的實(shí)體對(duì)為
S={(e1,e2)∈E1×E2|e1?e2},e1∈G1,e2∈G2。
(3)
其中“?”表示符號(hào)兩端的實(shí)體為等價(jià)實(shí)體,S也被稱為種子對(duì)集合。
實(shí)體對(duì)齊過程可以簡(jiǎn)單劃分為四個(gè)模塊:實(shí)體嵌入模塊,對(duì)齊模塊,預(yù)測(cè)模塊,其他信息模塊如圖1。
圖1 實(shí)體對(duì)齊過程
實(shí)體嵌入模塊:將不同的知識(shí)圖譜中的實(shí)體嵌入到向量空間當(dāng)中,以學(xué)習(xí)它們的實(shí)體嵌入表示,分為基于知識(shí)圖譜表示模型,如TransE[11]和基于圖神經(jīng)網(wǎng)絡(luò)的模型,如圖卷積網(wǎng)絡(luò)(GCN)[12]。
對(duì)齊模塊:根據(jù)上一模塊得到的實(shí)體嵌入向量映射到統(tǒng)一的空間中,強(qiáng)制將來自不同知識(shí)圖譜的種子實(shí)體嵌入,得到更為接近的距離。
預(yù)測(cè)模塊:預(yù)測(cè)最有可能的目標(biāo)實(shí)體,通過距離排行選擇排名靠前的候選實(shí)體,常用的距離算法包括余弦相似性、曼哈頓距離、歐氏距離。距離越遠(yuǎn),實(shí)體對(duì)越不可能對(duì)齊;相反距離越小,實(shí)體對(duì)越可能是等價(jià)實(shí)體。該模塊得到的是實(shí)體對(duì)正確匹配的概率。
其他信息模塊:利用除了對(duì)齊任務(wù)中的知識(shí)圖譜以外的信息來增加實(shí)體對(duì)齊模型的性能。一種是自舉策略,上一個(gè)對(duì)齊結(jié)果作為之后的迭代訓(xùn)練數(shù)據(jù);也可以是其他有關(guān)于待匹配實(shí)體的信息描述,比如某實(shí)體的相關(guān)屬性信息或者是實(shí)體名稱。
圖1中“統(tǒng)一向量空間”代表基于實(shí)體嵌入的實(shí)體對(duì)齊模型通常三種不同的嵌入方式,第一種:在模型訓(xùn)練之前通過預(yù)先對(duì)齊的種子對(duì)進(jìn)行知識(shí)圖譜的合并,再對(duì)這個(gè)知識(shí)圖譜進(jìn)行表示學(xué)習(xí)實(shí)現(xiàn)實(shí)體嵌入。2016年Hao等人提出的JE[13]是這方面的首批嘗試之一。它學(xué)習(xí)在統(tǒng)一向量空間中不同知識(shí)圖譜的嵌入,在該空間中可以執(zhí)行實(shí)體對(duì)齊;第二種:對(duì)兩個(gè)不同的知識(shí)圖譜分別進(jìn)行實(shí)體嵌入的學(xué)習(xí),并將其投影映射到不同的向量空間中,通過已經(jīng)對(duì)齊的實(shí)體訓(xùn)練出兩個(gè)向量空間的轉(zhuǎn)換;第三種:直接將不同的知識(shí)圖譜嵌入到同一個(gè)向量空間當(dāng)中,潛在的實(shí)體對(duì)會(huì)得到一個(gè)近似的表示。
基于嵌入的實(shí)體對(duì)齊算法模型可以分為基于TransE的實(shí)體對(duì)齊方法和基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)的實(shí)體對(duì)齊方法模型。它們根據(jù)實(shí)體的語義信息或結(jié)構(gòu)信息,將知識(shí)圖譜中的每個(gè)實(shí)體表示為一個(gè)低維向量,通過計(jì)算這些實(shí)體之間的相似性,已找到等效實(shí)體。
TransE是一種典型且有效的知識(shí)表示學(xué)習(xí)的平移模型,它受word2vec平移不變性的啟發(fā),將知識(shí)圖譜中的關(guān)系表示為頭實(shí)體和尾實(shí)體在學(xué)習(xí)的低維表示上操作的翻譯。
提出假設(shè):
h+r≈t。
(4)
式中:h表示知識(shí)圖譜中的頭實(shí)體向量;t表示知識(shí)圖譜中的尾實(shí)體向量;r表示知識(shí)圖譜中的關(guān)系向量如圖2。并且為了控制偏差損失,引入對(duì)應(yīng)的負(fù)樣本,即對(duì)正樣本三元組中的實(shí)體和關(guān)系進(jìn)行替換。
圖2 TransE模型
因此,TransE模型可以保留實(shí)體的結(jié)構(gòu)信息,存在共享或相似的鄰居的實(shí)體將在嵌入的空間中得到相似的表示。Chen等人在2017年提出的MTransE[14]模型是一個(gè)基于翻譯的跨語言知識(shí)圖譜表示學(xué)習(xí)模型,是對(duì)TransE模型在跨語言領(lǐng)域的一個(gè)改進(jìn)。
2.1.1 融合屬性的模型
JAPE[15]模型與其他模型不同點(diǎn)在于它在統(tǒng)一的嵌入空間中學(xué)習(xí)實(shí)體的嵌入和不同知識(shí)圖譜之間關(guān)系的同時(shí)它還嵌入屬性,并利用屬性相關(guān)性優(yōu)化實(shí)體嵌入。是一種用于跨語言實(shí)體對(duì)齊的聯(lián)合屬性保留嵌入模型。然而,當(dāng)屬性異構(gòu)且知識(shí)圖譜之間的相關(guān)性模糊時(shí),屬性嵌入的有效性將會(huì)被大大降低。2019年提出的AttrE[16]模型也使用到實(shí)體屬性的相關(guān)信息,它利用知識(shí)圖譜中存在的大量屬性三元組,生成屬性字符嵌入。但是AttrE并未對(duì)屬性值的類型進(jìn)行區(qū)分計(jì)算相似度,模型會(huì)由于屬性的多樣性而限制性能。
2.1.2 基于迭代的模型
2017年Zhu等人提出的IPTransE[17]模型是基于路徑的嵌入利用跨越路徑的關(guān)系之間的長(zhǎng)程依賴信息 的方法。它使用了參數(shù)共享和迭代的策略,通過新發(fā)現(xiàn)的匹配實(shí)體來繼續(xù)促進(jìn)發(fā)現(xiàn)新的潛在匹配實(shí)體對(duì)。為了緩解迭代過程產(chǎn)生誤差累積的情況使用為置信度低的種子分配更小的權(quán)重的方法。但是該模型只考慮知識(shí)圖譜的內(nèi)部結(jié)構(gòu)信息來進(jìn)行嵌入學(xué)習(xí)。2018年提出的BootEA[18]模型是一個(gè)同樣采用迭代策略的半監(jiān)督實(shí)體對(duì)齊的方法,將實(shí)體對(duì)齊建模為一個(gè)分類問題,尋求最大化基于知識(shí)圖譜嵌入的所有標(biāo)記和未標(biāo)記的實(shí)體對(duì)齊的可能性,采用截?cái)嗑鶆蜇?fù)采樣方法提高對(duì)準(zhǔn)性能。不同于IPTransE的是它通過可以對(duì)已發(fā)現(xiàn)的匹配實(shí)體進(jìn)行編輯或刪除的方法來解決迭代在傳播中的誤差累積問題。
這些基于TransE的模型能夠?qū)χR(shí)圖譜的實(shí)體和關(guān)系進(jìn)行編碼,但是它們更強(qiáng)調(diào)的是實(shí)體嵌入,忽略了關(guān)系嵌入對(duì)實(shí)體對(duì)齊的影響,它們的訓(xùn)練依賴于三元組或預(yù)對(duì)齊關(guān)系,但是為大型知識(shí)庫構(gòu)建種子對(duì)齊的成本很高,這就在一定程度上限制了這類模型的使用。
圖卷積網(wǎng)絡(luò)(GCN)是一種直接對(duì)圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行操作的卷積網(wǎng)絡(luò)。它的本質(zhì)是用來提取拓?fù)鋱D的空間特征通過編碼節(jié)點(diǎn)鄰域的信息來生成節(jié)點(diǎn)級(jí)嵌入。GCN的核心思想是利用邊的信息對(duì)節(jié)點(diǎn)信息進(jìn)行聚合從而生成新的節(jié)點(diǎn)表示。GCN模型通常包含多個(gè)堆疊的GCN層,因此它可以通過在層間的信息傳播來捕獲距離實(shí)體多跳的部分知識(shí)圖譜結(jié)構(gòu)。
2.2.1 融合關(guān)系的模型
基于GCN的模型會(huì)忽略到知識(shí)庫中的關(guān)系信息,Bordes等人針對(duì)這一問題提出了RGCN[19]模型來處理知識(shí)庫中實(shí)體之間的不同關(guān)系,使用權(quán)值共享和系數(shù)約束的策略使得模型可以應(yīng)用到關(guān)系眾多的網(wǎng)絡(luò)中去。但是RGCN的關(guān)系嵌入是對(duì)每一個(gè)關(guān)系產(chǎn)生相應(yīng)的權(quán)重矩陣,需要大量的學(xué)習(xí)參數(shù),進(jìn)而RGCN模型會(huì)有大量難以訓(xùn)練的參數(shù),并且大量的參數(shù)也會(huì)導(dǎo)致模型產(chǎn)生過擬合的問題。AVR-GCN[20]模型使用到了類似于TransE的關(guān)系特定翻譯操作擴(kuò)展了RGCN,其中關(guān)系向量是根據(jù)尾實(shí)體表示轉(zhuǎn)換得到,但是特定的關(guān)系翻譯和RGCN引入了高復(fù)雜度,再次增加了訓(xùn)練參數(shù)時(shí)的開銷。
2019年Wu提出的RDGCN[21]模型引入了對(duì)偶關(guān)系圖來增強(qiáng)普通GCN,在關(guān)系信息上進(jìn)行改進(jìn),受到雙原始圖卷積神經(jīng)網(wǎng)絡(luò)(DPGCNN)的啟發(fā),在原始實(shí)體圖和對(duì)偶關(guān)系圖之間進(jìn)行多次積極交互,將復(fù)雜的關(guān)系信息和并到實(shí)體表示中,進(jìn)一步整合了鄰域結(jié)構(gòu)信息。同年提出的HGCN[22]模型提出一種新的聯(lián)合學(xué)習(xí)實(shí)體和關(guān)系信息的方式,模型中的關(guān)系對(duì)齊部分是無監(jiān)督學(xué)習(xí),不需要預(yù)先對(duì)齊的關(guān)系對(duì),并通過迭代的方式不斷學(xué)習(xí)二者的嵌入表示。上述的模型考慮到了關(guān)系來進(jìn)行實(shí)體對(duì)齊任務(wù)的增強(qiáng)。
2.2.2 融合屬性的模型
與基于TransE模型一樣,基于GCN的模型中也存在考慮到屬性的算法。GCN-Align[23]和GMNN[24]模型都是基于普通得GCN構(gòu)建的。GCN-Align提出了一種通過圖卷積網(wǎng)絡(luò)進(jìn)行跨語言知識(shí)圖譜對(duì)齊的新方法,給定一組預(yù)先對(duì)齊的實(shí)體,使用GCN將每種語言的實(shí)體嵌入到統(tǒng)一的向量空間中。嵌入可以從實(shí)體的結(jié)構(gòu)和屬性信息中學(xué)習(xí),并且結(jié)構(gòu)嵌入和屬性嵌入的結(jié)果被組合以獲得精確的對(duì)齊。
HMAN[25]模型和AttrGNN[26]模型,AttrGNN模型的特點(diǎn)在于將關(guān)系三元組和屬性三元組一同建模,其將屬性進(jìn)行分類,考慮到屬性信息的多樣性和不同重要性。而HMAN模型,研究了實(shí)體的結(jié)構(gòu)、關(guān)系、屬性和實(shí)體描述,并使用Bert來彌補(bǔ)跨語言的差距,但是實(shí)體的文字描述有時(shí)是不可用的,需要更好地捕獲結(jié)構(gòu)化知識(shí)。
2.2.3 改進(jìn)鄰域或子圖匹配的模型
AliNet[27]模型,通過使用注意機(jī)制和門控策略來多對(duì)跳鄰居進(jìn)行選擇以此改進(jìn)GCN。這些方法試圖利用結(jié)構(gòu)和鄰域信息來學(xué)習(xí)更好的實(shí)體表示。然而,在聚合信息時(shí),它假設(shè)實(shí)體的所有一跳鄰居都同等重要。導(dǎo)致AliNet模型中引入噪聲降低模型性能。
2020年提出的NMN[28]模型就對(duì)于一跳鄰居進(jìn)行了篩選,NMN模型受到圖匹配網(wǎng)絡(luò)的啟發(fā),設(shè)計(jì)了交叉圖鄰域匹配模塊,使用了一種新的圖采樣方法來提取實(shí)體的判別鄰域和交叉圖鄰域匹配策略,首先尋找對(duì)于中心實(shí)體信息量最大的鄰域,然后通過注意力機(jī)制來聯(lián)合比較兩個(gè)鑒別子圖獲取其中的鄰域差異。
之前提到的GMNN模型也是使用到了子圖匹配的策略,將實(shí)體對(duì)齊任務(wù)表述為圖匹配過程。引入了主題實(shí)體圖和實(shí)體的局部子圖,通過知識(shí)圖譜中的上下文信息來表示實(shí)體。這兩種通過子圖的匹配算法,僅對(duì)相鄰實(shí)體進(jìn)行比較,而忽略在子圖匹配中同樣重要的連通關(guān)系。RNM[29]模型就此改進(jìn),為關(guān)系感知鄰域匹配模型,在子圖匹配時(shí)從連接關(guān)系中挖掘有用信息,關(guān)系的語義信息和映射特性。它的實(shí)體和關(guān)系是迭代對(duì)齊的,以半監(jiān)督的方式利用實(shí)體對(duì)齊和關(guān)系對(duì)齊的交互作用,相互增強(qiáng)。
2.2.4 其他模型
MuGNN[30]注意到知識(shí)圖譜的結(jié)構(gòu)不完整性,提出了基于規(guī)則的知識(shí)圖譜補(bǔ)全和多通道GNN[31]的兩步實(shí)體對(duì)齊方法。在多個(gè)通道分別使用GNN嵌入并通過不同的加權(quán)方案編碼知識(shí)圖譜,然而,學(xué)習(xí)到的規(guī)則依賴于關(guān)系對(duì)齊來解決模式異構(gòu)性,這可能會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)標(biāo)記的開銷高昂。
為了實(shí)體對(duì)齊性能的提高,上述模型中大部分在實(shí)體嵌入模塊中使用了實(shí)體名稱作為學(xué)習(xí)實(shí)體表示的輸入特征。AttrE、AliNet、RDGCN、HGCN、NMN、RNM、AttrGNN等均使用預(yù)訓(xùn)練實(shí)體名稱的方式進(jìn)行初始化。實(shí)體對(duì)齊模型特征見表1。
表1 實(shí)體對(duì)齊模型特征
實(shí)體對(duì)齊任務(wù)中具有代表性的數(shù)據(jù)集。
DBP15K:該數(shù)據(jù)集從DBpedia中提取的多語言數(shù)據(jù)對(duì)組成:中文對(duì)英文(DBP15KZH_EN)、日文對(duì)英文(DBP15KJA_EN)、法文對(duì)英文(DBP15KFR_EN)。每組包含15000個(gè)跨語言鏈接。
DWY100K:該數(shù)據(jù)集從DBpdeia、Wikidata、Yago3中提取的單語言數(shù)據(jù)對(duì)組成:DWY100K-DBP_WD、DWY100K-DBP_YG。每組包含100 000個(gè)實(shí)體對(duì)。
DBP100K:該數(shù)據(jù)集從DBpedia中提取的多語言數(shù)據(jù)對(duì)組成:中文對(duì)英文(DBP15KZH_EN)、日文對(duì)英文(DBP15KJA_EN)、法文對(duì)英文(DBP15KFR_EN)。每組包含100 000個(gè)跨語言鏈接。
三種數(shù)據(jù)集中的信息描述見表2。
表2 數(shù)據(jù)集信息說明
常用于實(shí)體對(duì)齊任務(wù)的評(píng)估指標(biāo)如下:
Hits@k,(k=1,10):目標(biāo)實(shí)體與源實(shí)體的距離分?jǐn)?shù)按升序排列,Hits@k反映的是前K個(gè)目標(biāo)實(shí)體種能與源實(shí)體正確對(duì)齊的百分比。其中,Hits@1表示對(duì)齊結(jié)果的準(zhǔn)確度,是最重要的指標(biāo)。值越大,模型性能效果越好。
(5)
其中,∏ (·)是indicator函數(shù),若條件為真則函數(shù)值為1 ,否則為0。
MR(Mean Rank):計(jì)算在測(cè)試集里,平均到第多少個(gè)才能匹配到正確的結(jié)果,值越小代表效果越好。
(6)
式中:S是三元組集合;|S|是三元組集合個(gè)數(shù);ranki是指第i個(gè)三元組的鏈接預(yù)測(cè)排名。
MRR(Mean Reciprocal Ranking)國(guó)際上通用的對(duì)搜索算法進(jìn)行評(píng)價(jià)的機(jī)制,即第一個(gè)結(jié)果匹配,分?jǐn)?shù)為1,第二個(gè)結(jié)果匹配分?jǐn)?shù)為0.5,第n個(gè)結(jié)果匹配分?jǐn)?shù)為1/n,如果沒有結(jié)果匹配的分?jǐn)?shù)為0。最終的分?jǐn)?shù)為所有得分之和。值越大代表效果越好。
(7)
式中:S是三元組集合;|S|是三元組集合個(gè)數(shù);ranki是指第i個(gè)三元組的鏈接預(yù)測(cè)排名。
將文中提到的實(shí)體對(duì)齊模型性能進(jìn)行統(tǒng)一對(duì)比見表3。
表3 模型性能對(duì)比
從表3中各種模型的性能對(duì)比可以看出,在僅使用知識(shí)圖譜結(jié)構(gòu)的方法中NMN模型得到了最優(yōu)性能,是因?yàn)樗鼘?duì)中心實(shí)體的鄰居們進(jìn)行了篩選,留下對(duì)于中心實(shí)體影響較大的鄰居實(shí)體,提高的實(shí)體嵌入表示的有效性。
在使用結(jié)構(gòu)信息和關(guān)系信息的模型中,RNM模型得到了最好的結(jié)果,是因?yàn)槠鋵?shí)體對(duì)齊和關(guān)系對(duì)齊進(jìn)行了積極的交互,相互更新。
在使用到屬性三元組的方法中AttrGNN模型達(dá)到了最高的效果,是因?yàn)樵撃P蛯?duì)屬性值進(jìn)行了分類,使用了不同的相似度方法進(jìn)行分別計(jì)算,提高了對(duì)屬性信息的利用效果。
近年來的實(shí)體對(duì)齊模型中大多都使用了實(shí)體名稱來進(jìn)行預(yù)訓(xùn)練,因?yàn)楹芏鄬?shí)體對(duì)就具有非常相似的實(shí)體名稱,以及迭代的策略,在對(duì)齊的過程中對(duì)實(shí)體表示進(jìn)行不斷的優(yōu)化。
因此融合屬性與關(guān)系信息可以在很大程度上提升模型的性能,運(yùn)用實(shí)體名稱或者使用迭代策略也可以促進(jìn)整個(gè)過程。
實(shí)體對(duì)齊是整合人類知識(shí),擴(kuò)大知識(shí)庫覆蓋面的關(guān)鍵環(huán)節(jié),已經(jīng)有許多學(xué)者從各個(gè)方面進(jìn)行深入研究。本文介紹總結(jié)了這些相關(guān)工作,對(duì)這些方法進(jìn)行分類歸納研究,并對(duì)未來實(shí)體對(duì)齊的發(fā)展方向進(jìn)行分析。
當(dāng)前的方法都需要種子對(duì)齊來進(jìn)行監(jiān)督訓(xùn)練,在實(shí)際中,構(gòu)建種子對(duì)齊往往十分困難。因此,研究無監(jiān)督的實(shí)體對(duì)齊方法十分有意義,無監(jiān)督的實(shí)現(xiàn)可能會(huì)借助于外部輔助資源或者是類似于GAN[32]的對(duì)抗性訓(xùn)練。
通過研究發(fā)現(xiàn)在實(shí)體對(duì)齊的過程中使用迭代策略是有效的,但其中存在的錯(cuò)誤傳播問題會(huì)在迭代的過程中逐漸累積,放大負(fù)面影響。因此可以在迭代的過程中進(jìn)行新的設(shè)計(jì),盡可能減小錯(cuò)誤產(chǎn)生。
在實(shí)際應(yīng)用中,只有少部分的實(shí)體與其他實(shí)體之間的關(guān)系足夠緊密,大部分實(shí)體的鄰域結(jié)構(gòu)處于稀疏的狀態(tài),這些長(zhǎng)尾實(shí)體對(duì)齊對(duì)于整個(gè)過程是十分重要的,如何利用側(cè)面信息來對(duì)實(shí)體結(jié)構(gòu)進(jìn)行補(bǔ)全有待研究。與此同時(shí)并不是每一個(gè)源實(shí)體在待匹配的知識(shí)庫中都存在相應(yīng)的目標(biāo)實(shí)體,即它可能無法匹配到實(shí)體,對(duì)于這種問題也有待解決。