管子鍵,吳 旭,3,頡夏青,孫利娟
(1.北京郵電大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,北京100876;2.可信分布式計(jì)算與服務(wù)教育部重點(diǎn)實(shí)驗(yàn)室,北京100876;3.北京郵電大學(xué)圖書(shū)館,北京100876;4.北京郵電大學(xué)經(jīng)濟(jì)管理學(xué)院,北京100876)
不同語(yǔ)種知識(shí)在互聯(lián)網(wǎng)中深度融合,形成的多語(yǔ)言知識(shí)庫(kù)一方面彌補(bǔ)了單語(yǔ)言知識(shí)圖譜知識(shí)不完備的問(wèn)題,另一方面又為不同語(yǔ)言的知識(shí)重疊和知識(shí)互補(bǔ)研究帶來(lái)了新的挑戰(zhàn)。因此將遷移學(xué)習(xí)的思想就利用到跨語(yǔ)言知識(shí)圖譜研究中,其核心思想是利用已知的跨語(yǔ)言對(duì)齊語(yǔ)料,基于語(yǔ)義特征表示和跨語(yǔ)言遷移模型來(lái)實(shí)現(xiàn)從一種語(yǔ)言到另一種語(yǔ)言的遷移學(xué)習(xí),構(gòu)建出語(yǔ)義豐富的跨語(yǔ)言知識(shí)圖譜??缯Z(yǔ)言知識(shí)圖譜作為大數(shù)據(jù)時(shí)代的知識(shí)引擎,能夠提升數(shù)據(jù)獲取速率,降低知識(shí)應(yīng)用門檻,提高知識(shí)利用效率,更好地服務(wù)于人工智能的各個(gè)領(lǐng)域。對(duì)跨語(yǔ)言領(lǐng)域知識(shí)的遷移更有助于多語(yǔ)言者工作學(xué)習(xí)和網(wǎng)絡(luò)空間的內(nèi)容治理。
近年來(lái),基于嵌入的技術(shù)越來(lái)越收到研究者的關(guān)注,知識(shí)圖譜嵌入是將實(shí)體、屬性和關(guān)系等編碼到一個(gè)低維的空間中,表示為向量(或矩陣、張量),通過(guò)嵌入之間轉(zhuǎn)換關(guān)系的有效計(jì)算,完成對(duì)知識(shí)遷移。雖然基于嵌入的技術(shù)可以幫助提高單語(yǔ)知識(shí)的完整性,但對(duì)于跨語(yǔ)言知識(shí)在很大程度上還未被深度探索,匹配同一實(shí)體的語(yǔ)際鏈接(Inter-Lingual Links,ILLs)和表示相同關(guān)系的三元組對(duì)齊(Triple-Wise Alignment,TWA)問(wèn)題,都對(duì)解決多語(yǔ)言知識(shí)庫(kù)的知識(shí)融合和獨(dú)立演化問(wèn)題有著巨大幫助。由于以下幾個(gè)原因,使得這種語(yǔ)際知識(shí)轉(zhuǎn)換比單語(yǔ)實(shí)體鏈接更加困難:(1)各語(yǔ)言表達(dá)習(xí)慣和書(shū)寫方式的不同;(2)各語(yǔ)言實(shí)體含義范圍不盡相同;(3)跨語(yǔ)言已知對(duì)齊知識(shí)只占知識(shí)庫(kù)的一小部分。此外,跨語(yǔ)言知識(shí)遷移對(duì)單語(yǔ)言知識(shí)圖譜的完整性有著更高的要求。
為解決領(lǐng)域內(nèi)跨語(yǔ)言知識(shí)的遷移學(xué)習(xí)問(wèn)題,本文提出了一種跨語(yǔ)言領(lǐng)域知識(shí)單元遷移方法,通過(guò)基于語(yǔ)義層次建模的知識(shí)嵌入和跨語(yǔ)言知識(shí)單元對(duì)齊技術(shù),完成對(duì)領(lǐng)域內(nèi)知識(shí)從一種通用語(yǔ)言到一種小眾語(yǔ)言的遷移,擴(kuò)展了語(yǔ)料和標(biāo)注稀疏的小眾語(yǔ)言上的領(lǐng)域知識(shí),同時(shí)也在一定程度上提升了跨語(yǔ)言知識(shí)單元對(duì)齊任務(wù)的表現(xiàn)。
近年來(lái),已有不少針對(duì)單語(yǔ)言的知識(shí)圖譜嵌入模型被提出[16-23],單語(yǔ)知識(shí)圖譜嵌入研究為知識(shí)圖譜表示領(lǐng)域奠定了基礎(chǔ)。現(xiàn)有跨語(yǔ)言知識(shí)圖譜的不少研究就是基于單語(yǔ)知識(shí)圖譜嵌入開(kāi)展的。
多語(yǔ)言知識(shí)圖譜對(duì)齊的主要目的是利用知識(shí)圖譜嵌入相關(guān)技術(shù),借助圖譜中各類信息,完成圖譜中各元素對(duì)齊,實(shí)現(xiàn)跨語(yǔ)言知識(shí)融合擴(kuò)展。近些年有不少多語(yǔ)言知識(shí)圖譜對(duì)齊技術(shù)被提出,主要分為以下幾類:
1)基于結(jié)構(gòu)信息的方法:其基礎(chǔ)思想均為利用知識(shí)圖譜的圖結(jié)構(gòu)信息,對(duì)跨語(yǔ)言知識(shí)圖譜進(jìn)行向量表示,從而完成實(shí)體對(duì)齊,不同的是其嵌入模型和對(duì)向量表示的利用方式不同。
MTransE[1],基于TransE模型[16]分別編碼各個(gè)語(yǔ)言的實(shí)體和關(guān)系至一個(gè)獨(dú)立空間,然后學(xué)習(xí)不同表示空間之間的轉(zhuǎn)換,該模型保留了原語(yǔ)言空間的結(jié)構(gòu),提供了三種空間轉(zhuǎn)換的方式:基于距離的軸校準(zhǔn)、基于向量空間的向量轉(zhuǎn)換、基于向量空間的線性變換。
BootEA[10]模型優(yōu)化了負(fù)例選擇方式,由以往的隨機(jī)選擇改為選擇余弦距離最近的多個(gè)實(shí)體中的一個(gè),通過(guò)自舉的方式,為添加新實(shí)體對(duì)的操作增加了編輯和刪除實(shí)體對(duì)的能力,能有效地解決IPTransE中錯(cuò)誤信息的傳播。
MtransD[4]模型是基于TransD[18]的知識(shí)嵌入模型,發(fā)揮嵌入向量語(yǔ)義信息和空間信息分離的特性,利用對(duì)齊三元組的語(yǔ)義相同、空間不同特性,實(shí)現(xiàn)跨語(yǔ)言實(shí)體的對(duì)齊。但計(jì)算復(fù)雜度較高。
2)融合額外信息的方法:除利用知識(shí)圖譜的結(jié)構(gòu)信息外,實(shí)體的屬性信息、描述信息同樣蘊(yùn)含著深層次的語(yǔ)義信息。
JAPE[6]在結(jié)構(gòu)之外利用了實(shí)體的屬性信息,屬性部分借鑒Skip-gram模型的思想,將對(duì)齊實(shí)體的屬性作為當(dāng)前實(shí)體屬性的上下文進(jìn)行學(xué)習(xí),聯(lián)合結(jié)構(gòu)嵌入和屬性嵌入,根據(jù)余弦相似距離得到最終結(jié)果。
KDCoE[7]利用了實(shí)體的描述信息,基于多語(yǔ)言的平行語(yǔ)料訓(xùn)練跨語(yǔ)言詞向量,使用注意力門控的循環(huán)單元編碼器得到實(shí)體描述嵌入向量,結(jié)構(gòu)部分借鑒MTransE思想,兩個(gè)模塊共同訓(xùn)練一個(gè)迭代過(guò)程,并使用產(chǎn)生的新的跨語(yǔ)言對(duì)齊鏈接擴(kuò)展訓(xùn)練集。
GCN-Align[13]基于GCN模型分別對(duì)多語(yǔ)言知識(shí)圖譜的關(guān)系結(jié)構(gòu)和屬性進(jìn)行編碼,使用GCN來(lái)建模實(shí)體間的等價(jià)關(guān)系,通過(guò)實(shí)體-實(shí)體的鄰接矩陣編碼當(dāng)前節(jié)點(diǎn)的特征向量。使用one-hot向量填充實(shí)體-屬性鄰接矩陣,使用GCN卷積編碼屬性信息,最后使用兩部分表示共同計(jì)算實(shí)體間的跨語(yǔ)言距離。
REA[14]則是首次提出跨語(yǔ)言實(shí)體對(duì)齊中的噪音問(wèn)題,提出一種基于迭代訓(xùn)練的除噪算法,從而進(jìn)行魯棒的跨語(yǔ)言知識(shí)圖譜實(shí)體對(duì)齊,對(duì)后續(xù)跨語(yǔ)言實(shí)體對(duì)齊的去噪研究具有重要的開(kāi)創(chuàng)性意義。
多語(yǔ)言遷移學(xué)習(xí)也被廣泛用于知識(shí)問(wèn)答、機(jī)器翻譯等領(lǐng)域。M Bornea等人[15]提出通過(guò)在語(yǔ)義空間中拉近多語(yǔ)言嵌入來(lái)改善跨語(yǔ)言遷移策略,提出的兩種新策略顯著提高了跨語(yǔ)言(零資源)遷移的性能。
融合額外信息的實(shí)體對(duì)齊方法需要原始的多語(yǔ)言知識(shí)圖譜具有除關(guān)系結(jié)構(gòu)信息以外的其它更多信息,這對(duì)本就語(yǔ)料匱乏的領(lǐng)域小語(yǔ)種知識(shí)圖譜增加了額外的負(fù)擔(dān),因此如何僅利用知識(shí)圖譜的關(guān)系信息,高效且高質(zhì)地完成對(duì)跨語(yǔ)言圖譜的建模和知識(shí)的遷移就成為了當(dāng)前亟需解決的問(wèn)題。
基于語(yǔ)義層次感知的跨語(yǔ)言知識(shí)單元遷移模型(Semantic Hierarchy-Aware based Cross-lingual Knowledge Units Transfer Model,SHACUT)的基本思想是通過(guò)知識(shí)圖譜中知識(shí)單元的不同語(yǔ)義層次,將不同語(yǔ)言的知識(shí)圖譜嵌入各自的向量空間,利用種子對(duì)齊庫(kù),挖掘出跨語(yǔ)言向量空間之間的轉(zhuǎn)換,通過(guò)計(jì)算知識(shí)單元距離和置信度,完成鏈路預(yù)測(cè)和圖譜補(bǔ)全,實(shí)現(xiàn)跨語(yǔ)言實(shí)體、關(guān)系、屬性等知識(shí)單元(Knowledge Unit)的遷移(如圖1)。
圖1 SHACUT模型基本原理流程圖
本文所提出的模型由兩個(gè)部分組成,一部分是對(duì)每種語(yǔ)言實(shí)現(xiàn)基于語(yǔ)義層次感知的知識(shí)模型,另一部分是利用現(xiàn)有的少量對(duì)齊集學(xué)習(xí)跨語(yǔ)言轉(zhuǎn)換的遷移模型。
知識(shí)模型(Knowledge Model,KM)是基于語(yǔ)義層次感知的知識(shí)表示,借鑒了HAKE[20]模型對(duì)于實(shí)體和關(guān)系的建模方法,本文將單語(yǔ)知識(shí)圖譜中的知識(shí)單元根據(jù)語(yǔ)義層次的不同分為了兩類,即:
1)層次結(jié)構(gòu)不同級(jí)別的知識(shí)單元。例如:“哺乳動(dòng)物”和“狗”、“樹(shù)”和“棕櫚樹(shù)”;
2)層次結(jié)構(gòu)相同級(jí)別的知識(shí)單元。例如:“狗”和“貓”、“棕櫚樹(shù)”和“楊樹(shù)”。
為了對(duì)這兩類知識(shí)進(jìn)行建模,知識(shí)模型將同一語(yǔ)言的知識(shí)單元嵌入到一個(gè)極坐標(biāo)系中,即一個(gè)知識(shí)單元的嵌入表示由模量部分和相位部分組成,圖2為知識(shí)模型的一個(gè)簡(jiǎn)單示例。
圖2 SHACUT知識(shí)模型的簡(jiǎn)單示例
用em(e為h或t)和rm表示知識(shí)單元的模部分的嵌入,用ep(e為h或t)和rp表示知識(shí)單元的相位部分的嵌入。在極坐標(biāo)系中,徑向坐標(biāo)用于對(duì)不同語(yǔ)義層次的知識(shí)單元建模,角度坐標(biāo)用于對(duì)同一語(yǔ)義層次的知識(shí)單元建模,兩者組合實(shí)現(xiàn)語(yǔ)義層次感知的知識(shí)單元建模。
3.2.1 模部分
模部分的嵌入主要是對(duì)不同語(yǔ)義層次的知識(shí)單元進(jìn)行建模,受“樹(shù)”數(shù)據(jù)結(jié)構(gòu)的啟發(fā),可以將具有關(guān)系的不同層次的知識(shí)單元看作“樹(shù)”的各個(gè)“葉子”節(jié)點(diǎn),用節(jié)點(diǎn)(知識(shí)單元)的深度來(lái)建模不同層次的知識(shí)單元,因此,模量信息可以對(duì)上述類別1)中的知識(shí)單元進(jìn)行建模。hm和tm的向量表示為hm和tm,則模部分可以表示為
hm°rm=tm
(1)
dr,m(hm,tm)=‖hm°rm-tm‖2
(2)
其中,‖·‖2表示l2范數(shù),dr,m(hm,rm)表示在關(guān)系r下,頭知識(shí)單元h和尾知識(shí)單元t的模部分的距離。允許知識(shí)單元的嵌入項(xiàng)為負(fù),不允許關(guān)系的嵌入項(xiàng)為負(fù),即[rm]i>0,因?yàn)橹R(shí)單元的嵌入可以幫助預(yù)測(cè)兩個(gè)知識(shí)單元之間是否存在關(guān)系。
對(duì)于正例三元組(h,r,t1)和負(fù)例三元組(h,r,t2),目標(biāo)是最小化dr,m(hm,t1m),最大化dr,m(hm,t2m),使得dr,m(hm,t2m)盡可能地大于dr,m(hm,t1m),以最大差異化正負(fù)三元組。此外,考慮到樹(shù)結(jié)構(gòu)的特性,層次結(jié)構(gòu)較高的知識(shí)單元的模量盡可能得小,這樣更接近于樹(shù)的根。
只使用模部分來(lái)表示知識(shí)圖譜,那么類別2)中的知識(shí)單元都將具有相同的模量,這使得這些知識(shí)單元很難被區(qū)分,因此,需要一個(gè)新的模塊來(lái)對(duì)類別式(2)中的知識(shí)單元進(jìn)行建模。
3.2.2 相位部分
相位部分的嵌入主要是對(duì)同一語(yǔ)義層次上的知識(shí)單元進(jìn)行建模。受同一圓上的點(diǎn)(即具有相同的模量)可以相對(duì)于圓心具有不同的角度的啟發(fā),可以將同一語(yǔ)義層次上的知識(shí)單元看到是同一圓上不同相位上的節(jié)點(diǎn),以此來(lái)建模類別式(2)中的知識(shí)單元。hp和tp的向量表示為hp和tp,則相位部分可以表示為
(hp+rp)mod2π=tp
(3)
其中,hp,rp,tp∈[0,2π)k,相應(yīng)的距離函數(shù)為
dr,p(hp,tp)=‖sin((hp+rp-tp)∕2)‖1
(4)
其中,‖·‖1表示l1范數(shù),sin(·)表示為每個(gè)輸入的元素進(jìn)行正弦函數(shù)操作,由于相位具有周期性,因此這里使用正弦函數(shù)來(lái)測(cè)量相位之間的距離,dr,p(hp,tp)表示在關(guān)系r下,頭知識(shí)單元h和尾知識(shí)單元t的相位部分的距離。
3.2.3 知識(shí)模型表示
結(jié)合模部分和相位部分,知識(shí)模型可以將知識(shí)單元映射到極坐標(biāo)系中,其中徑向坐標(biāo)和角坐標(biāo)分別對(duì)應(yīng)于模部分和相位部分,即知識(shí)模型將一個(gè)知識(shí)單元e表示為[em;ep],其中em和ep分別由模部分和相位部分生成,[·;·]表示兩個(gè)向量的拼接??梢园l(fā)現(xiàn),[[em]i;[ep]i]是極坐標(biāo)系中的一個(gè)2維點(diǎn)。可以將SHACUT的知識(shí)模型表示如下
(5)
dr(h,t)=dr,m(hm,tm)+λdr,p(hp,tp)
=‖hm°rm-tm‖2+λ‖sin((hp+rp-tp)∕2)‖1
(6)
其中,λ∈,為模型學(xué)習(xí)得到的參數(shù)。相應(yīng)的得分函數(shù)為
fr(h,t)=-dr(h,t)=-dr,m(hm,tm)-λdr,p(hp,tp)
(7)
當(dāng)兩個(gè)知識(shí)單元具有相同的模量時(shí),模部分dr,m(hm,tm)=0,但相位部分dr,p(hp,tp)可以相差很大。通過(guò)模部分和相位部分的線性疊加可以建模類別式(1)和式(2)中的知識(shí)單元,實(shí)現(xiàn)基于語(yǔ)義層次的建模。
本文采用了HAKE原始論文中關(guān)于對(duì)dr,m(hm,tm)的優(yōu)化,即在dr,m(hm,tm)中加入混合偏差(mixturebias)[20],以此來(lái)提高SHACUT知識(shí)模型的性能,優(yōu)化后的dr,m(hm,tm)如下所示
(8)
3.2.4 知識(shí)模型損失函數(shù)
為了得到更好的訓(xùn)練結(jié)果,這里采用RotatE[19]模型中使用的負(fù)采樣損失函數(shù)和自我對(duì)抗訓(xùn)練方法,最終單語(yǔ)知識(shí)模型的損失函數(shù)為
Sa,KM=S正-S負(fù)
(9)
(10)
SKM=Sa,KM+Sb,KM
(11)
遷移模型(Transfer Model,TM)是為了構(gòu)造三元組對(duì)(Ta,Tb)∈A(La,Lb)在各自向量空間之間的變換,將跨語(yǔ)言對(duì)齊問(wèn)題看作不同嵌入空間的拓?fù)渥儞Q,基于知識(shí)模型得到的各語(yǔ)言三元組嵌入空間,推導(dǎo)得到向量空間之間的線性變換,通過(guò)計(jì)算變換后知識(shí)單元的距離和置信度,得到新的對(duì)齊知識(shí)單元,從而進(jìn)行鏈路預(yù)測(cè)和圖譜補(bǔ)全。
(12)
(13)
對(duì)于跨語(yǔ)言知識(shí)圖譜(GLa,GLb)以及對(duì)齊種子庫(kù)A(La,Lb),首先分別對(duì)各自語(yǔ)言的KG進(jìn)行基于語(yǔ)義層次建模的嵌入表示,再通過(guò)對(duì)子種子的鏈接訓(xùn)練得到GLa→GLb的向量空間轉(zhuǎn)換矩陣,SHACUT的目標(biāo)是最小化損失函數(shù)
S=SKM+αSTM
(14)
其中α是SKM和STM的權(quán)重超參數(shù)。
在實(shí)際應(yīng)用中,跨語(yǔ)言對(duì)等體的查找通常是通過(guò)計(jì)算潛在對(duì)等體之間的距離來(lái)評(píng)估對(duì)齊的置信度,置信度越高就表明搜索到的目標(biāo)知識(shí)單元是源知識(shí)單元的對(duì)等體的可能性越高,知識(shí)單元對(duì)的置信度con∈(0,1]
(15)
根據(jù)置信度大小,得到新的對(duì)齊知識(shí)單元,通過(guò)新的對(duì)齊知識(shí)單元可以預(yù)測(cè)源KG可能存在的潛在關(guān)系,實(shí)現(xiàn)“實(shí)體-關(guān)系-實(shí)體”、“實(shí)體-屬性名-屬性值”等的鏈路預(yù)測(cè)以及知識(shí)不完備的圖譜補(bǔ)全,從而完成跨語(yǔ)言知識(shí)單元遷移。
在實(shí)際應(yīng)用中,很多時(shí)候領(lǐng)域小語(yǔ)種知識(shí)圖譜比較稀疏,不具備豐富的實(shí)體描述和屬性信息,這就很難通過(guò)融合額外信息的跨語(yǔ)言知識(shí)單元對(duì)齊方法對(duì)領(lǐng)域稀疏小語(yǔ)種知識(shí)圖譜進(jìn)行對(duì)齊和補(bǔ)全,因此,通過(guò)對(duì)圖譜結(jié)構(gòu)信息的深度語(yǔ)義挖掘就成為一種行之有效的方法。本文所提出的SHACUT模型即是解決僅包含結(jié)構(gòu)信息的跨語(yǔ)言知識(shí)圖譜遷移問(wèn)題。
為了最大程度地貼近實(shí)際應(yīng)用場(chǎng)景,本文設(shè)計(jì)了兩部分實(shí)驗(yàn),一是在同樣是解決僅針對(duì)結(jié)構(gòu)信息的跨語(yǔ)言知識(shí)圖譜遷移的MTransE模型上,二是在本文提出的模型上,同時(shí)對(duì)公開(kāi)通用語(yǔ)種知識(shí)圖譜和領(lǐng)域小語(yǔ)種知識(shí)圖譜建模進(jìn)行對(duì)照實(shí)驗(yàn),通過(guò)縱向和橫向兩個(gè)維度的分析,驗(yàn)證本文所提SHACUT模型在僅包含結(jié)構(gòu)信息的公開(kāi)通用知識(shí)圖譜上的正確性和在僅包含結(jié)構(gòu)信息的領(lǐng)域小語(yǔ)種知識(shí)圖譜上的有效性。
為了驗(yàn)證本文所提出模型的效果以及對(duì)于領(lǐng)域知識(shí)的適用性,本節(jié)選擇包含英語(yǔ)(en)和法語(yǔ)(fr)KG的WK3l知識(shí)庫(kù)[1]來(lái)驗(yàn)證SHACUT模型在公開(kāi)數(shù)據(jù)集上的效果,選擇包含中文(zh)和阿拉伯語(yǔ)(ara)KG的military領(lǐng)域知識(shí)庫(kù)來(lái)驗(yàn)證SHACUT模型在領(lǐng)域知識(shí)集上的適用性。WK3l知識(shí)庫(kù)中的多語(yǔ)言KG的數(shù)據(jù)為DBpedia’s dbo:Person領(lǐng)域,其中部分三元組通過(guò)驗(yàn)證知識(shí)單元的ILLS和DBpedia本體在某些關(guān)系上的多語(yǔ)言標(biāo)簽實(shí)現(xiàn)對(duì)齊,本文以WK3l_60k數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象。military領(lǐng)域知識(shí)庫(kù)的多語(yǔ)言KG的數(shù)據(jù)主要由軍事武裝知識(shí)構(gòu)成,其中部分三元組通過(guò)機(jī)器翻譯后的人工審核校對(duì)實(shí)現(xiàn)對(duì)齊(見(jiàn)表1)
表1 WK3l_60k和military數(shù)據(jù)集數(shù)量統(tǒng)計(jì)
參考此類任務(wù)模型的評(píng)價(jià)指標(biāo),本文使用hits@k、MR(Mean Rank)、MRR(Mean Reciprocal Rank)來(lái)評(píng)估模型的性能。知識(shí)單元對(duì)齊任務(wù)中的hits@k指標(biāo)表示當(dāng)前語(yǔ)言所有知識(shí)單元匹配知識(shí)單元時(shí),真實(shí)的對(duì)齊知識(shí)單元在匹配對(duì)齊知識(shí)單元置信度排序前k個(gè)的概率,單位為%;MR指標(biāo)表示所有真實(shí)的對(duì)齊知識(shí)單元在匹配對(duì)齊知識(shí)單元置信度排位的平均值;MRR指標(biāo)表示所有真實(shí)的對(duì)齊知識(shí)單元在模型得出的匹配對(duì)齊知識(shí)單元置信度排位的倒數(shù)的平均值。本實(shí)驗(yàn)觀察和比較了hits@1、hits@10、hits@50、MR、MRR的結(jié)果。
此實(shí)驗(yàn)的目的是在公開(kāi)數(shù)據(jù)集WK3l_60k上通過(guò)匹配來(lái)自不同語(yǔ)言的對(duì)齊知識(shí)單元來(lái)證明SHACUT在公開(kāi)通用語(yǔ)種數(shù)據(jù)集上的有效性。由于匹配對(duì)齊知識(shí)單元的候選空間很大,該實(shí)驗(yàn)主要思想是強(qiáng)調(diào)對(duì)一組候選對(duì)齊知識(shí)單元進(jìn)行排序,并非直接獲得最佳答案。為了顯示SHACUT模型的優(yōu)越性,本文使用使用度廣、適用范圍大、且同樣不使用額外信息輔助的MTransE模型作為對(duì)比實(shí)驗(yàn)。
4.4.1 模型參數(shù)設(shè)置
實(shí)驗(yàn)中的知識(shí)單元向量和關(guān)系向量均采用隨機(jī)初始化。經(jīng)過(guò)多次實(shí)驗(yàn),對(duì)于WK3l_60k數(shù)據(jù)集,在SHACUT模型上的最佳配置為:知識(shí)模型:λ=0.01,k=[200,200],訓(xùn)練周期epoch=10000,批處理大小batch_size=256;對(duì)齊模型:λ=0.01,k=[200,200],訓(xùn)練周期epoch=500,批處理大小batch_size=128,每50epoch對(duì)學(xué)習(xí)率λ削減一半。在MTransE模型上的最佳配置為:知識(shí)模型:λ=0.01,k=100,訓(xùn)練周期epoch=400,批處理大小batch_size=128;對(duì)齊模型:λ=0.01*2.5,k=100,訓(xùn)練周期epoch=1200,批處理大小batch_size=128,每50epoch對(duì)學(xué)習(xí)率λ削減一半。對(duì)于兩個(gè)模型的知識(shí)模塊和對(duì)齊模塊均使用l_2范數(shù),對(duì)于知識(shí)模型,訓(xùn)練集、驗(yàn)證集、測(cè)試集的抽取比例均為:0.8:0.05:0.15,對(duì)于對(duì)齊模型,訓(xùn)練集、測(cè)試集的抽取比例均為:0.75:0.25。
4.4.2 實(shí)驗(yàn)結(jié)果與分析
表2展示了SHACUT和MTransE模型在WK3l_60k數(shù)據(jù)集(英-法)上的知識(shí)單元遷移效果,表明本文提出的SHACUT模型在跨語(yǔ)言遷移任務(wù)上具有優(yōu)勢(shì),優(yōu)于MTransE模型。
表2 SHACUT和MTransE模型在WK3l_60k數(shù)據(jù)集(英-法)上的實(shí)驗(yàn)結(jié)果
具體分析,可以觀察到以下幾點(diǎn):
1)SHACUT模型在hits@k的各項(xiàng)指標(biāo)上分別高出14.83%、10.86%、13%,充分表明了在WK3l_60k數(shù)據(jù)集(英-法)上進(jìn)行的跨語(yǔ)言知識(shí)單元匹配的有效性,其中hits@1指標(biāo)更是高出近15%,更加凸顯出SHACUT模型的精準(zhǔn)度。有超過(guò)42%的知識(shí)單元被命中在排名前50,體現(xiàn)出SHACUT模型的優(yōu)勢(shì)。
2)在MR指標(biāo)和MRR指標(biāo)的結(jié)果上,SHACUT的結(jié)果不如MTransE,高152.14,但考慮到WK3l_60k數(shù)據(jù)集(英-法)是通用數(shù)據(jù)集,其中包含的數(shù)據(jù)領(lǐng)域分布較廣,這對(duì)基于語(yǔ)義層次建模的SHACUT十分不友好,但總得來(lái)看,SHACUT能夠較好地完成具有語(yǔ)義層次深度的知識(shí)單元的跨語(yǔ)言匹配任務(wù),但對(duì)于知識(shí)圖譜中懸掛點(diǎn)知識(shí)單元的對(duì)齊匹配稍顯薄弱,主要?dú)w功于MTransE的知識(shí)模型基于翻譯的建模,在嵌入空間引入前后相關(guān)節(jié)點(diǎn)信息很好地解決了懸掛點(diǎn)問(wèn)題。
此實(shí)驗(yàn)的目的是在領(lǐng)域知識(shí)數(shù)據(jù)集military上通過(guò)匹配對(duì)齊跨語(yǔ)言知識(shí)單元來(lái)證明SHACUT在領(lǐng)域小語(yǔ)種數(shù)據(jù)集上的有效性。military領(lǐng)域數(shù)據(jù)由中文和阿拉伯語(yǔ)知識(shí)圖譜組成,中文和阿拉伯語(yǔ)的語(yǔ)言表達(dá)方式、書(shū)寫方式、語(yǔ)言學(xué)特點(diǎn)均與公開(kāi)通用的英語(yǔ)、法語(yǔ)等有著巨大差異,且中文和阿拉伯語(yǔ)兩種語(yǔ)言之間本身就有著巨大差異,這就為本文提出的SHACUT模型帶來(lái)了巨大挑戰(zhàn)。此外,本文所使用的軍事領(lǐng)域知識(shí)數(shù)據(jù)集具有稀疏度高、相關(guān)性大、語(yǔ)義層次深等特點(diǎn),即知識(shí)單元間關(guān)系較為稀疏,知識(shí)單元基本屬于同一領(lǐng)域,這直接考驗(yàn) SHACUT模型的語(yǔ)義層次建模效果。為了驗(yàn)證SHACUT模型對(duì)于此領(lǐng)域特點(diǎn)和此類語(yǔ)言特性數(shù)據(jù)的有效性,本文同樣使用MTransE模型作為對(duì)比實(shí)驗(yàn)。
4.5.1 模型參數(shù)設(shè)置
經(jīng)過(guò)多次實(shí)驗(yàn),對(duì)于military數(shù)據(jù)集,在SHACUT模型上的最佳配置為:知識(shí)模型:λ=0.00001,k=[500,500],訓(xùn)練周期epoch=80000,批處理大小batch_size=512;對(duì)齊模型:λ=0.01,k=[500,500],訓(xùn)練周期epoch=500,批處理大小batch_size=128,每50epoch對(duì)學(xué)習(xí)率λ削減一半。在MTransE模型上的最佳配置為:知識(shí)模型:λ=0.001,k=100,訓(xùn)練周期epoch=400,批處理大小batch_size=128;對(duì)齊模型λ=0.001*2.5,k=100,訓(xùn)練周期epoch=1200,批處理大小batch_size=128,每50epoch對(duì)學(xué)習(xí)率λ削減一半。對(duì)于兩個(gè)模型的知識(shí)模塊和對(duì)齊模塊均使用l_2范數(shù),訓(xùn)練集、測(cè)試集的抽取比例均為:0.75:0.25。
4.5.2 實(shí)驗(yàn)結(jié)果與分析
表3展示了SHACUT和MTransE模型在military數(shù)據(jù)集(中-阿)上的知識(shí)單元遷移效果,表明本文提出的SHACUT模型在跨語(yǔ)言遷移任務(wù)上具有優(yōu)勢(shì),整體優(yōu)于MTransE模型。
表3 SHACUT和MTransE模型在military數(shù)據(jù)集(中-阿)上的實(shí)驗(yàn)結(jié)果
具體分析,可以觀察到以下幾點(diǎn):
1)SHACUT模型的各項(xiàng)指標(biāo)均優(yōu)于MTransE,表明SHACUT能夠更好地對(duì)military數(shù)據(jù)中-阿知識(shí)圖譜進(jìn)行建模。其中hits@1指標(biāo)遠(yuǎn)高出MTransE的該項(xiàng)指標(biāo)41.6%,表明通過(guò)SHACUT匹配得到的對(duì)齊知識(shí)單元為真實(shí)對(duì)齊知識(shí)單元的概率更大,hits@10指標(biāo)相比高出18.18%,hits@50相比高出3.79%,同樣可以證明上述結(jié)論。對(duì)于MR指標(biāo),SHACUT模型高出253.76,可以直接表明SHACUT模型對(duì)于military數(shù)據(jù)集(中-阿)匹配知識(shí)單元效果整體要高于MTransE。
2)SHACUT模型hits@k指標(biāo)隨著k值的增加,增速相對(duì)于MTransE模型變緩,考慮到military數(shù)據(jù)集知識(shí)圖譜稀疏度高,相關(guān)性大,語(yǔ)義層次分散的特點(diǎn),表明SHACUT模型對(duì)于知識(shí)圖譜的語(yǔ)義層次建模有著很好的效果,但由于知識(shí)單元間關(guān)系較為稀疏,很難對(duì)所有知識(shí)單元進(jìn)行語(yǔ)義層次的建模,多語(yǔ)言知識(shí)單元在向量空間上的分布更為聚集,游離知識(shí)單元較多。
通過(guò)橫向?qū)Ρ萐HACUT模型在WK3l_60k數(shù)據(jù)集的英-法KG和military領(lǐng)域數(shù)據(jù)集的中-阿KG上的實(shí)驗(yàn),可以發(fā)現(xiàn)在military領(lǐng)域數(shù)據(jù)集(中-阿)的結(jié)果相對(duì)于WK3l_60k數(shù)據(jù)集(英-法)的結(jié)果,hits@k指標(biāo)的各項(xiàng)值分別高出15.83%、10.26%、12.02%,同時(shí)平均排名MR指標(biāo)低211.9,可以表明SHACUT模型針對(duì)語(yǔ)義層次的建模具有顯著的優(yōu)勢(shì),巧妙地規(guī)避了語(yǔ)言本身在表達(dá)方式、書(shū)寫方式、語(yǔ)言學(xué)特點(diǎn)等方面的差異性,很好地保留了各自語(yǔ)言的語(yǔ)義層次結(jié)構(gòu),同時(shí)更加有效地抽取單語(yǔ)知識(shí)的領(lǐng)域特征,對(duì)領(lǐng)域相關(guān)性高、語(yǔ)義層次深的知識(shí)圖譜有著更好的結(jié)果。證明SHACUT模型能更好地捕捉深層次的語(yǔ)義信息,對(duì)領(lǐng)域相關(guān)性高的知識(shí)單元能做出更加精準(zhǔn)的區(qū)分,以減少跨語(yǔ)言知識(shí)單元遷移過(guò)程中的鄰近干擾,從而更好地完成領(lǐng)域跨語(yǔ)言知識(shí)遷移任務(wù)。
本文借鑒了HAKE模型基于語(yǔ)義層次感知的實(shí)體嵌入思想,將其引入到跨語(yǔ)言領(lǐng)域知識(shí)單元遷移任務(wù)中,通過(guò)在公開(kāi)通用語(yǔ)言數(shù)據(jù)集和領(lǐng)域小語(yǔ)種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析,可以發(fā)現(xiàn)本文所提出的SHACUT模型在解決無(wú)額外信息情況下的跨語(yǔ)言知識(shí)單元遷移問(wèn)題,尤其是具有領(lǐng)域特點(diǎn)的跨語(yǔ)言知識(shí)遷移問(wèn)題,能夠很好地發(fā)揮其語(yǔ)義層次建模的優(yōu)點(diǎn),保留了單語(yǔ)知識(shí)圖譜的語(yǔ)義層次信息,結(jié)果令人欣喜。但也發(fā)現(xiàn)可能會(huì)丟失小部分圖譜結(jié)構(gòu)信息,主要集中在對(duì)懸掛點(diǎn)知識(shí)單元的建模問(wèn)題上。但這也指出了下一步工作和改進(jìn)的可能,特別是,如何在不添加額外信息的情況下,更好地對(duì)知識(shí)圖譜的語(yǔ)義層次和結(jié)構(gòu)信息建模,將MTransE對(duì)圖譜結(jié)構(gòu)的建模與SHACUT對(duì)語(yǔ)義層次的建模相結(jié)合是一個(gè)有意義的研究方法,為跨語(yǔ)言領(lǐng)域知識(shí)遷移提供更加有效的工具。