靳 州,楊振艦
(天津城建大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,天津 300384)
知識(shí)圖譜(knowledge graph,KG)是結(jié)構(gòu)化存儲(chǔ)知識(shí)的知識(shí)庫,通常采用三元組(頭實(shí)體,關(guān)系,尾實(shí)體)的形式描述現(xiàn)實(shí)世界的事實(shí),例如三元組(奧巴馬,總統(tǒng),美國),其中“奧巴馬”表示頭實(shí)體,“美國”表示尾實(shí)體,“總統(tǒng)”表示“奧巴馬”和“美國”之間的關(guān)系.
然而,知識(shí)圖譜是不完整的,需要基于已有事實(shí)進(jìn)行補(bǔ)全和完善.受到表示學(xué)習(xí)的啟發(fā),研究人員提出知識(shí)表示學(xué)習(xí)(knowledge representation learning,KRL),將知識(shí)圖譜映射到低維向量空間[1],學(xué)習(xí)實(shí)體和關(guān)系的嵌入表示.知識(shí)表示學(xué)習(xí)緩解了數(shù)據(jù)稀疏性,實(shí)現(xiàn)了多源信息的融合,保留了知識(shí)圖譜的結(jié)構(gòu)信息.
Goel等人提出歷時(shí)嵌入(diachronic embedding,DE),通過激活函數(shù)掩蓋部分嵌入權(quán)重,學(xué)習(xí)時(shí)間實(shí)體嵌入[2].DE是方法無關(guān)的,可擴(kuò)展到任意靜態(tài)表示方法,且表現(xiàn)出先進(jìn)的性能,本文圍繞DE展開研究工作.針對(duì)上述問題,本文提出了一種關(guān)系感知的時(shí)間嵌入(relation-aware temproal embedding,RTE).本文的主要貢獻(xiàn)如下:
(1)本文提出一種關(guān)系感知的時(shí)間嵌入(relationaware temproal embedding,RTE),可擴(kuò)展到任何靜態(tài)表示學(xué)習(xí)方法.
(2)本文提出一種高效的融合機(jī)制,耦合靜態(tài)特征和時(shí)間特征,并研究不同融合機(jī)制方案對(duì)RTE的影響.
(3)本文將RTE與DistMult和SimplE結(jié)合,提出RTE-DistMult和RTE-SimplE,在基準(zhǔn)數(shù)據(jù)集上取得了先進(jìn)的實(shí)驗(yàn)結(jié)果.
近年來,知識(shí)表示學(xué)習(xí)受到高度關(guān)注,研究人員提出各種表示學(xué)習(xí)方法、學(xué)習(xí)實(shí)體和關(guān)系的嵌入表示,并通過評(píng)分函數(shù)判定事實(shí)元組是否有效[3].本文將相關(guān)工作劃分為靜態(tài)表示學(xué)習(xí)方法和時(shí)間表示學(xué)習(xí)方法.
靜態(tài)表示學(xué)習(xí)方法忽略了知識(shí)圖譜的時(shí)間屬性,時(shí)間表示學(xué)習(xí)方法利用時(shí)間信息擴(kuò)展了靜態(tài)表示學(xué)習(xí)方法.García-Durán等人[4]通過字符LSTM組合關(guān)系時(shí)間戳擴(kuò)展TransE DistMult.Goel等人通過掩蓋部分嵌入權(quán)重,學(xué)習(xí)歷時(shí)實(shí)體嵌入DE,擴(kuò)展TransE、DistMult和SimplE.DE是方法無關(guān)的,可擴(kuò)展任意靜態(tài)表示方法,且在基準(zhǔn)上展現(xiàn)強(qiáng)大的性能.通過改進(jìn)DE,本文提出一種新穎的時(shí)間嵌入表示,擴(kuò)展現(xiàn)有的靜態(tài)表示方法.
正確事實(shí)中的實(shí)體應(yīng)該包含時(shí)間信息,通過給三元組標(biāo)注時(shí)間戳或時(shí)間間隔,可獲得事實(shí)四元組.受到歷時(shí)嵌入DE的啟發(fā),本文提出一種關(guān)系感知的時(shí)間嵌入(relation-aware temproal embedding,RTE).
歷時(shí)嵌入DE按照維度劃分為靜態(tài)特征和時(shí)間特征,并利用激活函數(shù)和實(shí)體權(quán)重學(xué)習(xí)時(shí)間特征.使用表示DE,定義如下
其中,av和ωv,bv是實(shí)體相關(guān)的向量;σ是激活函數(shù).的γd部分表示時(shí)間特征,(1-γ)d部分表示靜態(tài)特征.DE使用超參數(shù)γ控制時(shí)間特征的占比,限制了時(shí)間特征的表達(dá).同時(shí),DE的時(shí)間特征只使用了實(shí)體相關(guān)的權(quán)重,忽視了關(guān)系對(duì)時(shí)間實(shí)體嵌入的影響.
本文提出一種關(guān)系感知的時(shí)間嵌入RTE.不同于DE的維度劃分,RTE學(xué)習(xí)了關(guān)系感知的時(shí)間特征,并使用zvs和zvt分別表示靜態(tài)特征和時(shí)間特征.RTE顯式建模zvs,定義如下
其中,vs是實(shí)體特定的向量.RTE引入關(guān)系權(quán)重,建模了關(guān)系與時(shí)間之間的潛在關(guān)聯(lián),學(xué)習(xí)關(guān)系感知的時(shí)間特征zvt,定義如下
其中,vt,ωv和bt是實(shí)體相關(guān)的向量;ωr是關(guān)系特定的向量;σ是激活函數(shù).類似DE,本文使用sin作為激活函數(shù).本文提出一種簡單有效的融合機(jī)制,耦合靜態(tài)特征和時(shí)間特征,學(xué)習(xí)時(shí)間關(guān)系感知的時(shí)間嵌入zRTE,定義如下
本文通過實(shí)驗(yàn)研究了各種融合方案對(duì)zRTE的影響.已有的時(shí)間表示學(xué)習(xí)方法通常利用時(shí)間信息僅擴(kuò)展一個(gè)靜態(tài)表示學(xué)習(xí)方法,例如TTransE[5]和HyTE[6].RTE是方法無關(guān)的,可擴(kuò)展任意的靜態(tài)嵌入方法(例如TransE,DistMult,SimplE).
本文將時(shí)間嵌入RTE與DistMult和SimplE結(jié)合,提出RTE-DistMult和RTE-SimplE.
RTE-DistMult使用向量eRTE表示實(shí)體時(shí)間嵌入,對(duì)角矩陣Mr=diag(r)表示關(guān)系嵌入,定義如下評(píng)分函數(shù)
本文使用時(shí)間嵌入RTE替換DistMult和SimplE中的靜態(tài)嵌入,有效捕捉了頭尾實(shí)體在時(shí)間空間的潛在語義交互.
知識(shí)圖譜中的事實(shí)被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集.本文通過最小批隨機(jī)梯度下降算法學(xué)習(xí)方法參數(shù).對(duì)于最小批B中的事實(shí)四元組,本文生成兩種查詢(v,r,?,t)和(?,r,u,t).對(duì)于(v,r,?,t),生成候選集合C(f,v),對(duì)于(?,r,u,t),生成候選集合C(f,u).然后,本文使用二分類交叉熵?fù)p失函數(shù)訓(xùn)練方法的參數(shù),定義如下
算法1展示了RTE方法的訓(xùn)練過程.RTE模型采用Xavier[7]初始化方式,將實(shí)體和關(guān)系初始化為均勻分布的隨機(jī)向量.在算法的迭代循環(huán)過程中,首先對(duì)實(shí)體嵌入和關(guān)系嵌入進(jìn)行歸一化,然后從知識(shí)圖譜訓(xùn)練集中隨機(jī)抽取一小批次三元組作為訓(xùn)練樣本,通過隨機(jī)替換訓(xùn)練集中每個(gè)三元組的實(shí)體或關(guān)系,生成負(fù)三元組集合.集合由成對(duì)的正三元組和負(fù)三元組組成.最后,通過最小化損失函數(shù),迭代更新實(shí)體嵌入和關(guān)系嵌入,直到算法在驗(yàn)證集上性能收斂或達(dá)到最大迭代次數(shù).
算法1 RTE模型訓(xùn)練算法
本文在時(shí)間標(biāo)記的標(biāo)準(zhǔn)數(shù)據(jù)集ICEWS14和ICWES05-15上進(jìn)行鏈接預(yù)測(cè)實(shí)驗(yàn),與不同的基準(zhǔn)方法進(jìn)行比較,評(píng)估RTE-DistMult和RTE-SimplE的性能.
ICEWS14和ICEWS05-15是時(shí)間知識(shí)圖譜ICEWS的子集.ICEWS是一個(gè)包含時(shí)間戳和政治事件的知識(shí)庫.ICEWS提供從1995年到2015年發(fā)生的,由實(shí)體(例如國家、地區(qū)、總統(tǒng))和關(guān)系(例如訪問、會(huì)面、談判)組成的政治事實(shí).ICEWS14對(duì)應(yīng)2014年的事實(shí),ICEWS05-15對(duì)應(yīng)2005年4月1日到2016年3月31日的事實(shí).ICEWS14包含7 128個(gè)實(shí)體,230個(gè)關(guān)系,365個(gè)時(shí)間戳和90 730個(gè)三元組.ICEWS05-15包含10 488個(gè)實(shí)體,251個(gè)關(guān)系,4 017個(gè)時(shí)間戳和479 329個(gè)三元組.表1展示了數(shù)據(jù)集的統(tǒng)計(jì)信息.
表1 數(shù)據(jù)集的統(tǒng)計(jì)信息
對(duì)比基準(zhǔn)可分為靜態(tài)表示學(xué)習(xí)方法和時(shí)間表示學(xué)習(xí)方法.對(duì)于靜態(tài)表示學(xué)習(xí)方法,選擇TransE、DistMult和SimplE進(jìn)行對(duì)比;對(duì)于時(shí)間表示學(xué)習(xí)方法,選擇TTransE、TA-DistMult、DE-DistMult和DESimplE進(jìn)行對(duì)比.
鏈接預(yù)測(cè)的目的是預(yù)測(cè)給定事實(shí)缺失的實(shí)體.為驗(yàn)證RTE-DistMult和RTE-SimplE的性能,在ICEWS14和ICEW05-15數(shù)據(jù)集上進(jìn)行鏈接預(yù)測(cè)實(shí)驗(yàn).按照TransE過程,對(duì)正確四元組進(jìn)行負(fù)采樣,分別用于頭實(shí)體預(yù)測(cè)和尾實(shí)體預(yù)測(cè).對(duì)于測(cè)試集中的每個(gè)四元組,使用實(shí)體集合中的所有實(shí)體替換頭實(shí)體或尾實(shí)體,構(gòu)造候選四元組集合.然后,按照評(píng)分函數(shù)計(jì)算的得分降序排列候選四元組,存儲(chǔ)正確實(shí)體的排名,并按照評(píng)價(jià)指標(biāo)計(jì)算實(shí)體的預(yù)測(cè)結(jié)果.考慮到候選四元組可能存在知識(shí)圖譜,按照TransE的設(shè)置,從候選四元組集合中,剔除存在訓(xùn)練集、驗(yàn)證集和測(cè)試集的候選四元組.為評(píng)估方法性能,選擇兩個(gè)標(biāo)準(zhǔn)指標(biāo):Mean Reciprocal Rank(MRR)和Hits at N(Hits@N).MRR表示所有正確實(shí)體的平均倒數(shù)排名,Hit@N表示正確實(shí)體排在前n個(gè)預(yù)測(cè)實(shí)體中的比例.方法的鏈接預(yù)測(cè)性能越好,MRR越高或Hits@N越高.
本文使用Pytorch框架實(shí)現(xiàn)RTE-DistMult和RTESimplE,并在單個(gè)GPU上進(jìn)行實(shí)驗(yàn).對(duì)于基準(zhǔn)方法,引用原始論文中報(bào)告的實(shí)驗(yàn)結(jié)果.根據(jù)方法在驗(yàn)證集上的MRR指標(biāo),通過網(wǎng)格搜索尋找最佳超參數(shù).本文將學(xué)習(xí)率lr設(shè)置為0.001,從{256,512,1024}中選擇批大小B,從{50,100,200,300,4005,00}中選擇維度d,從{1,5,10,20,50,100,200}中選擇訓(xùn)練樣本的負(fù)采樣個(gè)數(shù)ne.在不同數(shù)據(jù)集上最佳的參數(shù)配置如下:在ICEWS14上,對(duì)于RTE-DistMult,B=512,d=500,ne=100,對(duì)于RTE-SimplE,B=512,d=500,ne=200;在ICEWS05-15上,對(duì)于RTE-DistMult,B=256,d=500,ne=100對(duì)于RTE-SimplE,B=256,d=500,ne=200.
表2展示了RTE-DistMult和RTE-SimplE在基準(zhǔn)數(shù)據(jù)集上的鏈接預(yù)測(cè)結(jié)果.從表2中可以看出:①RTE-DistMult明顯優(yōu)于其他基于DistMult的基準(zhǔn)TA-DistMult和DE-DistMult,RTE-SimplE優(yōu)于基于SimplE的基準(zhǔn)DE-SimplE,由此顯示了RTE相較于DE的優(yōu)越性.②RTE-SimplE優(yōu)于RTE-DistMult,證明SimplE具有較強(qiáng)的表現(xiàn)力.③RTE-SimplE在各個(gè)評(píng)價(jià)指標(biāo)上取得先進(jìn)的性能,進(jìn)一步表明RTE的有效性.
表2 ICEWS14和ICEWS05-15數(shù)據(jù)集上的結(jié)果
本文在公式(2)中使用正切和正弦作為融合系數(shù),為了研究不同融合方案對(duì)RTE的影響,進(jìn)一步進(jìn)行RTE變體的實(shí)驗(yàn).表3展示了RTE-DistMult的變體在ICEWS14上的實(shí)驗(yàn)結(jié)果.從表3中可以看出:相較于其他融合方案(sigmoid,relu等[8]),tanh和sin的組合產(chǎn)生更好的性能,可能由于tanh對(duì)應(yīng)于平滑的特征切換,可模擬實(shí)體的特征選擇,sin對(duì)應(yīng)多個(gè)開關(guān)的特征切換,模擬時(shí)間的特征選擇(在某個(gè)時(shí)間開始并在某個(gè)時(shí)間結(jié)束).
表3 RTE-DistMult的變體在ICEWS14數(shù)據(jù)集上的結(jié)果
圖1a和圖1b分別顯示了RTE-SimplE和DESimplE在ICEWS14數(shù)據(jù)集上的MRR值與維度和負(fù)采樣之間的關(guān)系.圖2a和圖2b分別顯示了RTEDistMult和DE-DistMult在ICEWS14數(shù)據(jù)集上的MRR值與維度和負(fù)采樣之間的關(guān)系.從圖1a和圖2a可以看出,隨著維度的增加,RTE-DistMult和DEDistMult的MRR指標(biāo)迅速增大,逐漸趨于平穩(wěn),達(dá)到峰值后略有下降,性能的輕微下降可能是由于參數(shù)過多導(dǎo)致過擬合.從圖1b和圖2b可以看出,隨著負(fù)采樣值變大,MRR指標(biāo)平穩(wěn)增長至最大值.增大負(fù)采樣率可以在一定程度上提升方法的性能.圖1和圖2的結(jié)果表明RTE-DistMult始終優(yōu)于DE-DistMult,RTE-SimplE始終優(yōu)于DE-SimplE,驗(yàn)證了RTE的有效性和優(yōu)越性.
圖1 RTE-SimplE和DE-SimplE在ICEWS14數(shù)據(jù)集上的MRR值
圖2 RTE-DistMult和DE-DistMult在ICEWS14數(shù)據(jù)集上的MRR值
本文提出一種關(guān)系感知的時(shí)間實(shí)體嵌入RTE,學(xué)習(xí)關(guān)系感知的時(shí)間特征,并通過一種簡單有效的融合機(jī)制耦合靜態(tài)特征和時(shí)間特征.RTE是方法無關(guān)的,可擴(kuò)展到任何靜態(tài)知識(shí)表示學(xué)習(xí)方法.本文將RTE與DistMult和SimplE結(jié)合,提出RTE-DistMult和RTESimplE,并在基準(zhǔn)數(shù)據(jù)集上設(shè)計(jì)了對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果驗(yàn)證了RTE的有效性.