基于關(guān)系時(shí)間嵌入的時(shí)間知識(shí)表示學(xué)習(xí)

2022-07-21 13:54:44楊振艦

天津城建大學(xué)學(xué)報(bào) 2022年4期

靳州，楊振艦

（天津城建大學(xué) 計(jì)算機(jī)與信息工程學(xué)院，天津 300384）

知識(shí)圖譜（knowledge graph，KG）是結(jié)構(gòu)化存儲(chǔ)知識(shí)的知識(shí)庫，通常采用三元組（頭實(shí)體，關(guān)系，尾實(shí)體）的形式描述現(xiàn)實(shí)世界的事實(shí)，例如三元組（奧巴馬，總統(tǒng)，美國），其中“奧巴馬”表示頭實(shí)體，“美國”表示尾實(shí)體，“總統(tǒng)”表示“奧巴馬”和“美國”之間的關(guān)系.

然而，知識(shí)圖譜是不完整的，需要基于已有事實(shí)進(jìn)行補(bǔ)全和完善.受到表示學(xué)習(xí)的啟發(fā)，研究人員提出知識(shí)表示學(xué)習(xí)（knowledge representation learning，KRL），將知識(shí)圖譜映射到低維向量空間[1]，學(xué)習(xí)實(shí)體和關(guān)系的嵌入表示.知識(shí)表示學(xué)習(xí)緩解了數(shù)據(jù)稀疏性，實(shí)現(xiàn)了多源信息的融合，保留了知識(shí)圖譜的結(jié)構(gòu)信息.

Goel等人提出歷時(shí)嵌入（diachronic embedding，DE），通過激活函數(shù)掩蓋部分嵌入權(quán)重，學(xué)習(xí)時(shí)間實(shí)體嵌入[2].DE是方法無關(guān)的，可擴(kuò)展到任意靜態(tài)表示方法，且表現(xiàn)出先進(jìn)的性能，本文圍繞DE展開研究工作.針對(duì)上述問題，本文提出了一種關(guān)系感知的時(shí)間嵌入（relation-aware temproal embedding，RTE）.本文的主要貢獻(xiàn)如下：

（1）本文提出一種關(guān)系感知的時(shí)間嵌入（relationaware temproal embedding，RTE），可擴(kuò)展到任何靜態(tài)表示學(xué)習(xí)方法.

（2）本文提出一種高效的融合機(jī)制，耦合靜態(tài)特征和時(shí)間特征，并研究不同融合機(jī)制方案對(duì)RTE的影響.

（3）本文將RTE與DistMult和SimplE結(jié)合，提出RTE-DistMult和RTE-SimplE，在基準(zhǔn)數(shù)據(jù)集上取得了先進(jìn)的實(shí)驗(yàn)結(jié)果.

近年來，知識(shí)表示學(xué)習(xí)受到高度關(guān)注，研究人員提出各種表示學(xué)習(xí)方法、學(xué)習(xí)實(shí)體和關(guān)系的嵌入表示，并通過評(píng)分函數(shù)判定事實(shí)元組是否有效[3].本文將相關(guān)工作劃分為靜態(tài)表示學(xué)習(xí)方法和時(shí)間表示學(xué)習(xí)方法.

靜態(tài)表示學(xué)習(xí)方法忽略了知識(shí)圖譜的時(shí)間屬性，時(shí)間表示學(xué)習(xí)方法利用時(shí)間信息擴(kuò)展了靜態(tài)表示學(xué)習(xí)方法.García-Durán等人[4]通過字符LSTM組合關(guān)系時(shí)間戳擴(kuò)展TransE DistMult.Goel等人通過掩蓋部分嵌入權(quán)重，學(xué)習(xí)歷時(shí)實(shí)體嵌入DE，擴(kuò)展TransE、DistMult和SimplE.DE是方法無關(guān)的，可擴(kuò)展任意靜態(tài)表示方法，且在基準(zhǔn)上展現(xiàn)強(qiáng)大的性能.通過改進(jìn)DE，本文提出一種新穎的時(shí)間嵌入表示，擴(kuò)展現(xiàn)有的靜態(tài)表示方法.

1 研究方法

正確事實(shí)中的實(shí)體應(yīng)該包含時(shí)間信息，通過給三元組標(biāo)注時(shí)間戳或時(shí)間間隔，可獲得事實(shí)四元組.受到歷時(shí)嵌入DE的啟發(fā)，本文提出一種關(guān)系感知的時(shí)間嵌入（relation-aware temproal embedding，RTE）.

1.1 歷時(shí)嵌入DE

歷時(shí)嵌入DE按照維度劃分為靜態(tài)特征和時(shí)間特征，并利用激活函數(shù)和實(shí)體權(quán)重學(xué)習(xí)時(shí)間特征.使用表示DE，定義如下

其中，av和ωv，bv是實(shí)體相關(guān)的向量；σ是激活函數(shù).的γd部分表示時(shí)間特征，（1-γ）d部分表示靜態(tài)特征.DE使用超參數(shù)γ控制時(shí)間特征的占比，限制了時(shí)間特征的表達(dá).同時(shí)，DE的時(shí)間特征只使用了實(shí)體相關(guān)的權(quán)重，忽視了關(guān)系對(duì)時(shí)間實(shí)體嵌入的影響.

1.2 關(guān)系感知的時(shí)間嵌入RTE

本文提出一種關(guān)系感知的時(shí)間嵌入RTE.不同于DE的維度劃分，RTE學(xué)習(xí)了關(guān)系感知的時(shí)間特征，并使用zvs和zvt分別表示靜態(tài)特征和時(shí)間特征.RTE顯式建模zvs，定義如下

其中，vs是實(shí)體特定的向量.RTE引入關(guān)系權(quán)重，建模了關(guān)系與時(shí)間之間的潛在關(guān)聯(lián)，學(xué)習(xí)關(guān)系感知的時(shí)間特征zvt，定義如下

其中，vt，ωv和bt是實(shí)體相關(guān)的向量；ωr是關(guān)系特定的向量；σ是激活函數(shù).類似DE，本文使用sin作為激活函數(shù).本文提出一種簡單有效的融合機(jī)制，耦合靜態(tài)特征和時(shí)間特征，學(xué)習(xí)時(shí)間關(guān)系感知的時(shí)間嵌入zRTE，定義如下

本文通過實(shí)驗(yàn)研究了各種融合方案對(duì)zRTE的影響.已有的時(shí)間表示學(xué)習(xí)方法通常利用時(shí)間信息僅擴(kuò)展一個(gè)靜態(tài)表示學(xué)習(xí)方法，例如TTransE[5]和HyTE[6].RTE是方法無關(guān)的，可擴(kuò)展任意的靜態(tài)嵌入方法（例如TransE，DistMult，SimplE）.

本文將時(shí)間嵌入RTE與DistMult和SimplE結(jié)合，提出RTE-DistMult和RTE-SimplE.

RTE-DistMult使用向量eRTE表示實(shí)體時(shí)間嵌入，對(duì)角矩陣Mr=diag（r）表示關(guān)系嵌入，定義如下評(píng)分函數(shù)

本文使用時(shí)間嵌入RTE替換DistMult和SimplE中的靜態(tài)嵌入，有效捕捉了頭尾實(shí)體在時(shí)間空間的潛在語義交互.

1.3 學(xué)習(xí)與訓(xùn)練

知識(shí)圖譜中的事實(shí)被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集.本文通過最小批隨機(jī)梯度下降算法學(xué)習(xí)方法參數(shù).對(duì)于最小批B中的事實(shí)四元組，本文生成兩種查詢（v，r，?，t）和（?，r，u，t）.對(duì)于（v，r，?，t），生成候選集合C（f，v），對(duì)于（?，r，u，t），生成候選集合C（f，u）.然后，本文使用二分類交叉熵?fù)p失函數(shù)訓(xùn)練方法的參數(shù)，定義如下

算法1展示了RTE方法的訓(xùn)練過程.RTE模型采用Xavier[7]初始化方式，將實(shí)體和關(guān)系初始化為均勻分布的隨機(jī)向量.在算法的迭代循環(huán)過程中，首先對(duì)實(shí)體嵌入和關(guān)系嵌入進(jìn)行歸一化，然后從知識(shí)圖譜訓(xùn)練集中隨機(jī)抽取一小批次三元組作為訓(xùn)練樣本，通過隨機(jī)替換訓(xùn)練集中每個(gè)三元組的實(shí)體或關(guān)系，生成負(fù)三元組集合.集合由成對(duì)的正三元組和負(fù)三元組組成.最后，通過最小化損失函數(shù)，迭代更新實(shí)體嵌入和關(guān)系嵌入，直到算法在驗(yàn)證集上性能收斂或達(dá)到最大迭代次數(shù).

算法1 RTE模型訓(xùn)練算法

2 結(jié)果與分析

本文在時(shí)間標(biāo)記的標(biāo)準(zhǔn)數(shù)據(jù)集ICEWS14和ICWES05-15上進(jìn)行鏈接預(yù)測(cè)實(shí)驗(yàn)，與不同的基準(zhǔn)方法進(jìn)行比較，評(píng)估RTE-DistMult和RTE-SimplE的性能.

2.1 數(shù)據(jù)集

ICEWS14和ICEWS05-15是時(shí)間知識(shí)圖譜ICEWS的子集.ICEWS是一個(gè)包含時(shí)間戳和政治事件的知識(shí)庫.ICEWS提供從1995年到2015年發(fā)生的，由實(shí)體（例如國家、地區(qū)、總統(tǒng)）和關(guān)系（例如訪問、會(huì)面、談判）組成的政治事實(shí).ICEWS14對(duì)應(yīng)2014年的事實(shí)，ICEWS05-15對(duì)應(yīng)2005年4月1日到2016年3月31日的事實(shí).ICEWS14包含7 128個(gè)實(shí)體，230個(gè)關(guān)系，365個(gè)時(shí)間戳和90 730個(gè)三元組.ICEWS05-15包含10 488個(gè)實(shí)體，251個(gè)關(guān)系，4 017個(gè)時(shí)間戳和479 329個(gè)三元組.表1展示了數(shù)據(jù)集的統(tǒng)計(jì)信息.

表1 數(shù)據(jù)集的統(tǒng)計(jì)信息

2.2 基準(zhǔn)

對(duì)比基準(zhǔn)可分為靜態(tài)表示學(xué)習(xí)方法和時(shí)間表示學(xué)習(xí)方法.對(duì)于靜態(tài)表示學(xué)習(xí)方法，選擇TransE、DistMult和SimplE進(jìn)行對(duì)比；對(duì)于時(shí)間表示學(xué)習(xí)方法，選擇TTransE、TA-DistMult、DE-DistMult和DESimplE進(jìn)行對(duì)比.

2.3 評(píng)價(jià)指標(biāo)

鏈接預(yù)測(cè)的目的是預(yù)測(cè)給定事實(shí)缺失的實(shí)體.為驗(yàn)證RTE-DistMult和RTE-SimplE的性能，在ICEWS14和ICEW05-15數(shù)據(jù)集上進(jìn)行鏈接預(yù)測(cè)實(shí)驗(yàn).按照TransE過程，對(duì)正確四元組進(jìn)行負(fù)采樣，分別用于頭實(shí)體預(yù)測(cè)和尾實(shí)體預(yù)測(cè).對(duì)于測(cè)試集中的每個(gè)四元組，使用實(shí)體集合中的所有實(shí)體替換頭實(shí)體或尾實(shí)體，構(gòu)造候選四元組集合.然后，按照評(píng)分函數(shù)計(jì)算的得分降序排列候選四元組，存儲(chǔ)正確實(shí)體的排名，并按照評(píng)價(jià)指標(biāo)計(jì)算實(shí)體的預(yù)測(cè)結(jié)果.考慮到候選四元組可能存在知識(shí)圖譜，按照TransE的設(shè)置，從候選四元組集合中，剔除存在訓(xùn)練集、驗(yàn)證集和測(cè)試集的候選四元組.為評(píng)估方法性能，選擇兩個(gè)標(biāo)準(zhǔn)指標(biāo)：Mean Reciprocal Rank（MRR）和Hits at N（Hits@N）.MRR表示所有正確實(shí)體的平均倒數(shù)排名，Hit@N表示正確實(shí)體排在前n個(gè)預(yù)測(cè)實(shí)體中的比例.方法的鏈接預(yù)測(cè)性能越好，MRR越高或Hits@N越高.

2.4 實(shí)驗(yàn)實(shí)現(xiàn)

本文使用Pytorch框架實(shí)現(xiàn)RTE-DistMult和RTESimplE，并在單個(gè)GPU上進(jìn)行實(shí)驗(yàn).對(duì)于基準(zhǔn)方法，引用原始論文中報(bào)告的實(shí)驗(yàn)結(jié)果.根據(jù)方法在驗(yàn)證集上的MRR指標(biāo)，通過網(wǎng)格搜索尋找最佳超參數(shù).本文將學(xué)習(xí)率lr設(shè)置為0.001，從{256，512，1024}中選擇批大小B，從{50，100，200，300，4005，00}中選擇維度d，從{1，5，10，20，50，100，200}中選擇訓(xùn)練樣本的負(fù)采樣個(gè)數(shù)ne.在不同數(shù)據(jù)集上最佳的參數(shù)配置如下：在ICEWS14上，對(duì)于RTE-DistMult，B=512，d=500，ne=100，對(duì)于RTE-SimplE，B=512，d=500，ne=200；在ICEWS05-15上，對(duì)于RTE-DistMult，B=256，d=500，ne=100對(duì)于RTE-SimplE，B=256，d=500，ne=200.

2.5 結(jié)果分析

表2展示了RTE-DistMult和RTE-SimplE在基準(zhǔn)數(shù)據(jù)集上的鏈接預(yù)測(cè)結(jié)果.從表2中可以看出：①RTE-DistMult明顯優(yōu)于其他基于DistMult的基準(zhǔn)TA-DistMult和DE-DistMult，RTE-SimplE優(yōu)于基于SimplE的基準(zhǔn)DE-SimplE，由此顯示了RTE相較于DE的優(yōu)越性.②RTE-SimplE優(yōu)于RTE-DistMult，證明SimplE具有較強(qiáng)的表現(xiàn)力.③RTE-SimplE在各個(gè)評(píng)價(jià)指標(biāo)上取得先進(jìn)的性能，進(jìn)一步表明RTE的有效性.

表2 ICEWS14和ICEWS05-15數(shù)據(jù)集上的結(jié)果

本文在公式（2）中使用正切和正弦作為融合系數(shù)，為了研究不同融合方案對(duì)RTE的影響，進(jìn)一步進(jìn)行RTE變體的實(shí)驗(yàn).表3展示了RTE-DistMult的變體在ICEWS14上的實(shí)驗(yàn)結(jié)果.從表3中可以看出：相較于其他融合方案（sigmoid，relu等[8]），tanh和sin的組合產(chǎn)生更好的性能，可能由于tanh對(duì)應(yīng)于平滑的特征切換，可模擬實(shí)體的特征選擇，sin對(duì)應(yīng)多個(gè)開關(guān)的特征切換，模擬時(shí)間的特征選擇（在某個(gè)時(shí)間開始并在某個(gè)時(shí)間結(jié)束）.

表3 RTE-DistMult的變體在ICEWS14數(shù)據(jù)集上的結(jié)果

圖1a和圖1b分別顯示了RTE-SimplE和DESimplE在ICEWS14數(shù)據(jù)集上的MRR值與維度和負(fù)采樣之間的關(guān)系.圖2a和圖2b分別顯示了RTEDistMult和DE-DistMult在ICEWS14數(shù)據(jù)集上的MRR值與維度和負(fù)采樣之間的關(guān)系.從圖1a和圖2a可以看出，隨著維度的增加，RTE-DistMult和DEDistMult的MRR指標(biāo)迅速增大，逐漸趨于平穩(wěn)，達(dá)到峰值后略有下降，性能的輕微下降可能是由于參數(shù)過多導(dǎo)致過擬合.從圖1b和圖2b可以看出，隨著負(fù)采樣值變大，MRR指標(biāo)平穩(wěn)增長至最大值.增大負(fù)采樣率可以在一定程度上提升方法的性能.圖1和圖2的結(jié)果表明RTE-DistMult始終優(yōu)于DE-DistMult，RTE-SimplE始終優(yōu)于DE-SimplE，驗(yàn)證了RTE的有效性和優(yōu)越性.

圖1 RTE-SimplE和DE-SimplE在ICEWS14數(shù)據(jù)集上的MRR值

圖2 RTE-DistMult和DE-DistMult在ICEWS14數(shù)據(jù)集上的MRR值

3 結(jié)論

本文提出一種關(guān)系感知的時(shí)間實(shí)體嵌入RTE，學(xué)習(xí)關(guān)系感知的時(shí)間特征，并通過一種簡單有效的融合機(jī)制耦合靜態(tài)特征和時(shí)間特征.RTE是方法無關(guān)的，可擴(kuò)展到任何靜態(tài)知識(shí)表示學(xué)習(xí)方法.本文將RTE與DistMult和SimplE結(jié)合，提出RTE-DistMult和RTESimplE，并在基準(zhǔn)數(shù)據(jù)集上設(shè)計(jì)了對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果驗(yàn)證了RTE的有效性.