康世澤 吉立新 張建朋
(戰(zhàn)略支援部隊(duì)信息工程大學(xué) 鄭州 450001)
異質(zhì)信息網(wǎng)絡(luò)為具有多種類型(類型數(shù)量大于1)節(jié)點(diǎn)或邊的復(fù)雜網(wǎng)絡(luò)[1]。學(xué)術(shù)領(lǐng)域廣泛研究的異質(zhì)信息網(wǎng)絡(luò)有兩種:(1)具有簡單模式層的異質(zhì)信息網(wǎng)絡(luò);(2)具有復(fù)雜模式層(本體層[2])的知識(shí)圖譜。異質(zhì)信息網(wǎng)絡(luò)中不同類型的邊與節(jié)點(diǎn)使其蘊(yùn)含豐富且復(fù)雜的語義信息,這為對(duì)其進(jìn)行表示學(xué)習(xí)帶來了挑戰(zhàn)。
簡單模式層的異質(zhì)信息網(wǎng)絡(luò)與知識(shí)圖譜通常遵循不同的表示學(xué)習(xí)方法。之前主流的知識(shí)表示模型為TransE[3]及其相關(guān)變體。近年來又有基于卷積神經(jīng)網(wǎng)絡(luò)[4]或圖神經(jīng)網(wǎng)絡(luò)[5]的知識(shí)表示方法。而簡單模式層的異質(zhì)信息網(wǎng)絡(luò)大多基于元路徑捕獲網(wǎng)絡(luò)結(jié)構(gòu)信息以實(shí)現(xiàn)表示學(xué)習(xí)[6,7]。
上述表示學(xué)習(xí)方法的不同是由兩種網(wǎng)絡(luò)的差異造成的,具體表現(xiàn)在:(1)知識(shí)圖譜的關(guān)系信息更加復(fù)雜。常用的異質(zhì)信息網(wǎng)絡(luò)在兩個(gè)實(shí)體節(jié)點(diǎn)之間通常僅存在一種類型的邊,而知識(shí)圖譜中兩個(gè)實(shí)體節(jié)點(diǎn)之間可以存在多種類型的關(guān)系。(2)兩種網(wǎng)絡(luò)面向的任務(wù)不完全相同。知識(shí)圖譜面向的任務(wù)偏向推理,而簡單模式層的異質(zhì)信息網(wǎng)絡(luò)面向的任務(wù)偏向分類。
為了同時(shí)表征知識(shí)圖譜和簡單模式層的異質(zhì)信息網(wǎng)絡(luò),本文提出一種基于圖注意力網(wǎng)絡(luò)的異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)框架。該框架可以分為3部分:基礎(chǔ)向量部分,傳播模型部分和任務(wù)模型部分。其中基礎(chǔ)向量用于訓(xùn)練網(wǎng)絡(luò)的基礎(chǔ)向量,傳播模型用于學(xué)習(xí)網(wǎng)絡(luò)中的高階信息,而任務(wù)模型用于執(zhí)行不同的任務(wù)。本文的貢獻(xiàn)如下:
(1) 本文對(duì)簡單模式層的異質(zhì)信息網(wǎng)絡(luò)和知識(shí)圖譜進(jìn)行了異同點(diǎn)的總結(jié),并提出了一種通用的異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)框架,該框架既可以應(yīng)用于知識(shí)圖譜也可以應(yīng)用于簡單模式層的異質(zhì)信息網(wǎng)絡(luò)。
(2) 本文在多個(gè)數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文所提模型與基準(zhǔn)模型相比可以取得相對(duì)不錯(cuò)的效果。
定義1(3元組) 給定一個(gè)異質(zhì)信息網(wǎng)絡(luò)G =(V,E),本文將每組節(jié)點(diǎn) v1, v2和它們之間直接相連的邊r定義為一個(gè)3元組( v1,r,v2)。 對(duì)于知識(shí)圖譜,v1是頭實(shí)體 ,v2是 尾實(shí)體,r 為兩個(gè)實(shí)體之間的關(guān)系。
本節(jié)詳述基于圖注意力網(wǎng)絡(luò)的異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)框架(HINs Embedding framework via Graph Attention Network, HE-GAN),該框架包括基礎(chǔ)向量(b a s i c v e c t o r)部分,傳播模型(propagation model)部分,以及任務(wù)模型(prediction)部分。本文引入Conv-TransE對(duì)知識(shí)圖譜執(zhí)行鏈接預(yù)測任務(wù),構(gòu)成面向鏈接預(yù)測任務(wù)的表示學(xué)習(xí)模型(HE-GAN toward Link Prediction, HE-GANLP)。本文通過將任務(wù)模型設(shè)計(jì)成節(jié)點(diǎn)分類模型,構(gòu)建面向節(jié)點(diǎn)分類的表示學(xué)習(xí)模型(HE-GAN tow ard Node Classification, HE-GAN-NC)。
基礎(chǔ)向量用于保持網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)信息。本文采用在知識(shí)圖譜領(lǐng)域廣泛使用的TransE模型學(xué)習(xí)知識(shí)圖譜的節(jié)點(diǎn)向量和邊向量。由于簡單模式層異質(zhì)信息網(wǎng)絡(luò)中直接相連的兩個(gè)節(jié)點(diǎn)間僅存在一種邊,本文認(rèn)為這些邊沒有豐富的語義信息。因此本文沒有學(xué)習(xí)簡單模式層的異質(zhì)信息網(wǎng)絡(luò)的邊向量,而是采用歐氏距離作為度量保留網(wǎng)絡(luò)中的1階和2階相似度。
3.1.1 簡單模式層異質(zhì)信息網(wǎng)絡(luò)的基礎(chǔ)向量
對(duì)于圖G任一3元組( v1,r,v2),其對(duì)應(yīng)的向量為v1, v2(v1, v2∈Rn)。本文采用歐氏距離為該3元組建模
本文旨在最小化現(xiàn)有3元組對(duì)應(yīng)分?jǐn)?shù)函數(shù)的距離,因此定義基于間隔的損失函數(shù)
3.1.2 知識(shí)圖譜的基礎(chǔ)向量
對(duì)于知識(shí)圖譜 G 中的任一3元組( v1,r,v2),其對(duì)應(yīng)的向量為v1, v2和 r。本文采用TransE為該3元組定義的分?jǐn)?shù)函數(shù)為
對(duì)于知識(shí)圖譜中的所有3元組,本文定義基于間隔的損失函數(shù)
其中, Dr是 關(guān)系r對(duì)應(yīng)的正3元組集合,是其對(duì)應(yīng) 的負(fù)3元組集合。
文獻(xiàn)[5,9]中的結(jié)果證明通過圖神經(jīng)網(wǎng)絡(luò)融合高階的鄰居信息可以提高知識(shí)圖譜鏈接預(yù)測任務(wù)的性能;文獻(xiàn)[7]也通過使用圖注意力網(wǎng)絡(luò)融合高階鄰居信息提升了異質(zhì)信息網(wǎng)絡(luò)的分類性能。本文借鑒這些方法[5,7,9]提出了一種既可以融合知識(shí)圖譜高階鄰居信息,也可以融合簡單模式層高階鄰居信息的圖神經(jīng)網(wǎng)絡(luò)作為傳播模型。
本文所提傳播模型的示意圖如圖1所示,該圖展示了為節(jié)點(diǎn)“中國”生成向量的過程。該圖中向量下方的數(shù)字表示節(jié)點(diǎn)的編號(hào),相同的編號(hào)表示同一節(jié)點(diǎn)。向量上方的數(shù)字為向量編號(hào),相同的數(shù)字表示同一向量。虛線表示連接操作。對(duì)于傳播模型的第1層,其輸入是基礎(chǔ)向量層的全體節(jié)點(diǎn)向量,對(duì)于知識(shí)圖譜來說還包括基礎(chǔ)向量層的全體關(guān)系向量?;A(chǔ)向量層的所有節(jié)點(diǎn)向量可以構(gòu)成矩陣E ∈RN×m,其中N為網(wǎng)絡(luò)中的節(jié)點(diǎn)總數(shù)。知識(shí)圖譜在基礎(chǔ)向量層對(duì)應(yīng)的關(guān)系向量構(gòu)成矩陣 R ∈RM×m,其中 M為網(wǎng)絡(luò)中關(guān)系的總數(shù)。通過一層注意力層后生成的新向量可以構(gòu)成矩陣 E(1)∈RN×m1,m1為新生成向量的維度;再通過一層注意力層后生成的新關(guān)系向量可以構(gòu)成矩陣 R(1)∈RM×m2,m2為新生成向量的維度。
對(duì)于知識(shí)圖譜中任一節(jié)點(diǎn) vi對(duì)應(yīng)的3 元組(vi,r,vj),本文定義注意力系數(shù)
其中,注意力系數(shù) cirj表示節(jié)點(diǎn)vj在 關(guān)系r 的連接下對(duì)節(jié)點(diǎn) vi的重要性;W1∈Rk1×m和 W2∈Rk2×2m為線性變換矩陣;∈Rk1+k2為線性變換向量;vi,r 和vj為 vi, r 和vj對(duì) 應(yīng)的向量;[ ,]和‖都表示連接操作(concatenation)。
對(duì)于簡單模式層的異質(zhì)信息網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)vi和 其任意一階鄰居vj,本文定義注意力系數(shù)
其中,W1∈Rk1×m和 W2∈Rk2×2m為線性變換矩陣,∈Rk1+k2為線性變換向量。與知識(shí)圖譜不同,簡單模式層的異質(zhì)信息網(wǎng)絡(luò)沒有關(guān)系向量。
接下來,本文使用softmax來歸一化與節(jié)點(diǎn)vi(知識(shí)圖譜與簡單模式層的異質(zhì)信息網(wǎng)絡(luò)通用)相關(guān)的注意力系數(shù)
其中, Nvi為節(jié)點(diǎn)vi的1階鄰居集合,Rik表示節(jié)點(diǎn)vi和節(jié)點(diǎn)vk之 間所有的關(guān)系集合,L eakyReLU為神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)。
為了聚合節(jié)點(diǎn) vi在該傳播層的鄰居信息,本文將不同注意力系數(shù)線性結(jié)合并采用多頭注意力[10],為知識(shí)圖譜定義的聚合公式為
其中,K是多頭注意力機(jī)制對(duì)應(yīng)頭的數(shù)量, Rij為節(jié)點(diǎn) vi和vj之 間的關(guān)系集合,‖ 為連接操作。如圖1所示,向量1和向量2由不同的注意力頭生成,再采樣連接操作將二者融合。
對(duì)于簡單模式層的異質(zhì)信息網(wǎng)絡(luò),本文定義的聚合公式為
以上是經(jīng)過一個(gè)注意力層對(duì)一個(gè)特定節(jié)點(diǎn)的操作。所有新生成的節(jié)點(diǎn)向量構(gòu)成矩陣 E(1)。對(duì)于關(guān)系向量,本文利用線性變換矩陣WR轉(zhuǎn)化生成本注意力層對(duì)應(yīng)的關(guān)系向量
之后, E(1)和 R(1)可以作為下一層的輸入,按照以上聚集鄰居信息的方法,生成 E(2)和 R(2)。重復(fù)這個(gè)過程,最終可以生成n層的傳播模型。本文將最后一層的節(jié)點(diǎn)和關(guān)系向量矩陣表示為 E(f)和R(f)。最后一層知識(shí)圖譜的節(jié)點(diǎn)聚合公式為
簡單模式層的異質(zhì)信息網(wǎng)絡(luò),對(duì)應(yīng)的節(jié)點(diǎn)聚合公式為
圖1 知識(shí)圖譜傳播模型示意圖
3.3 任務(wù)模型
對(duì)于簡單模式層的異質(zhì)信息網(wǎng)絡(luò),本文對(duì)其執(zhí)行節(jié)點(diǎn)分類任務(wù);對(duì)于知識(shí)圖譜,本文對(duì)其執(zhí)行鏈接預(yù)測任務(wù)。
3.3.1 知識(shí)圖譜的鏈接預(yù)測
本文采用文獻(xiàn)[9]提出Conv-TransE來執(zhí)行知識(shí)圖譜的鏈接預(yù)測任務(wù),該模型既可以生成比較有效的特征又可以保留TransE模型的翻譯特性。該模型對(duì)應(yīng)的示意圖如圖2所示。
本文要求傳播模型每一層的節(jié)點(diǎn)向量維度都和關(guān)系向量維度相等。鏈接預(yù)測任務(wù)旨在給出一個(gè)3元組的頭實(shí)體和關(guān)系,預(yù)測尾實(shí)體。對(duì)于任務(wù)中的一個(gè)3元組( vs,r,n), 首先從E(f)和 R(f)中分別取出它們對(duì)應(yīng)的向量 vs和 r (其維度都為ml),再將兩個(gè)向量堆疊在一起。之后,利用C個(gè)卷積核對(duì)堆疊在一起的向量執(zhí)行卷積操作,其中第c個(gè)卷積操作為
經(jīng)過卷積操作之后的分?jǐn)?shù)函數(shù)為
其中,W ∈RCml×ml是一個(gè)線性變換矩陣,而f 是一個(gè)非線性變換。矩陣M (vs,r)被轉(zhuǎn)換為一個(gè)向量vec(M)∈RCml。在訓(xùn)練的過程中,本文對(duì)分?jǐn)?shù)函數(shù)采用logistic sigmoid函數(shù),如式(16)
3.3.2 簡單模式層的異質(zhì)信息網(wǎng)絡(luò)的節(jié)點(diǎn)分類
給定任務(wù)模型的輸入向量,本文執(zhí)行節(jié)點(diǎn)分類任務(wù)。為了執(zhí)行該任務(wù),首先將分類標(biāo)簽編碼為獨(dú)熱(one-hot)向量,再給輸入向量接入幾個(gè)全連接層,以使輸出向量的維度等于標(biāo)簽對(duì)應(yīng)獨(dú)熱向量的維度。最后,采用交叉熵?fù)p失來估計(jì)標(biāo)簽節(jié)點(diǎn)和預(yù)測值之間的差距
其中,Q為標(biāo)記節(jié)點(diǎn)集合; Yl是對(duì)應(yīng)標(biāo)簽的獨(dú)熱向量;是全連接層的最后一層輸出的向量;θ 為分類 器的參數(shù)。
本文主要執(zhí)行兩個(gè)任務(wù):節(jié)點(diǎn)分類和鏈接預(yù)測。本文基于pytorch編程,所使用服務(wù)器的詳細(xì)參數(shù)為:志強(qiáng)64核CPU;256 GB內(nèi)存;8塊TiTAN XP GPU。
圖2 Conv-TransE示意圖
4.1.1 簡單模式層的異質(zhì)信息網(wǎng)絡(luò)數(shù)據(jù)集
DBLP是記錄計(jì)算機(jī)領(lǐng)域?qū)W術(shù)論文信息的數(shù)據(jù)集。本文抽樣了一個(gè)DBLP的子網(wǎng)絡(luò)構(gòu)建數(shù)據(jù)集。所構(gòu)建的數(shù)據(jù)集包含4種類型的節(jié)點(diǎn):論文(Paper,P),作者(Author, A),會(huì)議(Conference, C)和術(shù)語(Term, T)。數(shù)據(jù)集相關(guān)的4個(gè)研究領(lǐng)域包括機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、數(shù)據(jù)挖掘和信息檢索。對(duì)于任一作者,如果他/她的大部分論文來自會(huì)議X,便將與會(huì)議X相關(guān)的研究領(lǐng)域標(biāo)簽分配給該作者。最后,本文選擇了可以被明確分類的4000名作者用于節(jié)點(diǎn)分類任務(wù)。
IMDB是一個(gè)關(guān)于電影的數(shù)據(jù)庫,包括演員、導(dǎo)演、評(píng)論、簡介和電影的其他信息。本文從IMDB中抽取信息構(gòu)建了一個(gè)由電影(Movie, M)、演員(Actor, A)和導(dǎo)演(Director, D)組成的數(shù)據(jù)集。最終,本文選擇了3000部可以被明確分類為動(dòng)作、喜劇或戲劇的節(jié)點(diǎn)來執(zhí)行節(jié)點(diǎn)分類。
本文構(gòu)建數(shù)據(jù)集的具體統(tǒng)計(jì)數(shù)據(jù)如表1所示。
4.1.2 知識(shí)圖譜數(shù)據(jù)集
本文采用了兩個(gè)知識(shí)圖譜數(shù)據(jù)集[5,11]:WN18RR和FB15k-237。WN18RR和FB15k-237是為了解決相關(guān)關(guān)系問題[5]為WN18和FB15k分別創(chuàng)建的子集。
本文采用KNN分類器來執(zhí)行節(jié)點(diǎn)分類并設(shè)置KNN的參數(shù)k=5。本文采用Micro-F1和Macro-F1作為評(píng)估實(shí)驗(yàn)結(jié)果的指標(biāo)。
4.2.1 基準(zhǔn)算法
DeepWalk[12]將異質(zhì)信息網(wǎng)絡(luò)視作同質(zhì)信息網(wǎng)絡(luò)為每個(gè)節(jié)點(diǎn)生成向量。
Metapath2vec[6]利用隨機(jī)游走獲取每個(gè)節(jié)點(diǎn)的鄰居信息,并利用異質(zhì)Skip-Gram來學(xué)習(xí)每個(gè)節(jié)點(diǎn)的表示。本文對(duì)DBLP分別采用集合{APA, APCPA,APTPA}中的元路徑生成向量;對(duì)IMDB分別采用集合{MAM, MDM}中的元路徑生成向量。
Esim[13]使用預(yù)定義的元路徑作為向?qū)韺W(xué)習(xí)向量。與Metapath2vec不同,Esim在學(xué)習(xí)的過程中可以使用多個(gè)元路徑,而Metapath2vec在學(xué)習(xí)過程中只能采用一個(gè)元路徑。
HAN[7]也是一種基于圖注意力網(wǎng)絡(luò)的表示學(xué)習(xí)模型,該模型分別針對(duì)節(jié)點(diǎn)級(jí)別和語義級(jí)別(元路徑)的鄰居信息進(jìn)行建模。本文為DBLP采用元路徑{APA, APCPA, APTPA};為IMDB采用元路徑{MAM, MDM}。
Variant1為了測試簡單模式層的異質(zhì)信息網(wǎng)絡(luò)是否需要學(xué)習(xí)關(guān)系向量,本文提出了令簡單模式層的異質(zhì)信息網(wǎng)絡(luò)利用知識(shí)圖譜的基礎(chǔ)向量模型和傳播模型生成向量的變體模型。
Variant2為了驗(yàn)證簡單模式層的異質(zhì)信息網(wǎng)絡(luò)是否需要基礎(chǔ)向量層,本文提出了僅包含傳播模型和任務(wù)模型的變體模型。此外,本文首先訓(xùn)練了基于歐氏距離的節(jié)點(diǎn)向量,再用這些向量對(duì)傳播模型進(jìn)行了初始化。
訓(xùn)練本文利用Adam[14]對(duì)模型進(jìn)行訓(xùn)練。本文對(duì)模型中所有的向量和圖神經(jīng)網(wǎng)絡(luò)所有的線性變換矩陣實(shí)施L2正則化來防止訓(xùn)練過擬合。本文設(shè)置多頭注意力機(jī)制對(duì)應(yīng)頭的數(shù)量為4;學(xué)習(xí)率 λ=0.001;圖神經(jīng)網(wǎng)絡(luò)的層數(shù) l=2。與HAN的原論文不同,本文的數(shù)據(jù)集沒有使用任何額外的特征。本文令基礎(chǔ)向量模型的向量維度 d=50,其他基準(zhǔn)模型的向量維度也為50。經(jīng)過第1層注意力層,單注意力頭輸出維度為25,總的維度為100;經(jīng)過第2層注意力層,向量的輸出維度為100;通過將不同層的向量連接,送入任務(wù)模型的向量維度為250。本文令負(fù)樣本的大小n =5。對(duì)于DeepWalk, Esim和Metapath2vec,本文將每個(gè)節(jié)點(diǎn)的遍歷數(shù)設(shè)置為50,并將步長設(shè)置為100。對(duì)于HE-GAN-NC和HAN,本文進(jìn)行了10次實(shí)驗(yàn)并報(bào)告了平均結(jié)果。對(duì)于Metapath2vec,僅在測試所有給定的元路徑后報(bào)告最佳結(jié)果。
4.2.2 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果如表2所示。從實(shí)驗(yàn)結(jié)果可以看出,本文所提HE-GAN-NC優(yōu)于所有的基準(zhǔn)算法,證明本文所提模型對(duì)簡單模式層的異質(zhì)信息網(wǎng)絡(luò)具有比較好的學(xué)習(xí)能力。此外,圖神經(jīng)網(wǎng)絡(luò)模型(HAN和HE-GAN)的整體性能優(yōu)于其他傳統(tǒng)網(wǎng)絡(luò)表示學(xué)習(xí)模型(DeepWalk, Esim和Metapath2vec),表明圖神經(jīng)網(wǎng)絡(luò)生成的特征具有更強(qiáng)的表征能力。
表1 簡單模式層異質(zhì)信息網(wǎng)絡(luò)數(shù)據(jù)集的統(tǒng)計(jì)信息
表2 簡單模式層異質(zhì)信息網(wǎng)絡(luò)的節(jié)點(diǎn)分類性能
本文所提HE-GAN-NC的性能在所有數(shù)據(jù)集中都優(yōu)于HAN。可能的原因是HE-GAN-NC不僅使用注意力機(jī)制來選擇有用信息,而且還采用了歐氏距離來學(xué)習(xí)可以保留節(jié)點(diǎn)1階和2階相似度的基礎(chǔ)向量。此外,由于HAN的效果是基于所給定的元路徑的,相比之下本文所提的模型還具有更強(qiáng)的適用性。
本文所提模型的效果好于Variant1,說明學(xué)習(xí)簡單模式層的異質(zhì)信息網(wǎng)絡(luò)的邊信息并不能促進(jìn)實(shí)驗(yàn)的效果。本文所提模型的效果好于Variant2,說明基礎(chǔ)向量模型的提出可以更進(jìn)一步提升模型性能。
知識(shí)圖譜的鏈接預(yù)測任務(wù)旨在預(yù)測3元組中丟失的頭實(shí)體或者尾實(shí)體,即對(duì)于一個(gè)3元組(v1,r,v2)給定 ( r,v2)預(yù) 測v1或者給定( v1,r) 預(yù) 測v2。對(duì)于測試集中的每一個(gè)3元組( v1,r,v2), 本文通過將v1或 v2換成實(shí)體集合 E中的其他實(shí)體來構(gòu)建損壞3元組并限定這些損壞3元組沒有在知識(shí)圖譜的訓(xùn)練、驗(yàn)證和測試集中出現(xiàn)過。本文采用的指標(biāo)有平均倒序(Mean Reciprocal Rank, MRR)和Hits@N(正確的3元組在前N項(xiàng)中的排序),其中N在本文取1, 3和10。更高的MRR值和Hits@N值表示更好的實(shí)驗(yàn)效果。
4.3.1 基準(zhǔn)算法
TransE[3]是比較簡單有效的模型,它將尾實(shí)體看作從頭實(shí)體經(jīng)過關(guān)系的翻譯。
ConvE[4]是一種多層卷積神經(jīng)網(wǎng)絡(luò)模型,其參數(shù)利用率高,善于學(xué)習(xí)復(fù)雜結(jié)構(gòu)。
ConvKB[11]通過卷積神經(jīng)網(wǎng)絡(luò)捕獲實(shí)體和關(guān)系間的全局關(guān)系與翻譯特性。
SACN(GCN+Conv-TransE)[9]是一個(gè)端到端的圖卷積網(wǎng)絡(luò)模型,該模型利用加權(quán)的圖卷積網(wǎng)絡(luò)學(xué)習(xí)知識(shí)向量,并利用Conv-TransE執(zhí)行知識(shí)圖譜的鏈接預(yù)測任務(wù)。
relationPrediction(GAT+ConvKB)[5]使用圖注意力網(wǎng)絡(luò)并融合關(guān)系信息學(xué)習(xí)知識(shí)圖譜的結(jié)構(gòu)信息,并使用ConvKB作為解碼器。
Variant3為了驗(yàn)證知識(shí)圖譜的表示學(xué)習(xí)是否需要基礎(chǔ)向量層,本文提出了僅包含傳播模型和任務(wù)模型的變體模型。此外,本文首先利用TransE模型訓(xùn)練了知識(shí)向量,再用這些向量對(duì)傳播模型進(jìn)行了初始化。
訓(xùn)練本文利用Adam對(duì)模型進(jìn)行訓(xùn)練。本文對(duì)模型中所有的向量和圖神經(jīng)網(wǎng)絡(luò)所有的線性變換矩陣實(shí)施L2正則化來防止訓(xùn)練過擬合。本文設(shè)置多頭注意力機(jī)制對(duì)應(yīng)頭的數(shù)量為4;學(xué)習(xí)率λ =0.001;圖神經(jīng)網(wǎng)絡(luò)的層數(shù)l =2。對(duì)于卷積核數(shù)C,本文在FB15k-237數(shù)據(jù)集上取100,在WN18RR數(shù)據(jù)集上取200。本文令基礎(chǔ)向量模型的向量維度 d=64。經(jīng)過第1層注意力層,單注意力頭輸出向量維度為64,總的維度為256;經(jīng)過第2層注意力網(wǎng)絡(luò),最終的 輸出維度為256。本文令負(fù)樣本的大小n =5。
4.3.2 實(shí)驗(yàn)結(jié)果
從表3的實(shí)驗(yàn)結(jié)果可以看出,本文提出的HEGAN-LP與基準(zhǔn)算法相比取得了比較好的效果。在所有的模型中,TransE的實(shí)驗(yàn)效果最不理想??赡艿脑蚴荰ransE是一種實(shí)驗(yàn)參數(shù)較少的線性模型,而其他神經(jīng)網(wǎng)絡(luò)模型可以生成更有效的特征。SACN的效果整體優(yōu)于ConvKB,可能的原因是SACN提出的Conv-TransE可以更加有效地保留3元組的翻譯特性。本文所提模型比其變體模型Variant3整體效果略好,可能的原因是基礎(chǔ)向量層可以使輸入圖注意力網(wǎng)絡(luò)的知識(shí)向量始終保持翻譯特性。本文所提模型的效果整體上稍好于relation-Prediction(GAT+ConvKB)模型。其可能的原因是,本文所提模型具有基礎(chǔ)向量層,而且利用了可以生成有效特征的Conv-TransE模型。
此外,在FB15k-237數(shù)據(jù)集上,基于圖注意力網(wǎng)絡(luò)的模型(relationPrediction和HE-GAN-LP)效果優(yōu)于基于圖卷積網(wǎng)絡(luò)的模型(SACN);然而,在WN18RR數(shù)據(jù)集上,基于圖注意力網(wǎng)絡(luò)的模型并未比SACN模型有顯著提升。可能的原因是FB15k-237數(shù)據(jù)集的平均入度比較高,注意力方法可以從各節(jié)點(diǎn)的鄰居中選擇有用的節(jié)點(diǎn)提升實(shí)驗(yàn)性能,而WN18RR數(shù)據(jù)集的平均入度太小(2.12),圖注意力網(wǎng)絡(luò)難以發(fā)揮優(yōu)勢(shì)。
表3 知識(shí)圖譜的鏈接預(yù)測任務(wù)性能
本文提出了一種通用的異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)框架,該框架可以分為3部分:基礎(chǔ)向量模型,基于圖注意力網(wǎng)絡(luò)的傳播模型以及任務(wù)模型。對(duì)于每一個(gè)模型,本文針對(duì)不同的異質(zhì)信息網(wǎng)絡(luò),采用了不完全相同的設(shè)計(jì)方法,并解決了不同類型網(wǎng)絡(luò)中存在的一些問題。該框架可以應(yīng)用于多個(gè)任務(wù)并取得良好的效果。本框架的問題在于各模塊對(duì)于不同類型的網(wǎng)絡(luò)還需要特定的設(shè)計(jì),未來計(jì)劃提出更加具有通用性的表示學(xué)習(xí)模型。