• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關(guān)系圖卷積神經(jīng)網(wǎng)絡的鏈接預測研究

      2021-08-06 08:25:48鄭小柏崔巖劉興林
      現(xiàn)代計算機 2021年18期
      關(guān)鍵詞:三元組知識庫圖譜

      鄭小柏,崔巖,2,劉興林

      (1.五邑大學智能制造學部,江門529020;2.珠海四維時代網(wǎng)絡科技有限公司,珠海519080)

      0 引言

      知識庫組織和存儲事實知識,在智能問答[1-6]和信息檢索[7-10]等領(lǐng)域上得到了廣泛的應用,即使是世界上最大的知識庫,例如Freebase、Wikidata和Yago等,盡管人們在其創(chuàng)建和維護上投入了巨大的努力,但其仍然是不完整的。據(jù)2014年統(tǒng)計,世界上最大的知識庫之一Freebase,其中包含了數(shù)百萬個實體和數(shù)十億個涉及多種謂詞(關(guān)系類型)的事實(三元組),但卻存在著71%的人沒有確切的出生日期,75%的人沒有國籍信息[11]。知識庫的缺失會損害著其所支持的下游應用,因此如何預測知識庫中缺失的信息成為了眾多學者們關(guān)注和研究的主要焦點之一。

      知識庫以三元組(主語、謂語、賓語)的形式存儲事實,如圖1所示,事實三元組(Leonardo DiCaprio,work at,Hollywood),我們將Leonardo DiCaprio和Hollywood稱為實體,將work at稱為關(guān)系。此外,我們根據(jù)實體的類型為其打上標記(例如,Leonardo DiCaprio被標記為movie actor),將知識庫的事實三元組表示為有向標記多重圖是非常方便的。知識圖譜補全根據(jù)其基本任務類型可分為:鏈接預測[12-14]、實體預測[15-17]、關(guān)系預測[15-18]和屬性預測[19]。本文主要考慮了知識圖譜補全的鏈接預測任務。在有向標記多重圖中,通過對有向標記多重圖局部領(lǐng)域結(jié)構(gòu)化關(guān)系信息分析,我們可以得出知識圖譜中許多缺失的信息,例如知道Leonardo DiCaprio work at Hollywood,這就意味著可以推測出三元組(Leonardo DiCaprio,lived in,U.S.A)肯定存在于知識圖譜中。

      圖1 有向標記多重圖

      Schlichtkrull等人[20]提出了關(guān)系圖卷積神經(jīng)網(wǎng)絡模型(R-GCN),該模型可以通過知識圖譜中的局部領(lǐng)域結(jié)構(gòu)化關(guān)系信息,預測出許多所缺失的信息。R-GCN模型通過輸入知識圖譜目標實體局部領(lǐng)域中的關(guān)系信息,例如關(guān)系類型,關(guān)系方向,以及目標實體自循環(huán)等信息,輸出目標實體的潛在特征向量表示,然后再將其通過Yang等人[21]提出的DistMult解碼器進行鏈接預測任務?;赗-GCN模型的啟示,該模型忽略了知識圖譜中實體描述這一重要信息,本文提出了一個基于實體描述和關(guān)系圖卷積神經(jīng)網(wǎng)絡的模型(DR-GAT),在R-GCN模型的基礎(chǔ)上融入了實體描述信息和加入了注意力機制,并將其應用于鏈接預測任務。我們的鏈接預測模型可以視為自動編碼器,首先是編碼器DR-GAT,通過知識圖譜中的關(guān)系信息和實體描述等產(chǎn)生目標實體的潛在隱形特征向量表示,然后是解碼器DistMult,這些潛在隱形特征向量表示通過DistMult張量分解模型進行鏈接預測。本文對DR-GAT+模型進行了實驗評估,實驗結(jié)果證明,改進后的DR-GAT+模型有效地改善了鏈接預測的結(jié)果,檢驗了該方法的可行性。

      1 模型設(shè)計分析

      本文將知識庫中的事實三元組表示為有向標記多重圖G=(V,E,R),其中節(jié)點vi∈V,V為節(jié)點(實體)集合;標記的邊(vi,r,vj)∈E,E為關(guān)系集合;有向邊的關(guān)系類型表示r∈R,R為關(guān)系類型集合。

      1.1 實體描述表示及其特征融合

      知識圖譜中蘊含著大量豐富的信息,除了存在大量的事實三元組,其一般還包含了實體描述的語義文本信息,每個實體都存在著與其對應的描述文本信息,體描述信息就是簡短的文字描述,針對某個實體的信息補充。

      對于實體的描述,文字量比較大,我們采用了使用Doc2Vec進行處理得到的xi。使用已訓練好的模型得到的實體描述段落分布式向量來表示知識圖譜中的實體詞向量,可以對實體進行更豐富的信息補充,更好地保留了知識圖譜實體描述語義文本中蘊含的價值信息,更好地挖掘出實體所包含的潛在特征信息。

      本文考慮將節(jié)點信息與實體描述信息的特征進行融合,作為模型的輸入,整個知識圖譜中包含R中關(guān)系以及N個實體節(jié)點,每個實體節(jié)點i用一個特征向量hi進行表示,此外所有實體節(jié)點的特征組成一個特征矩陣X:

      使用Doc2Vec工具包中PV-DM模型得到的實體i描述信息段落向量xi代替對應實體i的詞向量作為實體i特征向量,即hi=xi,此時X為:

      1.2 中間表示

      不同的關(guān)系傳達不同的信息,根據(jù)Schlichtkrull等人提出的更新規(guī)則,在關(guān)系r下,每個節(jié)點通過權(quán)重矩陣W(r)以得到一個特有的中間表示(intermediate repre?sentations)特征向量g(ir)∈RN×F’:

      其中,G(r)是關(guān)系r下的中間表示特征矩陣,W(r)∈RF×F’是可學習共享線性變換矩陣。

      1.3 關(guān)系圖卷積神經(jīng)網(wǎng)絡

      Schlichtkrull等人[20]提出的R-GCN模型是將知識庫中的事實三元組表示為有向標記多重圖,通過對其局部領(lǐng)域結(jié)構(gòu)化信息進行卷積學習,從而進行對知識圖譜的補全。R-GCN模型作為對知識圖譜局部領(lǐng)域上操作的Duvenaud等人[22]提出GCNs模型從小規(guī)模到大規(guī)模關(guān)系數(shù)據(jù)的擴展。其中,這些方法與類似的方法相比,如Scarseli等人[23]提出圖神經(jīng)網(wǎng)絡,該方法可以視為Gilmer等人[24]提出的簡單可微的消息傳播框架的一個特殊案例:

      其中,h(i l)表示節(jié)點vi在第l層神經(jīng)網(wǎng)絡的潛在隱性狀態(tài);d(l)表示該層神經(jīng)網(wǎng)絡的維數(shù);gm(?,?)表示類神經(jīng)網(wǎng)絡函數(shù);σ(?)表示元素激活函數(shù);Mi表示該層節(jié)點vi的輸入信息集;該式子可以理解為第l層神經(jīng)網(wǎng)絡輸入信息經(jīng)過gm(?,?)函數(shù)處理,然后進行累加激活,最后得到第l+1層神經(jīng)網(wǎng)絡中節(jié)點的潛在隱性狀態(tài)表示h(il+1)。一般地,激活函數(shù)σ(?)可選為ReLU(?)=max(0,?),函數(shù)gm(?,?)可選為具有權(quán)重矩陣W的線性變換gm(hi,hj)=Whj。

      事實證明,此類型的轉(zhuǎn)換在處理知識庫中的局部領(lǐng)域結(jié)構(gòu)化信息表征學習中的積累和編碼特征方面非常出色。受此體系結(jié)構(gòu)的啟發(fā),為處理知識圖譜中大規(guī)模的高維多關(guān)系數(shù)據(jù),Schlichtkrull等人[20]根據(jù)知識圖譜中局部領(lǐng)域星形結(jié)構(gòu)進行建模,提出了一個R-GCN模型:

      其中,Ni r表示在關(guān)系r∈R下節(jié)點i的鄰居索引集;ci,r是問題特定的標準化常數(shù),可以通過預先學習或選擇,一般可選為ci,r=|Ni(r)|。

      可簡單表示為:

      1.4 注意力機制

      1.5 關(guān)系圖注意力層

      神經(jīng)網(wǎng)絡中單個節(jié)點的計算更新過程如圖2所示。

      圖2 加入注意力機制的關(guān)系圖卷積神經(jīng)網(wǎng)絡中單個節(jié)點計算更新圖

      如圖2所示,在每個關(guān)系r下,目標節(jié)點i的中間特征向量表示(左紅色矩形)與其鄰域節(jié)點的中間特征向量表示(藍色矩形)組合在一起,形成每個logitE(i

      r,

      )j。對于每種關(guān)系類型,對每個logit矩陣取softmax,以形成注意力系數(shù)a(ir,)j。這些注意力系數(shù)針對每個關(guān)系在附近節(jié)點上構(gòu)造一個加權(quán)和(黑色矩形)。然后將它們匯總并通過非線性傳遞,以生成目標節(jié)點(i右紅色矩形)的更新表示。

      我們把融入了實體描述信息和加入注意力機制的關(guān)系圖卷積神經(jīng)網(wǎng)絡模型簡稱為稱為DR-GAT模型。

      2 鏈接預測

      鏈接預測就是利用知識圖譜中原有的事實三元組,通過一定規(guī)則的知識推理,預測新的事實三元組。形式上,知識庫由有向標記多重圖G=(V,E,R)表示,我們在知識庫中得到的只有邊的一個不完整子集ε,而并非邊的完整集合E。本文的任務是通過DR-GAT模型和DistMult評分函數(shù)來對某些可能的邊(s,r,o)產(chǎn)生一個分數(shù)f(s,r,o),以確定這些邊是否屬于E。

      在本文中,我們提出了一個圖形自動編碼器模型(DR-GAT+),它可以看作是由編碼器DR-GAT和一個解碼器DistMult(評分函數(shù))組成。編碼器DR-GAT將有向標記多重圖中的每個實體vi∈V映射到實值向量ei∈Rd,而解碼器DistMult依靠頂點表示重構(gòu)知識庫的邊。圖3描繪了DR-GAT+模型鏈接預測的過程。

      眾所周知,DistMult是一個最簡單和最有效的因式分解之一,當它單獨作為鏈接預測評分函數(shù)使用時有著良好表現(xiàn)。在DistMult中,每個關(guān)系r與對角矩陣Rr∈Rd×d相關(guān)聯(lián),三元組(s,r,o)的得分為:

      圖3 鏈接預測模型

      本文采用和DistMult因式分解一樣的ω負采樣方法來訓練模型,通過隨機破壞每個正樣本的主體或客體來取樣,利用交叉熵損失進行優(yōu)化,以使模型的正例三元組得分高于負例三元組:

      其中,T是正例三元組和負例三元組的總和集合;l是邏輯sigmoid函數(shù);y是一個指示器,對于正例三元組,y=1,對于負例三元組,y=0。

      3 實驗結(jié)果分析

      3.1 數(shù)據(jù)集

      在以往的鏈接預測任務中,一般都會選用知識庫Freebase中的子集FB15k作為模型的主要評估數(shù)據(jù)集,本文效仿了Schlichtkrull等人[20]的觀點,選用FB15k數(shù)據(jù)集中的FB15k-237子集作為本文模型的一個主要評估數(shù)據(jù)集。因為Toutanova和Chen等人[25]在研究中發(fā)現(xiàn),F(xiàn)B15k數(shù)據(jù)集中存一個嚴重影響實驗結(jié)果的一個現(xiàn)象:在訓練集中存在三元組t=(e1,r,e2),而在測試中卻出現(xiàn)其反向三元組t'=(e2,r-1,e1)。而數(shù)據(jù)集FB15k-237作為FB15k的子集,它克服了FB15k中在鏈接預測實驗中所存在的不足,去掉了FB15k中所有的反向三元組。數(shù)據(jù)集FB15k以及其子集FB15k-237中的各項指標統(tǒng)計見表1。

      表1 兩個數(shù)據(jù)集的實體和關(guān)系類型以及邊的數(shù)量

      3.2 實驗設(shè)置

      實驗評估部分,本文選擇了Yang等人[21]提出的最簡單最有效的DistMult因式分解模型,兩種經(jīng)典的鏈接預測算法:Bordes等人[26]提出的TransE模型和Nickel等人[27]提出的HolE模型,以及Schlichtkrull等人[20]提出的R-GCN+模型作為我們實驗的基線。

      本文選擇了一個2個具有500個單元隱層的DRGAT模型與DistMult因式分解模型相結(jié)合作為本文的實驗模型,本文稱之為DR-GAT+模型。其中對于參數(shù)選擇部分,學習率設(shè)置為0.01,自循環(huán)丟失率為0.2,其他邊緣丟失率為0.4,采用L2正則化,懲罰因子為0.01。本文對基線和DR-GAT+模型訓練均使用全批次優(yōu)化。

      對于實驗結(jié)果,本文采用了兩個常見結(jié)果評估指標:原始和濾波的平均倒數(shù)排名MRR和排名前n的有效比例Hits@n(其中n分別選擇為1、3、10)。

      3.3 實驗結(jié)果

      DistMult、TransE、HolE、R-GCN+以及DR-GAT+模型在數(shù)據(jù)集FB15k-237下的鏈接預測結(jié)果如表2所示:

      表2 各個模型在數(shù)據(jù)集FB15k-237上的實驗結(jié)果

      在表2中,我們展示了各個模型在數(shù)據(jù)集FB15k-237上的鏈接預測結(jié)果。從表中我們可以得到,在數(shù)據(jù)集FB15k-237下,各模型在原始和濾波后的平均倒數(shù)排名MRR指標下的結(jié)果降序為:1)DR-GAT+,2)RGCN+,3)TransE,4)HolE,5)DistMult。我們的DRGAT+模型原始和濾波后平均倒數(shù)排名MRR比RGCN+模型的分別高0.97%、0.83%。而各模型在排名前n的有效比例Hits@n指標下的結(jié)果降序,我們基本可以認為是:1)DR-GAT+,2)R-GCN+,3)TransE,4)HolE,5)DistMult。我們注意到,在Hits@n指標中,當n分別取1、3、10時,DR-GAT+模型排名前n有效比例Hits@n分別比R-GCN+模型的高出0.75%、0.70%、0.81%。由此,我們可以認為,在融入實體描述下的關(guān)系圖卷積神經(jīng)網(wǎng)絡DR-GAT+模型比原來的關(guān)系圖卷積神經(jīng)網(wǎng)絡R-GCN+模型在鏈接預測上有所提升,在R-GCN+模型融入實體描述和加入注意力機制后的DR-GAT+模型對知識庫中星型局部鄰域結(jié)構(gòu)化信息的處理效果更佳,證明了該方法的有效性。

      4 結(jié)語

      在本文中,我們在基于關(guān)系圖卷積神經(jīng)網(wǎng)絡上融入了實體描述信息和加入了注意力機制,將其應用于知識圖譜補全中的鏈接預測任務并證明了其有效性。通過多組實驗,實驗結(jié)果表明DR-GAT+模型在FB15k-237數(shù)據(jù)集上比其他四種基線取得了更好的鏈接預測結(jié)果,證明了融入實體描述的DR-GAT模型在處理局部鄰域信息時效果更出色。但在實驗中,我們只對去掉了所有反向三元組數(shù)據(jù)集FB15k的子集FB15k-237進行了鏈接預測。下一步工作,針對知識圖譜存在的大量非對稱關(guān)系,利用ComplEx模型處理非對稱關(guān)系能力強的特性,我們將會致力于將DR-GAT模型與ComplEx模型相結(jié)合,并對其進行實驗評估。

      猜你喜歡
      三元組知識庫圖譜
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      繪一張成長圖譜
      關(guān)于余撓三元組的periodic-模
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應用
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      高速公路信息系統(tǒng)維護知識庫的建立和應用
      主動對接你思維的知識圖譜
      基于Drupal發(fā)布學者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      三元組輻射場的建模與仿真
      武义县| 喀喇沁旗| 云浮市| 康乐县| 二连浩特市| 遂昌县| 布尔津县| 南皮县| 石狮市| 喀什市| 缙云县| 新建县| 固原市| 阿荣旗| 台南市| 宜昌市| 紫阳县| 桦川县| 东丰县| 峨边| 金沙县| 清原| 新余市| 康马县| 津市市| 兴国县| 青浦区| 湖口县| 济南市| 宁津县| 广水市| 巴楚县| 巴南区| 宜兰市| 榆中县| 贵阳市| 东城区| 兰西县| 崇阳县| 上杭县| 长寿区|