• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向鏈接預測的知識圖譜嵌入研究綜述

      2022-09-29 07:51:30李智杰李昌華
      計算機測量與控制 2022年9期
      關鍵詞:三元組圖譜實體

      王 瑞,李智杰,李昌華,張 頡

      (西安建筑科技大學 信息與控制工程學院,西安 710055)

      0 引言

      伴隨著Web技術的崛起與更新迭代,人類先后經歷了以文檔互聯的“Web 1.0”時代與數據互聯“Web 2.0”時代,正在邁向基于知識互聯的“Web 3.0”時代[1]。同時,隨之而來的海量網絡數據資源推動著人類社會進入大數據時代。如何從內容多源異質、組織結構松散的網絡數據資源中有效提取組織非結構化信息和存儲結構化知識變得非常重要,同時也給“Web 3.0”提出的“知識之網”帶來了極大的挑戰(zhàn)。強大的語義處理能力和開放互聯能力使得知識圖譜具有良好的知識表達能力和解釋性,同時也提供了一種更好組織、管理和理解互聯網海量信息的能力[2]。知識圖譜的研究起源于語義Web,知識圖譜的概念最早由Google公司提出以表達其升級的搜索引擎技術,如今知識圖譜概念已經被用來泛指各類包含實體與豐富關系的知識庫,被廣泛用于存儲人工智能任務的結構化語義信息。過去幾年中,知識圖譜在人工智能應用中具有巨大潛力,受到了廣泛的關注。知識圖譜的實例通常以三元組的形式進行存儲,將實體表示為有向圖中代表屬性或概念信息的節(jié)點,關系表示為兩實體之間具有實際語義的邊,諸如(中國,首都,北京)的三元組形式。

      盡管知識圖譜已從現實世界中提取了包含數百萬個實體和數十億個關系事實,但大型知識圖譜中的數據仍然稀疏不完整[3]。例如,在開放知識圖譜Freebase[4]中,約有71%的人缺少出生地信息,99%的沒有民族信息[5];DBpedia[6]中有58%的科學家實體沒有指出其相關的主要貢獻。隨著知識圖譜中知識實例的高速增長,知識的表示形式以及之間的關聯也變得更加復雜化、異質化。因此,研究人員需將缺失的實例添加到知識庫中以擴大其覆蓋范圍,操作耗時耗力且人工成本較高。此外,傳統(tǒng)三元組的符號表示還面臨著計算效率低和數據稀疏等問題[7],導致其在大規(guī)模知識圖譜的使用具有局限性,限制了知識圖譜的發(fā)展,為知識圖譜的表示帶來了挑戰(zhàn)。

      在本文中,通過對知識圖譜鏈接預測相關知識介紹,同時對鏈接預測模型框架進行了分析,并且列出了當前典型的應用場景,從而系統(tǒng)全面的對面向鏈接預測的知識圖譜嵌入模型做了綜述。

      1 知識圖譜鏈接預測概述

      1.1 知識圖譜嵌入

      受當前技術的制約以及網絡數據的繁雜冗余,在大型知識圖譜中,需不斷向知識庫中補充新的實體和關系,導致研究人員的工作量劇增。此外,知識圖譜中信息的缺失限制了知識圖譜的使用,影響了知識圖譜在推理和檢索應用時的準確率。由于不能直接對三元組進行操作,需要為知識圖譜中的實體和關系找到更好的表示形式。早期時候,使用符號三元組數據進行統(tǒng)計關系學習。但是這些方法既不具有良好的泛化性能,也不適用于大規(guī)模的知識圖譜。因此,引入了知識圖譜嵌入技術。嵌入是根據代表真實世界的數據集中相應元素的發(fā)生方式和彼此之間的相互作用自動學習的。同時,嵌入可用于表示任何種類元素的數值向量,將實體與關系向量化可在向量空間中通過數值計算挖掘出潛在的三元組信息及語義知識。此外,當嵌入作為一種類型的先驗知識輔助時,可對神經網絡的訓練過程加以約束和監(jiān)督[8]。知識圖譜是由實體和關系組成的復雜圖結構,知識圖譜嵌入是有向圖的矢量表示,利用知識圖譜嵌入操作來高效計算實體與關系的語義聯系,提高了模型推理的準確率,同時也保留了知識圖譜的固有結構,體現了原始圖的語義,可用于識別其中的新鏈接,從而解決了鏈接預測任務。

      伴隨著知識圖譜日新月異的發(fā)展,一系列的知識圖譜嵌入模型被學者們相繼提出。通過從知識圖譜包含的關系信息中學習低維連續(xù)空間中的嵌入操作,將實體和關系表示為低維度的帶有結構信息與語義信息的實值特征向量[9],捕獲了實體和關系的連接屬性,為知識圖譜提供數值計算框架,同時使其固有結構得以保留。如圖1所示,知識圖譜嵌入實質上就是通過優(yōu)化基于邊距的損失函數,其中邊距是一個非負數,用于將正負三元組分開。將實體表示為空間中的向量,并通過距離來量化實體對象之間的相似性,關系通常被視為向量空間中的運算,獲得具有某些明確定義的目標函數的三元組,即(h,r,t)的矢量表示。此外,關系也可以表示矩陣、張量、高斯分布以及多元高斯分布。訓練知識圖譜嵌入模型是為了找到模型的最佳參數從而進行最佳的嵌入,通過優(yōu)化算法來迭代更新實體和關系的表示。在迭代更新過程中,通過一定的負采樣策略替換正三元組的頭或尾實體,從而生成負例三元組。優(yōu)化過程旨在最大化肯定事實的合理性以及最小化否定事實的合理性。

      圖1 知識圖譜嵌入技術

      知識圖譜嵌入實現了對實體和關系的分布式表示,可高效地實現語義相似度計算等操作顯著提升計算效率。同時,在低維實值向量空間中,可以度量任意對象之間的語義相似程度以及提高低頻對象的語義表示的精確性[10],實現異質知識對象之間的語義關聯計算,有效緩解數據稀疏問題,實現異質信息融合。

      1.2 鏈接預測

      鏈接預測(Link Prediction)也稱為知識圖譜補全(Knowledge Graph Completion),利用評分函數計算并對候選實體或關系進行排序,旨在根據知識圖譜中現有實體與關系推理出缺失的實體或關系。鏈接預測根據任務的不同,可分為頭實體預測、尾實體預測和關系預測三種類型。例如,給定三元組實例(h,r,t),首先利用嵌入模型學習實體與關系的向量特征;其次通過負采樣策略破壞三元組中的任一實體或者關系生成知識圖譜數據集中所沒有的三元組(h′,r,t)、(h,r,t′)以及(h,r′,t);最后利用評分函數對其進行對應的評分fr(h,t),并將所有實體進行由低到高的排序,輸出最可能的實體或關系列表。這樣可得到所有實體的排名,利用評估指標從而獲得模型性能的評估。

      鏈接預測是知識圖譜嵌入的應用之一,是對存在于多對象總體中每個對象之間的相互作用及相互依賴關系推斷的過程。鏈接預測旨在預測圖譜中任意兩個實體之間的關系以及實體間已存在關系的正確性,是對現有知識進行整合過濾以及篩選,進行更精準的知識發(fā)現,從而提高知識庫中實例的質量,解決知識圖譜中數據缺失不完整問題。既增加了下游應用的多樣性,又可以作為預訓練,利用實體與關系的表征向量支撐下游向量,為下游模型提供語義支持[11]。即如圖2所示,左側圖中的實線代表的是現有關系,虛線代表可能的關系,通過鏈接預測任務可計算出右側圖中不同顏色所代表的各種可能的關系。此外,在不同的鏈接預測任務中往往被賦予不同的功能,例如:在社交網絡中鏈接預測被用于對用戶或商品進行推薦;在生物學領域,被用于相互作用的發(fā)現;在知識圖譜中被用于實體與關系的學習;在基礎研究中,被用于圖譜結構捕捉。鏈接預測任務是當前知識圖譜嵌入模型研究的重點,面向鏈接預測的知識圖譜嵌入模型研究能夠顯著提升模型計算效率及性能,使知識獲取、融合和推理的性能得到顯著提升。對于基于知識圖譜的人工智能應用等方面具有十分重要的意義,值得深入研究。

      圖2 鏈接預測示例

      1.3 知識圖譜鏈接預測研究現狀

      為解決鏈接預測問題,已經提出了各種技術,包括基于翻譯的方法、基于語義匹配的方法和基于神經網絡的方法[12]。其中,學習實體與關系的語義表示的知識圖譜嵌入模型在當前研究中占有重要位置?;诖耍疚膹幕谌M結構信息和融合外部信息兩個角度重點對面向鏈接預測的知識圖譜嵌入模型進行了全面的綜述。

      1.3.1 基于三元組結構信息的知識圖譜鏈接預測

      目前絕大多數鏈接預測模型僅基于知識圖譜中原始的實體與關系來推斷新的事實。翻譯模型是基于能量函數的平移模型,通過計算三元組的能量函數值來判斷其是否為正例,一般情況下,負例三元組的能量計算數值較高。TransE[13]在訓練過程中引入負樣本,通過學習正負例樣本挖掘滿足模型假設的實體和關系向量,促使語義相近的實體或者關系在向量空間中互相靠近,語義不相近的主動遠離。TransE模型簡單高效,但不能有效的對復雜關系建模?;诖耍瑢W者們提出了利用超平面讓同一實體在不同關系下表示不同的TransH[14]模型、利用實體向關系空間投影并引用了投影映射的關系矩陣使不同關系擁有不同語義空間的TransR[15]模型、利用實體與關系之間的相互作用構建與實體與關系相關投影矩陣的TransD[16]模型。TransE、TransH、TransR和TransD模型均是通過映射轉換學習實體與關系的多樣性來計算同一實體的三元組分數,有效避免了模型的收斂問題。自2013年首次提出TransE以來,基于這一框架提出了諸如通過關系映射屬性轉換嵌入的TransM[17]模型、通過更換損失函數中的度量函數為每一維的學習設置不同權重以實現自適應轉換嵌入的TransA[18]模型等幾十種基于不同架構的新模型。在最近的鏈接預測技術中,面向鏈接預測的知識圖譜嵌入模型在一些基準測試中取得了很好的性能。

      1.3.2 融合外部信息的知識圖譜鏈接預測

      基于三元組結構信息的知識圖譜嵌入方法在一定程度上解決了當前主要問題,但是也僅僅考慮了知識圖譜中的單個三元組同時假設三元組相互獨立并對其單獨建模。除了三元組本身的結構信息之外,知識圖譜中往往還包括關系路徑、實體描述、屬性信息及實體類型等豐富的額外信息,整合這些多源信息能夠挖掘圖譜底部更深層次語義信息,進一步提高模型的語義表示能力,從而實現更好的知識推理。

      近年來,不少學者們還利用互聯網語料庫信息與三元組結構信息進行融合的知識表示學習,從而更好的實現開放式知識圖譜的補全任務[19]。Lin等人[20]提出了基于圖譜自身結構信息的PTransE模型,在TransE模型的基礎上加入路徑信息,并使用路徑約束資源算法來度量關系路徑的置信度。其考慮了實體間多步間接路徑的語義關系,將關系路徑集成到學習過程中,在模型實驗測試時取得很好的表現。在考慮實體描述信息方面,Xie等人[21]在模型訓練時加入了實體描述信息,并將其與三元組結構信息進行聯合建模,提出了基于實體描述的語義向量提出了DKRL模型;Xu等人[22]引入注意力機制并提出了聯合學習模型,使實體在不同關系下表現出不同的語義向量;Gupta等人[23]提出了基于開放世界知識圖譜的CaRe模型,通過學習實體鄰域豐富的表示形式來捕獲關系鄰域的語義相似性;Shi等人[24]提出了使用依賴關系的內容屏蔽策略的Con Mask,旨在從實體的文本信息中提取出與關系相關的語義信息;Wu等人[25]通過將數字屬性預測損失添加到關系損失來擴展TransE;An等人[26]提出了基于文本增強的知識表示學習模型,旨在處理三元組信息之間存在的歧義問題。此外,諸如ConvE[27]、ConvKB[28]、HYPER[29]、CompGCN[30]、SACN[31]和CNN-BiLSTM[32]等神經網絡模型綜合考慮了實體或關系的類型、時間信息、路徑信息和子結構信息,同時卷積神經網絡或注意力機制的使用也有助于產生更好的嵌入。

      2 知識圖譜鏈接預測框架分析

      作為當前知識圖譜方面研究熱點的知識推理研究領域,受益于機器學習和深度學習技術的爆炸式增長,用于評價模型效果的鏈接預測更是成為衡量知識圖譜表示模型效果最廣泛使用的任務。鏈接預測是根據知識圖譜中已存在的實體,通過對實體與關系的學習,并與知識庫中對應實體或者關系進行鏈接從而實現知識庫的補全[33]。其本質思想是通過空間中已知的節(jié)點屬性和不完全的鏈接來分析拓撲結構中存在的相似性,估計測試對象之間是否存在相應的鏈接[34]。在過去幾年中,作為學術界研究熱點的知識圖譜嵌入模型不斷有新的研究成果產出,學者們也相繼提出了基于不同方法的知識表示模型。本節(jié)先是按照時間線的前后簡述了知識圖譜嵌入模型的分類,接著依據知識圖譜建模過程是否有補充信息的加入,將翻譯模型劃分為僅基于三元組結構信息的知識圖譜嵌入模型和融合外部信息的知識圖譜嵌入模型,并對其進行詳細介紹。

      2.1 常用數據集與評價指標

      知識圖譜是基于大數據的,當前已經構建了許多開放的知識圖譜,例如,Freebase、DBpedia、Yago[35]和NELL[36-37]。它們通常包含大量使用數十億實體和關系構建的事實,這些實體和關系分別表示為節(jié)點和鏈接這些節(jié)點的邊。當前在知識圖譜鏈接預測領域主要使用如表1所示的數據集。

      表1 實驗的數據集信息

      1)Freebase是包含常見信息的世界知識,FB13、FB15K和FB15K-237都是Freebase的子集。FB15K中大約70%的三元組存在反向關系,測試集中同樣有70%左右的三元組,在訓練集中存在對應反向關系的三元組,使得知識圖譜表示模型可能傾向于學習反向關系[38];其中,FB15K-237是通過刪除FB15K中訓練集、測試以及驗證集中的大量可逆關系數據創(chuàng)建得來的,而且還過濾掉了所有瑣碎的三元組,確保訓練集中連接的所有實體都沒有直接連接到驗證集或測試集中。其中,15k表示數據集中有15k個主題詞,237表示共有237種關系。

      2)WordNet是覆蓋范圍比較廣的英文語義知識庫,同時WordNet中的實體是具有不同概念的同義詞,關系表示同義實體之間的語義聯系[39]。WN11、WN18和WN18RR都是WordNet的子集,分別包含有11和18種關系。其由WN18刪除可逆關系數據得到的子數據集,消除了反向關系實例,避免了表示任務中的信息泄露問題。

      3)YAGO10:YAGO數據集的子集,主要包含關于人及其公民身份、性別和職業(yè)知識的信息。

      4)NELL239:NELL數據集的子集,它包含有關人員、地點、團隊、大學等實體類型的一般知識。

      評價指標:

      為了驗證所提出的方法的性能,通常在實驗中設置“Raw”和“Filter”兩種評價指標,在“Raw”模式下生成的負樣本不一定都是實際意義上的錯誤三元組,會擾亂排名,降低MR指標,故將其設置為“Filter”,在排名之前用來過濾假的負例三元組。此外,采用平均倒數排名(Mean Reciprocal Rank,MRR)、平均排序(Mean Rank, MR)以及Hits@k(k=1、3、10)這三種通用的評價指標來衡量鏈接預測模型的性能。

      1)MRR:將測試集所有排名的倒數求均值,即

      (1)

      其中:rankr,t(h)表示頭實體的排序,同理,rankh,r(t)表示尾實體的排序。MRR主要用于衡量正三元組的最高排名,第一個樣本的貢獻最大而且MRR具有平滑性,受異常值的影響更小。MRR的取值范圍為MRR∈(0,1),計算值越大,表示模型的鏈接預測性能越好。

      2)MR:指在得到的排序中對正確答案的實體排名求平均,即

      (2)

      MR數值越小,說明本模型在該任務上的模型性能越好。

      3)Hits@k:計算排名在前k位的正確實體所占的比例,然后再對其求均值,即

      k}|+|{(h,r,t)|rankh,r(t)≤k}|)

      (3)

      Hits@k側重于總體排名,數值越大,表示模型的鏈接預測性能越好。其中,K的取值一般為1、3和10。

      2.2 知識圖譜嵌入模型分類

      伴隨著知識圖譜日新月異的發(fā)展,一系列的知識圖譜嵌入模型被學者們相繼提出。一般情況下,基于翻譯模型的嵌入學習過程主要有三個步驟:首先定義知識圖譜中實體e∈E和關系r∈R在連續(xù)向量空間中的表示形式,將實體表示為向量空間中帶有結構信息與語義信息的特征向量,關系表示為向量空間中實體間的翻譯運算,通常由隨機初始化來獲得實體和關系的嵌入向量;其次定義三元組(h,r,t)的評分函數fr(h,t),根據嵌入向量h和t來評估任意事實三元組(h,r,t)在空間中成立的可能性,得分越高表明事實成立的可能性越大;最后通過優(yōu)化算法來迭代更新實體和關系的表示。在迭代更新過程中,通過一定的負采樣策略替換正三元組的頭或尾實體,從而生成負例三元組。優(yōu)化過程旨在最大限度提升真實事實的可能性,同時降低無效事實的可能性。

      由表2所示,按照時間軸展示了知識圖譜嵌入模型近幾年的發(fā)展。同時,在表3中總結了面向鏈接預測的知識圖譜嵌入模型的優(yōu)缺點。

      表2 知識圖譜嵌入模型

      表3 鏈接預測模型優(yōu)缺點總結

      2.3 翻譯模型

      翻譯模型通常使用基于距離的評分函數,將三元組的合理性視為向量空間中兩個實體節(jié)點間的距離。翻譯模型本質上也屬于距離模型,同樣是利用距離的評分函數來衡量事實成立的可能性。但相較于距離模型,翻譯模型最大不同點是將關系建模為頭實體到尾實體的翻譯向量。

      基于三元組的模型只關注實體與實體之間的一跳關系,依據知識圖譜本身的結構化信息從三元組的視角對實體和實體之間的關系進行建模,認為不同事實三元組(h,r,t)之間相互獨立。通常情況下很少考慮實體與關系的語義信息,即利用圖譜的自身結構將每個關系解釋為潛在空間中的平移,并將實體和關系表示為相同長度的一維向量。

      TransE模型是受Word2Vec[40]啟發(fā)所提出的第一個基于距離的模型,同時也是平移距離模型中最具代表性的模型。為有效捕獲知識圖譜的結構信息,將實體和關系表示為相同語義空間中的向量形式,使得嵌入的實體h和t可以通過r以低誤差連接,即當三元組(h,r,t)成立時,有h+r≈t。TransE參數簡單訓練效率高,但在處理N-1、1-N、N-N等復雜關系上存在著一些缺陷,缺乏對各種關系的區(qū)分策略,可能會出現不同實體有著同樣的含義。例如,(中國,首都,北京)和(英國,首都,倫敦)根據翻譯原則在嵌入空間中會出現中國-首都=英國-首都這樣的情況,但很顯然北京不等于倫敦。為了解決TransE不能很好的處理多關系實體的這一缺陷,學者們提出了一些基于TransE的變體,例如TransH、TransR等模型。表4中給出了TransE、TransH、TransR的得分函數以及參數空間類型,同時在圖3中給出了具體的圖示。

      表4 純翻譯模型相關信息

      圖3 TransE、TransH、TransR模型的嵌入

      2.4 采樣方法

      負采樣是在訓練時從未觀察到的三元組數據中抽取負例三元組,也是知識圖譜嵌入過程中的重要步驟。為了提高空間效率,一般情況下知識圖譜中只存儲正樣本而不存儲負樣本,所以在模型訓練期間,向模型提供負樣本是至關重要的。如果該模型只在真實樣本上進行訓練,那么它可以通過簡單地返回任何事實的大分數來將所有損失降至最低,但這失去了模型訓練的初衷。在知識圖譜嵌入過程中,否定事實的生成通常是通過負采樣來完成的,利用負采樣來最小化邊緣的排序損失,同時也體現了知識圖譜嵌入模型的性能在很大程度上取決于負采樣的質量。直觀地說,利用負樣本在嵌入空間中引入排斥力,使事實三元組中不可互換的實體在嵌入時彼此遠離。因此,必須選擇盡可能的訓練生成高質量的負樣本。隨著訓練的進行,為模型提供越來越接近真實事實的負樣本,學習有效的表示方法,以便更好地調整實體向量與關系向量的嵌入。

      2.4.1 隨機采樣

      隨機采樣是一種傳統(tǒng)的負采樣方法,旨在從均勻分布中隨機的選擇實體替換事實三元組的頭部或尾部實體生成負面事實。由于被采樣的實體可能與被替換實體和目標關系完全無關,所以生成的大多數負面事實很容易與正面事實區(qū)分開來,未被充分訓練的反例又很難被選擇,導致隨機生成的負例三元組質量會很差,有時也隨之會出現“零損失”問題[41]:當生成的負例三元組質量較低時,模型的評分函數會給其較低的分值,這將出現正、負三元組分值的差大于設置的邊界值的情況,隨之的損失值也將為零。此時模型不會對實體向量與關系向量進行更新操作,即模型在無效學習,也就不能學習到更多的樣本特征,導致模型的訓練程度評估出現偏差。如圖4所示,在訓練初期時,隨機采樣是非常有效的,此時正、負例三元組在同一裕度內。隨著隨機采樣訓練的進行,即對圖中藍色圓中的三元組進行采樣,此時這些三元組對于模型訓練毫無意義。這是因為這些三元組超出了邊界不在同一裕度內,也就不會給模型帶來任何的損失甚至減慢了模型收斂的速度。因此,在邊距內忽略一定數量的負三元組(如黑色虛線圓圈所示)可提高模型訓練效率。

      圖4 模型訓練零損失狀態(tài)

      2.4.2 過濾采樣

      過濾采樣是基于隨機采樣的一種采樣方法,只是在隨機采樣的過程中加入了過濾機制。通常情況下隨機采樣會出現假陰性負例三元組樣本,即有可能為正例三元組或者在數據集中曾出現過的三元組。當一些損壞的三元組最終成為有效的三元組時,很明顯這會影響模型的表征能力與性能。在這種情況下,當對所有三元組打分排名時,會出現假陰性樣本排在測試三元組之上的情況,這并不是因為模型學習效果不好,因為此時兩個三元組都為真實實例。為了避免這種誤導行為,在排名之前,過濾采樣會從損壞的三元組列表中刪除曾出現在實驗數據集中的所有三元組,保證所有損壞的三元組全部為真正的負樣本。

      2.4.3 伯努利采樣

      2.4.4 對抗生成采樣

      受生成對抗性深度模型[43]的啟發(fā),提出了對抗生成采樣[44]這一對抗學習框架,其提供了對動態(tài)負樣本分布進行建模的采樣策略,旨在提高模型訓練時負例三元組的質量。將基于不同損失函數的嵌入模型作為生成器和鑒別器,分別用來生成高質量的負例三元組和訓練具有高表征能力的模型。如圖5所示,發(fā)生器用于訓練原始模型,隨后通過基于概率的對數似然損失函數的生成器最大化鑒別器對其動作的響應,動態(tài)地估計負樣本分布,通過高質量的負例三元組來改進知識圖譜嵌入模型。對候選三元組上的概率分布進行計算采樣,并通過源于強化學習的策略梯度最小化生成的負例三元組的得分?;诰嚯x的邊緣損失函數的鑒別器將接收到正負樣本三元組加以區(qū)分,并采用優(yōu)化函數來最小化邊緣損失。通過對分數較大的負例三元組進行采樣,避免了梯度消失的問題。整個模型框架通過不斷地訓練模型,最終產生一個更好的鑒別器,從而獲得更好的性能。

      圖5 對抗生成采樣框架

      3 典型智能應用場景

      知識圖譜技術最早被Goole公司提出并應用到其搜索引擎技術中,從而使搜索引擎具備了查詢理解的能力。從字面匹配到概念理解,可更好的理解用戶的真實想法為用戶服務,讓用戶獲得與搜索關鍵字最相關的詞條鏈接以及獲得與關鍵字更加智能化的信息,返回用戶最希望的結果。如圖6所示,當在搜索引擎中搜索《西游記》作者時,搜索引擎會將查詢關鍵字理解現實世界中的概念和事物,然后搜索引擎根據“《西游記》”,“作者”兩個實體來理解用戶的意圖,同時返回問題的答案和與搜索實體相關的其他實體。

      圖6 百度搜索界面

      人工智能的卓越發(fā)展使得知識圖譜向量化表示得到了快速的發(fā)展。相較于傳統(tǒng)one-hot編碼的大維度、編碼稀疏,無法體現實體間關系的遠近程度,而嵌入技術可將實體和關系表示為向量的形式,更利于各種推理計算,同時節(jié)省了空間與模型訓練時間。知識圖譜在知識推理以及多源異質知識的整合提取方面顯得尤為重要,通過學習知識圖譜中已有事實三元組實體之間的語義關聯進而推理出新的事實并將其添加到圖譜中,促進了人工智能及其應用的發(fā)展[45]。

      如圖7所示,通過相似實體在同一空間中相互靠近的原則,只需要分析Adam Ant周圍的實體便可推知他的職業(yè)以及其他的一些信息。即,在Adam Ant的周圍相近的實體都是與音樂有關聯的實體,則可推理出此人的職業(yè)必定與音樂有關。此外,為下游關系抽取、智能問答、信息檢索、個性化智能推薦等任務發(fā)揮了必不可少的樞紐作用。例如,Apple的Siri、百度的小度、微軟的Cortana等智能聊天機器人可以處理客戶的請求或為用戶提供幫助。從而幫助用戶推薦附近的餐廳,回答簡單的事實問題,或者管理日歷活動等一系列日常任務。

      圖7 FB15K中實體及其鄰居節(jié)點

      由表5所示,從智能問答、系統(tǒng)推薦、信息檢索以及醫(yī)藥應用四個方面總結了當前知識圖譜嵌入技術的典型應用案例[46-60]。

      表5 知識圖譜嵌入模型應用案例總結

      4 結束語

      在近十年間,知識表示學習有了很大的發(fā)展,同時也提出了許多基于知識表示學習的方法。本文介紹了知識圖譜的概念性知識,包括系統(tǒng)地討論了知識圖譜鏈接預測的研究現狀、框架分析以及當前典型的應用場景。面向鏈接預測的知識圖譜嵌入模型旨在提高知識圖譜鏈接預測準確率,增強嵌入模型的表達性。同時,大規(guī)模知識圖譜具有重要的人工智能應用前景。例如,在軍事應用方面構建軍用無人系統(tǒng)領域故障知識圖譜用以智能搜索以及輔助決策;在目標檢測控制系統(tǒng)中引入知識圖譜用以多目標的關聯判別;在航空航天方面,利用知識圖譜設計雷達場景識別系統(tǒng)用以空間目標的場景識別。在未來研究中,應注重對面向鏈接預測的知識圖譜嵌入模型的研究,更好的進行大規(guī)模知識圖譜補全,從而促進人工智能應用的發(fā)展。

      猜你喜歡
      三元組圖譜實體
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
      繪一張成長圖譜
      前海自貿區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      關于余撓三元組的periodic-模
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進行時:緊扣實體經濟“釘釘子”
      振興實體經濟地方如何“釘釘子”
      主動對接你思維的知識圖譜
      楚雄市| 若羌县| 孙吴县| 霍城县| 阿鲁科尔沁旗| 邹平县| 沂南县| 仙桃市| 安龙县| 田阳县| 彭阳县| 泸定县| 宁城县| 古丈县| 宁安市| 饶河县| 河北区| 高碑店市| 镇江市| 鹤壁市| 九寨沟县| 浦县| 洞口县| 潞西市| 鄂伦春自治旗| 乡宁县| 兴文县| 东丰县| 无棣县| 容城县| 卢湾区| 独山县| 昆山市| 阿坝县| 驻马店市| 灵璧县| 轮台县| 遂昌县| 南川市| 通许县| 思茅市|