• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于知識表示學(xué)習(xí)的知識可信度評估

      2021-07-27 07:55:02張曉明孫維雅王會勇
      計算機(jī)工程 2021年7期
      關(guān)鍵詞:三元組圖譜實體

      張曉明,孫維雅,王會勇

      (河北科技大學(xué)信息科學(xué)與工程學(xué)院,石家莊050000)

      0 概述

      隨著知識圖譜的快速發(fā)展,一些如DBpedia[1]、Freebase[2]和WordNet[3]等大規(guī)模開放知識圖譜和領(lǐng)域知識圖譜,已成功應(yīng)用于智能問答、語義搜索與推薦、大數(shù)據(jù)分析與決策等任務(wù)以及金融和醫(yī)療等領(lǐng)域。然而,由于現(xiàn)實世界知識的迅速更新和增長,大量的知識未存在于構(gòu)建好的知識圖譜內(nèi),需要及時對知識圖譜進(jìn)行更新以滿足應(yīng)用需求。在更新過程中,不可避免地會引入一些噪聲和沖突,影響了知識圖譜的質(zhì)量,因此,對知識的可信度進(jìn)行評估是知識圖譜構(gòu)建過程中的重要步驟。傳統(tǒng)的知識可信度評估主要依靠人工標(biāo)注和監(jiān)督的方式[4],造成了人工以及時間成本的浪費。因此,構(gòu)建一個高效的知識可信度評估模型具有重要意義??尚哦仍u估模型通過對知識的可信度進(jìn)行計算,處理引入的噪聲,降低知識圖譜內(nèi)的噪聲和沖突,提高知識圖譜內(nèi)的知識質(zhì)量,從而推動知識圖譜自動化構(gòu)建工作的進(jìn)展。

      知識可信度評估旨在使用已知的背景信息對三元組的可信度進(jìn)行計算。具體地,對于三元組的可信度,使用一個[0,1]區(qū)間的數(shù)值進(jìn)行衡量,數(shù)值越接近0,三元組成立的可能性越小,數(shù)值越接近1,三元組成立的可能性越大[5]。目前,對于知識可信度評估的研究主要采用基于表示學(xué)習(xí)的方法,具有良好性能表現(xiàn)的模型包括基于交叉神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的可信度計算模型KGTtm[5]、帶置信度的知識表示學(xué)習(xí)模型CKRL[6]和一系列基于CKRL 進(jìn)行改進(jìn)的模型[7-8]以及基于規(guī)則的表示學(xué)習(xí)可信度計算模型[9-11],這些模型利用知識圖譜的內(nèi)部信息對三元組知識的可信度進(jìn)行計算,保持信息的全局一致性,但是沒有充分利用實體類型信息、文本描述信息和圖像信息等外部信息。

      本文建立一種基于表示學(xué)習(xí)的知識可信度評估模型PTCA,在保證背景信息全局一致性的前提下,結(jié)合知識圖譜外部信息和內(nèi)部結(jié)構(gòu)信息,利用實體關(guān)聯(lián)強度、實體類型以及多步關(guān)系路徑信息對三元組知識的可信度進(jìn)行計算。設(shè)計一種通過實體類型信息判斷關(guān)系可靠性的方法,將待驗證的三元組中兩實體的實體類型信息以及關(guān)系類型信息進(jìn)行匹配,依據(jù)匹配程度得出關(guān)系的可靠性,在存在噪聲的FB15k-N1、FB15k-N2、FB15k-N3 和FB15kNM 數(shù)據(jù)集以及FB15k、FB40k 數(shù)據(jù)集上對PTCA 進(jìn)行評估,以驗證其可信度計算能力。

      1 相關(guān)工作

      知識可信度評估主要包括基于本體、基于概率圖模型和基于知識表示學(xué)習(xí)的方法。

      1.1 基于本體的可信度評估

      基于本體的知識可信度評估主要使用本體中已經(jīng)存在的概念對知識進(jìn)行評估,這種方法的可解釋性強,但是由于無法及時更新,概念的可擴(kuò)展性較差?;诒倔w的評估方法從不同角度對可信度進(jìn)行評估,包括依據(jù)本體概念以及本體映射信息進(jìn)行可信度評估的方法[12]、依據(jù)內(nèi)容以及節(jié)點信息進(jìn)行可信度評估的方法[13-14]。

      1.2 基于概率圖模型的可信度評估

      基于概率圖模型的可信度評估方法將實體和關(guān)系建模成圖模型,利用先驗知識確立關(guān)聯(lián)約束關(guān)系,進(jìn)而對知識的可信度進(jìn)行評估。此類方法的可解釋性強,而且可以簡化運算?;诟怕蕡D模型的可信度評估方法包括基于概率圖模型且結(jié)合路徑排名的算法[15]、神經(jīng)網(wǎng)絡(luò)使用先驗知識進(jìn)行評估的方法[4]以及基于馬爾科夫邏輯網(wǎng)絡(luò)[16]的可信度評估方法。

      1.3 基于知識表示學(xué)習(xí)的可信度評估

      自從BORDES 等人提出基于平移假設(shè)的TransE模型[17]之后,出現(xiàn)了一系列基于TransE 模型的知識表示學(xué)習(xí)模型[18-20],從而使基于知識表示學(xué)習(xí)對知識可信度進(jìn)行評估的研究成為熱點[21]?;谥R表示學(xué)習(xí)的可信度評估原理是將知識圖譜內(nèi)的實體和關(guān)系嵌入到相同的低維向量空間中,通過向量之間的運算對知識的可信度進(jìn)行計算。將知識的可信度計算問題轉(zhuǎn)化為向量間的計算問題,降低計算復(fù)雜度,簡化復(fù)雜問題,但是同時降低了問題的可解釋性?;谥R表示學(xué)習(xí)進(jìn)行可信度計算的方法可以分為兩類:利用背景信息基于知識表示學(xué)習(xí)進(jìn)行計算的方法,利用規(guī)則基于知識表示學(xué)習(xí)進(jìn)行計算的方法。

      利用背景信息基于知識表示學(xué)習(xí)進(jìn)行計算的方法通過背景信息中的內(nèi)容對知識的可信度進(jìn)行評估,因此,其表現(xiàn)效果容易受到背景信息內(nèi)容的影響。JIA 等[5]在平移假設(shè)的基礎(chǔ)上結(jié)合兩實體之間的關(guān)聯(lián)強度以及對可達(dá)路徑的推理,提出一個基于交叉神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來衡量三元組可信度的模型KGTtm,該模型綜合利用知識圖譜內(nèi)三元組的信息以及全局推理信息,從實體、關(guān)系和全局三個層面對三元組的可信度進(jìn)行評估。XIE 等[6]提出一種帶置信度的知識表示學(xué)習(xí)框架(CKRL),基于平移假設(shè),使用三元組的實體、關(guān)系以及實體之間的路徑信息,提出三元組置信度的概念,并把置信度引入知識表示學(xué)習(xí),從而發(fā)現(xiàn)知識圖譜中潛在的噪聲和沖突。SHAN 等人[7]以CKRL 為基礎(chǔ),通過對知識圖譜中已有的三元組知識替換實體后形成的負(fù)樣本進(jìn)行評估,形成對帶噪聲的知識圖譜中的負(fù)樣本知識進(jìn)行評估的方法NSM。ZHAO 等[8]在CKRL 框架的基礎(chǔ)上結(jié)合實體類型信息以及實體文本描述信息,提出對知識可信度進(jìn)行評估的方法SCEF。上述一系列模型主要通過可信度對知識表示學(xué)習(xí)的效果進(jìn)行強化,未獲得三元組可信度計算的直接結(jié)果。

      利用規(guī)則基于知識表示學(xué)習(xí)進(jìn)行計算的方法通過制定的規(guī)則對知識的可信度進(jìn)行評估,但是由于規(guī)則的作用域、時間、數(shù)量以及規(guī)則之間的相互作用的限制,使用該方法對三元組的可信度進(jìn)行評估時存在一定的局限性。MINERVINI 等人[9]通過指定規(guī)則的可信度級別,簡單考慮關(guān)系的等價性和逆向性,對規(guī)則的可信度進(jìn)行評估。規(guī)則增強的知識表示學(xué)習(xí)方法[10]首先對知識圖譜內(nèi)的知識進(jìn)行規(guī)則的挖掘以及推理,然后對規(guī)則的支持度以及置信度進(jìn)行計算,得到規(guī)則的可信度。SHU 等[11]提出軟規(guī)則的概念,即一種帶可信度的規(guī)則,并且依據(jù)已有知識以及軟規(guī)則對知識進(jìn)行評估和篩選,從而獲得更加可信的知識。利用規(guī)則進(jìn)行計算的方法首先需要對規(guī)則進(jìn)行挖掘以及推理,然后利用已知的規(guī)則進(jìn)行可信度計算。因此,必須具有完備的規(guī)則才能獲取更高的準(zhǔn)確性。

      本文利用背景信息基于知識表示學(xué)習(xí)進(jìn)行可信度計算,考慮到背景信息的豐富性對計算效果的影響以及保持信息全局一致的必要性,選取實體類型信息[22]以及知識圖譜內(nèi)部信息作為背景信息,以進(jìn)行三元組知識可信度計算。

      2 問題描述

      隨著知識圖譜的應(yīng)用和發(fā)展,高質(zhì)量知識的需求量不斷增加,而現(xiàn)有的知識圖譜內(nèi)存在的噪聲和沖突導(dǎo)致知識的質(zhì)量不高,為了提高知識圖譜內(nèi)知識的質(zhì)量,需要對知識的可信度進(jìn)行評估,篩選出高質(zhì)量的知識。圖1所示為本文主要任務(wù)描述,依據(jù)已知的背景信息對知識圖譜內(nèi)三元組知識的可信度進(jìn)行計算,進(jìn)而得到帶可信度的知識,其中,已知背景信息包括內(nèi)部信息(關(guān)系路徑、實體關(guān)聯(lián)強度)和外部信息(實體類型)。

      圖1 主要任務(wù)描述Fig.1 Main tasks description

      3 基于PTCA 模型的知識可信度計算

      3.1 PTCA 模型及方法概述

      對本文使用的符號進(jìn)行定義,將三元組表示為(h,r,t)∈T,其包括頭實體h、尾實體t以及連接頭實體和尾實體的關(guān)系r,且h、t∈E,r∈R,其中,E和R分別代表實體集和關(guān)系集。ei(i=1,2,…,n)表示實體i,rj(j=1,2,…,n)表示實體對之間的關(guān)系j。EET表示實體類型,RRT表示關(guān)系類型。EET(ei)表示實體ei的實體類型,RRT(rj)表示關(guān)系rj的關(guān)系類型。

      本文對基于多步關(guān)系路徑的知識表示學(xué)習(xí)模型(PTransE)[23]進(jìn)行改進(jìn),設(shè)計PTCA 模型。PTCA 模型主要包括3 個方面:1)通過實體間的關(guān)聯(lián)強度對實體間出現(xiàn)關(guān)聯(lián)的可能性進(jìn)行計算;2)結(jié)合實體類型信息衡量兩實體之間存在的關(guān)系;3)構(gòu)造兩實體之間的關(guān)系路徑,利用多步關(guān)系路徑信息進(jìn)行計算。為確保信息結(jié)合的有效性,要保證信息以及結(jié)合方式的有效性。實體關(guān)聯(lián)強度信息基于實體攜帶的資源以及實體之間的資源數(shù)量,類型信息數(shù)據(jù)采用經(jīng)過驗證的TKRL[22]提取的類型實例以及關(guān)系類型信息,多步關(guān)系路徑信息通過計算路徑p與直接關(guān)系r的相似度進(jìn)行衡量,同時使用不改變結(jié)果數(shù)據(jù)趨勢的轉(zhuǎn)換函數(shù)來確保結(jié)果有效。3 種信息的計算結(jié)果通過能量函數(shù)進(jìn)行結(jié)合,通過計算損失函數(shù)的方式迭代進(jìn)行表示學(xué)習(xí),從而確保信息結(jié)合方式有效。PTCA 模型結(jié)構(gòu)如圖2所示,其中,C1表示通過實體間關(guān)聯(lián)強度計算的結(jié)果,C2表示通過實體類型信息計算的結(jié)果,C3表示通過多步路徑信息進(jìn)行推理計算的結(jié)果。

      圖2 PTCA 模型結(jié)構(gòu)Fig.2 PTCA model structure

      三元組可信度的能量函數(shù)E(T)通過式(1)進(jìn)行計算,分?jǐn)?shù)越低說明表示學(xué)習(xí)效果越好。得到能量函數(shù)的計算結(jié)果E(T),然后通過式(2)進(jìn)行轉(zhuǎn)換將其作為三元組的可信度得分,分?jǐn)?shù)越高說明三元組的可信度越高。

      PTCA 模型主要包括3 個步驟:

      步驟1根據(jù)知識圖譜內(nèi)的信息獲取實體關(guān)聯(lián)強度C1,同時得到實體之間的關(guān)系路徑信息以及每條路徑出現(xiàn)的概率。

      步驟2通過實體類型與關(guān)系類型(由擁有此關(guān)系的兩實體的實體類型得出)的匹配計算得出C2。

      步驟3結(jié)合每條路徑出現(xiàn)的概率,使用多步關(guān)系路徑信息判斷關(guān)系成立的可能性C3。依據(jù)能量函數(shù)計算的結(jié)果,使用式(2)進(jìn)行轉(zhuǎn)換得到三元組知識的可信度。

      賦予可信度計算的初始值為0,當(dāng)缺少實體關(guān)聯(lián)強度信息、實體類型信息或者路徑信息中的一種信息時,缺少信息對應(yīng)的計算結(jié)果為0,最終計算結(jié)果有效。在圖3 中,以三元組(Toshikazu Shiozawa,nationality,Japan)為例對可信度計算的流程進(jìn)行描述。

      圖3 可信度計算的流程Fig.3 The procedure of credibility calculation

      3.2 實體間的關(guān)聯(lián)強度

      兩實體間的關(guān)聯(lián)強度指兩個實體存在關(guān)聯(lián)的可能性,本文使用[0,1]之間的數(shù)值進(jìn)行衡量,數(shù)值越接近1 說明兩實體之間存在關(guān)聯(lián)的可能性越大,即兩實體間的關(guān)聯(lián)強度越大,得出實體關(guān)聯(lián)強度的相關(guān)定理1。CKRL 模型[6]通過PCRA 算法[23]對實體間的關(guān)聯(lián)強度進(jìn)行衡量,使用連接兩實體的路徑數(shù)量表示實體間的關(guān)聯(lián)強度。文獻(xiàn)[5]提出基于圖模型進(jìn)行運算的ResourceRank 算法,以刻畫兩個實體之間的關(guān)聯(lián)強度。

      定理1兩實體之間的關(guān)聯(lián)強度越大,它們之間出現(xiàn)關(guān)系的可能性越大。

      PTCA 將兩實體之間的關(guān)聯(lián)強度作為衡量三元組可信度的一個指標(biāo)。如圖4所示,已知實體對(e1,e2)之間存在關(guān)系{r2+r3}、{r1}、{r4+r5+r6},實體對(e1,e3)之間存在關(guān)系{r3}。依據(jù)定理1,實體對(e1,e2)之間存在關(guān)系的可能性大于實體對(e1,e3)之間存在關(guān)系的可能性。兩實體之間關(guān)聯(lián)強度的計算主要包括3 個步驟:1)獲取知識圖譜內(nèi)的實體;2)迭代得出兩實體之間的關(guān)系路徑;3)計算兩實體之間的關(guān)聯(lián)強度R(h,t)。

      圖4 實體關(guān)聯(lián)強度示意圖Fig.4 Schematic diagram of entity correlation strength

      兩實體之間的關(guān)聯(lián)強度通過式(3)進(jìn)行計算,R(h,t)表示實體h和實體t之間的關(guān)聯(lián)強度,R(h,t)的值處于[0,1]之間,越接近于1 說明兩實體之間的關(guān)聯(lián)強度越大。文獻(xiàn)[5]中考慮到由于知識圖譜中可能存在噪聲和沖突,對信息的正確性產(chǎn)生影響,因此為了提高模型的容錯率,假設(shè)每個節(jié)點的資源流都有相同概率θ可以直接跳轉(zhuǎn)到的隨機(jī)節(jié)點,并且隨機(jī)流向t的這部分資源是1/N,其中,N是實體數(shù)。本文為了提高PTCA 的容錯率,引入隨機(jī)跳轉(zhuǎn)概率θ。兩實體之間的關(guān)聯(lián)強度通過兩實體之間的資源(關(guān)系路徑的數(shù)量)占兩實體總資源量的比例進(jìn)行衡量。實體的資源量可以衡量某實體攜帶的信息量,將每個實體看作1 個節(jié)點,通過式(4)進(jìn)行計算,R(n)表示n節(jié)點的資源量。假設(shè)m為n的前驅(qū)節(jié)點,S為m節(jié)點的集合(即n節(jié)點的所有前驅(qū)節(jié)點的集合),Nmn表示連接m、n兩節(jié)點的關(guān)系路徑數(shù)量,OODm表示經(jīng)由m節(jié)點流出的資源,即m的出度。n節(jié)點的資源量通過集合S內(nèi)所有前驅(qū)節(jié)點m分別按規(guī)則進(jìn)行運算,然后求和,計算規(guī)則如下:m節(jié)點與n節(jié)點之間的資源占m節(jié)點流出資源的比例與m節(jié)點攜帶資源量的乘積,這種計算規(guī)則的定義參考了CKRL[6]模型中使用的PCRA[22]算法。

      實體關(guān)聯(lián)強度具體實例如圖5所示。以三元組(Toshikazu Shiozawa,nationality,Japan)為例,已知兩實體之間存在8 條路徑,頭實體Toshikazu Shiozawa 的出度為5,尾實體Japan 的入度為8,通過迭代得出頭實體的資源量R(h)以及尾實體的資源量R(t),進(jìn)而計算得出兩實體間的關(guān)聯(lián)強度R(h,t)。

      圖5 實體關(guān)聯(lián)強度實例Fig.5 Entity correlation strength example

      3.3 結(jié)合類型信息的關(guān)系判斷

      類型信息包括實體類型信息以及關(guān)系類型信息,其中,關(guān)系類型表示擁有某關(guān)系的兩實體的實體類型。例如,已知所有存在關(guān)系r的實體對,同時得到這些實體對中每個實體的實體類型,實體對中兩個實體的實體類型以成對的形式組成實體類型對,r的所有實體類型對組成r的關(guān)系類型,同時使用定理2作為計算依據(jù)。PTCA 通過對三元組(h,r,t)中頭實體h的實體類型信息EET(h)、尾實體t的實體類型信息EET(t)、r的關(guān)系類型信息RRT(r)進(jìn)行匹配,判斷實體對(h,t)之間存在關(guān)系r的可能性。匹配方法如圖6所示,對于三元組(e1,r1,e2),已知頭實體e1的實體類型EET(e1)包括EET1、EET2、EET3、EET4,尾實體e2的實體類型EET(e2)包括EET1、EET2、EET4,r1對應(yīng)的關(guān)系類型RRT(r1)包括RRT1(EET4,EET`)、RRT2(EET4,EET3)、RRT3(EET5,EET2)、RRT4(EET2,EET2),通過實體類型與關(guān)系類型的匹配可以得出成功進(jìn)行匹配的有RRT1和RRT4,依據(jù)定理2可以判斷實體對(e1,e2)之間存在關(guān)系r1的可能性。

      圖6 實體類型匹配示意圖Fig.6 Schematic diagram of entity type matching

      定理2實體類型與關(guān)系類型成功匹配的數(shù)量越多,實體之間存在關(guān)系的可能性越大。

      通過式(5)計算實體類型的匹配程度,將全部類型中匹配到的數(shù)量的比例作為衡量三元組可信度的標(biāo)準(zhǔn),其中,N表示實體的類型與實體對類型相匹配的數(shù)量,NNTh表示頭實體中實體類型數(shù)量,NNTt表示尾實體中實體類型數(shù)量,NNTr表示關(guān)系類型的數(shù)量。T(h,r,t)處于[0,1]區(qū)間,值越大說明三元組的可信度越大。

      實體類型匹配具體實例如圖7所示。對于三元組(Toshikazu Shiozawa,nationality,Japan),已知實體Toshikazu Shiozawa存在5種實體類型,如people/person、film/actor 等,實體Japan 存在8 種實體類型,如location/location、location/country 等,擁有關(guān)系nationality 的實體對可能存在3種實體類型,如(people/person,location/country)、(tv/tv_actor,tv/tv_location)等。由圖7 可知,實體類型成功匹配的數(shù)量為3,該三元組通過匹配計算得出的可信度為0.75。

      圖7 實體類型匹配實例Fig.7 Entity type matching example

      3.4 基于多步路徑信息的關(guān)系判斷

      路徑信息中蘊含豐富的關(guān)系信息,為三元組可信度計算提供了有力支撐。CKRL[6]通過計算兩實體間關(guān)系r和路徑p之間的語義相似度對三元組的可信度進(jìn)行衡量,KGTtm[5]使用可達(dá)路徑推理的算法計算三元組可信度。

      PTCA 依據(jù)多步關(guān)系路徑信息計算三元組可信度。在單步關(guān)系路徑信息的基礎(chǔ)上進(jìn)一步推理得出間接關(guān)系路徑,構(gòu)成多步關(guān)系路徑信息,然后得出定理3。基于多步路徑信息計算三元組可信度的PTransE[23]方法如圖8所示,依據(jù)定理3,通過三元組(h,r1,e1)、(e1,r2,t)可以得出包含多步關(guān)系路徑的三元組(h,r1+r2,t),使用p表示多步關(guān)系路徑r1+r2,因此,包含多步關(guān)系路徑的三元組可以表示為(h,p,t)。對于三元組(e1,r,e2)之間的關(guān)系r,可以通過多步關(guān)系路徑p1:r1+r2以及p2:r3+r4+r5推理得出。同時,通過實體間的關(guān)聯(lián)強度來確保關(guān)系路徑有效。

      圖8 多步路徑信息示意圖Fig.8 Schematic diagram of multi-step path information

      定理3存在間接關(guān)系的2 個實體之間至少具有一條多步關(guān)系路徑。

      與PTransE[22]計算多步關(guān)系路徑與直接關(guān)系相似度的方式相同,PTCA 使用式(6)計算路徑p與直接關(guān)系r的相似程度,分?jǐn)?shù)越低說明路徑p與直接關(guān)系r越接近。

      本文期望相似度的結(jié)果能夠與前兩種計算三元組可信度方法的結(jié)果趨勢一致,即高分?jǐn)?shù)代表高可信度的知識,且數(shù)值位于[0,1]區(qū)間,因此,通過式(7)對計算結(jié)果進(jìn)行轉(zhuǎn)換。其中,P(h,t)={p1,p2,…,pn}表示兩實體之間存在的所有路徑,n為路徑的數(shù)量。每條路徑通過式(6)進(jìn)行計算,然后使用式(7)將計算的結(jié)果轉(zhuǎn)換為[0,1]區(qū)間的數(shù)值,最后進(jìn)行平均計算,得出基于多步關(guān)系路徑信息的三元組可信度結(jié)果。

      多步路徑信息具體實例如圖9所示。對于三元組(Toshikazu Shiozawa,nationality,Japan),兩實體之間包含8 條關(guān)系路徑、7 條多步關(guān)系路徑以及1 條直接關(guān)系路徑,將多步關(guān)系路徑抽象為pi進(jìn)行表示,計算路徑與直接關(guān)系的相似程度EER(h,pi,t),然后將RRP(h,r,t)轉(zhuǎn)換為[0,1]區(qū)間的數(shù)值進(jìn)行路徑與關(guān)系的相似程度衡量。

      圖9 多步路徑信息實例Fig.9 Multi-step path information example

      3.5 算法描述

      PTCA 算法描述如算法1所示,使用三元組S={(h,r,t)}作為數(shù)據(jù)輸入。首先,使用PTCA 的能量函數(shù)對實體和關(guān)系進(jìn)行表示(嵌入);然后,通過R(h,t)、T(h,r,t)以及RRP(h,r,t)進(jìn)行可信度計算,更新能量函數(shù)的結(jié)果;最后,更新?lián)p失函數(shù),進(jìn)行下一輪迭代學(xué)習(xí)。

      算法1PTCA 算法

      輸入S,S′//S={(h,r,t)}為三元組集合,S′為負(fù)例三元組,設(shè)置正負(fù)例間隔γ、學(xué)習(xí)率、維度n

      輸出S_C//經(jīng)過表示學(xué)習(xí)的三元組S及其可信度C的集合

      4 實驗結(jié)果與分析

      本文通過三元組分類任務(wù)、噪聲檢測任務(wù)以及知識圖譜補全任務(wù),驗證PTCA 模型的知識可信度計算性能。三元組分類任務(wù)使用可信度計算的結(jié)果對三元組進(jìn)行二分類,分類為正確三元組以及錯誤三元組,通過正確分類的三元組的比例檢驗可信度計算結(jié)果的準(zhǔn)確率。噪聲檢測任務(wù)依據(jù)三元組分類的結(jié)果,計算準(zhǔn)確率以及召回率,依據(jù)PR(準(zhǔn)確率/召回率)曲線衡量模型識別錯誤三元組的能力,進(jìn)而衡量模型的可信度計算能力。知識圖譜補全任務(wù)(實體鏈接預(yù)測)用來檢驗?zāi)P偷闹R表示學(xué)習(xí)效果。

      4.1 數(shù)據(jù)集

      本文實驗使用從Freebase 提取的典型基準(zhǔn)數(shù)據(jù)集FB15k、FB40k 作為正例樣本集,使用文獻(xiàn)[13]中基于FB15k 數(shù)據(jù)集[17]形成的帶噪聲數(shù)據(jù)集作為負(fù)例樣本集,負(fù)例樣本集包括包含10%噪聲的FB15k-N1、包含20% 噪聲的FB15k-N2 以及包含40% 噪聲的FB15k-N3 數(shù)據(jù)集。此外,為了對實驗結(jié)果進(jìn)行有效評估,抽取正例樣本集以及負(fù)例樣本集中的三元組進(jìn)行標(biāo)注,形成包含20%噪聲的FB15kNM 數(shù)據(jù)集,從FB15kNM 數(shù)據(jù)集中隨機(jī)抽取同等數(shù)量的數(shù)據(jù)形成包含5% 噪聲的FB15kNM-1、包含10% 噪聲的FB15kNM-2 以及包含20%噪聲的FB15kNM-3。其中:三元組分類任務(wù)以及噪聲檢測任務(wù)依據(jù)可信度計算結(jié)果進(jìn)行評估,因此,選擇使用0、1 標(biāo)記的數(shù)據(jù)集進(jìn)行實驗;知識圖譜補全任務(wù)依據(jù)能量函數(shù)的計算結(jié)果進(jìn)行評估,因此,選用原始數(shù)據(jù)集進(jìn)行實驗。FB15k 與FB40k 之間最主要的差別在于實體數(shù)量,且數(shù)據(jù)集中不含噪聲,因此,通過三元組分類任務(wù)以及知識圖譜補全任務(wù)實驗結(jié)果對模型在實體數(shù)量不同數(shù)據(jù)集上的性能表現(xiàn)進(jìn)行對比,從而驗證模型的適用性。數(shù)據(jù)集統(tǒng)計信息如表1所示。

      表1 數(shù)據(jù)集統(tǒng)計信息Table 1 Statistics of datasets

      4.2 實驗參數(shù)設(shè)置

      實驗設(shè)置不同超參數(shù)的值以對三元組分類的結(jié)果進(jìn)行評測。已知λ1+λ2=2,通過設(shè)置不同參數(shù)得出此方法下表現(xiàn)最好的模型,最終選取具有代表性的平均計算模型PTCA1(參數(shù)設(shè)置為λ1=1、λ2=1)以及表現(xiàn)最好的模型PTCA2(參數(shù)設(shè)置為λ1=1.5、λ2=0.5)與對比模型CKRL[6]以及基準(zhǔn)模型PTransE[22]進(jìn)行比較。λ1、λ2的調(diào)參過程如下:以0.1為步長,保持λ1+λ2=2,調(diào)整參數(shù),通過在FB15kNM 數(shù)據(jù)集上三元組分類任務(wù)的結(jié)果選取參數(shù)進(jìn)行實驗。參數(shù)λ1對三元組分類結(jié)果的影響如圖10所示,實驗結(jié)果顯示,隨著λ1的增加,三元組分類的準(zhǔn)確率平穩(wěn)上升,在λ1=1.5 時達(dá)到峰值,隨后隨著λ1的增加,三元組分類的準(zhǔn)確率快速下降,可以得出此方法實驗結(jié)果最好時參數(shù)的設(shè)置為λ1=1.5、λ2=0.5。

      圖10 參數(shù)λ1 對三元組分類任務(wù)結(jié)果的影響Fig.10 Influence of parameter λ1 on the results of triplet classification task

      使用最小批量隨機(jī)梯度下降方法(Mini-batch SGD)對參數(shù)進(jìn)行優(yōu)化和更新。正負(fù)例間隔γ設(shè)為1,學(xué)習(xí)率η在{0.000 1,0.001,0.01}中選擇,本次實驗學(xué)習(xí)率η為0.001,實體和關(guān)系的維度n為100。

      4.3 三元組分類任務(wù)

      三元組分類的目的是預(yù)測三元組是否正確,其可以看作是一個二分類問題。本次實驗中PTCA 模型依據(jù)可信度得分進(jìn)行三元組分類,其他對比模型通過式(2)對能量函數(shù)的計算結(jié)果進(jìn)行轉(zhuǎn)換,同樣得到[0,1]之間的數(shù)值并作為其可信度得分,依據(jù)此得分進(jìn)行三元組分類。將三元組正確分類的比例作為三元組分類結(jié)果的準(zhǔn)確率并進(jìn)行比較,準(zhǔn)確率高則表示三元組分類效果好,三元組可信度計算結(jié)果更加準(zhǔn)確。

      4.3.1 評價標(biāo)準(zhǔn)

      可信度計算的結(jié)果為[0,1]之間的數(shù)值,得分越高表示三元組越可信,因此,依據(jù)計算結(jié)果將可信度得分低于0.5 的三元組劃分為錯誤三元組,將可信度得分不低于0.5 的三元組劃分為正確三元組。

      4.3.2 實驗結(jié)果及討論

      在FB15k、FB40k 兩個數(shù)據(jù)集上對PTCA、CKRL(LT+PP+AP)[6]以及基準(zhǔn)模型PTransE 進(jìn)行實驗,比較模型在不同實體規(guī)模數(shù)據(jù)集上的性能表現(xiàn),實驗結(jié)果如表2所示。從表2 可以看出,與其他模型相比,PTCA 在不同實體數(shù)量數(shù)據(jù)集上的表現(xiàn)最優(yōu),并且在實體數(shù)量增加時模型仍然具有很高的準(zhǔn)確率。因此,PTCA 模型具有一定的適用性。

      表2 三元組分類的準(zhǔn)確率比較結(jié)果1Table 2 The accuracy comparison results 1 of triplet classification %

      分別在FB15kNM-N1、FB15kNM-N2、FB15kNM-N3三個數(shù)據(jù)集上對PTCA、CKRL(LT+PP+AP)[6]以及基準(zhǔn)模型PTransE 進(jìn)行比較,實驗結(jié)果如表3所示。

      表3 三元組分類的準(zhǔn)確率比較結(jié)果2Table 3 The accuracy comparison results 2 of triplet classification %

      從表3 可以看出:

      1)在同一數(shù)據(jù)集中,PTCA(PTCA2)三元組分類的效果優(yōu)于CKRL[6]與基準(zhǔn)模型PTransE[23],因此,PTCA具有更好的三元組分類能力。與對比模型以及基準(zhǔn)模型相比,PTCA 最主要的區(qū)別以及優(yōu)勢在于實體類型信息的使用,結(jié)合調(diào)參實驗結(jié)果可以看出,加入實體類型信息可以提高三元組分類的能力,但是僅使用類型信息而不結(jié)合路徑信息將無法達(dá)到可信度計算的最優(yōu)效果,進(jìn)一步證明在通過實體關(guān)聯(lián)強度信息進(jìn)行限制的情況下,綜合考慮實體類型信息以及多步關(guān)系路徑信息對三元組進(jìn)行可信度計算的有效性。

      2)隨著噪聲的增加,PTCA 的三元組分類效果降低,說明加入噪聲不利于三元組分類任務(wù),PTCA(PTCA2)的準(zhǔn)確率始終高于其他模型,說明實體關(guān)聯(lián)強度信息、實體類型信息以及多步路徑信息的結(jié)合使得模型對噪聲的處理能力提高。

      4.4 知識圖譜噪聲檢測任務(wù)

      噪聲檢測任務(wù)的目的是根據(jù)知識圖譜內(nèi)部的三元組來檢測知識圖譜內(nèi)可能存在的噪聲和沖突。為了驗證PTCA 檢測噪聲的能力,采用該任務(wù)進(jìn)行評測。本次實驗依據(jù)三元組分類的結(jié)果,計算各模型對三元組進(jìn)行分類的準(zhǔn)確率以及召回率,使用抽樣的方法得出PR 曲線,通過PR 曲線對三元組分類效果進(jìn)行衡量。

      4.4.1 評價標(biāo)準(zhǔn)

      噪聲檢測任務(wù)的評價標(biāo)準(zhǔn)是三元組的可信度得分,得分越低的三元組成為噪聲的可能性越大。因此,噪聲檢測任務(wù)可以通過模型對噪聲數(shù)據(jù)正確分類的結(jié)果進(jìn)行衡量。此任務(wù)可以直接衡量三元組可信度計算的效果,在同一召回率的情況下,準(zhǔn)確率越高,模型的表現(xiàn)效果越好,識別噪聲的能力越強,三元組可信度的計算結(jié)果越準(zhǔn)確。

      4.4.2 實驗結(jié)果及討論

      在同一數(shù)據(jù)集FB15kNM 上通過噪聲檢測任務(wù)實驗對PTCA、CKRL[6]以及PTransE[22]進(jìn)行性能比較,其中,CKRL 模型包括LT(Local Triple Confidence)、PP(Prior Path Confidence)、AP(Adaptive Path Confidence)3 種模式,評測結(jié)果如圖11所示。

      圖11 噪聲檢測任務(wù)實驗結(jié)果Fig.11 Experimental results of noise detection task

      從圖11 可以看出:

      1)與其他模型相比,PTCA(PTCA2)的性能最好,優(yōu)于經(jīng)過證明具有良好噪聲與沖突檢測能力的CKRL模型,因此,PTCA 具有更好的噪聲檢測能力。但是,CKRL 模型中表現(xiàn)最好的CKRL(LT+PP+AP)效果優(yōu)于PTCA1,可以認(rèn)為,CKRL 中路徑信息的使用方法優(yōu)于PTCA 中多步路徑信息的使用方法。實驗結(jié)果證明,PTransE能量函數(shù)的局限性導(dǎo)致其噪聲檢測能力很弱。因此,CKRL 中使用的路徑信息優(yōu)于多步路徑信息也可能是受到PTransE 能量函數(shù)的影響。

      2)引入可信度計算的模型(PTCA、CKRL)噪聲檢測能力明顯優(yōu)于沒有引入可信度計算的模型(PTransE)。因此,可信度計算可以提高模型的容錯率。

      圖12所示為不同噪聲比例的數(shù)據(jù)對PTCA、CKRL[6]以及PTransE[23]的影響,可以看出,隨著噪聲比例的增加,模型監(jiān)測噪聲的能力增強,與其他模型相比,PTCA檢測噪聲的能力更穩(wěn)定,并且在噪聲含量很低的數(shù)據(jù)集中仍然具有很高的準(zhǔn)確率,其實際應(yīng)用價值更高。

      圖12 噪聲對模型的影響Fig.12 Effect of noise on models

      4.5 知識圖譜補全任務(wù)

      知識圖譜補全是一項經(jīng)典的評測任務(wù),其目標(biāo)是對知識表示的質(zhì)量進(jìn)行評估。最常見的補全是基于表示學(xué)習(xí)的鏈接預(yù)測。本文實驗通過實體鏈接預(yù)測進(jìn)行知識圖譜補全任務(wù),實體鏈接預(yù)測通過三元組中已知的實體預(yù)測缺失的關(guān)系。由于PTCA 對三元組的表示學(xué)習(xí)過程使用了可信度計算的結(jié)果,因此通過實體鏈接預(yù)測可以對模型的表示學(xué)習(xí)能力進(jìn)行評估,從而證明可信度計算的有效性。

      4.5.1 評價標(biāo)準(zhǔn)

      首先使用所有實體替換三元組中的某個實體(頭實體或者尾實體)形成新的三元組,通過能量函數(shù)對這些三元組進(jìn)行計算,并根據(jù)得分進(jìn)行排序,得分越低排名越靠前。根據(jù)正確答案的排序評估該模型在鏈接預(yù)測中的能力,評價指標(biāo)包括正確實體得分的平均結(jié)果排名(MeanRank)以及預(yù)測結(jié)果前十項中正確結(jié)果所占比例(Hits@10)。由于在負(fù)例生成過程中產(chǎn)生了一些“污染”三元組,因此本實驗使用“Raw”和“Filter”兩種設(shè)置,“Raw”表示未經(jīng)處理的數(shù)據(jù),“Filter”表示剔除“污染”三元組的數(shù)據(jù)。

      4.5.2 實驗結(jié)果及討論

      在FB15k、FB40k 兩個數(shù)據(jù)集上對PTCA、CKRL(LT+PP+AP)[6]以及基準(zhǔn)模型進(jìn)行實體鏈接預(yù)測實驗,比較模型在不同實體規(guī)模數(shù)據(jù)集上的表現(xiàn),實驗結(jié)果如表4所示,最優(yōu)結(jié)果加粗表示。從表4 可以看出,模型在實體數(shù)量增加的情況下,MeanRank 評測指標(biāo)的結(jié)果有所下降。但是,與其他模型相比,PTCA 的實體鏈接預(yù)測結(jié)果最好,表明其表示學(xué)習(xí)能力最強,具有一定的適用性。

      表4 實體鏈接預(yù)測結(jié)果1Table 4 Entity link prediction results 1

      分別在FB15k-N1、FB15k-N2、FB15k-N3 等3 個數(shù)據(jù)集上對PTCA、CKRL(LT+PP+AP)[6]以及PTransE[23]進(jìn)行比較,實驗結(jié)果如表5所示,表中用MR 表示MeanRank,R 表示Raw,F(xiàn) 表示Filter。

      表5 實體鏈接預(yù)測結(jié)果2Table 5 Entity link prediction results 2

      從表5 可以看出:

      1)PTCA(PTCA2)在所有數(shù)據(jù)集上的MeanRank評測指標(biāo),在剔除“污染”三元組的數(shù)據(jù)(Filter)上表現(xiàn)效果最優(yōu),在未經(jīng)處理的數(shù)據(jù)(Raw)上表現(xiàn)效果比PTransE 差,結(jié)合不同參數(shù)設(shè)置下的結(jié)果發(fā)現(xiàn),路徑信息的權(quán)重越大,則結(jié)果越好,因此,路徑信息相較類型信息更能提高模型的表示學(xué)習(xí)能力。PTCA的Hits@10 評測指標(biāo)結(jié)果優(yōu)于其他模型,因此,PTCA 具有較強的表示學(xué)習(xí)能力。與CKRL 相比,PTCA 的優(yōu)勢在于實體類型信息的使用,與PTransE相比,PTCA 的優(yōu)勢在于對三元組可信度的計算以及實體類型信息的使用。根據(jù)結(jié)果可以看出,可信度計算以及實體類型信息都可以增強模型的表示學(xué)習(xí)能力,而且實體類型信息更有助于提高模型的表示學(xué)習(xí)效果。因此,結(jié)合實體類型信息進(jìn)行可信度計算的方法可以明顯提高模型的實體鏈接預(yù)測能力。

      2)隨著噪聲的增加,PTCA(PTCA2)的各項評測指標(biāo)仍然保持穩(wěn)定,而且與其他模型相比優(yōu)勢更加明顯。因此,在有噪聲干擾的情況下,經(jīng)過可信度計算,PTCA 依然可以保持很好的表示學(xué)習(xí)效果,進(jìn)一步證明可信度計算能夠提高模型的噪聲識別能力。

      4.6 實驗效果展示

      本文提出一種計算三元組可信度的模型PTCA,使用實體間關(guān)聯(lián)強度、實體類型信息、多步關(guān)系路徑信息對三元組的可信度進(jìn)行計算,并且通過圖13 展示實驗效果??梢钥闯?,PTCA 首先對存在噪聲的知識圖譜內(nèi)知識的可信度進(jìn)行計算,得到帶可信度的知識,圖中使用實線表示高可信度的知識,使用虛線表示低可信度的知識,結(jié)合可信度計算的結(jié)果進(jìn)行篩選,可以減少低可信度的知識,保留高可信度的知識,經(jīng)過篩選的知識圖譜中知識質(zhì)量更高。

      圖13 實驗效果展示Fig.13 Experimental effect display

      5 結(jié)束語

      本文建立一種使用實體間關(guān)聯(lián)強度、實體類型信息、多步關(guān)系路徑信息對三元組的可信度進(jìn)行計算的PTCA 模型。分別在知識圖譜噪聲檢測任務(wù)、知識圖譜補全(實體鏈接預(yù)測)任務(wù)和三元組分類任務(wù)中對該模型進(jìn)行評測,實驗結(jié)果表明,相比CKRL和基準(zhǔn)模型PTransE,PTCA 模型可以檢測知識圖譜內(nèi)部存在的噪聲和沖突,能夠?qū)θM的可信度進(jìn)行有效計算,而且在有大量噪聲干擾的數(shù)據(jù)集中性能表現(xiàn)更優(yōu)。然而,PTCA 模型僅引入不影響全局一致性的實體類型信息作為外部信息,未充分利用如圖像信息、文本描述信息等大量豐富的外部信息。因此,下一步考慮將知識圖譜內(nèi)部結(jié)構(gòu)信息、實體類型信息、圖像信息、文本描述信息等引入知識可信度評估中,并在更復(fù)雜的大規(guī)模知識圖譜內(nèi)對模型的適用性以及魯棒性進(jìn)行測試。

      猜你喜歡
      三元組圖譜實體
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      關(guān)于余撓三元組的periodic-模
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
      振興實體經(jīng)濟(jì)地方如何“釘釘子”
      主動對接你思維的知識圖譜
      论坛| 亳州市| 济南市| 扬中市| 蒙阴县| 普洱| 县级市| 无棣县| 夏津县| 朝阳县| 泉州市| 华坪县| 石渠县| 伊川县| 威宁| 平江县| 通许县| 永川市| 绥棱县| 遂溪县| 尚义县| 江陵县| 长宁区| 阿克陶县| 广河县| 闵行区| 马山县| 多伦县| 龙井市| 安泽县| 昭通市| 澄城县| 陇西县| 平顶山市| 萨嘎县| 满洲里市| 昆明市| 武夷山市| 略阳县| 田东县| 平顶山市|