• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合語義解析的知識圖譜表示方法

      2022-12-15 13:19:16胡旭陽王治政孫媛媛林鴻飛
      計算機研究與發(fā)展 2022年12期
      關鍵詞:三元組圖譜實體

      胡旭陽 王治政 孫媛媛 徐 博 林鴻飛

      (大連理工大學計算機科學與技術學院 遼寧大連 116024)(huxy912@163.com)

      伴隨進入“大數據”時代,網絡中的數據呈指數增長[1].互聯網的信息結構多樣,多數以HTML格式承載,使用者只能從網頁中搜尋自己需要的內容信息,但計算機無法有效地從網頁中識別語義信息,數據難被高效利用.于是,“互聯網之父”Berners等人[2]提出語義網(semantic Web)的概念,即將萬維網中HTML格式鏈接的網頁轉化為可被計算機處理的數據鏈接,將現實世界中的萬物聯系起來.其中信息以資源描述框架RDF[3](主體-謂詞-客體的三元組形式)描述,統(tǒng)一的格式便于計算機處理.隨之谷歌提出知識圖譜(knowledge graph, KG),其本質是語義網絡的知識庫,將其用于網頁搜索,可從語義層次理解需求,使搜索準確率提高[4].

      圖譜以圖模型可視化地描述了現實世界中信息的關聯,繼提出概念后,構建和應用知識圖譜得到了高速的發(fā)展.涌現出大量的開放知識圖譜,如WordNet[5],DBpedia[6],NELL[7],YAGO[8],Freebase[9]等.知識圖譜揭示了知識的發(fā)展規(guī)律,并應用于實際任務,如在語義解析[10]、實體消歧[11]、信息提取[12]和問題回答[13]等多個領域均發(fā)揮出越來越重要的作用.

      盡管知識圖譜在結構化表示數據方面很有效,但是這種表示方法由于RDF或類似標準的符號特性需要針對不同的符號設計不同的模型,復雜度高,通用性差、計算效率低.并且知識圖譜包含信息極大,符號的表示方法無法緩解數據稀疏性,占用空間大.

      近年來,深度學習[14]的迅速發(fā)展引起人們廣泛的關注,通過表示學習建模在許多方面表現出優(yōu)越的性能.為解決由知識圖譜符號表示所帶來的問題,研究人員提出一個新的研究領域——知識表示學習[15],針對知識圖譜建模的表示學習也稱知識圖譜嵌入[16].其核心是在向量空間中建模知識圖譜,將符號形式的三元組表示為低維的向量形式,同時保留知識圖譜原有的結構.嵌入向量可進一步應用于各種下游任務,如知識圖譜補全[17]、關系提取[18]、實體分類[19]和實體解析[20].這種方法具有以下優(yōu)點[15]:1)便于計算分析;2)融合異質信息[20];3)解決數據稀疏[15,20].

      目前,知識圖譜表示學習方法大多是僅根據三元組來進行的.即,在向量空間中表示三元組中的實體和關系,并對每個三元組定義一個評分函數衡量其存在的合理性.實體和關系的表示(嵌入)通過最大化三元組的合理性來獲得.但這種方法得到的向量表示僅與每個三元組結構有關,而不相連實體之間的隱含關系.因此,得到的向量表示不夠準確,對下游任務的預測精度有限[21].為此,研究人員提出融合多源信息進行知識圖譜表示學習,如實體類別[22]、關系路徑[23]、文本描述[24]、邏輯規(guī)則[25]信息等.

      由于在給定數據時,不同類型的實體和關系通常均帶有文本描述,即一段描述實體或者關系的文字,其文本描述中可能含有復雜的隱藏路徑關系.比如給定三元組(中國,首都,北京)、(中國,城市,上海)以及北京的一段描述“北京是中國一座城市,也是中國的首都”,通過這段關于北京的文本描述可以推斷出(中國,城市,北京)這樣隱含的關系路徑.為挖掘更深層次的信息,建模利用的信息更加豐富,更好地學習嵌入,本文旨在將帶有復雜語義信息的知識圖譜嵌入到低維向量中,以達到知識表示學習的目的,并在具體的下游任務中取得顯著效果.

      Fig. 1 The research framework圖1 研究內容框架

      為得到準確的知識圖譜表示,本文提出一種融合語義解析的知識圖譜表示學習模型.如圖1所示,將BERT用于圖譜表示學習中的語義解析,提出表示模型BERT-PKE.將事實三元組的實體和關系的結構和文本描述信息以序列形式輸入BERT,通過訓練解析語法,將嵌入轉化為序列分類問題,通過對下游任務的微調,得到三元組的向量表示并預測三元組和鏈路的合理性.在多數現有算法的訓練中,采用隨機負采樣方法,生成的負樣本是明顯的錯誤樣本,很容易通過實體類型區(qū)分.因此,本文提出盡量“替換同類實體”的負采樣方法——基于實體分布和實體相似度進行采樣,生成高質量的負樣本用于模型的訓練,使模型的訓練效果更好.此外,由于BERT計算成本過高,在訓練和測試中,解析文本描述微調更新詞表花費的時間過長.因此本文提出一種改進策略,將文本描述進行剪枝處理,生成實體和關系的精簡文本描述集合,縮短訓練時間且性能與原模型基本相同.在構建模型后,將BERT-PKE模型與先進的知識圖譜嵌入模型進行調試比較,測試并分析三元組分類和鏈路預測中的評價結果.經過實驗驗證,BERT-PKE模型和提出的改進策略在三元組分類和鏈路預測任務中提升效果顯著.

      1 相關工作

      近年來,知識圖譜表示學習研究蓬勃發(fā)展,根據研究者利用的信息結構,可分為使用事實三元組建模和融合其他信息建模[26]的知識圖譜表示學習模型.

      1.1 基于事實三元組的知識圖譜表示學習

      基于事實三元組的知識圖譜表示學習僅根據觀察到的事實三元組來執(zhí)行嵌入任務,將其進行向量表示,向量可用于其他下游任務.模型有3個要點:1)表示形式,實體通常表示為目標空間中的向量,而關系通常表示為目標空間中的操作,如向量、矩陣和高斯分布等;2)得分函數,衡量三元組存在的可能性,其得分越高,三元組在圖譜中出現的概率越高;3)優(yōu)化方法,通常使用梯度下降的方法優(yōu)化求解.基于事實三元組得分函數定義不同,又可分為基于距離的模型、基于語義匹配的模型[16]等.

      1.1.1 距離模型

      距離模型學習實體和關系表示,將三元組存在的合理性建模為三元組內部隱含的距離[27].給定一個知識圖譜,實體首先被投影至低維向量,然后將關系投影為實體之間的平移或旋轉算符,通常表示為向量或矩陣.繼而,每個三元組通過2個實體之間的距離評價函數來衡量三元組存在的合理性.合理的三元組往往具有較低的距離值.如TransE[17],TransH[28],TransR[29],TransD[30],RotatE[31].

      1.1.2 語義匹配模型

      語義匹配模型通過相似性得分函數來學習向量表示的三元組特征,通過張量分解的形式,計算潛在語義相似度并衡量三元組存在的合理性.如RESCAL[21],DistMult[32],HolE[33],ComplEx[34-35],ANALOGY[36],SimplE[37].

      1.2 融合多源信息的表示學習

      融合多源信息的表示學習除了三元組結構信息外,還通過利用外部資源學習知識圖譜的嵌入表示,如實體類別、文本描述、關系路徑等.為融合實體類別的信息,語義平滑嵌入模型SSE[22]利用嵌入限制、強正則化約束實體和關系,提出平滑性假設并分別使用2種流形學習算法構建模型.為融合實體和關系的語義信息,融合實體描述的知識表示模型,DKRL[38]利用連續(xù)詞袋和卷積神經網絡學習實體和關系中的語義信息,將語義信息和三元組的結構信息一起進行TransE訓練,用改進后的TransE模型學習更深層次的嵌入表示.為融合關系路徑的信息,基于關系路徑的翻譯模型PTransE[39],為特定頭實體向量到特定尾實體向量之間途徑的所有的實體和關系定義關系路徑向量,從而可以利用多個關系中包含的語義信息,建模利用的信息更加豐富,能更好地學習嵌入.

      2 融合語義解析的知識圖譜表示模型

      知識圖譜是一種復雜圖結構,除三元組之外,還有其他可利用的信息,如上下文、句法和語義信息,這些信息可從更深層次刻畫實體和關系的關系,卻被以往僅僅依據事實知識的嵌入方法所忽視.其中,實體和關系的文本描述就是一個值得解析利用的信息.

      將知識圖譜中的三元組視為文本序列,提出了一種融合語義解析的知識圖譜表示框架——基于BERT[40]模型的剪枝圖譜表示模型BERT-PKE.給定知識圖譜,首先將實體和關系的文本描述進行剪枝處理.然后,將三元組和文本描述轉化成序列結構輸入BERT模型中.最后,利用預訓練語言模型BERT對三元組以及實體和關系的描述進行語義解析,得到嵌入模型.在訓練過程中,負樣本的構造可影響模型的學習.因此,提出2種改進經典方法生成負樣本的方法,改變負樣本的采集方法來增強模型學習的能力.

      2.1 BERT-PKE模型結構

      由于BERT[40]可解析深層次的語義信息,因此在融合語義解析的知識圖譜表示方法中,本文采用BERT來進行語義解析,輸入多層Transformer[41]結構,使用自注意力機制聯合所有層的上下文來訓練未標注文本,得到深度雙向表示,實現圖譜嵌入.由于BERT是處理自然語言的模型,只能處理序列結構的句子,圖結構無法直接輸入.因此BERT-PKE模型參考KG-BERT[42]模型中的輸入方法,將三元組結構和文本描述作為文本序列輸入預訓練語言模型BERT,將描述實體和關系的詞序列作為BERT模型的輸入句進行微調,然后通過某種訓練得到三元組的表示.

      Fig. 2 The overall framework of BERT-PKE圖2 BERT-PKE模型整體框架

      輸入詞標記i對應的輸入向量表示Ei輸入到BERT模型架構中,該架構是基于Transformer的雙向結構.在隱藏詞字機制MLM任務中,特殊詞標記[CLS]和第i個輸入詞標記中的隱藏向量記為C∈H和Ti∈H,其中H為預先訓練BERT中的隱藏塊大小.與[CLS]對應的最終隱藏塊輸出C被用于計算三元組的序列表示得分.微調過程中引入的唯一參數W∈2×H,表示輸出層的權重.三元組(h,r,t)的得分函數為

      sτ=fr(h,t)=sigmoid(CWT),

      (1)

      其中權重矩陣W與C相乘之后可獲得三元組是正確的概率sτ,sτ∈2是2維實向量,且sτ0,sτ1∈[0,1]且sτ0+sτ1=1.

      在給定正三元組集合D+和相應構造的負三元組集合D-,我們用sτ和三元組標記計算交叉熵損失:

      (2)

      其中yτ∈{0,1}是標記該三元組是正例還是負例的標簽,即標記是正三元組還是負三元組,而正三元組表示的是正確的三元組,負三元組表示的是錯誤的三元組,負樣本需要我們進行負采樣構造.

      負采樣方法可影響模型的預測能力,在2.2節(jié)中我們將給出詳細介紹.通過梯度下降的方法,可以更新預先訓練好的參數權值和新的權值W.

      2.2 負采樣方法

      負采樣的目的是幫助模型進行特征學習訓練,最終輸出正樣本.正樣本在損失函數學習過程中保留,同時不斷更新負樣本.通過負采樣,在更新隱藏層到輸出層的權重時,只需更新負樣本而不用更新全部樣本,節(jié)省計算量.因此負樣本的采集質量影響了模型的構建.本文通過負采樣的方式降噪,對樣本集的正三元組進行負采樣,生成的負樣本用于計算損失函數.

      在現有的知識圖譜表示模型中,負采樣大多從實體集中隨機抽取進行替換,采用這種負采樣方法生成的負樣本隨機且質量較低.這樣會帶來產生偽標簽和模型無法準確地學習訓練2個問題.針對問題,提出2種改進的負采樣方法,分別是基于實體分布的負采樣方法和基于實體相似度的負采樣方法.通過后續(xù)試驗證明方法的效果.

      2.2.1 隨機抽樣的負采樣方法

      雖然融合語義解析的知識圖譜表示方法在實現知識圖譜表示學習上有了進一步的突破,但是現有的嵌入模型中普遍存在一個問題,即模型在梯度下降訓練中,負三元組集合D-僅僅由實體集合中隨機抽取一個實體h′或t′,從正三元組(h,r,t)∈D+中替換相應的h或t得到的,即

      D-={(h′,r,t)|(h′∈E)∧(h′≠h)∧

      ((h′,r,t)?D+)}∪{(h,r,t′)|

      (t′∈E)∧(t′≠t)∧((h,r,t′)?D+)},

      (3)

      如果三元組已經在正集D+中,則不會被視為反例.

      通過梯度下降的方法,負樣本更新預先訓練好的參數,因此采樣的負三元組質量影響了模型的學習和向量的表示.例如,給定三元組(中國,首都,北京)經過隨機負采樣生成后的三元組可能為(中國,首都,足球),該三元組質量低,對訓練過程中參數的更新沒有顯著幫助.這種采樣方法被稱為unif[17]采樣,最初在TransE模型中被提出.由于知識圖譜數據集中的信息是有限的,通過隨機采樣產生的負樣本可能構造出正三元組,卻被當作負樣本本來處理,引入偽標簽.圖3是正、負三元組的舉例說明.鑒于負采樣的基本作用和現有方法的局限性,本文將重點放在負采樣上,旨在提高負樣本的質量.

      Fig. 3 Examples of positive and negative triples圖3 正、負三元組舉例

      2.2.2 基于實體分布的負采樣方法

      根據TransH中提出的方法,以不同概率按照實體分布來選擇替換三元組的頭實體或尾實體,可依據伯努利分布提出bern[28]采樣.本文針對1_to_N和N_to_1類型的三元組,如果是1_to_N三元組,則更大概率破壞頭實體h;如果是N_to_1三元組,則更大概率破壞尾實體t,這樣就減少了產生偽標簽的機會.圖4分別展示了不同關系類型下,基于實體分布的bern負樣本生成過程.

      Fig. 4 Bern negative sampling圖4 bern負采樣

      對于知識圖譜中的每個關系r,首先得到以下2個統(tǒng)計量:1)頭實體對應的平均尾實體的數,記為tph;2)尾實體對應的平均頭實體數,記為hpt.然后為采樣定義一個伯努利分布,其參數為

      (4)

      則替換頭或尾實體,服從參數為p的伯努利分布,有

      (5)

      則X的分布律為

      P(X=x)=px(1-p)1-x,x∈[0,1].

      (6)

      對于與關系r相關的正三元組(h,r,t),替換h構造負三元組的概率為p,替換t構造負三元組的概率為1-p.

      2.2.3 基于實體相似性的負采樣方法

      基于實體分布的負采樣方法雖然能夠減少了產生偽標簽的可能性,但替換實體仍需從整個實體集中選擇,生成的三元組質量不佳,對訓練過程中的特征學習幫助不大.本文希望替換的實體與原實體語義相似,因此提出一種基于實體相似性[43]的負采樣方法,進一步改進2.2.2節(jié)中基于實體分布的負采樣方法.該方法先使用TransE將實體表示成m維向量將相似性問題簡化,然后用k-means[44]聚類將實體向量劃分為k類.在負采樣時,正三元組的實體用同類實體進行替換,通過這種負采樣方法來提升知識圖譜嵌入的質量.圖5分別展示了1_to_N和N_to_1類型的k-means負樣本生成.

      Fig. 5 k-means negative sampling圖5 k-means負采樣

      首先,本文使用TransE將實體和關系表示成m維向量,將實體的語義結構相似問題簡化為向量距離相近問題.給定三元組(h,r,t),TransE模型都有h+r≈t.因此在向量空間中,頭實體h被t-r限制.同理,尾實體t和關系r分別有h+r和h-t限制.因此,不同三元組中同一個頭實體在不同關系和尾實體的限制是相同的,即三元組(h1,r1,t1)和(h1,r2,t2)中有t1-r1=t2-r2.因此若2個實體相似,則其在空間中的限制也相似,表明在空間中2實體的向量坐標越相近,距離越小,則實體越相似.

      在得到實體和關系的嵌入向量后,使用k-means算法對實體向量進行無監(jiān)督的分類.首先,在實體向量集合{x1,x2,…,xn}∈m中選擇初始化的k個樣本作為初始聚類中心{μ1,μ2,…,μk};然后,針對實體向量集中每個實體向量xi所屬的聚類中的所有點到聚類中心的歐氏距離之和最小,對于每個向量xi,計算其應該屬于的類:即

      (7)

      其中,ci表示樣本xi與k個距離中心最近的類.arg是表明樣本歸于哪個類的運算符.然后,對于每個類中心μj,重新計算該聚類的中心

      μj

      (8)

      不斷重復劃分類ci和更新聚類中心μj這2個操作,直到達到聚類的中心不變或者變化很小,其損失函數為

      (9)

      通過k-means聚類算法,本文認為屬于同一個類別的實體相似度高,可相互替換生成負樣本.基于實體相似性的方法在一定程度上提高了負樣本的質量,使表示模型的性能得到了提升.

      2.3 剪枝策略

      BERT模型的一個主要局限性是代價太過于昂貴,在學習模型表示的過程中需要將句子的每個詞輸入多層Transformer結構中進行嵌入訓練;在測試模型的過程中更是耗費大量時間;在鏈路預測評估需要遍歷所有的實體替換頭實體或尾實體,并且所有負三元組序列都被輸入到12層Transformer模型中.由于序列中文本描述通常為一段話,在50詞以上,過于冗長,包含一些無用信息,如標點、謂詞、系動詞等.

      為盡可能正確嵌入訓練樣本,每個樣本句子的詞標記的學習過程將不斷重復,有時詞標記形成的分支過多,這時就有可能把訓練集學習得太好,以至于把訓練集的某一些特點當成所有數據都具有的性質,這時就發(fā)生了過擬合.因此,針對BERT模型的局限性,本文將實體和關系的文本描述進行剪枝處理,對冗余的文本描述進行修剪,從而避免嵌入不必要的操作和搜索,更快地獲得更好的效果.

      本文使用基于詞頻[45](term frequency)和k近鄰[46](k-nearest neighbor)的技術.首先,TF表示的是某個詞在文本中出現的次數,即詞頻,其公式為

      (10)

      對于詞頻統(tǒng)計的具體做法,本文采用N元語法模型(N-gram),N-gram是一種基于統(tǒng)計語言模型的算法.將描述文本中的單詞按字節(jié)進行大小為N的滑動窗口操作,形成字節(jié)片段序列.每個片段稱為gram,對所有gram的出現頻度進行統(tǒng)計,并且按照閾值過濾,形成文本的向量特征空間.

      在N-gram中,第N個詞的出現只與前面N-1個詞相關,與其他任何詞都不相關,整句的概率就是各個詞出現概率的乘積.這里只需要獲得各個詞出現的詞頻.本文取N=1,2,3.其中,當N=1時,稱為一元語法模型(unigram model),即當前詞的概率分布與給定的歷史信息無關,它將文本描述分成單詞,統(tǒng)計單詞出現的詞頻;當N=2時,稱為二元語法模型(bigram model),即當前詞的概率分布只與距離最近的詞有關,它將文本描述中所有2個詞組成一個詞組,統(tǒng)計詞組出現的詞頻;當N=3時,稱為三元語法模型(trigram model),即當前詞的概率分布與距離最近的2個詞有關,它將文本描述中的所有相鄰3個詞組成1個詞組,統(tǒng)計詞組出現的詞頻.

      k近鄰表示的是一個樣本附近的k個最近,即特征空間中最鄰近樣本,文本是1維表示,則其最近鄰的度量方式為曼哈頓距離,即

      L(j,k)=|j-k|.

      (11)

      因此,本文在剪枝過程中抽取實體和關系名稱的前后k跳詞語,并抽取除名稱、標點、量詞、系動詞以外出現詞頻較高出現的詞或詞組(可以為多個),然后組成一個由逗號分隔、由詞語組成的實體和關系的文本描述集合.通常,剪枝后的模型精度稍微有所下降,但相比節(jié)省了大量的時間空間,精度基本與原來持平或稍稍下降的誤差完全可以忽略.

      3 實驗設置及結果

      本文選用垂直領域數據集UMLS[47],通用領域數據集FB14K-237和WN18R.其中FB14K-237由FB15K-237[48],WN18R由WN18RR[48]預處理得到,具體信息如表1所示:

      Table 1 The Information of Data Sets

      在完成嵌入后,將嵌入的向量應用于不同的下游任務中,本文的下游任務為三元組分類和鏈路預測[49-52].并采用準確率(ACC)作為評價指標用于衡量三元組分類的效果,采用平均排名(MR)、平均倒數排名(MRR)和正確實體排在前N名的概率(Hits@N)作為評價指標用于衡量鏈路預測的效果.

      三元組分類的目的是判斷三元組(h,r,t)中實體和關系是否正確匹配,本文將各個模型運行3次并取其平均值,表2給出了FB14k-237,WN18R,UMLS在不同模型上的三元組分類任務的準確率.

      Table 2 ACC of Triplet Classification

      如表2可得,所提出BERT-PKE模型在三元組分類任務上的準確性顯著高于所有基準模型,和KG-BERT原型基本相同,證明了本文提出方法的有效性.所提出的剪枝策略改進的BERT-PKE模型與原模型KG-BERT的準確率相差不多,但訓練時間卻大大縮短.以FB14k-237數據集為例,KG-BERT算法中詞標記有4 920 563個,迭代1次需要25 h,而BERT-PKE算法中詞標記只有20 409個,迭代1次只需要1.5 h,而在模型學習過程中需要多次迭代,時間代價成倍數增長.在通用領域數據集WN18R、FB14k-237上,其準確率均高于95%,且采用剪枝策略相差不超過0.3%,在垂直領域數據集UMLS上準確率甚至高于KG-BERT模型.因此可以看出,剪枝策略可顯著節(jié)省模型訓練的時間和空間.同時,提出基于實體分布負采樣和基于實體相似性負采樣負采樣改進方法,在3個數據集上,這2種負采樣都能使得BERT-PKE模型的性能得到提升.并且基于實體相似性(k-means)的負采樣方法在基于實體分布(bern)的方法基礎上提出,其準確率也更高.通過實驗,證明負采樣在模型訓練中的重要影響,也證明本文改進采樣方法的成效.

      鏈路預測的目的是判斷三元組(h,r,t)在已知其中關系和其中一個實體的情況下預測的另一實體是否正確.表3~5中給出不同數據集下不同模型的鏈路預測結果.

      Table 3 Link Prediction Results of UMLS

      Table 4 Link Prediction Results of WN18R

      Table 5 Link Prediction Results of FB14k-237

      Fig. 6 MR of link prediction圖6 鏈路預測的MR

      Fig. 7 MRR of link prediction圖7 鏈路預測的MRR

      Fig. 8 Hits@N for top 1,3,10 of link prediction圖8 鏈路預測的前1,3,10名命中率

      通過表3~5以及可視化圖6~8上的結果,可以總結出:1)3種BERT-PKE模型的MR值均比基準模型的MR值更低,MRR值更接近于1,并且提升較為明顯.且采用基于實體相似性和實體分布的負采樣策略也有明顯的提升效果.2)3種BERT-PKE模型中有一小部分負采樣方法中的Hits@N值低于一些最先進的方法,如ANALOGY,ComplEx;但采用改進負采樣策略的BERT-PKE模型的Hits@N值較隨機負采樣方法相比有明顯提升.這是由于BERT-PKE模型沒有對知識圖譜的整體圖結構信息進行準確建模,從而無法使得實體和關系描述的語義相關度很高,因此不能將給定實體的某些鄰居實體排在前10位.通過基于實體分布和實體相似度的負采樣改進方法可提高Hits@N值、判斷實體關系的種類、并通過TransE預先得到實體相似度分布、然后進行歸類,該方法都對圖結構有一些整體把握,因此可提升模型的性能.由此可得,負采樣策略可提升知識圖譜表示學習的能力,并且通過剪枝策略,可大大縮短模型訓練和測試的時間,如FB14k-237數據集,剪枝前迭代一次需要25 h,剪枝后只需要1.5 h;剪枝前測試匹配一個實體需要8 min,而剪枝后只需要50 s.

      4 結 論

      本文提出一種融合語義解析的知識圖譜表示模型——BERT-PKE,該模型將BERT用于語義解析,提出基于詞頻和k近鄰的剪枝策略以縮短訓練時間.此外,提出2種負采樣策略,基于實體分布的負采樣方法可減少偽標簽產生;基于實體相似性的負采樣可通過同簇實體的替換提高負三元組質量,幫助特征訓練.本文填補了已有表示模型中挖掘文本描述深度關聯的空白.此外,本文還將BERT模型應用于知識圖譜補全任務.未來的研究方向包括通過圖結構聯合建模等.將BERT-PKE模型作為一種知識增強語言模型應用于語言理解任務是我們未來要探索的一項工作.

      作者貢獻聲明:胡旭陽設計了算法思路和實驗方案,完成了所有實驗以及文章撰寫;王治政參與設計了算法實驗、論文架構并完成了實驗分析;孫媛媛指導了論文思路,對實驗提出指導意見并修改論文;徐博參與了論文想法的討論,對于實驗方案提出指導意見并完善論文內容;林鴻飛負責提出選題并確定論文框架.

      猜你喜歡
      三元組圖譜實體
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
      繪一張成長圖譜
      前海自貿區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      關于余撓三元組的periodic-模
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進行時:緊扣實體經濟“釘釘子”
      振興實體經濟地方如何“釘釘子”
      主動對接你思維的知識圖譜
      长武县| 台中市| 灵川县| 牟定县| 濮阳市| 视频| 辽中县| 华宁县| 朔州市| 资溪县| 北票市| 安乡县| 浪卡子县| 锡林浩特市| 会东县| 屯门区| 林口县| 上饶县| 始兴县| 海原县| 凌源市| 高雄县| 土默特左旗| 孝感市| 鹤峰县| 琼海市| 桂东县| 广州市| 涪陵区| 佛冈县| 灌阳县| 林周县| 个旧市| 谢通门县| 锦屏县| 洪江市| 荆门市| 巫溪县| 滁州市| 定襄县| 华阴市|