熊文武 張守震
摘 要:在多個(gè)垂直領(lǐng)域,以數(shù)據(jù)分析、智慧搜索、智能推薦、自然人機(jī)交互為主的實(shí)際應(yīng)用場景中,皆對(duì)知識(shí)圖譜提出了客觀的使用需求。與此同時(shí),知識(shí)圖譜作為實(shí)現(xiàn)機(jī)器認(rèn)知智能的重要基石,同樣是現(xiàn)階段人工智能領(lǐng)域的熱門研究課題。從開放域環(huán)境中自動(dòng)獲取關(guān)系實(shí)例是構(gòu)建大規(guī)模知識(shí)圖譜的基礎(chǔ),精準(zhǔn)地識(shí)別概念間的上下位關(guān)系是在縱向?qū)用嫔蠑U(kuò)展知識(shí)層級(jí)體系結(jié)構(gòu)的關(guān)鍵,通過知識(shí)圖譜表示學(xué)習(xí)可實(shí)現(xiàn)知識(shí)圖譜數(shù)值化表示,得以讓機(jī)器更好地處理并應(yīng)用知識(shí)圖譜進(jìn)行知識(shí)計(jì)算。
關(guān)鍵詞:知識(shí)圖譜;開放關(guān)系抽取;鏈接預(yù)測;集體推理
一、基于深度句法分析學(xué)習(xí)的抽取方法
分析學(xué)習(xí)的抽取方法主要包括生成句法依存樹、候選三元組抽取和實(shí)體關(guān)系強(qiáng)度度量三個(gè)核心步驟。生成依存句法樹的過程主要包括共指消解與依存句法分析2個(gè)主要步驟。共指消解在進(jìn)行句法解析之前,我們首先需要對(duì)文本句子中識(shí)別出的實(shí)體指代做共指消解處理。
上一步中與依存句法樹對(duì)應(yīng)的有向圖G一旦生成,我們即可基于上述圖結(jié)構(gòu)進(jìn)行深入地分析。目前,大多數(shù)開放關(guān)系抽取算法所抽取出的三元組的關(guān)系短語的質(zhì)量普遍不高,例如損失了細(xì)節(jié)信息、錯(cuò)誤且不連貫、混雜其它三元組的信息等。而我們將沿著這樣一個(gè)思路去解決這個(gè)問題:枚舉名詞成分頂點(diǎn)集合V中的不同組合,在G上結(jié)合最短依存路徑、多種邏輯規(guī)則/圖規(guī)則分析方法獲得它們對(duì)應(yīng)的候選三元組。
二、人機(jī)協(xié)作解析框架的體系架構(gòu)
人機(jī)協(xié)作解析框架主要包含了4個(gè)組成模塊,即類別與關(guān)系候選生成模塊、模式候選生成模塊、眾包問題生成模塊與擴(kuò)展內(nèi)容生成模塊。首先采用Jena數(shù)據(jù)庫將知識(shí)圖譜進(jìn)行預(yù)處理,然后在給定一個(gè)萬維網(wǎng)表格時(shí),通過SPARQL查詢語言來生成表格所對(duì)應(yīng)的所有類別與關(guān)系的候選,即列-類候選與列對(duì)-關(guān)系候選。同時(shí),此模塊會(huì)預(yù)先統(tǒng)計(jì)知識(shí)圖譜中類別與關(guān)系間的關(guān)聯(lián)信息,即計(jì)算每個(gè)關(guān)系與各類別之間的關(guān)聯(lián)度。
模式候選生成模塊:此模塊主要負(fù)責(zé)表格的語義模式候選生成任務(wù),通過計(jì)算所查詢到的每一個(gè)列所對(duì)應(yīng)的所有類別候選、列對(duì)之間所對(duì)應(yīng)的所有關(guān)系候選與知識(shí)圖譜中預(yù)先統(tǒng)計(jì)的類別與關(guān)系之間的關(guān)聯(lián)度信息來給出表格的語義模式組合候選的置信度評(píng)分,并通過采用排序連接算法來快速生成高質(zhì)量語義模式候選。架構(gòu)模式示意圖如圖1所示。
語義模式評(píng)分模型:通常一個(gè)表格的整體語義模式候選包含了列的類別候選與列之間的關(guān)系候選,因此計(jì)算表格語義模式候選則需要考慮到所有類別候選集與關(guān)系候選集之間的卡爾積。顯然,當(dāng)一個(gè)表格具有m個(gè)列、每個(gè)列和關(guān)系有Top4個(gè)候選時(shí),其復(fù)雜度為o。因此,計(jì)算表格模式的所有候選集是不可接受的,并且對(duì)于眾包的驗(yàn)證代價(jià)也是非常高昂的。然而,不是所有的候選組合都有意義,因此,需要一個(gè)有效的方法來對(duì)表格模式的候選集進(jìn)行評(píng)分排序,以便為后續(xù)的眾包驗(yàn)證任務(wù)能夠快速生成Top4個(gè)模式候選。對(duì)于表格的一個(gè)直觀的模式候選評(píng)分方法是將此表格中所有列的對(duì)應(yīng)類別的TF-IDF值與所有列之間對(duì)應(yīng)關(guān)系的TF-IDF值相加獲得,如下公式(1)所示:?
(1)
三、關(guān)系敏感嵌入式技術(shù)的知識(shí)圖譜擴(kuò)展
基于關(guān)系敏感的嵌入技術(shù),并將知識(shí)圖譜中離散的知識(shí)表示嵌入到了連續(xù)的向量空間中。本文的RESA方法在執(zhí)行嵌入過程中不僅考慮了實(shí)體與關(guān)系間的關(guān)聯(lián)度,而且還考慮了關(guān)系之間的關(guān)聯(lián)影響。此外,本文還提出了兩種關(guān)聯(lián)度函數(shù)來評(píng)估關(guān)系之間的關(guān)聯(lián)程度,并設(shè)計(jì)了一個(gè)動(dòng)態(tài)聚類算法將高度關(guān)聯(lián)的關(guān)系聚合到同一組中。最后,在兩組基準(zhǔn)測試數(shù)據(jù)集上,通過與目前最先進(jìn)的多個(gè)模型進(jìn)行大量的對(duì)比實(shí)驗(yàn)來證明了本文提出的RESA能夠有效地對(duì)知識(shí)圖譜進(jìn)行缺失事實(shí)預(yù)測與錯(cuò)誤事實(shí)檢測等任務(wù)。
關(guān)系敏感嵌入式模型的體系架構(gòu):關(guān)系表示模塊:在RESA模型中,首先需要對(duì)知識(shí)圖譜中的關(guān)系進(jìn)行預(yù)處理,然后通過定義的關(guān)聯(lián)度函數(shù)來評(píng)估關(guān)聯(lián)度較高的關(guān)系。基于概率的方法是通過將知識(shí)圖譜中關(guān)系間的頭尾實(shí)體共同出現(xiàn)的概率作為其評(píng)價(jià)標(biāo)準(zhǔn)來計(jì)箅兩個(gè)關(guān)系間的互信息強(qiáng)度、并以此作為關(guān)系的關(guān)聯(lián)度?;谙蛄康姆椒▌t是通過對(duì)知識(shí)圖譜中的實(shí)體預(yù)先訓(xùn)練好其詞向量模型,并通過關(guān)系的頭尾實(shí)體間的向量計(jì)算來表就其對(duì)應(yīng)的關(guān)系后,采用余弦相似度來評(píng)估兩個(gè)關(guān)系的關(guān)聯(lián)度。?
關(guān)聯(lián)關(guān)系聚合模塊:接下來則需要發(fā)掘知識(shí)圖譜中:高度關(guān)聯(lián)的關(guān)系并將它們聚到一起,以便在訓(xùn)練模型過程中能夠引入相互的影響力。因此,在此模塊中通過采用動(dòng)態(tài)聚類算法與先前定義的關(guān)系關(guān)聯(lián)函數(shù)對(duì)知識(shí)圖譜中的關(guān)系進(jìn)行聚類來發(fā)現(xiàn)高度關(guān)聯(lián)的關(guān)系,并為每一組中的每個(gè)關(guān)系預(yù)先計(jì)算并保存栢關(guān)關(guān)系對(duì)其獅程度。
四、總結(jié)
一種基于關(guān)系敏感嵌入式方法的RSEA模型來對(duì)知識(shí)圖譜中離散的事實(shí)三元組進(jìn)行了連續(xù)向量空間上的映射過程,并通過事實(shí)三元組所對(duì)應(yīng)的向量計(jì)算實(shí)現(xiàn)了對(duì)知識(shí)圖譜更加準(zhǔn)確的推理目的,包括了對(duì)錯(cuò)誤事實(shí)的檢測任務(wù)與缺失事實(shí)的預(yù)測任務(wù)。另外,通過兩種不同的視角刻畫了關(guān)系之間的關(guān)聯(lián)性,并給出了兩種關(guān)系關(guān)聯(lián)函數(shù),即基于概率的關(guān)聯(lián)度函數(shù)與基于向量的關(guān)聯(lián)度函數(shù),來有效地度量了兩個(gè)關(guān)系之間的距離。
參考文獻(xiàn):
[1]錢玲飛,崔曉蕾.基于數(shù)據(jù)增強(qiáng)的領(lǐng)域知識(shí)圖譜構(gòu)建方法研究[J].現(xiàn)代情報(bào),2022,42(03):31-39.
[2]郭欣彤. 大規(guī)模知識(shí)圖譜的查詢處理技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2021.
[3]趙宇. 知識(shí)圖譜自動(dòng)演進(jìn)算法研究[D].北京郵電大學(xué),2017.
[4]李葉葉,李賀,沈旺,曹陽,涂敏.基于多源異構(gòu)數(shù)據(jù)挖掘的在線評(píng)論知識(shí)圖譜構(gòu)建[J].情報(bào)科學(xué),2022,40(02):65-73.