• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      知識(shí)圖譜綜述
      ——表示、構(gòu)建、推理與知識(shí)超圖理論

      2021-09-09 08:09:20張謹(jǐn)川張晉豪周望濤
      計(jì)算機(jī)應(yīng)用 2021年8期
      關(guān)鍵詞:圖譜實(shí)體語義

      田 玲,張謹(jǐn)川,張晉豪,周望濤,周 雪

      (1.電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,成都 611731;2.電子科技大學(xué)信息與軟件工程學(xué)院,成都 610054)

      0 引言

      隨著計(jì)算機(jī)科學(xué)相關(guān)領(lǐng)域研究的不斷深入,人工智能的研究重心由感知智能轉(zhuǎn)向認(rèn)知智能。專家系統(tǒng)和語義網(wǎng)絡(luò)作為認(rèn)知智能的早期代表,提出“將知識(shí)引入人工智能領(lǐng)域”,在某些特定領(lǐng)域具備一定的問題解決能力,但仍存在規(guī)模較小、自動(dòng)化構(gòu)建能力不足、知識(shí)獲取困難等一系列問題。

      知識(shí)圖譜(Knowledge Graph,KG)的出現(xiàn),改變了傳統(tǒng)的知識(shí)獲取模式,將知識(shí)工程“自上而下”方式轉(zhuǎn)變?yōu)橥诰驍?shù)據(jù)、抽取知識(shí)的“自下而上”方式。經(jīng)過長期的理論創(chuàng)新與實(shí)踐探索,知識(shí)圖譜已經(jīng)具備體系化的構(gòu)建與推理方法。然而,對(duì)于實(shí)體關(guān)系,知識(shí)圖譜雖然有較強(qiáng)的建模能力,但難以表達(dá)普遍存在的多元關(guān)系。知識(shí)超圖通過引入超邊關(guān)系,能夠完整表達(dá)各種復(fù)雜的關(guān)系類型,得到學(xué)術(shù)界和工業(yè)界的高度關(guān)注。此外,知識(shí)圖譜和知識(shí)超圖能夠結(jié)合深度學(xué)習(xí)(Deep Learning,DL)等人工智能技術(shù),實(shí)現(xiàn)高效推理。

      1 知識(shí)圖譜基本概念

      本章將從知識(shí)圖譜定義引入,介紹知識(shí)圖譜的發(fā)展歷程、常見的知識(shí)圖譜分類以及知識(shí)圖譜的邏輯架構(gòu)。

      1.1 知識(shí)圖譜定義與發(fā)展歷程

      知識(shí)圖譜在維基百科中的定義是:使用語義檢索,從多種來源收集信息,以提高搜索質(zhì)量的知識(shí)庫[1]。本質(zhì)上,知識(shí)圖譜是真實(shí)世界中存在的各種實(shí)體、概念及其關(guān)系構(gòu)成的語義網(wǎng)絡(luò)圖,用于形式化地描述真實(shí)世界中各類事物及其關(guān)聯(lián)關(guān)系。

      如圖1所示,1965年,斯坦福大學(xué)的E.A.Feigenbaum提出專家系統(tǒng)(Expert System,ES)的概念,基于知識(shí)進(jìn)行決策,使人工智能的研究從推理算法主導(dǎo)轉(zhuǎn)變?yōu)橹R(shí)主導(dǎo)。

      圖1 知識(shí)圖譜發(fā)展歷程Fig.1 Development history of knowledge graph

      之后,在1968年,M.R.Quillian提出語義網(wǎng)絡(luò)(Semantic Network,SN)的知識(shí)表達(dá)模式,用相互連接的節(jié)點(diǎn)和邊來表示知識(shí),知識(shí)庫(Knowledge Base,KB)的構(gòu)建和知識(shí)表示(Knowledge Representation,KR)方法成為研究的熱點(diǎn)。

      1977年,在第五屆國際人工智能聯(lián)合會(huì)議上,E.A.Feigenbaum提出知識(shí)工程(Knowledge Engineering,KE)概念,以知識(shí)為處理對(duì)象,基于人工智能的原理、方法和技術(shù),研究如何用計(jì)算機(jī)表示知識(shí),進(jìn)行問題的求解。

      1989年,Tim Berners-Lee發(fā)明了萬維網(wǎng)(World Wide Web,WWW),并于1998年提出語義網(wǎng)(Semantic Web,SW)概念,將傳統(tǒng)人工智能的發(fā)展與萬維網(wǎng)結(jié)合,以資源描述框架(Resource Description Framework,RDF)為基礎(chǔ),在萬維網(wǎng)中應(yīng)用知識(shí)表示與推理方法。

      XML作為最早的語義網(wǎng)描述語言,以文檔為單位表示知識(shí),可以用于標(biāo)記數(shù)據(jù)和定義數(shù)據(jù)類型。通過XML,用戶可以自由地設(shè)計(jì)元素和屬性標(biāo)簽;但由于不能顯式地定義標(biāo)簽的語義約束,靈活、個(gè)性化的標(biāo)簽設(shè)置導(dǎo)致XML通用性差。

      1.2 知識(shí)圖譜分類

      本節(jié)將分別介紹早期知識(shí)庫、開放知識(shí)圖譜、中文常識(shí)知識(shí)圖譜和領(lǐng)域知識(shí)圖譜等。

      1.2.1 早期知識(shí)庫

      早期知識(shí)庫通常由相關(guān)領(lǐng)域?qū)<胰斯?gòu)建,準(zhǔn)確率和利用價(jià)值高,但存在構(gòu)建過程復(fù)雜、需要領(lǐng)域?qū)<覅⑴c、資源消耗大、覆蓋范圍小等局限。典型的早期知識(shí)庫包含WordNet[3]、ConceptNet[4]等。

      NER方法可分為基于規(guī)則、基于統(tǒng)計(jì)模型和基于神經(jīng)網(wǎng)絡(luò)三類,如表4所示。

      ConceptNet是一個(gè)常識(shí)知識(shí)庫,源于麻省理工學(xué)院媒體實(shí)驗(yàn)室在1999年創(chuàng)立的OMCS(Open Mind Common Sense)項(xiàng)目。ConceptNet采用了非形式化、類似自然語言的描述,側(cè)重于詞與詞之間的關(guān)系。ConceptNet以三元組形式的關(guān)系型知識(shí)構(gòu)成,已經(jīng)包含近2 800萬個(gè)關(guān)系描述。

      1.2.2 開放知識(shí)圖譜

      開放知識(shí)圖譜類似于開源社區(qū)的數(shù)據(jù)倉庫,允許任何人在遵循開源協(xié)議和開放性原則的前提下進(jìn)行自由的訪問、使用、修改和共享,典型代表為Freebase[5]、Wikidata[6]等。

      Freebase是MetaWeb從2005年開始研發(fā)的開放共享的大規(guī)模鏈接知識(shí)庫。Freebase作為Google知識(shí)圖譜的數(shù)據(jù)來源之一,包含多種話題和類型的知識(shí),包括人類、媒體、地理位置等信息。Freebase基于RDF三元組模型,底層采用圖數(shù)據(jù)庫存儲(chǔ),包含約4 400萬個(gè)實(shí)體,以及29億相關(guān)的事實(shí)。

      Wikidata是一個(gè)開放、多語言的大規(guī)模鏈接知識(shí)庫,由維基百科從2012年開始研發(fā)。Wikidata以三元組的形式存儲(chǔ)知識(shí)條目,其中每個(gè)三元組代表一個(gè)條目的陳述,例如“Beijing”的條目描述為“Beijing,isTheCapitalOf,China”。Wikidata包含超過2 470萬個(gè)知識(shí)條目。

      1.2.3 中文常識(shí)知識(shí)圖譜

      高臺(tái)縣羅城中型灌區(qū)屬于黑河下游中段中型自流灌區(qū),擔(dān)負(fù)著羅城鎮(zhèn)13個(gè)行政村87個(gè)自然社、總?cè)丝?.38萬人、0.38萬hm2耕地的灌溉任務(wù),灌區(qū)現(xiàn)有水庫4座,總庫容1 496.62萬m3。共有灌溉干渠渠道10條,長85.35 km,支渠渠道3條,長度8.02 km,斗渠274條,長度132.37 km。灌區(qū)依黑河沿岸布局,地下水位較高,地表鹽漬化嚴(yán)重。

      與英文百科數(shù)據(jù)相比,中文百科數(shù)據(jù)結(jié)構(gòu)更為多樣,語義內(nèi)涵更為豐富,且包含的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)有限,為知識(shí)圖譜的構(gòu)造提出了更大的挑戰(zhàn)。當(dāng)前,中文常識(shí)圖譜的主要代表為Zhishi.me[7]、CN-DBpedia[8]等。

      Zhishi.me采用與DBpedia類似的方法,從百度百科、互動(dòng)百科和維基百科中提取結(jié)構(gòu)化知識(shí),并通過固定的規(guī)則將它們之間的等價(jià)實(shí)體鏈接起來。Zhishi.me包含超過1 000萬個(gè)實(shí)體和1.25億個(gè)三元組。

      老大爺阿扁做的車輪不是自行車的車輪啦,那個(gè)時(shí)候還沒有自行車。那個(gè)時(shí)候的車輪還是木頭的。他在齊國給國君齊桓公做車輪。齊桓公當(dāng)時(shí)要稱霸,需要很多車馬,所以阿扁一天到晚都很忙。齊桓公也很專心地學(xué)習(xí)治國之道。

      CN-DBpedia是一個(gè)大規(guī)模的中文通用知識(shí)圖譜,由復(fù)旦大學(xué)于2015年開始研發(fā)。CN-DBpedia主要從中文百科類網(wǎng)站(如百度百科、互動(dòng)百科、中文維基百科等)中提取信息,并且對(duì)提取的知識(shí)進(jìn)行整合、補(bǔ)充和糾正,極大地提高了知識(shí)圖譜的質(zhì)量。CN-DBpedia包含940萬個(gè)實(shí)體和8 000萬個(gè)三元組。

      1.2.4 領(lǐng)域知識(shí)圖譜

      領(lǐng)域知識(shí)圖譜面向軍事、公安、交通、醫(yī)療等特定領(lǐng)域,用于復(fù)雜的應(yīng)用分析或輔助決策,具有專家參與度高、知識(shí)結(jié)構(gòu)復(fù)雜、知識(shí)質(zhì)量要求高、知識(shí)粒度細(xì)等特點(diǎn)。

      例如“星河”知識(shí)圖譜[9],作為一個(gè)軍事知識(shí)圖譜,具有暗網(wǎng)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、傳統(tǒng)數(shù)據(jù)庫、軍事書籍等多種數(shù)據(jù)來源?!靶呛印敝R(shí)圖譜按軍事事件類型和實(shí)體類型進(jìn)行劃分,包括88個(gè)國家和6大作戰(zhàn)空間的武器裝備,共10萬余裝備實(shí)體數(shù)據(jù)、330個(gè)軍事本體類別。

      分別稱取的空白樣品20.00 g,添加適量的樹莓酮標(biāo)準(zhǔn)溶液,使其濃度為1.0、2.0和10.0 μg/kg,每個(gè)濃度進(jìn)行6樣本分析,結(jié)果見表2。本方法的回收率為75.4%~82.3%,相對(duì)標(biāo)準(zhǔn)偏差為5.97%~8.40%。

      其余典型的領(lǐng)域知識(shí)圖譜還包括IBM Watson Health醫(yī)療知識(shí)圖譜[10]、海致星圖金融知識(shí)圖譜[11]、海信“交管云腦”交通知識(shí)圖譜[12]等。

      1.3 知識(shí)圖譜架構(gòu)

      知識(shí)圖譜在邏輯架構(gòu)層面可分為模式層和數(shù)據(jù)層,如表1所示。

      表1 知識(shí)圖譜邏輯結(jié)構(gòu)Tab.1 Logical structureof knowledgegraph

      1.3.1 知識(shí)圖譜模式層

      應(yīng)力控制下的肢體創(chuàng)傷修復(fù)、畸形矯正與再生重建,是21世紀(jì)骨科學(xué)發(fā)展的大趨勢,中國在這個(gè)新興學(xué)科領(lǐng)域已經(jīng)由跟跑者成為領(lǐng)跑者之一。秦泗河教授牽頭申辦成功“第六屆世界外固定肢體延長與重建大會(huì)”主辦權(quán)(2023-北京),屆時(shí)將有上百個(gè)國家的代表匯集北京共鑲盛會(huì)。為在這個(gè)學(xué)科領(lǐng)域培育國際化青年俊才,推動(dòng)中國四肢矯形骨科在世界上的地位,秦泗河教授決定,在全國范圍招收青年骨科進(jìn)修醫(yī)生。

      1.3.2 知識(shí)圖譜數(shù)據(jù)層

      數(shù)據(jù)層是以事實(shí)(Fact)三元組等知識(shí)為單位,存儲(chǔ)具體的數(shù)據(jù)信息。知識(shí)圖譜一般以三元組G={E,R,F(xiàn)}的形式表示。其中,E表示實(shí)體集合{e1,e2,…,eE},實(shí)體e是知識(shí)圖譜中最基本的組成元素,指代客觀存在并且能夠相互區(qū)分的事物,可以是具體的人、事、物,也可以是抽象的概念。R表示關(guān)系集合{r1,r2,…,rR},關(guān)系r是知識(shí)圖譜中的邊,表示不同實(shí)體間的某種聯(lián)系。F表示事實(shí)集合{f1,f2,…,fF},每一個(gè)事實(shí)f又被定義為一個(gè)三元組(h,r,t)∈f。其中,h表示頭實(shí)體,r表示關(guān)系,t表示尾實(shí)體。例如,事實(shí)的基本類型可以用三元組表示為(實(shí)體,關(guān)系,實(shí)體)和(實(shí)體,屬性,屬性值)等。

      其中,早期的NER方法一般是基于規(guī)則的方法和基于統(tǒng)計(jì)模型的方法。

      (實(shí)體,關(guān)系,實(shí)體)三元組可以表示為有向圖結(jié)構(gòu),以單向箭頭表示非對(duì)稱關(guān)系,以雙向箭頭表示對(duì)稱關(guān)系。具體示例如圖2所示,實(shí)體“Arthur”與實(shí)體“Carl”間存在“ColleagueOf(同事)”對(duì)稱關(guān)系;實(shí)體“Carl”與實(shí)體“Barry”存在“HasChild(父子)”非對(duì)稱關(guān)系。

      本研究中顯示:血脂異常、吸煙和冠心病家族史均為年輕心肌梗塞的主要危險(xiǎn)因素,這表明年輕心肌梗塞患者的危險(xiǎn)因素不同于中老年人,如果有冠心病家族史,通過調(diào)整正常的作息方式和良好的飲食習(xí)慣來控制血脂異常,有吸煙史的立即戒煙,會(huì)在一定程度上預(yù)防對(duì)心肌梗塞的發(fā)生。

      圖2 三元組示例1 Fig.2 Tripleexample1

      (實(shí)體,屬性,屬性值)三元組可以表示為有向圖結(jié)構(gòu),單向箭頭表示實(shí)體的屬性,由實(shí)體指向?qū)傩灾怠>唧w示例如圖3所示,實(shí)體“Barry”的屬性有“DateOfBirth(出生日期)”等。其中,“DateOfBirth”屬性值為“2012.12.31”。

      總體而言,知識(shí)圖譜可以看作是事實(shí)的結(jié)構(gòu)化表征,包括事實(shí)的實(shí)體、關(guān)系、屬性以及語義描述。

      2 知識(shí)表示與存儲(chǔ)

      知識(shí)表示與存儲(chǔ)是知識(shí)圖譜構(gòu)建、管理和應(yīng)用的基礎(chǔ)?,F(xiàn)代知識(shí)圖譜基于海量的互聯(lián)網(wǎng)數(shù)據(jù),規(guī)模日益增長,對(duì)知識(shí)的高效表示和有效存儲(chǔ)提出了新的挑戰(zhàn)。本章將分析介紹現(xiàn)有的知識(shí)表示方法與存儲(chǔ)方式。

      2.1 知識(shí)表示

      知識(shí)圖譜中,知識(shí)表示是一種對(duì)知識(shí)的描述方式,利用信息技術(shù)將真實(shí)世界中的海量信息轉(zhuǎn)化為符合計(jì)算機(jī)處理模式的結(jié)構(gòu)化數(shù)據(jù)。

      如表2所示,早期的知識(shí)表示方法有一階邏輯(First-Order Logic,F(xiàn)OL)[13]、霍恩邏輯(Horn Logic,HL)[14]、語義網(wǎng)絡(luò)(SN)[15]、產(chǎn)生式規(guī)則(Production Rules,PR)[16]、框架系統(tǒng)(Frame Systems,F(xiàn)S)[17]、腳本理論(Script Theory,ST)[18]等。隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展和語義網(wǎng)SW的提出,需要用于面向語義網(wǎng)知識(shí)表示的標(biāo)準(zhǔn)語言。因此,萬維網(wǎng)聯(lián)盟(W 3C)提出了XML(eXtensible Markup Language)[19]、RDF[20]、RDFS(RDF Schema)[21]和OWL(Web Ontology Language)[22]描述語言。

      模式層在數(shù)據(jù)層之上,是知識(shí)圖譜的核心。主要內(nèi)容為知識(shí)的數(shù)據(jù)結(jié)構(gòu),包括實(shí)體(Entity)、關(guān)系(Relation)、屬性(Attribute)等知識(shí)類的層次結(jié)構(gòu)和層級(jí)關(guān)系定義,約束數(shù)據(jù)層的具體知識(shí)形式。在復(fù)雜的知識(shí)圖譜中,一般通過額外添加規(guī)則或公理表示更復(fù)雜的知識(shí)約束關(guān)系。

      通過支架合理工作阻力及支架結(jié)構(gòu)優(yōu)化,最終確定6上109待采工作面換用當(dāng)時(shí)國內(nèi)外首套最大工作阻力的ZF21000/25/45D 四柱放頂煤支架。

      表2 早期知識(shí)表示方法對(duì)比Tab.2 Comparison of early knowledge representation methods

      2012年,Google提出知識(shí)圖譜概念[2]。不同于傳統(tǒng)專家系統(tǒng)和知識(shí)工程主要依靠手工獲取知識(shí)的方式,知識(shí)圖譜作為新時(shí)代的知識(shí)工程技術(shù),以RDF三元組和屬性圖表示知識(shí),數(shù)據(jù)規(guī)模巨大,需要使用機(jī)器學(xué)習(xí)(Machine Learning,ML)、自然語言處理(Natural Language Processing,NLP)等技術(shù)進(jìn)行自動(dòng)化的圖譜構(gòu)建。

      RDF提供一個(gè)統(tǒng)一的標(biāo)準(zhǔn)以“主體(Subject)-謂詞(Predicate)-賓語(Object)”的SPO三元組來描述實(shí)體和資源。RDF可以表示為有向圖結(jié)構(gòu),其中謂詞作為邊,可以是連接主體和賓語的關(guān)系或是連接主體和數(shù)據(jù)的屬性等;但RDF中缺乏對(duì)類和屬性的明確定義,抽象能力不足。

      RDFS可以看作RDF的拓展,在RDF的基礎(chǔ)上,對(duì)RDF中的類、屬性及關(guān)系提供了模式定義,為RDF提供了數(shù)據(jù)模型和簡單的約束規(guī)則;但RDFS只能聲明子類關(guān)系,無法對(duì)互斥類、多個(gè)類或?qū)嵗M(jìn)行聲明。

      以某企業(yè)實(shí)際立體倉庫為研究對(duì)象,運(yùn)用MATLAB編程并仿真,驗(yàn)證同軌雙車貨位分配模型的適用性及EMBBO算法的優(yōu)越性。

      OWL則是在RDFS的基礎(chǔ)上,針對(duì)復(fù)雜場景,添加了額外的預(yù)定義詞匯來描述資源,如可以聲明數(shù)據(jù)的等價(jià)性、屬性的傳遞性、互斥性、函數(shù)性、對(duì)稱性等。

      然而,這些傳統(tǒng)的知識(shí)表示方法都是基于符號(hào)邏輯,能夠刻畫顯式、離散的知識(shí),卻不能表示真實(shí)世界中大量不易于用符號(hào)邏輯解釋的知識(shí),難以有效挖掘分析知識(shí)實(shí)體間的語義關(guān)系。

      參照《中藥新藥臨床研究指導(dǎo)原則》“中藥新藥治療慢性腎功能衰竭臨床研究指導(dǎo)原則”中的腎虛證及濕熱證兩種證候的診斷標(biāo)準(zhǔn)[9],擬定腎虛濕熱證的標(biāo)準(zhǔn)。主癥:腰酸膝軟,口中粘膩,肢體困重,納差,口干,口苦;次癥:乏力,脘腹脹滿不適,骨痛,惡心,嘔吐;舌苔脈象:舌質(zhì)紅苔黃膩或黃厚,脈濡數(shù);診斷條件:主癥必備,次癥或兼,結(jié)合舌脈。

      2.2 知識(shí)存儲(chǔ)

      隨著信息時(shí)代數(shù)據(jù)量的爆炸式增長,知識(shí)圖譜的規(guī)模日益增大,對(duì)知識(shí)的管理和存儲(chǔ)提出了更高的要求。

      知識(shí)存儲(chǔ)的目的是確定合理高效的知識(shí)圖譜存儲(chǔ)方式?,F(xiàn)有研究中,大部分知識(shí)圖譜都是基于圖的數(shù)據(jù)結(jié)構(gòu),如表3所示,主要的存儲(chǔ)方式有三種:RDF數(shù)據(jù)庫、傳統(tǒng)關(guān)系型數(shù)據(jù)庫(Relational Database,RDB)存 儲(chǔ) 和 圖 數(shù) 據(jù) 庫(Graph Database,GDB)存儲(chǔ)。

      4.平茬。如果所培育的大苗干形成不合要求,長勢不旺,或地上部分遭到嚴(yán)重?fù)p傷,可在春季發(fā)芽前,齊地面進(jìn)行平茬,以使重新長出端直強(qiáng)壯的主干。平茬時(shí)要求切口光滑,有利于傷口愈合和萌生枝條。平茬后覆蓋3—5厘米的土,以防止水分蒸發(fā)和傷口干燥,當(dāng)萌條長出后,要及時(shí)定干。

      表3 知識(shí)存儲(chǔ)方式對(duì)比Tab.3 Comparison of knowledge storage methods

      2.2.1 RDF數(shù)據(jù)庫

      RDF數(shù)據(jù)庫存儲(chǔ)就是將組成RDF數(shù)據(jù)集的三元組抽象為圖的形式存儲(chǔ)數(shù)據(jù)。其優(yōu)點(diǎn)是圖結(jié)構(gòu)描述直觀,可以最大限度保持RDF數(shù)據(jù)的語義信息,易于數(shù)據(jù)的共享和發(fā)布;但是RDF不包含實(shí)體的屬性信息、所需存儲(chǔ)空間大,沒有圖查詢相應(yīng)引擎,導(dǎo)致查詢和搜索效率低下,且在處理新增數(shù)據(jù)時(shí)需要重構(gòu)整個(gè)圖。目前學(xué)術(shù)界主要的開源RDF數(shù)據(jù)庫包括:Jena[23]、RDF4J[24]和gStore[25]等。

      2.2.2 關(guān)系型數(shù)據(jù)庫

      RDB發(fā)展歷史久遠(yuǎn),理論體系成熟,是知識(shí)圖譜存儲(chǔ)的常用方式。RDB使用三元組、水平表、屬性表、垂直劃分和六重索引等建表方式存儲(chǔ)知識(shí)三元組,知識(shí)存儲(chǔ)和查詢效率都比較高;但是在進(jìn)行深度的關(guān)聯(lián)關(guān)系查詢或多跳查詢時(shí)效率較低,且難以處理實(shí)時(shí)的關(guān)系查詢。目前主流的開源RDB有PostgreSQL[26]和MySQL[27]等。

      2.2.3 圖數(shù)據(jù)庫

      GDB是一種非關(guān)系型數(shù)據(jù)庫,基于GDB的存儲(chǔ)是目前知識(shí)存儲(chǔ)的主流方式。其優(yōu)點(diǎn)是以節(jié)點(diǎn)和邊表示數(shù)據(jù),明確地列出了數(shù)據(jù)節(jié)點(diǎn)間的依賴關(guān)系,具有完善的圖查詢語言且支持各種圖挖掘算法,在深度關(guān)聯(lián)查詢速度上優(yōu)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫;但由于分布式存儲(chǔ)特性,資源消耗大。典型的GDB有Neo4j[28]、JanusGraph[29]和HugeGraph[30]等。

      3 知識(shí)圖譜構(gòu)建技術(shù)

      構(gòu)建大規(guī)模、高質(zhì)量的通用知識(shí)圖譜或基于行業(yè)數(shù)據(jù)的領(lǐng)域知識(shí)圖譜,實(shí)現(xiàn)大量知識(shí)的準(zhǔn)確抽取和快速聚合,需要運(yùn)用多種高效的知識(shí)圖譜構(gòu)建技術(shù)。

      如圖4所示,知識(shí)圖譜是通過知識(shí)抽?。↘nowledge Extraction,KE)、知識(shí)融合(Knowledge Fusion,KF)、知識(shí)加工(Knowledge Processing,KP)和知識(shí)更新(Knowledge Update,KU)等構(gòu)建技術(shù),從原始數(shù)據(jù)(包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))和外部知識(shí)庫中抽取知識(shí)事實(shí)。根據(jù)知識(shí)的語義信息進(jìn)行知識(shí)的融合、加工,再通過知識(shí)更新技術(shù)保障知識(shí)圖譜的時(shí)效性,最終得到完整的知識(shí)圖譜。本章將對(duì)這些構(gòu)建技術(shù)及相關(guān)方法進(jìn)行闡述。

      圖4 知識(shí)圖譜構(gòu)建技術(shù)流程Fig.4 Flowchart of knowledgegraph construction technique

      3.1 知識(shí)抽取

      知識(shí)抽取是知識(shí)圖譜構(gòu)建的首要任務(wù),通過自動(dòng)化或半自動(dòng)化的知識(shí)抽取技術(shù),從原始數(shù)據(jù)中獲得實(shí)體、關(guān)系及屬性等可用知識(shí)單元,為知識(shí)圖譜的構(gòu)建提供知識(shí)基礎(chǔ)。

      早期知識(shí)抽取主要是基于規(guī)則的知識(shí)抽取,通過人工預(yù)先定義的知識(shí)抽取規(guī)則,實(shí)現(xiàn)從文本中抽取知識(shí)的三元組信息;但是這種傳統(tǒng)方法主要依賴具備領(lǐng)域知識(shí)的專家手工定義規(guī)則,當(dāng)數(shù)據(jù)量增大時(shí),規(guī)則構(gòu)建耗時(shí)長、可移植性差,難以應(yīng)對(duì)數(shù)據(jù)規(guī)模龐大的知識(shí)圖譜構(gòu)建。

      相比早期基于規(guī)則的知識(shí)抽取,基于神經(jīng)網(wǎng)絡(luò)的知識(shí)抽取將文本作為向量輸入,能夠自動(dòng)發(fā)現(xiàn)實(shí)體、關(guān)系和屬性特征,適用于處理大規(guī)模知識(shí),已成為知識(shí)抽取的主流方法。本節(jié)將以關(guān)系抽?。≧elation Extraction,RE)為核心,介紹知識(shí)抽取的三類主要任務(wù)。

      由于市場環(huán)境的變化也會(huì)導(dǎo)致工程造價(jià)預(yù)算的精準(zhǔn)度,所以要加強(qiáng)市場環(huán)境的預(yù)測管理。作為建筑企業(yè)應(yīng)該要求預(yù)算人員做好對(duì)市場環(huán)境隨時(shí)發(fā)生變化的預(yù)測,加強(qiáng)對(duì)各種原材料的價(jià)格因市場環(huán)境發(fā)生變化的預(yù)測分析,為建筑工程選擇原材料價(jià)格提供依據(jù)。

      3.1.1 實(shí)體識(shí)別

      不過觀察上證50和白馬股,會(huì)發(fā)現(xiàn)二者的關(guān)聯(lián)度還是很高,在道指創(chuàng)出新低之際,上證50也結(jié)束一個(gè)季度的盤整開始新一輪探底。我們認(rèn)為這種現(xiàn)象主要與A股國際化有關(guān),2017年納入MSCI后A股與國際主要市場逐步接軌,上證50成為外資重點(diǎn)配置的方向,理論上兩個(gè)指數(shù)里面的資金屬性是一樣的。

      實(shí)體識(shí)別即命名實(shí)體識(shí)別(Named Entity Recognition,NER),是自然語言處理和知識(shí)圖譜領(lǐng)域的基礎(chǔ)任務(wù)。其目的是從海量的原始數(shù)據(jù)(如文本)中準(zhǔn)確提取人物、地點(diǎn)、組織等命名實(shí)體信息。實(shí)體識(shí)別的準(zhǔn)確率影響了后續(xù)的關(guān)系抽取等任務(wù),決定了知識(shí)圖譜構(gòu)建的質(zhì)量。

      WordNet是由普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室從1985年開始開發(fā)的詞典知識(shí)庫,主要用于詞義消歧。WordNet主要定義了名詞、動(dòng)詞、形容詞和副詞之間的語義關(guān)系。例如名詞之間的上下位關(guān)系中,“Canine”是“Dog”的上位詞。WordNet包含超過15萬個(gè)詞和20萬個(gè)語義關(guān)系。

      表4 命名實(shí)體識(shí)別方法對(duì)比Tab.4 Comparison of named entity recognition methods

      在事實(shí)中,實(shí)體一般指特定的對(duì)象或事物,如具體的某個(gè)國家或某本書籍等;關(guān)系表示實(shí)體間的某種外在聯(lián)系,屬性和屬性值表示一個(gè)實(shí)體或概念特有的參數(shù)名和參數(shù)值。

      基于規(guī)則的方法通過專家手工構(gòu)建規(guī)則集,將文本等數(shù)據(jù)與規(guī)則集匹配來得到命名實(shí)體信息。該方法在處理小規(guī)模的知識(shí)圖譜時(shí)精度較高,但是隨著知識(shí)圖譜規(guī)模的增大,規(guī)則構(gòu)建困難,且由于規(guī)則基于人工構(gòu)建,難以進(jìn)行大規(guī)模擴(kuò)展并應(yīng)用于不同領(lǐng)域的知識(shí)圖譜。

      基于統(tǒng)計(jì)模型的方法將NER作為序列標(biāo)注問題,以完全或部分標(biāo)注的語料進(jìn)行模型訓(xùn)練。常見的統(tǒng)計(jì)模型有條件馬爾可夫模型(Conditional Markov Model,CMM)[31]、隱馬爾可夫(Hidden Markov Model,HMM)[32]、條件隨機(jī)場(Conditional Random Fields,CRF)[33]和最大熵(Maximum Entropy,ME)[34]等。基于統(tǒng)計(jì)模型的方法在構(gòu)建一個(gè)新的領(lǐng)域知識(shí)圖譜時(shí)需要做的改動(dòng)較少,通用性強(qiáng);但是統(tǒng)計(jì)模型的狀態(tài)搜索空間龐大、訓(xùn)練時(shí)間長,高度依賴特征選取和語料庫,難以從海量數(shù)據(jù)中發(fā)現(xiàn)復(fù)雜且隱含的關(guān)鍵特征。

      經(jīng)過三個(gè)晝夜的苦思冥想,甲洛洛把希望寄托在了自己身上,他決定不惜一切代價(jià),自己去偵查誰是小偷,并根據(jù)以下情況列了排序:

      由于深度學(xué)習(xí)能夠自動(dòng)地從數(shù)據(jù)中學(xué)習(xí)復(fù)雜的隱藏特征,所需的領(lǐng)域?qū)I(yè)知識(shí)和經(jīng)驗(yàn)知識(shí)較少,基于神經(jīng)網(wǎng)絡(luò)的NER已成為目前主流方法,主要模型有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和 循 環(huán) 神 經(jīng) 網(wǎng) 絡(luò)(Recurrent Neural Network,RNN)等。

      Collobert等[35]最先提出使用卷積層提取句子的局部特征并構(gòu)造全局特征向量?;谶@項(xiàng)工作,Strubell等[36]提出了IDCNN,相較于傳統(tǒng)的CNN,在大量的文本和結(jié)構(gòu)化數(shù)據(jù)預(yù)測中具有更好的性能。Huang等[37]提出使用長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、雙 向 長 短 時(shí) 記 憶 網(wǎng) 絡(luò)(Bidirectional Long Short-Term Memory,Bi-LSTM)等模型進(jìn)行序列標(biāo)注,能夠有效利用序列的上下文信息。?ukov-Gregori?等[38]則是在先前研究的基礎(chǔ)上,使用多個(gè)獨(dú)立的Bi-LSTM分布計(jì)算進(jìn)行實(shí)體識(shí)別,減少了參數(shù)總數(shù)。楊飄等[39]針對(duì)中文NER普遍存在無法表征字的多義性問題,通過嵌入BERT(Bidirectional Encoder Representation from Transformers)預(yù)訓(xùn)練語言模型,構(gòu)建BERT-BiGRU(Bidirectional Gated Recurrent Unit networks)-CRF模型表征語句的特征,有效提升中文NER效果。

      此外,還有一些基于神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型,如Lin等[40]提出了“實(shí)體觸發(fā)器(Entity Trigger,ET)”概念,針對(duì)NER問題作出解釋性注釋,通過觸發(fā)器匹配網(wǎng)絡(luò)(Trigger Matching Network,TMN)對(duì)ET進(jìn)行編碼,提高實(shí)體標(biāo)記的有效性,減少了NER人工注釋的成本。

      3.1.2 關(guān)系抽取

      關(guān)系抽?。≧E)是知識(shí)圖譜領(lǐng)域的研究重點(diǎn),也是知識(shí)抽取中的核心內(nèi)容。通過獲取實(shí)體之間的某種語義關(guān)系或關(guān)系的類別,自動(dòng)識(shí)別實(shí)體對(duì)及聯(lián)系這一對(duì)實(shí)體的關(guān)系所構(gòu)成的三元組[41]。

      近年來,RE研究大多是基于神經(jīng)網(wǎng)絡(luò)方法,主要包括基于CNN、基于RNN、基于注意力機(jī)制(ATTention mechanism,ATT)、基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)、基于對(duì)抗訓(xùn)練(Adversarial Training,AT)、基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的RE以及實(shí)體-關(guān)系聯(lián)合抽?。↗oint Entity and Relation Extraction,JERE)。

      1)基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取。

      近年來,基于深度學(xué)習(xí)的知識(shí)表示學(xué)習(xí)(Knowledge Representation Learning,KRL)在語音識(shí)別、圖像分析和自然語言處理領(lǐng)域得到廣泛關(guān)注。知識(shí)表示學(xué)習(xí)面向知識(shí)庫實(shí)體和關(guān)系,通過將研究對(duì)象(如三元組)中的語義信息投影到稠密的低維向量空間,實(shí)現(xiàn)對(duì)實(shí)體和關(guān)系語義信息的分布式表示,能夠高效地計(jì)算實(shí)體、關(guān)系間的復(fù)雜語義關(guān)系,易于深度學(xué)習(xí)模型的集成。

      CNN通過將嵌入表示和文本信息等數(shù)據(jù)組織為類似圖像的二維結(jié)構(gòu),使用卷積核提取特征信息并用于關(guān)系抽取。

      賢莊村片區(qū)水力主要是確定水泵型號(hào)后,管道輸水能力的復(fù)核。選定水泵設(shè)計(jì)流量為192 m3/h。流量調(diào)整后管線的水頭損失為14.2 m,管道地形沿程為55 m,考慮出水口剩余水頭為2.0 m,確定調(diào)整流量后輸水系統(tǒng)輸水損失為71.2 m,小于水泵額定揚(yáng)程73 m。

      針對(duì)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的關(guān)系抽取方法過度依賴提取的特征質(zhì)量問題,Zeng等[42]首次提出使用CNN提取單詞和句子級(jí)特征,形成特征向量預(yù)測關(guān)系分類。之后,Nguyen等[43]提出多窗口CNN研究語料庫不平衡情況下的關(guān)系抽取。PATMR[44]使用分段CNN(Piecewise CNN,PCNN)對(duì)每個(gè)句子編碼,挖掘未標(biāo)記語料庫的相互關(guān)系,結(jié)合實(shí)體類型與隱式關(guān)系進(jìn)行關(guān)系抽取。

      CNN方法為基于深度學(xué)習(xí)的關(guān)系抽取提供了思路,后續(xù)很多基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法都利用CNN提取單詞和句子的特征。

      2)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取。

      RNN可以很好地利用內(nèi)部的記憶機(jī)制處理時(shí)序相關(guān)信息,適用于處理和表示短語及句子的組合向量。

      Socher等[45]首次提出基于RNN的語義合成模型MVRNN,學(xué)習(xí)任意長度的組合向量表示并用于名詞間因果或主題信息等語義關(guān)系分類。此外,SDP-LSTM(Shortest Dependency Path with LSTM)[46]利用實(shí)體間的最短依賴路徑保留最相關(guān)信息,并使用多通道RNN對(duì)句子中的實(shí)體關(guān)系分類。Geng等[47]使用雙向樹形LSTM提取基于句子依存關(guān)系樹的結(jié)構(gòu)特征,并使用雙向順序LSTM提取基于單詞的特征,將結(jié)構(gòu)特征與基于單詞的特征結(jié)合以優(yōu)化關(guān)系抽取性能。

      3)基于注意力機(jī)制的關(guān)系抽取。

      ATT能夠基于權(quán)重篩選上下文相關(guān)性強(qiáng)的信息,提高關(guān)系抽取的質(zhì)量。目前已有多種根據(jù)不同的ATT進(jìn)行關(guān)系抽取的方法。

      Attention-CNN[48]考慮文本中不同信息與實(shí)體的相關(guān)性,利用詞嵌入信息,將文本段編碼為語義信息,通過單詞級(jí)ATT確定句子中的哪些部分對(duì)實(shí)體影響最大。Lin等[49]針對(duì)關(guān)系抽取中摻雜錯(cuò)誤標(biāo)簽,導(dǎo)致抽取性能低下的問題,提出基于句子級(jí)ATT的關(guān)系抽取模型,通過CNN嵌入句子的語義信息,在多個(gè)實(shí)例上建立句子級(jí)ATT,減少噪聲的權(quán)重。針對(duì)如何有效選擇實(shí) 體,APCNNs(sentence-level Attention model based on PCNNs)[50]提出利用知識(shí)庫中的信息,基于句子級(jí)ATT,補(bǔ)充實(shí)體背景知識(shí)。此外,SeG(Selective Gate)[51]使用自注意力機(jī)制(Self-ATTention mechanism,SATT)獲取上下文的依存關(guān)系,與選擇性ATT相比,該方法即使在只有一個(gè)句子時(shí)也能穩(wěn)定抽取關(guān)系。

      4)基于圖卷積網(wǎng)絡(luò)的關(guān)系抽取。

      GCN可以捕捉圖的全局信息,具有很好的節(jié)點(diǎn)表示能力?;贕CN的關(guān)系抽取針對(duì)文本依存樹中各詞語的依存關(guān)系編碼,將關(guān)系知識(shí)編碼信息引入關(guān)系抽取,挖掘句子中更深層的語義信息。

      C-GCN(Contextualized GCN)[52]針對(duì)現(xiàn)有依存樹模型在不同結(jié)構(gòu)樹下計(jì)算效率低、剪枝導(dǎo)致忽視信息等問題,提出基于GCN和修剪依存樹的關(guān)系抽取方法。AGGCNs(Attention Guided GCNs)[53]針對(duì)如何有效選取依存樹中的相關(guān)信息問題,改進(jìn)現(xiàn)有的硬剪枝策略,將ATT和GCN結(jié)合,使用軟剪枝方法自動(dòng)選擇依存樹中的相關(guān)子結(jié)構(gòu)。SGCN(Selfdetermined GCN)[54]使用SATT確定加權(quán)圖,并使用GCN對(duì)自定義圖進(jìn)行編碼來完成關(guān)系抽取。

      5)基于對(duì)抗訓(xùn)練的關(guān)系抽取。

      基于神經(jīng)網(wǎng)絡(luò)的模型通常忽略了輸入數(shù)據(jù)中的噪聲,導(dǎo)致模型效果不佳。將對(duì)抗訓(xùn)練AT引入關(guān)系抽取,對(duì)訓(xùn)練數(shù)據(jù)產(chǎn)生對(duì)抗噪聲來優(yōu)化分類算法,能夠有效提升模型魯棒性。

      Wu等[55]首次提出在關(guān)系抽取中應(yīng)用AT策略,Wang等[56]在此基礎(chǔ)上,提出了AMNRE(Adversarial Multi-lingual Neural Relation Extraction),以AT策略保證對(duì)多種語言的句子表征,提取出語義一致的關(guān)系。馮沖等[57]使用生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN),將帶ATT的BiGRU與AT相融合,并引入因果關(guān)系解釋語句提高因果關(guān)系抽取效果。DSGAN(Distant Supervision GAN)[58]引入AT框架提升關(guān)系抽取性能。

      6)基于強(qiáng)化學(xué)習(xí)的關(guān)系抽取。

      強(qiáng)化學(xué)習(xí)(RL)是一類學(xué)習(xí)、預(yù)測和決策的方法框架,通過訓(xùn)練策略網(wǎng)絡(luò)選擇最優(yōu)實(shí)例,結(jié)合神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取。

      Qin等[59]提出了使用深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)策略產(chǎn)生假陽性指標(biāo),在沒有監(jiān)督信息的情況下自動(dòng)識(shí)別假陽性的關(guān)系類型。Takanobu等[60]針對(duì)現(xiàn)有大部分方法將實(shí)體識(shí)別和關(guān)系抽取分開,關(guān)系抽取可能存在重疊關(guān)系,提出HRL(Hierarchical RL),將實(shí)體識(shí)別和關(guān)系抽取分為兩級(jí)RL策略,提升了處理重疊關(guān)系時(shí)的性能。JRE_TRL(Joint entity and Relation Extraction model with Transformer and RL agent)[61]通過強(qiáng)化學(xué)習(xí)策略和獎(jiǎng)勵(lì)機(jī)制過濾噪聲句子并進(jìn)行關(guān)系分類。

      7)實(shí)體-關(guān)系聯(lián)合抽取。

      實(shí)體-關(guān)系聯(lián)合抽取旨在針對(duì)實(shí)體識(shí)別和關(guān)系抽取作為兩個(gè)串聯(lián)子任務(wù)時(shí)存在的錯(cuò)誤傳播問題,對(duì)實(shí)體和關(guān)系進(jìn)行聯(lián)合建模。能夠考慮到實(shí)體與關(guān)系間的語義相關(guān)性,有效解決關(guān)系重疊問題,減少誤差累積,提高知識(shí)抽取的整體效果。

      最早的實(shí)體-關(guān)系聯(lián)合抽取方法是Miwa等[62]提出的堆疊雙向樹型LSTM-RNNs模型,在考慮實(shí)體信息的情況下進(jìn)行關(guān)系抽取。本質(zhì)上,該方法的實(shí)體識(shí)別和關(guān)系抽取仍然是分離的,無關(guān)的實(shí)體輸入還導(dǎo)致了信息的冗余。對(duì)此,Zheng等[63]使用標(biāo)注機(jī)制,將聯(lián)合抽取轉(zhuǎn)換為標(biāo)注任務(wù),通過計(jì)算偏重?fù)p失提升實(shí)體標(biāo)簽間的相關(guān)性,實(shí)現(xiàn)聯(lián)合抽取。

      進(jìn)一步地,考慮實(shí)體標(biāo)簽間的長距離依賴關(guān)系,Zheng等[64]提出了一種混合模型,包括用于實(shí)體抽取的雙向編碼器-解碼器LSTM模型和用于關(guān)系分類的CNN模型,獲得單詞間的長距離交互關(guān)系和標(biāo)簽間的長距離依賴關(guān)系。陳仁杰等[65]提出FETI(Fusing Entity Type Information)模型,融合頭尾實(shí)體的類別信息,提升聯(lián)合抽取性能。

      此外,還有一些方法以元組形式進(jìn)行實(shí)體-關(guān)系聯(lián)合抽取。例如,Nayak等[66]使用編碼器-解碼器模型,通過關(guān)系元組表示方法聯(lián)合抽取實(shí)體和關(guān)系。

      綜上,基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法對(duì)比如表5所示。

      表5 基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法對(duì)比Tab.5 Comparison of relation extraction methodsbased on neural network

      3.1.3 屬性抽取

      屬性抽取是知識(shí)庫構(gòu)建和應(yīng)用的基礎(chǔ),通過從不同信息源的原始數(shù)據(jù)中抽取實(shí)體的屬性名和屬性值,構(gòu)建實(shí)體的屬性列表,形成完整的實(shí)體概念,實(shí)現(xiàn)知識(shí)圖譜對(duì)實(shí)體的全面刻畫。

      屬性抽取方法一般可分為傳統(tǒng)的監(jiān)督、無監(jiān)督和半監(jiān)督屬性抽取,基于神經(jīng)網(wǎng)絡(luò)的屬性抽取和其他類型(如元模式、多模態(tài)等)的屬性抽取。

      目前大部分屬性抽取是從文本數(shù)據(jù)中抽取信息。傳統(tǒng)方法中監(jiān)督學(xué)習(xí)的屬性抽取一般使用HMM和CRF等抽取屬性。Raju等[67]使用名詞聚類方式,從名詞類中抽取屬性。Shinzato等[68]則提出一種無監(jiān)督的屬性抽取方式,自動(dòng)對(duì)語料庫質(zhì)量進(jìn)行注釋,生成知識(shí)庫。

      基于神經(jīng)網(wǎng)絡(luò)的屬性抽取一般作為序列標(biāo)注任務(wù),使用序列標(biāo)注模型抽取文本中的屬性值。如Zhao等[69]基于BERT預(yù)訓(xùn)練模型,使用LSTM結(jié)合CRF的序列標(biāo)簽?zāi)P统槿∥谋局械膶傩浴?/p>

      基于元模式的屬性抽取如Jiang等[70]提出的MetaPAD,將類型化的文本模式結(jié)構(gòu)命名為元結(jié)構(gòu),可以在海量語料庫中發(fā)現(xiàn)元模式。在屬性抽取的場景中,能使用這種方法發(fā)現(xiàn)文本中高質(zhì)量的屬性描述語句,作為實(shí)體的屬性值。

      此外,Logan等[71]針對(duì)屬性抽取大部分是基于文本數(shù)據(jù)的現(xiàn)狀,提出了多模態(tài)屬性抽取(Multimodal Attribute Extraction,MAE)方法及數(shù)據(jù)集,實(shí)現(xiàn)對(duì)多種類型數(shù)據(jù)(如圖像、視頻、音頻等)的屬性抽取。

      3.2 知識(shí)融合

      知識(shí)融合是融合各個(gè)層面的知識(shí),包括融合不同知識(shí)庫的同一實(shí)體、多個(gè)不同的知識(shí)圖譜、多源異構(gòu)的外部知識(shí)等,并確定知識(shí)圖譜中的等價(jià)實(shí)例、等價(jià)類及等價(jià)屬性,實(shí)現(xiàn)對(duì)現(xiàn)有知識(shí)圖譜的更新。如表6所示,知識(shí)融合的主要任務(wù)包含實(shí) 體 對(duì) 齊(Entity Alignment,EA)和 實(shí) 體 消 歧(Entity Disambiguation,ED)。

      表6 知識(shí)融合主要任務(wù)Tab.6 Main tasksof knowledge fusion

      3.2.1 實(shí)體對(duì)齊

      實(shí)體對(duì)齊是知識(shí)融合階段的主要工作,旨在發(fā)現(xiàn)不同知識(shí)圖譜中表示相同語義的實(shí)體。一般而言,實(shí)體對(duì)齊方法可分為傳統(tǒng)概率模型、機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等類別。

      傳統(tǒng)概率模型基于屬性相似性關(guān)系,將實(shí)體對(duì)齊看作概率分類模型,根據(jù)相似度評(píng)分選擇對(duì)齊實(shí)體。常用的模型有CRF、馬爾可夫邏輯網(wǎng)絡(luò)(Markov Logic Network,MLN)和隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)等。

      基于機(jī)器學(xué)習(xí)的實(shí)體對(duì)齊將實(shí)體對(duì)齊問題看作二分類問題,可分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。在監(jiān)督學(xué)習(xí)實(shí)體對(duì)齊中,使用預(yù)先人工標(biāo)注部分來訓(xùn)練模型,對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行分類。如決策樹(Decision Tree,DT)、支持向量機(jī)(Support Vector Machine,SVM)等方法通過比較特征向量進(jìn)行實(shí)體對(duì)齊,或考慮實(shí)體的相似度,使相似實(shí)體聚類對(duì)齊,如Cohen等[72]提出的自適應(yīng)實(shí)體對(duì)齊和聚類技術(shù)。

      在神經(jīng)網(wǎng)絡(luò)方法中,基于嵌入的實(shí)體對(duì)齊將不同的知識(shí)圖譜表示為低維嵌入,并通過計(jì)算實(shí)體嵌入間的相似度來進(jìn)行實(shí)體對(duì)齊,是目前實(shí)體對(duì)齊方法的研究重點(diǎn)。

      Sun等[73]將實(shí)體對(duì)齊看作分類問題,提出基于嵌入的實(shí)體對(duì)齊Bootstrapping方法,將可能的實(shí)體對(duì)齊標(biāo)記并迭代添加到訓(xùn)練數(shù)據(jù)中,保證對(duì)齊的精度。Zhang等[74]針對(duì)實(shí)體對(duì)齊中實(shí)體特征沒有被發(fā)現(xiàn)或沒有被統(tǒng)一處理的問題,提出通過統(tǒng)一多個(gè)實(shí)體視圖來學(xué)習(xí)實(shí)體對(duì)齊嵌入的框架,并通過組合策略提升跨圖譜間實(shí)體對(duì)齊的性能。

      此外,Trisedya等[75]則是從學(xué)習(xí)不同圖譜中的實(shí)體間相似性出發(fā),提出兩個(gè)知識(shí)圖譜間的實(shí)體對(duì)齊框架,將實(shí)體嵌入和屬性嵌入結(jié)合,學(xué)習(xí)兩個(gè)圖譜的統(tǒng)一嵌入空間,提升實(shí)體對(duì)齊性能。車超等[76]提出基于屬性信息和雙向?qū)R的圖卷積模型(Bidirectional alignment Graph Convolutional Network with Attribution information,BiGCN-A),在實(shí)體對(duì)齊中融入屬性信息,并在對(duì)齊預(yù)測階段使用雙向?qū)R提高準(zhǔn)確率。

      3.2.2 實(shí)體消歧

      實(shí)體消歧是根據(jù)給定文本,消除不同文本中實(shí)體指稱的歧義(即一詞多義問題),將其映射到實(shí)際的實(shí)體上。

      根據(jù)有無目標(biāo)知識(shí)庫劃分,實(shí)體消歧主要有命名實(shí)體聚類消歧和命名實(shí)體鏈接消歧等方法。命名實(shí)體聚類消歧將所有的實(shí)體指稱與實(shí)際的目標(biāo)實(shí)體進(jìn)行聚類。命名實(shí)體鏈接消歧則是根據(jù)文本的上下文信息,將文本中的實(shí)體指稱鏈接到候選的實(shí)際目標(biāo)實(shí)體列表中。

      近年來,詞嵌入(Word Embedding,WE)在自然語言處理領(lǐng)域應(yīng)用廣泛,可以利用分布式低維向量中的語義特征消除文本中實(shí)體指稱的歧義。如Zuheros等[77]使用LSTM對(duì)目標(biāo)實(shí)體的上下文信息編碼,無需使用知識(shí)庫等外部資源。Ganea等[78]針對(duì)文檔級(jí)實(shí)體消歧,提出了一種結(jié)合實(shí)體嵌入和局部上下文注意力機(jī)制(Local Context ATTention mechanism,LCATT)的深度學(xué)習(xí)框架,提升消歧效率。

      此外,針對(duì)傳統(tǒng)實(shí)體消歧方法難以處理上下文信息有限或相似度較高的短文本的問題,Zhu等[79]提出了一種基于語義和上下文相似度的命名實(shí)體消歧方法,通過計(jì)算各個(gè)單詞間的語義相似度提高實(shí)體消歧的性能。張晟旗等[80]通過拼接消歧文本和實(shí)體知識(shí)描述文本,將短文本轉(zhuǎn)換為長文本,并使用局部注意力機(jī)制(Local ATTention,LATT)增強(qiáng)實(shí)體鄰近上下文的語義信息。

      3.3 知識(shí)加工

      知識(shí)加工是在知識(shí)抽取、知識(shí)融合的基礎(chǔ)上,對(duì)基本的事實(shí)進(jìn)行處理,形成結(jié)構(gòu)化的知識(shí)體系和高質(zhì)量的知識(shí),實(shí)現(xiàn)對(duì)知識(shí)的統(tǒng)一管理。知識(shí)加工的具體步驟包括本體構(gòu)建(Ontology Construction,QC)、知識(shí)推理(Knowledge Reasoning,KR)和質(zhì)量評(píng)估(Quality Evaluation,QE),如表7所示。

      表7 知識(shí)加工主要任務(wù)Tab.7 Main tasks of knowledge processing

      3.3.1 本體構(gòu)建

      本體構(gòu)建是指在模式層構(gòu)建知識(shí)的概念模板,規(guī)范化描述指定領(lǐng)域內(nèi)的概念及概念之間的關(guān)系,其過程又包括概念提取和概念間關(guān)系提取兩部分。根據(jù)構(gòu)建過程的自動(dòng)化程度不同,可將常用的本體構(gòu)建方法分為手工構(gòu)建、半自動(dòng)構(gòu)建以及自動(dòng)構(gòu)建,如表8所示。

      表8 本體構(gòu)建方法對(duì)比Tab.8 Comparison of ontology construction methods

      1)手工構(gòu)建。

      手工構(gòu)建是指領(lǐng)域?qū)<彝ㄟ^手工編輯的方式構(gòu)建本體,使用該方法能夠獲得高質(zhì)量的本體。目前,手動(dòng)構(gòu)建本體的研究集中于開發(fā)一系列可視化的建模工具。典型的可視化手工本體構(gòu)建工具包括:OilEd[81]、WebODE[82]、OntoEdit[83]和Protege[84]等。

      手工構(gòu)建本體雖然能夠嚴(yán)格控制內(nèi)容,但需要人工編輯大量的數(shù)據(jù),構(gòu)建成本高、效率低、擴(kuò)展性差。

      2)半自動(dòng)構(gòu)建。

      半自動(dòng)構(gòu)建是指通過人工參與機(jī)器輔助的方式完成本體構(gòu)建,相比傳統(tǒng)的手工構(gòu)建方法,該方法能夠更快速、更全面地構(gòu)建本體。例如,用戶可以通過Jena[85]提供的開源編程環(huán)境,構(gòu)建知識(shí)概念及概念間關(guān)系,實(shí)現(xiàn)本體的半自動(dòng)構(gòu)建。

      半自動(dòng)構(gòu)建雖然在一定程度上提升了本體構(gòu)建的效率,但依賴人工提取概念和關(guān)系,難以完成大規(guī)模的本體構(gòu)建。

      3)自動(dòng)構(gòu)建。

      自動(dòng)構(gòu)建是指利用機(jī)器自動(dòng)地從各種數(shù)據(jù)源中提取概念及概念間關(guān)系,以實(shí)現(xiàn)本體的構(gòu)建。該方法快捷高效,并且能夠處理隱含知識(shí),已經(jīng)成為目前本體構(gòu)建的重要研究方向。例如,MindNet[86]使用了自動(dòng)化的方式完成本體構(gòu)建。

      然而,本體自動(dòng)構(gòu)建的研究仍處于起步階段,尚無法完全替代人工構(gòu)建,仍待進(jìn)一步研究。

      3.3.2 知識(shí)推理

      知識(shí)推理是針對(duì)知識(shí)圖譜中已有事實(shí)或關(guān)系的不完備性,挖掘或推斷出未知或隱含的語義關(guān)系。一般而言,知識(shí)推理的對(duì)象可以為實(shí)體、關(guān)系和知識(shí)圖譜的結(jié)構(gòu)等。

      如表9所示,知識(shí)推理主要有邏輯規(guī)則、嵌入表示和神經(jīng)網(wǎng)絡(luò)三類方法,后續(xù)章節(jié)將對(duì)這些方法進(jìn)行詳細(xì)的闡述。

      表9 知識(shí)推理方法對(duì)比Tab.9 Comparison of knowledge reasoningmethods

      3.3.3 質(zhì)量評(píng)估

      知識(shí)圖譜質(zhì)量評(píng)估通常在知識(shí)抽取或融合階段進(jìn)行,對(duì)知識(shí)的置信度進(jìn)行評(píng)估,保留置信度高的知識(shí),有效保障知識(shí)圖譜質(zhì)量。質(zhì)量評(píng)估的研究目的通常為提高知識(shí)樣本的質(zhì)量,提升知識(shí)抽取的效果,增強(qiáng)模型的有效性。

      例如,Zeng等[87]基于RL框架,通過比較深度模型的關(guān)系抽取結(jié)果和答案生成長期獎(jiǎng)勵(lì),從而引導(dǎo)關(guān)系抽取的訓(xùn)練過程。Feng等[88]提出基于噪聲數(shù)據(jù)的句子級(jí)關(guān)系分類模型,借助強(qiáng)化學(xué)習(xí)思路建立實(shí)例選擇器,選擇高質(zhì)量的句子樣本,然后基于關(guān)系分類器的正確率設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),再反饋回實(shí)例選擇器,促進(jìn)其選出更高質(zhì)量的樣本,實(shí)現(xiàn)了樣本選擇與關(guān)系分類的聯(lián)合優(yōu)化。

      除了設(shè)置獎(jiǎng)勵(lì)和剔除低質(zhì)量句子,為提高樣本利用率,低質(zhì)量或者錯(cuò)誤的數(shù)據(jù)樣本也可以作為訓(xùn)練集中的負(fù)樣本進(jìn)行數(shù)據(jù)增強(qiáng)。如Qin等[59]利用DRL技術(shù),完成標(biāo)簽質(zhì)量的自動(dòng)檢測。不同于直接丟棄識(shí)別的錯(cuò)誤標(biāo)簽樣本,該模型將假陽性句子以負(fù)樣本形式加入到數(shù)據(jù)集中,在提高數(shù)據(jù)質(zhì)量的同時(shí)實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng),從而顯著改善關(guān)系抽取效果。

      3.4 知識(shí)更新

      知識(shí)更新是隨著時(shí)間的推移或新知識(shí)的增加,不斷迭代更新知識(shí)圖譜的內(nèi)容,保障知識(shí)的時(shí)效性。

      知識(shí)更新有模式層更新和數(shù)據(jù)層更新兩種層次,包括全面更新和增量更新兩種方式,如表10所示。

      表10 知識(shí)更新內(nèi)容Tab.10 Content of knowledgeupdate

      3.4.1 知識(shí)更新層次

      1)模式層更新。

      當(dāng)新增的知識(shí)中包含了概念、實(shí)體、關(guān)系、屬性及其類型變化時(shí),需要在模式層中更新知識(shí)圖譜的數(shù)據(jù)結(jié)構(gòu),包括對(duì)實(shí)體、概念、關(guān)系、屬性及其類型的增、刪、改操作。一般而言,模式層更新需要人工定義規(guī)則表示復(fù)雜的約束關(guān)系。

      2)數(shù)據(jù)層更新。

      數(shù)據(jù)層更新主要是指新增實(shí)體或更新現(xiàn)有實(shí)體的關(guān)系、屬性值等信息,更新對(duì)象為具體的知識(shí)(如三元組),更新操作一般通過知識(shí)圖譜構(gòu)建技術(shù)自動(dòng)化完成。在進(jìn)行更新前,需要經(jīng)過知識(shí)融合、知識(shí)加工等步驟,保證數(shù)據(jù)的可靠性和有效性。

      3.4.2 知識(shí)更新方式

      1)全面更新。

      全面更新指將更新知識(shí)與原有的全部知識(shí)作為輸入數(shù)據(jù),重新構(gòu)建知識(shí)圖譜。全面更新方法操作簡單,但消耗資源多。

      2)增量更新。

      增量更新只以新增的知識(shí)作為輸入數(shù)據(jù),在已有的知識(shí)圖譜基礎(chǔ)上增加知識(shí),消耗的資源較少,但是技術(shù)實(shí)現(xiàn)較為困難,且需要大量的人工定義規(guī)則。

      4 知識(shí)推理

      知識(shí)推理在整個(gè)知識(shí)圖譜理論與技術(shù)框架中占據(jù)著十分重要的地位,是知識(shí)圖譜研究的一大重點(diǎn)和難點(diǎn),在實(shí)際工程中也有非常廣泛的應(yīng)用場景。因此,本章將詳細(xì)介紹基于邏輯規(guī)則、基于嵌入表示和基于神經(jīng)網(wǎng)絡(luò)的知識(shí)推理方法。

      4.1 基于邏輯規(guī)則的知識(shí)圖譜推理

      基于邏輯規(guī)則的推理是指通過在知識(shí)圖譜上運(yùn)用簡單規(guī)則及特征,推理得到新的事實(shí),該方法能夠很好地利用知識(shí)的符號(hào)性,精確性高且能為推理結(jié)果提供顯式的解釋。

      根據(jù)推理過程中所關(guān)注的特征不同,又可將基于邏輯規(guī)則的知識(shí)圖譜推理方法分為基于邏輯的推理、基于統(tǒng)計(jì)的推理以及基于圖結(jié)構(gòu)的推理。

      4.1.1 基于邏輯的推理

      基于邏輯的推理是指直接使用一階謂詞邏輯FOL、描述邏輯(Description Logic)等方式對(duì)專家制定的規(guī)則進(jìn)行表示及推理,這類方法具有精確性高、可解釋性強(qiáng)的特點(diǎn)。根據(jù)規(guī)則依托的表示方式不同,基于邏輯的推理方法又可分為基于一階謂詞邏輯的推理和基于描述邏輯的推理。

      1)基于一階謂詞邏輯的推理。

      基于一階謂詞邏輯的推理是指使用一階謂詞邏輯對(duì)專家預(yù)先定義好的規(guī)則進(jìn)行表示,然后以命題(Propositions)為基本單位進(jìn)行推理,該方法使用接近人類自然語言的方式對(duì)知識(shí)進(jìn)行表示和推理,精確性高且可解釋。

      其中,命題包含個(gè)體和謂詞,個(gè)體對(duì)應(yīng)知識(shí)圖譜中的實(shí)體,謂詞對(duì)應(yīng)知識(shí)圖譜中的關(guān)系。如圖5所示,已知三元組(Bruce,HasChild,Carl)和(Bruce,IsCitizenOf,New York),則 有如下的一階謂詞邏輯推理規(guī)則:

      圖5 基于邏輯規(guī)則的推理實(shí)例Fig.5 Example of knowledge reasoning based on logic rules

      (Bruce,HasChild,Carl)∧(Bruce,IsCitizenOf,New York)?(Carl,IsCitizenOf,New York)

      典型工作是Richardson等[89]提出的馬爾可夫邏輯網(wǎng)絡(luò)(MLN),結(jié)合專家定義的邏輯規(guī)則與概率圖模型構(gòu)建網(wǎng)絡(luò),并在構(gòu)建好的網(wǎng)絡(luò)上執(zhí)行推理。后續(xù),研究者們對(duì)MLN進(jìn)行了進(jìn)一步的研究。例如,Pujara等[90]為了在MLN中引入置信值,使用概率軟邏輯來執(zhí)行推理,Ku?elka等[91]在理論上研究了缺少數(shù)據(jù)的情況下從知識(shí)圖譜中學(xué)習(xí)MLN權(quán)重的適用性?;谝浑A謂詞邏輯的知識(shí)圖譜推理方法簡單、易理解,在小規(guī)模知識(shí)圖譜上取得了較好的精度。

      2)基于描述邏輯的推理。

      基于描述邏輯的推理關(guān)鍵在于將知識(shí)圖譜中的復(fù)雜實(shí)體或關(guān)系推理轉(zhuǎn)換為一致性檢測問題,該方法有效地降低了知識(shí)圖譜模型的推理復(fù)雜度,取得了表達(dá)能力和推理復(fù)雜度的平衡。具體而言,使用描述邏輯表示的知識(shí)圖譜由術(shù)語集(Terminological Axioms,TBox)和斷言集(Assertional Axioms,ABox)組成[92],TBox包含描述概念和關(guān)系的一系列公理,ABox中則包含TBox中概念的實(shí)例,基于描述邏輯的推理方法通過確定一個(gè)描述是否滿足邏輯一致性,實(shí)現(xiàn)知識(shí)圖譜推理。

      典型算法是Halaschek-Wiener等[93]提出的描述邏輯推理算法,該方法通過添加和刪除ABox斷言補(bǔ)全知識(shí)圖譜。在此基礎(chǔ)上,許多學(xué)者對(duì)基于描述邏輯的知識(shí)圖譜推理進(jìn)行了進(jìn)一步研究。例如,Calvanese等[94]提出了基于認(rèn)知的一階查詢語言EQL,用于處理推理過程知識(shí)圖譜的信息不完備問題。Li等[95]和Stoilos等[96]通過使用模糊理論擴(kuò)展了傳統(tǒng)的描述邏輯,使推理具有模糊能力。Kr?tzsch等[97]提出了屬性描述邏輯,豐富了知識(shí)圖譜對(duì)現(xiàn)實(shí)世界的建模能力。胡博等[98]提出了一種基于描述邏輯的上下文知識(shí)獲取與推理方法,用于上下文感知。此外,Bienvenu等[99]開發(fā)了一個(gè)框架,為描述邏輯推理提供可解釋性。

      4.1.2 基于統(tǒng)計(jì)的推理

      基于統(tǒng)計(jì)的推理關(guān)鍵在于利用機(jī)器學(xué)習(xí)方法,從知識(shí)圖譜中自動(dòng)挖掘出隱含的邏輯規(guī)則,并將這些規(guī)則用于推理。該方法摒棄了專家定義規(guī)則的模式,可利用挖掘的規(guī)則解釋推理結(jié)果?;诮y(tǒng)計(jì)的推理方法又分為基于歸納邏輯編程的推理和基于關(guān)聯(lián)規(guī)則挖掘的推理。

      1)基于歸納邏輯編程的推理。

      基于歸納邏輯編程(Inductive Logic Programming,ILP)的推理是指使用機(jī)器學(xué)習(xí)和邏輯編程技術(shù),在知識(shí)圖譜上自動(dòng)歸納出抽象的規(guī)則集,以完成推理,該方法摒棄了人工定義規(guī)則的模式,在小規(guī)模的知識(shí)圖譜上具有較好的推理能力。

      典型算法是Schoenmackers等[100]提出的一階規(guī)則學(xué)習(xí)算法(First Order Inductive Learner,F(xiàn)OIL),該方法將知識(shí)圖譜中關(guān)系的霍恩子句集(Horn Clauses)作為特征,采用窮舉搜索算法,為每個(gè)關(guān)系建立判別器,以預(yù)測指定實(shí)體間是否存在該關(guān)系。后續(xù)出現(xiàn)了許多關(guān)于FOIL算法的改進(jìn)算法,例如,Landwehr等[101]通過將貝葉斯算法與FOIL算法結(jié)合在一起,擴(kuò)展了FOIL算法處理不確定知識(shí)的能力,隨后,他們又在FOIL算法中引入核方法[102],降低了算法復(fù)雜度。

      2)基于關(guān)聯(lián)規(guī)則挖掘的推理。

      基于關(guān)聯(lián)規(guī)則挖掘的推理關(guān)鍵在于從知識(shí)圖譜中自動(dòng)挖掘出高置信度的規(guī)則,并利用這些規(guī)則在知識(shí)圖譜上推理以得到新的知識(shí),相較于傳統(tǒng)的歸納邏輯編程方法,基于關(guān)聯(lián)規(guī)則挖掘的推理可以處理更復(fù)雜、更龐大的知識(shí)圖譜,且規(guī)則挖掘的速度更快。

      典型算法是Galárraga等[103]提出的基于不完備知識(shí)庫的關(guān)聯(lián)規(guī)則挖掘算法(Association rule Mining under Incomplete Evidence,AMIE)。AMIE算法通過在知識(shí)圖譜上挖掘霍恩規(guī)則(Horn Rules),并將這些規(guī)則應(yīng)用于知識(shí)圖譜中得到新的事實(shí),以補(bǔ)全知識(shí)圖譜并檢測圖譜中的錯(cuò)誤。在此基礎(chǔ)上,Galárraga等[104]又提出了AMIE+系統(tǒng),以挖掘更大的知識(shí)圖譜。Wang等[105]提出了RDF2Rules模型,克服了AMIE和AMIE+系統(tǒng)一次只能挖掘一條規(guī)則的缺點(diǎn)。文獻(xiàn)[106-107]分別針對(duì)AMIE規(guī)則質(zhì)量的評(píng)估方式和規(guī)則挖掘的速度進(jìn)行了改進(jìn)。此外,李智星等[108]提出了一種基于非結(jié)構(gòu)化文本增強(qiáng)關(guān)聯(lián)規(guī)則的知識(shí)圖譜推理方法,從非結(jié)構(gòu)化文本表述中抽象出文本表述模式,然后結(jié)合知識(shí)圖譜已有知識(shí)構(gòu)建規(guī)則。

      4.1.3 基于圖結(jié)構(gòu)的推理

      基于圖結(jié)構(gòu)的推理是指利用圖譜的結(jié)構(gòu)作為特征完成推理任務(wù)。其中,知識(shí)圖譜中最為典型的結(jié)構(gòu)是實(shí)體間的路徑特征,對(duì)于知識(shí)圖譜推理具有重要作用?;趫D結(jié)構(gòu)的知識(shí)圖譜推理具有推理效率高且可解釋的優(yōu)點(diǎn)。例如,在圖5中,從實(shí)體“Carl”出發(fā),利用關(guān)系路徑“HasW ife→HasChild”能夠推理出實(shí)體“Carl”和實(shí)體“Barry”可能存在“HasChild”關(guān)系。根據(jù)關(guān)注特征的粒度不同,基于圖結(jié)構(gòu)的推理方法又可分為基于全局結(jié)構(gòu)的推理以及加入局部結(jié)構(gòu)的推理。

      1)基于全局結(jié)構(gòu)的推理。

      基于全局結(jié)構(gòu)的推理是指對(duì)整個(gè)知識(shí)圖譜進(jìn)行路徑提取,然后將實(shí)體之間的路徑作為特征用于判斷實(shí)體間是否存在目標(biāo)關(guān)系,該方法能夠自動(dòng)挖掘路徑規(guī)則且具有可解釋性。

      典型算法為Lao等[109]提出的路徑排序算法(Path Ranking Algorithm,PRA)。該算法將知識(shí)圖譜中連接目標(biāo)關(guān)系實(shí)體對(duì)的路徑作為特征,為每類關(guān)系訓(xùn)練一個(gè)邏輯回歸模型,從而完成知識(shí)圖譜推理任務(wù)。PRA采用的隨機(jī)游走策略需要巨大的計(jì)算代價(jià),為此,出現(xiàn)了Cor-PRA[110]、CPRA[111]、ELP(Enhance Link Prediction)[112]等改進(jìn)算法,旨在提升PRA算法路徑搜索的效率及推理性能。知識(shí)圖譜中的實(shí)體和關(guān)系服從長尾分布,即只有少量的實(shí)體和關(guān)系擁有較高的出現(xiàn)頻率[113],由此導(dǎo)致的數(shù)據(jù)稀疏性問題對(duì)基于全局結(jié)構(gòu)的推理算法性能影響較大。

      2)引入局部結(jié)構(gòu)的推理。

      引入局部結(jié)構(gòu)的推理是指利用與推理高度相關(guān)的局部圖譜結(jié)構(gòu)作為特征進(jìn)行計(jì)算,以實(shí)現(xiàn)知識(shí)圖譜的推理,相較于基于全局結(jié)構(gòu)的推理,該方法的特征粒度更細(xì)且計(jì)算代價(jià)低。

      典型算法包含SFE(Subgraph Feature Extraction)[114]、HIRI(Hierarchical Random-walk Inference)[115]等。對(duì)于目標(biāo)實(shí)體,SFE算法首先使用廣度優(yōu)先搜索法得到局部子圖,然后對(duì)其進(jìn)行多特征提取,最后根據(jù)提取的特征進(jìn)行推理。HIRI算法是一種分層隨機(jī)游走算法,通過提取知識(shí)圖譜中特定關(guān)系子圖的拓?fù)浣Y(jié)構(gòu),來提高基于隨機(jī)游走的推理性能。此外,劉嶠等[116]提出了一種雙層隨機(jī)游走算法(Two-tier Random Walk Algorithm,TRWA),同時(shí)考慮特定關(guān)系的子圖和關(guān)系語義的雙向性。這類方法考慮更細(xì)的局部結(jié)構(gòu)特征,提升了推理能力和推理效率;但由于只考慮了特定實(shí)體或關(guān)系子圖的結(jié)構(gòu),忽略了子圖之間的關(guān)系,具有一定的局限性。

      綜上,基于邏輯規(guī)則的知識(shí)圖譜推理各類方法對(duì)比分析如表11所示。

      表11 基于邏輯規(guī)則的知識(shí)圖譜推理方法對(duì)比Tab.11 Comparison of knowledgegraph reasoningmethods based on logic rules

      4.2 基于嵌入表示的知識(shí)圖譜推理

      在機(jī)器學(xué)習(xí)中,嵌入表示是一種非常重要的技術(shù)手段,通過嵌入表示可以將復(fù)雜的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化為向量化的表示,為后續(xù)工作的開展提供便利。對(duì)于知識(shí)圖譜推理,嵌入表示的技術(shù)優(yōu)勢同樣明顯。通過將圖結(jié)構(gòu)中隱含的關(guān)聯(lián)信息映射到歐氏空間,使得原本難以發(fā)現(xiàn)的關(guān)聯(lián)關(guān)系變得顯而易見。因此,基于嵌入表示的推理是知識(shí)圖譜推理技術(shù)的重要組成部分。

      接下來介紹三類嵌入推理的方法,分別是張量分解方法、距離模型和語義匹配模型。

      4.2.1 張量分解方法

      張量分解(Tensor Decomposition,TD)方法是通過特定技術(shù)將關(guān)系張量分解為多個(gè)矩陣,利用這些矩陣可以構(gòu)造出知識(shí)圖譜的一個(gè)低維嵌入表示。通過對(duì)基本張量分解算法進(jìn)行改進(jìn)和調(diào)整,并加以應(yīng)用,這類模型能夠快速訓(xùn)練出一個(gè)知識(shí)圖譜的嵌入表示。

      當(dāng)前用于嵌入推理的張量分解方法以RESCAL[117-118]為主。該模型將知識(shí)圖譜中的知識(shí)以一個(gè)三階張量的形式表示,該張量反映了知識(shí)圖譜中實(shí)體-關(guān)系-實(shí)體的三元組結(jié)構(gòu)。RESCAL通過對(duì)張量進(jìn)行分解,得到實(shí)體和關(guān)系類型的嵌入表示,該嵌入表示反映的是實(shí)體或關(guān)系鄰域結(jié)構(gòu)的相似性。如圖6所示,“Carl”和“Arthur”均是一個(gè)學(xué)生的導(dǎo)師,均教授一門課程,也都主持了一個(gè)項(xiàng)目。由于兩人鄰域結(jié)構(gòu)高度相似,RESCAL模型得到的兩人的嵌入表示也是相近的,由此可推理出二人存在關(guān)聯(lián)關(guān)系,結(jié)合背景知識(shí),這一關(guān)系很可能是“ColleagueOf”。

      圖6 嵌入表示知識(shí)推理實(shí)例Fig.6 Exampleof knowledge reasoningbased on embedding representation

      RESCAL是一個(gè)十分經(jīng)典的張量分解模型,但由于其分解原理簡單,考慮因素相對(duì)單一,不適應(yīng)于部分復(fù)雜的應(yīng)用場景。因此,部分研究以此為基礎(chǔ),提出了改進(jìn)的模型。YAGO[119]在RESCAL的基礎(chǔ)上添加了用于處理實(shí)體屬性信息的模塊,是RESCAL模型的一個(gè)擴(kuò)展。Rendle等[120]考慮了知識(shí)圖譜中的二元組關(guān)系,即主體-關(guān)系類型關(guān)系、主體-客體關(guān)系、關(guān)系類型-客體關(guān)系。Rendle等[121]進(jìn)一步提出在線性時(shí)間內(nèi)學(xué)習(xí)大規(guī)模的關(guān)系型數(shù)據(jù),該方法在知識(shí)圖譜的鏈路預(yù)測和推薦系統(tǒng)方面有重要價(jià)值。Jenatton等[122]提出了通過概率模型學(xué)習(xí)稀疏的關(guān)系表示,以此處理關(guān)系數(shù)量極大的知識(shí)圖譜嵌入表示問題。

      4.2.2 距離模型

      距離模型(Distance Model,DM)又可稱為平移模型(Translational Model,TM),該類模型將知識(shí)圖譜中的每個(gè)關(guān)系看作從主體向量到客體向量的一個(gè)平移變換。通過最小化平移轉(zhuǎn)化的誤差,將知識(shí)圖譜中的實(shí)體和關(guān)系類型映射到低維空間。

      典型的距離模型是TransE[123],該模型將知識(shí)圖譜中的實(shí)體和關(guān)系類型都嵌入為低維的向量。將知識(shí)圖譜中的每個(gè)關(guān)系理解為從主體向量到客體向量的一個(gè)平移變換,即該模型要求主體向量、關(guān)系類型向量和客體向量滿足h+r≈t。

      如圖7所示,TransE通過學(xué)習(xí)已有知識(shí),將四個(gè)人物實(shí)體映射為低維空間的四個(gè)點(diǎn)(即點(diǎn)A、B、C、D),同時(shí)將“Thomas”和“Pamela”二人之間已知的“ColleagueOf”關(guān)系映射為向量α(即向量ˉ→ˉˉCD)。在推理“Carl”和“Arthur”是否存在同事關(guān)系時(shí),只需判斷“ColleagueOf”這一關(guān)系的嵌入向量α能否在低維空間中近似地實(shí)現(xiàn)從“Carl”的嵌入點(diǎn)(A點(diǎn))到“Arthur”的嵌入點(diǎn)(B點(diǎn))的平移。如果能,則可推出(Carl,ColleagueOf,Arthur)這一關(guān)系存在;反之則認(rèn)為該關(guān)系不存在。

      圖7 TransE實(shí)體和關(guān)系映射實(shí)例Fig.7 Example of entity and relation mapping of TransE

      TransE模型通過上述這種直觀的映射方式,使得知識(shí)推理在實(shí)際應(yīng)用中有很好的可解釋性。然而,TransE模型的性能受到兩個(gè)方面的制約:一方面是其平移轉(zhuǎn)化這一要求過于嚴(yán)格,導(dǎo)致靈活性和魯棒性受到影響;另一方面則是該模型無法處理知識(shí)圖譜中的非一對(duì)一的關(guān)系,對(duì)學(xué)習(xí)效果造成了一定影響。針對(duì)這兩個(gè)問題,研究者們對(duì)TransE做出了改進(jìn)。

      針對(duì)第一個(gè)問題,一些松弛化模型被提出。TransM[124]模型給每種關(guān)系類型定義了一個(gè)權(quán)重,以衡量該關(guān)系類型在優(yōu)化目標(biāo)中的重要性。ManifoldE[125]將平移轉(zhuǎn)化約束做了進(jìn)一步松弛,提出了一種基于流形的知識(shí)圖譜嵌入模型,要求平移后的向量落在相應(yīng)的流形之上。TransF[126]則是以一種線性的方式對(duì)平移轉(zhuǎn)化約束做出松弛化處理,增強(qiáng)了模型處理復(fù)雜的帶噪聲數(shù)據(jù)的能力。TransAt[127]在模型中引入了注意力機(jī)制,更加關(guān)注與特定關(guān)系相關(guān)的屬性,忽略無關(guān)屬性的干擾,使得算法更具魯棒性。TransA[128]是一種基于馬氏距離的更靈活的知識(shí)圖譜嵌入模型。

      針對(duì)第二個(gè)問題,主要思路是將實(shí)體和關(guān)系在特定投影空間進(jìn)行平移轉(zhuǎn)化。為了能夠更好地處理非一對(duì)一的關(guān)系,并且一定程度上保留TransE的效率和簡潔性,TransH[129]將關(guān)系類型擬合為一個(gè)超平面。TransR[130]受此啟發(fā),引入了實(shí)體空間和關(guān)系空間的概念,將實(shí)體和關(guān)系類型在各自的空間中分別建模。TransR模型是對(duì)TransE的一個(gè)非常經(jīng)典的改進(jìn),但存在的主要問題是運(yùn)算開銷過高。一些研究嘗試在保留TransR性能的同時(shí),降低其模型復(fù)雜度。TransD[131]中每一個(gè)實(shí)體或關(guān)系都被表示為兩個(gè)向量,這大大減少了參數(shù)的數(shù)量,同時(shí)避免了大量矩陣乘法,降低了運(yùn)算開銷。TransSparse[132]也是對(duì)投影矩陣的一個(gè)簡化,利用稀疏矩陣顯著降低了模型的參數(shù)數(shù)量,降低了訓(xùn)練的復(fù)雜度。TransAH[133]采用了一種自適應(yīng)的度量方法,加入了對(duì)角權(quán)重矩陣將得分函數(shù)中的度量由歐氏距離轉(zhuǎn)換為加權(quán)歐氏距離,并實(shí)現(xiàn)了為每一個(gè)特征維區(qū)別地賦予權(quán)重,引入面向特定關(guān)系的超平面模型,將頭實(shí)體和尾實(shí)體映射至給定關(guān)系的超平面加以區(qū)分。

      除了上述兩類改進(jìn)模型以外,研究者還提出了對(duì)于TransE的一些其他改進(jìn)思路。KG2E[134]是一種基于密度的知識(shí)圖譜嵌入表示學(xué)習(xí)方法,在多維高斯分布空間中學(xué)習(xí)知識(shí)圖譜的嵌入表示。TransG[135]將實(shí)體和關(guān)系類型表示為服從高斯分布的隨機(jī)向量,認(rèn)為同一個(gè)關(guān)系在不同的首尾實(shí)體的背景下可能有多個(gè)語義。Rotate[136]引入了復(fù)空間,將實(shí)體和關(guān)系類型的嵌入表示構(gòu)建在復(fù)空間中,將關(guān)系看作是頭實(shí)體經(jīng)過旋轉(zhuǎn)變換得到尾實(shí)體,而非平移變換,這一觀念的轉(zhuǎn)變是極具啟發(fā)性的。TorusE[137]則將嵌入的空間從向量空間遷移到一個(gè)環(huán)面(Torus)上,將這個(gè)環(huán)面作為知識(shí)圖譜的嵌入空間 。 CEKGRL(Category-Enhanced Knowledge Graph Representation Learning)[138]模型在TransE模型的基礎(chǔ)上引入實(shí)體的類別表示,旨在學(xué)習(xí)三元組知識(shí)的同時(shí),能夠通過類別信息得到更加準(zhǔn)確的知識(shí)表示。彭敏等[139]在TransE的基礎(chǔ)上提出了聚合鄰域信息的聯(lián)合知識(shí)表示模型TransE-NA(Neighborhood Aggregation on TransE),緩解數(shù)據(jù)稀疏問題,改善知識(shí)表示性能。MCKRL(Knowledge Representation Learning based on Multi-source information Combination)[140]引入卷積神經(jīng)網(wǎng)絡(luò)和圖注意力機(jī)制,構(gòu)建了基于TransE的編碼器-解碼器模型,對(duì)知識(shí)圖譜中的三元組信息、文本描述信息、實(shí)體層次類型信息和圖結(jié)構(gòu)信息進(jìn)行融合,實(shí)現(xiàn)基于多源信息組合的知識(shí)表示學(xué)習(xí)。

      4.2.3 語義匹配模型

      語義匹配模型(Semantic Matching Models)通過設(shè)計(jì)基于相似度的目標(biāo)函數(shù),在低維向量空間匹配不同實(shí)體和關(guān)系類型的潛在語義,定義基于相似性的評(píng)分函數(shù),度量一個(gè)關(guān)系三元組的合理性。該類模型認(rèn)為訓(xùn)練集中存在的關(guān)系三元組應(yīng)該有較高的相似度,而訓(xùn)練集中沒有的關(guān)系應(yīng)該有相對(duì)較低的相似度。

      常用的語義匹配模型,如TATEC(Two And Three-way Embeddings Combination)[141]模型,主要思路是對(duì)知識(shí)圖譜中的二元語義和三元語義進(jìn)行匹配,衡量各關(guān)系的合理性。在匹配主體-關(guān)系類型-客體的三元語義的同時(shí),也對(duì)主體與關(guān)系類型、關(guān)系類型與客體和主體與客體等三類語義進(jìn)行匹配,使得模型有更強(qiáng)的擬合能力和靈活性。

      例如,針對(duì)圖6中的關(guān)系網(wǎng)絡(luò),TATEC模型首先定義一個(gè)語義評(píng)分函數(shù),用于衡量三元和二元語義關(guān)系的合理性。如對(duì)于三元組(Carl,Teaches,OperatingSystem),其對(duì)應(yīng)的三元語義的 評(píng) 分 為 0.35, 二 元 語 義 (Carl,Teaches)、(Teaches,OperatingSystem)和(Carl,OperatingSystem)的評(píng)分分別為0.25、0.13和0.18。將上述四個(gè)分?jǐn)?shù)求和,即得到關(guān)系三元組(Carl,Teaches,OperatingSystem)的語義評(píng)分為0.91。訓(xùn)練時(shí)要求所有已知關(guān)系三元組的語義評(píng)分盡可能高。在推理“Carl”和“Arthur”是否為同事關(guān)系時(shí),根據(jù)訓(xùn)練得到的實(shí)體和關(guān)系的嵌入表示,計(jì)算得(Carl,ColleagueOf,Arthur)這一三元組的語義評(píng)分為0.85,該評(píng)分高于預(yù)設(shè)的經(jīng)驗(yàn)性閾值0.75,因此可判斷該關(guān)系成立。

      TATEC模型的運(yùn)算復(fù)雜度較高,因?yàn)槠淇臻g映射矩陣中待訓(xùn)練參數(shù)數(shù)量較大,改進(jìn)模型嘗試平衡TATEC的效果和復(fù)雜度。DistMult[142]要求模型中的空間映射矩陣是一個(gè)對(duì)角矩陣,以此大大減少模型的參數(shù)數(shù)量,使得模型的訓(xùn)練難度降低,但也導(dǎo)致其效果相比TATEC略弱。張金斗[143]提出在DistMult的基礎(chǔ)上引入偏序關(guān)系建模層次結(jié)構(gòu)的方法,實(shí)現(xiàn)了結(jié)合層次類別信息的知識(shí)圖譜表示學(xué)習(xí)。HolE[144]引入了向量卷積,實(shí)現(xiàn)了主客體的信息融合,基于DistMult,一定程度上增加了復(fù)雜度,卻大幅提升了模型擬合能力。ComplEx[145]在DistMult模型的基礎(chǔ)上引入了復(fù)空間,將實(shí)體和關(guān)系類型映射到低維復(fù)數(shù)空間。QuatE[146]在ComplEx的復(fù)向量表示基礎(chǔ)上,提出了超復(fù)空間(Super-Complex Space)的向量表示,并將實(shí)體和關(guān)系映射到該空間。ANALOGY[147]模型在TATEC基礎(chǔ)上,進(jìn)一步考慮了實(shí)體的隱喻關(guān)系。

      為了提高對(duì)非線性模式的捕捉能力,一系列基于神經(jīng)網(wǎng)絡(luò)的模型被提出。SME(Semantic Matching Energy)[148]模型是基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)關(guān)系和實(shí)體低維向量表示的模型。該模型首先將實(shí)體和關(guān)系輸入到神經(jīng)網(wǎng)絡(luò)的輸入層,并將其映射為向量,通過學(xué)習(xí)兩個(gè)帶參數(shù)的函數(shù),可以得到關(guān)系和實(shí)體的低維向量表示形式。NTN(Neural Tensor Networks)[149]加入了非線性函數(shù),增強(qiáng)了擬合能力,但是其所需訓(xùn)練的參數(shù)數(shù)量較大,因而訓(xùn)練所需的開銷大幅增加了。Dong等[150]使用一個(gè)簡單的多層感知機(jī)的方法,實(shí)現(xiàn)了主體-關(guān)系類型-客體的三部分信息融合。NAM(Neural Association Models)[151]采用了深度神經(jīng)網(wǎng)絡(luò)方法,提升了模型的擬合能力。

      綜上,基于嵌入表示的知識(shí)推理方法對(duì)比如表12所示。

      表12 基于嵌入表示的知識(shí)圖譜推理方法對(duì)比Tab.12 Comparison of knowledgegraph reasoningmethods based on embedding representation

      4.3 基于神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜推理

      基于神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜推理,充分利用了神經(jīng)網(wǎng)絡(luò)對(duì)非線性復(fù)雜關(guān)系的建模能力,能夠深入學(xué)習(xí)圖譜結(jié)構(gòu)特征和語義特征,實(shí)現(xiàn)對(duì)圖譜缺失關(guān)系的有效預(yù)測。一般地,應(yīng)用于知識(shí)圖譜推理的神經(jīng)網(wǎng)絡(luò)方法主要包括CNN方法、RNN方法、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)方法、DRL方法等,相關(guān)方法的基本流程如表13所示。

      表13 基于神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜推理方法基本流程Tab.13 Basic processesof knowledge graph reasoningmethodsbased on neural network

      4.3.1 卷積神經(jīng)網(wǎng)絡(luò)方法

      基于CNN的知識(shí)圖譜推理方法,通過卷積操作提取知識(shí)局部特征,預(yù)測圖譜中的缺失關(guān)系。主要包括基于實(shí)體文本描述(Entity Text Description,ETD)的推理和基于實(shí)體關(guān)系交互的推理兩大類。

      1)基于實(shí)體文本描述的推理。

      ETD是對(duì)知識(shí)圖譜中實(shí)體語義信息的詳細(xì)描述?;贓TD的CNN推理,指利用CNN對(duì)ETD進(jìn)行解析,從中提取出關(guān)鍵的文本片段并轉(zhuǎn)換為嵌入向量,進(jìn)而利用文本特征輔助對(duì)實(shí)體語義的準(zhǔn)確理解。

      其中,典型方法包括DKRL、ConMask、TECRL等模型。具體而言,Xie等[152]提出DKRL(Description-embodied Knowledge Representation Learning)模型,針對(duì)知識(shí)圖譜中的實(shí)體描述信息,利用連續(xù)詞袋模型(Continuous Bag-of-Words,CBOW)和CNN,分別學(xué)習(xí)文本描述中的無序特征和詞序特征,并融合生成最終的知識(shí)嵌入表示進(jìn)行推理,實(shí)現(xiàn)新實(shí)體的有效發(fā)現(xiàn)。進(jìn)一步地,Shi等[153]提出ConMask(Content Masking)模型,利用CNN融合了文本描述特征與實(shí)體語義信息。鮑開放等[154]針對(duì)文本描述的編碼結(jié)果,結(jié)合翻譯模型對(duì)實(shí)體關(guān)系進(jìn)行聯(lián)合學(xué)習(xí),實(shí)現(xiàn)復(fù)雜關(guān)系語義的有效表達(dá)。Zhao等[155]提出TECRL(Text-Enhanced Convolutional Representation Learning)模型,對(duì)文本描述先后使用兩次卷積操作提取特征。

      2)基于實(shí)體關(guān)系交互的推理。

      實(shí)體關(guān)系交互指在同一個(gè)三元組中,實(shí)體語義和關(guān)系語義的相互關(guān)系,其反映了知識(shí)結(jié)構(gòu)的語義?;趯?shí)體關(guān)系交互的CNN推理,指利用CNN對(duì)實(shí)體關(guān)系嵌入向量拼接而成的二維矩陣執(zhí)行卷積操作,從中提取出實(shí)體、關(guān)系語義的交互信息,進(jìn)而提升對(duì)知識(shí)三元組結(jié)構(gòu)語義的理解。

      其 中,典 型 方 法 包 括ConvE、InteractE、M-DCN、Convolution-based KG等模型。具體而言,Dettmers等[156]提出ConvE模型,針對(duì)實(shí)體關(guān)系嵌入向量構(gòu)成的二維矩陣,利用二維卷積、嵌入投影、內(nèi)積等簡單運(yùn)算,實(shí)現(xiàn)實(shí)體關(guān)系間交互特征的有效捕捉。進(jìn)一步地,Vashishth等[157]提出InteractE模型,利用特征置換、方形特征重塑、圓形卷積等技術(shù),進(jìn)一步增加實(shí)體關(guān)系間交互數(shù)量。Zhang等[158]提出M-DCN(Multiscale Dynamic Convolutional Network)模型,交替輸入實(shí)體關(guān)系嵌入,有效學(xué)習(xí)知識(shí)間交互的序列特征。李少杰等[159]提出ConvKE模型,利用維度變換策略提升卷積滑動(dòng)窗口的滑動(dòng)步數(shù),增強(qiáng)了知識(shí)間交互信息的學(xué)習(xí)能力。Annervaz等[160]提出Convolution-based KG模型,結(jié)合注意力機(jī)制,實(shí)現(xiàn)對(duì)實(shí)體關(guān)系聚集結(jié)構(gòu)的深入分析。

      4.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)方法

      基于RNN的知識(shí)圖譜推理方法,指基于循環(huán)結(jié)構(gòu)提取知識(shí)序列特征,預(yù)測圖譜中的缺失關(guān)系,主要包括基于知識(shí)路徑語義的推理和基于ETD的推理兩大類。

      1)基于知識(shí)路徑語義的推理。

      知識(shí)路徑指知識(shí)圖譜中由實(shí)體關(guān)系交替組成的有序路徑,其中蘊(yùn)含了從起點(diǎn)實(shí)體到終點(diǎn)實(shí)體間的隱藏語義。基于知識(shí)路徑語義的RNN推理,指利用RNN結(jié)構(gòu)特征,迭代學(xué)習(xí)路徑的語義特征,從中發(fā)現(xiàn)關(guān)聯(lián)路徑上的隱含語義信息,并基于此實(shí)現(xiàn)缺失知識(shí)的準(zhǔn)確預(yù)測。

      其中,典型方法包括RNN+PRA Classifier、Single-Model、DSKG等模型。具體而言,Neelakantan等[161]提出RNN+PRA Classifier模型,通過迭代使用RNN,有效學(xué)習(xí)知識(shí)路徑的組合表示,并在路徑嵌入空間上實(shí)現(xiàn)知識(shí)推理。進(jìn)一步地,Das等[162]提出Single-Model模型,通過引入神經(jīng)注意力(Neural Attention,NATT)機(jī)制,有效組合多條關(guān)系路徑的語義信息。Jagvaral等[163]則同時(shí)建模了路徑的雙向語義。Guo等[164]提出DSKG(Deep Sequential model for KG)模型,采用兩個(gè)獨(dú)立的RNN單元對(duì)實(shí)體關(guān)系分別進(jìn)行建模。

      2)基于實(shí)體文本描述的推理。

      除CNN外,對(duì)于蘊(yùn)含詳細(xì)語義信息的ETD而言,也可以利用RNN進(jìn)行分析建模。一般地,基于ETD的RNN推理,利用RNN依次讀入ETD信息,完成不同三元組中實(shí)體語義信息的匹配,從而實(shí)現(xiàn)對(duì)缺失知識(shí)的準(zhǔn)確預(yù)測。

      其中,典型方法包括KGDL等模型。具體而言,Chen等[165]提 出KGDL(learning Knowledge Graph embedding with entity Descriptions based on LSTM networks)模型,采用LSTM逐詞編碼相關(guān)文本描述,再嵌入三元組編碼的實(shí)體描述,實(shí)現(xiàn)對(duì)缺失知識(shí)的預(yù)測。進(jìn)一步地,Zhao等[166]結(jié)合完全注意力(Complete ATTention,CATT)機(jī)制編碼實(shí)體描述,學(xué)習(xí)到了實(shí)體在不同三元組中的具體語義。靳京[167]提出T-CRNN模型,先利用CNN提取實(shí)體描述中的單詞特征,再利用門控循環(huán)網(wǎng)絡(luò)(Gate Recurrent Unit,GRU)學(xué)習(xí)實(shí)體描述的上下文信息,實(shí)現(xiàn)實(shí)體描述語義信息的深入挖掘。An等[168]結(jié)合互注意力(Mutual ATTention,MATT)機(jī)制整合多種文本語料信息,從而捕捉到實(shí)體關(guān)系在不同三元組中的語義變化。

      4.3.3 圖神經(jīng)網(wǎng)絡(luò)方法

      基于GNN的知識(shí)圖譜推理方法,指基于GNN提取出圖譜拓?fù)浣Y(jié)構(gòu)特征,預(yù)測圖譜中的缺失關(guān)系,主要包括基于GCN的推理與基于圖注意力網(wǎng)絡(luò)的推理兩大類。

      1)基于GCN的推理。

      GCN[169]引入傅里葉變換,將圖結(jié)構(gòu)信息變換到由圖拉普拉斯矩陣特征向量構(gòu)成的正交空間中,從而實(shí)現(xiàn)鄰域向中心的信息聚合。同理,基于GCN的推理,將圖譜視作無向圖,利用GCN分析拓?fù)浣Y(jié)構(gòu),實(shí)現(xiàn)鄰域向中心實(shí)體的語義匯聚。

      其中,典型方法包括SACN、R-GCN、RGHAT等模型。具體而言,Shang等[170]提出SACN(Structure-Aware Convolutional Network)模型,將一個(gè)加權(quán)GCN作為編碼器,卷積網(wǎng)絡(luò)Conv-TransE作為解碼器,自適應(yīng)地學(xué)習(xí)節(jié)點(diǎn)鄰域結(jié)構(gòu)的語義信息。進(jìn)一步地,Schlichtkrull等[171]提出R-GCN(Relational Graph Convolutional Network)模型,在消息傳遞過程中引入了特定于關(guān)系類型的轉(zhuǎn)換矩陣,能夠?qū)W習(xí)多種類型的關(guān)系語義。聶斌玲[172]提 出SAGCN(Structure Aware Graph Convolutional Network)模型,綜合了實(shí)體相鄰節(jié)點(diǎn)與相鄰邊的語義信息,實(shí)現(xiàn)實(shí)體語義的完整表達(dá)。Zhang等[173]提出RGHAT(Relational Graph neural network with Hierarchical ATtention)模型,結(jié)合層次注意力(Hierarchical ATTention,HATT)機(jī)制,能夠更加有效地利用實(shí)體鄰域信息。

      2)基于GAT的推理。

      GAT(Graph Attention Networks)[174]是一種基于空間結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò),在聚合鄰域特征信息時(shí),通過ATT確定鄰居節(jié)點(diǎn)權(quán)重信息,從而實(shí)現(xiàn)鄰域?qū)χ行呢暙I(xiàn)程度的自適應(yīng)調(diào)節(jié)。同理,基于GAT的推理,將圖譜視作有向圖,利用GAT分析拓?fù)浣Y(jié)構(gòu),實(shí)現(xiàn)鄰域結(jié)構(gòu)對(duì)中心實(shí)體語義貢獻(xiàn)的準(zhǔn)確量化。

      其中,典型方法包括DPMPN、ExpressGNN-E、ReInceptionE等 模 型。具 體 而 言,Xu等[175]提 出DPMPN(Dynamically Pruned Message Passing Networks)模型,同時(shí)編碼通用的全圖表示和針對(duì)輸入信息的局部表示,實(shí)現(xiàn)推理過程中子圖的動(dòng)態(tài)構(gòu)建。進(jìn)一步地,Zhang等[176]提出ExpressGNN-E模型,組合了MLN和GNN,能夠進(jìn)行有效的概率邏輯推理。Xie等[177]提出ReInceptionE模型,結(jié)合ConvE和KBGAT[178],利用關(guān)系感知注意力(Relation-Aware ATTention,RAATT)機(jī)制實(shí)現(xiàn)對(duì)圖譜結(jié)構(gòu)信息的深入理解??凳罎傻龋?79]提出HE-GAN-NC(HE-GAN toward Node Classification)模型,通過堆疊圖注意力網(wǎng)絡(luò),有效學(xué)習(xí)實(shí)體的高階鄰居特征,實(shí)現(xiàn)對(duì)知識(shí)圖譜語義的完整表達(dá)。

      4.3.4 深度強(qiáng)化學(xué)習(xí)方法

      基于DRL的知識(shí)圖譜推理方法,結(jié)合了深度學(xué)習(xí)對(duì)圖譜結(jié)構(gòu)的感知能力與強(qiáng)化學(xué)習(xí)對(duì)補(bǔ)全關(guān)系的決策能力,將圖譜上的推理建模為序列決策模型。該類方法主要指基于關(guān)系路徑探索的推理。

      基于關(guān)系路徑探索的推理將知識(shí)實(shí)體、鄰接關(guān)系分別構(gòu)建為狀態(tài)空間和行動(dòng)空間,采用實(shí)體游走進(jìn)行狀態(tài)轉(zhuǎn)換,發(fā)現(xiàn)正確答案即生成獎(jiǎng)勵(lì)。從而基于“關(guān)系-路徑-探索”建立推理方案,能夠顯著提升知識(shí)推理的有效性和多樣性。

      其 中,典 型 方 法 包 括DeepPath、MINERVA、ADRL、DAPath、MARLPaR、RLH、GRL等模型。具體而言,Xiong等[180]建立DeepPath模型,將行為定義為選擇當(dāng)前節(jié)點(diǎn)連接的某條邊,基于行為序列擴(kuò)展實(shí)現(xiàn)路徑探索,并在預(yù)測出正確實(shí)體時(shí)給予獎(jiǎng)勵(lì)。進(jìn)一步地,Das等[181]提出MINERVA(Meandering In Networks of Entities to Reach Verisimilar Answers)模型,通過在查詢實(shí)體鄰域內(nèi)進(jìn)行高效搜索,能夠解決答案未知的復(fù)雜推理問 題。Wang等[182]提 出ADRL(Attention-based Deep Reinforcement Learning)模型,結(jié)合LSTM和ATT,使得生成軌跡具有更強(qiáng)的可解釋性。Tiwari等[183]提出DAPath(Distance-Aware Path)模型,結(jié)合圖自注意力(Graph Self-Attention,GSA)機(jī)制和GRU的記憶機(jī)制,能夠捕捉到路徑鄰域內(nèi)更完整的實(shí)體 信 息。Li等[184]提 出 MARLPaR(Multi-Agent and Reinforcement Learning based method for Path Reasoning)模型,交替選擇實(shí)體和關(guān)系,實(shí)現(xiàn)聯(lián)合實(shí)體關(guān)系語義的知識(shí)推理。Wan等[185]提出RLH(Reasoning Like Human)模型,先后編碼歷史信息和行動(dòng)空間,能夠有效處理多語義問題。Wang等[186]提出GRL(GAN-based Reinforcement Learning)模型,利用GAN和LSTM生成軌跡,能夠結(jié)合領(lǐng)域規(guī)則實(shí)現(xiàn)知識(shí)推理。

      綜上,基于神經(jīng)網(wǎng)絡(luò)的知識(shí)推理方法對(duì)比如表14所示。

      表14 基于神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜推理方法對(duì)比Tab.14 Comparison of knowledgegraph reasoningmethods based on neural network

      5 超圖理論與方法

      盡管知識(shí)圖譜被廣泛采用,但基于三元組的表示方法往往過分簡化了存儲(chǔ)在知識(shí)圖譜中的數(shù)據(jù)的復(fù)雜性;特別是對(duì)于連接兩個(gè)及以上實(shí)體的超關(guān)系數(shù)據(jù),其中的高階結(jié)構(gòu)信息的丟失,會(huì)導(dǎo)致知識(shí)超圖表示及推理能力受限。相關(guān)工作證明,在知識(shí)圖譜Freebase中,超過33.3%[187]的實(shí)體和61%[188]的關(guān)系是無法以二元關(guān)系表示的。

      知識(shí)超圖是一種特殊的異構(gòu)圖。為了更清楚地了解知識(shí)超圖特點(diǎn),本章首先研究異構(gòu)超圖表示方法。根據(jù)其與知識(shí)超圖的關(guān)聯(lián)性,進(jìn)一步研究知識(shí)超圖表示方法。最后提出了知識(shí)超圖的三層架構(gòu),能有效提升知識(shí)超圖推理能力及效率。

      超圖及相關(guān)圖定義、特點(diǎn)以及其主要的任務(wù)如表15和圖8所示。其中,|TV|表示節(jié)點(diǎn)類型數(shù),|TE|表示關(guān)系類型數(shù)。

      表15 超圖及相關(guān)圖定義Tab.15 Definitions of hypergraphsand related graphs

      圖8 超圖及相關(guān)圖Fig.8 Hypergraphsand related graphs

      5.1 異構(gòu)超圖表示

      異構(gòu)圖表示為節(jié)點(diǎn)和邊的集合,廣泛存在于真實(shí)世界的眾多場景中。例如表示人與人之間關(guān)系的社交網(wǎng)絡(luò)[189-191],作者和論文間的引用網(wǎng)絡(luò)[192]等。

      超圖以圖論和集合論為基礎(chǔ),在聚類、空間數(shù)據(jù)挖掘等方面取得了廣泛應(yīng)用[193]。超圖表示為H=(V,E),V是節(jié)點(diǎn)集,E是邊集,每條邊包含兩個(gè)或者更多節(jié)點(diǎn)。通常用|v|×|e|維關(guān)聯(lián)矩陣H來描述超圖的結(jié)構(gòu)。其中,|v|表示超圖中節(jié)點(diǎn)的數(shù)目,稱為超圖的階數(shù),|e|表示超圖中超邊的數(shù)目。根據(jù)計(jì)算規(guī)則h(v,e),如果節(jié)點(diǎn)v∈e,則h(v,e)=1;否則,如果v?e,則h(v,e)=0。

      圖9 超圖及其對(duì)應(yīng)的鄰接矩陣示例Fig.9 Exampleof hypergraph and the corresponding adjacency matrix

      對(duì)于每一個(gè)超邊e屬于E,度矩陣δ(v)是超邊上的頂點(diǎn)數(shù)目之和,可表示為δ(v)=∑v∈V h(v,e)。

      異構(gòu)超圖表示學(xué)習(xí)對(duì)于超圖構(gòu)建、推理以及應(yīng)用均有重要意義,因此本節(jié)主要研究異構(gòu)超圖表示方法。異構(gòu)超圖表示學(xué)習(xí)旨在將節(jié)點(diǎn)映射為向量的同時(shí),保留圖的拓?fù)浣Y(jié)構(gòu)、節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系以及子圖等信息[194]。

      異構(gòu)超圖表示包括基于無監(jiān)督聚類、基于隨機(jī)游走、基于矩陣分解、基于神經(jīng)網(wǎng)絡(luò)和基于元路徑等方法。異構(gòu)超圖表示的主要模型如圖10所示。

      圖10 異構(gòu)超圖表示的主要模型Fig.10 Main models of heterogeneous hypergraph representation

      1)基于無監(jiān)督聚類的異構(gòu)超圖表示學(xué)習(xí)。

      基于無監(jiān)督聚類的方法將相似的節(jié)點(diǎn)聚集在一起,使得同組的節(jié)點(diǎn)彼此接近,不同組的節(jié)點(diǎn)盡量區(qū)分開。在無可用類別標(biāo)簽的場景下,基于無監(jiān)督的聚類能實(shí)現(xiàn)節(jié)點(diǎn)的有效劃分,是學(xué)習(xí)異構(gòu)圖嵌入的有效方式。

      Zhou等[195]采用超圖表示對(duì)象之間的復(fù)雜信息,首次將處理無向圖的強(qiáng)大的譜聚類方法推廣到超圖上,并在超圖聚類算法基礎(chǔ)上提出超圖嵌入算法。雖然譜聚類是超圖聚類最有效的算法之一,但是傳統(tǒng)譜聚類算法性能較差,時(shí)間與空間成本大。為此,文獻(xiàn)[196-198]中提出了提升聚類性能的基于排名的聚類NetClus(Net Cluster)、以及解決聚類中計(jì)算成本大的GraphLSHC(Large Scale Hypergraph Clustering)[199]等。

      2)基于元路徑的異構(gòu)超圖表示學(xué)習(xí)。

      基于元路徑的方法將節(jié)點(diǎn)之間的一系列關(guān)系表示為一條路徑,學(xué)習(xí)不同類型的節(jié)點(diǎn)語義信息。該方法通過度量節(jié)點(diǎn)之間的關(guān)聯(lián)性,學(xué)習(xí)異構(gòu)超圖中豐富的語義信息。

      PathSim(Meta Path-based Similarity Measure)[200]是最早提出的使用元路徑的異構(gòu)圖表示學(xué)習(xí)模型,通過基于元路徑的相似度度量學(xué)習(xí)節(jié)點(diǎn)的表示;但是,該模型過于依賴人為定義的元路徑及其權(quán)重。為此,HIN2Vec(Heterogeneous Information Network to Vector)[201]利用了節(jié)點(diǎn)之間不同類型的關(guān)系,文獻(xiàn)[202-203]中提出主動(dòng)權(quán)重學(xué)習(xí)等方法。

      3)基于隨機(jī)游走的異構(gòu)超圖表示學(xué)習(xí)。

      基于隨機(jī)游走的圖表示學(xué)習(xí)以深度搜索的方式學(xué)習(xí)起始節(jié)點(diǎn)的序列信息,并使用該信息表示節(jié)點(diǎn)[194]。基于隨機(jī)游走的方法可以保留節(jié)點(diǎn)對(duì)之間的接近度,學(xué)習(xí)節(jié)點(diǎn)的局部結(jié)構(gòu)信息。

      Hyper2vec(Hyper-network to vector)[204]首次在超圖上運(yùn)用有偏二階隨機(jī)游走框架,在超圖表示學(xué)習(xí)中取得了良好的性能,并減少了計(jì)算時(shí)間。但是,該方法以無監(jiān)督的方式生成節(jié)點(diǎn)嵌入,不能將節(jié)點(diǎn)嵌入映射到超邊中,導(dǎo)致無法捕獲超邊的高階結(jié)構(gòu)信息。為此,文獻(xiàn)[205-206]中采用隨機(jī)游走,聯(lián)合學(xué)習(xí)實(shí)體對(duì)關(guān)系和超關(guān)系,捕獲超圖高階結(jié)構(gòu)信息。

      4)基于矩陣分解的異構(gòu)超圖表示學(xué)習(xí)。

      基于矩陣分解的方法將異構(gòu)超圖表示為矩陣,通過對(duì)矩陣進(jìn)行分解學(xué)習(xí)節(jié)點(diǎn)的嵌入表示[207-208]?;诰仃嚪纸獾姆椒梢越鉀Q圖的稀疏性問題,獲得可擴(kuò)展的圖嵌入表示?;诰仃嚪纸獾姆椒òǚ纸鈭D的拉普拉斯特征映射和分解節(jié)點(diǎn)鄰接矩陣。

      Chung[209]首次提出超圖的拉普拉斯矩陣,在此基礎(chǔ)上,Rodriguez[210]研究了超圖中的拉普拉斯特征值以及超圖分解問題。但是,傳統(tǒng)的方法都著重于理論的研究,難以應(yīng)用到大規(guī)模超圖中。為此,HpLapGCN(Hypergraphp-Laplacian Graph Convolutional Networks)[211]利用超圖的拉普拉斯矩陣,保留圖的局部幾何形狀,結(jié)合GCN學(xué)習(xí)多種數(shù)據(jù)特征。

      Cao等[212]為了解決超圖表示中的數(shù)據(jù)稀疏問題,使用非線性矩陣分解方法實(shí)現(xiàn)超圖的表示;但由于超邊大小是可變的,傳統(tǒng)方法難以實(shí)現(xiàn)異構(gòu)超圖表示。為此,Zhang等[213]提出了協(xié)調(diào)矩陣最小化算法,在超圖上的頂點(diǎn)鄰接域中,交替執(zhí)行非負(fù)矩陣分解和最小二乘匹配,實(shí)現(xiàn)高性能的超圖表示。

      5)基于神經(jīng)網(wǎng)絡(luò)的異構(gòu)超圖表示學(xué)習(xí)。

      基于神經(jīng)網(wǎng)絡(luò)的方法學(xué)習(xí)異構(gòu)圖的結(jié)構(gòu)以及節(jié)點(diǎn)信息等非線性關(guān)系;特別是基于GNN的模型,能夠在學(xué)習(xí)節(jié)點(diǎn)特征的同時(shí),捕獲異構(gòu)圖的拓?fù)浣Y(jié)構(gòu)信息。

      HGNN(HyperGraph Neural Network)[214]為基于超邊卷積計(jì)算的GNN模型,學(xué)習(xí)現(xiàn)實(shí)數(shù)據(jù)的高階相關(guān)性。在此基礎(chǔ)之上,DHGNN(Dynamic HyperGraph Neural Network)[215]為動(dòng)態(tài)GNN模型,通過GNN提取特征來挖掘新關(guān)系,讓圖網(wǎng)絡(luò)自我進(jìn)化,實(shí)現(xiàn)動(dòng)態(tài)超圖構(gòu)建。為了進(jìn)一步提升性能,Zhang等[216]使用了GAT模型學(xué)習(xí)可變超邊大小的同構(gòu)圖和異構(gòu)圖。HWNN(Hypergraph Wavelet Neural Network)[217]、HyperGCN(HyperGraph Convolutional Network)[218]等模型使用了GCN模型對(duì)復(fù)雜關(guān)系進(jìn)行建模。

      當(dāng)前,異構(gòu)超圖領(lǐng)域還有許多亟待解決的難題,相關(guān)方法思路及存在的問題如表16所示。

      表16 異構(gòu)超圖表示方法對(duì)比Tab.16 Comparison of heterogeneoushypergraph representation methods

      5.2 知識(shí)超圖表示

      知識(shí)超圖表示學(xué)習(xí)是將超邊以及實(shí)體表示為低維稠密向量空間中的向量。異構(gòu)圖表示學(xué)習(xí)與知識(shí)圖譜表示學(xué)習(xí)兩個(gè)任務(wù)都是受到word2vec(word to vector)[219]啟發(fā)提出的;但是,知識(shí)圖譜中的表示學(xué)習(xí)更偏向關(guān)系建模,異構(gòu)圖表示學(xué)習(xí)側(cè)重于學(xué)習(xí)圖的結(jié)構(gòu)信息。

      知識(shí)超圖表示學(xué)習(xí)包括基于軟規(guī)則、基于翻譯、基于張量分解以及基于神經(jīng)網(wǎng)絡(luò)等方法。知識(shí)超圖表示的主要模型如圖11所示。

      圖11 知識(shí)超圖表示的主要模型Fig.11 Main modelsof knowledgehypergraph representation

      1)基于軟規(guī)則的知識(shí)超圖表示。

      基于軟規(guī)則的方法將關(guān)系作為謂詞,節(jié)點(diǎn)作為變量,通過設(shè)置關(guān)系推理的邏輯和約束條件進(jìn)行簡單推理。該方法可以很容易地處理可變的超關(guān)系(超邊大小可變),并且具有可解釋性。

      MLN首次將一階邏輯和概率圖模型相結(jié)合,是一個(gè)帶權(quán)重的一階知識(shí)庫。但是,該模型將概率添加到邏輯公式中,假設(shè)性太強(qiáng)。ProbLog(Probabilistic Prolog)[220]通過將SLD分辨率與布爾模型結(jié)合在一起,RLR(Relational Logistic Regression)[221]通過將邏輯回歸擴(kuò)展到關(guān)系模型中改進(jìn)了MLN模型。

      2)基于翻譯的知識(shí)超圖表示。

      基于翻譯的方法旨在將關(guān)系建模為在超關(guān)系事實(shí)中,實(shí)體之間的某種轉(zhuǎn)換操作。該方法可以處理可變的超關(guān)系數(shù)據(jù),并且操作較簡單。

      M-TransH(Multi-fold TransH)[187]將TransH擴(kuò)展到超關(guān)系數(shù)據(jù)中,是第一個(gè)基于翻譯的知識(shí)超圖表示模型。M-TransH將實(shí)體映射到相關(guān)的超平面,用映射結(jié)果的加權(quán)和定義評(píng)分函數(shù)。RAE(Relatedness Affiliated Embedding)[222]進(jìn)一步改進(jìn)了關(guān)聯(lián)性假設(shè)。

      3)基于張量分解的知識(shí)超圖表示。

      基于張量分解的方法將超關(guān)系事實(shí)表示為n階張量,通過張量的分解學(xué)習(xí)節(jié)點(diǎn)的嵌入。該方法大多使用規(guī)范多元分解(Canonical Polyadic Decomposition,CPD),取得了很好的性能;但是操作比較復(fù)雜,評(píng)分函數(shù)也只針對(duì)二元關(guān)系。

      SimplE(Simple Enhancement of Canonical Polyadic)[223]和ComplEx都是運(yùn)用二元關(guān)系的約束條件進(jìn)行運(yùn)算,難以用等價(jià)的運(yùn)算方式將其擴(kuò)展到超關(guān)系數(shù)據(jù)中。DistMult只針對(duì)對(duì)稱關(guān)系,難以建模反對(duì)稱、逆、組合關(guān)系,不能完全表達(dá)知識(shí)圖譜。為此,F(xiàn)atemi等[188]使用特定位置的卷積濾波器表示實(shí)體,針對(duì)所有關(guān)系類型進(jìn)行建模,實(shí)現(xiàn)了性能的極大提升。GETD(GEneralized Tensor Decomposition)[224]結(jié)合Tucker分解和Tensor Ring分解,將核心張量分解為k個(gè)三階張量(k大于超邊大小n),能完全表達(dá)所有關(guān)系類型,在滿足性能的同時(shí)減少模型的復(fù)雜性。

      4)基于神經(jīng)網(wǎng)絡(luò)的知識(shí)超圖表示。

      基于神經(jīng)網(wǎng)絡(luò)的模型能夠?qū)W習(xí)實(shí)體之間的交互信息、圖的拓?fù)浣Y(jié)構(gòu)信息等,在關(guān)系建模、結(jié)構(gòu)建模等方面提升了表示學(xué)習(xí)的性能,包括基于CNN的模型以及基于GNN的模型等。

      基于CNN的模型集中于學(xué)習(xí)一個(gè)超關(guān)系事實(shí)內(nèi)實(shí)體之間的交互信息。NaLP(N-ary Link Prediction)[225-226]等都是采用卷積以及全連接網(wǎng)絡(luò)對(duì)超關(guān)系事實(shí)進(jìn)行學(xué)習(xí),但是表示性能 較 差 。 HINGE(Hyper-relational knowledge Graph Embedding)[227]則采用2D卷積學(xué)習(xí)超關(guān)系事實(shí),該模型相較于NeuInfer實(shí)現(xiàn)了性能的極大提升。

      基于GNN的模型結(jié)合關(guān)系建模與圖結(jié)構(gòu)信息的學(xué)習(xí),極大提升了知識(shí)超圖表示學(xué)習(xí)的性能。Zhang等[216]采用GAT學(xué)習(xí)超關(guān)系事實(shí),但是忽略了關(guān)系的語義信息。Galkin等[228]采用GCN學(xué)習(xí)目標(biāo)實(shí)體的多跳領(lǐng)域信息,在學(xué)習(xí)關(guān)系重要性的同時(shí),學(xué)習(xí)圖的結(jié)構(gòu)信息。

      當(dāng)前,知識(shí)超圖領(lǐng)域亟待解決的難題是超邊大小不定問題,即超關(guān)系事實(shí)中n不定。相關(guān)模型解決該問題的思路以及存在的問題如表17所示。

      表17 知識(shí)超圖表示方法對(duì)比Tab.17 Comparison of knowledge hypergraph representation methods

      5.3 知識(shí)超圖三層架構(gòu)

      現(xiàn)有知識(shí)超圖普遍采用扁平化的結(jié)構(gòu)組織知識(shí),缺乏時(shí)空性的表達(dá),導(dǎo)致其時(shí)空關(guān)系模糊,知識(shí)更新與推理速度慢。因此,本文提出知識(shí)超圖三層架構(gòu),實(shí)現(xiàn)事理知識(shí)、概念知識(shí)、實(shí)例知識(shí)以及時(shí)空性的聯(lián)合表達(dá),如圖12所示。其顯著優(yōu)點(diǎn)包括:1)時(shí)空關(guān)系清晰明確;2)知識(shí)更新全面高效;3)知識(shí)推理快速可靠。

      圖12 知識(shí)超圖的三層架構(gòu)Fig.12 Three-layer architectureof knowledgehypergraph

      事理層中節(jié)點(diǎn)是具有一定抽象程度的泛化事件,例如“沖突”可表示罷工、集會(huì)示威等多個(gè)具體的沖突事件。事理層節(jié)點(diǎn)之間的邊是邏輯推理關(guān)系,例如“政治因素”“軍事因素”“輿論因素”“社會(huì)因素”等共同作用會(huì)導(dǎo)致“沖突”的發(fā)生,因此“政治因素”等與“沖突”之間用“因果”邊相連。

      概念層實(shí)體是實(shí)例實(shí)體的抽象表示,表示為抽象的詞,例如“地點(diǎn)”。概念層實(shí)體之間的邊是超邊,例如超邊“示威活動(dòng)”連接(原因,參與人員類型,發(fā)生時(shí)刻,地點(diǎn),示威內(nèi)容,持續(xù)時(shí)間)多個(gè)實(shí)體,能清晰表示概念實(shí)體之間的相關(guān)性。

      事理層與概念層之間的跨層關(guān)系表示事理節(jié)點(diǎn)與概念層超邊之間的關(guān)系,例如,事理層節(jié)點(diǎn)“沖突”對(duì)應(yīng)于概念層的超邊“示威活動(dòng)”。概念層與實(shí)例層之間的關(guān)系是概念實(shí)體與實(shí)例實(shí)體之間的映射關(guān)系,例如,概念實(shí)體“地點(diǎn)”與實(shí)例實(shí)體“內(nèi)比都”之間是映射關(guān)系。

      為了發(fā)現(xiàn)超圖中的隱式關(guān)聯(lián),實(shí)現(xiàn)深度推理,創(chuàng)新性地提出了時(shí)刻與時(shí)間兩個(gè)屬性,表達(dá)知識(shí)超圖的時(shí)空特性。其中,“時(shí)刻”屬性實(shí)體表示實(shí)體或超關(guān)系在特定時(shí)間點(diǎn)產(chǎn)生或發(fā)生。例如概念層的“發(fā)生時(shí)刻”以及實(shí)例層的“2020年2月2日”?!皶r(shí)間”屬性實(shí)體表示實(shí)體或超邊在特定時(shí)間間隔內(nèi)發(fā)生或是有效的。例如概念層的“持續(xù)時(shí)間”以及實(shí)例層的“兩個(gè)月”。根據(jù)時(shí)空特性,可以實(shí)現(xiàn)隱式關(guān)聯(lián)發(fā)現(xiàn)。例如只根據(jù)概念層“頒布政令”超邊與“示威活動(dòng)”超邊信息,難以推理出其之間的相關(guān)性;但是根據(jù)實(shí)例層“2020年2月1日”與“2020年2月2日”在時(shí)間軸上的前后關(guān)聯(lián)關(guān)系,可以推理出“頒布政令”與“示威活動(dòng)”之間可能具有因果關(guān)聯(lián)。

      在三層架構(gòu)中,通過層次之間的映射關(guān)系,例如概念實(shí)體“發(fā)生時(shí)刻”與實(shí)例實(shí)體“2020年2月2日”的映射,能實(shí)現(xiàn)知識(shí)的相互補(bǔ)充;并且根據(jù)這種映射關(guān)系,能夠在知識(shí)超圖中快速定位新知識(shí),提高知識(shí)更新速度。通過概念層和實(shí)例層的時(shí)空性表達(dá),例如“2020年2月1日”和“2020年2月2日”,可以發(fā)現(xiàn)“頒布政令”與“示威活動(dòng)”之間的隱式關(guān)聯(lián),實(shí)現(xiàn)深度推理?;诖穗[式關(guān)聯(lián)發(fā)現(xiàn),進(jìn)而可以推理“政治因素”與“沖突”之間的因果關(guān)系,實(shí)現(xiàn)事件推理。通過層次之間信息的補(bǔ)充以及時(shí)空性表達(dá),能縮減推理的查詢空間,從而提高知識(shí)推理速度。

      6 典型應(yīng)用

      隨著人工智能推理需求不斷增強(qiáng),知識(shí)圖譜及超圖在許多領(lǐng)域得到了廣泛應(yīng)用。

      6.1 應(yīng)用方向

      知識(shí)圖譜及超圖的應(yīng)用主要集中在語義搜索、知識(shí)問答、推薦與決策等方面。

      6.1.1 語義搜索

      語義搜索旨在從語義層次上理解用戶的檢索需求,尋找與之匹配的資源。比如在使用搜索引擎搜索“緬甸的首都”時(shí),返回結(jié)果中排首位的是“內(nèi)比都”。

      語義搜索包括基于文檔的信息檢索和基于知識(shí)圖譜的語義搜索?;谖臋n的信息檢索屬于輕量級(jí)語義搜索,通常采用字面值一一對(duì)應(yīng)或字符串相似度等資源召回方式。其缺點(diǎn)是無法處理同名、別名和復(fù)雜情形。基于知識(shí)圖譜的語義搜索屬于重量級(jí)語義搜索,能夠?qū)φZ義進(jìn)行顯式和形式化建模。傳統(tǒng)的語義搜索引擎,采用將問題拆分成關(guān)鍵詞、使用限定符號(hào)等方法?;谥R(shí)圖譜的語義搜索能處理更加復(fù)雜的問題,而無需采用以上方法,并且能夠更清晰地理解用戶的查詢意圖,返回相關(guān)度高、質(zhì)量好的資源,使得語義搜索在工業(yè)界及學(xué)術(shù)界的優(yōu)勢越發(fā)顯著。

      6.1.2 知識(shí)問答

      知識(shí)問答(Knowledge Base Question Answering,KBQA)是一種將問題帶入知識(shí)庫尋求答案的問答系統(tǒng)。知識(shí)問答能將用戶輸入的問題轉(zhuǎn)換為客觀世界的實(shí)體,而非抽象的字符串。即將自然語言問題通過不同的方法映射為結(jié)構(gòu)化查詢,然后在知識(shí)圖譜中獲取答案。

      知識(shí)問答包括基于語法規(guī)則的問答和基于知識(shí)圖譜的問答。傳統(tǒng)的問答系統(tǒng)基于大量的語法規(guī)則,由于缺乏泛化能力,在搭建新領(lǐng)域問答系統(tǒng)時(shí),需要重新定義規(guī)則。基于知識(shí)圖譜的問答提供了實(shí)體之間詳細(xì)的關(guān)系,有助于進(jìn)一步實(shí)現(xiàn)隱式推理,提高問答質(zhì)量,提高問答速度,適應(yīng)更通用的場景,使推理具有更強(qiáng)的解釋性。未來,基于知識(shí)圖譜的問答系統(tǒng)可以實(shí)現(xiàn)從單輪問答到多輪交互。

      6.1.3 推薦與決策

      推薦系統(tǒng)是解決信息過載的一個(gè)有效方法,可以向沒有明確目的的用戶推薦可能感興趣的項(xiàng)目列表?;谥R(shí)圖譜的方法能夠?qū)崿F(xiàn)個(gè)性化推薦,并且使推薦具有可解釋性。

      傳統(tǒng)的推薦系統(tǒng)主要考慮用戶序列偏好,卻忽略了用戶細(xì)致偏好,如用戶具體喜歡哪個(gè)物品的哪些屬性等;而知識(shí)圖譜提供了實(shí)體與實(shí)體之間更深層次、更長范圍的關(guān)聯(lián),增強(qiáng)了推薦算法的挖掘能力,提高了準(zhǔn)確性和多樣性,并可以有效彌補(bǔ)交互信息的稀疏或缺失(冷啟動(dòng)問題)。

      決策系統(tǒng)主要以決策主題為中心,通過構(gòu)建決策主題相關(guān)知識(shí)庫、模型庫和研究方法庫,為決策主題提供全方位、多層次的決策支持和知識(shí)服務(wù)。知識(shí)圖譜可以幫助決策沉淀出規(guī)則,提高決策模型的準(zhǔn)確性和關(guān)聯(lián)性。

      6.2 應(yīng)用領(lǐng)域

      知識(shí)圖譜及超圖能夠更加快速、高效地處理多源異構(gòu)數(shù)據(jù),并進(jìn)行關(guān)聯(lián)分析,已在軍事、醫(yī)療、交通、金融等眾多領(lǐng)域得到廣泛應(yīng)用。本節(jié)將介紹知識(shí)圖譜及超圖在特定領(lǐng)域的相關(guān)應(yīng)用。

      6.2.1 軍事領(lǐng)域

      隨著戰(zhàn)場信息化水平不斷提高,傳統(tǒng)的信息搜索和查詢方式已經(jīng)無法滿足大量戰(zhàn)場信息和軍事知識(shí)的獲取與分析需求。構(gòu)建基于軍事信息庫的知識(shí)圖譜,可以為作戰(zhàn)指揮人員提供更加精確的情報(bào),極大地提高部隊(duì)作戰(zhàn)效率。

      基于軍事知識(shí)圖譜,建立軍事武器問答系統(tǒng)和聯(lián)合作戰(zhàn)信息服務(wù)系統(tǒng),可以實(shí)現(xiàn)軍事輔助決策。未來,軍事知識(shí)圖譜能夠提供大規(guī)模自主知識(shí)約束空間解決方案及智慧指揮決策解決方案,在虛擬情報(bào)參謀、隱含知識(shí)發(fā)現(xiàn)、情報(bào)智能關(guān)聯(lián)等場景中發(fā)揮重要作用,提升部隊(duì)作戰(zhàn)能力。

      6.2.2 醫(yī)療領(lǐng)域

      智能醫(yī)療的關(guān)鍵是從海量、異構(gòu)、動(dòng)態(tài)的醫(yī)療系統(tǒng)中提取有效的醫(yī)學(xué)知識(shí),通過整合臨床醫(yī)學(xué)數(shù)據(jù),建立醫(yī)療知識(shí)圖譜,實(shí)現(xiàn)核心醫(yī)學(xué)概念的全方位覆蓋以及臨床醫(yī)學(xué)知識(shí)的高效分類整理和規(guī)范化表達(dá)。

      知識(shí)圖譜具有更接近于人類的認(rèn)知思維模式,能夠提高醫(yī)療信息系統(tǒng)的智能化水平,為醫(yī)療領(lǐng)域提供了從海量的醫(yī)學(xué)文本和圖像信息中抽取結(jié)構(gòu)化知識(shí)的手段?;卺t(yī)療知識(shí)圖譜,可以實(shí)現(xiàn)醫(yī)療知識(shí)問答、智能輔助診療、醫(yī)療質(zhì)量控制及疾病風(fēng)險(xiǎn)評(píng)估等,具有廣闊的發(fā)展前景。

      6.2.3 交通領(lǐng)域

      隨著城市規(guī)模迅速擴(kuò)張,交通線路規(guī)模不斷龐大,空中交通流量大幅增多,公共交通所占比重不斷增加。交通知識(shí)圖譜可以實(shí)現(xiàn)交通流量分析建模、航空交通管理以及公共場景挖掘等。

      交通知識(shí)圖譜可以實(shí)現(xiàn)同乘人員識(shí)別提取、公交站點(diǎn)群出行量和運(yùn)力挖掘、最大公交客流提取識(shí)別、線路站點(diǎn)上下車客流提取等,為公共交通領(lǐng)域提供了有效的決策和參考。未來,隨著無人駕駛技術(shù)的普及,智能交通概念深入城市軌道與公路系統(tǒng),交通知識(shí)圖譜將支撐交通部門決策,生成動(dòng)態(tài)交通信息對(duì)事故進(jìn)行實(shí)時(shí)預(yù)警、規(guī)避交通風(fēng)險(xiǎn)。

      6.2.4 金融領(lǐng)域

      由于投資的高風(fēng)險(xiǎn)性,金融行業(yè)需要更為準(zhǔn)確和可靠的實(shí)時(shí)數(shù)據(jù)。知識(shí)圖譜作為數(shù)據(jù)驅(qū)動(dòng)的人工智能,能夠存儲(chǔ)金融資訊、行情等海量數(shù)據(jù)中包含的實(shí)體、關(guān)系和屬性。

      金融知識(shí)圖譜可以實(shí)現(xiàn)金融咨詢推薦,風(fēng)險(xiǎn)控制評(píng)估,依據(jù)生成資訊的多維智能標(biāo)簽,精準(zhǔn)掌握復(fù)雜信息中的隱藏風(fēng)險(xiǎn)。通過獲取開源信息,基于知識(shí)圖譜中大量金融資訊的關(guān)聯(lián)信息,識(shí)別命名實(shí)體并提取相關(guān)股票之間的業(yè)務(wù)往來關(guān)系,并結(jié)合相關(guān)股票的新聞,預(yù)測股票走勢。未來,基于知識(shí)圖譜的金融數(shù)據(jù)平臺(tái),在信息隱含關(guān)聯(lián)挖掘方面有著不可替代的能力,促進(jìn)金融升級(jí)轉(zhuǎn)型。

      6.2.5 其他領(lǐng)域

      除此以外,知識(shí)圖譜在教育、通信等領(lǐng)域也有廣泛應(yīng)用,比如學(xué)科問答機(jī)器人、通信故障定位分析、網(wǎng)絡(luò)安全監(jiān)測等。

      目前,大規(guī)模知識(shí)圖譜在智能語義搜索、知識(shí)問答、演化分析、對(duì)話理解等方面的應(yīng)用處于初級(jí)階段,潛在應(yīng)用領(lǐng)域廣泛,推廣前景廣闊。從知識(shí)圖譜應(yīng)用發(fā)展趨勢來看,當(dāng)前正值通用知識(shí)圖譜應(yīng)用轉(zhuǎn)向領(lǐng)域知識(shí)圖譜應(yīng)用的階段。

      6.3 未來方向

      在未來,無論是軍用還是民用領(lǐng)域,融合知識(shí)圖譜與深度學(xué)習(xí)技術(shù)已成為人工智能進(jìn)一步發(fā)展的重要思路。

      在知識(shí)表示方面,通過研究事理邏輯知識(shí)的表示,描述事件之間的模式和演化規(guī)律。在知識(shí)推理方面,使用類似于圖網(wǎng)絡(luò)的統(tǒng)一框架,提高推理效率;通過結(jié)合邏輯規(guī)則和概率圖等,實(shí)現(xiàn)更快、更準(zhǔn)、更全且解釋性更強(qiáng)的推理。在應(yīng)用方面,基于大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)自動(dòng)構(gòu)建知識(shí)圖譜,使其具有較強(qiáng)的可拓展性。此外,研究包含時(shí)空屬性的動(dòng)態(tài)知識(shí)圖譜,可以解決傳統(tǒng)知識(shí)表示與推理的局限性問題。

      總體而言,知識(shí)圖譜將賦能認(rèn)知智能,具有廣泛且多樣的應(yīng)用需求,能夠產(chǎn)生巨大社會(huì)價(jià)值,對(duì)社會(huì)結(jié)構(gòu)產(chǎn)生深遠(yuǎn)影響。

      7 結(jié)語

      知識(shí)圖譜突破了傳統(tǒng)的數(shù)據(jù)存儲(chǔ)及使用方式,以圖結(jié)構(gòu)呈現(xiàn)各類領(lǐng)域知識(shí),為人工智能技術(shù)發(fā)展和模型推理提供了堅(jiān)實(shí)的知識(shí)支撐。本文對(duì)知識(shí)圖譜和知識(shí)超圖的研究工作和應(yīng)用現(xiàn)狀進(jìn)行了闡述、分析和總結(jié),從知識(shí)圖譜基本概念出發(fā),系統(tǒng)地介紹了知識(shí)表示與存儲(chǔ)方式、知識(shí)圖譜構(gòu)建技術(shù)、知識(shí)推理方法和知識(shí)超圖表示方法。創(chuàng)新性提出三層架構(gòu)的知識(shí)超圖,表示真實(shí)世界中各類復(fù)雜知識(shí)關(guān)系,實(shí)現(xiàn)邏輯結(jié)構(gòu)清晰、時(shí)空關(guān)系明確的知識(shí)快速推理。此外,結(jié)合技術(shù)研究進(jìn)展,介紹了知識(shí)圖譜和知識(shí)超圖的實(shí)際應(yīng)用,并作出展望。希望綜述內(nèi)容能夠?yàn)橹R(shí)圖譜和知識(shí)超圖領(lǐng)域研究提供理論指導(dǎo)和創(chuàng)新思路。

      猜你喜歡
      圖譜實(shí)體語義
      繪一張成長圖譜
      語言與語義
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      军事| 昆明市| 都兰县| 揭阳市| 平果县| 雷波县| 内江市| 岳西县| 保定市| 高邮市| 米脂县| 鹤庆县| 东城区| 辉县市| 佳木斯市| 浪卡子县| 库尔勒市| 收藏| 汉川市| 云安县| 嫩江县| 小金县| 定兴县| 鄂托克前旗| 靖边县| 咸丰县| 文安县| 怀集县| 和顺县| 宁蒗| 延川县| 重庆市| 镇康县| 奎屯市| 嘉义市| 班玛县| 定南县| 安多县| 巧家县| 沾化县| 兴山县|