★ 楊延云 杜建強 熊旺平 羅計根 賀佳(江西中醫(yī)藥大學(xué)計算機學(xué)院 南昌 330004)
本體和知識圖譜同是重要的知識組織表達形式,目前已經(jīng)被普遍應(yīng)用于人工智能、自然語言處理、軟件工程、醫(yī)學(xué)信息學(xué)以及圖書館學(xué)等領(lǐng)域[1-2],雖然二者有一定的內(nèi)在聯(lián)系,但是它們還是有實質(zhì)上的差別。為此,本篇論文對本體和知識圖譜之間的聯(lián)系和區(qū)別展開相關(guān)探索和研究。
1.1 本體追根溯源,本體(Ontology)概念來源于哲學(xué),在20世紀(jì)90年代被引入到人工智能、圖書情報和知識工程等[3-4]領(lǐng)域,從此本體一直成為眾多領(lǐng)域的熱門研究話題。關(guān)于本體的定義一直是眾說紛紜,沒有定論。Studer等人在1998年提出本體的定義:本體是共享概念模型的明確的形式化規(guī)范說明[5]。此定義在學(xué)術(shù)界具有較大的影響,對于本體研究具有重要意義。
在本體研究發(fā)展的過程中,描述本體的語言有很多種,其中基于謂詞邏輯的本體描述語言[6]和基于Web的本體描述語言[7]是最具代表性的兩類。通常來說,根據(jù)本體的應(yīng)用領(lǐng)域不同可以將本體分為領(lǐng)域本體和上層本體兩類。
1.2 知識圖譜知識圖譜(Knowledge Graph,KG)本質(zhì)上是一種大規(guī)模的語義網(wǎng)絡(luò),其概念于2012年5月由Google正式提出,初衷是為了用戶能夠更快更簡單地發(fā)現(xiàn)新的信息和知識。知識圖譜由節(jié)點和邊組成,其中節(jié)點表示實體或概念,邊代表兩個實體或概念之間的語義關(guān)系,屬性是一個鍵值對,每個實體或關(guān)系可以有一個或多個屬性,為實體和關(guān)系提供信息。
圖1 是一個知識圖譜示例:其中,統(tǒng)計學(xué)習(xí)方法就是一個課程實體,李明是一個教師實體,工號是其屬性,屬性值是20171001,李華是一個學(xué)生實體。李明和統(tǒng)計學(xué)習(xí)方法之間的關(guān)系是授課,李華和統(tǒng)計學(xué)習(xí)方法之間的關(guān)系是選課。同時,知識圖譜也可以描述各種概念之間的關(guān)系,例如研究生和學(xué)生的關(guān)系是概念和子概念之間的關(guān)系。
圖1 知識圖譜示例
知識圖譜的構(gòu)建過程如圖2所示,其中包括息抽取、知識表示、知識融合、知識推理四個部分[8]。信息抽取是從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中通過自動化或者半自動化的技術(shù)抽取有價值的信息,其中包括實體抽取,語義類抽取,屬性和屬性值抽取,關(guān)系抽取;知識表示方法主要是以RDF的三元組來符號性描述實體間的關(guān)系,近年來采用深度學(xué)習(xí)技術(shù)將實體的語義信息表示為稠密低維實值向量的方法開始興起[9]。對于本體和知識圖譜的聯(lián)系主要涉及知識融合和知識推理這兩個部分。
圖2 知識圖譜體系架構(gòu)
2.1 知識融合下二者的聯(lián)系知識融合指將來自多個數(shù)據(jù)源的知識進行融合后集成到知識圖譜中[10]。就邏輯結(jié)構(gòu)而言,知識圖譜可分為模式層與數(shù)據(jù)層,模式層構(gòu)建在數(shù)據(jù)層之上。知識圖譜的模式層通常采用本體庫來保存,而數(shù)據(jù)層主要是采用圖數(shù)據(jù)庫來管理。知識融合階段主要是對數(shù)據(jù)進行本體對齊和實體匹配。
本體對齊就是判斷和處理來自不同本體的兩個實體是否指向一致,達到數(shù)據(jù)的統(tǒng)一[11],發(fā)生在知識圖譜的模式層,涉及的是模式層的融合,包括概念的合并,概念上下位關(guān)系合并,概念的屬性定義合并。而實體匹配是為了發(fā)現(xiàn)來源于多個數(shù)據(jù)源而具有不同ID卻代表同一對象的實體,將這些實體融合為一個具有全局唯一ID的實體,然后添加到知識圖譜中,主要發(fā)生在數(shù)據(jù)層,更多涉及的是數(shù)據(jù)層的融合,匹配結(jié)果類型分為一對一,一對多和多對一3種。
由于知識圖譜的構(gòu)建為了保證模式層的可靠性,模式層基本上通過人工校驗。因此,知識融合的主要任務(wù)是數(shù)據(jù)層的融合[12]。
2.2 知識推理下二者的聯(lián)系知識推理是在現(xiàn)有知識圖譜的基礎(chǔ)上通過各種方法進一步挖掘隱含的知識、結(jié)論[13]或識別出知識圖譜中錯誤的知識,從而豐富和拓展知識圖譜,主要分為本體推理和規(guī)則推理[14],推理的對象不僅僅局限于實體層面還涉及本體庫中概念的層次結(jié)構(gòu)等。
基于本體的推理,體現(xiàn)在本體層面,主要是通過預(yù)定義的本體公理進行推理,例如對于性別男、女是交集為空的兩個類,那么一定不會存在一個人的性別既是男又是女?;谧远x規(guī)則的推理,可以根據(jù)特定的場景制定規(guī)則,來實現(xiàn)自定義的推理過程。推理關(guān)系規(guī)則,定義父親的母親是祖母,已知a是b的父親,b是c的母親,則可以推出a是c的祖母。
對于本體和知識圖譜表達的信息方面而言,本體表達的是領(lǐng)域內(nèi)共同認可的概念和概念間的關(guān)系,它反映的是常識或相對恒定的知識,不具備情報價值。譬如,Wordnet[15]、Hownet[16]和Cyc[17]都是國內(nèi)外主要的通用本體庫,是由眾多行業(yè)專家經(jīng)過多年手工編制的結(jié)果,其知識具備穩(wěn)定性而不具備情報性,通常知識圖譜則是情報挖掘的結(jié)果[18]。知識圖譜構(gòu)建過程的知識抽取環(huán)節(jié),從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中進行信息抽取,形成知識存入知識圖譜中。谷歌知識圖譜中所涉及的實體、實體間的關(guān)系以及其他相關(guān)信息并不是相對恒定的知識,具有流動性。
對于自然語言理解而言,語義消歧是其中的基礎(chǔ)問題,是研究熱點也是研究難點。在句法知識或者單獨的句法不能實現(xiàn)消歧的情況下,本體作為一個支撐性的知識,有助于實現(xiàn)語義區(qū)分,實現(xiàn)對語句的正確理解。比如,“他雞吃了” 和 “雞他吃了”,句法分析本身無法區(qū)分誰吃了誰。這種情況下,本體中的常識可以起到作用,因為在常識中,“雞”通常是“人”的食物,這樣就可以判斷是“他”吃了“雞”。語言理解之后的信息抽取,涉及哪些實體以及實體間的發(fā)生何種關(guān)系,都可以從知識圖譜中得到。
對于結(jié)構(gòu)而言,本體描述了知識圖譜的模式層,提供對相關(guān)領(lǐng)域知識的共同理解,突出和強調(diào)概念以及概念之間的關(guān)聯(lián)關(guān)系[19]。知識圖譜則是在本體構(gòu)建的模式層的基礎(chǔ)上添加更多實體的信息,不斷豐富和擴充。
隨著互聯(lián)網(wǎng)、人工智能等行業(yè)的迅猛發(fā)展,本體和知識圖譜作為重要的知識組織表達手段,不僅可以將海量數(shù)據(jù)表達成更接近人類認知現(xiàn)實世界的形式,還提供一種更好的組織、管理和利用信息的方式。加之,本體和知識圖譜相輔相成的緊密關(guān)系,只有將二者共同發(fā)展強大才能滿足人類對海量數(shù)據(jù)管理和利用的需求。