本體和知識圖譜的比較研究

2021-08-03 03:16:38楊延云杜建強熊旺平羅計根賀佳江西中醫(yī)藥大學(xué)計算機學(xué)院南昌330004

江西中醫(yī)藥大學(xué)學(xué)報 2021年4期

★ 楊延云杜建強熊旺平羅計根賀佳（江西中醫(yī)藥大學(xué)計算機學(xué)院南昌 330004）

本體和知識圖譜同是重要的知識組織表達形式，目前已經(jīng)被普遍應(yīng)用于人工智能、自然語言處理、軟件工程、醫(yī)學(xué)信息學(xué)以及圖書館學(xué)等領(lǐng)域［1-2］，雖然二者有一定的內(nèi)在聯(lián)系，但是它們還是有實質(zhì)上的差別。為此，本篇論文對本體和知識圖譜之間的聯(lián)系和區(qū)別展開相關(guān)探索和研究。

1 相關(guān)知識及研究基礎(chǔ)

1.1 本體追根溯源，本體（Ontology）概念來源于哲學(xué)，在20世紀(jì)90年代被引入到人工智能、圖書情報和知識工程等［3-4］領(lǐng)域，從此本體一直成為眾多領(lǐng)域的熱門研究話題。關(guān)于本體的定義一直是眾說紛紜，沒有定論。Studer等人在1998年提出本體的定義：本體是共享概念模型的明確的形式化規(guī)范說明［5］。此定義在學(xué)術(shù)界具有較大的影響，對于本體研究具有重要意義。

在本體研究發(fā)展的過程中，描述本體的語言有很多種，其中基于謂詞邏輯的本體描述語言［6］和基于Web的本體描述語言［7］是最具代表性的兩類。通常來說，根據(jù)本體的應(yīng)用領(lǐng)域不同可以將本體分為領(lǐng)域本體和上層本體兩類。

1.2 知識圖譜知識圖譜（Knowledge Graph，KG）本質(zhì)上是一種大規(guī)模的語義網(wǎng)絡(luò)，其概念于2012年5月由Google正式提出，初衷是為了用戶能夠更快更簡單地發(fā)現(xiàn)新的信息和知識。知識圖譜由節(jié)點和邊組成，其中節(jié)點表示實體或概念，邊代表兩個實體或概念之間的語義關(guān)系，屬性是一個鍵值對，每個實體或關(guān)系可以有一個或多個屬性，為實體和關(guān)系提供信息。

圖1 是一個知識圖譜示例：其中，統(tǒng)計學(xué)習(xí)方法就是一個課程實體，李明是一個教師實體，工號是其屬性，屬性值是20171001，李華是一個學(xué)生實體。李明和統(tǒng)計學(xué)習(xí)方法之間的關(guān)系是授課，李華和統(tǒng)計學(xué)習(xí)方法之間的關(guān)系是選課。同時，知識圖譜也可以描述各種概念之間的關(guān)系，例如研究生和學(xué)生的關(guān)系是概念和子概念之間的關(guān)系。

圖1 知識圖譜示例

2 本體與知識圖譜的聯(lián)系

知識圖譜的構(gòu)建過程如圖2所示，其中包括息抽取、知識表示、知識融合、知識推理四個部分［8］。信息抽取是從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中通過自動化或者半自動化的技術(shù)抽取有價值的信息，其中包括實體抽取，語義類抽取，屬性和屬性值抽取，關(guān)系抽取；知識表示方法主要是以RDF的三元組來符號性描述實體間的關(guān)系，近年來采用深度學(xué)習(xí)技術(shù)將實體的語義信息表示為稠密低維實值向量的方法開始興起［9］。對于本體和知識圖譜的聯(lián)系主要涉及知識融合和知識推理這兩個部分。

圖2 知識圖譜體系架構(gòu)

2.1 知識融合下二者的聯(lián)系知識融合指將來自多個數(shù)據(jù)源的知識進行融合后集成到知識圖譜中［10］。就邏輯結(jié)構(gòu)而言，知識圖譜可分為模式層與數(shù)據(jù)層，模式層構(gòu)建在數(shù)據(jù)層之上。知識圖譜的模式層通常采用本體庫來保存，而數(shù)據(jù)層主要是采用圖數(shù)據(jù)庫來管理。知識融合階段主要是對數(shù)據(jù)進行本體對齊和實體匹配。

本體對齊就是判斷和處理來自不同本體的兩個實體是否指向一致，達到數(shù)據(jù)的統(tǒng)一［11］，發(fā)生在知識圖譜的模式層，涉及的是模式層的融合，包括概念的合并，概念上下位關(guān)系合并，概念的屬性定義合并。而實體匹配是為了發(fā)現(xiàn)來源于多個數(shù)據(jù)源而具有不同ID卻代表同一對象的實體，將這些實體融合為一個具有全局唯一ID的實體，然后添加到知識圖譜中，主要發(fā)生在數(shù)據(jù)層，更多涉及的是數(shù)據(jù)層的融合，匹配結(jié)果類型分為一對一，一對多和多對一3種。

由于知識圖譜的構(gòu)建為了保證模式層的可靠性，模式層基本上通過人工校驗。因此，知識融合的主要任務(wù)是數(shù)據(jù)層的融合［12］。

2.2 知識推理下二者的聯(lián)系知識推理是在現(xiàn)有知識圖譜的基礎(chǔ)上通過各種方法進一步挖掘隱含的知識、結(jié)論［13］或識別出知識圖譜中錯誤的知識，從而豐富和拓展知識圖譜，主要分為本體推理和規(guī)則推理［14］，推理的對象不僅僅局限于實體層面還涉及本體庫中概念的層次結(jié)構(gòu)等。

基于本體的推理，體現(xiàn)在本體層面，主要是通過預(yù)定義的本體公理進行推理，例如對于性別男、女是交集為空的兩個類，那么一定不會存在一個人的性別既是男又是女?；谧远x規(guī)則的推理，可以根據(jù)特定的場景制定規(guī)則，來實現(xiàn)自定義的推理過程。推理關(guān)系規(guī)則，定義父親的母親是祖母，已知a是b的父親，b是c的母親，則可以推出a是c的祖母。

3 本體與知識圖譜的區(qū)別

對于本體和知識圖譜表達的信息方面而言，本體表達的是領(lǐng)域內(nèi)共同認可的概念和概念間的關(guān)系，它反映的是常識或相對恒定的知識，不具備情報價值。譬如，Wordnet［15］、Hownet［16］和Cyc［17］都是國內(nèi)外主要的通用本體庫，是由眾多行業(yè)專家經(jīng)過多年手工編制的結(jié)果，其知識具備穩(wěn)定性而不具備情報性，通常知識圖譜則是情報挖掘的結(jié)果［18］。知識圖譜構(gòu)建過程的知識抽取環(huán)節(jié)，從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中進行信息抽取，形成知識存入知識圖譜中。谷歌知識圖譜中所涉及的實體、實體間的關(guān)系以及其他相關(guān)信息并不是相對恒定的知識，具有流動性。

對于自然語言理解而言，語義消歧是其中的基礎(chǔ)問題，是研究熱點也是研究難點。在句法知識或者單獨的句法不能實現(xiàn)消歧的情況下，本體作為一個支撐性的知識，有助于實現(xiàn)語義區(qū)分，實現(xiàn)對語句的正確理解。比如，“他雞吃了” 和 “雞他吃了”，句法分析本身無法區(qū)分誰吃了誰。這種情況下，本體中的常識可以起到作用，因為在常識中，“雞”通常是“人”的食物，這樣就可以判斷是“他”吃了“雞”。語言理解之后的信息抽取，涉及哪些實體以及實體間的發(fā)生何種關(guān)系，都可以從知識圖譜中得到。

對于結(jié)構(gòu)而言，本體描述了知識圖譜的模式層，提供對相關(guān)領(lǐng)域知識的共同理解，突出和強調(diào)概念以及概念之間的關(guān)聯(lián)關(guān)系［19］。知識圖譜則是在本體構(gòu)建的模式層的基礎(chǔ)上添加更多實體的信息，不斷豐富和擴充。

4 總結(jié)

隨著互聯(lián)網(wǎng)、人工智能等行業(yè)的迅猛發(fā)展，本體和知識圖譜作為重要的知識組織表達手段，不僅可以將海量數(shù)據(jù)表達成更接近人類認知現(xiàn)實世界的形式，還提供一種更好的組織、管理和利用信息的方式。加之，本體和知識圖譜相輔相成的緊密關(guān)系，只有將二者共同發(fā)展強大才能滿足人類對海量數(shù)據(jù)管理和利用的需求。