李云暢
基于本體的數字圖書館智能檢索系統(tǒng)設計
李云暢
內蒙古財經大學,內蒙古 呼和浩特 010070
文章對數字圖書館檢索現(xiàn)狀進行分析,提出了構建基于本體的數字圖書館智能檢索系統(tǒng)。在論述本體理論的基礎上,從設計思想、系統(tǒng)模型角度介紹了數字圖書館智能檢索系統(tǒng),并提出了智能檢索系統(tǒng)的設計方法,包括構建數字資源本體管理模塊、用戶輸入及智能拓展模塊、智能檢索模塊及結果反饋模塊。
本體;數字圖書館;智能檢索系統(tǒng);設計
隨著近年來我國科學技術和現(xiàn)代通訊技術的快速發(fā)展,數字圖書館為數字用戶知識信息的精準檢索創(chuàng)造了有利條件。傳統(tǒng)模式下的數字圖書館,其信息組織形式無法清晰地表達信息內部組織關系和內部邏輯,僅依靠關鍵詞層面的信息檢索不能體現(xiàn)信息內部的語義關聯(lián),系統(tǒng)結構不兼容導致操作不規(guī)范,這些原因造成使用數字圖書館檢索的結果偏離用戶的實際需求,常會出現(xiàn)無效檢索的現(xiàn)象[1]。因此,迫切需要一種新的技術對數字圖書館傳統(tǒng)信息檢索方式進行革新。本文提出基于本體的數字圖書館智能檢索系統(tǒng),希望能幫助數字圖書館有效提高信息檢索效率,解決檢索結果準確率偏低及共享使用中存在的問題。
本體的概念最早源于哲學,是人們從哲學角度認識事物組織模式的一種方法,是對客觀事物組織系統(tǒng)的詳細解釋和說明,關注現(xiàn)實事物邏輯層面上的抽象本質。近年來,本體學或本體論(Ontology)在信息系統(tǒng)領域中的研究和應用越來越普遍,其重要性在電子商務、語義網絡、企業(yè)、信息集成、自然語言處理、知識工程、數據庫等不同領域得到了認可和重視[2],本體在數字科學領域的使用得到迅速發(fā)展。
學術界認為本體是關于事物本質的共享觀念。對于知識信息而言,本體能在語義和邏輯層面描述知識信息的內部結構,反映知識信息的內部邏輯,是一種有效的知識組織模型。在知識利用方面,本體更加關注知識概念在語義層面的關聯(lián),是關于知識概念、規(guī)則、關系的集合。應用本體的目的是基于知識概念在語義層面關聯(lián)捕獲相關學科領域的信息,基于概念之間的邏輯關系使人們能對概念共享和理解,依據人們對概念達成的共識確定描述知識概念的專用語,并以不同方法、工具、手段及概念之間的邏輯關系給予這些術語科學的定義[3]。
本體理論可以實現(xiàn)對知識信息的系統(tǒng)化、標準化加工,使知識使用標準化。本體在知識加工利用方面有著深度的邏輯性、關聯(lián)性、層次性,基于知識概念內部邏輯關系確定的專業(yè)術語實現(xiàn)對客觀事物通用化、標準化的描述,并使得這種源于知識概念的知識系統(tǒng)更加完善。與此同時,要在專業(yè)的學科領域實現(xiàn)對知識信息的清晰描述,必須對該學科使用的專業(yè)術語進行科學化界定,并使得這種科學化描述得到全體成員的認可,這樣才能實現(xiàn)知識描述的標準化,使源于該學科的學術用語具有良好的通用性。此外,知識組織利用的標準化、通用化也可以借助學科專業(yè)術語的知識系統(tǒng)清晰地表達出來,實現(xiàn)全體共享[4]。
用戶在特定學科領域的語義層面實現(xiàn)實時信息共用共享。信息媒介的特點是跨系統(tǒng)、跨平臺、多領域傳播,本體若想在知識信息傳播過程中保持自身可組織、可利用的特性,就必須將不同知識觀點及不同學科背景的用戶、平臺、知識概念集中到統(tǒng)一的系統(tǒng)內,這樣使知識概念語義層面的邏輯關系能清晰表達出來。與此同時,對于新系統(tǒng)、新平臺的開發(fā),可以重用該學科領域中的原有本體,這樣可以節(jié)約研發(fā)成本、縮短系統(tǒng)和平臺研發(fā)的周期,避免資源重復建設[5]。
通常而言,數字圖書館體系的構建需要分為 7個步驟。第一步,根據數字圖書館知識信息具有的概念及內部邏輯,確定本體的組織區(qū)域和使用范圍,規(guī)劃知識資源的組織方式;第二步,對知識本體進行充分研究,在對知識信息覆蓋的學科領域分類之后,衡量能否對知識本體進一步完善;第三步,確定涉及不同學科領域本體的概念,并根據知識概念的內部邏輯關系和語義層面的關聯(lián)確定專業(yè)的學術用語,并使這種學術用語得到全體成員認可;第四步,以自定向上、自定向下的方式確定數字圖書館本體的定義類及類的等級體系;第五步,根據用戶的需求及可能選擇的知識檢索方式確定本體定義類的屬性、價值,本體的概念屬性及定義對象屬性;第六步,對用戶可能使用的本體屬性進行界定,其中包括本體的值域、基數、類型等;第七步,根據學科術語、本體定義類、類的等級體系、屬性、價值、本體的概念及定義對象屬性創(chuàng)建實例,基于語義層面以專業(yè)的學術用語及本體的概念進行檢索查詢。由此,完成了數字圖書館本體的構建,按照本體的概念、類型、屬性實現(xiàn)精準快速的查詢。
目前,數字圖書館智能檢索技術可以實現(xiàn)用戶在檢索界面輸入關鍵詞進行知識查詢,用戶使用自然語言輸入的關鍵詞很難實現(xiàn)精準的知識資源匹配,缺少對用戶輸入的自然語言語義層面的清晰理解。在檢索結果層面,只是將用戶需要的知識概念表達出來,還不夠深入、精準地查詢知識資源?;诒倔w的數字圖書館知識智能檢索技術不僅能對用戶輸入的關鍵詞進行深入理解,還能向用戶精準匹配知識資源,以及將滿足用戶個性化需求的專業(yè)學科領域的知識體系清晰表達出來,這樣使用戶更加精準、全面、深入了解自己所需知識。值得注意的是,用戶使用數字圖書館進行檢索運用的都是自然語言,雖然具有較強的通用性,但是不能很好地進行轉換以及自由控制,這就使用戶不能實現(xiàn)精準查詢。而基于本體的數字圖書館智能檢索技術可以根據用戶需求對自然語言進行標注、挖掘,將自然語言轉換為可供用戶理解的本體檢索形式,不僅能促進用戶在語義層面對知識信息的精準理解,也進一步提高了知識檢索的準確率。
基于本體的數字圖書館智能檢索技術將與本體相關的知識組織方法、技術工具應用到數字圖書館智能檢索中,對于特定學科領域的知識信息能以統(tǒng)一格式的可視化界面清晰地呈現(xiàn)出來。這樣數字圖書館能幫助用戶精準查詢到知識資源,借助群體智慧、虛擬社區(qū)對知識資源深度加工,構建出符合用戶需求的新的知識體系。同時,基于本體的數字圖書館智能檢索技術實現(xiàn)對關鍵詞、知識結構及本體概念的深度理解和智能化匹配,在知識檢索時能根據不同領域知識的內在聯(lián)系建立學科知識系統(tǒng),數字圖書館可利用新的學科知識系統(tǒng)構建基于本體的專題知識導航,通過這樣的功能模塊,幫助用戶以專題的形式查找相關領域知識,在實現(xiàn)對知識資源分類利用的基礎上,拓展學科服務范圍,豐富館藏資源,使知識組織利用效率進一步提升[6]。
目前數字圖書館使用的智能檢索系統(tǒng)會出現(xiàn)檢索結果不全面、知識分散、檢索準確率不高、用戶反饋不及時等問題,影響了用戶體驗度和數字圖書館服務效率。為此,筆者設計了基于本體的數字圖書館智能檢索系統(tǒng)。該系統(tǒng)將數字圖書館基于自然語言的知識檢索方式提高到邏輯語義層面,結合本體的知識組織和表達優(yōu)勢,從提高系統(tǒng)性能角度,以本體的方式幫助用戶實現(xiàn)知識資源的精準檢索。
基于本體的數字圖書館智能檢索系統(tǒng)設計首先是構建本體,在遵循可用性、拓展性、實用性、持久性、開放性原則的基礎上,針對用戶可能選擇的檢索方式,確定本體的適用領域和應用范圍,使用本體語言,在學科專家和工程師的參與下構建符合本體使用的系統(tǒng)框架,建立本體知識庫,實現(xiàn)本體模塊的構建。針對用戶自然語言輸入方式使用自然語言處理技術,在工程師的參與下使用本體開發(fā)語言Protege建立學科本體,針對語義分析,建立語義模型判定語義相似度,對本體知識抽取和拓展;根據用戶查詢擴展形成的知識表達結構,從語義庫中對符合檢索條件的本體集合進行類比和匹配,精準匹配檢索結果,實現(xiàn)智能檢索。
在傳統(tǒng)數字圖書館三層體系結構基礎上新加入本體層,將以自然語言的知識檢索提升到知識語義檢索層面。該系統(tǒng)模型要滿足自然語言輸入、知識資源本體管理、智能拓展、智能檢索、結果反饋5個方面的需求,設計不同的功能模塊,實現(xiàn)用戶需求與基于本體的知識資源精準匹配。
數字資源本體管理模塊是基于本體的數字圖書館智能檢索系統(tǒng)建設的基礎模塊,主要功能是有效處理和組織數字圖書館信息資源,以滿足用戶高效獲取、檢索、使用知識信息的需求。首先,在學科專家和技術工程師的幫助下,使用本體語言(OWL)和本體開發(fā)工具構建能準確描述數字圖書館知識信息的概念空間,形成領域本體。本體的構建是持續(xù)同步和不斷完善的過程,領域本體在建成之后還需要優(yōu)化調整和維護。其次,使用領域本體對文本信息內容的相關概念進行標注和關聯(lián),使用本體語義模型計算信息概念的相似度及語義關聯(lián)度。最后,對領域本體概念及語義關聯(lián)度的權值分類提取,并存儲到相關索引庫中。索引庫資源既要包含相關資源的描述信息,也要包括語義本體的標注信息,為后續(xù)系統(tǒng)進行智能拓展提供資源支持。
用戶輸入及智能拓展模塊是根據用戶采用自然語言在智能檢索系統(tǒng)輸入的關鍵詞或語句判斷用戶的知識需求,根據領域本體概念之間的邏輯關系以及語義模型對關鍵詞進行提取、分析,找到相關語義關鍵詞及語句。根據數字圖書館信息資源本體的概念、屬性、定義類及定義類等級體系,使用本體領域知識進行推理、計算,用自然語言理解技術對用戶提供的關鍵詞、語句進行分析,通過計算用戶提供的關鍵詞、語句的相似度進行邏輯推理,從領域本體內部抽取具有相似語義特征的本體,選擇滿足用戶最大需求度的重要詞匯,代替用戶輸入的自然語言,形成擴展的語義邏輯表達式,提交智能檢索模塊進行搜索。
智能檢索模塊是數字圖書館智能檢索系統(tǒng)的核心模塊,主要功能是在對用戶查詢后形成的語義邏輯表達式進行精確理解的基礎上,結合知識概念之間的相似度進行邏輯推理,根據拓展后的概念集合,從索引庫中匹配本體。在工程師和學科專家的幫助下,創(chuàng)建符合用戶檢索習慣的本體推理規(guī)則,對本體知識庫中采用OWL描述的實例進行邏輯分析,確定智能檢索模塊,從數字圖書館數據庫中搜索出符合該語義邏輯的文獻資源,即檢索結果集合,以可視化的方式呈現(xiàn)給用戶,供用戶自主選擇。
結果反饋模塊是衡量基于本體的數字圖書館智能檢索系統(tǒng)檢索效果的工具模塊,主要功能是將檢索得到的領域本體概念進行去重、科學排序、集成和分類處理,并以可視化的方式呈現(xiàn)給用戶,供用戶自主判定。為保障系統(tǒng)為用戶提供滿意的文獻檢索結果,該模塊對用戶的行為偏好和檢索習慣進行有效記錄,對用戶個性化的檢索特點進行判定,形成相關的系統(tǒng)日志進行存儲,并分析用戶的這種檢索記錄,根據分析結果面向用戶智能匹配本體模型,提高檢索效率,縮短檢索時間。最后,對系統(tǒng)的用戶評價結果進行反饋,方便技術專家及學者找到系統(tǒng)在功能上存在的不足,有利于后期對智能拓展模塊、智能檢索模塊進行優(yōu)化調整。
基于本體的數字圖書館智能檢索系統(tǒng),有助于改變數字圖書館以關鍵詞、語句進行知識檢索的弊端,從本體的角度分析用戶自然語言檢索的語義關聯(lián)和知識間的邏輯關系,根據用戶的習慣和特點為用戶精準提供信息資源,促進智能檢索服務效果實時反饋,再根據反饋結果及時調整、優(yōu)化系統(tǒng)結構,從而提高檢索效能。
[1] 馮園園.多領域本體語義環(huán)境中數字圖書館知識地圖的構建研究[J].農業(yè)圖書情報學刊,2018,30(2):118-121.
[2]龍海,朱彥.論GFO的基本框架及頂層本體比較研究[J].中國中醫(yī)藥圖書情報雜志,2015,39(5):18-22.
[3] 沈旺,翟倩,李賀.基于本體的數字圖書館自適應信息系統(tǒng)架構研究[J].圖書館學研究,2016(14):47-51.
[4] 王珊珊,肖明.基于本體的引文知識服務系統(tǒng)構建研究[J].情報理論與實踐,2017,40(11):125-129.
[5] 李燮慧.基于本體論的大數據數字圖書館知識體系構建研究[J].圖書館理論與實踐,2016(10):47-51.
[6] 楊選輝,龍帆.基于本體學習的圖書館數字資源服務模型研究[J].圖書館學研究,2016(9):90-94.
Design of Intelligent Retrieval System of Digital Libraries Based on Ontology
LI Yun-chang
(Inner Mongolia University of Finance and Economics, Hohhot 010070, China)
This article analyzed the status quo of retrieval of digital libraries and proposed to build an intelligent retrieval system of digital libraries based on ontology. Based on the discussion of ontology theory, the article introduced intelligent retrieval system of digital libraries from the perspectives of design ideas and system models, and proposed the design method of intelligent retrieval system, including the construction of digital resource ontology management module, user input and intelligent expansion module, intelligent retrieval module and result feedback module.
ontology; digital libraries; intelligent retrieval system; design
10.3969/j.issn.2095-5707.2019.05.006
G250.7;TP391.1
A
2095-5707(2019)05-0025-04
李云暢,E-mail: aaser4567@163.com
李云暢.基于本體的數字圖書館智能檢索系統(tǒng)設計[J].中國中醫(yī)藥圖書情報雜志,2019,43(5):25-28.
(2019-02-14)
(2019-02-22;編輯:魏民)