摘 要:針對無線網絡文獻檢索的智能化發(fā)展趨勢,將本體應用到檢索中,結合應用領域收集重點概念和關系,構建領域本體。將本體與無線網絡文獻檢索相結合把內容挖掘擴展到語義層次,相比傳統(tǒng)僅僅基于關鍵字的匹配方式具有更高的查準率和查全率。
關鍵詞:本體;文獻檢索;語義檢索
中圖分類號:TP391.3
隨著網絡技術的發(fā)展,無線網絡的應用已越來越廣泛,文獻檢索技術的應用也不再局限于有線網絡,智能化檢索技術開始應用在無線網絡文獻檢索中。傳統(tǒng)的信息檢索技術基于關鍵字進行匹配,缺乏語義信息,容易造成信息的誤檢和漏檢。而本體為Web信息提供了語義表示機制,是實現語義Web和智能信息檢索的關鍵技術?;诒倔w的無線網絡文獻檢索可以實現更加方便高效的信息查詢和下載,查準率和查全率要高于傳統(tǒng)僅僅基于關鍵字的匹配方式。
1 本體的定義
1991年在人工智能界,Neches等人最早給出了本體(Ontology)的定義。后來在信息系統(tǒng)、知識系統(tǒng)等領域,越來越多的人開始研究本體并給出不同的定義,其中最著名的是由Gruber提出的:“本體是概念化的明確的規(guī)范說明”[1]。到1998年,Studer等人提出“Ontology是共享概念模型的明確的形式化規(guī)范說明”[2],成為目前對Ontology概念的統(tǒng)一看法。該定義包括概念化(conceptualization)、明確(explicit)、形式化(formal)和共享(share)四個主要方面。
2 技術路線
本研究充分借鑒軟件工程的研究思路,從需求分析到本體構建、從確認評價到進化完善,參照軟件生命周期的實現過程進行基于本體的文獻檢索的研究。研究過程的流程圖如下圖所示:
圖1 項目總體流程圖
(1)需求分析。本研究以計算機專業(yè)術語為例,構建領域本體,實現無線網絡文獻檢索,為使用者提高文獻檢索的準確率。
(2)實施本體建設。根據需求和計劃構建本體。
1)領域信息的收集和分析。信息來源包括其它專家、書籍、網絡、甚至是其它的本體;2)重點概念和關系的確定。在充分了解領域知識之后,提出該領域中的重點概念和概念之間的關系。并用精準的術語表達出來,作為領域本體的核心概念集;3)建立本體框架。選出關鍵性術語,摒棄不必要或超出領域范圍的概念,盡可能準確而精簡的表達出領域知識,形成框架體系,得到領域本體的框架結構;4)形式化的編碼。用精準的術語表達出領域中的重點概念及關系,讓機器可以理解;5)確認與評價。檢查是否滿足了剛開始提出的需求,是否滿足本體的建立準則等。
(3)搭建信息檢索系統(tǒng)平臺,利用本體實現智能檢索。
3 本體建設
3.1 信息收集與分析
本系統(tǒng)以計算機組成原理課程為例,構建課程核心術語表,實現領域本體。該本體描述了計算機組成原理課程的基本概念、核心術語及主要關系,并針對每個重要的知識點提供相應的學習文獻。
圖2 計算機組成原理本體層次
3.2 本體構建
本體構建階段是整個系統(tǒng)中非常重要的一部分。在本體構建過程中,參照W3C的XML、RDF、OWL等技術規(guī)范,探討和研究領域本體進化的方法,以及構建后的本體在無線網絡信息檢索中的應用,以提高檢索的查全率和查準率。構建合理的領域本體,供參考的領域術語和相關領域研究人員的指導是必不可少的。本研究選擇計算機組成原理課程為對象,參考了影響力較大的多本計算機組成原理教材、計算機組成原理考研大綱和計算機硬件相關的文獻關鍵詞,使用本體構建工具Protégé構建了計算機組成原理本體,生成OWL文件,共包含專業(yè)術語132個。結合收集與分析所得的術語以及關系構成語義元數據庫。
4 檢索平臺實現與測試
本研究的目的是驗證基于本體的檢索方法相比基于關鍵詞的檢索方法能更精確表達用戶的信息需求。在實現檢索平臺的基礎上針對系統(tǒng)研究之初設定的目標和本體構建原則,對構建的領域本體進行確認與評價。測試過程中,選取了計算機組成原理的3個術語進行檢索。從表1與表2的對比中可以看出,在基于本體的無線網絡文獻檢索系統(tǒng)中,根據語義和關系的檢索結果相比于傳統(tǒng)基于關鍵字的匹配方式具有更高的準確率和查全率。
表1 基于本體的文獻檢索
用戶輸入的檢索詞檢索概念查找文獻數
指令系統(tǒng)指令系統(tǒng)、指令集23
帶寬帶寬、吞吐率15
全寫法全寫法、寫直達法11
表2 基于關鍵字的文獻檢索
用戶輸入的檢索詞檢索概念查找文獻數
指令系統(tǒng)指令系統(tǒng)18
帶寬帶寬10
全寫法全寫法6
5 結束語
本文將本體與無線網絡文獻檢索相結合,針對基于關鍵詞進行匹配的檢索方法的局限性,提出語義檢索方式,把內容挖掘擴展到語義層次。本研究通過抽取語義元數據和專家咨詢建立了文獻元數據和課程領域本體,使用戶在檢索時不僅能得到與檢索條件精確匹配的信息資源,還能查詢到與檢索條件具有語義相關、但在語法上并不精確匹配的隱含信息資源,從而強化了領域概念與文獻間的相關度,提高了文獻檢索的效率和準確性。在以后的工作中,需要對現有的研究成果進行改進和完善,將檢索平臺應用到其他課程,構建更加高效準確的學科領域檢索平臺。
參考文獻:
[1]Gruber T R.A Translation Approach to Portable Ontology Specifications.Knowledge Acquisition,1993(02):199-220.
[2]Studer Rudi,Richard Benjamins,Dieter Fensel.Knowledge engineering:principles and methods[J].Data and Knowledge Engineering,1998(1/2):161-197.
[3]孟紅偉,張志平,張曉丹.基于領域本體的文獻智能檢索模型研究[J].情報雜志,2013(09):180-184.
作者簡介:趙靜(1981-),女,山東青島人,碩士研究生,講師;房正華(1982-),女,山東青島人,碩士研究生,講師。
作者單位:青島工學院 信息工程學院,山東青島 266300
基金項目:本文為青島工學院校級科研項目“基于本體的教育信息化共享平臺研制”成果之一(項目編號:2012KY009)。