曹玥, 賈硯池, 王崢*
(1.四川大學(xué)華西醫(yī)院, 成都 610041;2.西南財(cái)經(jīng)大學(xué)天府學(xué)院, 成都 610074)
在信息高速時(shí)代中,從大量的海量信息數(shù)據(jù)中檢索出符合自己查找的內(nèi)容,傳統(tǒng)的檢索技術(shù)手段變得越來越低效[1],傳統(tǒng)的信息檢索手段一般是基于關(guān)鍵詞匹配,這種匹配方式獲得的結(jié)果大多是松散的,不成體系的。這種獲得知識的手段往往是機(jī)械的,非智能的。為了解決上述的科技文獻(xiàn)檢索的問題,利用語義Web來進(jìn)行檢索,語義技術(shù)的核心是本體技術(shù),通過本體技術(shù)獲得精準(zhǔn)的科技文獻(xiàn)檢索結(jié)果,相較于機(jī)械式的檢索方式,根據(jù)語義的檢索,具有智能化的推理檢索[2],合理地對檢索結(jié)果進(jìn)行概念擴(kuò)展,對于檢索結(jié)果的查全率和查準(zhǔn)率獲得極大的提高,同時(shí)伴隨著Lucene、Nutch和各種爬蟲技術(shù)的高速發(fā)展,全文檢索的搜索引擎也被大量使用在檢索過程中,基于本體技術(shù)的層次化的語義相似度思路上的研究成果也十分豐碩,本文通過闡述信息語義共享和本體技術(shù)的運(yùn)用,分析和實(shí)現(xiàn)語義檢索模型的語義擴(kuò)展和規(guī)范化推理過程,對檢索詞的量化擴(kuò)展,可以給用戶提供令人滿意的信息檢索效果。
語義網(wǎng)的概念最早由T.Berners-Lee和J.Hendler于1998年提出[3]。語義Web主要是為了說明兩個(gè)實(shí)體間的關(guān)系而產(chǎn)生的,主要是用于網(wǎng)頁數(shù)據(jù)。從那時(shí)起,語義Web的概念就一直在擴(kuò)展。目前,語義學(xué)的重要意義是用包含語義學(xué)的鏈接來描述世界上兩個(gè)實(shí)體之間的關(guān)系,形成一個(gè)包羅萬象、具有推理能力的龐大知識庫。語義網(wǎng)擴(kuò)展了當(dāng)前互聯(lián)網(wǎng)的功能,顯示出事物都是相互聯(lián)系的,語義網(wǎng)可以理解為進(jìn)行人與計(jì)算機(jī)交互的實(shí)體[4],語義網(wǎng)可以促進(jìn)人們更好地利用互聯(lián)網(wǎng)中的數(shù)據(jù)。
關(guān)聯(lián)概念模型用于知識建模、知識存儲、知識共享和推理知識生成新知識。語義Web包括xml、rdf、owl、本體等重要概念。本體是對現(xiàn)實(shí)世界的抽象描述,它只包含有價(jià)值的數(shù)據(jù)。語義Web的總體結(jié)構(gòu)及其不同層次的語義表達(dá)功能,如圖1所示。
圖1 語義網(wǎng)層次結(jié)構(gòu)
科技文獻(xiàn)數(shù)據(jù)模型多,語義模糊,數(shù)據(jù)稀疏,難以建立固定的結(jié)構(gòu)化模型。利用語義本體對科技文獻(xiàn)數(shù)據(jù)進(jìn)行建模,可以較好地解決這些困難。不同的信息檢索模型采用不同的語義本體對科技信息的數(shù)據(jù)進(jìn)行描述,語義本體是這種模型的基礎(chǔ),該模型可以統(tǒng)一地管理這些元數(shù)據(jù),對語義本體來說,這樣的做法更加精確,可以發(fā)揮出更好的效果。
支持語義的信息檢索模型主要是為了對數(shù)據(jù)進(jìn)行數(shù)據(jù)的操作,數(shù)據(jù)共享主要考慮語義共享和語法共享兩個(gè)重要的知識點(diǎn)[5],語義共享注重信息的內(nèi)容,語法共享考慮對數(shù)據(jù)訪問的問題,在數(shù)據(jù)領(lǐng)域中,需要保證在數(shù)據(jù)信息共享的過程中,語義轉(zhuǎn)換的信息不會產(chǎn)生數(shù)據(jù)丟失,對應(yīng)于上下文的語義環(huán)境對數(shù)據(jù)進(jìn)行語義描述。
語義映射還可以應(yīng)用于更廣泛的領(lǐng)域,提供了該領(lǐng)域概念的統(tǒng)一描述。本文提出的語義配置和映射是相似的,但又有所不同。語義映射是一種解決由不同系統(tǒng)表達(dá)的相同概念的方言問題。其次,語義網(wǎng)通過融合語義的擴(kuò)展定義和擴(kuò)大當(dāng)前的Web,尤其針對語義Web,進(jìn)行語義的科技文獻(xiàn)檢索中,十分需要向體系結(jié)構(gòu)以及語義實(shí)現(xiàn)技術(shù)的結(jié)合。
在本體技術(shù)中,本體重點(diǎn)考察的是客觀事物的抽象本質(zhì),本體是相關(guān)研究領(lǐng)域的詞匯關(guān)系與術(shù)語的綜合,本體是共享概念模型的形式化描述,本體的概念是包含四層意思,分別是指概念模型、形式明確以及數(shù)據(jù)共享,概念模型的表現(xiàn)含義獨(dú)立于語義的環(huán)境狀態(tài)。明確的意義是指概念上的定義的約束形式,數(shù)據(jù)共享保證相關(guān)領(lǐng)域的概念集合,針對是某種概念的總體集合而非獨(dú)立的個(gè)體信息。針對本體概念的形式化描述,分別具有不同的構(gòu)建方式,本體具有的幾種特征要素獨(dú)自是其聲明、公理、概念、屬性以及關(guān)系[6]。本體的描述語言O(shè)WL是在DAML描述語言發(fā)展而來,OWL Lite保證用戶的簡單約束,表現(xiàn)一個(gè)分明的層次分類方法,其轉(zhuǎn)換速度更為迅速,而OWL DL則是支持推理功能的系統(tǒng),利用推理方法增加計(jì)算的完全性與可靠性,提供良好的邏輯處理方法與可推理性的計(jì)算性質(zhì)。OWL Full提供豐富的表達(dá)能力,在OWL Full中,自身既可以作為語義個(gè)體存在[7],也可以作為多個(gè)個(gè)體的集合,也可在本體的基礎(chǔ)上,支持預(yù)定義推理成分。OWL Lite、OWL Full都可以作為RDF的約束化擴(kuò)展。而RDF則可以作為OWL Full的文檔[8]。
相比于傳統(tǒng)的科技文獻(xiàn)檢索,基于語義檢索的模型具有更高效的檢索過程、更加準(zhǔn)確的檢索結(jié)果的手段,傳統(tǒng)的科技文獻(xiàn)檢索包含截詞檢索、全文檢索、布爾邏輯檢索以及字段限制檢索[7],突出了本體在科技文獻(xiàn)檢索的優(yōu)勢明顯,本體可以用來表示豐富多彩的相關(guān)領(lǐng)域現(xiàn)象的知識的邏輯抽象,本體對知識的獲得和積累是等級結(jié)構(gòu)嚴(yán)密的、知識描述全面和概念規(guī)范化的機(jī)器推理和自動化處理方式[9],并且保證知識的不斷的動態(tài)更新,本體對相關(guān)領(lǐng)域的知識具有刪除、修正和改變的可操作性。本體的作用及其應(yīng)用模式如圖2所示。
圖2 本體在檢索系統(tǒng)中的應(yīng)用模式
需要在相關(guān)領(lǐng)域的專家指導(dǎo)下,幫助建立起相關(guān)領(lǐng)域的本體,將數(shù)據(jù)源根據(jù)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)結(jié)構(gòu)方式補(bǔ)充到數(shù)據(jù)源中的文獻(xiàn)當(dāng)中[10],對于用戶界面的響應(yīng)將查詢個(gè)體轉(zhuǎn)換成規(guī)范化格式,匹配出相關(guān)知識領(lǐng)域的集合,經(jīng)過定制化處理后,將獲得的檢索結(jié)果呈獻(xiàn)給用戶,完整地實(shí)現(xiàn)了由字面匹配向語義概念匹配的提高。結(jié)構(gòu)的構(gòu)建圖如圖3所示。
該系統(tǒng)功能的架構(gòu)流程包括系統(tǒng)的本體構(gòu)建,將本體與關(guān)系數(shù)據(jù)庫的映射關(guān)系,建立區(qū)語義索引,在實(shí)現(xiàn)檢索引擎的功能,加入本體索引的文件,利用推理機(jī)對用戶輸入的關(guān)鍵詞進(jìn)行合理化的概念推理和擴(kuò)展,使用Jena工具對本體施行快速化的查詢操作,如圖4所示。
系統(tǒng)的開發(fā)語言采用Java語言,該語言可移植性強(qiáng),是面向?qū)ο蟮摹⒎植际降木幊陶Z言,開發(fā)環(huán)境IDE采用eclipse,該開發(fā)環(huán)境集成了許多語言開發(fā)包。本文所使用的的全文索引應(yīng)用包Lucene是定義了索引文件格式,是基于Java語言的語義開發(fā)工具,可以兼容不同的文本格式,具有強(qiáng)大的查詢引擎,降低了學(xué)習(xí)擴(kuò)展的索引能力,默認(rèn)包含了模糊查詢方式、文本布爾操作方式以及分組查詢操作。
圖3 方案設(shè)計(jì)結(jié)構(gòu)圖
圖4 果樹栽培技術(shù)領(lǐng)域本體及文獻(xiàn)數(shù)據(jù)映射的科技文獻(xiàn)檢索示例圖
系統(tǒng)的總體構(gòu)架包含用戶頁面模塊、本體構(gòu)建模塊、文獻(xiàn)映射模塊以及檢索處理模塊,各個(gè)模塊之間保持著協(xié)作和聯(lián)系的關(guān)系狀態(tài),共同組成一個(gè)完成的總體,實(shí)現(xiàn)一個(gè)完整的查詢功能,其系統(tǒng)體系結(jié)構(gòu)如圖5所示。
用戶登錄進(jìn)用戶頁面,用戶發(fā)送用戶請求,系統(tǒng)產(chǎn)生響應(yīng)模式,用戶可以操縱檢索處理模塊,通過由相關(guān)領(lǐng)域?qū)<液捅倔w編輯工具構(gòu)建出本體,本體資源主要由推理機(jī)和本體庫組成,推理機(jī)接收到檢索索引提示,通過本體庫發(fā)出索引,文獻(xiàn)資源單位依據(jù)索引,返回出合適的科技文獻(xiàn)數(shù)據(jù)。
在考慮本體與科技文獻(xiàn)的數(shù)據(jù)庫的映射關(guān)系,將本體與文獻(xiàn)數(shù)據(jù)相結(jié)合,構(gòu)建起對應(yīng)的關(guān)系,數(shù)據(jù)庫的信息由海量的文獻(xiàn)數(shù)據(jù)信息組成,當(dāng)本體庫與文獻(xiàn)數(shù)據(jù)庫聯(lián)系在一起,檢索該領(lǐng)域知識的某些個(gè)體知識,生成合理的索引構(gòu)建,每個(gè)文獻(xiàn)實(shí)例的產(chǎn)生會與它檢索的最為靠近的數(shù)據(jù)概念組合在一起放入到索引文件中去,形成一個(gè)完整的總體,其流程如圖6所示。
圖5 系統(tǒng)體系結(jié)構(gòu)
圖6 本體/文獻(xiàn)映射模塊結(jié)構(gòu)圖
在基于Lucene的檢索引擎設(shè)計(jì)當(dāng)中,在它的基礎(chǔ)上進(jìn)行二次開發(fā),建立起一個(gè)面向?qū)ο蟮母咝z索引擎,通過語義檢索建立的索引文件,采用推理機(jī)制實(shí)現(xiàn)對原始搜索信息的推理優(yōu)化,具體如圖7所示。
圖7 推理引擎與檢索引擎關(guān)系
根據(jù)Jena API對本體建模語言的數(shù)據(jù)結(jié)構(gòu)存儲分發(fā)到數(shù)據(jù)庫后臺,通過輸入的查詢語句,放入到Lucene的推理引擎,對查詢語句優(yōu)化后,實(shí)現(xiàn)加載推理范式。
該系統(tǒng)的測試任務(wù)是測試三種檢索效果算法的平均精度和檢索時(shí)間性能。這三種搜索算法分別是:全文檢索;基于語義檢索以及基于語義推理的檢索。在實(shí)踐中,我們需要處理的問題是,由于實(shí)驗(yàn)系統(tǒng)中的文檔集合的大小有限,一些問題不能滿足文檔的臨界值。例如,在使用全文搜索算法搜索“試題”時(shí),共有93個(gè)文檔,但實(shí)際相關(guān)文檔只有32個(gè),所以當(dāng)文檔的臨界值為40和50時(shí),準(zhǔn)確率無法計(jì)算。在這種情況下,我們不是估計(jì)準(zhǔn)確率,而是根據(jù)相關(guān)領(lǐng)域問題的 文檔臨界值的平均準(zhǔn)確率來進(jìn)行算術(shù)平均運(yùn)算,期其測試比 較結(jié)果如表1所示。
表1 三種檢索算法的平均查準(zhǔn)率比較
本文從實(shí)際出發(fā),與傳統(tǒng)的科技文獻(xiàn)檢索作比較,研究了文獻(xiàn)檢索與語義Web的聯(lián)系,通過使用語義模型的本體技術(shù)對檢索方式進(jìn)行改善,針對科技文獻(xiàn)檢索的模型,提高檢索的準(zhǔn)確率,分析了概念之間、實(shí)例之間的語義關(guān)系,最后通過將全文檢索方式、本體檢索方式和基于語義推理檢索的方式,采用優(yōu)秀的面向?qū)ο蟮木幊谭椒?,以本體技術(shù)為核心支撐點(diǎn),采用邏輯推理方式進(jìn)行語義檢索,得到用戶需要的檢索結(jié)果。在未來的研究中,提高文獻(xiàn)數(shù)據(jù)的清理算法效率,減少重復(fù)檢索記錄和檢索時(shí)間,需要深入考慮各種語義關(guān)系的排序方式,以滿足不同用戶的檢索需求。