李 彥
(西安翻譯學(xué)院,陜西 西安 710105)
一種基于元數(shù)據(jù)本體計(jì)算的網(wǎng)絡(luò)信息檢索方法*
李 彥
(西安翻譯學(xué)院,陜西 西安 710105)
為了提高Web信息檢索和過濾的準(zhǔn)確性,提出了一種基于元數(shù)據(jù)本體的網(wǎng)絡(luò)信息檢索方法,引入形式概念分析理論本體計(jì)算算法來描述本體特征檢索領(lǐng)域的概念和關(guān)系,并通過構(gòu)建以元數(shù)據(jù)為基礎(chǔ)的信息管理系統(tǒng),實(shí)現(xiàn)對(duì)語義元數(shù)據(jù)的檢索。應(yīng)用結(jié)果證明,采用該方法可有效提高信息檢索的準(zhǔn)確性。
元數(shù)據(jù);概念相似度;本體;web網(wǎng)頁;檢索
隨著當(dāng)前網(wǎng)絡(luò)信息量以幾何級(jí)數(shù)的速度增長(zhǎng),傳統(tǒng)的關(guān)鍵字檢索方式不能滿足用戶對(duì)信息檢索的有效需求,其在進(jìn)行語義檢索時(shí)準(zhǔn)確性比較低;因此,如何提高對(duì)網(wǎng)頁信息檢索的質(zhì)量成為當(dāng)前思考的重要問題。當(dāng)前,提高Web信息檢索的技術(shù)方面思考主要為如何從大量的Web資源中附加計(jì)算機(jī)可以理解的內(nèi)容(如元數(shù)據(jù)),以此使計(jì)算機(jī)更好地對(duì)其進(jìn)行自動(dòng)化處理,換句話說就是給出一種計(jì)算機(jī)能準(zhǔn)確理解的資源手段,實(shí)現(xiàn)對(duì)異構(gòu)分布信息的有效檢索。解決該問題的關(guān)鍵在于:1)通過引入本體特征進(jìn)行描述,從而提高檢索的準(zhǔn)確性;2)構(gòu)建元數(shù)據(jù)信息管理系統(tǒng),實(shí)現(xiàn)基于本體的元數(shù)據(jù)檢索;3)針對(duì)其中的非元數(shù)據(jù),如何實(shí)現(xiàn)轉(zhuǎn)換。本文針對(duì)上述3個(gè)問題進(jìn)行了探討[1]。
目前,針對(duì)概念相似度的研究方法主要包括2種。
(1)
2)基于語義詞典方法。該方法主要利用語義詞典中的HowNet和WorNet等同義詞所組成的樹狀層次體系結(jié)構(gòu),通過計(jì)算語義之間的距離或者是信息熵的方式對(duì)概念相似度進(jìn)行計(jì)算[2]。
傳統(tǒng)的T-L BACH算法作為一種對(duì)本體間概念相似度的計(jì)算,與語義相似度算法等相比有著非常重要的特點(diǎn),通過該算法可實(shí)現(xiàn)對(duì) OWL DL等描述語言內(nèi)涵的充分挖掘,從而得出本體概念以外的潛在的相關(guān)信息;但該算法也存在著很大不足,主要體現(xiàn)在計(jì)算本體概念相似度的時(shí)候,T-L BACH沒有充分考慮到本體的概念特征間的相關(guān)結(jié)構(gòu)關(guān)系,導(dǎo)致對(duì)相似度計(jì)算精確度不高。因此,為提高概念本體的計(jì)算的準(zhǔn)確度,本文提出從 FCA 概念相似度和 RDF 圖結(jié)構(gòu)相似度兩方面對(duì)其進(jìn)行計(jì)算,其具體的計(jì)算公式為:
simcso=simfcawfca+simrdf+wrdf
(2)
式中,wfca為fca的權(quán)重,wrdf為rdf的權(quán)重,并有wfca+wrdf=1。
2.1 基于 FCA 的概念相似度計(jì)算
在FCA中,形式概念和形式為該算法的基礎(chǔ),還要通過形式反映其背景,因此,需要做以下幾方面的定義。
定義1:形式背景K=(O,A,R)是由屬性集合A、對(duì)象集合O以及由O和A關(guān)系R所共同組成。
定義2:假設(shè)E表示其對(duì)象集合O當(dāng)中的一個(gè)自己,則定義E′={n∈A|?m∈E,mRn}為E中所有對(duì)象的共同屬性的集合;同理,定義I作為A當(dāng)中的自己,定義I′={n∈A|?m∈I,mRn}為I當(dāng)中所有對(duì)象的共同屬性。
定義3:采用二元組(E,I)表示形式背景K:=(O,A,R)的一個(gè)形式概念,有E?O,I?A,且滿足E′=I,I′=E。其中,E表示(E,I)的外延,I表示(E,I)的內(nèi)涵。用δ表示K:=(O,A,R)在背景為K上面所有概念的集合,δ表示背景上的概念格。
定義4:在概念格中,如果某元素不能被寫成其他元素的下確界,則該元素和概念格中上方的元素僅能通過一條邊進(jìn)行連接,可將該元素稱為是不可約下確界元素;同理,如果某元素不能寫為其他元素的上確界,則將該元素稱為不可約上確界元素[3]。
因此,通過上述定義,可得到基于FCA的相似度計(jì)算公式為:
(3)式3中,a(s1,s2)的值為0.5;s1∨s2為概念的上確界;(s1∨s2)∧為概念的上確界的內(nèi)涵中其不可約下確界的元素集;(s1-s2)∧,(s2-s1)∧為在s1中卻不在s2中的不可約下確界元素集,和在s2中而不在s1中的不可約下確界元素集。
2.2 RDF 圖結(jié)構(gòu)相似度計(jì)算
傳統(tǒng)的針對(duì)RDF圖結(jié)果相似度的計(jì)算公式為:
(4)
但是通過上述的數(shù)據(jù)可以看出,其充分地描述了RDF結(jié)構(gòu)中的謂詞關(guān)系,對(duì)其中的OWL語言的語義信息卻不能充分表達(dá);因此,在式4中增加了OWL屬性的計(jì)算,將OWL的屬性納入到對(duì)相似度的計(jì)算中得到:
(5)
2.3 算法設(shè)計(jì)
通過上述分析,將對(duì)概念相似度的計(jì)算設(shè)計(jì)為如圖1所示的算法。
圖1 CSO 算法框架圖
結(jié)合系統(tǒng)的需求,將該信息管理系統(tǒng)分為3層,并根據(jù)B/S訪問模式對(duì)信息系統(tǒng)進(jìn)行建構(gòu),其具體的建構(gòu)如圖2所示。
圖2 元數(shù)據(jù)信息管理系統(tǒng)平臺(tái)
構(gòu)建元數(shù)據(jù)管理平臺(tái)其主要的目的是對(duì)不同的業(yè)務(wù)信息進(jìn)行分類,從而為基于本體的概念相似度計(jì)算提供相關(guān)的基礎(chǔ)的素材。通過該平臺(tái)將其分為3個(gè)不同的服務(wù)層:用戶交互層主要為用戶提供元數(shù)據(jù)管理交互的平臺(tái),包括對(duì)元數(shù)據(jù)的添加、修改、模板建模、查詢、數(shù)據(jù)導(dǎo)入等操作;在登陸之后,通過基于本體和基于概念對(duì)網(wǎng)絡(luò)信息進(jìn)行搜索,一方面系統(tǒng)通過算法將用戶提交的信息轉(zhuǎn)換為基于本體領(lǐng)域的語義搜索,另一方面則生成基于本體概念的SPARQL;最后,將上述的信息傳遞給數(shù)據(jù)服務(wù)層,借助數(shù)據(jù)服務(wù)層對(duì)數(shù)據(jù)的處理和修改等完成對(duì)數(shù)據(jù)的搜索。在數(shù)據(jù)庫中,通過采用一定的領(lǐng)域規(guī)則,并借助SWRL解析器對(duì)OWL文件進(jìn)行解析,同時(shí)通過JESS推理引擎實(shí)現(xiàn)將數(shù)據(jù)傳遞給本體知識(shí)庫。
在語義Web當(dāng)中,最為核心的為 XML、RDF,這些作為解決對(duì)網(wǎng)絡(luò)信息的搜集提供最為基礎(chǔ)的技術(shù)框架;但是,在對(duì)信息的搜集過程中還存在著很大的問題就是當(dāng)前大多數(shù)的網(wǎng)絡(luò)資源其沒有使用標(biāo)準(zhǔn)的元數(shù)據(jù)對(duì)站點(diǎn)信息進(jìn)行描述,同時(shí)一些相關(guān)的網(wǎng)頁或者圖像資源也缺乏統(tǒng)一的元數(shù)據(jù)描述。因此,為了更好地解決該問題,本文采用了搜集過濾技術(shù),在這個(gè)過程中,主動(dòng)完成對(duì)語義元數(shù)據(jù)的搜集,過程為:1)如果該網(wǎng)絡(luò)資源其本身則為元數(shù)據(jù),則直接對(duì)其進(jìn)行抽取;2)如果沒有包含元數(shù)據(jù),則首先根據(jù)文本摘要、關(guān)鍵詞抽取和數(shù)據(jù)挖掘等方式將網(wǎng)絡(luò)資源轉(zhuǎn)換為元數(shù)據(jù);3)對(duì)標(biāo)注過的元數(shù)據(jù)進(jìn)行抽取,抽取的元數(shù)據(jù)和對(duì)本體的描述統(tǒng)一采用RDF模式進(jìn)行描述;4)基于過濾本體描述的條件表達(dá)式對(duì)網(wǎng)絡(luò)資源所對(duì)應(yīng)的元數(shù)據(jù)進(jìn)行檢索、分析和判別,以此來更新元數(shù)據(jù)庫。
5.1 實(shí)現(xiàn)工具
對(duì)于系統(tǒng)的實(shí)現(xiàn),采用美國斯坦福大學(xué)開發(fā)的本體編輯工具Protege工具對(duì)該信息管理系統(tǒng)的領(lǐng)域本體進(jìn)行開發(fā),演示用的相關(guān)數(shù)據(jù)全部存放到SQL Server 2008數(shù)據(jù)庫當(dāng)中。采用Jena API接口對(duì)操作本體進(jìn)行開發(fā),最后通過JSP頁面展現(xiàn)。
5.2 結(jié)果比較
為比較該算法的有效性,本文設(shè)計(jì)了2種方案,一種為現(xiàn)有的算法設(shè)計(jì),另外一種為傳統(tǒng)的關(guān)鍵詞匹配,通過上述實(shí)現(xiàn),得到的結(jié)果見表1。
表1 試驗(yàn)結(jié)果比較
通過采用改進(jìn)的CSO算法,加入OWL屬性和引入形成概念,同時(shí)構(gòu)建基于元數(shù)據(jù)的信息管理系統(tǒng),得到了其檢索的結(jié)果要遠(yuǎn)遠(yuǎn)好于傳統(tǒng)關(guān)鍵字的匹配結(jié)果,從而證明了該算法的有效性。通過對(duì)該算法的改進(jìn),可實(shí)現(xiàn)對(duì)各種網(wǎng)絡(luò)信息資源的搜索,提高搜索的準(zhǔn)確性和實(shí)現(xiàn)語義延伸的搜索。
[1]王家琴,李仁發(fā). 一種基于本體的概念語義相似度方法的研究[J].計(jì)算機(jī)工程. 2007,33(11):120-126.
[2]時(shí)維元,林正英.復(fù)雜設(shè)備制造企業(yè)遠(yuǎn)程服務(wù)文檔管理與檢索系統(tǒng)研究[J].新技術(shù)新工藝, 2013(2):41-45.
[3]李艷芳.多層網(wǎng)絡(luò)中基于資源優(yōu)化的配置方式[J].新技術(shù)新工藝, 2014(9):91-93.
*陜西高等教育教學(xué)改革研究(重點(diǎn))資助項(xiàng)目(13BZ69)
責(zé)任編輯李思文
ANetworkInformationRetrievalMethodbasedontheMetadataOntologyCalculation
LI Yan
(Xi′an FanYi University, Xi′an 710105, China)
A network information retrieval method based on the metadata ontology was proposed to improve the accuracy of Web information retrieval and filtering. It introduced the formal concept analysis theory, calculation algorithm of ontology and describes the concept and relation to the ontology feature retrieval field. Meanwhile, through the establishment of information management system based on metadata, the method can realize the retrieval of semantic metadata. The results showed that the method can improve the accuracy of information retrieval effectively.
metadata, concept similarity, ontology, Web page, retrieval
TP 392
:A
李彥(1980-),女,講師,碩士,主要從事計(jì)算機(jī)教學(xué)等方面的研究。
2015-01-05