李曉紅
計(jì)算機(jī)信息檢索是計(jì)算機(jī)技術(shù)的重要構(gòu)成,但傳統(tǒng)信息檢索只能完成語法層面的匹配,并不能在對(duì)用戶提供的檢索信息進(jìn)行理解和信息挖掘的基礎(chǔ)上,進(jìn)行信息篩選,極大的影響信息檢索的效率和效果,為緩解此問題,人們嘗試在本體技術(shù)的基礎(chǔ)上,對(duì)語義檢索和語義相似度檢索的相關(guān)技術(shù)展開研究。在此背景下,本文針對(duì)基于本體技術(shù)的語義檢索和語義相似度展開研究,為優(yōu)化計(jì)算機(jī)信息檢索功能提供參考。
【關(guān)鍵詞】本體技術(shù) 語義檢索 語義相似度
簡(jiǎn)單的機(jī)械式關(guān)鍵詞匹配,是傳統(tǒng)搜索引擎在應(yīng)用的過程中,容易出現(xiàn)信息丟失、無關(guān)信息檢索等問題的重要原因,所以人們嘗試在傳統(tǒng)搜索引擎的基礎(chǔ)上,提出具有語義分析、知識(shí)檢索、知識(shí)管理等功能的智能搜索引擎,而智能搜索引擎功能的實(shí)現(xiàn),目前要建立在擁有較理想的概念層次結(jié)構(gòu)、邏輯脫離能力,而且可進(jìn)行語義信息表示的本體技術(shù)之上,結(jié)合語義進(jìn)行。
1 基于本體技術(shù)的語義檢索
1.1 基于本體技術(shù)的語義檢索設(shè)計(jì)原理分析
傳統(tǒng)信息檢索主要通過條件檢索和導(dǎo)航檢索實(shí)現(xiàn),而智能搜索引擎除了要應(yīng)用以上兩種檢索方式外,更強(qiáng)調(diào)語義檢索,即基于本體和用戶的輸入條件,完成語義推理過程,對(duì)用戶檢索的意圖進(jìn)行確定,進(jìn)而以用戶檢索意圖為檢索方向進(jìn)行查詢并向用戶反饋的檢索方式??梢娀诒倔w技術(shù)的語義檢索實(shí)際上就是用戶通過用戶界面,將搜索信息輸入數(shù)據(jù)處理和語義推理模塊,由其結(jié)合本體開發(fā)人員設(shè)計(jì)的本體知識(shí)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)完成數(shù)據(jù)檢索服務(wù)的過程,換言之就是利用本體技術(shù)將用戶的搜索信息向搜索語義轉(zhuǎn)化的過程。在本體知識(shí)庫(kù)中主要存儲(chǔ)著描述術(shù)語等價(jià)關(guān)系的同位語義關(guān)系,描述語術(shù)包含關(guān)系的上下位語義關(guān)系兩種,前者用RelativeTerm表示,后者用BoraderTerm和NarrowerTerm表示,在本體技術(shù)知識(shí)庫(kù)建立的基礎(chǔ)上,結(jié)合使用規(guī)則,通過正向推理和反向推理,就可以將本體知識(shí)轉(zhuǎn)化成RDFS語義閉包,向用戶反饋,完成信息檢索過程。
1.2 基于本體技術(shù)的語義檢索實(shí)現(xiàn)過程分析
筆者認(rèn)為要按照上述原理實(shí)現(xiàn)基于本體技術(shù)的語義檢索,要保證語義檢索系統(tǒng)包含以下三個(gè)結(jié)構(gòu):首先,數(shù)據(jù)服務(wù)器,在服務(wù)器中要包含以三元組形式存儲(chǔ)的語義詞典、知識(shí)庫(kù)等領(lǐng)域知識(shí)集合體;其次,Web業(yè)務(wù)層,在此結(jié)構(gòu)中,既要包括可以將用戶信息檢索輸入信息向本體概念形式轉(zhuǎn)化,并依據(jù)JenaOWL推理引擎完成推理分析,實(shí)現(xiàn)語義求解,完成數(shù)據(jù)服務(wù)器檢索和反饋的信息檢索引擎,又要包括為語義推理提供依據(jù)的推理引擎。再次,Web終端,此結(jié)構(gòu)的功能是與用戶建立連接關(guān)系,通過JSP技術(shù)對(duì)用戶的搜索進(jìn)行獲取并將檢索的結(jié)果向用戶進(jìn)行反饋。在以上三部分結(jié)構(gòu)構(gòu)成整體后,要完成信息檢索,需要先設(shè)定檢索算法,筆者認(rèn)為在開始運(yùn)行后,首先要通過計(jì)算機(jī)的檢索條件界面對(duì)用戶提供的查詢信息內(nèi)容進(jìn)行獲取,然后,依據(jù)結(jié)構(gòu)中的功能語義詞典,對(duì)其需求功能的同位表達(dá)式、上位表達(dá)式和下位表達(dá)式進(jìn)行獲取,然后將用戶提供的檢索信息與獲得的各種表達(dá)式作為檢索的條件進(jìn)行檢索,向用戶反饋檢索結(jié)果。在以上語義檢索的過程中,必然要進(jìn)行語義的推理,筆者認(rèn)為在語義推理的過程中,首先推理機(jī)注冊(cè)機(jī)制要依據(jù)RDF三元組表述和本體知識(shí)庫(kù)形式,構(gòu)建出產(chǎn)生包括推理機(jī)制模型對(duì)象的推理機(jī),然后結(jié)合ModelAPI和OntologyAPI完成模型的處理。在此過程中需要注意以常規(guī)規(guī)則為基礎(chǔ)的推理機(jī),或以自定義規(guī)則、第三方規(guī)則為基礎(chǔ)的推理機(jī)均可以結(jié)合實(shí)際需要進(jìn)行靈活的選擇。另外,數(shù)據(jù)導(dǎo)入模型、模型檢索和檢索結(jié)果顯示過程均會(huì)影響到語義檢索的實(shí)際效果,在技術(shù)選擇方面均需要有意識(shí)的優(yōu)化。
2 基于本體技術(shù)的語義相似度分析
語義相似度是以語義距離為衡量的概念,換言之如果兩個(gè)語義之間的距離是無窮大的,則這兩個(gè)語義之間的相似度是非常低的,而如果兩個(gè)語義之間的距離無限接近于0,則可以視兩個(gè)語義是高度相似的,所以要對(duì)本體技術(shù)語義相似度進(jìn)行分析,要有意識(shí)的建立以距離為基礎(chǔ)的語義相似度計(jì)算模型,在此模型構(gòu)建的過程中,又要結(jié)合以下因素進(jìn)行。首先語義重合度,即本體內(nèi)部概念中上位關(guān)系概念相同概念的數(shù)量,此數(shù)據(jù)可以在一定程度上反映出本體概念的相同內(nèi)容,在計(jì)算中直接將共同具有的內(nèi)容以公共節(jié)點(diǎn)的形式表示。其次,語義深度,即本體內(nèi)部概念所具有的層次深度,其通常與語義的相似度之間具有較顯著的正相關(guān)性;再次,語義距離,即本體中兩個(gè)節(jié)點(diǎn)連接通路中最短路徑所要經(jīng)過的邊數(shù),通常情況下,其具體的大小與語義相似度之間具有較顯著的負(fù)相關(guān)性。另外,語義密度,即與概念具有兄弟關(guān)系的階段的數(shù)量,通常情況下,其具體大小與語義相似度之間具有較顯著的正相關(guān)性。在進(jìn)行檢索的過程中,向用戶反饋的檢索信息中包括的相似度信息通常為以上相似度反應(yīng)勻速與對(duì)應(yīng)的調(diào)節(jié)因子乘積之和。需要注意的是,除通過語義距離對(duì)語義相似度進(jìn)行表示外,基于語義的屬性、領(lǐng)域本體也可以構(gòu)建出反應(yīng)語義相似度的模型。
在語義相似度的計(jì)算模型確定后,在信息檢索的過程中,要利用語義相似度進(jìn)行信息檢索,可以在概念初始化后,對(duì)相似度閾值進(jìn)行確定,然后利用相似度計(jì)算模型進(jìn)行語義相似度計(jì)算,并按照序列輸出,為用戶提供檢索的結(jié)果,這在概率方面可以提升用戶獲得預(yù)期檢索結(jié)果的概率。
3 結(jié)論
通過上述分析可以發(fā)現(xiàn),現(xiàn)階段人們已經(jīng)認(rèn)識(shí)到利用智能搜索引擎取代傳統(tǒng)搜索引擎,在提升信息檢索的效率和準(zhǔn)確性方面的重要性,并在實(shí)踐中有意識(shí)的基于本體技術(shù)進(jìn)行語義檢索的探究,并結(jié)合語義相似度對(duì)信息檢索過程進(jìn)行優(yōu)化,語義檢索雖然設(shè)計(jì)的難度比傳統(tǒng)的關(guān)鍵詞檢索更大,但這是計(jì)算機(jī)信息檢索功能優(yōu)化的具體體現(xiàn)。
參考文獻(xiàn)
[1]朱禮軍,陶蘭,黃赤.語義萬維網(wǎng)的概念、方法及應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,11(21):167-168.
[2]白同強(qiáng),劉磊.語義的研究與展望[J].吉林大學(xué)學(xué)報(bào)信息(科學(xué)版),2011,19(20):88-89.
[3]杜小勇,李曼,王大治.語義與本體研究綜述[J].計(jì)算機(jī)應(yīng)用,2012,14(07):152-153.
[4]黃卿賢,胡谷雨.基于本體的網(wǎng)絡(luò)管理知識(shí)模型[J].北京郵電大學(xué)學(xué)報(bào),2014,16(45):362-363.
作者單位
邵陽學(xué)院 湖南省邵陽市 422000