周兵,孟慧君,王棟,2
(1.河南大學(xué),開封 475004;2.中國科學(xué)院遙感與數(shù)字地球研究所,北京 100101)
在當(dāng)下計算機網(wǎng)絡(luò)技術(shù)飛速發(fā)展的信息化時代,人們對計算機信息的存儲、傳輸以及處理能力的要求也迅速增加,而檢索作為獲取信息的重要方式也越來越受到研究人員的關(guān)注。傳統(tǒng)的檢索方法大多只停留在比較關(guān)鍵字異同的層面,往往忽略了更深層次的語義層面所隱含的信息,從而未能達(dá)到用戶理想的檢索效果。語義檢索從搜索語句和檢索目標(biāo)的語義出發(fā),來提高檢索的準(zhǔn)確性。本文通過對本體中的概念及屬性進(jìn)行研究,試圖尋找多個概念之間以及概念的屬性之間的多種聯(lián)系,通過它們之間的相關(guān)度來鎖定檢索目標(biāo),并獲得最終的檢索結(jié)果。
信息檢索技術(shù)是一個從簡單到復(fù)雜發(fā)展的過程,從以往的基于關(guān)鍵詞的信息檢索方式發(fā)展到現(xiàn)階段的語義檢索,隨著用戶需求的增加以及研究的深入,語義檢索將在信息檢索領(lǐng)域發(fā)揮越來越重要的作用。
文獻(xiàn)[2]提出了一種匹配本體圖的語義檢索方法,該方法根據(jù)本體、關(guān)系、本體圖三者之間的語義相關(guān)性,提出了一種能夠計算語義相關(guān)性的本體圖匹配框架。在此方法中,本體之間的相關(guān)度是由兩者之間的距離決定的。文獻(xiàn)[3]提出的語義檢索方法是將傳統(tǒng)的搜索技術(shù)與傳播激活技術(shù)相結(jié)合。在給定初始的本體集和相應(yīng)的初始的激活權(quán)值下,由傳播激活機制系統(tǒng)查詢到相關(guān)的本體。這些初始的權(quán)值是由對與本體相關(guān)的本體數(shù)據(jù)進(jìn)行經(jīng)典的搜索得到的[3]。文獻(xiàn)[4]利用上述思想進(jìn)行了實驗分析,并證實了方法的正確性,傳播激活機制和這種基于本體的方法結(jié)合起來得到了令人滿意的結(jié)果。
在計算機科學(xué)與信息科學(xué)領(lǐng)域,本體指的是一種“形式化的,對于共享概念體系的明確而又詳細(xì)的說明”,是一種共享詞表,是特定領(lǐng)域中那些存在著的對象類型或概念及其屬性和相互關(guān)系?;蛘哒f,本體實際上就是對特定領(lǐng)域中某套概念及其相互之間關(guān)系的形式化表達(dá)。本體中概念之間總是存在各種各樣的關(guān)系,從某一個概念出發(fā)總可以找到多個與之相關(guān)的概念。
(1)概念相關(guān)度
本體中概念相關(guān)度主要由概念或?qū)嵗g的距離以及其深度來決定。相同深度下若兩個概念間的距離越短則表示概念間的相關(guān)度越大,反之相關(guān)度就越小。由于在本體中,概念的深度越深表示概念間劃分的越來越細(xì),概念間的區(qū)別越來越小,所以若兩個概念間距離相等,那么概念所處的深度越深則表示兩個概念間的相關(guān)度越大,反之相關(guān)度就越小。
為了便于描述,我們用simc=(ci,cj)表示概念相關(guān)度,用dis(ci,cj)表示兩個概念ci,cj間的距離,用dep(ci,cj)表示兩個概念的深度。當(dāng)兩個概念中一個為另一個的直接子孫概念時,兩個概念間的距離dis(ci,cj)=|dep(ci)-dep(cj)|。否則,需要通過兩個概念的公共父概
在文檔的語義檢索過程中,我們將文檔具體化為多個概念或?qū)嵗酶拍罨驅(qū)嵗齺肀硎疚臋n;同理將用戶的檢索信息也用概念來表示。以概念為基礎(chǔ),在本體中尋找概念及其屬性之間的關(guān)系并計算搜索概念與文檔中概念的相關(guān)度。
用W表示待標(biāo)引的文檔集,w表示文檔集W中的某個文檔。從文檔w中可以抽取多個概念,用c表示文檔w中的某個概念,概念c在領(lǐng)域本體中包含多個屬性(屬性是對概念的進(jìn)一步說明,用 p0,p1,p2..來表示)。文檔中概念和屬性為一個語義向量,一個文檔中可以抽取出多個語義向量,語義向量可表示為[6]:
其中Sj表示文檔中的一個語義向量,cj表示該語義向量中的某個概念或?qū)嵗?,p表示用于描述該概念或?qū)嵗亩鄠€屬性。
同理,對于用戶輸入的搜索請求,也可以抽取為一個或多個語義向量來表示:
語義檢索是根據(jù)文檔和查詢語句具體化得到的語義向量之間的相關(guān)度來確定檢索結(jié)果集的,語義向量的相關(guān)度包括兩部分,即概念相關(guān)度和屬性相關(guān)度。在上述表示中,屬性是對某個概念的描述,而文檔的主要表示元素是概念或?qū)嵗N覀兛梢砸跃唧w查詢中概念和屬性的重要性為依據(jù)來決定概念和屬性的權(quán)值來進(jìn)行最終語義相關(guān)度的計算。念來計算兩個概念間的距離,用cfar(ci,cj)表示兩概念ci,cj的公共父概念。設(shè)根結(jié)點深度dep(root)=0,相鄰兩概念邊的權(quán)值設(shè)為1,當(dāng)ci≠cj時:
考慮概念深度對相關(guān)度的影響,取兩個概念深度的平均值作為dep(ci,cj),即:
由于文檔中有多個概念,每個概念或?qū)嵗谖臋n中的重要程度也不盡相同,為了提高檢索的查準(zhǔn)率,我們對文檔中概念的重要性進(jìn)行計算,并將計算結(jié)果作為權(quán)值引入概念相關(guān)度計算中。用θ表示概念權(quán)值,設(shè)概念或?qū)嵗谖臋n中出現(xiàn)次數(shù)為cont,某個文檔中出現(xiàn)次數(shù)最多的概念的出現(xiàn)次數(shù)為contmax,則概念重要性即權(quán)值按公式(5)進(jìn)行計算:
概念相關(guān)度值得范圍為sim(ci,cj)∈[0,1],由以上公式(3)、公式(4)和公式(5)我們將概念相似度 sim(ci,cj)定義為:
由公式(5)可以知道,當(dāng)ci,cj為同一概念且文檔中概念cj為出現(xiàn)次數(shù)最多的概念時,sim(ci,cj)=1。當(dāng)θ取值相同時,將概念間距離dis(ci,cj)、概念深度dep(ci,cj)和概念相似度如表1表示:
表1 θ=1時相似度與概念距離深度的關(guān)系
從表1中信息可以明顯看出,當(dāng)概念權(quán)值θ=1時,對于表格中的每一行,兩概念距離dis(ci,cj)相同時,深度越深,概念間的相關(guān)度就越高;對于表格中的每一列,當(dāng)深度dep(ci,cj)相同時,兩概念間的距離越遠(yuǎn)則概念間的相關(guān)度越小。
表2 θ=0.5時相似度與概念距離深度的關(guān)系
對比表1和表2可以看出,當(dāng)文檔中概念出現(xiàn)的次數(shù)越少,即重要性越低θ越小時,計算所得的概念相關(guān)度的就越低。通過對文檔中概念的重要性進(jìn)行標(biāo)記,相同文檔中多個概念的相似度有了更加詳細(xì)的區(qū)分,為語義相似度的進(jìn)一步細(xì)化準(zhǔn)備了條件。
(2)屬性相關(guān)度
由于在一般語義相關(guān)度計算中屬性相關(guān)度所占比重較輕,且語義向量中屬性數(shù)量較多,在這里我們不在逐向量分析其語義,而是采用相對簡單的屬性值對比的方法進(jìn)行相似度計算。同理,在該計算過程中,對屬性相似度進(jìn)行加權(quán)處理,其權(quán)值同該屬性對應(yīng)的概念或?qū)嵗臋?quán)值θ,屬性相關(guān)度計算如下:
由公式(7)可以看出,屬性相關(guān)度的范圍為 sim((pi0,pi1..pin-1),(pj0,pj1..pjn-1))∈[0,1]。
屬性相似度由兩個語義向量中相同屬性的數(shù)量決定,當(dāng)兩個概念 ci=cj時,其屬性相關(guān)度sim((pi0,pi1..pin-1),(pj0,pj1..pjn-1))=1。
(3)語義相關(guān)度
根據(jù)前兩小節(jié)中對概念和屬性相關(guān)度的計算,將語義相關(guān)度計算定義為如下公式:
公式(8)中α表示在該語義相關(guān)度計算中概念的權(quán)值,β表示屬性的權(quán)值,且α+β=1。α的取值越大表示概念的重要性越高;同理,β越大表示屬性所占的比重越高。α和β的值反映了該檢索中概念和屬性的重要程度,可根據(jù)檢索需求來決定。
根據(jù)公式(8)計算查詢向量Si與文檔中各個語義向量Sj的相關(guān)度,設(shè)相關(guān)度閾值為δ,若計算所得相關(guān)度的最大值simmax(Si,Sj)≥δ,則表示該文檔符合檢索要求,將該文檔放入檢索結(jié)果集。
實驗從網(wǎng)絡(luò)獲取HTML文件,并進(jìn)行標(biāo)記清除和文檔核心內(nèi)容獲取等相關(guān)處理。以處理后數(shù)據(jù)為實驗數(shù)據(jù)集進(jìn)行實驗。在該實驗中,我們分別去概念和屬性的權(quán)值α=0.6,β=0.4,取閾值 δ=0.6。將優(yōu)化后的相似度算法和文獻(xiàn)[6]方法進(jìn)行實驗對比,比較二者查準(zhǔn)率和查準(zhǔn)率,結(jié)果如下圖1和圖2所示:
圖1 改進(jìn)前后查準(zhǔn)率對比圖
圖2 改進(jìn)前后查全率對比圖
當(dāng)概念和屬性的權(quán)值以及閾值相同時,從圖1可以明顯看出優(yōu)化后算法的查準(zhǔn)率高于改進(jìn)前。圖2顯示本文提出的算法查全率較另一算法低,這是因為改進(jìn)的算法對概念以及屬性的相關(guān)度計算進(jìn)行了加權(quán)處理,且權(quán)值θ≤1,這樣雖然將概念進(jìn)行了更加詳細(xì)的相關(guān)度區(qū)分,但是也影響了查全率。該問題可通過增大閾值的方法來解決。
由于傳統(tǒng)檢索方式的局限性,語義檢索逐漸出現(xiàn)在人們的視野,并且受到了越來越多的重視。通過對已有的語義檢索方法進(jìn)行學(xué)習(xí)和研究,在基于本體的基礎(chǔ)上,研究概念的組織結(jié)構(gòu)形式,在原有概念相似度的計算方法基礎(chǔ)上做進(jìn)一步的優(yōu)化,并考慮文檔中概念和屬性的重要程度,提出對相似度加權(quán)的計算方法,最終通過實驗分析證實了算法的有效性。