張路
長江大學(xué)工程技術(shù)學(xué)院 湖北 434020
本體映射算法以兩個(gè)本體作為輸入,然后為這兩個(gè)本體的各個(gè)元素(概念、屬性或者關(guān)系) 建立相應(yīng)的語義關(guān)系。相似性提取是本體映射的一個(gè)重要步驟,它主要是進(jìn)行概念相似度的計(jì)算,提高語義相似度計(jì)算精度成為提高語義信息檢索質(zhì)量的關(guān)鍵之一。語義相似度一般是指計(jì)算本體概念間的相似度,多數(shù)方法所考慮的概念是基于一個(gè)本體的,跨本體概念間的方法比較少。MD3模型是一種典型的計(jì)算跨本體概念間相似度的方法。
Triple Matching-Distance Model(MD3)模型是一種跨本體概念間相似度計(jì)算框架。計(jì)算實(shí)體類a和b之間的相似度通過計(jì)算同義詞集、特征屬性和語義鄰居之間的加權(quán)和,公式如下:
其中w, u, v表示了各組成部分的重要性。特征屬性細(xì)化為組成部分、功能以及其他屬性。概念a和b的語義鄰居及其特征屬性(即概念的部分、功能及其他屬性)也通過同義詞集合描述,每一個(gè)相似度的計(jì)算都通過Tversky公式:
其中A, B分別表示概念a和b的描述集合,A-B表示屬于A但不屬于B的術(shù)語集(B-A相反)。參數(shù)(,)abα由概念a和b和在各自層次結(jié)構(gòu)中的深度確定。
MD3模型的不足在于沒有考慮對象實(shí)例對概念的影響,同時(shí)其語義鄰居只考慮語義關(guān)系中層次之間的相似度,沒有考慮非層次之間的相似度。本文在MD3模型的基礎(chǔ)上,參考了其概念名稱相似度、特征屬性,對本體的結(jié)構(gòu)以及概念描述兩方面做了擴(kuò)充,重點(diǎn)討論了跨本體概念間非層次關(guān)系的相似度的比較和實(shí)例對概念相似度的影響,把MD3模型擴(kuò)展到Extension of Triple Mapping Distance model (EMD3)模型。
屬性有屬性名稱、屬性數(shù)據(jù)類型、屬性實(shí)例數(shù)據(jù)等要素,因此判斷兩個(gè)屬性是否相似主要從這三個(gè)要素來考慮。屬性名稱、屬性類型本身是文本類型,是字符串,因此可以采用字符串相似度計(jì)算方法進(jìn)行判定。例如用Humming distance來比較兩字符串。設(shè)兩字符串s和t,則它們之間的相似度可由下式給出:
其中:若s[i]=t[i],則f(i)=0;否則f(i)=1。由于每個(gè)概念的實(shí)例對該概念的每個(gè)屬性都分配了一個(gè)相應(yīng)的值,對于其他類型的數(shù)據(jù),可以采用下面介紹的方法進(jìn)行計(jì)算。
設(shè)概念A(yù)的屬性為ai,概念B的屬性為bj,兩個(gè)屬性之間的相似度的計(jì)算公式為:
其中wi是權(quán)重,代表屬性名稱、數(shù)據(jù)類型、屬性實(shí)例數(shù)據(jù)對屬性相似度計(jì)算的重要程度,且和為1。設(shè)概念A(yù),B之間總共計(jì)算出m個(gè)sim(ai,bj),并設(shè)置相應(yīng)的權(quán)值kl,則概念之間基于屬性的相似度為:
知網(wǎng)中概念的語義用義原來描述,義原是描述概念語義的最小單位,一共有1500多個(gè)義原。由于所有義原根據(jù)上下位關(guān)系構(gòu)成了一個(gè)樹狀的層次體系,所有可以用語義距離計(jì)算相似度。假設(shè)兩個(gè)義原在該層次體系中的路徑為d,可以得到兩個(gè)義原之間的語義相似度如下:Sim(p1,p2)=α/(d+α),式中α是一個(gè)可以調(diào)節(jié)大小的因子。在知網(wǎng)中一個(gè)概念由多個(gè)義原描述,所以我們只要計(jì)算每個(gè)義原的相似度來考慮其重要性,就可以得到概念之間的名稱相似度。計(jì)算方法如下:其中m, n為概念c1, c2的義原數(shù),wi為第i個(gè)義原所占的權(quán)重。
語義關(guān)系包括層次語義關(guān)系和非層次語義關(guān)系,層次語義關(guān)系具有有向傳遞性,非層次關(guān)系不具有傳遞性(如關(guān)聯(lián)關(guān)系)。
(1) 層次語義關(guān)系的計(jì)算
本文借鑒參考文獻(xiàn)[1]中的方法來計(jì)算層次語義關(guān)系,利用語義鄰居的概念,以實(shí)體為中心向周圍輻射,設(shè)定一個(gè)語義半徑,半徑取值的大小反映與實(shí)體之間的親疏關(guān)系。劃定語義鄰居的范圍集合進(jìn)行匹配,取集合中的最大值作為語義鄰居之間的相似度。語義鄰居計(jì)算公式如下:
(2) 非層次語義關(guān)系的計(jì)算
上位詞:定義概念的上位詞為概念所有父類的集合,公式如下:UC(Ci, H)={Cj∈C|H(Ci, Cj)}
基于概念上位詞的定義,定義概念的匹配公式:
與概念相關(guān)的非層次關(guān)系:如果關(guān)系的定義域或值域是概念c,則稱這些關(guān)系為與概念c相關(guān)的非層次關(guān)系,公式如下:
還可以進(jìn)一步把非層次關(guān)系細(xì)化為概念的In關(guān)系和Out關(guān)系(可以認(rèn)為非層次關(guān)系的方向是從定義域到值域,憑此來定義In和Out的關(guān)系),In關(guān)系指概念c是非層次關(guān)系的值域,公式如下:而Out關(guān)系指的是概念c是非層次關(guān)系的定義域,公式如下:
比較概念的非層次關(guān)系,首先應(yīng)該找出兩個(gè)本體中與這兩個(gè)概念相關(guān)的同類非層次關(guān)系(無需考慮不同類的非層次關(guān)系),進(jìn)而比較這些同類非層次關(guān)系的另外一項(xiàng)之間的相似度(如果要比較的概念是非層次關(guān)系的定義域,分別找出這個(gè)關(guān)系的值域,通過概念匹配公式對其進(jìn)行比較,反之亦然)。
其中i,o為權(quán)值,反映的是非層次關(guān)系的值域與定義域?qū)Ω拍钕嗨贫鹊挠绊懗潭?。對層次關(guān)系和非層次關(guān)系計(jì)算結(jié)果進(jìn)行綜合,得到概念語義環(huán)境的相似度計(jì)算公式如下:
其中t,u分別是層次關(guān)系和非層次關(guān)系的權(quán)重,因?yàn)樵诒倔w中層次關(guān)系要比非層次關(guān)系的重要性高,所以在計(jì)算中應(yīng)該賦以較大的值,即t>0.5>u,且t+u=1。
基于實(shí)例特征計(jì)算相似度的理論依據(jù)是,如果概念所具有的實(shí)例全部都相同,那么這兩個(gè)概念是相同的;如果兩個(gè)概念具有相同實(shí)例的比重是相同的,那么這兩個(gè)概念是相似的。對于概念A(yù),B的具體實(shí)例,可以用Jaccard系數(shù)來計(jì)算相似度:
其中P(A,B)表示一個(gè)實(shí)例既屬于概念A(yù)又屬于概念B的概率,表示一個(gè)實(shí)例屬于概念A(yù)但不屬于B的概率。
由上面的分析,綜合了各個(gè)部分相似度的值,得到跨本體概念間相似度的綜合公式如下:
其中m, n, r, t為各個(gè)部分所占的權(quán)重,根據(jù)各個(gè)部分重要性的不同m, n, r, t分別被賦以不同的值,并且m+n+r+t=1。
本文擴(kuò)展的模型充分繼承了MD3模型的優(yōu)點(diǎn),并對MD3模型進(jìn)行了優(yōu)化。在選擇了適當(dāng)權(quán)重的前提下,EMD3模型能夠確保語義相似度的計(jì)算更準(zhǔn)確,更全面。但是在語義相似度計(jì)算過程中存在著大量權(quán)重的設(shè)定問題,對模型的性能有一定的影響。如何準(zhǔn)確高效地設(shè)定權(quán)重是未來值得深入研究的問題。
[1] Rodriguez M A, Egenhofer M J. Determining Semantic Similarity Among Entity Classes from Different Ontologies. IEEE Trans. on Knowledge and Data Engineering.2003.
[2] 徐德智,肖文芳,王懷民.本體映射過程中的概念相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用.2007.
[3] 陳杰,蔣祖華. 領(lǐng)域本體的概念相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用.2006.
[4] 李鵬,陶蘭,王弼佐.一種改進(jìn)的本體語義相似度計(jì)算及其應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì).2007.
[5] Alexander Budanitsky,Graeme Hirst.Evaluating WordNet-based Measures of Lexical Semantic Relatedness[J].Computational Linguis2 tics.2006.
[6] Tversky A.Features of similarity.Psychological Review.1977.