劉 杰
(安徽錢樓礦業(yè)集團(tuán), 安徽 六安 237000 )
本體已成為知識(shí)表示的最佳工具之一,也是語義網(wǎng)技術(shù)的基礎(chǔ)。W3C(萬維網(wǎng)聯(lián)盟)公布了用RDF(資源描述框架)和OWL(Web本體語言)等表示本體,也有其他組織開發(fā)和使用的如:CYCL,DOGMA,F(xiàn)-Logic等語言。目前,領(lǐng)域本體已經(jīng)應(yīng)用于人工智能、軟件工程、圖書館學(xué)和語義Web等多個(gè)領(lǐng)域[1]。不同領(lǐng)域之間,通過本體映射整合歸類不同本體表示的資源。實(shí)體相似度計(jì)算是本體映射的關(guān)鍵問題,相似度計(jì)算大致分為:基于術(shù)語、基于結(jié)構(gòu)和基于語義的方法,映射的過程分為:手動(dòng)、半自動(dòng)和自動(dòng)。
本體受到分類方案、表示語言和背景知識(shí)等因素影響,同一個(gè)領(lǐng)域中的本體表示可能看起來頗為不同。因此,在本體映射問題中,不僅要研究本體間“類”的匹配,同時(shí)實(shí)體間的特征(例如:關(guān)系)映射也很重要。本體映射系統(tǒng)一般有單一策略和多重策略,在多策略系統(tǒng)中,不同的相似測量需要適當(dāng)合并成一個(gè)單一相似值[2-3]。目前,大多數(shù)采用由專家憑經(jīng)驗(yàn)和實(shí)驗(yàn)的方式給資源分配權(quán)值的方法[4],但是在不同本體表示的Web資源里,這種方法不僅耗時(shí)且不穩(wěn)定。
本體映射是將源本體中的實(shí)體(包括類和特征)映射到目標(biāo)本體表示,實(shí)體間的相似度計(jì)算不僅僅是實(shí)體本身,還包括其他通過關(guān)系特征聯(lián)系的實(shí)體。本文提出了一種本體表示里“類”之間“公有性”概念,如果特征具有高“公有性”,則類的區(qū)分度就低,也就不能識(shí)別相似類,即如果特征“公有性”越大,則權(quán)值越小。
本體有標(biāo)簽、注釋、屬性、關(guān)系(父類和子類)以及實(shí)例等多種特征類型,我們把實(shí)體之間區(qū)分特征稱做“唯一性”。假設(shè),一個(gè)特征其本體具有“唯一性”,同時(shí)在另外一個(gè)本體中具有相同特征的類,則這兩個(gè)實(shí)體是等價(jià)的。例如:“人類”是世界上唯一具有思考能力的動(dòng)物,因此我們可以很容易在動(dòng)物本體中通過“思考”特征識(shí)別出“人類”類。相反,由于“人類”類每個(gè)實(shí)例都具有相同特征,所以他們很難區(qū)別。
本文定義Comf(c1,c2)表示基于特征的兩個(gè)實(shí)體關(guān)聯(lián)語義相似度不同的特征類型具有不同的語義形式。例如,對于字符串類型的“標(biāo)簽”和“注釋”,相關(guān)的語義可能是一組詞語的標(biāo)簽串的同義詞,而一個(gè)關(guān)系特征的關(guān)聯(lián)語義可能是通過關(guān)系連接的一組類。定義value(c,f)表示類c的特征f值,sem(f,c)表示與類c上特征f的語義關(guān)聯(lián)值,則定義一個(gè)字符串類型的特征f,實(shí)體c1和c2的Comf(c1,c2)值定義如下:
(1)
式中:sem(f,c1)和sem(f,c2)分別表示與value(c1,f)和value(c2,f)相關(guān)聯(lián)的同義詞組。另一方面,約束特征f,c1和c2之間的共性定義為:
(2)
最后,針對關(guān)系特征如:“父類”、“子類”和“實(shí)例”的值可以認(rèn)為是一個(gè)源自特征實(shí)體的集合。c1、c2之間的關(guān)系特征Comf(c1,c2)定義為:
(3)
通過上面的計(jì)算得到特征概念Comf(c1,c2)值,用其計(jì)算特征權(quán)值。定義O表示本體,C表示屬于O的一組實(shí)體,F(xiàn)表示C上的一組特征,包括“標(biāo)簽”、“注釋”、“父類”、“約束”、“關(guān)系”和“實(shí)例”等。一個(gè)特征的Comf(c1,c2) 定義為:
(4)
式中:n—C中類的數(shù)量;ci、cj—C中類。特征f的權(quán)值定義為:
Wf=1-CMf
(5)
當(dāng)計(jì)算出兩個(gè)本體表示的實(shí)體特征權(quán)值后,類之間相似度計(jì)算可以通過整合各種特征權(quán)值計(jì)算得到,類和特征在相似度計(jì)算中互相影響[6-7]。由于類由一組特征描述,所以相似度計(jì)算要考慮特征相似度。本文采用迭代算法進(jìn)行本體映射。
(6)
其中SIMk屬性值以類型為依據(jù):
(1)如果X和Y是不同類型,則SIMk(X,Y)=0。
(2)如果X和Y都是“字符型”、“數(shù)值型”等相同類型,如果X=Y,則SIMk(X,Y)=1;否則:
(3)如果X和Y是實(shí)體集合,則:
圖1為樣例本體表示。源本體中的實(shí)體“Book”和目標(biāo)本體中的實(shí)體“Book”相似度計(jì)算如下:
其中SimilarityOnSuperClass、SimilarityOnLabel和SimilarityOnSubClass是相似度(SIMk)計(jì)算通過features、super_class、label和sub_class各自對應(yīng)的特征相似度(Simk)和特征權(quán)值(W)。
在循環(huán)過程中,當(dāng)最近的調(diào)整函數(shù)Ak+1和相似度函數(shù)Simk+1與Ak、Simk值相同時(shí),則跳出循環(huán),停止迭代。調(diào)整算法如下:
圖1 樣例本體表示
PROCEDURE: Ontology Mapping
INPUT: Ontology O1,O2OUTPUT: Alignnment A
BEGIN
W1=ComputeWeight(O1)
W2=ComputeWeight(O2)
A0=ComputeInitialAlignment(O1, O2)
Sim0=ComputeInitialSimilarity(O1, O2,A0)
k=1
WHILE k≠-1
FOR eiin O1
FOR ej in O2
PUT(Simk, ComputerSimilarity(ei, ej, Ak-1))
END_FOR
END_FOR
Ak=GetAlignment(Simk)
IF Simk≒Simk-1AND Ak≒Ak-1THEN
k=-1
ELSE
k=k+1
END_IF
END_WHILE
OUTPUT(A)
END_BEGIN
END_PROCEDURE
如算法所示,如果本體O1和O2的實(shí)體數(shù)分別是n和m,算法的時(shí)間復(fù)雜度是O(n×m)。
采用OAEI 2009語料庫作為測試數(shù)據(jù),評價(jià)性能指標(biāo)有準(zhǔn)確率p、召回率r和F。計(jì)算公式如下:
實(shí)驗(yàn)數(shù)據(jù)包含了33個(gè)確定類、24種關(guān)系、44個(gè)屬性、56個(gè)實(shí)例和20個(gè)無屬性實(shí)例。實(shí)驗(yàn)將文中提出的AFW法與Lily、MapPSO、TaxoMap等方法[8]做了比較,如表1所示,文中提出的AFW法由于采用了自動(dòng)權(quán)值計(jì)算方法,提高了匹配效率,在3個(gè)標(biāo)準(zhǔn)方面都有顯著提高。
表1 實(shí)驗(yàn)結(jié)果比較
本文提出了用權(quán)值法表示特征的重要性,通過對特征語義的分析,設(shè)計(jì)出實(shí)體權(quán)值的計(jì)算模型,計(jì)算出各關(guān)系間的相似度權(quán)值。通過采用迭代法的本體映射實(shí)驗(yàn),采用自動(dòng)特征權(quán)值計(jì)算方法提高本體映射效率,與其他的系統(tǒng)相比在準(zhǔn)確率、召回率、F-measure等方面都具有較好的特性。今后還將增加算法的魯棒性和可調(diào)試性能研究。
[1] 周勝臣,瞿文婷,石英子,等.中文微博情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(3):161-164.
[2] 熊芳,黃宏斌,黃玉成.一種基于語義相似度的信息資源語義聚類算法[J].計(jì)算機(jī)工程與科學(xué),2012,34(11):175-179.
[3] 姜孟晉,周雅倩,黃萱菁.基于同義實(shí)體擴(kuò)展的冗余信息去重[J].中文信息學(xué)報(bào),2012,26(1):42-50.
[4] 崔曉軍,肖紅宇,丁立新.基于距離的自適應(yīng) Web 數(shù)據(jù)庫記錄匹配方法[J].武漢大學(xué)學(xué)報(bào):理學(xué)版,2012(1):19.
[5] 趙海霞,李道申,劉勇,等.一種 Deep Web 查詢結(jié)果的實(shí)體抽取方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(36):160-163.
[6] 齊玉東,閆曉斌,謝曉方.基于LISA理論的概念模型相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(3):40-42.
[7] 董登輝, 肖剛, 張?jiān)Q, 等.基于多粒度服務(wù)庫的SOA參考模型及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29 (10):152-155.
[8] 孫明,陸春生,徐秀星.一種基于 SVM 和AdaBoost的Web實(shí)體信息抽取方法[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(4):101-106.