史敏軍
摘 要:目前對(duì)本體語義關(guān)系挖掘映射系統(tǒng)都采用多種策略,這種方式對(duì)于權(quán)值的選取要較高,若權(quán)值選取不當(dāng),語義信息的利用就不夠充分,得出的映射結(jié)果就會(huì)大相徑庭。本文將主要針對(duì)語義挖掘的映射多策略及權(quán)值計(jì)算進(jìn)行研究,設(shè)計(jì)一個(gè)本體映射原型系統(tǒng),該系統(tǒng)將能實(shí)現(xiàn)本體映射語義關(guān)系挖掘的大部分功能,并得到語義映射的實(shí)驗(yàn)結(jié)果,最后,將得到的實(shí)驗(yàn)結(jié)果與先進(jìn)的映射系統(tǒng)的結(jié)果進(jìn)行相互比較,測(cè)試系統(tǒng)性能,從而驗(yàn)證本系統(tǒng)的有效性。
關(guān)鍵詞:本體映射 權(quán)值 語義挖掘
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)11(b)-0031-02
目前本體語義關(guān)系挖掘映射系統(tǒng)都采用多種策略[1],其候選映射集的檢索方法時(shí)間復(fù)雜度較高[2]而且得到的候選映射集容易得出錯(cuò)誤結(jié)果,針對(duì)這些問題,本文設(shè)計(jì)了一種面向語義關(guān)系挖掘的本體映射系統(tǒng),提出了一種全新的本體相關(guān)度候選映射集檢索方法。該方法首先通過對(duì)本體概念間的名稱相似度[3]進(jìn)行比較,獲得初始的候選映射集,再利用相關(guān)度對(duì)其拓展,得出優(yōu)化的候選映射集。提出了改進(jìn)了的映射關(guān)系挖掘算法,尤其采用權(quán)值策略的自適應(yīng)計(jì)算,削弱排除干擾信息,突出價(jià)值較高的一個(gè)語義信息。
1 系統(tǒng)目標(biāo)與模塊設(shè)計(jì)
本文設(shè)計(jì)的系統(tǒng)稱之為“S-Mapping”語義挖掘映射子系統(tǒng),通過本系統(tǒng)要實(shí)現(xiàn)高效率的候選映射集檢索,優(yōu)化的候選映射集。本系統(tǒng)由以下幾個(gè)模塊組成。
(1)用戶操作模塊。
提供一種UI操作界面,可供用戶進(jìn)行界面操作,可以很方便的輸入所需要進(jìn)行驗(yàn)證的映射本體,并能對(duì)最終結(jié)果進(jìn)行輸出顯示。
(2)本體解析模塊。
該模塊能對(duì)本體的各種特征進(jìn)行提取解析,針對(duì)檢驗(yàn)本體映射所需要的各種特征值進(jìn)行預(yù)處理,對(duì)不同格式的本體做標(biāo)準(zhǔn)化操作,為本體相似度運(yùn)算以及映射對(duì)的最終確定做好初期準(zhǔn)備。
(3)本體語義間關(guān)系挖掘模塊。
該模塊是對(duì)標(biāo)準(zhǔn)化本體主要用于進(jìn)行挖掘候選語義關(guān)系,通過語義的初步挖掘,縮小需要比對(duì)的樣本范圍,減輕下一步的運(yùn)算復(fù)雜度,并提高最終映射結(jié)果的精準(zhǔn)性。
(4)映射結(jié)果輸出模塊。
采用優(yōu)化的自適應(yīng)映射算法,將得出的結(jié)果進(jìn)行界面可視化輸出,為后續(xù)的查詢和檢索等提供參考服務(wù)。
(5)映射結(jié)果評(píng)價(jià)模塊。
為了檢驗(yàn)映射系統(tǒng)的性能,需要對(duì)映射結(jié)果進(jìn)行評(píng)價(jià),能自動(dòng)輸出評(píng)估的結(jié)果,根據(jù)這個(gè)評(píng)價(jià)結(jié)果,便于對(duì)系統(tǒng)進(jìn)行改進(jìn)。
2 系統(tǒng)實(shí)現(xiàn)
本系統(tǒng)選用Java作為編開發(fā)平臺(tái),Java的與平臺(tái)無關(guān)性,便于系統(tǒng)的移植。系統(tǒng)還用了UML、Jena、Alignment等開發(fā)工具。系統(tǒng)采用了一種全新的本體相關(guān)度候選映射集檢索方法,提出了改進(jìn)了的映射關(guān)系挖掘算法,尤其采用權(quán)值策略的自適應(yīng)計(jì)算,削弱排除干擾信息,突出價(jià)值較高的一個(gè)語義信息。
為了克服傳統(tǒng)映射系統(tǒng)采用方法存在的缺點(diǎn),本文結(jié)合本體的標(biāo)題名稱和自身結(jié)構(gòu)等信息為參考要素,確定映射關(guān)系候選集合,從而準(zhǔn)確而且全面的找出不同的本體中的語義概念本文認(rèn)為,當(dāng)兩映射關(guān)系對(duì)的結(jié)構(gòu)關(guān)系具有全相關(guān)性時(shí),則可在映射關(guān)系候選集合中直接添加目標(biāo)概念,這樣與該概念相近的周圍概念也將產(chǎn)生更大的加入映射候選集之中;當(dāng)兩映射關(guān)系對(duì)完全無不相關(guān)性時(shí),則可以直接丟棄該概念;除此之外,需要注意的是,目標(biāo)概念是必須遵循名稱相似度和相關(guān)性衡量指標(biāo)來加入映射關(guān)系候選集合的。
鑒于此,本文的核心思想是:對(duì)源本體和目標(biāo)本體的概念進(jìn)一系列預(yù)處理操作,如首字母縮寫處理、分詞操作、縮略語查找、排除同名異義以及詞干的抽取等,對(duì)于源本體中的任一概念X,經(jīng)過相似性比較操作,在目標(biāo)本體中找出與源本體名稱最相似的概念Y,然后以Y概念為錨點(diǎn)得到的初始候選概念映射集,然后再進(jìn)行擴(kuò)展,最終得到所需要的候選映射關(guān)系的集合。
本系統(tǒng)的關(guān)鍵程序代碼如下:
public StructrueMatcher(OntClass cls1,OntClass cls2,ExtendedVector structureMatchingResult(){
srccls=csl1;
tarcls=cls2;
this.structureMatchingResult=structureMatchingResult;
}
public boolean hasSameSuperClass(){
boolean flag=false;
OntClass[] spc1=superClassSet(srccls);
OntClass[] spc2=superClassSet(tarcls);
Outer;
for(int i=0;i<3;i++)
for(int j=0;j<3;j++)
if(spc1[i]!=null&&spc2[j]!=null){
MactchingUnitmu=new MatchingUnit(spc1[i].toString(),spc2[j].toString(),true);
if(structureMatchingResult.contains(mu))
flag=true;
break Outer;
}
}
}
return flag;
3 系統(tǒng)性能評(píng)估實(shí)驗(yàn)
本系統(tǒng)的實(shí)驗(yàn)以O(shè)AEI提供的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)[4],與2007年參加OM國(guó)際本體映射測(cè)試比賽的系統(tǒng)[5]在查全和查準(zhǔn)方面進(jìn)行比較。
從實(shí)驗(yàn)結(jié)果表1分析可以看出,本系統(tǒng)進(jìn)行語義搜索耗費(fèi)的時(shí)間要優(yōu)于傳統(tǒng)方法,系統(tǒng)性能較傳統(tǒng)方法有了一定的提升。系統(tǒng)參數(shù)均衡,在有些地方仍有提升的空間,如: 選映射集數(shù)目稍低,某些本體信息的處理結(jié)果還不夠理想等。
4 結(jié)語
本文針對(duì)語義挖掘的映射多策略及權(quán)值計(jì)算進(jìn)行研究,設(shè)計(jì)一個(gè)本體映射原型系統(tǒng),優(yōu)化改進(jìn)了本體映射策略,雖然部分處理的結(jié)果還不夠理想,還有提升的空間,但這對(duì)于今后開展的本體重用和集成等相關(guān)研究提供了基礎(chǔ),同時(shí)也為不同本體概念間的查詢提供了技術(shù)支持。
參考文獻(xiàn)
[1] 王家琴,李仁發(fā),李仲生,等.一種基于本體的概念語義相似度方法的研究[J].計(jì)算機(jī)工程,2007,11(33):201-203.
[2] 張芷維.基于語義的本體映射策略以其結(jié)合方式[D].中南大學(xué),2008.
[3] 唐杰,梁邦勇,李涓子,等.語義Web中的本體自動(dòng)映射. 計(jì)算機(jī)學(xué)報(bào),2006,11(29):1956-1976.
[4] Jayant Madhavan Alon Y. Halevy. Composing mappings among data sources[J]. VLDB 2003: Proceedings of 29th International Conference on VeryLarge Data Bases, Los Altos, USA, 2003:572-583.
[5] 潘有能,劉朝霞.本體映射技術(shù)在關(guān)聯(lián)數(shù)據(jù)中的應(yīng)用研究[J].情報(bào)科學(xué),2015,33(1):54-56,62.endprint