• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      館藏資源本體模型的語義相似度算法研究*

      2015-05-10 08:41:14邱均平
      圖書館研究 2015年3期
      關(guān)鍵詞:實(shí)例本體館藏

      邱均平 ,許 暢

      (1.武漢大學(xué)中國科學(xué)評價(jià)研究中心,湖北 武漢 430072;2.武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072)

      1 前言

      1.1 館藏資源本體概述

      起源于哲學(xué)的本體論(ontology),近年來受到了信息科學(xué)領(lǐng)域的廣泛關(guān)注,本體的重要性也已在許多方面表現(xiàn)出來,并得到了廣泛的認(rèn)同。現(xiàn)今本體被細(xì)分為知識(shí)表示本體、通用本體、領(lǐng)域本體、術(shù)語本體、任務(wù)本體等類型[1]。按照學(xué)科層次逐層構(gòu)建本體的方法被廣泛應(yīng)用。國內(nèi)已在醫(yī)學(xué)、農(nóng)學(xué)、地理學(xué)、工學(xué)、軍事、經(jīng)濟(jì)學(xué)、教育學(xué)等學(xué)科成功構(gòu)建了大型本體。但是這種層次明顯的本體劃分方法很難適用于人文社科類的本體構(gòu)建。特別是隨著圖書館館藏資源的數(shù)字化,對多領(lǐng)域、多語言異構(gòu)的信息進(jìn)行高效開發(fā)利用的需求日益增長,單純劃分學(xué)科層次的方法很難適用。在文獻(xiàn)[2]中,邱均平和余凡結(jié)合語義網(wǎng)相關(guān)技術(shù)和計(jì)量學(xué)相關(guān)分析方法,構(gòu)建了館藏資源語義化的理論模型,并在模型中首次使用了資源本體的概念,之所以沒有使用領(lǐng)域本體這個(gè)詞,是因?yàn)閮烧叽嬖诓町悾侯I(lǐng)域本體會(huì)把范圍限制在某一個(gè)領(lǐng)域,資源本體的數(shù)據(jù)沒有領(lǐng)域之分,包括所有學(xué)科館藏資源的元數(shù)據(jù)。文中借用本體的定義,把資源本體定義為館藏資源共享概念模型的明確的形式化規(guī)范說明。由此,誕生了一種新的基于概念間的關(guān)系本體方案——資源本體。資源本體是以語義的基本理論為基礎(chǔ),引入信息計(jì)量領(lǐng)域的相關(guān)分析方法,對語義體系進(jìn)行擴(kuò)展,進(jìn)一步構(gòu)建而成的基于資源特征本身的本體,是館藏資源共享概念模型及關(guān)系明確的形式化規(guī)范說明[3]。資源本體除了具有本體本身的特點(diǎn)之外,還具有其特殊的含義。首先,現(xiàn)今階段資源本體的研究對象是“館藏資源”;其次,資源本體的相關(guān)概念及其關(guān)系的定義使用的是信息計(jì)量的相關(guān)方法。在資源本體模型中,更加強(qiáng)調(diào)概念與概念之間的語義關(guān)系。傳統(tǒng)本體的相似度計(jì)算方法多從屬性、結(jié)構(gòu)等方面因素考慮,缺乏對語義特征、距離、層次的綜合考慮以及對相似度算法準(zhǔn)確性和高適用性的優(yōu)化。因此本文綜合上述因素,對適用于館藏資源本體模型特點(diǎn)的語義相似度算法進(jìn)行進(jìn)一步的研究。

      1.2 幾種常用的相似度算法

      1.2.1 基于距離的語義相似度計(jì)算

      基于距離的語義相似度計(jì)算的基本思想是通過兩個(gè)概念詞在本體樹狀分類體系中的路徑長度量化它們之間的語義距離[4]。其中,最簡單的算法就是把本體中的所有路徑都看成距離為1的有向邊,這樣兩個(gè)概念的距離就為它們所對應(yīng)的節(jié)點(diǎn)在本體結(jié)構(gòu)中的最短距離的有向邊數(shù)量。由此,基于距離的語義相似度算法為[5]:

      其中,H為該本體的最大深度,L為概念w1和概念w2之間的有向邊數(shù)量。

      這種算法能夠簡單地反映出兩個(gè)概念的距離大小。若距離越近,則他們的語義相似度越大;反之,則越小。

      1.2.2 基于內(nèi)容的語義相似度計(jì)算

      基于內(nèi)容的語義相似度計(jì)算方法的基本原理是:兩個(gè)概念詞共享的信息越多,它們之間的語義相似度越大;反之,共享的信息越少,相似度也越小[6]。在一個(gè)本體中,每個(gè)概念子節(jié)點(diǎn)都可以被認(rèn)為是對其祖先節(jié)點(diǎn)的細(xì)化,因此,概念間的語義相似度能夠通過比較與之最近的父節(jié)點(diǎn)所包含的信息內(nèi)容來進(jìn)行計(jì)算。

      文獻(xiàn)[6]給出了關(guān)于層次網(wǎng)絡(luò)中量化每一個(gè)概念結(jié)點(diǎn)信息量的計(jì)算公式:

      其中,P(w)表示概念w在訓(xùn)練資料中出現(xiàn)的概率;IC(w)表示概念w所擁有的信息量。

      這樣,依據(jù)上面概念信息的量化公式,層次網(wǎng)絡(luò)中任意兩個(gè)概念之間的語義相似度計(jì)算模型為[7]:

      其中Anc(w1,w2)表示概念結(jié)點(diǎn)w1和w2在層次網(wǎng)絡(luò)中的最近共同祖先結(jié)點(diǎn)。

      1.2.3 基于屬性的語義相似度計(jì)算

      事物之間的關(guān)聯(lián)程度和其屬性是相關(guān)的。如果兩個(gè)事物的很多屬性相同,則它們是很相似的;反之,則不相似?;趯傩缘恼Z義相似度計(jì)算方法就是通過判斷兩個(gè)概念的公共屬性項(xiàng)的相似程度。

      Tversky提出了一種基于屬性的計(jì)算概念語義相似度的方法[8]:其中,w1∩w2表示概念w1和w2所共同擁有的屬性集,w1-w2表示概念w1擁有而概念w2沒有的屬性集,w2-w1表示概念w2擁有而概念w1沒有的屬性集。

      2 館藏資源本體中語義相似度計(jì)算

      2.1 相似度計(jì)算的原則

      在進(jìn)行相似度計(jì)算時(shí),為了使結(jié)果更加準(zhǔn)確,應(yīng)遵循幾個(gè)基本的原則。首先是量化原則,相似度是一個(gè)數(shù)值,取值范圍應(yīng)在[0,1]之間。其次,在計(jì)算相似度時(shí),應(yīng)盡量降低運(yùn)算的復(fù)雜度,保證簡單性原則。再次,應(yīng)充分利用本體的特征,本文主要討論的是館藏資源本體中的相似度計(jì)算,應(yīng)考慮館藏資源的相關(guān)特性。除此之外,由于概念的相似度計(jì)算主觀性很強(qiáng),因此對于不同的概念類型,其相似度也不同,可通過設(shè)定某些參數(shù),來保證相似度計(jì)算的可調(diào)節(jié)性。最后,概念的相似度計(jì)算應(yīng)保證對稱性,即Sim(w1,w2)=Sim(w2,w1)。

      2.2 影響相似度的因素

      根據(jù)上述的基本原則,可以進(jìn)一步歸納出館藏資源本體中相似度計(jì)算應(yīng)該考慮的幾個(gè)因素:

      1)語義共現(xiàn)。共現(xiàn)指的是相同或不同類型特征共同出現(xiàn)的現(xiàn)象。例如多篇論文之間共同出現(xiàn)的主題、共同出現(xiàn)的合作者、共同出現(xiàn)的機(jī)構(gòu)以及作者與期刊共同出現(xiàn)、作者與關(guān)鍵詞共同出現(xiàn)、論文與關(guān)鍵詞共同出現(xiàn)等。在計(jì)量研究中,共同出現(xiàn)的特征項(xiàng)之間一定存在著某種關(guān)聯(lián),關(guān)聯(lián)的程度可以通過共現(xiàn)頻次來測度。在館藏資源本體中,每一個(gè)類目下的實(shí)例都有可能和同類目下或者其他類目下的實(shí)例形成語義共現(xiàn)。例如,w1、w2、w3同屬于作者類,經(jīng)過相關(guān)數(shù)據(jù)的處理,得到w1和w2這兩位作者共同出現(xiàn)的次數(shù)為5,w1和w3這兩位作者共同出現(xiàn)的次數(shù)為2,則w1∩w2=5,w1∩w3=2??梢钥闯?,作者共現(xiàn)的頻次越大,兩位作者的語義相似度也越大,因此w1與w2之間的相似度,大于其與w3之間的相似度。

      2)語義距離。兩個(gè)概念之間的語義距離,是指在本體圖中連接這二個(gè)節(jié)點(diǎn)的通路中的最短路徑所跨的邊數(shù)[9]。語義距離是決定相似度的另一個(gè)基本的因素。上文中也對基于距離的語義相似度計(jì)算方法進(jìn)行了簡單的介紹。一般來說,兩個(gè)概念的距離越小,相似度越大;距離越大,相似度越小。這兩個(gè)概念能通過距離的大小建立對應(yīng)關(guān)系。需要注意的是,兩個(gè)詞語的距離為0時(shí),相似度應(yīng)為1。同樣,它們的距離為無窮大時(shí),相似度為0。在這里我們舉一個(gè)簡單的例子:如圖1所示,w5和w10的距離可記為Distance(w5,w10)=5。在館藏資源本體中,同類目下的實(shí)例之間的距離比不同的類目下的實(shí)例之間的距離要小,語義相似度更高。比如在某個(gè)館藏資源本題中,兩個(gè)作者之間的語義距離要小于某個(gè)作者與某種期刊的語義距離,作者之間的相似度也更高。

      圖1一個(gè)簡單的本體

      3)概念層次。在一個(gè)本體中,層次越深,對應(yīng)的節(jié)點(diǎn)也就更加的細(xì)分和具體化。同樣距離的兩個(gè)詞語,詞語相似度隨著他們所處層次的總和的增加而增加,隨著他們之間層次差的增加而減小[10]。例如,圖1中w7和w8之間的語義相似度,要高于w4與w5之間的語義相似度。因此,在計(jì)算館藏資源本體中的語義相似度時(shí),必須要考慮概念的層次深度這個(gè)因素。

      4)調(diào)節(jié)因子。調(diào)節(jié)因子是指根據(jù)系統(tǒng)的需求,通過它來判定概念所在本體中各種影響因素,從而確定概念之間的相似度。上文已經(jīng)論述過,在進(jìn)行語義相似度計(jì)算時(shí),需要保證可調(diào)節(jié)性原則。調(diào)節(jié)因子正是根據(jù)這種需要來設(shè)定。本文中,使用α、β、γ來表示調(diào)節(jié)因子。在計(jì)算語義相似度時(shí),可以通過調(diào)節(jié)α、β、

      第45卷 第3期 總第187期·2015年5月γ的值來確定所需要的結(jié)果,提高相似度數(shù)據(jù)的準(zhǔn)確性。

      2.3 館藏資源本體中語義相似度計(jì)算的方法

      綜合考慮以上因素,提出館藏資源本體中語義相似度計(jì)算方法,初始公式為:

      其中,Sim共現(xiàn)度(x,y)為概念x和y的語義共現(xiàn)度;Sim距離度(x,y)為概念x與y的語義距離度;Sim層次度(x,y)為概念 x與 y的概念層次度。α、β、γ 為調(diào)節(jié)因子,且 α+β+γ=1。

      由于共現(xiàn)度的計(jì)算和兩個(gè)概念的共同屬性是相關(guān)的,所以我們可以采用Tversky提出的基于屬性的語義相似度計(jì)算方法公式(5)來計(jì)算共現(xiàn)度。我們將參數(shù)進(jìn)行簡化,若α=β=l,則Tversky指數(shù)則成為Tanimoto系數(shù);若α=β=0.5,則Tversky指數(shù)則成為Dice系數(shù)[3]。由于在館藏資源本體中概念詞之間的關(guān)系是可逆的,具有對稱性,所以取α=β=0.5,即Dice系數(shù),公式為:

      在信息檢索中,給定關(guān)鍵詞集合X和Y,相似度定義為兩倍的共同信息(重疊部分)除以基數(shù)的總和[11]。根據(jù)這個(gè)概念,我們可以推導(dǎo)出概念x和y的共現(xiàn)度公式為:

      在館藏資源本體中,同一類目下的實(shí)例間的語義距離均為1,不同的類目下的實(shí)例間語義距離為大于1的整數(shù),我們可以簡單地將兩個(gè)概念間的距離度記為:

      兩個(gè)概念的層次差可以用作計(jì)算層次度,可得層次度公式:

      綜上所述,可得出館藏資源本體中語義相似度公式為:

      其中,α、β、γ為調(diào)節(jié)因子,且α+β+γ=1,其各項(xiàng)取值大小視各因素對語義相似度影響大小而定。

      2.4 館藏資源本體中語義相似度計(jì)算的流程

      通過上述相似度方法的相關(guān)分析,館藏資源本題中語義相似度計(jì)算的流程為:1)初始化概念,并設(shè)定調(diào)節(jié)因子數(shù)值;2)計(jì)算概念間的共現(xiàn)度;3)計(jì)算概念間的距離度;4)計(jì)算概念間的層次度;5)計(jì)算概念間的相似度;6)得出結(jié)果并按需求進(jìn)行下一步處理。

      3 實(shí)例分析——以競爭情報(bào)資源本體為例

      期刊資源是館藏資源的代表,并包含作者合作、共被引文獻(xiàn)、關(guān)鍵詞共現(xiàn)等計(jì)量關(guān)系,因此筆者以期刊資源為研究對象,并在CSSCI上獲取近十年的期刊數(shù)據(jù),進(jìn)行處理后,利用本體開發(fā)軟件Protégé構(gòu)建了以競爭情報(bào)為范疇的館藏資源本體。競爭情報(bào)資源本體的類目體系如圖2所示。

      圖2競爭情報(bào)資源本體類目體系

      我們以標(biāo)引詞、作者和機(jī)構(gòu)三個(gè)類目下的實(shí)例為分析對象,分別用文獻(xiàn)[3]中的傳統(tǒng)算法和本文算法對同一類目以及不同類目下的實(shí)例進(jìn)行語義相似度的計(jì)算實(shí)驗(yàn)。首先計(jì)算同一類目的標(biāo)引詞之間的相似度,需要確定調(diào)節(jié)因子的數(shù)值。由于標(biāo)引詞之間的關(guān)系主要取決于詞語的屬性,也就是詞語共現(xiàn)的情況,語義距離和語義層次對其的影響比較小。又α、β、γ為小數(shù)次方,所以影響越大的因素其對應(yīng)的數(shù)值應(yīng)越小。因此,參考二八原則,取α=0.2,β=γ=0.4,來進(jìn)行計(jì)算。其次計(jì)算不同類目下標(biāo)引詞與作者、機(jī)構(gòu)之間的相似度。由于計(jì)算的是不同類目下實(shí)例的相似度,三個(gè)因素的影響比較均衡,因此取α=β=γ=1/3。實(shí)驗(yàn)結(jié)果如表1所示。

      表1實(shí)驗(yàn)結(jié)果

      圖3語義相似度計(jì)算結(jié)果對比分析圖

      通過分析實(shí)驗(yàn)結(jié)果可知:1)本文算法具備傳統(tǒng)算法在語義相似度計(jì)算中所考慮的影響因素,因此,如圖3所示,兩種算法的相似度值走向趨勢是大致相似的。2)本文算法得到的語義相似度值覆蓋區(qū)間較大,數(shù)值更加精確。實(shí)驗(yàn)中本文算法得到的語義相似度最大值為sim(競爭情報(bào)、企業(yè))=0.516 42,語義相似度最小值為sim(競爭情報(bào)、張玉峰)=0.145 11,語義相似度值覆蓋區(qū)間為[0.145 11,0.516 42];同理,可得傳統(tǒng)算法的語義相似度值覆蓋區(qū)間為[0.036 454,0.146 919]。對于同樣的數(shù)據(jù)標(biāo)準(zhǔn),若語義相似度值覆蓋區(qū)間較小,則說明區(qū)間內(nèi)的概念實(shí)例相對較多,會(huì)導(dǎo)致語義擴(kuò)展精度的降低。在應(yīng)用語義相似度解決實(shí)際問題時(shí),大的數(shù)值覆蓋區(qū)間會(huì)帶來較高的精度[12]。3)本文算法得到的語義相似度值數(shù)值較高,更符合語義相似度計(jì)算中的歸一量化原則,所得結(jié)果更接近標(biāo)量。傳統(tǒng)算法得到的語義相似度計(jì)算值偏小,缺乏準(zhǔn)確度,不太利于后續(xù)館藏資源本體中實(shí)例間相關(guān)性的判斷。

      以上分析說明:本文算法考慮了傳統(tǒng)算法在計(jì)算語義相似度時(shí)所用到的各種因素,并通過對傳統(tǒng)算法的改進(jìn),得到的結(jié)果在精確性和準(zhǔn)確度上都有所提高,且符合人類的主觀判斷。雖然本文算法綜合考慮的因素較多,在一定程度上提高了相似度計(jì)算過程的復(fù)雜程度,但隨著現(xiàn)今技術(shù)的發(fā)展,這種程度的運(yùn)算問題已可以解決,應(yīng)更多考慮運(yùn)算時(shí)的準(zhǔn)確度和合理性。

      4 結(jié)束語

      概念間的相似度量化表示是館藏資源本體中智能檢索、分析和推理的重要基礎(chǔ)。本文針對館藏資源本體的特點(diǎn),提出了一種綜合的館藏資源本體模型的語義相似度算法。該算法考慮了館藏資源本體中實(shí)例概念間的語義共現(xiàn)、語義距離、概念層次因素,并引入了調(diào)節(jié)因子,能根據(jù)系統(tǒng)的不同需要,得到不同的計(jì)算和擴(kuò)展結(jié)果。實(shí)例中得到的結(jié)果也比較合理。本文的研究只是一個(gè)開始,許多問題還有待進(jìn)一步研究,例如本文的算法只針對在一個(gè)館藏資源本體內(nèi)部的概念,并沒有涉及不同館藏資源本體間的語義相似度計(jì)算。在后續(xù)工作中,將進(jìn)一步擴(kuò)展相似度計(jì)算的廣度,并將新算法應(yīng)用于館藏資源本體的構(gòu)建中以提高效率和效果。

      [1]李健康,張春輝.本體研究及其應(yīng)用進(jìn)展[J].圖書館論壇,2004(6):80-86.

      [2]邱均平,余凡.基于計(jì)量分析的館藏資源語義化理論研究[J].中國圖書館學(xué)報(bào),2012(4):71-78.

      [3]邱均平,樓雯.基于CSSCI的情報(bào)學(xué)資源本體構(gòu)建[J].情報(bào)資料工作,2013(3):57-63.

      [4]孫海霞,錢慶,成穎.基于本體的語義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010(1):51-56.

      [5]張德.萬維網(wǎng)信息聚類研究[D].南京:東南大學(xué)計(jì)算機(jī)系,2002.

      [6]LIN D.An Information-Theoretic Definition of Similarity[C]//Proc of the Int’l Conf on Machine Learning San Francisco:Morgan Kaufmann Publishers Inc.1998:296-304.

      [7]黃果,周竹榮.基于領(lǐng)域本體的概念語義相似度計(jì)算研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007(10):2460-2463.

      [8]TERVSKY.Features of Similarity[J].Psychological Review,1977(4):327-352.

      [9]張忠平,趙海亮,張志惠.基于本體的概念相似度計(jì)算[J].計(jì)算機(jī)工程,2009(7):17-19.

      [10]吳健.基于本體論和詞匯語義相似度的Web服務(wù)發(fā)現(xiàn)[J].計(jì)算機(jī)學(xué)報(bào),2005(4):595-602.

      [11]C.J.Van Rijsbergen.Information Retrieval[M].London:Butterworths,1979.

      [12]曹叡,吳玲達(dá).一種改進(jìn)的領(lǐng)域本體語義相似度計(jì)算方法[J].微電子學(xué)與計(jì)算機(jī),2014(8):109-114.

      猜你喜歡
      實(shí)例本體館藏
      Abstracts and Key Words
      館藏
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      博物館的生存之道:館藏能否變賣?
      知還印館藏印選——古印篇
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      介紹兩件館藏青銅器
      文物春秋(2014年2期)2014-12-24 21:23:05
      完形填空Ⅱ
      完形填空Ⅰ
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      晋宁县| 五常市| 红河县| 阳朔县| 云浮市| 闵行区| 临沂市| 元江| 尉氏县| 隆昌县| 康定县| 芒康县| 许昌县| 巴中市| 宝兴县| 鄱阳县| 洱源县| 卢龙县| 永福县| 西畴县| 贡嘎县| 青州市| 锦屏县| 遂宁市| 海林市| 南靖县| 崇义县| 泰顺县| 文成县| 锦屏县| 昆山市| 介休市| 读书| 磐石市| 台中县| 自治县| 镇远县| 嘉义县| 商城县| 光泽县| 罗甸县|