• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于森林病蟲害領(lǐng)域本體的概念相似度算法改進(jìn)1)

    2016-10-28 08:15:29陳志飛岳琪陳廣勝
    關(guān)鍵詞:層次結(jié)構(gòu)本體語義

    陳志飛 岳琪 陳廣勝

    (東北林業(yè)大學(xué),哈爾濱,150040)

    ?

    基于森林病蟲害領(lǐng)域本體的概念相似度算法改進(jìn)1)

    陳志飛 岳琪 陳廣勝

    (東北林業(yè)大學(xué),哈爾濱,150040)

    傳統(tǒng)的基于本體概念的相似度算法過于依賴層次結(jié)構(gòu),且忽略了許多影響概念間語義相似度的因素。針對這一問題,通過引入邊權(quán)重關(guān)系、語義相關(guān)度影響因素,提出1種新的基于森林病蟲害本體的語義相似度的計(jì)算方法。結(jié)果表明:改進(jìn)后的相似度算法比傳統(tǒng)算法更接近林業(yè)相關(guān)領(lǐng)域的專家經(jīng)驗(yàn)值,證明了該方法的準(zhǔn)確性及有效性,體現(xiàn)了林業(yè)領(lǐng)域本體概念間的復(fù)雜關(guān)系。

    語義相似度;本體;森林病蟲害

    在當(dāng)今知識型經(jīng)濟(jì)社會(huì),海量的林業(yè)信息已成為國家重要的戰(zhàn)略資源。然而,隨著信息資源逐漸增多,傳統(tǒng)的基于關(guān)鍵字層次的信息搜索已經(jīng)不能滿足人們的需求,用戶無法準(zhǔn)確得到基于真實(shí)語義的搜索結(jié)果。如何為用戶提供更準(zhǔn)確、更全面的檢索方式已成為一個(gè)亟待解決的問題。隨著問題的出現(xiàn),領(lǐng)域本體這一概念逐漸成為解決這一問題的方式。領(lǐng)域本體主要描述的是特定領(lǐng)域內(nèi)概念與概念之間的關(guān)系[1]。它可以將人機(jī)交互通過語義連接的方式,使得信息檢索在各領(lǐng)域內(nèi)具有更高的檢索效率及準(zhǔn)確度。因此,在林業(yè)研究領(lǐng)域,基于本體進(jìn)行信息檢索對解決復(fù)雜的林業(yè)問題是一個(gè)新的方向。

    目前,很多學(xué)者對基于領(lǐng)域本體的信息檢索進(jìn)行了研究,他們認(rèn)為利用領(lǐng)域本體能夠針對復(fù)雜的問題進(jìn)行高效的語義檢索,而語義相似度計(jì)算是基于本體信息檢索研究中的關(guān)鍵環(huán)節(jié)[2]。傳統(tǒng)語義相似度計(jì)算方法主要有2種。第1種是基于語義距離的計(jì)算方法[3],該算法通過分析本體的層次結(jié)構(gòu),利用不同概念之間不同的語義距離來區(qū)分相似度。這種算法雖然簡單,但是過于依賴本體的層次結(jié)構(gòu)而忽略了不同概念之間更深層次的語義關(guān)系,并且通過語義距離計(jì)算出來的相似度容易受到層次結(jié)構(gòu)的影響,不同的層次結(jié)構(gòu)下同一組概念間的相似度會(huì)有偏差。第2種是基于信息內(nèi)容的計(jì)算方法,該算法以Resnik提出的[4]為代表,Resnik認(rèn)為本體概念間的相似程度取決于它們共享信息的程度,通過判斷2個(gè)概念之間的屬性集之間的關(guān)系來進(jìn)行相似度計(jì)算。但這種方法沒有考慮到本體的層次結(jié)構(gòu),得到的結(jié)果準(zhǔn)確度不高。

    筆者通過研究以上方法,進(jìn)一步分析了本體概念間的特點(diǎn),提出了一種改進(jìn)的本體概念相似度計(jì)算方法。在構(gòu)建林業(yè)病蟲害領(lǐng)域本體的基礎(chǔ)上,加入概念間的邊權(quán)重關(guān)系及語義相關(guān)度因素,得到一個(gè)新的相似度計(jì)算方法,并通過試驗(yàn)得出準(zhǔn)確度更高的結(jié)果。

    1 本體的概述

    本體隨著計(jì)算機(jī)在人工智能領(lǐng)域的不斷發(fā)展,被國內(nèi)外眾多研究學(xué)者所關(guān)注,通常它被定義為“共享概念模型的明確的形式化規(guī)范說明”[5]?;诒倔w的研究已在工業(yè)、農(nóng)業(yè)等多個(gè)領(lǐng)域有較多進(jìn)展,然而在林業(yè)領(lǐng)域特別是基于森林病蟲害領(lǐng)域的本體研究相對較少。由于本體這種知識建模工具能夠很好地描述概念以及概念與概念之間的關(guān)系,將本體應(yīng)用在森林病蟲害領(lǐng)域,對挖掘出該領(lǐng)域內(nèi)樹木、害蟲、疾病、防治措施等不同概念間的內(nèi)在關(guān)系有著重要的意義。圖1是一個(gè)本體的樹形圖示例,它代表了一個(gè)基本的本體層次結(jié)構(gòu)。圖中1到18號節(jié)點(diǎn)代表著本體結(jié)構(gòu)中的實(shí)例或?qū)傩?,每條有向邊表示概念之間不同的語義關(guān)系。

    圖1 一個(gè)本體的樹形圖示例

    2 語義相似度計(jì)算的影響因子

    語義相似度是一個(gè)主觀性很強(qiáng)的概念,而概念與概念之間存在著復(fù)雜的語義關(guān)系,他們不能拋開

    具體的應(yīng)用而得到統(tǒng)一的定義[6]。若一組概念在不同的句子中存在較高的替換率,則它們具有較高的相似程度,也可以說,這2個(gè)概念的相似度較大。定義a,b為圖1中的任意兩個(gè)概念節(jié)點(diǎn),S(a,b)為二者的相似度,則根據(jù)語義相似度的定義,可以得出以下性質(zhì):

    (1)若概念a與b相似,則S(a,b)∈[0,1]。

    (2)若概念a與b在任何語句中都可以相互替換,則S(a,b)=1。

    (3)若概念a與b沒有共性,則S(a,b)=0。

    本體層次可以用樹狀圖的形式來表示[7]。圖2是利用本體構(gòu)建工具Protégé建立的一個(gè)森林病蟲害領(lǐng)域本體。由于實(shí)際的森林病蟲害本體構(gòu)建起來比較復(fù)雜,因此,以簡單的森林病蟲害本體作為研究范本。圖中的節(jié)點(diǎn)代表森林病蟲害本體的屬性或?qū)嵗母拍?,?shí)線為該本體中上下位的關(guān)系(只給出繼承關(guān)系、同義關(guān)系、實(shí)例關(guān)系),虛線表示節(jié)點(diǎn)之間具有一定的相關(guān)性。

    圖2 基于森林病蟲害本體圖

    2.1 語義距離

    在同一個(gè)本體樹中,2個(gè)節(jié)點(diǎn)之間最小的邊長距離稱之為概念間的語義距離[8]。定義:分別設(shè)a,b為本體樹中的2個(gè)節(jié)點(diǎn)概念,二者的語義距離記作Dist(a,b)。若a,b之間的最小邊長距離越大,即語義距離越大,則它們的相似度越低。用SDist(a,b)來表示概念a與b的語義相似度,則Dist(a,b)與SDist(a,b)存在著如下對應(yīng)關(guān)系;若Dist(a,b)越大,SDist(a,b)越小;反之,SDist(a,b)越大。因此,用α作為語義距離與語義相似度之間可調(diào)節(jié)的影響參數(shù),得到:

    (1)

    2.2 語義重合度

    語義重合度代表著本體樹中2個(gè)概念節(jié)點(diǎn)到達(dá)本體樹根節(jié)點(diǎn)的共同節(jié)點(diǎn)數(shù)與所有經(jīng)過的節(jié)點(diǎn)數(shù)之間的關(guān)系。定義:用U(i)代表節(jié)點(diǎn)到達(dá)根節(jié)點(diǎn)的所有節(jié)點(diǎn)集合。U(i1)∩U(i2)表示從概念i1所在結(jié)點(diǎn)和概念i2所在結(jié)點(diǎn)到根結(jié)點(diǎn)共同經(jīng)過的結(jié)點(diǎn)集合,U(i1)∪U(i2)表示從概念節(jié)點(diǎn)i到根節(jié)點(diǎn)所經(jīng)過的所有節(jié)點(diǎn)的集合。因此,用β作為可調(diào)節(jié)的影響參數(shù),SCoin(a,b)代表節(jié)點(diǎn)a與b之間的語義重合度,得到:

    (2)

    2.3 概念深度

    概念深度是指概念節(jié)點(diǎn)到達(dá)根節(jié)點(diǎn)的最小路徑,在本體層次結(jié)構(gòu)中,處于越底層的節(jié)點(diǎn)深度越大,其概念的定義越詳細(xì)。定義:Ddepth(i)表示概念節(jié)點(diǎn)i在本體中的深度,用SDept(a,b)表示節(jié)點(diǎn)a與b之間概念深度的相似度大小。因此,用γ作為可調(diào)節(jié)的影響參數(shù),得到:

    (3)

    2.4 概念密度

    概念密度是指該節(jié)點(diǎn)具有的直接子節(jié)點(diǎn)的數(shù)目,文中的直接子節(jié)點(diǎn)包括孩子節(jié)點(diǎn)與孫子節(jié)點(diǎn);若沒有子孫節(jié)點(diǎn),則密度為0。一般來講,在同一本體樹當(dāng)中,概念的分類均是由簡單到復(fù)雜,由抽象到具體。越處于深層的節(jié)點(diǎn)其子節(jié)點(diǎn)分化越細(xì),概念之間的區(qū)分度越小,相似度越高。定義:Ddegree(Ppublic)Anc表示本體樹中與a,b兩個(gè)概念節(jié)點(diǎn)最近的公共祖先節(jié)點(diǎn)的度(表示最近公共祖先節(jié)點(diǎn)的孩子節(jié)點(diǎn)與孫子節(jié)點(diǎn)的數(shù)量和),用Ddegree(Nnode)max表示本體樹中各節(jié)點(diǎn)度的最大值,用SDens(a,b)表示節(jié)點(diǎn)a與b之間概念密度的相似度大小。因此,用λ作為可調(diào)節(jié)的影響參數(shù),得到:

    (4)

    2.5 邊權(quán)重關(guān)系

    在構(gòu)建本體時(shí),由有向邊連接的概念之間往往存在多種不同的關(guān)系。而不同的關(guān)系類型會(huì)影響概念之間的相似程度。本體主要考慮3種關(guān)系類型:同義、繼承、實(shí)例關(guān)系。其中繼承表示兩個(gè)概念其中一個(gè)是另一個(gè)的具體細(xì)分,且具有更多的性質(zhì);而實(shí)例則代表概念間具有整體和部分的關(guān)系。例如,在構(gòu)建的森林病蟲害本體中,紅松是常綠針葉林的一個(gè)實(shí)例,常綠針葉林屬于一個(gè)整體,包含紅松、油松等其他樹種。二者為整體和部分的關(guān)系。而紅松和油松之間具有同義關(guān)系,兩類松樹均屬常綠針葉林,且均易得銹病。因此,本體不同概念間的有向邊關(guān)系并不完全一致,在計(jì)算概念間的語義相似度時(shí),需要引入邊權(quán)重關(guān)系。邊權(quán)重關(guān)系的大小定義為W(s,p),當(dāng)概念子節(jié)點(diǎn)s與父節(jié)點(diǎn)p為同義關(guān)系時(shí),W(s,p)=1;當(dāng)節(jié)點(diǎn)s與節(jié)點(diǎn)p為繼承關(guān)系時(shí),W(s,p)=1/2;當(dāng)節(jié)點(diǎn)s與節(jié)點(diǎn)p為實(shí)例關(guān)系時(shí),W(s,p)=1/3。如果在本體結(jié)構(gòu)圖中,概念間由n條邊相連,則分別記為W1、W2、W3、W4、…Wn,用SWeig(a,b)表示節(jié)點(diǎn)a與b之間邊權(quán)重的相似度大小,用μ作為可調(diào)節(jié)的影響參數(shù),則能得出:

    (5)

    2.6 語義相關(guān)度

    語義相關(guān)度描述的是概念之間的相關(guān)程度,它與語義相似度并不相同。在本體中,若2個(gè)概念相似,則意味著二者在某些特征方面一致;若2個(gè)概念相關(guān),它們所表現(xiàn)的特征卻可能并不一致[9]。在森林病蟲害領(lǐng)域,考慮不同概念間的語義相關(guān)度尤為重要。如油松與銹病2個(gè)概念的特征并不一致,然而銹病卻是油松的主要病害,二者之間有著密切的相關(guān)性。土壤改善與黃化病在本體層次結(jié)構(gòu)中相似度并不高,概念的特征重合度較低,土壤改善卻是防治黃化病的有效方法,二者同樣有著緊密的相關(guān)性。由此可見,在本體樹中,某些概念節(jié)點(diǎn)之間往往存在著關(guān)聯(lián)關(guān)系,通過關(guān)聯(lián)關(guān)系連接的路徑長度相比語義距離路徑短得多。因此,語義相關(guān)度是衡量概念間語義相似度的又一個(gè)重要影響因子。定義:若概念a,b之間相關(guān),則定義DdistAct(a,b)用來表示概念a到概念b實(shí)際最短路徑長度;如果概念a,b之間不相關(guān),則DdistAct=(a,b)=∞。因此,用θ作為可調(diào)節(jié)的影響參數(shù),用S(a,b)Rela表示節(jié)點(diǎn)a與b之間的語義相關(guān)度,可以得到:

    (6)

    3 改進(jìn)的相似度計(jì)算方法

    3.1 計(jì)算模型

    經(jīng)過以上分析,在構(gòu)建林業(yè)病蟲害領(lǐng)域本體的基礎(chǔ)上,引入了邊權(quán)重關(guān)系及語義相關(guān)度因素,結(jié)合上述公式(1)到(6),最終得到改進(jìn)后的概念間語義相似度的計(jì)算模型:

    (7)

    3.2 與傳統(tǒng)方法的差異

    本算法以簡單的森林病蟲害本體(圖2)為基礎(chǔ),設(shè)定了合適的可調(diào)節(jié)參數(shù),分別取α=7、β=2、γ=4、λ=4、μ=2、θ=3。由于目前研究領(lǐng)域本體概念間相似度的計(jì)算方法仍無法保證一定程度的準(zhǔn)確性,因此,將改進(jìn)的算法與劉景方的傳統(tǒng)算法[10]進(jìn)行比較的同時(shí),還引入林業(yè)相關(guān)領(lǐng)域?qū)<业姆治鼋Y(jié)果進(jìn)行對比。結(jié)果如表1所示。表1中概念a和概念b代表圖2本體中隨機(jī)選取的14對概念節(jié)點(diǎn)。其中領(lǐng)域?qū)<医?jīng)驗(yàn)值是由9位領(lǐng)域?qū)<曳謩e對14組概念對進(jìn)行語義相似的評估,并對結(jié)果取平均值得出,結(jié)果保留2位有效數(shù)字。表1中第1組數(shù)據(jù)的概念:森林病蟲害(概念a1)與營造混交林(概念b1),以文獻(xiàn)[10]中的傳統(tǒng)算法得出的相似度值為0.118 3,通過改進(jìn)的算法得到的相似度值為0.133 0,將二者的數(shù)據(jù)與領(lǐng)域?qū)<医?jīng)驗(yàn)值(0.14)進(jìn)行對比,發(fā)現(xiàn)改進(jìn)后的算法與專家經(jīng)驗(yàn)值吻合較好。

    表1 基于森林病蟲害本體概念間的相似度比較

    4 結(jié)束語

    改進(jìn)算法在傳統(tǒng)的基于語義距離、信息內(nèi)容的相似度計(jì)算方法的基礎(chǔ)上,引入了邊權(quán)重關(guān)系、語義相關(guān)度等因素,并應(yīng)用于森林病蟲害領(lǐng)域,依據(jù)森林病蟲害數(shù)據(jù)之間的內(nèi)在語義聯(lián)系,得出了符合該領(lǐng)域的語義相似度值,為以后研究復(fù)雜的林業(yè)領(lǐng)域問題提供了基礎(chǔ)。該算法相對于傳統(tǒng)算法更加接近于領(lǐng)域?qū)<业慕?jīng)驗(yàn)值,也證明了算法改進(jìn)的可行性與科學(xué)性。

    圖3 基于森林病蟲害本體語義相似度的3組數(shù)據(jù)趨勢比較

    [1] 楊月華,杜軍平,平源.基于本體的智能信息檢索系統(tǒng)[J].軟件學(xué)報(bào),2015,26(7):1675-1687.

    [2] SELVARETNAM B, BELKHATIR M. Natural language technology and query expansion: issues, state-of-the-art and perspectives[J]. Journal of Intelligent Information Systems,2012,38(3):709-740.

    [3] HOURALI M, MONTAZER G A. An intelligent information retrieval approach based on two degrees of uncertainty fuzzy ontology[J]. Advances in Fuzzy Systems,2011.doi:10.1155/2011/683976.

    [4] 王凡,陳健.基于概念相似度計(jì)算的多策略本體映射研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015(4):38-42.

    [5] 高蕾娜,史延楓,李艷丹.基于特定領(lǐng)域的加權(quán)語義相似度算法研究[J].成都大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,34(3):259-261,274.

    [6] 劉鋒,郭維威.一種優(yōu)化的基于領(lǐng)域本體語義距離的概念相似度計(jì)算模型研究[J].曲阜師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,41(4):55-59.

    [7] RAJPUT Q, HAIDER S. BNOSA: A Bayesian network and ontology based semantic annotation framework[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2011.doi:10.1016/j.websem.2011.04.002.

    [8] 李杰,初硯碩,程亮,等.基于疾病本體的疾病相似性計(jì)算方法[J].生物化學(xué)與生物物理進(jìn)展,2015,42(2):115-122.

    [9] 潘彩霞,薛佳妮,于輝輝,等.基于本體的魚病診斷專家系統(tǒng)的構(gòu)建[J].廣東農(nóng)業(yè)科學(xué),2015(1):157-160.

    [10] 劉景方,鄒平,張朋柱,等.一種改進(jìn)的本體概念語義相似度算法研究[J].武漢理工大學(xué)學(xué)報(bào),2010,32(20):112-117.

    Improvement of Concept Similarity Algorithm Based on Domain Ontology of Forest Diseases and Insect Pests//

    Chen Zhifei, Yue Qi, Chen Guangsheng

    (Northeast Forestry University, Harbin 150040, P. R. China)//Journal of Northeast Forestry University,2016,44(9):112-115.

    The traditional similarity algorithm based on ontology concept is too dependent on a hierarchy structure, and ignores many factors that affect the semantic similarity between concepts. A different method of calculating the semantic similarity based on the ontology of forest diseases and insect pests was proposed by the introduction of edge weight relationship and semantic correlation. The improved algorithm is more faithful to the experience value of forestry related domain experts than the traditional algorithm, proves the accuracy and effectiveness of the method, and also reflects the complex relationship between the domain ontology concepts.

    Semantic similarity; Ontology; Forest diseases and insect pests

    陳志飛,男,1990年10月生,東北林業(yè)大學(xué)信息與計(jì)算機(jī)工程學(xué)院,碩士研究生。E-mail:464138177@qq.com。

    陳廣勝,東北林業(yè)大學(xué)信息與計(jì)算機(jī)工程學(xué)院,研究員。E-mail:kjc_chen@163.com。

    2015年11月10日。

    S763.1;TP399

    1)林業(yè)公益性行業(yè)科研專項(xiàng)經(jīng)費(fèi)(201504307)。

    責(zé)任編輯:程 紅。

    猜你喜歡
    層次結(jié)構(gòu)本體語義
    Abstracts and Key Words
    基于級聯(lián)網(wǎng)絡(luò)和語義層次結(jié)構(gòu)的圖像自動(dòng)標(biāo)注方法
    對姜夔自度曲音樂本體的現(xiàn)代解讀
    語言與語義
    論立法修辭功能的層次結(jié)構(gòu)
    法律方法(2017年2期)2017-04-18 09:00:37
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    建構(gòu)利益相關(guān)者管理的三層次結(jié)構(gòu)分析
    《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
    認(rèn)知范疇模糊與語義模糊
    Care about the virtue moral education
    卷宗(2013年6期)2013-10-21 21:07:52
    百色市| 青神县| 布尔津县| 碌曲县| 绥宁县| 高要市| 景宁| 桦甸市| 长汀县| 龙川县| 泰宁县| 德庆县| 湘乡市| 青河县| 黑山县| 黑水县| 卢龙县| 瑞昌市| 新密市| 和平县| 荆门市| 六枝特区| 麟游县| 阿瓦提县| 土默特右旗| 郑州市| 葵青区| 剑阁县| 江安县| 咸阳市| 洪雅县| 浦东新区| 邹城市| 荆州市| 桃源县| 长沙市| 诏安县| 原平市| 富川| 南华县| 漯河市|