• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于OWL屬性特征的語義檢索研究

      2010-07-13 06:01:56張野
      電子設(shè)計(jì)工程 2010年2期
      關(guān)鍵詞:查全率本體檢索

      張野

      (渤海大學(xué) 商學(xué)院,遼寧 錦州 121013)

      本體在軟件工程、人工智能、信息檢索、Web Service[1]等領(lǐng)域中扮演著越來越重要的角色。在概念檢索或者語義查詢系統(tǒng)的實(shí)現(xiàn)過程中,領(lǐng)域本體中概念之間的相似度量化計(jì)算是檢索詞擴(kuò)展和檢索結(jié)果排序的核心問題?,F(xiàn)關(guān)于本體內(nèi)語義相似度算法研究主要有基于DAML-S描述的匹配算法[2],基于概念語義距離的算法[3],基于屬性的相似度算法[4]以及基于信息理論的算法[5]。這些方法具有明確清晰的邏輯含義,可以直接利用特定于描述語言的通用推理服務(wù)來進(jìn)行匹配,實(shí)現(xiàn)較簡(jiǎn)單。但它們只是將本體內(nèi)的謂詞直接簡(jiǎn)單的作為一種二元關(guān)系來處理,因此會(huì)產(chǎn)生明顯的語義矛盾,忽略O(shè)WL本體的眾多其他語義元素。

      本文通過提取OWL本體概念的層次和屬性特征,利用本體概念的并、交、差等運(yùn)算,可以得到連續(xù)變化、量化相似度的度量結(jié)果,通過對(duì)檢索性能指標(biāo)進(jìn)行動(dòng)態(tài)設(shè)定,可以有效地定制用戶的檢索。本文的實(shí)驗(yàn)結(jié)果對(duì)基于本體的分類和聚類方法也有參考意義。

      1 本體描述語言(OWL)

      本體作為一種知識(shí)表示模型,包含某個(gè)領(lǐng)域內(nèi)的專家或?qū)W者所共同認(rèn)可的詞匯,并將這些詞匯以一種有向無環(huán)圖的形式組織起來,描述概念、屬性和關(guān)系[6]。本體可以有效地組織領(lǐng)域中的知識(shí),更好地共享和重用知識(shí)。W3C將本體描述語言O(shè)WL(Web Ontology Language)推薦為語義Web中本體描述語言的標(biāo)準(zhǔn)。OWL通過添加更多用于描述RDF(Resource Description Framework)聲明的語義結(jié)構(gòu)擴(kuò)展RDF。OWL允許聲明額外的約束,如基數(shù)、取值的限制,或可傳遞性等有關(guān)屬性的特征。

      2 基于OWL語義特征的相似度算法

      在現(xiàn)實(shí)世界中,人們一般通過比較事物之間的屬性來區(qū)別和聯(lián)系不同事物。如果兩個(gè)事物有很多相同的屬性,則說明這兩者很相似,反之則相反。用A∩B表示概念A(yù)和概念B所具有的相同屬性,A∪B表示概念A(yù)和概念B的所有屬性,語義相似度的計(jì)算有如下模型:

      相似性模型在人工智能領(lǐng)域影響很大[4]。該模型中,假設(shè)存在兩個(gè)概念A(yù)和B,那么相似度計(jì)算公式為:

      在該模型中,根據(jù)比較兩個(gè)概念間相同的屬性以及不同的屬性來確定二者的相似度,這個(gè)算法能夠描述本體內(nèi)概念間的相似性,同時(shí)取決于共享特征和差異特征的量的特征。

      本體內(nèi)概念間的相似度不僅取決于A、B之間的相同特征,還需要考慮它們之間的差異特征。這些特征包括概念的層次特征和其屬性特征。由此得到如下定義:

      式中,A-B表示概念A(yù)擁有而概念B沒有的屬性集合;B-A表示概念B擁有而概念A(yù)沒有的屬性集合。α,β是調(diào)節(jié)參數(shù)。相似度算法步驟如下:1)相似度矩陣初始化。構(gòu)建一個(gè)本體內(nèi)實(shí)體間的相似度矩陣Aij,將所有顯式定義的不相交類和等價(jià)類的實(shí)體之間的概念元素,對(duì)應(yīng)矩陣中的相關(guān)元素賦值為 0和1;2)設(shè)定概念差異的參數(shù);3)計(jì)算特征向量的交、并集合的信息量。對(duì)于特征向量P=iFeatList和Q=jFeatList,定義特征向量 M=|P-Q|,則定義信息量函數(shù)為 countDiff(P,Q)=Σ(1-M);4)根據(jù)式(3)計(jì)算概念相似度;5)過濾掉相似度計(jì)算結(jié)果小于閾值的檢索結(jié)果,并按相似度大小排序。

      3 試驗(yàn)與分析

      3.1 差異屬性指標(biāo)參數(shù)的確定

      本文采用的領(lǐng)域本體以W3C提供的酒本體為例,它較好的體現(xiàn)了OWL的描述能力,采用HP實(shí)驗(yàn)室提供的Jena API對(duì)酒本體進(jìn)行解析,并構(gòu)建領(lǐng)域本體檢索原型系統(tǒng),對(duì)酒本體進(jìn)行檢索。相似度的計(jì)算結(jié)果如圖1所示。

      圖1 WineTaste與其他概念的相似度

      圖1為使用本文的語義相似度算法對(duì)WineTaste類與領(lǐng)域本體內(nèi)其他類的相似度統(tǒng)計(jì)圖,圖中分別顯示了在α,β分別為0和1的條件下,WineTaste相似度取值情況。從圖1中可以看出,當(dāng)兩個(gè)概念完全匹配時(shí),相似度的計(jì)算結(jié)果等于1,說明兩個(gè)概念之間不存在差異,為同一概念或等價(jià)概念,差異參數(shù)不會(huì)對(duì)相似度計(jì)算結(jié)果產(chǎn)生影響。而當(dāng)概念之間存在差異時(shí),隨著差異性比重的增加,對(duì)結(jié)果的要求越來越嚴(yán)格,概念的相似度越來越小,越來越多的相似度趨近于零。

      相似度的計(jì)算結(jié)果,一方面依賴領(lǐng)域?qū)<叶x的概念層次關(guān)系,如果概念層次發(fā)生調(diào)整,則概念相似度會(huì)發(fā)生很大變化;另一方面計(jì)算相似度的目的在于得到其他概念和某個(gè)概念之間的匹配順序,以取得最佳匹配結(jié)果。領(lǐng)域?qū)<覍?duì)于一般概念的相似性,給出的概念匹配順序?yàn)椋焊拍畋旧?,父子?jié)點(diǎn),兄弟節(jié)點(diǎn),其他節(jié)點(diǎn)。由圖1可以看出,雖然參數(shù)不同,但是根據(jù)相似度得出的匹配順序是基本一致的。

      3.2 評(píng)價(jià)指標(biāo)

      檢索性能(Retrieval Effectiveness)指檢索模型檢索結(jié)果的有效程度,反映檢索模型的檢索能力。其中,查準(zhǔn)率(Precision)和查全率(Recall)是最重要和通用的評(píng)價(jià)指標(biāo),本文從這兩方面進(jìn)行考查。查準(zhǔn)率和查全率的公式如下:查準(zhǔn)率P=(檢索出的相關(guān)文檔數(shù)/檢索出文檔總數(shù))×100% ;查全率C=(檢索出的相關(guān)文檔數(shù)/文檔集中的文檔總數(shù))×100%。

      在檢索系統(tǒng)中,查準(zhǔn)率比查全率更容易統(tǒng)計(jì),因?yàn)椴槿手挥性跀?shù)據(jù)量規(guī)模較小的情況下情況下才能統(tǒng)計(jì)出來,而對(duì)于大規(guī)模海量數(shù)據(jù)往往難以統(tǒng)計(jì)。

      3.3 結(jié)果與分析

      語義檢索的結(jié)果按照相似度進(jìn)行排序,實(shí)驗(yàn)系統(tǒng)設(shè)定推薦結(jié)果閾值,設(shè)定語義相似度為50%,不顯示語義相似度低于50%的概念,以提高用戶的檢索效率。查準(zhǔn)率與查全率隨檢索參數(shù)變化而變化的情況如表1所示。

      表1 檢索結(jié)果(%)

      從表1可知,通過對(duì)參數(shù)α和β取不同的值,用戶作為服務(wù)請(qǐng)求方可以在同一個(gè)服務(wù)條件下返回不同的值,也就是說,可以通過調(diào)整差異參數(shù)的取值來得到不同的結(jié)果集。如果用戶傾向于得到更為準(zhǔn)確的查詢結(jié)果,可以增大參數(shù)α,降低參數(shù)β,但這樣有可能不會(huì)獲得任何查詢結(jié)果。如果用戶傾向于獲得更多的結(jié)果,則可以降低參數(shù)α,增大參數(shù)β,既可獲得更多的查詢結(jié)果,為下一步查詢提供參考。

      4 結(jié)論

      概念之間的相似性量化表示是使機(jī)器理解概念,從而進(jìn)行智能推理和判斷的重要基礎(chǔ)。本文基于OWL屬性特征計(jì)算概念相似度,通過調(diào)節(jié)參數(shù)的取值,得到不同的柔性表達(dá)相似度,從而實(shí)現(xiàn)根據(jù)服務(wù)請(qǐng)求者的需求定制相似度結(jié)果集。限于試驗(yàn)的數(shù)據(jù)量,為得到更精確的統(tǒng)計(jì)數(shù)據(jù),不進(jìn)行大規(guī)模試驗(yàn)。下一步的工作要進(jìn)一步考慮概念屬性的權(quán)重問題,根據(jù)權(quán)重動(dòng)態(tài)設(shè)定增強(qiáng)語義、差異參數(shù)和相似度閾值,以獲得更為柔性的相似度計(jì)算結(jié)果。

      [1]Klein M,Bernstein A.Searching for services on the semantic Web using process ontologies[C].In Proceedings of the First Semantic Web Working Symposium(SWWS-1),2001.

      [2]Paolucci M,Kawawura T.Semantic matching of Web services capabilities[C].In Proceedings of the International Semantic Web Conference,2002.

      [3]LI Kuang, WU Jian,Deng Shuiguang,et al.Exploring semantic technologies in service matchmaking[C].In Proceedings of the Third European Conference on Web Services,2005.

      [4]Tverskey A.Features of similarity[J].Psychological Review.1977,84(4):327.

      [5]Lin D.An information-theoretic definition of similarity[C].In Proceedings of the International Conference on Machine Learning,1998.

      [6]Gruber TR.Toward principals for the design of Ontologies used for knowledge sharing[J].International Journal of Human computer Studies,1995,43(5/6):907.

      猜你喜歡
      查全率本體檢索
      Abstracts and Key Words
      對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
      2019年第4-6期便捷檢索目錄
      海量圖書館檔案信息的快速檢索方法
      基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
      國際標(biāo)準(zhǔn)檢索
      岳阳县| 深州市| 娱乐| 秭归县| 尉犁县| 互助| 河池市| 温宿县| 云梦县| 长治市| 松江区| 麻栗坡县| 缙云县| 正阳县| 特克斯县| 南涧| 德安县| 化州市| 旬阳县| 灵川县| 洱源县| 邵阳县| 马尔康县| 兴山县| 日土县| 新兴县| 博罗县| 饶平县| 光山县| 山东省| 西乌珠穆沁旗| 连平县| 静宁县| 弋阳县| 健康| 吉首市| 阜阳市| 焉耆| 象山县| 永仁县| 韩城市|