• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      HowNet與CCD映射方法研究

      2015-04-21 08:43:11向春丞穗志方詹衛(wèi)東
      中文信息學(xué)報(bào) 2015年3期
      關(guān)鍵詞:分類(lèi)器本體概念

      向春丞, 穗志方,2, 詹衛(wèi)東

      (1. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;2. 語(yǔ)言能力協(xié)同創(chuàng)新中心,江蘇 徐州 221009))

      ?

      HowNet與CCD映射方法研究

      向春丞1, 穗志方1,2, 詹衛(wèi)東1

      (1. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;2. 語(yǔ)言能力協(xié)同創(chuàng)新中心,江蘇 徐州 221009))

      本體映射是解決本體異構(gòu)問(wèn)題的關(guān)鍵方案。該文以HowNet和CCD中的名詞性概念為例,首先利用機(jī)器學(xué)習(xí)技術(shù)發(fā)現(xiàn)初始映射關(guān)系,主要包括特征選擇、樣本集合劃分、分類(lèi)器選擇等步驟;然后考慮本體的整體結(jié)構(gòu)信息,利用相似度傳播算法,對(duì)初始映射關(guān)系進(jìn)行全局調(diào)整。實(shí)驗(yàn)表明,最終的一對(duì)一和一對(duì)多映射關(guān)系的準(zhǔn)確率分別達(dá)到了94%和87.5%。

      本體映射;機(jī)器學(xué)習(xí);分層抽樣;相似度傳播算法

      1 前言

      本體作為一種能在語(yǔ)義和知識(shí)層面上描述領(lǐng)域概念的建模工具,近年來(lái)在人工智能、信息檢索、語(yǔ)義Web等領(lǐng)域受到了極大關(guān)注,本體數(shù)量在其研究和運(yùn)用領(lǐng)域呈爆炸式增長(zhǎng)。然而,獨(dú)立地設(shè)計(jì)和開(kāi)發(fā)導(dǎo)致了大量描述同一領(lǐng)域知識(shí)的本體之間存在嚴(yán)重的異構(gòu)問(wèn)題,極大阻礙了本體之間知識(shí)的共享和融合。本體映射能夠在異構(gòu)本體之間發(fā)現(xiàn)語(yǔ)義相似的實(shí)體,是解決本體異構(gòu)問(wèn)題的關(guān)鍵方案[1],已成為當(dāng)前語(yǔ)義Web領(lǐng)域中的一個(gè)研究熱點(diǎn)。

      目前,研究者們已在本體映射方面做了大量工作,提出了許多映射方法[2-4],如基于實(shí)體名稱(chēng)、基于本體結(jié)構(gòu)、基于背景知識(shí)以及基于語(yǔ)義的方法等。通常,大部分本體映射系統(tǒng)[5-6]都將多個(gè)基本匹配器進(jìn)行線性綜合,然后使用一些優(yōu)化策略,發(fā)現(xiàn)映射關(guān)系。然而,手動(dòng)地設(shè)置組合時(shí)的參數(shù)很難獲得最佳映射關(guān)系,于是研究者們將機(jī)器學(xué)習(xí)技術(shù)[7-9]引入本體映射任務(wù),自動(dòng)地對(duì)基本匹配器進(jìn)行組合。

      中文本體映射方面的研究相對(duì)薄弱。文獻(xiàn)[10]嘗試將知網(wǎng)與同義詞詞林進(jìn)行融合,首先利用知網(wǎng)中的義原對(duì)詞林中的每個(gè)原子詞群給出一個(gè)DEF描述;然后在該特征上定義兩種形式的相似度計(jì)算,并將它們結(jié)合起來(lái),通過(guò)反復(fù)試驗(yàn)確定閾值,實(shí)現(xiàn)分類(lèi)的目的。其相似度計(jì)算過(guò)程中僅考慮了本體本身的詞匯信息,缺乏對(duì)本體結(jié)構(gòu)以及外部詞典或互聯(lián)網(wǎng)資源的利用,對(duì)詞匯語(yǔ)義信息的利用也不夠。

      本文初步探索了知網(wǎng)(HowNet)與中文概念辭書(shū)(Chinese Concept Dictionary, CCD)兩部詞典的映射方法。首先利用兩者的詞匯信息、語(yǔ)言信息以及語(yǔ)義信息定義映射特征;然后給出將樣本集劃分成正例集、負(fù)例集以及測(cè)試集的策略,接著利用機(jī)器學(xué)習(xí)技術(shù)發(fā)現(xiàn)映射關(guān)系;最后考慮本體的整體結(jié)構(gòu)信息,利用相似度傳播算法對(duì)初始映射結(jié)果進(jìn)行調(diào)整。實(shí)驗(yàn)表明,最終的概念之間的一對(duì)一和一對(duì)多映射關(guān)系準(zhǔn)確率可達(dá)到94%和87.5%。

      2 術(shù)語(yǔ)及相關(guān)介紹

      本節(jié)給出相關(guān)的術(shù)語(yǔ)和介紹,包括本體和本體映射的定義、HowNet與CCD的簡(jiǎn)介以及本文中待映射本體的說(shuō)明。

      2.1 本體和本體映射

      在計(jì)算機(jī)科學(xué)的不同領(lǐng)域,有很多的數(shù)據(jù)和概念模型都可以被稱(chēng)為本體,例如,普通的分類(lèi)、數(shù)據(jù)庫(kù)模式、UML模型、字典、主題詞表、XML模式以及正式化的本體等。根據(jù)文獻(xiàn)[11]的描述,本體(Ontology)主要包括概念(Concepts)、屬性(Properties)、實(shí)例(Instances)以及公理(Axioms),可形式化地表示為:

      其中,C表示概念或類(lèi)(Classes)的集合;I表示概念的實(shí)例或個(gè)體(Individuals)的集合;P表示屬性集合,分為對(duì)象屬性(Object Properties)和數(shù)據(jù)屬性(Datatype Properties),前者用來(lái)表示概念之間或?qū)嵗g的關(guān)系,后者用于描述概念或?qū)嵗墓逃刑卣鳎籄表示公理集合,用來(lái)對(duì)概念或?qū)傩赃M(jìn)行約束。 本體映射(Ontology Matching)是發(fā)現(xiàn)不同本體的實(shí)體之間的關(guān)聯(lián)關(guān)系(relationships)或?qū)?yīng)關(guān)系(correspondences)的過(guò)程[1]。所謂本體的實(shí)體,主要指本體中的概念、實(shí)例或者屬性。可將本體映射形式化為:

      其中,函數(shù)F表示映射過(guò)程,OS和OT分別表示源本體和目標(biāo)本體,A表示OS與OT之間可能已存在的映射關(guān)系,p表示映射過(guò)程中用到的權(quán)值或閾值等參數(shù),r表示映射過(guò)程中用到的外部資源,A′表示映射結(jié)果,可理解為由具有映射關(guān)系的實(shí)體對(duì)組成的集合。實(shí)體之間的映射結(jié)果可以是一對(duì)一、一對(duì)多、多對(duì)一以及多對(duì)多的映射情況。

      2.2HowNet*出于表述簡(jiǎn)便,本文中所謂的“HowNet”主要指知網(wǎng)系統(tǒng)中的雙語(yǔ)知識(shí)詞典數(shù)據(jù)文件。與CCD的簡(jiǎn)介

      知網(wǎng)(HowNet)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)[12]。知網(wǎng)的規(guī)模主要取決于雙語(yǔ)知識(shí)詞典數(shù)據(jù)文件的大小,包含194 302(2011版)條義項(xiàng)記錄。

      中文概念辭書(shū)是一個(gè)基于WordNet框架的漢英雙語(yǔ)語(yǔ)義知識(shí)庫(kù)[13]。它將代表概念的詞語(yǔ)分為名詞、動(dòng)詞、形容詞以及副詞四種,目前收錄了近十萬(wàn)個(gè)概念。

      圖1給出了一條HowNet記錄的例子。其中,NO.表示記錄的編號(hào)、W_C表示概念的中文表述、W_E表示概念的英文表述、DEF是對(duì)概念的規(guī)格化描述。DEF中第一位置的義原“Circuitances|境況”稱(chēng)為主要特征,它是概念“CONDITION|狀況”的直接上位概念。

      圖2為CCD中描述名詞性(POS=n)概念“{態(tài)勢(shì) 情形 狀況 狀態(tài)}”的主要格式,其中Definition和Note分別表示概念的釋義(定義)和使用舉例,Hypernym和Hyponym表示該概念的直接上、下位概念的編號(hào)。通常,一個(gè)概念的直接上位概念只有一個(gè),而直接下位概念有多個(gè)。

      圖1 HowNet記錄舉例圖2 CCD概念及其描述舉例

      2.3 待映射本體

      HowNet和CCD都是一部體現(xiàn)了對(duì)客觀世界的認(rèn)識(shí)與把握的中英文詞匯概念語(yǔ)義詞典,因此將其所描述的概念進(jìn)行映射是合理的。本文映射任務(wù)中,源本體OS中的概念為HowNet中的名詞性概念,目標(biāo)本體OT中的概念為CCD中的名詞性概念。

      由于HowNet和CCD的編纂時(shí)期、概念劃分粒度以及應(yīng)用目標(biāo)等方面存在一定的差異,因此兩部詞典中收錄的名詞性詞語(yǔ)的數(shù)量差別較大,其統(tǒng)計(jì)結(jié)果如表1所示。

      表1 待映射本體初步統(tǒng)計(jì)表

      由于本文的映射策略還考慮了概念的分類(lèi)體系對(duì)映射關(guān)系的影響,因此我們將描述HowNet概念的實(shí)體類(lèi)、屬性類(lèi)以及屬性值類(lèi)義原以HowNet記錄的形式加入到了原來(lái)的記錄集合中,其中實(shí)體類(lèi)義原的DEF不變,屬性類(lèi)和屬性值類(lèi)義原的DEF定義為其上位概念。

      3 利用機(jī)器學(xué)習(xí)技術(shù)發(fā)現(xiàn)映射關(guān)系

      本節(jié)主要介紹將機(jī)器學(xué)習(xí)技術(shù)用于HowNet與CCD的映射任務(wù)。將映射問(wèn)題看作二分類(lèi)問(wèn)題,首先進(jìn)行映射特征的選擇;然后給出將樣本集自動(dòng)劃分成訓(xùn)練集和測(cè)試集的策略;最后介紹分類(lèi)器的選擇和預(yù)測(cè)過(guò)程。

      3.1 選擇映射特征

      文獻(xiàn)[10]中提出的知網(wǎng)與同義詞詞林的融合特征,為CCD中的每個(gè)同義詞集定義一個(gè)DEF描述,得到映射特征F3-F6(表2)。另外,利用CCD概念的Note和Definition屬性,定義映射特征F7和F8。映射特征F1-F8的具體描述如表2所示。

      表2 HowNet與CCD的映射特征

      其中,特征F3-F6的計(jì)算方法與文獻(xiàn)[10]相同。用W_C表示HowNet中某個(gè)概念的中文詞條,為了計(jì)算特征F7,首先從新華字典中獲取W_C的名詞性釋義;如果該名詞性釋義有多項(xiàng),則說(shuō)明W_C為多義詞,此時(shí)利用其相應(yīng)的DEF中的主要特征和次要特征進(jìn)行排歧、選擇;如果字典中未給出W_C的名詞性釋義,則取其基本釋義代替。然后再計(jì)算W_C的釋義與CCD中概念的釋義之間的余弦相似度。

      對(duì)于特征F8,首先利用互聯(lián)網(wǎng)語(yǔ)料訓(xùn)練得到Bigram語(yǔ)言模型,然后將CNote中出現(xiàn)的CSynset中的詞語(yǔ)用W_C替換,將替換后的CNote的概率作為特征F8的值(采用加一平滑技術(shù)處理數(shù)據(jù)稀疏問(wèn)題)。如果F8的值較大,則說(shuō)明兩個(gè)概念之間的語(yǔ)義相似度越高。

      3.2 劃分樣本集合

      將一個(gè)HowNet概念和一個(gè)CCD概念組成的概念對(duì)稱(chēng)為一個(gè)映射樣本,它由表2中定義的映射特征來(lái)描述。如果CH和CC之間存在映射關(guān)系,則將該映射樣本稱(chēng)為正例,否則稱(chēng)為負(fù)例。

      對(duì)包含87 393個(gè)概念的OS和包含64 895個(gè)概念的OT進(jìn)行統(tǒng)計(jì),其中使得特征F1的值為真的映射樣本的個(gè)數(shù)為37 021個(gè),涵蓋了29 086個(gè)HowNet概念和18 283個(gè)CCD概念。從這些映射樣本中隨機(jī)選取200個(gè)人工進(jìn)行觀察,發(fā)現(xiàn)其中有187個(gè)可以被看作正例。也就是說(shuō),如果把使得特征F1值為真的映射樣本作為正例,其可信度能夠達(dá)到98%。這主要是由于W_C和W_E之間具有相互排歧的作用。我們?cè)试S一定的誤差存在,利用特征F1和F2對(duì)樣本集合進(jìn)行劃分,即將特征F1和F2的值為真的映射樣本分別作為正例和負(fù)例,其他包含了49 697個(gè)HowNet概念和29 503個(gè)CCD概念的大約16.5萬(wàn)個(gè)映射樣本組成測(cè)試集。

      3.3 分類(lèi)器的選擇和預(yù)測(cè)

      目前,能夠解決二分類(lèi)問(wèn)題的機(jī)器學(xué)習(xí)算法有很多,因此需要根據(jù)實(shí)際任務(wù)的特點(diǎn)進(jìn)行選擇。首先,利用分層抽樣方法從負(fù)例集中抽取與正例集規(guī)模相當(dāng)?shù)臉颖?,并將其與所有正例組成訓(xùn)練集;然后,對(duì)多個(gè)分類(lèi)器在訓(xùn)練數(shù)據(jù)集上采用交叉驗(yàn)證的方法進(jìn)行訓(xùn)練,選擇F值最高的一個(gè)作為最終的分類(lèi)器對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),從而發(fā)現(xiàn)測(cè)試樣本中的映射關(guān)系。由于特征F1和F2已被用于樣本集合的劃分,因此,在分類(lèi)器的訓(xùn)練和預(yù)測(cè)階段均不考慮樣本的這兩個(gè)特征。

      4 基于相似度傳播算法的映射關(guān)系調(diào)整

      相似度傳播算法[14](Similarity Flooding Algorithm,SF)是一種圖匹配算法,它將圖中的節(jié)點(diǎn)看作概念,節(jié)點(diǎn)之間的連邊看作概念之間的關(guān)系,認(rèn)為兩個(gè)概念之間的映射結(jié)果不僅跟它們各自的特征有關(guān),還跟其鄰近概念,甚至圖中所有其他概念的映射結(jié)果也有關(guān)。概念之間的相似度通過(guò)圖中的連邊在整個(gè)圖上進(jìn)行迭代傳播。

      本文不把待映射本體的分類(lèi)結(jié)構(gòu)HS和HT(如圖3所示)按照文獻(xiàn)[14]中的方法進(jìn)行合并,因?yàn)檫@樣會(huì)急劇增加節(jié)點(diǎn)個(gè)數(shù)。例如,對(duì)HS和HT中分別以節(jié)點(diǎn)A和B為根的子樹(shù)進(jìn)行合并,節(jié)點(diǎn)個(gè)數(shù)將由m+n+2個(gè)變?yōu)閙*n+1個(gè),而CCD和HowNet中很多概念都有幾十甚至上百個(gè)子概念。

      圖3 相似度傳播算法示意圖

      定義對(duì)概念對(duì)的映射關(guān)系有影響的鄰近環(huán)境為: {, , , , , },其中表示“如果概念A(yù)和概念B的父概念相似,那么概念A(yù)和概念B也可能相似”; 表示“如果概念A(yù)與概念B的子概念相似,那么概念A(yù)與概念B也可能相似”。

      另外,在執(zhí)行相似度傳播算法之前,還需要為每個(gè)概念對(duì)設(shè)置初始相似度值。以概念對(duì)為例,如果它對(duì)應(yīng)正例集中的某個(gè)樣本,那么它的初始相似度值為1;如果對(duì)應(yīng)測(cè)試集中的某個(gè)樣本,那么它的初始相似度值為分類(lèi)后的置信度值;否則為0。以圖3為例,將上述過(guò)程形式化如式(1)所示。

      (1)

      其中,σ(i+1)表示概念對(duì)在第i+1次迭代后的相似度;函數(shù)φ(i)表示其鄰近環(huán)境在第i次迭代時(shí)產(chǎn)生的影響,它由φ(i)f和φ(i)c兩部分組成,即φ(i)=φ(i)f+φ(i)c,表示為式(2)、式(3)。

      (2)

      (3)

      利用上述定點(diǎn)計(jì)算公式對(duì)測(cè)試樣本的相似度值在整個(gè)圖上進(jìn)行迭代修正,達(dá)到基于相似度傳播算法調(diào)整映射關(guān)系的目的。

      5 實(shí)驗(yàn)及結(jié)果分析

      5.1 負(fù)例選擇實(shí)驗(yàn)

      由于待映射本體中的每一對(duì)概念之間都有可能存在映射關(guān)系,因此樣本集的大小為87 393×64 895,其中除了37 021個(gè)正例樣本和約16.5萬(wàn)的測(cè)試樣本外,剩下的均為負(fù)例樣本。因此,必須對(duì)負(fù)例樣本集進(jìn)行壓縮,使其規(guī)模與正例個(gè)數(shù)相當(dāng),且壓縮后得到的負(fù)例樣本的統(tǒng)計(jì)特性應(yīng)與壓縮之前比較接近。

      本文的做法是,首先從所有負(fù)例集中隨機(jī)選取1億個(gè)樣本得到樣本集M;然后利用分層抽樣方法從M中抽取與正例數(shù)量相當(dāng)?shù)臉颖?,得到樣本集N。對(duì)M和N中所有樣本的特征的取值進(jìn)行統(tǒng)計(jì)分析,其結(jié)果如圖4所示(實(shí)驗(yàn)通過(guò)調(diào)用WekaAPI實(shí)現(xiàn))。

      圖4中,F(xiàn)3-F8對(duì)應(yīng)表2中定義的特征,Mean_0和Mean_1分別表示負(fù)例集在壓縮之前和之后的特征值的均值,StdDev表示標(biāo)準(zhǔn)差,N的大小為37 038。假設(shè)M中樣本的分布情況與整個(gè)負(fù)例集中的一致,那么由上圖可知,通過(guò)分層抽樣方法得到的N中樣本的統(tǒng)計(jì)特性與M中的非常相似,因此我們可以認(rèn)為樣本集N可以代表整個(gè)負(fù)例樣本集。

      圖4 負(fù)例集壓縮前后的統(tǒng)計(jì)特性對(duì)比

      5.2 分類(lèi)器的選擇實(shí)驗(yàn)

      現(xiàn)在我們已經(jīng)得到了一個(gè)包含37 021個(gè)正例和 37 038個(gè)負(fù)例的訓(xùn)練數(shù)據(jù)。此時(shí)我們希望找到一個(gè)在該訓(xùn)練集上表現(xiàn)較好的分類(lèi)器,以對(duì)測(cè)試樣本進(jìn)行分類(lèi),從而發(fā)現(xiàn)更多的映射關(guān)系。我們分別對(duì)樸素貝葉斯(Naive Bayes,NB)分類(lèi)器、決策樹(shù)(Decision Tree, DT)分類(lèi)器以及最大熵(Maximum Entropy, ME)分類(lèi)器進(jìn)行了實(shí)驗(yàn)和比較,分類(lèi)器訓(xùn)練時(shí)均采用10折交叉驗(yàn)證方式,實(shí)驗(yàn)通過(guò)調(diào)用Weka API完成,其訓(xùn)練結(jié)果如表3所示。

      表3 分類(lèi)器訓(xùn)練效果比較

      上表中,Precision、Recall以及Feature表示分類(lèi)器在訓(xùn)練集上的查準(zhǔn)率、查全率以及F值。從表3可以發(fā)現(xiàn),決策樹(shù)在本文的訓(xùn)練集上表現(xiàn)最好,于是我們將其作為最終的分類(lèi)器。圖5為該決策樹(shù)分類(lèi)器的部分結(jié)構(gòu)。

      從圖5可知,次特征向量(secdf_cos_sim,即特征F6)的相似度對(duì)類(lèi)別的區(qū)分能力最強(qiáng),被選定為根節(jié)點(diǎn)。完整的決策樹(shù)模型共有49個(gè)節(jié)點(diǎn),其中包含25個(gè)葉節(jié)點(diǎn)。

      5.3 映射關(guān)系發(fā)現(xiàn)實(shí)驗(yàn)

      依次利用以下三種方法發(fā)現(xiàn)從HowNet(OS)到CCD(OT)的映射關(guān)系。

      (1) 基于特征頻度統(tǒng)計(jì)和特征向量計(jì)算結(jié)合的方法[10]

      該方法主要參考文獻(xiàn)[10], 它首先通過(guò)反復(fù)試驗(yàn)設(shè)定閾值,然后執(zhí)行多步判斷,實(shí)現(xiàn)對(duì)概念對(duì)的分類(lèi)。該過(guò)程可以看作是人工制定分類(lèi)規(guī)則來(lái)判定概念之間是否存在映射關(guān)系。本文并未使用這樣反復(fù)嘗試的方法選定所需閾值,而是將閾值設(shè)定為相應(yīng)特征值的均值。測(cè)試集中所有樣本的特征的統(tǒng)計(jì)特性如表4所示。

      圖5 決策樹(shù)分類(lèi)器部分結(jié)構(gòu)

      F3F4F5F6F7F8Mean0.3540.5850.2360.2330.0430.005SedDev0.8941.7380.3460.3230.0970.073

      根據(jù)表4的統(tǒng)計(jì)結(jié)果,對(duì)方法1中的相關(guān)閾值進(jìn)行設(shè)定。其中主特征和次特征的重合度閾值分別設(shè)定為0.354和0.585;主特征和次特征的向量相似度閾值分別設(shè)定為0.236和0.233。

      (2) 基于統(tǒng)計(jì)決策樹(shù)的方法

      文獻(xiàn)[15]中也利用了決策樹(shù)的方法進(jìn)行本體映射,但是其決策規(guī)則均由人工進(jìn)行構(gòu)造,其分裂節(jié)點(diǎn)的閾值通過(guò)反復(fù)試驗(yàn)選定,這樣的閾值選定策略不僅費(fèi)時(shí)費(fèi)力,而且對(duì)訓(xùn)練數(shù)據(jù)的適應(yīng)能力較差。本文中的決策樹(shù)模型則是通過(guò)機(jī)器學(xué)習(xí)方法自動(dòng)訓(xùn)練得到,從而能有效地發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中所蘊(yùn)含的分類(lèi)規(guī)律。

      (3) 基于相似度傳播的方法

      方法1和2僅考慮了概念的局部特征,沒(méi)有充分利用本體固有的結(jié)構(gòu)信息。本文中的相似度傳播方法主要是在方法2的基礎(chǔ)之上,利用本體的整體結(jié)構(gòu)信息來(lái)對(duì)映射結(jié)果進(jìn)行調(diào)整,使其更為合理,另外,該方法還可以發(fā)現(xiàn)測(cè)試集之外的映射關(guān)系。與方法1類(lèi)似,該方法中映射閾值取為算法迭代一定次數(shù)(n=100)后相似度值的均值,即0.43。

      從對(duì)測(cè)試集的映射預(yù)測(cè)結(jié)果中隨機(jī)選取200個(gè)進(jìn)行人工評(píng)價(jià),以上三種映射方法的映射發(fā)現(xiàn)結(jié)果如表5所示(觀察從HowNet到CCD的映射情況)。

      其中,方法1中的“1∶1” (一對(duì)一)映射結(jié)果“11 504/95.00%”表示: 測(cè)試集中有11 504個(gè)HowNet概念,每個(gè)僅能映射到一個(gè)CCD概念上,

      表5 HowNet到CCD的映射結(jié)果統(tǒng)計(jì)表

      映射準(zhǔn)確率為95.00%。“1∶n”(一對(duì)多)表示: 一個(gè)HowNet概念與多個(gè)CCD概念具有映射關(guān)系。

      5.4 實(shí)驗(yàn)結(jié)果和錯(cuò)誤分析

      方法1主要基于概念詞語(yǔ)的DEF描述的詞匯級(jí)匹配特征,即如果兩個(gè)概念的主要特征和次要特征具有較高的相似度,那么這兩個(gè)概念可能具有映射關(guān)系。但就HowNet與CCD的映射任務(wù)而言,該方法僅能發(fā)現(xiàn)部分映射關(guān)系。

      方法2在方法1的基礎(chǔ)之上還考慮了其他一些特征,并利用機(jī)器學(xué)習(xí)技術(shù)自動(dòng)的對(duì)基本匹配器進(jìn)行組合,能夠發(fā)現(xiàn)測(cè)試集中其他大部分映射關(guān)系。例如,HowNet概念“WC=丹麥?zhǔn)锥?,WE=capital_of_denmark”,其主要特征為“place|地方=1.0”,次要特征為“capital|國(guó)都=1.0,Denmark|丹麥=1.0,ProperName|專(zhuān)=1.0”;CCD概念“csynset = {丹麥?zhǔn)锥? 哥本哈根},esynset = {copenhagen, kobenhavn, danish_capital}”,其主要特征為“country|國(guó)家=2.0,ProperName|專(zhuān)=2.0,Denmark|丹麥=2.0,politics|政=2.0,capital|國(guó)都=2.0”,次要特征為“place|地方=2.0”;通過(guò)計(jì)算,其主、次要特征的重合度和相似度均為0,因此無(wú)法利用方法1判斷這對(duì)概念具有映射關(guān)系。但其特征F7、F8的值分別為0.306 186、1.326 442E-9,即這兩個(gè)概念的釋義和舉例之間具有較高的相似度,從而在方法2中被認(rèn)為具有映射關(guān)系。

      方法3將方法2的分類(lèi)結(jié)果的置信度值作為初值,利用概念的上下位關(guān)系,在整個(gè)分類(lèi)結(jié)構(gòu)上對(duì)初始映射結(jié)果進(jìn)行迭代地調(diào)整。 例如,HowNet概念“WC=倉(cāng)促,WE= precipitation”與CCD概念“csynset = {意外, 突然, 突如其來(lái)},esynset = {abruptness, precipitateness, precipitance, precipitancy, suddenness}”,根據(jù)樣本集劃分原則,由這兩個(gè)概念構(gòu)成的樣本將被視為負(fù)例,但在方法3的實(shí)驗(yàn)結(jié)果中卻認(rèn)為它們之間存在映射關(guān)系,這與人的判斷結(jié)果是一致的。因此,方法3能夠發(fā)現(xiàn)測(cè)試集之外的映射關(guān)系。

      前兩種方法的映射錯(cuò)誤主要來(lái)自單字多義概念之間的映射。例如,HowNet中由“陣”字表示的概念的義項(xiàng)有“WC=陣,WE=spell”、“WC=陣,WE=position”、“WC=陣,WE=battle_array”以及“WC=陣,WE=front”等,方法1、2都認(rèn)為它們與CCD概念“csynset={陣, 一陣, 沖動(dòng), 發(fā)作, 爆發(fā), 一陣子},esynset={burst, fit}”具有映射關(guān)系。

      6 結(jié)語(yǔ)

      本文利用機(jī)器學(xué)習(xí)技術(shù)和相似度傳播算法對(duì)HowNet和CCD中名詞性概念之間的映射作了初步探索并取得了較好的效果,但由于兩部詞典對(duì)概念粒度劃分、屬性定義的差異,還是未能對(duì)一部分概念進(jìn)行映射。

      本體映射是一項(xiàng)復(fù)雜的任務(wù),本文就映射訓(xùn)練集缺乏、負(fù)例集壓縮以及映射關(guān)系的全局調(diào)整給出了初步解決策略。但還有很多方面值得進(jìn)一步考慮,例如,(1)用于劃分樣本集的假設(shè)限制太嚴(yán),致使測(cè)試集規(guī)模偏??;(2)相似度算法在實(shí)現(xiàn)時(shí)的效率問(wèn)題等。我們將在后續(xù)論文中對(duì)這些情況進(jìn)行更深入的研究。

      [1] Jerome E, Pavel S. Ontology matching[C]//Proceedings of the Springer-Verlag, Heidelberg (DE), 2007.

      [2] Qu Y, Hu W, Chen G. Constructing virtual documents for ontology matching[C]//Proceedings of the 15th International World Wide Web Conference (WWW). Edinburgh (UK), 2006: 23-31.

      [3] Gligorov, Risto, et al. Using Google distance to weight approximate ontology matches[C]//Proceedings of the 16th international conference on World Wide Web (WWW). Beijing, China, 2007: 767-776.

      [4] Atencia M, Borgida A, et al. A formal semantics for weighted ontology mappings[C]//Proceedings of the Semantic Web-ISWC 2012: 17-33.

      [5] Nagy M, Vargas-Vera M. Towards an automatic semantic data integration: Multi-agent framework approach[C]//Proceedings of the Chapter in Sematic Web.In-Tech Education and Publishing KG, 2010.

      [6] Li J, Tang J, Li Y, et al. Rimom: A dynamic multistrategy ontology alignment framework. Knowledge and Data Engineering[C]//Proceedings of the IEEE Transactions on 21, 2009: 1218-1232.

      [7] Zhang D, Lee W S. Web taxonomy integration using support vector machines[C]//Proceedings of the 13th international conference on World Wide Web (WWW). New York, 2004: 472-481.

      [8] Rong S, Niu X, et al. A Machine Learning Approach for Instance Matching Based on Similarity Metrics[C]//Proceedings of the Semantic Web-ISWC 2012: 460-475.

      [9] Nezhadi A.H, Shadgar B, Osareh A. Ontology alignment using machine learning techniques[J]. International Journal of Computer Science & Information Technology (IJCSIT), 2011,3(2):139.

      [10] 梅立軍, 周強(qiáng)等. 知網(wǎng)與同義詞詞林的信息融合研究[J]. 中文信息學(xué)報(bào). 2005,19(1):63-70.

      [11] Matthew H, Simon J, Georgina M. A Practical Guide To Building OWL Ontologies Using Protégé 4 and CO-ODE Tools(1.)[J]. (2007-10-16)[2008-02-27].http://protege.stanford.edu,2001.

      [12] 董振東. 語(yǔ)義關(guān)系的表達(dá)和知識(shí)系統(tǒng)的建造[J]. 語(yǔ)言文字應(yīng)用,1998,(3):76-82.

      [13] 劉楊,俞士汶,于江生. CCD語(yǔ)義知識(shí)庫(kù)的構(gòu)造研究[J].小型微型計(jì)算機(jī)系統(tǒng). 2005,26(8):1411-1415.

      [14] Melnik S, Garcia-Molina H, Rahm E. Similarity Flooding: A Versatile Graph Matching Algorithm and Its Application to Schema Matching[C]//Proceedings of the 18th International Conference on Data Engineering (ICDE), 2002: 117-128.

      [15] Duchateau F, Bellahsene Z, Coletta R. A flexible approach for planning schema matching algorithms[M].On the Move to Meaningful Internet Systems: OTM 2008. Springer Berlin Heidelberg, 2008: 249-264.

      向春丞(1988—),碩士研究生,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)。E?mail:ccxiang@pku.edu.cn穗志方(1970—),通訊作者,博士,教授,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、文本知識(shí)工程。E?mail:szf@pku.edu.cn詹衛(wèi)東(1972—),博士,教授,主要研究領(lǐng)域?yàn)楝F(xiàn)代漢語(yǔ)語(yǔ)法、計(jì)算語(yǔ)言學(xué)、語(yǔ)言知識(shí)工程。E?mail:zwd@pku.edu.cn

      中國(guó)中文信息學(xué)會(huì)語(yǔ)音專(zhuān)委會(huì)舉辦“見(jiàn)證言語(yǔ)工程(二)”紀(jì)念冊(cè)發(fā)布會(huì)

      2015年4月18日,中國(guó)中文信息學(xué)會(huì)語(yǔ)音信息處理專(zhuān)委會(huì)在清華大學(xué)FIT大樓舉辦“見(jiàn)證言語(yǔ)工程(二)”紀(jì)念冊(cè)發(fā)布會(huì)。

      我國(guó)音韻學(xué)和語(yǔ)言學(xué)的研究有較長(zhǎng)的歷史,但言語(yǔ)工程、實(shí)驗(yàn)語(yǔ)音學(xué)的研究只有幾十年歷史。面對(duì)世界高技術(shù)蓬勃發(fā)展、國(guó)際競(jìng)爭(zhēng)日益激勵(lì)的嚴(yán)峻挑戰(zhàn),國(guó)內(nèi)一批專(zhuān)家開(kāi)創(chuàng)了言語(yǔ)相關(guān)的研究?!耙?jiàn)證言語(yǔ)工程”紀(jì)念冊(cè)(第二冊(cè))收錄了中國(guó)社會(huì)科學(xué)院鮑懷翹研究員、同濟(jì)大學(xué)計(jì)算機(jī)系柴佩琪教授、中國(guó)科學(xué)院聲學(xué)所李昌立研究員、中國(guó)科學(xué)院自動(dòng)化研究所陳道文硏究員、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系吳文虎教授、中國(guó)科學(xué)院聲學(xué)研究所呂士楠研究員和中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所曹劍芬研究員等七位80歲以上老專(zhuān)家的事跡,內(nèi)容包括老專(zhuān)家自述語(yǔ)音研究歷程、科研成果、學(xué)術(shù)論著和個(gè)人感悟等,是我國(guó)言語(yǔ)和語(yǔ)音信息處理珍貴的歷史記錄和見(jiàn)證。

      紀(jì)念冊(cè)收錄的80歲以上言語(yǔ)工程領(lǐng)域的老專(zhuān)家們齊聚發(fā)布會(huì),共同見(jiàn)證我國(guó)言語(yǔ)工程前進(jìn)的風(fēng)雨歷程,一一講述了“見(jiàn)證言語(yǔ)工程(二)”產(chǎn)生的經(jīng)過(guò),撰寫(xiě)時(shí)的感觸。

      此次發(fā)布的《見(jiàn)證言語(yǔ)工程(二)》是2013年4月發(fā)布的《見(jiàn)證言語(yǔ)工程(一)》紀(jì)念冊(cè)的續(xù)冊(cè)?!兑?jiàn)證言語(yǔ)工程(一)》收錄了方棣棠、張家騄、袁保宗、徐近霈、黃泰翼和林茂燦等六位時(shí)年80歲以上老專(zhuān)家為我國(guó)言語(yǔ)工程領(lǐng)域所做的開(kāi)創(chuàng)性的工作。該系列的紀(jì)念冊(cè)“前言”由中國(guó)科學(xué)院院士、清華大學(xué)教授張鈸撰寫(xiě);“題字”有中文信息學(xué)會(huì)理事長(zhǎng)、哈爾濱理工大學(xué)教授李生提寫(xiě);由蔡蓮紅教授整理完成。Dolby公司贊助了該系列紀(jì)念冊(cè)的出版及發(fā)布。袁保宗教授作為第一冊(cè)的代表,參加了本次發(fā)布會(huì)。

      參加此次發(fā)布會(huì)的人員包括學(xué)會(huì)副秘書(shū)長(zhǎng)楊爾弘教授、專(zhuān)委會(huì)主任清華大學(xué)鄭方教授、專(zhuān)委會(huì)前主任清華大學(xué)蔡蓮紅教授、專(zhuān)委會(huì)副主任中科院自動(dòng)化所陶建華研究員、哈爾濱工業(yè)大學(xué)韓紀(jì)慶教授、專(zhuān)委會(huì)秘書(shū)長(zhǎng)清華大學(xué)賈珈副教授,全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議常設(shè)機(jī)構(gòu)委員會(huì)主席團(tuán)成員北京交通大學(xué)朱維彬教授、清華大學(xué)徐明星副教授和王東博士,以及30余位師生代表,蔡蓮紅教授主持了發(fā)布會(huì),楊爾弘教授代表中國(guó)中文信息學(xué)會(huì)、鄭方教授代表語(yǔ)音專(zhuān)委會(huì)分別致辭。

      On Mapping between HowNet and CCD

      XIANG Chuncheng1, SUI Zhifang1,2, ZHAN Weidong1

      (1. Key Laboratory of Computational Linguistics(Peking University), Ministry of Edacation, Peking University, Beijing 100871, China; 2. Collaborative Innovation Center for Language Ability, Xuzhou, Jiangsu 221009, China)

      Ontology matching is the key solution to the semantic heterogeneity problem.Focusing on the Noun concept of HowNet and CCD, this paper applies machine learning to identify the initial mapping relationships, disicussing the the feature selection, sample collections division and classifier selection. Further, employing the overall structure of the ontology, the similarity propagation algorithm is introduced to adjust the initial mapping globally. Experiment result shows that the precision of 1:1 and 1:n mapping relationships reaches 94% and 87.5%, respectively.

      ontology matching; machine learning; stratified cross sampling; similarity propagation algorithm

      1003-0077(2015)03-0044-08

      2013-04-08 定稿日期: 2013-07-28

      國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(2014CB340504),國(guó)家自然科學(xué)基金(61375074)。

      TP391

      A

      猜你喜歡
      分類(lèi)器本體概念
      Abstracts and Key Words
      Birdie Cup Coffee豐盛里概念店
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      幾樣概念店
      學(xué)習(xí)集合概念『四步走』
      BP-GA光照分類(lèi)器在車(chē)道線識(shí)別中的應(yīng)用
      聚焦集合的概念及應(yīng)用
      加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
      結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      白银市| 故城县| 喀什市| 梓潼县| 武平县| 双城市| 赤峰市| 夏邑县| 河曲县| 大方县| 东乌珠穆沁旗| 瑞丽市| 晋城| 福安市| 德江县| 唐山市| 齐齐哈尔市| 兴仁县| 永康市| 永顺县| 柘城县| 葵青区| 阿拉善右旗| 日照市| 寻乌县| 仙桃市| 平度市| 咸宁市| 永修县| 柘城县| 叶城县| 崇信县| 阿瓦提县| 成安县| 百色市| 那坡县| 且末县| 甘谷县| 康马县| 绥化市| 清镇市|