• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于特征加權(quán)重疊度的中文實(shí)體協(xié)同消歧方法

    2017-06-01 11:29:47線巖團(tuán)余正濤洪旭東郭劍毅
    中文信息學(xué)報(bào) 2017年2期
    關(guān)鍵詞:消歧知識(shí)庫(kù)命名

    線巖團(tuán),余正濤,洪旭東,張 磊,郭劍毅

    (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

    基于特征加權(quán)重疊度的中文實(shí)體協(xié)同消歧方法

    線巖團(tuán),余正濤,洪旭東,張 磊,郭劍毅

    (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

    該文針對(duì)中文實(shí)體消歧中的特征項(xiàng)部分匹配和協(xié)同消歧問題,提出基于特征加權(quán)重疊度的中文實(shí)體協(xié)同消歧方法。該方法利用實(shí)體指稱上下文中多種特征的加權(quán)重疊度計(jì)算實(shí)體指稱相似度,針對(duì)實(shí)體鏈接與消歧聚類約束,分類定義實(shí)體指稱相似度計(jì)算方法,構(gòu)建待消歧實(shí)體相似度矩陣,采用近鄰傳播聚類算法實(shí)現(xiàn)中文實(shí)體協(xié)同鏈接與消歧。基于CLP-2012評(píng)測(cè)數(shù)據(jù)的實(shí)驗(yàn)表明,提出的方法取得了較好的消歧效果,準(zhǔn)確率、召回率和F值分別達(dá)到了84.01%、87.75%和85.65%。

    實(shí)體消歧;實(shí)體鏈接;加權(quán)重疊度;近鄰傳播聚類

    1 引言

    命名實(shí)體識(shí)別與消歧是自然語言處理的重要研究點(diǎn),其主要任務(wù)是發(fā)現(xiàn)文本中的命名實(shí)體,并將實(shí)體指稱關(guān)聯(lián)到已有真實(shí)實(shí)體。命名實(shí)體識(shí)別與消歧已成為知識(shí)庫(kù)構(gòu)建、信息抽取、機(jī)器翻譯,以及話題發(fā)現(xiàn)與追蹤等研究領(lǐng)域的重要支撐技術(shù)[1]。

    命名實(shí)體普遍存在重名和歧義現(xiàn)象,即同一實(shí)體指稱在不同上下文中可對(duì)應(yīng)不同的實(shí)體,例如,“高峰”一詞可表示普通的名詞,也可能表示不同的人名、機(jī)構(gòu)名,或是地名。針對(duì)命名實(shí)體消歧已有許多相關(guān)的研究,在英文評(píng)測(cè)方面主要有TAC KBP的Entity Linking 評(píng)測(cè)[2-3]和WePS(Web People Search)評(píng)測(cè)[4],以及針對(duì)中文的CLP-2012漢語命名實(shí)體識(shí)別與歧義消解[5]和NLP &CC中文微博實(shí)體鏈接評(píng)測(cè)。

    實(shí)體消歧可利用的知識(shí)主要有兩類,一是實(shí)體指稱的上下文信息,如實(shí)體指稱周圍的詞語、實(shí)體等;二是外部知識(shí)庫(kù),如Wikipedia、百度百科、DBpedia[6]和Freebase[7]等。實(shí)體消歧方法的核心是計(jì)算實(shí)體指稱和目標(biāo)實(shí)體之間的相似度,并根據(jù)實(shí)體相似度實(shí)現(xiàn)消歧和鏈接。主要方法有: 基于文本向量空間的聚類方法、基于分類的方法和基于圖的實(shí)體消歧方法?;谖谋鞠蛄靠臻g的聚類方法通過實(shí)體指稱的上下文信息構(gòu)建文本向量,計(jì)算文本向量間的距離,最后利用該距離進(jìn)行聚類,確定實(shí)體指稱對(duì)應(yīng)的實(shí)體概念[8-11]。該類方法在計(jì)算相似度時(shí),通常不考慮特征項(xiàng)部分匹配的問題,對(duì)相似度計(jì)算造成了不利的影響?;诜诸惖姆椒ɡ蒙舷挛奶卣鳂?gòu)建分類器,將待消歧實(shí)體鏈接到知識(shí)庫(kù)[12-14]。該方法存在的主要問題是分類的確定和待消歧的數(shù)據(jù)緊密相關(guān),難以構(gòu)建通用的分類模型適應(yīng)不同的消歧問題。Peng等人提出了結(jié)合分類和聚類算法的實(shí)體鏈接消歧方法[15]。該方法利用分類算法將待消歧實(shí)體劃分為知識(shí)庫(kù)實(shí)體、未知實(shí)體和普通詞三類,然后,選取命名實(shí)體、職業(yè)和名詞等特征構(gòu)建特征向量,計(jì)算特征向量余弦相似度,采用分類方法完成實(shí)體鏈接,最后,利用合成聚類(Agglomerative Hierarchical Clustering,AHC)方法完成未知實(shí)體消歧,取得了較好的效果?;趫D的實(shí)體消歧方法將實(shí)體指稱看作圖中的節(jié)點(diǎn),利用實(shí)體指稱間的關(guān)聯(lián)關(guān)系(鏈接、實(shí)體共現(xiàn)等)構(gòu)建實(shí)體關(guān)聯(lián)圖,通過圖聚類算法或是閾值過濾得到實(shí)體消歧結(jié)果[16-18]。該類方法對(duì)于具有較多關(guān)聯(lián)關(guān)系的實(shí)體消歧問題有較好的效果,但對(duì)于缺乏關(guān)聯(lián)關(guān)系的實(shí)體消歧問題,難以構(gòu)建有效的實(shí)體關(guān)聯(lián)圖。

    目前,已有的實(shí)體消歧方法通常依據(jù)特征項(xiàng)的共現(xiàn)信息,在計(jì)算實(shí)體相似度時(shí)忽視了特征項(xiàng)部分匹配的問題。針對(duì)這一問題,Hoffart 等人提出了基于關(guān)鍵短語集合重疊度的實(shí)體指稱相似度計(jì)算方法[19]。Ikeda等人提出了利用實(shí)體、組合關(guān)鍵詞、鏈接等特征,通過重疊系數(shù)計(jì)算各類特征的相似度,最后線性加權(quán)方式獲取人名實(shí)體間的關(guān)聯(lián)度[20]。另一方面已有的方法大多將實(shí)體鏈接和未知實(shí)體消歧分作兩個(gè)步驟處理,忽略了多個(gè)實(shí)體指稱之間關(guān)聯(lián)關(guān)系對(duì)實(shí)體消歧的影響。本文針對(duì)以上兩方面的問題,提出基于特征加權(quán)重疊度的中文實(shí)體協(xié)同消歧方法。該方法利用實(shí)體指稱上下文中的多種特征的加權(quán)重疊度計(jì)算實(shí)體相似度,針對(duì)實(shí)體鏈接與消歧聚類約束,分類定義實(shí)體指稱相似度計(jì)算方法,采用近鄰傳播聚類算法實(shí)現(xiàn)中文實(shí)體協(xié)同鏈接與消歧。

    2 基于特征加權(quán)重疊度的中文實(shí)體協(xié)同消歧方法

    2.1 實(shí)體消歧問題定義

    2.2 特征選擇與提取

    命名實(shí)體能夠簡(jiǎn)潔的表示與待消歧實(shí)體關(guān)聯(lián)的真實(shí)概念,Elmacioglu 等人的研究表明上下文中的命名實(shí)體是有效的消歧特征[21]。WePS系列評(píng)測(cè)中大部分排名靠前的系統(tǒng)都采用命名實(shí)作為主要特征,也從另一個(gè)側(cè)面驗(yàn)證了這一點(diǎn)。但是只用命名實(shí)體作為消歧特征是遠(yuǎn)遠(yuǎn)不夠的,主要原因有兩個(gè)方面。一是待消歧實(shí)體上下文中不一定出現(xiàn)命名實(shí)體,二是命名實(shí)體識(shí)別準(zhǔn)確度難以保證。本文在分詞、詞性標(biāo)注和實(shí)體識(shí)別基礎(chǔ)上,結(jié)合職業(yè)和職稱詞典,獲取專有名詞、人名、機(jī)構(gòu)名、地名、作品名稱、職業(yè)和職稱作為主要的消歧特征。此外,上下文中的概念通常以名詞詞組形式出現(xiàn),描述了待消歧實(shí)體的屬性和特點(diǎn),能很好的表征實(shí)體間的語義關(guān)系;所以,本文還選取與前述特征不重疊的名詞詞組作為特征,計(jì)算實(shí)體間的語義關(guān)聯(lián)度。獲取到的特征項(xiàng)集合由{w}表示,特征項(xiàng)w={w1,w2,…,wi,…,wL},其中wi是特征項(xiàng)中的詞語,L是特征項(xiàng)的長(zhǎng)度。

    2.2.1 特征項(xiàng)重疊相似度計(jì)算

    命名實(shí)體和名詞詞組特征通常由多個(gè)詞語構(gòu)成,所以,這些特征項(xiàng)之間的部分匹配就顯得十分重要,例如“退役足球運(yùn)動(dòng)員 ”和“足球運(yùn)動(dòng)員”的相似度應(yīng)高于它和“藍(lán)球運(yùn)動(dòng)員”的相似度。為了解決這一問題,本文借鑒Hoffart等人提出的短語相似度的計(jì)算方法[19]分別計(jì)算命名實(shí)體和名詞詞組之間的重疊相似度。

    設(shè)(e,f)表示待消歧的實(shí)體對(duì),Pe={p1,p2,…},Pf={q1,q2,…}分別表示實(shí)體e和f的特征項(xiàng)集合。特征項(xiàng)由詞語構(gòu)成,即pi={w1,w2,…},wi具有相對(duì)于實(shí)體e的權(quán)重γe(wi)。為了簡(jiǎn)化公式,文本用p和q表示不同實(shí)體的特征項(xiàng),w表示特征項(xiàng)中的詞,則基于加權(quán)Jaccard相似性系數(shù)的特征項(xiàng)重疊相似度如式(1)所示。

    (1)

    特征項(xiàng)詞語權(quán)重γe(w)和γf(w)由實(shí)體上下文中的逆文檔頻率(IDF,Inverse Document Frequency)確定,即γ(w)=log2(Z/df(w)),Z表示待消歧實(shí)體和目標(biāo)實(shí)體的總數(shù),df(w)表示包含w的特征項(xiàng)出現(xiàn)的次數(shù)。

    在特征項(xiàng)重疊相似度po(p,q)基礎(chǔ)上,計(jì)算實(shí)體對(duì)(e,f)的關(guān)聯(lián)度如式(2)所示。

    (2)

    其中φe(p)表示特征項(xiàng)p相對(duì)于實(shí)體e的權(quán)重,由p的TF-IDF值確定。ψ(p)表示不同類型的特征的權(quán)重。式中分子選擇較小的特征項(xiàng)權(quán)重和特征類型權(quán)重,對(duì)po(p,q)再加權(quán)。分母通過實(shí)體特征項(xiàng)權(quán)重之和,對(duì)sim(e,f)進(jìn)行正規(guī)化。在此,分母不采用特征項(xiàng)交集的最大權(quán)值求和,以避免對(duì)特征項(xiàng)的迪卡爾集進(jìn)行計(jì)算,降低計(jì)算復(fù)雜度??紤]到不同類型的特征對(duì)實(shí)體消歧結(jié)果的貢獻(xiàn)存在差異,本文針對(duì)不同類別特征類型定義不同的權(quán)重。權(quán)重值基于少量數(shù)據(jù)采用最小錯(cuò)誤率訓(xùn)練算法[22]得到,得到的具體僅值參見表1,權(quán)重調(diào)優(yōu)公式參見式(3)。

    (3)

    表1 特征類型權(quán)重

    2.3 基于近鄰傳播的協(xié)同實(shí)體鏈接消歧

    本文基于近鄰傳播聚類算法[23](Affinity Propagation cluster algorithm,AP)實(shí)現(xiàn)協(xié)同實(shí)體鏈接與消歧。實(shí)體鏈接與消歧可看作是針對(duì)實(shí)體知識(shí)庫(kù)E和待消歧名字集合N的聚類問題,針對(duì)實(shí)體鏈接與消歧任務(wù)要求,聚類應(yīng)滿足以下的約束條件:

    a. 由于待消歧名字集合對(duì)應(yīng)的真實(shí)概念是不確定的,故聚類數(shù)目k也是不確定;

    b. 實(shí)體知識(shí)庫(kù)E中的實(shí)體表示獨(dú)立的含義,所以它們之間的關(guān)聯(lián)度為零;

    c. 實(shí)體知識(shí)庫(kù)E中的實(shí)體通常包含更準(zhǔn)確、更豐富的上下文信息,應(yīng)具有更大機(jī)會(huì)成為聚類代表結(jié)點(diǎn)(Exemplar);

    d. 聚類過程應(yīng)協(xié)同考慮多個(gè)待消歧實(shí)體間的關(guān)聯(lián)度和相互作用,從而更好地對(duì)多個(gè)實(shí)體進(jìn)行消歧。

    (4)

    3 實(shí)驗(yàn)結(jié)果及分析

    本文采用CLP-2012“漢語命名實(shí)體識(shí)別與歧義消解”評(píng)測(cè)任務(wù)提供的訓(xùn)練數(shù)據(jù)開展實(shí)驗(yàn)。該評(píng)測(cè)任務(wù)提供的數(shù)據(jù)包含16個(gè)實(shí)體指稱,每個(gè)實(shí)體指稱對(duì)應(yīng)50~200篇文本。

    CLP-2012評(píng)測(cè)提供的實(shí)體知識(shí)庫(kù)包含實(shí)體指稱Name的多個(gè)不同定義,每個(gè)定義由一段文字描述。針對(duì)每個(gè)實(shí)體指稱Name,有一個(gè)包含Name的文本集合T。要求判斷T中的實(shí)體指稱Name是實(shí)體名,還是普通詞。如果Name是實(shí)體名,則進(jìn)一步判斷它是否對(duì)應(yīng)于知識(shí)庫(kù)中的定義;如果Name未對(duì)應(yīng)到知識(shí)庫(kù)中的定義,則將按其含義將實(shí)體指進(jìn)行歸類。如Name是普通詞,則將其歸入Other類中。

    為了避免Other類的判別問題,實(shí)驗(yàn)過程中借助于Peng等人提出的方法[15],將Name作為檢索詞,利用互聯(lián)網(wǎng)搜索引擎獲檢索結(jié)果中的前50個(gè)頁面,獲取與Name共現(xiàn)度最高的20個(gè)名詞詞組。利用獲取的詞組在實(shí)體知識(shí)庫(kù)中加入與Other類對(duì)應(yīng)的偽實(shí)體定義,則Other類的判別轉(zhuǎn)化為在實(shí)體知識(shí)庫(kù)尋找對(duì)應(yīng)定義的問題。詞語與Name共現(xiàn)度按式(5)計(jì)算。

    (5)

    式中,d(name,word)表示同時(shí)包含Name和Word的文檔數(shù),d(name)表示包含Name的文檔數(shù)量,d(word)表示包含Word的文檔數(shù)。

    本文將實(shí)體鏈接與消歧看作是以實(shí)體指稱為結(jié)點(diǎn)的聚類問題,聚類結(jié)果中同一個(gè)聚類簇的實(shí)體指稱具有相同含義。實(shí)驗(yàn)過程主要包含以下三個(gè)步驟。首先利用詞法分析工具[24]對(duì)知識(shí)庫(kù)中的實(shí)體定義和文本集合T進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別,并抽取實(shí)體特征和名詞詞組特征。然后,利用特征值計(jì)算結(jié)點(diǎn)似度矩陣。其中,不同實(shí)體指稱間的相似度基于特征加權(quán)重疊度方法計(jì)算,即公式(1)和(2);其它情況按公式(4)進(jìn)行計(jì)算。最后,采用近鄰傳播聚類工具[25]對(duì)實(shí)體指稱進(jìn)行聚類,從而得到實(shí)體鏈接與消歧結(jié)果。

    實(shí)驗(yàn)結(jié)果的準(zhǔn)確率和召回率按CLP-2012評(píng)測(cè)任務(wù)提供的公式計(jì)算,實(shí)驗(yàn)結(jié)果見表2。

    表2 CLP-2012訓(xùn)練數(shù)據(jù)實(shí)驗(yàn)結(jié)果

    續(xù)表

    實(shí)驗(yàn)結(jié)果表明本文提出的方法在準(zhǔn)確率、召回率和F值上取得了較好的效果。實(shí)驗(yàn)結(jié)果與CLP-2012評(píng)測(cè)結(jié)果比較參見表3。實(shí)驗(yàn)結(jié)果與Peng等人提出的兩階段實(shí)體消歧方法[15]結(jié)果相近。該方法首先利用分類算法將待消歧實(shí)體指稱劃分已有實(shí)體、未知實(shí)體和普通詞三類;然后,利用層次聚類算法對(duì)未知實(shí)體進(jìn)行消歧。相比于前述的兩階段實(shí)體消歧方法,本文方法只采用近鄰傳播聚類算法實(shí)現(xiàn)消歧,在簡(jiǎn)化方法的同時(shí)實(shí)現(xiàn)了實(shí)體指稱的協(xié)同消歧。

    表3 實(shí)體消歧方法結(jié)果比較

    注: KMUST-LIIP表示本文提出的方法,UM和UM-1表示來自文獻(xiàn)[12,26]針對(duì)部分訓(xùn)練數(shù)據(jù)得到的結(jié)果,ZZU、HITSZ、BUPT和SIR-NERD結(jié)果分別來自文獻(xiàn)[10-15]。

    通過對(duì)實(shí)驗(yàn)過程分析發(fā)現(xiàn),命名實(shí)體識(shí)別工具針對(duì)CLP-2012評(píng)測(cè)數(shù)據(jù)中的實(shí)體識(shí)別準(zhǔn)確率低是影響實(shí)驗(yàn)結(jié)果的主要因素之一。究其原因是評(píng)測(cè)試數(shù)據(jù)中出現(xiàn)的許多命名實(shí)體和普通詞語重名,導(dǎo)致了較多的識(shí)別錯(cuò)誤,最終影響了實(shí)驗(yàn)結(jié)果的準(zhǔn)確度。另外,職業(yè)、職稱和作品名等特有特征對(duì)人名實(shí)體消歧具有很好的效果,其平均準(zhǔn)確率、召回率和F值高于其它的實(shí)體消歧結(jié)果7.2%,4.0%和5.7%。

    4 結(jié)論

    本文針對(duì)中文實(shí)體消歧中的特征項(xiàng)部分匹配的問題,提出基于特征加權(quán)重疊度的中文實(shí)體協(xié)同消歧方法。實(shí)驗(yàn)結(jié)果表明該方法針對(duì)面向文本中文實(shí)體鏈接與消歧問題具有較好的效果。本文利用實(shí)體指稱上下文中的多種特征的加權(quán)重疊度計(jì)算實(shí)體相似度,能較好具體現(xiàn)實(shí)體間的語義關(guān)聯(lián),但由于待消歧實(shí)指稱上下文信息量有限,而外部知識(shí)庫(kù)(Wikipedia、百度百科和互動(dòng)百科等)含有大量的實(shí)體信息,所以,我們將進(jìn)一步研究融合外部知識(shí)庫(kù)語義相似度計(jì)算方法,提高中文實(shí)體消歧的性能。

    [1] 趙軍. 命名實(shí)體識(shí)別, 排歧和跨語言關(guān)聯(lián)[J]. 中文信息學(xué)報(bào), 2009, 23(2): 3-17.

    [2] Ji H, Grishman R. Knowledge base population: Successful approaches and challenges[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 1148-1158.

    [3] Ji H, Grishman R, Dang H T, et al. Overview of the TAC 2010 knowledge base population track[C]//Proceedings of Third Text Analysis Conference (TAC 2010). 2010.

    [4] Artiles J, Gonzalo J, Sekine S. The semeval-2007 weps evaluation: Establishing a benchmark for the web people search task[C]//Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007: 64-69.

    [5] Wang Z H H, Li S. The Task 2 of CIPS-SIGHAN 2012 Named Entity Recognition and Disambiguation in Chinese Bakeoff[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 108-114.

    [6] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[M]//The semantic web. Springer Berlin Heidelberg, 2007: 722-735.

    [7] Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008: 1247-1250.

    [8] Cucerzan S. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of the EMNLP-CoNLL. 2007, 7: 708-716.

    [9] Milne D, Witten I H. Learning to Link with Wikipedia[C]//Proceedings of the 17th ACM conference on Information and knowledge management. ACM, 2008: 509-518.

    [10] Fan Q, ZAN H, CHAI Y, et al. Chinese personal name disambiguation based on vector space model[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 152-158.

    [11] Cilibrasi R L, Vitanyi P M B. The google similarity distance[J]. Knowledge and Data Engineering, IEEE Transactions on, 2007, 19(3): 370-383.

    [12] Wang L, Li S, Wong D F, et al. A joint chinese named entity recognition and disambiguation system[C]//Proceedings of The 2nd CIPSSIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 146-151.

    [13] Liu J, Xu R, Lu Q, et al. Explore chinese encyclopedic knowledge to disambiguate person names[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 138-145.

    [14] Han W, Liu G, Mao Y, et al. Attribute based Chinese Named Entity Recognition and Disambiguation[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012) . 2012: 127-131.

    [15] Peng Z, Sun L, Han X. SIR-NERD: A Chinese Named Entity Recognition and Disambiguation System using a Two-Stage Method[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 114-120.

    [16] Minkov E, Cohen W W, Ng A Y. Contextual search and name disambiguation in email using graphs[C]//Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2006: 27-34.

    [17] Bekkerman R, McCallum A. Disambiguating web appearances of people in a social network[C]//Proceedings of the 14th international conference on World Wide Web. ACM, 2005: 463-470.

    [18] 郎君, 秦兵, 宋巍, 等. 基于社會(huì)網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J]. 計(jì)算機(jī)學(xué)報(bào), 2009, 32(7): 1365-1374.

    [19] Hoffart J, Seufert S, Nguyen D B, et al. Kore: Keyphrase overlap relatedness for entity disambiguation[C] //Proceedings of the 21st ACM international conference on Information and knowledge management. ACM, 2012: 545-554.

    [20] Ikeda M, Ono S, Sato I, et al. Person name disambiguation on the web by two-stage clustering[C]//Proceedings of the 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference. 2009.

    [21] E Elmacioglu, Y Tan, S Yan, et al. PSNUS: Web People Name Disambiguation by Simple Clustering with Rich Features[C] //Proceedings of The SemEval-2007, 2007: 268-271.

    [22] Och F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Association for Computational Linguistics, 2003: 160-167.

    [23] Frey B J, Dueck D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976.

    [24] 劉挺, 車萬翔, 李正華. 語言技術(shù)平臺(tái)[J]. 中文信息學(xué)報(bào), 2012, 25(6): 53-62.

    [25] http://genes.toronto.edu/index.php?q=affinity%20propagation[OL].

    [26] Hao Zong, Derek F Wong, Lidia S Chao. A template based hybrid model for chinese personal name disambiguation[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012).2012: 121-126.

    Collaborative Entity Disambiguation Method Based on WeightedFeature Overlap Relatedness for Chinese

    XIAN Yantuan, YU Zhengtao, HONG Xudong, ZHANG Lei, GUO Jianyi

    (Faculty of Information Engineering and Automation,Kunming University of Science andTechnology, Kunming, Yunnan 650500, China)

    A collaborative entity disambiguation method based on weighted feature overlap relatedness is proposed in this paper. This method make use of weighted feature overlap relatedness for computing the similarity between entity names. We define some deferent similarity formulas for computing entity similarity matrix, then the affinity propagation clustering algorithm is used to get the disambiguation results. Evaluation on the CLP-2012 corpus shows that our method can achieve competitive performance, attains 84.01% precision, 87.75% recall and 85.65% F-score.

    entity disambiguation; entity linking; weighted overlap relatedness; affinity propagation clustering

    線巖團(tuán)(1981—),博士研究生,講師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、信息抽取。E?mail:xianyantuan@qq.com余正濤(1970—),通信作者,博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z處理、信息檢索、機(jī)器翻譯、機(jī)器學(xué)習(xí)等。E?mail:ztyu@hotmail.com洪旭東(1989—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、信息檢索。E?mail:459102534@qq.com

    2015-03-10 定稿日期: 2015-09-10

    國(guó)家自然科學(xué)基金(61363044, 61175068, 61365010, 61462054, 61462055)

    1003-0077(2017)02-0036-06

    TP391

    A

    猜你喜歡
    消歧知識(shí)庫(kù)命名
    基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
    命名——助力有機(jī)化學(xué)的學(xué)習(xí)
    基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
    基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
    為一條河命名——在白河源
    高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
    基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
    圖書館研究(2015年5期)2015-12-07 04:05:48
    基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究
    酒泉市| 望城县| 定襄县| 略阳县| 吐鲁番市| 嵊泗县| 厦门市| 马关县| 于田县| 张北县| 成安县| 桐庐县| 灌云县| 延寿县| 东宁县| 五大连池市| 郓城县| 扬州市| 吉林省| 鄂托克旗| 昌吉市| 越西县| 胶州市| 孙吴县| 大化| 宜阳县| 大港区| 荔波县| 奉贤区| 阿图什市| 衡东县| 大连市| 聂荣县| 绥棱县| 滕州市| 武隆县| 吉林市| 日喀则市| 崇义县| 水城县| 南投市|