陳玉博,何世柱,劉 康,趙 軍,呂學(xué)強(qiáng)
(1. 中國科學(xué)院自動化研究所,模式識別國家重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101)
融合多種特征的實(shí)體鏈接技術(shù)研究
陳玉博1,何世柱1,劉 康1,趙 軍1,呂學(xué)強(qiáng)2
(1. 中國科學(xué)院自動化研究所,模式識別國家重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101)
實(shí)體消歧是自然語言理解的重要研究內(nèi)容,旨在解決文本信息中普遍存在的命名實(shí)體歧義問題,在信息抽取、知識工程和語義網(wǎng)絡(luò)等領(lǐng)域有廣泛的應(yīng)用價值。實(shí)體鏈接是實(shí)體消歧的一種重要方法,該方法將具有歧義的實(shí)體指稱項(xiàng)鏈接到給定的知識庫中從而實(shí)現(xiàn)實(shí)體歧義的消除[1]。傳統(tǒng)的實(shí)體鏈接方法主要利用上下文的詞語匹配等表層特征,缺乏深層語義信息,針對這一問題,該文提出的實(shí)體鏈接方法利用了多種特征,從不同的維度捕獲語義信息。為了更好地融合各個維度的特征,該文利用了基于排序?qū)W習(xí)框架的實(shí)體鏈接方法,與傳統(tǒng)的方法相比,節(jié)省了人工對大量的模型參數(shù)選擇和調(diào)節(jié)的工作,與基于分類的方法相比,能更好地利用到候選之間的關(guān)系信息。在TAC-KBP-2009的實(shí)體鏈接評測數(shù)據(jù)上的實(shí)驗(yàn)表明,該文提出的特征和方法表現(xiàn)出良好的性能,在評測指標(biāo)上高出參賽隊(duì)伍最好水平2.21%,達(dá)到84.38%。
實(shí)體消歧;實(shí)體鏈接;排序?qū)W習(xí)
近年來,隨著互聯(lián)網(wǎng)的普及和迅速發(fā)展,越來越多的信息以數(shù)字化的方式存儲在網(wǎng)絡(luò)中。如何在浩繁的數(shù)據(jù)中實(shí)現(xiàn)深層語義檢索和查詢已經(jīng)引起了眾多學(xué)者的關(guān)注。為了實(shí)現(xiàn)這一目標(biāo),必須構(gòu)建出機(jī)器可以理解的、組織良好的結(jié)構(gòu)化知識庫或知識圖譜。目前已經(jīng)有很多公開的結(jié)構(gòu)化知識庫,例如,YAGO[2]、KOG[3]和DBpedia[4]等。在構(gòu)建和維護(hù)結(jié)構(gòu)化知識庫時,不可避免地會遇到命名實(shí)體歧義的問題。因此,研究實(shí)體鏈接技術(shù)具有重要的學(xué)術(shù)價值和現(xiàn)實(shí)意義。
命名實(shí)體歧義指的是同一個實(shí)體指稱項(xiàng)在不同的上下文中可以對應(yīng)到不同真實(shí)世界實(shí)體的語言現(xiàn)象。例如,給定如下兩個包含“Michael Jordan”的句子:
? Michael Jordan is a famous american basketball player.
? Michael Jordan is a famous professor in the field of machine learning.
上述例子中的兩個“Michael Jordan”分別對應(yīng)著籃球運(yùn)動員“Jordan”和機(jī)器學(xué)習(xí)領(lǐng)域的教授“Jordan”。實(shí)體鏈接系統(tǒng)的主要任務(wù)是將文本中具有歧義的實(shí)體指稱項(xiàng)鏈接到知識庫中的相應(yīng)實(shí)體上,如果在知識庫中沒有相對應(yīng)的實(shí)體,則鏈接到空實(shí)體上。實(shí)體鏈接中的關(guān)鍵問題是候選實(shí)體與實(shí)體指稱項(xiàng)間的語義相似度的計算。傳統(tǒng)的研究工作中主要利用詞袋子模型計算指稱項(xiàng)所在上下文文本與候選實(shí)體所在文本之間的文本相似度,進(jìn)而用文本的相似度來衡量實(shí)體間的相似度,還有學(xué)者將類似的表層語義信息作為主要特征來判斷實(shí)體間的相似度。但是類似的表層語義特征都是基于詞匹配的,缺乏深層語義信息。不適用同一實(shí)體出現(xiàn)的上下文語境沒有匹配詞匯,或者匹配詞匯數(shù)量少的情況。例如,我們假設(shè)知識庫中有兩個名為“Michael Jordan”的實(shí)體:
? 實(shí)體名: Michael Jordan(NBA Player) 文本: Michael Jordan plays basketball in Chicago Bulls.
? 實(shí)體名: Michael Jordan(Machine Learning Professor) 文本: Michael Jordan is a famous professor in the field of machine learning.
當(dāng)待消歧的實(shí)體指稱項(xiàng)“Michael Jordan”出現(xiàn)在文本“Michael Jordan wins NBA MVP.”中時,實(shí)體指稱項(xiàng)應(yīng)當(dāng)鏈接到美國籃球運(yùn)動員邁克爾喬丹上,因?yàn)橄缥谋局械摹癕VP”和知識庫實(shí)體“Michael Jordan”定義中的“basketball”和“Chicago Bulls”有非常高的語義關(guān)聯(lián)度。但上述例子中,除了實(shí)體名外,實(shí)體指稱項(xiàng)所在的文本與知識庫中該實(shí)體的描述文本沒有匹配的詞,導(dǎo)致傳統(tǒng)基于詞袋的模型無法取得滿意的結(jié)果。為了解決這一問題,本文挖掘并利用Wikipedia中的實(shí)體關(guān)聯(lián)知識,提出了一系列包含深層語義信息的特征,并將這些深層語義特征與表層字面特征融合,完成實(shí)體鏈接。為了更好地利用本文所提出的特征信息,在消歧階段本文利用了基于排序?qū)W習(xí)框架。相較于基于分類的實(shí)體消歧方法,基于排序?qū)W習(xí)的方法能更好地考慮候選實(shí)體間的關(guān)系。本文設(shè)計并實(shí)現(xiàn)了一個完整的實(shí)體消歧系統(tǒng),系統(tǒng)由候選實(shí)體生成模塊和候選實(shí)體選擇模塊兩部分組成。進(jìn)行實(shí)體消歧任務(wù)時,主要分兩個步驟完成: (1)候選實(shí)體的生成,如給定實(shí)體指稱項(xiàng)“Michael Jordan”,實(shí)體鏈接系統(tǒng)根據(jù)規(guī)則和相關(guān)知識找到其可能指向的真實(shí)世界實(shí)體,如: “Michael B. Jordan”、“Michael Jordan(mycologist)”和“Michael Jordan (basketball player)”等。(2)候選實(shí)體的選擇,系統(tǒng)根據(jù)實(shí)體的上下文及實(shí)體本身的知識,對所有的候選進(jìn)行相似度的打分排序,根據(jù)排序的結(jié)果選擇相應(yīng)的候選實(shí)體作為鏈接對象。
為了驗(yàn)證本文提出的特征和方法的有效性,本文在TAC KBP 2009的實(shí)體鏈接評測數(shù)據(jù)上進(jìn)行了測試。實(shí)驗(yàn)表明,本文提出的特征和方法在測試數(shù)據(jù)上顯示出良好的性能。正確率達(dá)到84.38%,高出參評隊(duì)伍最好水平2.21%。
本文章節(jié)安排具體如下: 第二節(jié)介紹實(shí)體鏈接的相關(guān)工作;第三節(jié)介紹候選實(shí)體生成模塊;第四節(jié)介紹候選實(shí)體選擇模塊;第五節(jié)為實(shí)驗(yàn)和結(jié)果分析;最后對本文工作進(jìn)行了總結(jié),并指出將來工作的方向。
在命名實(shí)體消歧方面有很多關(guān)于實(shí)體鏈接的工作。Bagga[5]等人用詞袋模型來解決人名歧義的問題。Fleischman[6]等人利用網(wǎng)絡(luò)信息等特征訓(xùn)練最大熵模型來解決實(shí)體歧義問題。這些方法都是通過衡量指稱項(xiàng)上下文文本與目標(biāo)實(shí)體文本之間的相似度來判定兩者是否一致。在這些方法中很大一部分都是利用詞袋模型或者類似于詞袋模型的方法,然而詞袋模型只能捕捉表層字面匹配信息無法捕捉深層語義。
為了解決這一問題,Malin[7]等人提出了利用隨機(jī)游走的方法計算文本之間的相似度,除此之外,Han[8]等人提出利用Wikipedia作為背景知識庫,通過利用Wikipedia中的語義知識來進(jìn)行消歧。利用不同的背景知識,研究者就可以得到不同的特征來進(jìn)行實(shí)體消歧。
上面所述的方法中大多數(shù)都是解決單一實(shí)體鏈接問題,僅僅考慮目標(biāo)實(shí)體與實(shí)體指稱項(xiàng)間的語義相似度。除此之外Cucerzan[9]等為了更好地對于文本內(nèi)的多個實(shí)體進(jìn)行消岐,建立了全局語義約束,利用協(xié)同式策略綜合考慮多個實(shí)體間的語義關(guān)聯(lián),從而進(jìn)行協(xié)同實(shí)體鏈接。本文工作主要圍繞解決單一實(shí)體鏈接問題開展。
如上所述,研究者們已經(jīng)提出了很多不同的特征用來進(jìn)行實(shí)體消歧,如何有效合理地利用這些特征進(jìn)行消歧也是一個研究熱點(diǎn),起初很多研究人員利用人工規(guī)則和權(quán)重來結(jié)合這些特征,然而這樣不僅會耗費(fèi)大量的時間和精力,還缺乏泛化能力。因此,有很多學(xué)者利用機(jī)器學(xué)習(xí)上的方法來完成特征的融合。Milne[10]等訓(xùn)練了很多類似SVM、C4.5和貝葉斯等典型的分類器來融合特征。這種基于分類的方法取得了不錯的效果,但是該方法不能很好地考慮到候選實(shí)體之間的關(guān)系,為了解決這一問題本文利用排序?qū)W習(xí)的方法融合特征進(jìn)而完成單實(shí)體鏈接的任務(wù)。
為了完成實(shí)體鏈接,首先要從知識庫中獲得候選實(shí)體。在這一模塊,我們?yōu)槊總€待消歧的實(shí)體指稱項(xiàng)生成一組候選實(shí)體。通過對數(shù)據(jù)的分析不難發(fā)現(xiàn),所有的候選實(shí)體應(yīng)該在字面上和實(shí)體指稱項(xiàng)相似,或者雖然字面上不相似但是實(shí)質(zhì)上是同一實(shí)體的不同表示(如: 別名或縮略名)。為了保證候選實(shí)體的高召回率,本文在候選生成階段首先利用了基于表層字面信息的方法擴(kuò)展指稱項(xiàng),將獲取字面上最相近的一部分實(shí)體作為候選實(shí)體。接下來再利用Wikipedia針對每一個擴(kuò)展后的詞進(jìn)一步擴(kuò)展候選實(shí)體。具體方法如下:
3.1 基于表層字面信息的候選生成
在這一階段主要是召回與實(shí)體指稱項(xiàng)字面上相似的實(shí)體作為候選。首先我們利用Google開發(fā)的拼寫錯誤修正工具來校正拼寫錯誤,將可能的正確形式都作為候選實(shí)體加入候選列表中。接下來為了保證高召回率,本文又利用編輯距離計算實(shí)體指稱項(xiàng)和知識庫中每個實(shí)體間的相似度,經(jīng)試驗(yàn)驗(yàn)證,本文選取編輯距離大于X的作為候選實(shí)體。按公式(1)計算編輯距離。
edita,b(i,j)=
(1)
除此之外,通過對數(shù)據(jù)的觀察,我們發(fā)現(xiàn)在待消歧的實(shí)體指稱項(xiàng)中有很多指稱項(xiàng)是縮略詞的形式,這種形式會造成很大歧義,但是其完全形式歧義很小,例如:
1) The ABC (Australian Broadcasting Corporation) is australia’s national public broadcaster.
2) In American, ABC (American Broadcasting Company) first broadcast on television in 1948.
從例子中不難看出如果我們能從上下文中對指稱項(xiàng)ABC進(jìn)行擴(kuò)展,得到其完全形式“Australian Broadcasting Corporation”和“American Broadcasting Company”,不僅能保證正確候選的召回,而且能減少候選實(shí)體與指稱項(xiàng)之間的歧義,所以本文中采用了Zhang[11]等提出的縮略詞擴(kuò)展規(guī)則。
3.2 基于維基知識的候選生成
經(jīng)過基于表層字面信息的候選生成,我們已經(jīng)初步校正了拼寫錯誤、得到了縮略詞的全稱和與實(shí)體指稱項(xiàng)字面上相似的實(shí)體。但是還有很大一部分候選實(shí)體無法獲得,因?yàn)橛泻芏嗾_候選實(shí)體與實(shí)體指稱項(xiàng)在字面形式上幾乎完全不一致,如: 實(shí)體“Michael Jordan”,如果在待消歧文本中出現(xiàn)了實(shí)體指稱項(xiàng)“His Airness”,則通過基于表層字面信息的方法無法將實(shí)體“Michael Jordan”作為候選加入候選實(shí)體列表,因?yàn)楸韺幼置嫫ヅ涞姆椒ㄈ狈ι顚诱Z義知識,無法判斷出“His Airness”是“Michael Jordan”的綽號。為了解決這一問題,在本文中我們引入了語義知識。本文挖掘并利用Wikipedia中的相關(guān)知識建立了實(shí)體指稱項(xiàng)候選詞典,用于補(bǔ)充基于表層字面信息生成候選的不足,以達(dá)到高召回率的目的。生成的部分實(shí)體指稱項(xiàng)字典如表1所示。
表1 實(shí)體指稱項(xiàng)字典實(shí)例
本文利用Wikipedia中的以下信息建立詞典:
? 重定向頁面: 自然界中很多實(shí)體的名字都不僅只有一個。這個問題也就是一義多詞問題,在Wikipedia中用重定向頁面來處理這類問題,同一個實(shí)體只有一個實(shí)體頁面,用這個實(shí)體流行度最廣的名字作為標(biāo)題。針對其余的名字都建立重定向頁面,指向唯一的實(shí)體頁面。所以重定向頁面中包含很多的同義知識。
? 消歧頁面: 自然界中很多不同的實(shí)體具有相同的名字。這個問題也就是一詞多義問題,在Wikipedia中用消歧頁面來處理這類問題,消歧頁面中有一系列的鏈接信息,分別鏈向這個名字所指的不同實(shí)體。所以能從消歧頁面中發(fā)現(xiàn)很多候選實(shí)體。
? 錨文本信息: 在Wikipedia的文本中會將提到的重要實(shí)體鏈接到相對應(yīng)實(shí)體的頁面,這就是錨文本信息,這些錨文本有的是對應(yīng)實(shí)體的同義詞,有的是對應(yīng)實(shí)體的別名,還有的是對應(yīng)實(shí)體的名字的錯誤拼寫。能為候選的生成提供重要依據(jù)。
為了測試本文提出的候選生成模塊的召回率,我們在TAC KBP 2009-2013年的數(shù)據(jù)上都進(jìn)行了測試。測試結(jié)果如表2所示。測試數(shù)據(jù)表明本文提出的候選生成模塊的有效性。
表2 候選實(shí)體生成模塊召回率測試
基于候選實(shí)體生成模塊,我們可以得到一個實(shí)體指稱項(xiàng)對應(yīng)的所有的候選實(shí)體,為了正確鏈接實(shí)體,我們必須對所有的候選實(shí)體排序,最終將得分最高的實(shí)體作為此實(shí)體指稱項(xiàng)的鏈接實(shí)體。本文對候選實(shí)體的選擇基于一個有監(jiān)督的排序?qū)W習(xí)算法。對于一個實(shí)體指稱項(xiàng),排序?qū)W習(xí)分類器的輸入是n個d維空間向量,其中n表示的是該實(shí)體指稱項(xiàng)的候選實(shí)體的數(shù)目,每一對候選實(shí)體與實(shí)體指稱項(xiàng)會根據(jù)特征函數(shù)生成一個d維空間的向量,其中d代表特征的個數(shù),這些特征充分考慮了候選實(shí)體自身的信息以及指稱項(xiàng)上下文內(nèi)容與候選實(shí)體的語義相似度等知識。通過最大邊緣化的方法來選擇候選實(shí)體,即正確的實(shí)體所獲得的分?jǐn)?shù)應(yīng)該高于其他的候選實(shí)體的分?jǐn)?shù)同時加上一定的余量。這個約束條件等同于SVM排序?qū)W習(xí)算法[12],優(yōu)化函數(shù)和約束條件為式(2)~(4)。
(2)
(3)
(4)
其中,V為損失函數(shù),w是要學(xué)習(xí)到的關(guān)于特征的權(quán)重,c為懲罰因子。q.e是實(shí)體指稱項(xiàng)的正確實(shí)體,q.ek實(shí)體指稱項(xiàng)的其他候選實(shí)體。約束條件的物理意義是正確實(shí)體獲得的分?jǐn)?shù)要盡量大于其他候選實(shí)體獲得的分?jǐn)?shù)。本文的候選實(shí)體選擇模塊共使用了表層字面特征、深層語義特征和空實(shí)體特征共三類七種。各個特征將在下面進(jìn)行詳細(xì)介紹。
4.1 表層字面特征
這類特征主要從表層字面信息考慮候選實(shí)體與待消歧的實(shí)體指稱項(xiàng)間的相似度。這類特征包括編輯距離相似度、Dice相似度、向量空間相似度和實(shí)體共現(xiàn)信息等特征。為了提高特征的有效性,在計算表層字面特征時我們會對文本進(jìn)行預(yù)處理。具體如下:
數(shù)據(jù)預(yù)處理: 在數(shù)據(jù)預(yù)處理階段,本文會過濾掉實(shí)體名字中的括號及括號中的內(nèi)容,還會考慮到縮略詞和大小寫的情況。
基于編輯距離的相似度Edit: 該特征主要用來度量候選實(shí)體名和待消歧指稱項(xiàng)的編輯距離,編輯距離的計算如上述公式(1)所示。
基于Dice系數(shù)的相似度Dice: 該特征主要用來衡量候選實(shí)體名和待消歧指稱項(xiàng)的Dice系數(shù)。如:x和y為兩個字符串,則Dice的計算如公式(5)所示。
(5)
公式中nt表示同時出現(xiàn)在字符串x和y中的二元組個數(shù),nx是字符串x中的二元組個數(shù),ny是字符串y中的二元組個數(shù)。
基于向量空間模型的篇章級相似度Bow: 該特征主要用來衡量待消歧指稱項(xiàng)的上下文文本和候選實(shí)體的描述文本之間的相似度。同一實(shí)體出現(xiàn)的上下文環(huán)境應(yīng)該類似,所以這一特征在傳統(tǒng)的消歧方法中占有很重要的地位。計算時,應(yīng)先將待消歧指稱項(xiàng)的上下文和候選實(shí)體的上下文用詞袋子模型表示成向量,向量中的每一維都由標(biāo)準(zhǔn)的TF-IDF計算得到,最后計算向量的余弦值作為相似度。
實(shí)體共現(xiàn)信息Co: 該特征為二元特征,標(biāo)志著指稱項(xiàng)實(shí)體名是否在候選實(shí)體文本中出現(xiàn),或者候選實(shí)體名是否在指稱項(xiàng)上下文中出現(xiàn),出現(xiàn)則設(shè)為1,否則為0。
4.2 深層語義特征
在上述的表層字面信息特征中,主要是基于詞或者實(shí)體的匹配信息,無法捕捉到深層語義,對于上下文中匹配信息較少的情況不具備泛化能力,所以我們應(yīng)當(dāng)將深層語義信息考慮進(jìn)來,在深層語義特征中,主要是利用從Wikipedia中獲得的背景知識計算候選實(shí)體與實(shí)體指稱項(xiàng)之間的深層語義關(guān)聯(lián)。具體如下:
實(shí)體流行度Pou: 這個特征主要是衡量一個實(shí)體在一篇文章出現(xiàn)概率的大小。本文中我們的計算方法同Han[13]一樣,統(tǒng)計出實(shí)體在整個知識庫中出現(xiàn)的總次數(shù)N,再統(tǒng)計被鏈接到的次數(shù)L,則L/N為實(shí)體的流行度。例如: 給出實(shí)體“Michael Jordan”,在沒有其他任務(wù)附件信息的條件下,從流行度可以知道,實(shí)體“Michael Jordan”鏈向美國著名籃球明星“Michael Jeffrey Jordan”的概率要大于鏈向伯克利大學(xué)教授“Michael I. Jordan”的概率。
基于維基實(shí)體的相似度Ws: 為了更準(zhǔn)確地計算實(shí)體指稱項(xiàng)和候選實(shí)體之間的相似度,本特征使用Wikipedia知識來獲取實(shí)體之間的語義關(guān)系。類似于Han[8]等的工作,本文中實(shí)體相似度計算分為三步: ①指稱項(xiàng)文本中的Wikipedia實(shí)體向量表示的抽??;②兩個指稱項(xiàng)實(shí)體向量表示的對齊;③相似度計算。以下分別具體介紹:
① 指稱項(xiàng)文本中的Wikipedia實(shí)體向量表示的抽取: 為了計算實(shí)體之間的相似度,首先將每個實(shí)體e表示成Wikipedia的實(shí)體向量e={(c1,w(c1,e)),(c2,w(c2,e)),…,(cm,w(cm,e))},其中,Ci是指稱項(xiàng)上下文中的Wikipedia實(shí)體,而w(Ci,e)是實(shí)體Ci在指稱項(xiàng)e的實(shí)體向量表示中的權(quán)重。給定實(shí)體,其實(shí)體向量表示的抽取分兩步完成: 首先完成Wikipedia的實(shí)體抽取,本文利用由Milne[14]等開發(fā)的工具Wikipedia-Miner來識別并抽取,同一個指稱項(xiàng)文本中抽取的實(shí)體集合組成向量。還要為向量中的每維估計權(quán)重,因?yàn)椴煌膶?shí)體在消歧過程中起的作用是不一樣的,本文中,一個實(shí)體c在一個實(shí)體指稱項(xiàng)e中的重要性,計算如公式(6)所示。
(6)
其中sr(c,ci)是Milne[10]提出的Wikipedia實(shí)體之間的語義關(guān)聯(lián)。根據(jù)實(shí)體權(quán)重,我們可以過濾掉噪音實(shí)體從而提升實(shí)體消歧系統(tǒng)的效率和性能。
② 實(shí)體向量表示的對齊: 將指稱項(xiàng)用Wikipedia實(shí)體向量表示后,我們可以使用余弦相似度等傳統(tǒng)方法來計算實(shí)體之間的相似度。但是傳統(tǒng)相似度通常不能考慮到實(shí)體之間的語義關(guān)聯(lián)。因此,我們利用實(shí)體對齊方法來識別實(shí)體之間的對應(yīng)關(guān)系,并以此為基礎(chǔ)來在實(shí)體相似度計算中融入實(shí)體之間的語義關(guān)系。給定兩個實(shí)體的向量表示el和ek,我們使用如下方法實(shí)現(xiàn)向量中實(shí)體的對齊: 對el中的每一個實(shí)體c,我們選擇目標(biāo)實(shí)體ek向量表示中與其有最大語義關(guān)聯(lián)度的實(shí)體作為它的對齊實(shí)體,計算如公式(7)所示。
(7)
③ 相似度計算: 完成實(shí)體對齊后,指稱項(xiàng)相似度計算的關(guān)鍵問題是如何將這些實(shí)體對齊信息結(jié)合到相似度計算中,進(jìn)而在相似度計算中融入Wikipedia語義知識。基于實(shí)體對齊的結(jié)果,我們認(rèn)為從一個實(shí)體el到另一個實(shí)體ek的語義關(guān)聯(lián)為“兩個實(shí)體之間所有對齊實(shí)體之間語義關(guān)聯(lián)的帶權(quán)平均”,計算如公式(8)所示。
SR(ek→el)=
(8)
按上述定義,給定兩個實(shí)體el和ek,從el到ek的和ek到el的語義關(guān)聯(lián)度是非對稱的。因此本文利用的兩個實(shí)體el與ek之間的相似度為el到ek和ek到el的語義關(guān)聯(lián)度的平均值。
經(jīng)過上述的三步,我們可以計算出兩個實(shí)體的深層語義相似度,更好地捕捉實(shí)體之間的深層語義信息。
4.3 空實(shí)體特征
除了上述的兩類特征,為了更好地處理空實(shí)體的問題,本文參照Dredze[15]等人的工作,設(shè)計了空實(shí)體特征NIL,并且在候選特征中強(qiáng)制加入空實(shí)體作為候選,一同參與所有候選實(shí)體的打分排序,如果是空實(shí)體得分最高,則將待消歧的實(shí)體指稱項(xiàng)鏈接到空實(shí)體上。在本文中空實(shí)體的特征向量中只有空實(shí)體特征設(shè)定為非0,其余的特征值均為0。對于其他的候選實(shí)體來說空實(shí)體特征為0。其余的特征由上述的定義計算得到。
5.1 實(shí)驗(yàn)數(shù)據(jù)集
本文的實(shí)驗(yàn)在TACKBP2009的評測數(shù)據(jù)集上進(jìn)行。TACKBP評測中實(shí)體鏈接的任務(wù)目標(biāo)是將文本中的實(shí)體指稱項(xiàng)與目標(biāo)實(shí)體知識庫中的相應(yīng)實(shí)體鏈接。TACKBP2009實(shí)體鏈接任務(wù)由目標(biāo)實(shí)體知識庫和評測數(shù)據(jù)兩部分組成評測數(shù)據(jù)集,如下所示:
目標(biāo)實(shí)體知識庫: 評測任務(wù)中,指稱項(xiàng)目標(biāo)實(shí)體的相關(guān)信息存儲在目標(biāo)實(shí)體知識庫中。目標(biāo)實(shí)體知識庫以實(shí)體為單位組織。目前,TAC實(shí)體鏈接任務(wù)知識庫中的目標(biāo)實(shí)體是從2008年10月的Wikipedia中抽取構(gòu)建,在目標(biāo)實(shí)體知識庫中,每一個實(shí)體節(jié)點(diǎn)包含如下幾方面信息: 知識庫ID、實(shí)體的類別、實(shí)體的名字、屬性信息和消歧文本。
評測數(shù)據(jù): 評測任務(wù)中,測試數(shù)據(jù)Query以XML格式提供,每個Query能提供的信息有實(shí)體指稱項(xiàng)的名字、QueryID、實(shí)體所在文本的ID和實(shí)體指稱項(xiàng)在實(shí)體知識庫中的對應(yīng)實(shí)體的ID。評測數(shù)據(jù)中總共包括了3 904個query,其中2 229個query是在知識庫中找不到對應(yīng)的實(shí)體的,也就是要標(biāo)記為空實(shí)體,其余的1 675個query能在知識庫中找到指定的實(shí)體。在評測數(shù)據(jù)中不同類別的實(shí)體,其中627個關(guān)于PER的query,2 710個關(guān)于ORG的query,567個關(guān)于GPE的query。
5.2 評價指標(biāo)
本文采用TACKBP2009中的評測指標(biāo)Micro-averagedaccuracy來評價實(shí)體鏈接的效果,計算如公式(9)所示。
(9)
公式(9)衡量了所有鏈接結(jié)果的平均準(zhǔn)確率,其中L(q)是實(shí)體鏈接系統(tǒng)給出的queryq的目標(biāo)實(shí)體ID ,Q是所有query的集合,C(q)是queryq的準(zhǔn)確目標(biāo)實(shí)體ID,σ(L(q),C(q))用于判斷L(q)是否與C(q)相同,不相同為0,相同則為1。
5.3 實(shí)驗(yàn)設(shè)置
在實(shí)驗(yàn)中我們首先不考慮空實(shí)體,僅在知識庫中能找到相應(yīng)實(shí)體的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),之后在候選實(shí)體中加入空實(shí)體,在特征中加入空實(shí)體特征,在整個數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證考慮空實(shí)體后本文提出的實(shí)體鏈接系統(tǒng)的性能。與Shen[16]等一樣,本文的所有實(shí)驗(yàn)數(shù)據(jù)都是在TAC KBP 2009的數(shù)據(jù)集上采用十折交叉驗(yàn)證獲得的。
5.4 結(jié)果及分析
5.4.1 特征有效性分析
為了驗(yàn)證本文利用的深層語義知識特征的有效性,我們將第4節(jié)提出的特征進(jìn)行了不同方式的組合進(jìn)行實(shí)驗(yàn)。為了降低空實(shí)體對實(shí)驗(yàn)的影響,實(shí)驗(yàn)時我們只在能在知識庫中找到實(shí)體的1 675個query的數(shù)據(jù)集上進(jìn)行測試。實(shí)驗(yàn)結(jié)果如表3所示。
表3 在非空實(shí)體上的測試結(jié)果
從實(shí)驗(yàn)結(jié)果上看,#2與#1對比性能提升1%左右,說明在實(shí)體鏈接的過程中單獨(dú)運(yùn)用基于維基實(shí)體的相似度效果會優(yōu)于單獨(dú)利用向量空間模型的相似度。證實(shí)了基于維基實(shí)體的相似度能更好的捕捉實(shí)體之間的語義信息。
#3與#1相比性能提升6%左右,相較于#1系統(tǒng),#3系統(tǒng)又融入了三個基于表層字面信息的特征,分別是基于編輯距離的相似度、基于Dice系數(shù)的相似度和實(shí)體共現(xiàn)信息。結(jié)果性能上的提升說明了本文提出的這三個特征的有效性,也說明了在實(shí)體消歧階段,實(shí)體名相似與否或者實(shí)體名是否共現(xiàn)具有很重要的地位。
#4與#2的比較中可以看出特征實(shí)體流行度的有效性。流行度表征了一個實(shí)體在一篇文章中出現(xiàn)的概率,這說明一個實(shí)體的流行度越大,那么當(dāng)它作為候選實(shí)體進(jìn)行消歧時,其被判定為正確答案的概率也就越大。
#4的性能要優(yōu)于#3,#4中的特征都是基于Wikipedia中的超鏈接等關(guān)系獲得的深層語義知識,而#3中的特征都是基于字面表層信息的。實(shí)驗(yàn)結(jié)果說明基于Wikipedia獲得的知識能捕捉更多的語義知識。更有利于實(shí)體消歧的效果提升。
#5的效果明顯優(yōu)于其余的對比實(shí)驗(yàn),這說明基于Wikipedia獲得的語義知識與基于表層字面特征能捕獲的知識是互補(bǔ)的,單獨(dú)的應(yīng)用二者都不能達(dá)到最優(yōu)效果,應(yīng)當(dāng)將兩類特征結(jié)合應(yīng)用。
5.4.2 算法有效性分析
為了驗(yàn)證本文利用的基于排序?qū)W習(xí)算法框架的候選實(shí)體選擇方法優(yōu)于傳統(tǒng)的分類方法,本文實(shí)現(xiàn)了基于Naive Bayes的分類方法和基于SVM的分類方法來進(jìn)行對比實(shí)驗(yàn),最終實(shí)驗(yàn)分別在不同的特征組合下進(jìn)行,用分類的方法時,首先將所有的候選實(shí)體分類為兩類,取正確的類別中概率最高的為最終鏈接的對象,具體結(jié)果如圖1所示。
圖1 基于貝葉斯分類器、Svm分類器和基于排序?qū)W習(xí)的實(shí)體鏈接系統(tǒng)效果對比圖
如圖,實(shí)驗(yàn)在五個特征集合上進(jìn)行,此實(shí)驗(yàn)選擇的五種特征組合與測試特征有效性實(shí)驗(yàn)中的五個特征組合一致,如: FS1(feature set1)中的特征與#1中的特征一致。在五個集合上利用排序?qū)W習(xí)算法選擇候選實(shí)體的效果都要明顯優(yōu)于利用傳統(tǒng)分類器的效果。在FS1上性能提升最少,從0.713 4提升到0.780 9,提高6%左右,在FS5上性能提升最高,從0.794提升到0.894 9,提升10%左右。實(shí)驗(yàn)結(jié)果表明,基于排序?qū)W習(xí)框架的算法更適合實(shí)體鏈接任務(wù)。
5.4.3 與state-of-Art系統(tǒng)性能對比
上述實(shí)驗(yàn)都是針對在知識庫中能找到實(shí)體的情況進(jìn)行的。為了測試系統(tǒng)在完整數(shù)據(jù)集上的性能,我們在候選實(shí)體中加入空實(shí)體,在特征中加入空實(shí)體特征。在TAC KBP 2009的完整數(shù)據(jù)集上進(jìn)行十折交叉測試。結(jié)果與參加TAC KBP 2009的前三名[17]進(jìn)行比較,結(jié)果如表4所示。
表4 系統(tǒng)整體性能測試和TAC KBP 2009的前三名 系統(tǒng)對比
系統(tǒng)accuracyofallqueriesaccuracyofnon-NILqueriesaccuracyofNILqueriesSiel090.82170.76540.8641QUANTA0.80330.77250.8241hltcoe0.79840.70630.8941our0.84380.79820.8778
從上述實(shí)驗(yàn)結(jié)果可以看出,本文構(gòu)建的系統(tǒng)在性能上達(dá)到84.38%,高出參加評測的最好成績2.21%。不僅說明了本文構(gòu)建的實(shí)體鏈接系統(tǒng)的可靠性,也說明了本文利用的特征和方法的有效性。
本文針對傳統(tǒng)實(shí)體間相似度計算方法存在的不足,利用了一種基于深層語義知識計算實(shí)體之間相似度的方法。為了更好地融合多種特征,本文設(shè)計了一個基于排序?qū)W習(xí)算法框架的實(shí)體鏈接系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的計算方法,新的相似度計算方法可以更加有效地捕捉實(shí)體指稱項(xiàng)文本與候選實(shí)體間的語義關(guān)聯(lián)。同時,融入了多種特征的實(shí)體鏈接系統(tǒng)的性能在TAC KBP 2009的數(shù)據(jù)集上取得了良好的性能,正確率達(dá)到84.38%,高出參加評測的最好成績2.21%。
下一步的工作主要包括: 1)本文建立的實(shí)體鏈接系統(tǒng)對空實(shí)體的處理還不完善,僅僅是指出該實(shí)體指稱項(xiàng)所表示的實(shí)體在知識庫中不存在,還需要將這項(xiàng)工作進(jìn)行細(xì)化,如將空實(shí)體進(jìn)行聚類并且將聚類后的空實(shí)體加入到知識庫中;2)嘗試使用其他的排序?qū)W習(xí)算法,如Listnet[18]等。
[1] 趙軍,劉康,周光有等.開放式文本信息抽取[J].中文信息學(xué)報,2011,25(6): 98-110.
[2] Fabian M Suchanek, Gjergji Kasneci, Gerhard Weikum.Yago:A large ontology from wikipedia and wordnet. Web Semantics: Science, Services and Agents on the World Wide Web, 2008,6(3):203-217.
[3] Fei Wu, Daniel S Weld. Automatically refining the wikipedia infobox ontology[C]//Proceedings of the 17th international conference on World Wide Web,2008: 635-644.
[4] S?ren Auer, Christian Bizer, Georgi Kobilarov, et al.Dbpedia: A nucleus for a web of open data. In The semantic web, 2007: 722-735.
[5] Amit Bagga, Breck Baldwin. Entity-based cross-document coreferencing using the vector space model[C]//Proceedings of HLT/ACL, 1998: 79-85.
[6] Michael B Fleischman, Eduard Hovy. x Multi-document person name resolution[C]//Proceedings of ACL, Reference Resolution Work shop, 1998: 66-82.
[7] Bradley Malin, Edoardo Airoldi, Kathleen, et al. A network analysis model for disambiguation of names in lists[J]. Computational & Mathematical Organization Theory, 2005,11(2):119-139.
[8] Han X, Zhao J. Named entity disambiguation by leveraging Wikipedia semantic knowledge[C]//Proceeding of the 18th ACM conference on Information and knowledge management, 2009: 215-224.
[9] Silviu Cucerzan. Large-scale named entity disambiguation based on wikipedia data[C]//Proceedings of EMNLP CoNLL, 2007,7: 708-716.
[10] David Milne, Ian H Witten. Learning to link with wikipedia[C]//Proceedings of the 17th ACM conference on Information and Knowledge Management,2008: 509-518.
[11] Tao Zhang, Kang Liu, Jun Zhao. The nlprir entity linking system at tac 2012.
[12] Thorsten Joachims. Optimizing search engines using clickthrough data[C]//Proceedings of the eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002: 133-142.
[13] Xianpei Han, Le Sun. A generative entity mention model for linking entities with knowledge base[C]//Proceedings HLT/ACL, 2011: 945-954.
[14] David Milne, Ian H Witten. An open-source toolkit for mining wikipedia[J]. Artificial Intelligence,2013,194:222-239.
[15] Mark Dredze, Paul McNamee, Delip Rao, et al. Entity disambiguation for knowledge base population[C]//Proceedings of CL.2010: 277-285.
[16] Wei Shen, Jianyong Wang, Ping Luo, et al. Linden: linking named entities with knowledge base via semantic knowledge[C]//Proceedings of WWW, 2012: 449-458.
[17] Paul McNamee, Hoa Trang Dang. Overview of the tac 2009 knowledge base population track. In Text Analysis Conference (TAC), 2009,17: 111-113.
[18] Zhe Cao, Tao Qin, Tie-Yan Liu, et al. Learning to rank: from pairwise approach to listwise approach[C]//Proceedings of ICML, 2007: 129-136.
Entity Linking Based on Multiple Features
CHEN Yubo1, HE Shizhu1, LIU Kang1, ZHAO Jun1, LV Xueqiang2
(1. NLPR, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;2. ICDDR, Beijing Information Science and Technology University, Beijing 100101, China)
Entity linking is an important method of entity disambiguation, which aims to map an entity to an entry stored in the existing knowledge base. Several methods have been proposed to tackle this problem, most of which are based on the co-occurrence statistics without capture various semantic relations. In this paper, we make use of multiple features and propose a learning to rank algorithm for entity linking. It effectively utilizes the relationship information among the candidates and save a lot of time and effort. The experiment results on the TAC KBP 2009 dataset demonstrate the effectiveness of our proposed features and framework by an accuracy of 84.38%, exceeding the best result of the TAC KBP 2009 by 2.21%.
Named Entity disambiguation; entity linking; learning to rank
陳玉博(1990—),博士,主要研究領(lǐng)域?yàn)槭录槿 ⑿畔⒊槿『妥匀徽Z言處理。E-mail:yubo.chen@nlpr.ia.ac.cn何世柱(1987—),博士,助理研究員,主要研究領(lǐng)域?yàn)橹悄軉柎稹⒅R工程以及自然語言處理。E-mail:shizhu.he@nlpr.ia.ac.cn劉康(1981—),博士,副研究員,主要研究領(lǐng)域?yàn)樾畔⒊槿 ⒕W(wǎng)絡(luò)挖掘、問答系統(tǒng)等。E-mail:kliu@nlpr.ia.ac.cn
1003-0077(2016)04-0176-08
2014-09-15 定稿日期: 2015-03-20
國家自然科學(xué)基金(61202329, 61272332);網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室開放課題(ICDD201201)
TP391
A