楊紫怡,盛 晨,孔 芳,周國棟
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006)
實(shí)體廣泛存在于各類文本中,而文本中自然語言的表述往往具有多樣性和歧義性,存在大量的簡寫、縮寫、不規(guī)范和模糊的表達(dá)[1]。面對歧義或未知實(shí)體時(shí),需要通過實(shí)體鏈接技術(shù)對有歧義的實(shí)體進(jìn)行判別,并利用知識庫中相關(guān)信息為原文本添加豐富的語義信息,幫助讀者了解實(shí)體,同時(shí)也協(xié)助計(jì)算機(jī)對文本進(jìn)行理解和分析。實(shí)體鏈接任務(wù)的基本目標(biāo)是將從文本中抽取的實(shí)體指稱項(xiàng)正確地鏈接到知識庫中對應(yīng)的實(shí)體上。實(shí)體鏈接是自然語言處理各個(gè)應(yīng)用領(lǐng)域的基礎(chǔ)環(huán)節(jié),對于信息檢索、自動問答、信息抽取和知識庫擴(kuò)容都具有重要的研究意義,作為知識圖譜的關(guān)鍵環(huán)節(jié)實(shí)體鏈接任務(wù)也已經(jīng)逐步被研究者們深入研究[2]。
盡管目前實(shí)體鏈接研究已經(jīng)取得了一定的成果,但是更多的研究者將工作重點(diǎn)集中在如何提高選擇與指稱指代相同現(xiàn)實(shí)事物的實(shí)體的準(zhǔn)確率上,很大程度上忽略了候選集構(gòu)建的重要性。一個(gè)高質(zhì)量的候選集必須具有高召回率、高準(zhǔn)確率的特點(diǎn)。很多研究者只是單純地利用維基百科來進(jìn)行指稱匹配,獲得候選集。這種方法的知識來源過于單一,僅僅依賴一個(gè)本地知識庫,面對現(xiàn)實(shí)環(huán)境中類型眾多、變化多樣的指稱并不能很好地構(gòu)建高質(zhì)量候選集;此外,構(gòu)建候選集時(shí)應(yīng)該更多地利用上下文信息來明確不完全指稱,這對于人名實(shí)體的鏈接效果提升尤為明顯。
本文主要針對實(shí)體鏈接系統(tǒng)中的候選集構(gòu)建子任務(wù)展開研究,提出了一系列借助上下文信息擴(kuò)展被查詢指稱的策略,并對這些策略進(jìn)行實(shí)驗(yàn)分析,比較不同策略對于候選集召回率和準(zhǔn)確率的影響,在分析錯(cuò)誤原因的基礎(chǔ)上找出最優(yōu)的指稱擴(kuò)展方法。使用該方法獲得候選集并進(jìn)一步驗(yàn)證候選集質(zhì)量的提高對實(shí)體鏈接整體性能的影響。
實(shí)體鏈接任務(wù)最早是由Bunescu等[3]在2006年提出的。Miller等[4]發(fā)現(xiàn)含義相似的詞經(jīng)常出現(xiàn)在相似的上下文中;Bunescu等[3]提出了基于實(shí)體上下文相似度進(jìn)行鏈接消歧的方法;Mihalcea等[5]先利用他們構(gòu)建的基于維基百科的受控詞表抽取關(guān)鍵詞,得到文檔中的實(shí)體指稱,然后利用基于背景知識的方法進(jìn)行相似度計(jì)算;Cucerzan[6]提出除文本內(nèi)容之外實(shí)體的類別相關(guān)性和百科頁面的錨文本重定向頁面等結(jié)構(gòu)信息對于提高實(shí)體鏈接算法的準(zhǔn)確性有較大幫助;還有研究者提出了基于圖模型的實(shí)體消歧方法,將上下文構(gòu)造成一個(gè)圖,圖中的節(jié)點(diǎn)為候選實(shí)體與上下文中的實(shí)體及其指稱。文獻(xiàn)[7-12]用類似方法都取得了不錯(cuò)的效果。
隨著機(jī)器學(xué)習(xí)在自然語言處理領(lǐng)域的逐步運(yùn)用,一些學(xué)者嘗試將統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法引入實(shí)體鏈接,利用機(jī)器學(xué)習(xí)方法將各種特征融合,主要分為無監(jiān)督和有監(jiān)督兩種方法。
無監(jiān)督的方法往往利用一些統(tǒng)計(jì)特征,而缺乏語義層面的考慮。Gottipati等[13]分別利用Dirichlet平滑后的極大似然估計(jì)和詞的經(jīng)驗(yàn)分布來估計(jì)候選實(shí)體和實(shí)體指稱的語言模型,通過計(jì)算實(shí)體指稱與候選實(shí)體之間的KL(Kullback-Leibler)距離對候選實(shí)體進(jìn)行排序。
有監(jiān)督的方法中,Zhang等[14]利用多種特征,采用支持向量機(jī)SVM(Support Vector Machine)分類器進(jìn)行實(shí)體消歧;Pilz等[15]構(gòu)造了基于主題的實(shí)體表示,以計(jì)算實(shí)體指稱所在上下文與候選實(shí)體上下文之間的主題距離作為特征之一,利用 SVM分類器進(jìn)行二元分類;Zheng等[16]提出了基于Learning to Rank算法進(jìn)行實(shí)體消歧的方法,分別實(shí)現(xiàn)了利用Pairwise和Listwise兩種機(jī)器學(xué)習(xí)排序方法的實(shí)體消歧過程。Ratinov等[17]構(gòu)建了局部特征和全局特征,利用Ranking SVM進(jìn)行訓(xùn)練得到排序模型。文獻(xiàn)[18-20]也都使用了類似的方法,并取得了一定的效果。Barrena等[21]在上下文信息有限的情況下利用背景知識增加消歧信息,認(rèn)為相似實(shí)體和選擇約束對實(shí)體鏈接有著很重要的作用,利用貝葉斯分類器對實(shí)體消歧,取得了很好的效果。
隨著深度學(xué)習(xí)方法在自然語言領(lǐng)域的應(yīng)用,很多學(xué)者將深度學(xué)習(xí)方法運(yùn)用到實(shí)體鏈接中。Landau 等[22]在 Durrett等[23]工作的基礎(chǔ)上加入 CNN方法(Convolutional Neural Network),使實(shí)體鏈接的性能有很大的提升。
目前對于實(shí)體鏈接的研究日益成熟,盡管實(shí)體鏈接中使用的方法越來越多,但是大量的研究都將候選集構(gòu)建這一個(gè)部分轉(zhuǎn)換成一個(gè)比較簡單的步驟,而將重點(diǎn)放在后面的消歧部分上,在候選集的構(gòu)建上使用的方法通常比較簡單。
應(yīng)用最為廣泛的方法是利用詞典來進(jìn)行候選集的構(gòu)建,例如文獻(xiàn)[3,5,21,24 -26]都是利用維基百科等外部知識庫的結(jié)構(gòu)來構(gòu)建詞典。以維基百科為例,其中會有很多的頁面結(jié)構(gòu)、錨文本、重定向頁面、消歧頁面等,利用這些頁面中的信息可以很方便地構(gòu)建一個(gè)詞典,通過字面的匹配在字典中進(jìn)行檢索,從而完成候選集的構(gòu)建。
除了上述方法以外,一些研究者還利用查詢擴(kuò)展來改進(jìn)候選集構(gòu)建的方法,Zhang等[14]在傳統(tǒng)方法的基礎(chǔ)上考慮到了拼寫錯(cuò)誤的問題,獲取了一系列的潛在實(shí)體;隨后他們又在后續(xù)研究中使用了縮略詞擴(kuò)展的處理方法,返回潛在的候選實(shí)體[27];Sil等[28]同時(shí)利用維基百科和Freebase來進(jìn)行詞典的構(gòu)建。為了補(bǔ)充背景知識庫中的知識,一些研究者在構(gòu)建詞典的時(shí)候也利用搜索引擎進(jìn)行了候選集的補(bǔ)充獲取。Dredze等[20]利用Google搜索引擎檢索到了相關(guān)的實(shí)體補(bǔ)充進(jìn)候選集中,也取得了不錯(cuò)的效果。
實(shí)體鏈接系統(tǒng)基于背景知識庫展開,本文選取維基百科知識庫作為背景庫。維基百科是目前研究者們廣泛利用的背景知識庫,其結(jié)構(gòu)中有大量的特定頁面信息,這些頁面結(jié)構(gòu)信息對實(shí)體鏈接的進(jìn)行有很大的幫助,主要包括的信息有:
(1)實(shí)體標(biāo)題:是實(shí)體的唯一表示,是實(shí)體的指稱之一。
(2)消歧頁面:包含實(shí)體列表,該列表中的所有實(shí)體共有一個(gè)別名,即為該頁面的標(biāo)題。
(3)重定向頁面:并不包含實(shí)際的實(shí)體信息,只有一個(gè)鏈向另一個(gè)頁面的鏈接,表示該頁面的標(biāo)題實(shí)際上是指向另一個(gè)實(shí)體。這表達(dá)了一種別名關(guān)系,重定向頁面的標(biāo)題即為其所指向的實(shí)體的別名。重定向頁面也有可能指向另一個(gè)重定向頁面。
(4)錨文本:維基百科中每篇文檔都包含鏈接,指向知識庫中的其他文章,這些鏈接的錨文本及其鏈向的維基百科實(shí)體構(gòu)成了指稱和實(shí)體之間的一對一關(guān)系。
常規(guī)的實(shí)體鏈接方法將實(shí)體鏈接系統(tǒng)分為兩個(gè)主要模塊,實(shí)體候選集構(gòu)建和實(shí)體消歧。實(shí)體候選集構(gòu)建即通過外部知識庫,尋找需要鏈接的實(shí)體指稱可能鏈接到的知識庫中實(shí)體的集合。實(shí)體消歧即根據(jù)已經(jīng)構(gòu)建好的候選實(shí)體集,通過多種衡量手段,選取一個(gè)與需鏈接指稱指代一致的實(shí)體,并將它們鏈接起來。本文的實(shí)體鏈接基準(zhǔn)算法也是由這兩個(gè)模塊構(gòu)成,具體的流程如圖1所示。
目前大部分研究者都是利用維基百科中一些特定的結(jié)構(gòu)化頁面信息來構(gòu)建指稱的候選實(shí)體集,在基準(zhǔn)算法的實(shí)體候選集構(gòu)建過程中,也利用了維基百科的這些信息。本文構(gòu)建的基準(zhǔn)算法中,候選集構(gòu)建主要分成兩個(gè)步驟:指稱標(biāo)準(zhǔn)化和候選實(shí)體獲取。
首先,利用維基百科中的重定向頁面信息,構(gòu)建標(biāo)準(zhǔn)實(shí)體名稱和實(shí)體別名的對應(yīng)字典。從語料中獲得了需要被鏈接的實(shí)體指稱后,與別名列表中的名稱進(jìn)行精準(zhǔn)匹配,當(dāng)匹配完成后,將名稱替換成為標(biāo)準(zhǔn)的實(shí)體名稱。通過名稱標(biāo)準(zhǔn)化的步驟,可以使得下一步的候選實(shí)體匹配更加精準(zhǔn)。
在獲得標(biāo)準(zhǔn)實(shí)體名稱后,我們通過標(biāo)準(zhǔn)名稱獲得相對應(yīng)的實(shí)體集合。根據(jù)與標(biāo)準(zhǔn)實(shí)體名稱有關(guān)聯(lián)的維基百科中的消歧頁面、錨文本、實(shí)體頁面等信息,可以獲得這些頁面里和該名稱有一定關(guān)系的實(shí)體,根據(jù)一定的字面相似度過濾,得到一個(gè)與名稱有密切關(guān)系的實(shí)體集合,我們認(rèn)為這個(gè)集合中存在著一個(gè)與指稱指代一致的實(shí)體,并在下一個(gè)過程中將這個(gè)指稱-實(shí)體對找到,這個(gè)集合就是指稱的實(shí)體候選集。
實(shí)體消歧的過程同樣需要利用維基百科知識庫中的信息,判斷候選實(shí)體和指稱是否指代一致。在這個(gè)過程中,本文建立的基準(zhǔn)算法主要利用了機(jī)器學(xué)習(xí)中的Learning to Rank方法,將實(shí)體消歧問題轉(zhuǎn)化為一個(gè)排序問題。通過特征輸入,利用機(jī)器學(xué)習(xí)方法排序,得到候選集中與指稱指代最相似的實(shí)體,將這個(gè)實(shí)體作為鏈接結(jié)果。由于一部分實(shí)體在鏈接知識庫中不存在鏈指實(shí)體,因此本文的基準(zhǔn)算法設(shè)定了一個(gè)閾值,當(dāng)排序的輸出結(jié)果小于該閾值時(shí),我們就認(rèn)為該實(shí)體與所有的候選實(shí)體的相關(guān)度都不夠大,很有可能在鏈接庫中不存在鏈接實(shí)體,將這樣的指稱判定為NIL。
基準(zhǔn)算法中的Learning to Rank方法使用Ranking SVM模型來實(shí)現(xiàn),該模型被廣泛地應(yīng)用于信息檢索領(lǐng)域,是一種基于Pairwise的數(shù)據(jù)標(biāo)注方法的排序工具。該模型的基本思想是將實(shí)例的排序任務(wù)轉(zhuǎn)化為分類任務(wù),然后按照支持向量機(jī)的學(xué)習(xí)策略,學(xué)習(xí)出最優(yōu)超平面。本文構(gòu)建的基準(zhǔn)算法使用了由 Joachims[29,30]提出的 SVM Rank 工具。
在排序特征的選擇上,本文的基準(zhǔn)算法選擇了三類特征,分別是字面特征、上下文相似度特征和實(shí)體相關(guān)性特征。此外,還選擇了候選實(shí)體的流行度作為先驗(yàn)概率特征,將候選實(shí)體在維基百科中被鏈接指向數(shù)與該候選集中所有候選實(shí)體被鏈接指向數(shù)總和的比例作為實(shí)體的流行度。表1給出了基準(zhǔn)算法使用的特征集。
目前大量實(shí)體鏈接的工作均側(cè)重于如何提高實(shí)體消歧模塊的性能,如何在實(shí)體候選集中選出最可能與指稱指代一致的實(shí)體,從而達(dá)到實(shí)體鏈接的目的,卻忽略了實(shí)體鏈接的另一個(gè)重要組成模塊——實(shí)體候選集構(gòu)建對實(shí)體鏈接性能起到的作用。一個(gè)同時(shí)具有高召回率和高準(zhǔn)確率的實(shí)體候選集可以使后續(xù)的實(shí)體候選集排序過程的性能有很大的提升。因此,目前實(shí)體鏈接主要存在如下問題:
(1)在獲取指稱候選實(shí)體時(shí),沒有充分考慮到上下文中包含的具有非常強(qiáng)的輔助作用的信息,例如一個(gè)更加完整明確的名稱。
(2)實(shí)體候選集的獲取源較為單一。在實(shí)體候選集的構(gòu)建過程中普遍使用的方法是通過指稱與背景知識庫中的實(shí)體名稱進(jìn)行匹配,從知識庫中的重定向頁面、消歧頁面等特定結(jié)構(gòu)中抽取相關(guān)信息,構(gòu)建出實(shí)體候選集。這個(gè)過程中使用的知識庫通常是維基百科知識庫,并沒有過多地考慮其他信息。
基于以上理由,本文提出了一種多策略組合的候選集構(gòu)建算法,以獲取一個(gè)更高質(zhì)量的候選集。其基本思想是:首先在進(jìn)行維基百科候選集獲取之前對查詢關(guān)鍵詞采用多種策略進(jìn)行多步擴(kuò)展,隨后利用維基搜索引擎的拼寫檢查,修正拼寫錯(cuò)誤,再進(jìn)行指稱標(biāo)準(zhǔn)化和候選實(shí)體獲取;其次,在維基百科獲取的候選集基礎(chǔ)上增加額外的背景知識,利用百度搜索引擎進(jìn)行再一次的候選集擴(kuò)充,并刪除候選集中類型不一致的實(shí)體。
本文提出的多策略候選集構(gòu)建算法主要為指稱擴(kuò)展和候選集獲取兩部分。改進(jìn)方案流程如圖2所示。
實(shí)體指稱擴(kuò)展,即在原本需要查詢的實(shí)體指稱的上下文中尋找可能與該指稱指代一致的、更加完整的、包含信息量更大的指稱。通過對維基百科結(jié)構(gòu)的分析發(fā)現(xiàn),英文維基百科中的消歧頁面,尤其是針對人名的消歧頁面,會列出大量的實(shí)體,這些實(shí)體都是擁有同一個(gè)姓或者名。由于取名習(xí)慣,英文中人名重復(fù)多指的情況非常多,即同一個(gè)名稱指代不同人的情況極其常見,并且數(shù)量巨大。因此,在人名只有一部分簡稱的時(shí)候,通過知識庫匹配,獲取到的候選實(shí)體數(shù)量非常巨大,這引入了相當(dāng)多的噪音,給后續(xù)的排序工作帶來很大的干擾。而且,人名簡稱的真正指代實(shí)體很可能并未在這個(gè)消歧頁面結(jié)構(gòu)中出現(xiàn),若通過消歧頁面中的列表結(jié)構(gòu)再進(jìn)行擴(kuò)展搜索,擴(kuò)展出來的實(shí)體數(shù)量會成倍增加,代價(jià)過大。然而,通過對上下文文本的分析發(fā)現(xiàn),在上下文中會存在指代同一個(gè)人的不同指稱,這些指稱中有一部分是簡稱,而上下文中往往是存在這個(gè)人的完整名字的,如果用這個(gè)人的全名來代替簡稱進(jìn)行檢索,可以使得搜索結(jié)果更加精確,既可以提高候選集的召回率也可以提高候選集的準(zhǔn)確率。指稱的擴(kuò)展可以更加明確指稱所指代的實(shí)體,增加指稱攜帶的信息量,從而大大降低候選實(shí)體的數(shù)量,排除一些完全無關(guān)實(shí)體的干擾。借鑒實(shí)體識別和聚類任務(wù)中對上下文實(shí)體采用的處理策略[31-33],本文將其他任務(wù)中采用的策略運(yùn)用到實(shí)體鏈接中,利用指代消解與實(shí)體匹配規(guī)則,提出了多種上下文匹配策略結(jié)合的實(shí)體指稱擴(kuò)展方法,目的就是獲取一個(gè)高召回率、高準(zhǔn)確率的高質(zhì)量候選集。下面是本文提出的四種處理方法:
(1)對指稱上下文進(jìn)行共指消解,檢測該指稱是否存在于某一條指代鏈中;
(2)對指稱進(jìn)行縮略詞判定,判斷全文中是否存在該縮略詞的全稱;
(3)對指稱上下文進(jìn)行命名實(shí)體識別,檢測是否存在同類別實(shí)體將該指稱邊界位置包含其中;
(4)判斷全文中是否有包含該指稱的同類別實(shí)體。
四條策略的綜合實(shí)現(xiàn)步驟如下所示(具體流程如圖3所示):
步驟1首先對文本共指消解,抽取文中的實(shí)體指代鏈,選擇鏈上的最長實(shí)體名稱對其他名稱進(jìn)行擴(kuò)展,若指稱在指代鏈上存在,則將指稱替換為指代鏈上的最長實(shí)體名稱;
步驟2若所需查詢指稱未在指代鏈中出現(xiàn),則制定規(guī)則判定實(shí)體是否為縮略詞,若是,則檢索上下文中是否存在連續(xù)字符串首字母與指稱相同,若存在,則替換;
步驟3若指稱為非縮略詞,則檢測是否存在命名實(shí)體,其所在位置包含了所需查詢指稱的邊界位置,若存在,則對指稱進(jìn)行擴(kuò)展;
步驟4若未取得擴(kuò)展,則對全文的實(shí)體進(jìn)行檢索,若存在包含該指稱的實(shí)體,則選擇長度最大的兩個(gè)實(shí)體進(jìn)行擴(kuò)展。
對實(shí)驗(yàn)語料的統(tǒng)計(jì)分析發(fā)現(xiàn),在人名類型中,指代一致的情況出現(xiàn)較多,因此對人名的擴(kuò)展有較好的效果,但是對地理政治實(shí)體和組織名這兩個(gè)類型,文中包含該指稱的實(shí)體則往往與原本的指稱指代不一致,因此在處理時(shí)僅對類型為人名的實(shí)體進(jìn)行處理。
實(shí)體候選集獲取,即以實(shí)體名稱作為查詢關(guān)鍵詞,利用外部知識庫,獲取一系列可能與該查詢詞指代一致的實(shí)體的過程,由于目前使用的外部知識庫比較單一,通常研究者都會選擇Wikipedia、Freebase或Yago作為外部補(bǔ)充知識庫,獲取候選實(shí)體。由于知識源過于單一,獲取候選集時(shí)可能無法將實(shí)體完全召回。因此本文提出了基于多知識源的候選集獲取方案,并盡可能地減少候選實(shí)體的數(shù)量。本文希望能夠通過一些其他的方式,例如維基搜索引擎、百度搜索引擎等另一種類型的外部知識庫來擴(kuò)充背景知識,使一些實(shí)體能夠更好地被召回,同時(shí)能充分利用外部搜索引擎的一些匹配方法。實(shí)體名稱擴(kuò)展之后,較長的實(shí)體雖然包含更多更精確的信息,但在維基百科知識庫中可能無法找到合適的匹配,引入在線搜索引擎的知識庫可以將這種情況下未召回的實(shí)體召回,彌補(bǔ)了擴(kuò)展名稱導(dǎo)致的匹配不成功。
候選集獲取步驟如下所示(流程圖如圖4所示):
步驟1在經(jīng)過實(shí)體指稱擴(kuò)展之后,利用維基搜索引擎進(jìn)行拼寫檢查,修正錯(cuò)誤;
步驟2在經(jīng)過拼寫檢查之后,獲得標(biāo)準(zhǔn)名,并進(jìn)行候選集匹配檢索;
步驟3若未檢測到候選實(shí)體,則利用百度搜索引擎進(jìn)行檢索,將百度搜索頁面第一頁中出現(xiàn)的維基百科標(biāo)題的前三個(gè)作為候選實(shí)體;
步驟4若指稱本身在獲取候選集時(shí),只有唯一候選實(shí)體,則將這個(gè)候選實(shí)體也加入候選集;
步驟5若指稱沒有得到相應(yīng)的擴(kuò)展,則按照原本的候選集獲取方法,進(jìn)行候選集獲取;
步驟6 獲得候選集之后,檢測候選集中實(shí)體是否存在于鏈接知識庫中,若不存在,則刪除;
步驟7對指稱和知識庫中的實(shí)體類別進(jìn)行比對,若類型一致,則保留該實(shí)體,否則刪除。
按照第3節(jié)和第4節(jié)提出的方法,本文在基準(zhǔn)算法和改進(jìn)的方法中使用的均是由TAC測評會議發(fā)布的2014年英文實(shí)體鏈接語料[34],外部知識庫采用2016年10月的英文維基百科數(shù)據(jù)包,并進(jìn)行了本地解析,同時(shí)也使用了 Stanford CoreNLP[35]工具進(jìn)行文本處理。
本文提出了四條指稱擴(kuò)展策略,并對這些擴(kuò)展指稱利用多源知識進(jìn)行了候選集的獲取,加上基準(zhǔn)系統(tǒng)的策略,后續(xù)實(shí)驗(yàn)將按下列六種設(shè)置進(jìn)行:
實(shí)驗(yàn)1基準(zhǔn)算法,不經(jīng)過任何擴(kuò)展,且僅根據(jù)維基百科知識庫進(jìn)行候選集獲取;
實(shí)驗(yàn)2指稱擴(kuò)展采用共指消解方法,利用本文提出的基于多源知識的方法獲取候選集;
實(shí)驗(yàn)3指稱擴(kuò)展增加縮略詞擴(kuò)展方法,利用基于多源知識的方法獲取候選集;
實(shí)驗(yàn)4指稱擴(kuò)展增加命名實(shí)體邊界擴(kuò)展方法,利用基于多源知識的方法獲取候選集;
實(shí)驗(yàn)5指稱擴(kuò)展增加上下文實(shí)體包含檢索方法,利用基于多源知識的方法獲取候選集;
實(shí)驗(yàn)6指稱擴(kuò)展僅采用共指消解和上下文實(shí)體包含檢索兩種方法,利用基于多源知識的方法獲取候選集。
對于候選集構(gòu)建質(zhì)量的評價(jià),本文提出了如下八種評價(jià)指標(biāo):
對于實(shí)體鏈接的整體性能,為方便比較,本文采用TAC測評的官方測評方法。由于本文主要關(guān)注鏈接的性能變化,因此著重針對鏈接部分進(jìn)行實(shí)驗(yàn),并且采用了官方數(shù)據(jù)集中給定的指稱作為系統(tǒng)的輸入,并沒有進(jìn)行自動的指稱抽取。因此,在評價(jià)指標(biāo)的選擇上,本文選用TAC評價(jià)工具中給出的針對鏈接性能進(jìn)行評價(jià)的NERL、NEL、NEN三個(gè)指標(biāo),對鏈接性能進(jìn)行比較[34]。在使用測評語料中給定的指稱進(jìn)行實(shí)體鏈接的時(shí)候,這三個(gè)指標(biāo)相當(dāng)于是對全部指稱、非空指稱和空指稱鏈接的準(zhǔn)確率進(jìn)行測評。
根據(jù)實(shí)驗(yàn)設(shè)置總共進(jìn)行了六組實(shí)驗(yàn),由于本文的目的是盡可能提高召回率并降低候選集數(shù)量,因此首先衡量候選集平均數(shù)量和候選集總召回率。表2給出了候選平均值和候選召回率兩個(gè)指標(biāo)的分布情況,其中PER、ORG和GPE分別代表人名實(shí)體、組織名實(shí)體和地理政治實(shí)體,Total代表三個(gè)類別整體的情況??梢钥闯?,候選集的平均值在不經(jīng)過擴(kuò)展處理時(shí)最大,整體平均數(shù)量已超過13,GPE的平均數(shù)量更是超過了17。而本文提出的四條策略處理方案達(dá)到了降低候選實(shí)體數(shù)量的目的,其中步驟1和步驟4的效果相對較好,候選實(shí)體平均數(shù)量的下降較為明顯;從召回率的角度分析,在不經(jīng)過擴(kuò)展的情況下,總候選實(shí)體召回率達(dá)到了94.8%,步驟2和步驟3均使得候選集的召回率有不同程度的下降,這是由于在經(jīng)過擴(kuò)展之后,有一部分實(shí)體,尤其是組織和地理政治實(shí)體的指稱攜帶的信息量過大,在進(jìn)行匹配的時(shí)候可能沒有辦法找到相應(yīng)的匹配實(shí)體,因此造成了召回率的下降。而步驟1和步驟4均使得人名的召回率有很好的提升,而對于組織和地理政治實(shí)體,該擴(kuò)展方式在召回率提升方面,沒有起到相應(yīng)的作用。整體而言,實(shí)驗(yàn)6的方法將候選實(shí)體平均數(shù)量的下降和候選實(shí)體召回率的變化平衡得相對較好,在大幅度降低候選實(shí)體平均數(shù)量和大幅度提高人名召回率的基礎(chǔ)上,組織和地理政治實(shí)體的候選實(shí)體召回率的略微下降在可以接受的范圍內(nèi)。
Table 2 Candidate set average and overall Recall表2 候選集平均值和整體召回率
為了進(jìn)一步分析候選集召回率變化的原因,本文分析了各個(gè)擴(kuò)展步驟進(jìn)行擴(kuò)展的實(shí)體數(shù)量,以及經(jīng)過擴(kuò)展后的實(shí)體是否有標(biāo)準(zhǔn)鏈接實(shí)體召回的情況。從表3可以看出,四條策略處理方案的步驟1和步驟4處理的實(shí)體數(shù)量相對較多,步驟2處理的實(shí)體數(shù)量最少,并且從擴(kuò)展后召回的比例來看,步驟1和步驟4的效果相對是最好的,這也是設(shè)置實(shí)驗(yàn)6的原因。
另外,本文也統(tǒng)計(jì)了空實(shí)體和非空實(shí)體的準(zhǔn)確率、召回率以及F值的變化情況。從表4可以看出,經(jīng)過步驟1和步驟4處理的實(shí)驗(yàn)6候選集的整體質(zhì)量是最好的。
Table 4 Precision、Recall and F-measure of different candidate sets表4 不同候選集的準(zhǔn)確率、召回率和F值
使用實(shí)驗(yàn)6得到的候選集和實(shí)驗(yàn)1的候選集進(jìn)行下一步對比實(shí)驗(yàn),測試候選集的變化對實(shí)體鏈接的整體性能是否有提升。表5給出了完整實(shí)體鏈接系統(tǒng)的NERL、NEL以及NEN測評指標(biāo)值。從表5可以看出,相較于完全不經(jīng)過擴(kuò)展的候選集,實(shí)驗(yàn)6的 NERL提升了約3.7%,NEL提升了4.1%,NEN提升了3.1%。由此可見,候選集的質(zhì)量提升之后,完整實(shí)體鏈接系統(tǒng)上的性能有了較為明顯的提升。
為了更進(jìn)一步分析實(shí)體鏈接系統(tǒng)性能的變化情況,對三種不同類型實(shí)體NERL指標(biāo)的變化進(jìn)行了統(tǒng)計(jì)。表6的統(tǒng)計(jì)結(jié)果顯示,在人名類別上,NERL的提升是最為明顯的,提升了4.8%,在組織名和地理政治類別上,NERL也有超過2%的提升,這也證明了候選集平均數(shù)量的降低以及候選集召回率的提升,對整體的實(shí)體鏈接的各個(gè)類別都有明顯的提升。
Table 3 Entity quantity in different steps表3 不同步驟處理實(shí)體數(shù)量
Table 5 Final linking result evaluation of the two candidate sets表5 兩個(gè)候選集的鏈接結(jié)果評價(jià)
Table 6 NERL of different entity types表6 不同類型指稱的NERL
由于全部的指稱中,有一部分是不存在鏈接實(shí)體的,因此為了進(jìn)一步測試本文提出的方法,單獨(dú)針對存在鏈接實(shí)體的指稱,使用本文方法進(jìn)行實(shí)驗(yàn),從而避免空實(shí)體指稱的錯(cuò)誤判斷對鏈接準(zhǔn)確性造成的影響。對兩組實(shí)驗(yàn)結(jié)果進(jìn)行分析的同時(shí),也列出另外兩組同樣在該語料上對存在鏈接指稱進(jìn)行實(shí)體鏈接實(shí)驗(yàn)的公開研究結(jié)果[21,34]。為方便比較,本文與其他研究的測評方法保持一致,直接計(jì)算在所有存在鏈接實(shí)體的指稱中與實(shí)體匹配正確的指稱所占的比例,以此作為準(zhǔn)確率。由于本文主要關(guān)注的是系統(tǒng)在存在鏈接實(shí)體的指稱中的鏈接準(zhǔn)確率,因此我們認(rèn)為指稱抽取對于該準(zhǔn)確率并沒有過大的影響,仍然沿用測評語料中給出的指稱。從表7可以看出,基準(zhǔn)算法的結(jié)果與TAC2014測評的最好結(jié)果基本一致,但是與2016年Barrena等的方法相比,有0.6%的差距;而本文提出的改進(jìn)方法,比其結(jié)果高出了2.1%。這也驗(yàn)證了本文方法在存在鏈接實(shí)體的指稱處理效果上,有著很好的提升。
Table 7 Linking accuracy of linkable mention表7 存在鏈接實(shí)體指稱的鏈接準(zhǔn)確率
另外,本文也給出TAC官方提供的TAC2014的完整鏈接測評結(jié)果圖[34],如圖5所示。圖5顯示了在輸入值為標(biāo)準(zhǔn)指稱時(shí),實(shí)體鏈接的整體情況,根據(jù)圖中NERL的變化情況可以看出,本文構(gòu)建的基準(zhǔn)算法基本與NYU2的系統(tǒng)性能持平,改進(jìn)后的系統(tǒng)能夠與排名第二的ICTCAS_OKN1系統(tǒng)持平。這是由于目前本文只關(guān)注候選集生成對整體性能的影響,并沒有對后續(xù)的排序以及空實(shí)體判斷部分進(jìn)行改進(jìn),仍然沿用基準(zhǔn)算法的方法,因此本文方法目前和最高的完整實(shí)體鏈接實(shí)驗(yàn)結(jié)果還有距離,在后續(xù)的改進(jìn)中,我們會對后面的候選實(shí)體消歧部分進(jìn)行調(diào)整,從而可以進(jìn)一步提升鏈接部分的整體性能。
本文構(gòu)建了實(shí)體鏈接基準(zhǔn)算法,在基準(zhǔn)算法的基礎(chǔ)上加入了多策略指稱擴(kuò)展和多知識源候選集獲取方法,并通過實(shí)驗(yàn)進(jìn)行分析。根據(jù)實(shí)驗(yàn)結(jié)果選擇出了較好的方案,相較于基準(zhǔn)算法,該方案的實(shí)驗(yàn)結(jié)果在候選集整體的召回率和準(zhǔn)確率上都有著較好的提升。利用獲取的候選集,進(jìn)一步驗(yàn)證了候選集對完整實(shí)體鏈接系統(tǒng)的影響,實(shí)驗(yàn)結(jié)果表明候選集質(zhì)量的提升確實(shí)有助于提升實(shí)體鏈接的整體性能。
盡管本文提出的策略能夠很好地提升候選集的質(zhì)量,并且提升了實(shí)體鏈接系統(tǒng)的整體性能,但是在實(shí)體鏈接的整體系統(tǒng)上還有很大的上升空間。未來我們將嘗試引入更多的知識源對實(shí)體鏈接的各個(gè)模塊進(jìn)行補(bǔ)充,更進(jìn)一步地提高實(shí)體鏈接的性能。