溫 雯, 伍思杰, 蔡瑞初, 郝志峰,2
(1. 廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006;2. 佛山科學(xué)技術(shù)學(xué)院,廣東 佛山 528000)
有數(shù)據(jù)顯示[1],截至2013年年底,國(guó)家數(shù)字圖書館數(shù)字資源總量已達(dá)到874.5TB,其中自建數(shù)字資源量為737.9TB,網(wǎng)絡(luò)信息采集量達(dá)45.7TB,外購(gòu)中外文數(shù)據(jù)庫(kù)共計(jì)273個(gè),文津搜索匯集的元數(shù)據(jù)已達(dá)2.9億條。隨著互聯(lián)網(wǎng)的快速普及和硬件存儲(chǔ)技術(shù)的發(fā)展,人們可以輕松地在不同的設(shè)備上瀏覽、獲取各類數(shù)字資源,也可以通過(guò)眾多的學(xué)術(shù)數(shù)據(jù)庫(kù)或?qū)W術(shù)搜索引擎獲取所需的專業(yè)文獻(xiàn),如Google Scholar、百度學(xué)術(shù)、CNKI、萬(wàn)方數(shù)據(jù)等。由此看來(lái),從互聯(lián)網(wǎng)上獲取海量的電子資源的確成為了一件輕松簡(jiǎn)單的事情,但是隨之出現(xiàn)的問(wèn)題是,現(xiàn)有的知識(shí)服務(wù)已經(jīng)無(wú)法滿足人們對(duì)信息“快速、簡(jiǎn)單、準(zhǔn)確”的獲取需求。面對(duì)這樣的知識(shí)服務(wù)需求,我們需要針對(duì)專業(yè)文獻(xiàn)文本進(jìn)行實(shí)體識(shí)別并抽取出實(shí)體的類型信息,建立結(jié)構(gòu)化的專業(yè)知識(shí)體系,以輔助用戶進(jìn)行文獻(xiàn)檢索。在這類專業(yè)領(lǐng)域的文獻(xiàn)中有著非常多的核心知識(shí)點(diǎn)和關(guān)鍵術(shù)語(yǔ),且這些知識(shí)點(diǎn)和術(shù)語(yǔ)隨著時(shí)間不斷演進(jìn)。譬如在計(jì)算機(jī)領(lǐng)域中,這類術(shù)語(yǔ)表達(dá)的是該文獻(xiàn)的研究問(wèn)題、核心算法或關(guān)鍵模型等,而用戶最關(guān)心的也正是這類術(shù)語(yǔ),它們能告訴用戶這篇文獻(xiàn)研究的核心問(wèn)題及其解決方法。相對(duì)于一般的實(shí)體而言,這類具有專業(yè)領(lǐng)域特性、能概括表達(dá)文獻(xiàn)中核心知識(shí)點(diǎn)的術(shù)語(yǔ),我們將其定義為知識(shí)實(shí)體。專業(yè)文獻(xiàn)上的知識(shí)實(shí)體抽取是一類特殊的實(shí)體抽取問(wèn)題,有助于實(shí)現(xiàn)專業(yè)文獻(xiàn)信息的結(jié)構(gòu)化描述。而實(shí)體類型的標(biāo)注則是實(shí)體抽取的一個(gè)重要組成部分,對(duì)后續(xù)實(shí)體關(guān)系的識(shí)別也具有重要的意義[2]。
專業(yè)文獻(xiàn)中的知識(shí)實(shí)體具有其獨(dú)特性。我們發(fā)現(xiàn),與傳統(tǒng)的人名、機(jī)構(gòu)名等實(shí)體需要借助外部信息來(lái)進(jìn)行類型判斷不同,知識(shí)實(shí)體的類型往往會(huì)以名詞短語(yǔ)的形式出現(xiàn)在知識(shí)實(shí)體的內(nèi)部,例如“條件隨機(jī)場(chǎng)模型”作為一個(gè)知識(shí)實(shí)體,出現(xiàn)在內(nèi)部的“模型”正是我們所需抽取的類型,我們把這類出現(xiàn)在實(shí)體內(nèi)部并可以明確判斷實(shí)體類型的詞,稱為類型指示詞。根據(jù)這個(gè)特點(diǎn),我們對(duì)知識(shí)實(shí)體做了一系列的統(tǒng)計(jì)實(shí)驗(yàn),發(fā)現(xiàn)知識(shí)實(shí)體中出現(xiàn)的類型指示詞具有以下的特性: (1)大部分知識(shí)實(shí)體的類型詞都存在于實(shí)體內(nèi)部,大多數(shù)知識(shí)實(shí)體都會(huì)以“專業(yè)知識(shí)名稱+類型指示詞”的方式來(lái)準(zhǔn)確描述。(2)類型指示詞的詞性絕大部分是名詞,樣本數(shù)據(jù)中約有94.6%的類型指示詞被分詞工具判定為名詞詞性。(3)類型指示詞有明顯的位置特征,大部分類型指示詞都位于知識(shí)實(shí)體的末端。在上述分析實(shí)驗(yàn)的基礎(chǔ)上,我們提出了一種結(jié)合啟發(fā)式規(guī)則的多標(biāo)簽加權(quán)傳播的方法(簡(jiǎn)稱 HRA+MLW-LPA),以實(shí)現(xiàn)知識(shí)實(shí)體類型的抽取和標(biāo)注。該方法結(jié)合了無(wú)監(jiān)督的啟發(fā)式規(guī)則方法與半監(jiān)督的標(biāo)簽傳播算法方法,利用類型指示詞的獨(dú)有特性實(shí)現(xiàn)了大部分知識(shí)實(shí)體的無(wú)監(jiān)督類型標(biāo)注,再用多標(biāo)簽加權(quán)的標(biāo)簽傳播算法對(duì)剩下的未標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)簽傳播,既減少了人工標(biāo)注的工作量,又增加了類型定義的靈活度。實(shí)驗(yàn)證明,這種方法較傳統(tǒng)的類型抽取方法有更好的效果。
本文其余章節(jié)結(jié)構(gòu)如下: 第一節(jié)綜述相關(guān)的研究;第二節(jié)給出問(wèn)題定義;第三節(jié)是知識(shí)實(shí)體在類型抽取上的一些特性分析實(shí)驗(yàn);第四節(jié)給出基于啟發(fā)式規(guī)則的類型標(biāo)簽抽取方法和多標(biāo)簽加權(quán)傳播方法,包括方法的思路和詳細(xì)算法步驟;第五節(jié)是針對(duì)提出方法的對(duì)比實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果分析。最后第六節(jié)總結(jié)全文和討論將來(lái)的工作。
在實(shí)體類型抽取方面,主流的方法主要包括四種: 基于已有知識(shí)庫(kù)的方法、基于模式匹配的方法、基于機(jī)器學(xué)習(xí)的方法和基于詞語(yǔ)分布相似度的方法。
基于已有知識(shí)庫(kù)的方法主要是利用人工構(gòu)建的知識(shí)庫(kù)資源對(duì)實(shí)體進(jìn)行類別標(biāo)注或者類型標(biāo)簽傳播,常用的知識(shí)庫(kù)主要包括WordNet、Wikipedia、Freebase、Linked Open Data(LOD),以及國(guó)內(nèi)的“百度百科”和哈工大的“同義詞詞林”[3]等?;谶@類方法的研究已經(jīng)有很多,得到的效果也相當(dāng)不錯(cuò),例如,2008年,Suchanek等人[4]結(jié)合Wikipedia和WordNet,利用WordNet過(guò)濾掉Wikipedia中較差的類別標(biāo)簽,準(zhǔn)確率達(dá)到95%以上。相類似的還有2010年Ni等人[5]利用LOD資源庫(kù)對(duì)未知實(shí)體進(jìn)行開(kāi)放分類,Dojchinovski等人[6]利用維基百科的類別體系對(duì)命名實(shí)體進(jìn)行分類和消除歧義。這些方法由于借用了人工構(gòu)建的已有知識(shí)庫(kù),因此準(zhǔn)確率比較高,但是此方法的缺點(diǎn)是無(wú)法處理維基百科之外的實(shí)體,例如專業(yè)領(lǐng)域文獻(xiàn)的實(shí)體往往無(wú)法從通用知識(shí)庫(kù)查詢獲得。
基于模式匹配的實(shí)體類型抽取起源較早,在1992年Hearst[7]就提出了利用模式匹配或者是啟發(fā)式規(guī)則匹配的方法,制定了一些抽取模式(pattern)和規(guī)則來(lái)抽取實(shí)體類型。隨后許多學(xué)者在Hearst工作的基礎(chǔ)上對(duì)類型抽取進(jìn)行深入研究,例如Evans[8]以互聯(lián)網(wǎng)上的數(shù)據(jù)為語(yǔ)料庫(kù),利用Hearst的模式匹配方法對(duì)互聯(lián)網(wǎng)的數(shù)據(jù)進(jìn)行搜索匹配,得到了不錯(cuò)的效果。除此以外,KnowItAll系統(tǒng)[9]和NELL系統(tǒng)[10]等也是基于模式匹配的方法,結(jié)合自然語(yǔ)言的模式和網(wǎng)頁(yè)表格中的結(jié)構(gòu)化信息來(lái)進(jìn)行類型抽取。
基于機(jī)器學(xué)習(xí)的方法是近年來(lái)比較熱門的信息抽取方法,主要是將實(shí)體通過(guò)一定粒度的分詞后進(jìn)行特征提取,結(jié)合詞法和句法特征轉(zhuǎn)換成特征向量,然后采用HMM[11-12]、SVM[12]和CRF[13]等機(jī)器學(xué)習(xí)模型比較特征向量之間的相似度,然后進(jìn)行分類或標(biāo)注,例如宋毅君[14]等人提取塊層面特征,利用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)了漢語(yǔ)框架語(yǔ)義角色的自動(dòng)標(biāo)注。相對(duì)于模式匹配的方法來(lái)說(shuō),這類方法特征提取簡(jiǎn)單有效,而且不需要具有專業(yè)知識(shí)的人去做大量的分析和模式發(fā)現(xiàn)工作。但是,基于機(jī)器學(xué)習(xí)的方法的缺點(diǎn)是對(duì)特征的依賴性特別強(qiáng),特征應(yīng)該最大限度地包含實(shí)體的信息,包括盡量多的上下文信息,以提高特征的區(qū)分度。所以,對(duì)于特征區(qū)分度不明顯或者上下文較少的短文本來(lái)說(shuō),基于特征的方法效果并不是很好。因此,現(xiàn)在的研究又開(kāi)始考慮采用將基于模式匹配和基于機(jī)器學(xué)習(xí)的方法相結(jié)合的策略來(lái)尋找效果更佳的信息抽取方案,例如張傳巖等人[15]提出一種基于啟發(fā)式規(guī)則的方法,結(jié)合SVM和CRF模型實(shí)現(xiàn)的Web實(shí)體活動(dòng)抽取,實(shí)驗(yàn)結(jié)果顯示該方法在多個(gè)領(lǐng)域取得較好的效果,類似的方法也可以推廣到類型信息抽取。
基于詞語(yǔ)分布相似度的方法相對(duì)前面兩種方法比較少見(jiàn),這種方法主要是基于一種假設(shè): 語(yǔ)義分布范圍越廣的詞,它的上下文也越廣,而語(yǔ)義分布范圍窄的詞,它對(duì)應(yīng)的上下文也相對(duì)較窄?;谶@個(gè)假設(shè),研究者們提出各種詞與詞之間的相似性度量方法,例如,Weeds的研究中[16]使用相似度度量公式比較兩個(gè)詞u和v的上下文的包含程度,他認(rèn)為上下文包含程度和相似程度越高,那么u越有可能是v的類型概括詞。類似的方法還有很多,研究者們大多數(shù)都是基于Weeds的上下文相似度度量公式進(jìn)行改進(jìn)的,例如Clarke[17]、Lenci[18]、Basile[19]等人的研究。在2010年,Shi等人[20]比較了基于模式匹配的方法和基于詞語(yǔ)分布相似度的方法,實(shí)驗(yàn)結(jié)果表明基于模式匹配的方法更適用于名詞類短語(yǔ)的類型抽取,而基于詞語(yǔ)分布相似度的方法更適用于動(dòng)詞、形容詞等其他詞性的類型抽取。
近年來(lái),在面向特定領(lǐng)域的實(shí)體識(shí)別研究方面已經(jīng)開(kāi)展了一些研究,如Yoshida等人針對(duì)生物醫(yī)學(xué)領(lǐng)域?qū)嶓w的研究[21],毛存禮等對(duì)有色金屬領(lǐng)域?qū)嶓w的研究[22],郭劍毅等對(duì)旅游領(lǐng)域命名實(shí)體的研究[23],還有針對(duì)商務(wù)領(lǐng)域產(chǎn)品領(lǐng)域?qū)嶓w的研究[24],等等。
專業(yè)領(lǐng)域的知識(shí)實(shí)體類型抽取是實(shí)體類型抽取中的一個(gè)特殊問(wèn)題。目前,針對(duì)這類專業(yè)詞語(yǔ)較多、長(zhǎng)度較短的知識(shí)實(shí)體的類型抽取研究還很少。根據(jù)我們的統(tǒng)計(jì)分析,這類知識(shí)實(shí)體文本具有以下幾個(gè)較為鮮明的特點(diǎn): 字?jǐn)?shù)較少,存在較多專業(yè)名詞的英文簡(jiǎn)寫。
(1) 專業(yè)性強(qiáng),實(shí)體包含的專業(yè)詞匯較多,分詞難度相比互聯(lián)網(wǎng)上的社交文本要難得多,但是由于具有專業(yè)性強(qiáng)的特性,專業(yè)文獻(xiàn)也有相對(duì)固定的語(yǔ)法和寫作規(guī)律。
(2) 類型較多,在人工標(biāo)注的過(guò)程中,我們發(fā)現(xiàn)專業(yè)領(lǐng)域的知識(shí)實(shí)體的類型比較多,不能像ACE[25]那樣明確地定義實(shí)體類型,所以知識(shí)實(shí)體的類型集需要是可擴(kuò)展的。
(3) 文本規(guī)范性強(qiáng),專業(yè)文獻(xiàn)屬于行業(yè)內(nèi)的技術(shù)文獻(xiàn),行文較為規(guī)范和準(zhǔn)確。
相比而言,已有的研究大多針對(duì)互聯(lián)網(wǎng)上常見(jiàn)的新聞文本[26]、微博[27]、Twitter[28]、Facebook等進(jìn)行實(shí)體抽取。這類文本一般是與人物、時(shí)間、地點(diǎn)、活動(dòng)等常見(jiàn)實(shí)體相關(guān),而且大多數(shù)文本用語(yǔ)趨向口語(yǔ)化、網(wǎng)絡(luò)化,文本表述要求并不嚴(yán)格。而專業(yè)文獻(xiàn)由于文本規(guī)范性較強(qiáng),文獻(xiàn)標(biāo)題和摘要都按照某種規(guī)范進(jìn)行書寫,導(dǎo)致即使不同類型的知識(shí)實(shí)體,它們上下文也比較相似,甚至句法上大致是一樣的。所以,這類知識(shí)實(shí)體我們很難通過(guò)基于上下文特征的機(jī)器學(xué)習(xí)方法進(jìn)行類型標(biāo)注或分類。另外,知識(shí)實(shí)體的專業(yè)性也使得我們無(wú)法進(jìn)行大量的人工標(biāo)注, 這樣的標(biāo)注需要一些專家學(xué)者花費(fèi)大量時(shí)間去研究標(biāo)注,因此有監(jiān)督或者半監(jiān)督的機(jī)器學(xué)習(xí)模型也不太適用。針對(duì)這個(gè)問(wèn)題,已有的做法是分析實(shí)體及其上下文特性,識(shí)別出實(shí)體及其類型在上下文語(yǔ)句內(nèi)的呈現(xiàn)關(guān)系,例如: 2011年,Zhang等人[29]基于模式匹配的方法,提出了一種證據(jù)融合和傳播相結(jié)合的方法,利用such as、is-a等簡(jiǎn)單的模式從語(yǔ)句中提取出實(shí)體及其對(duì)應(yīng)的類型詞,再結(jié)合相近相似的其他語(yǔ)句進(jìn)行證據(jù)融合和傳播,最后通過(guò)計(jì)算出實(shí)體和類型之間的相關(guān)性得分抽取出類型,取得了不錯(cuò)的效果。這種基于模式匹配的方法可以推廣到專業(yè)文獻(xiàn)的類型抽取問(wèn)題上,我們可以分析實(shí)體及其上下文的或者實(shí)體內(nèi)部的類型特征,發(fā)現(xiàn)類型出現(xiàn)的頻繁模式并建立啟發(fā)式規(guī)則,從而實(shí)現(xiàn)無(wú)監(jiān)督的部分知識(shí)實(shí)體類型抽取,解決了人工標(biāo)注的麻煩。但是,這種模式匹配的方法只能對(duì)部分實(shí)體進(jìn)行類型抽取,仍然還有一部分實(shí)體無(wú)法使用固定的模式進(jìn)行類型抽取。針對(duì)這個(gè)問(wèn)題,我們參考Lin等人在2012年的研究工作[30],他們以Freebase的1 000多個(gè)類型體系為基礎(chǔ),結(jié)合標(biāo)簽傳播算法將類型信息從維基百科已有的實(shí)體傳播到未標(biāo)注類型實(shí)體中,大大提高了實(shí)體的類型標(biāo)注率。由此看來(lái),標(biāo)簽傳播算法可以彌補(bǔ)模式匹配方法的不足,因此我們考慮結(jié)合模式匹配方法和標(biāo)簽傳播算法的優(yōu)點(diǎn),提出一種融合啟發(fā)式規(guī)則和多標(biāo)簽加權(quán)標(biāo)簽傳播算法的類型抽取方法,對(duì)這類專業(yè)領(lǐng)域的知識(shí)實(shí)體進(jìn)行類型抽取,其流程如圖1所示。
圖1 知識(shí)實(shí)體類型抽取及標(biāo)注流程
本節(jié)首先給出知識(shí)實(shí)體和類型指示詞的定義,然后明確定義類型抽取和標(biāo)注任務(wù)。
定義1(知識(shí)實(shí)體,knowledgeentity)知識(shí)實(shí)體是指在專業(yè)文獻(xiàn)中能表達(dá)一個(gè)關(guān)鍵知識(shí)點(diǎn)的術(shù)語(yǔ)實(shí)體。例如,圖1中的“單狀態(tài)HMM” 和“音頻分類方法”。
定義2(類型指示詞,typeindicationwords)類型指示詞是指出現(xiàn)在一個(gè)實(shí)體內(nèi)部或上下文中且能明確指示出該知識(shí)實(shí)體類型的詞語(yǔ)。在專業(yè)文獻(xiàn)中,知識(shí)實(shí)體的類型往往會(huì)以短詞的方式直接出現(xiàn)在實(shí)體內(nèi)部,例如“音頻分類方法”作為一個(gè)知識(shí)實(shí)體,而出現(xiàn)在內(nèi)部的“方法”正是我們所需抽取的類型,這類出現(xiàn)在實(shí)體內(nèi)部并可以明確判斷類型的詞即類型指示詞。
定義3(知識(shí)實(shí)體類型的抽取,typeextractionofknowledgeentity)知識(shí)實(shí)體類型的抽取是指根據(jù)專業(yè)文獻(xiàn)術(shù)語(yǔ)表達(dá)的規(guī)律,歸納并提取出類型指示詞。例如 “音頻分類方法”中 的“方法” ,“支持向量機(jī)模型”中的“模型”。
定義4(知識(shí)實(shí)體類型的標(biāo)注,typelabellingofknowledgeentity)知識(shí)實(shí)體類型標(biāo)注是指在實(shí)體類型抽取的基礎(chǔ)上,對(duì)具體的術(shù)語(yǔ)實(shí)體進(jìn)行類型的標(biāo)注。如圖1中,將 “單狀態(tài)HMM”標(biāo)注為“模型”;將“音頻分類方法”標(biāo)注為“方法”。
本文的目標(biāo)是解決知識(shí)實(shí)體類型抽取和標(biāo)注的問(wèn)題。如圖1所示,需要首先對(duì)所爬取的文獻(xiàn)數(shù)據(jù)進(jìn)行實(shí)體抽取,得到知識(shí)實(shí)體數(shù)據(jù)集。在此基礎(chǔ)上對(duì)知識(shí)實(shí)體進(jìn)行類型抽取和部分標(biāo)注,獲得比較完整的類型標(biāo)簽集與部分標(biāo)注的實(shí)體集;進(jìn)而將其轉(zhuǎn)化為半監(jiān)督的標(biāo)簽傳播問(wèn)題,設(shè)計(jì)相應(yīng)的算法,最終完成知識(shí)實(shí)體的類型標(biāo)注。
除了需要對(duì)知識(shí)實(shí)體類型及其任務(wù)定義以外,我們還需要探討知識(shí)實(shí)體的邊界問(wèn)題和知識(shí)實(shí)體類型的歧義問(wèn)題。
(1) 知識(shí)實(shí)體的邊界問(wèn)題。相對(duì)于其他命名實(shí)體的邊界劃分問(wèn)題而言,知識(shí)實(shí)體是從相對(duì)較短的論文標(biāo)題中獲取的,而中文論文標(biāo)題的命名一般遵循一定的規(guī)律性,例如出現(xiàn)較多的模板是: “基于XX的XX(研究)”,“一種XX的XX”,“面向XX的XX(研究進(jìn)展)”等。因此,我們只需要利用條件隨機(jī)場(chǎng)模型識(shí)別出這類模板,標(biāo)記出知識(shí)實(shí)體之間的分割字符,就可以較好地解決知識(shí)實(shí)體的邊界識(shí)別問(wèn)題。同時(shí),我們也在特征中加入“基于”“面向”“研究”這類前導(dǎo)詞和后導(dǎo)詞的標(biāo)識(shí),使得模型劃分知識(shí)實(shí)體邊界時(shí)更加精確。因此,抽取到的知識(shí)實(shí)體指的是同一層次的,不包含遞進(jìn)、修飾等關(guān)系的知識(shí)整體。這類知識(shí)整體中可能包含一個(gè)實(shí)體多個(gè)類型的情況,例如“人臉識(shí)別模型和方法”。
(2) 知識(shí)實(shí)體類型歧義問(wèn)題。假設(shè)知識(shí)實(shí)體的邊界已經(jīng)正確劃分,我們的任務(wù)是從劃分好的知識(shí)實(shí)體中識(shí)別出類型指示詞。我們首先對(duì)存在于實(shí)體內(nèi)部的類型詞進(jìn)行抽取,再利用這部分抽取結(jié)果對(duì)剩下未能從實(shí)體內(nèi)部抽取的實(shí)體進(jìn)行進(jìn)一步的類型抽取,故不考慮類型詞在實(shí)體外部的情況。當(dāng)類型詞在實(shí)體內(nèi)部時(shí),知識(shí)實(shí)體的類型可能出現(xiàn)歧義問(wèn)題。例如“人臉識(shí)別模型和方法”“音頻分類模型與方法研究”。上述例子中,與一般的一個(gè)實(shí)體對(duì)應(yīng)一種類型不同,一個(gè)實(shí)體中包含兩個(gè)類型詞。針對(duì)這種知識(shí)實(shí)體類型歧義問(wèn)題,我們需要特別討論,如果出現(xiàn)一個(gè)知識(shí)實(shí)體多個(gè)類型(同時(shí)存在于一個(gè)抽取到的知識(shí)整體)的情況,我們需要分析該多個(gè)類型是否并列關(guān)系,例如“和”“與”“及”等并列關(guān)系詞,如果是并列關(guān)系,則多個(gè)類型均為該實(shí)體的類型詞,該知識(shí)實(shí)體包含多個(gè)類型標(biāo)簽。如果類型詞之間不是并列關(guān)系,例如修飾關(guān)系“一種改進(jìn)條件隨機(jī)場(chǎng)模型的方法”,則在知識(shí)實(shí)體抽取的過(guò)程中,會(huì)把“條件隨機(jī)場(chǎng)模型”抽取出來(lái),作為一個(gè)知識(shí)實(shí)體的最小整體,并判斷為“模型”。
本文通過(guò)真實(shí)數(shù)據(jù)的一些統(tǒng)計(jì)實(shí)驗(yàn)來(lái)論證和說(shuō)明專業(yè)文獻(xiàn)知識(shí)實(shí)體類型詞指示詞的具體特點(diǎn)。我們?cè)O(shè)計(jì)網(wǎng)絡(luò)爬蟲(chóng)共爬取計(jì)算機(jī)類專業(yè)文獻(xiàn)56 462篇,每一篇專業(yè)文獻(xiàn)具體包含標(biāo)題、摘要、作者和關(guān)鍵詞等信息。其中,關(guān)鍵詞信息主要用于初期的用戶字典建立,標(biāo)題信息用于進(jìn)行初期的知識(shí)實(shí)體識(shí)別,摘要信息可以在后續(xù)標(biāo)注過(guò)程中輔助提高識(shí)別準(zhǔn)確率。接下來(lái),我們介紹知識(shí)實(shí)體識(shí)別的具體方法,然后基于抽取到的實(shí)體進(jìn)行類型指示詞特性分析。
在第2節(jié)中,我們對(duì)知識(shí)實(shí)體進(jìn)行定義,并對(duì)每一篇專業(yè)文獻(xiàn)的標(biāo)題進(jìn)行實(shí)體識(shí)別。前面的大量工作[13-14,23]表明條件隨機(jī)場(chǎng)對(duì)實(shí)體標(biāo)注有較好的效果,因此我們考慮使用條件隨機(jī)場(chǎng)模型來(lái)識(shí)別標(biāo)注出標(biāo)題中的知識(shí)實(shí)體。具體方法如下: 首先以關(guān)鍵詞數(shù)據(jù)作為用戶詞典,對(duì)標(biāo)題數(shù)據(jù)進(jìn)行中文分詞和特征抽取(詞性和位置特征)。然后抽取部分樣本進(jìn)行人工標(biāo)注,作為模型的輸入數(shù)據(jù)。特征模板定義并利用條件隨機(jī)場(chǎng)模型進(jìn)行訓(xùn)練得到標(biāo)注結(jié)果。最后,由于條件隨機(jī)場(chǎng)標(biāo)注模型是概率模型,出現(xiàn)頻次較少的特殊樣本容易出現(xiàn)誤標(biāo)和邊界出錯(cuò)問(wèn)題。因此,我們利用半監(jiān)督迭代優(yōu)化的方法,即篩選出準(zhǔn)確率較高的樣本繼續(xù)迭代,重復(fù)訓(xùn)練及標(biāo)注過(guò)程,以提高最終準(zhǔn)確率,降低標(biāo)注錯(cuò)誤發(fā)生的概率,最后共抽取出77 364個(gè)知識(shí)實(shí)體。
我們從77 364個(gè)知識(shí)實(shí)體中隨機(jī)抽取500個(gè)知識(shí)實(shí)體作為樣本數(shù)據(jù)來(lái)進(jìn)行實(shí)體類型的人工標(biāo)注,并進(jìn)行統(tǒng)計(jì)和實(shí)驗(yàn)。可以發(fā)現(xiàn),知識(shí)實(shí)體類型指示詞(以下簡(jiǎn)稱“類型詞”)具有以下獨(dú)有的三個(gè)特點(diǎn)。
(1)類型指示詞大部分包含在實(shí)體內(nèi)部。樣本數(shù)據(jù)的統(tǒng)計(jì)結(jié)果見(jiàn)表1。可以看出,樣本數(shù)據(jù)的類型詞有74.8%是包含在實(shí)體內(nèi)部的,例如“支持向量機(jī)模型”或“模擬退火算法”的類型分別是“模型”和“算法”,這類知識(shí)實(shí)體的類型詞直接出現(xiàn)在實(shí)體內(nèi)部;而剩下25.2%的樣本數(shù)據(jù)的類型指示詞并不出現(xiàn)在實(shí)體內(nèi)部,這是由于部分知識(shí)實(shí)體的表述可以省略類型詞但不影響理解,例如“CRF”和“HMM”,類型詞不出現(xiàn)在知識(shí)實(shí)體內(nèi)部,但是我們通過(guò)其他文本的學(xué)習(xí)可以得知“CRF”和“HMM”的類型都是屬于“模型”。 因此,我們考慮可以首先對(duì)存在于實(shí)體內(nèi)部的類型詞進(jìn)行抽取,再利用這部分抽取結(jié)果對(duì)剩下未能從實(shí)體內(nèi)部抽取的實(shí)體進(jìn)行進(jìn)一步的類型抽取。
表1 樣本數(shù)據(jù)統(tǒng)計(jì)結(jié)果
(2) 類型指示詞詞性大多數(shù)是名詞。本實(shí)驗(yàn)使用ICTCLAS2016中文分詞工具對(duì)樣本數(shù)據(jù)中人工標(biāo)注的類型詞進(jìn)行詞性識(shí)別,實(shí)驗(yàn)結(jié)果如圖2所示,可以看出,有94.6%的類型詞是名詞,而極少部分(5.4%)詞匯屬于其他詞性。在這名詞以外的詞性中,還包含著3.2%的未定義詞性,通過(guò)觀察發(fā)現(xiàn)這部分未定義詞大部分也是一些專有名詞。
圖2 類型詞詞性統(tǒng)計(jì)餅圖
(3)類型指示詞位置往往在實(shí)體的末端。我們對(duì)類型詞包含在實(shí)體內(nèi)部的374個(gè)實(shí)體進(jìn)行實(shí)驗(yàn),結(jié)果如圖3所示。從圖3可見(jiàn),大部分類型詞(318個(gè))都位于實(shí)體的最末端位置。由此可以判斷,如果知識(shí)實(shí)體內(nèi)部存在類型詞,那么知識(shí)實(shí)體的最后一個(gè)詞很有可能是所需抽取的類型詞。
圖3 類型詞位置統(tǒng)計(jì)圖
前面的實(shí)驗(yàn)分析統(tǒng)計(jì)了知識(shí)實(shí)體類型詞的特點(diǎn),從實(shí)驗(yàn)結(jié)果可以看出,知識(shí)實(shí)體類型詞在詞性、位置上有明顯的特征。本文希望通過(guò)這些明顯的特征建立啟發(fā)式規(guī)則,然后基于這些啟發(fā)式規(guī)則進(jìn)行無(wú)監(jiān)督的類型詞自動(dòng)抽取,得到知識(shí)實(shí)體類型的初步抽取。但是,這種基于啟發(fā)式規(guī)則的方法只能抽取到在實(shí)體內(nèi)部出現(xiàn)的類型詞,從3.2節(jié)的實(shí)驗(yàn)我們可以知道,還有很大一部分的類型詞并不在實(shí)體內(nèi)部。因此,我們?cè)趩l(fā)式規(guī)則部分標(biāo)注數(shù)據(jù)的基礎(chǔ)上,提出一種基于多標(biāo)簽加權(quán)的標(biāo)簽傳播算法,簡(jiǎn)稱MLW-LPA(label propagation algorithm based on muti-label weighted),對(duì)未成功抽取類型的知識(shí)實(shí)體進(jìn)行類型標(biāo)簽傳播及標(biāo)注。接下來(lái),我們將在4.2節(jié)和4.3節(jié)分別介紹基于啟發(fā)式規(guī)則類型抽取方法和基于多標(biāo)簽加權(quán)標(biāo)簽傳播的類型標(biāo)注方法。
方法的第一步是利用無(wú)監(jiān)督的基于啟發(fā)式規(guī)則的方法識(shí)別并抽取出知識(shí)實(shí)體中顯式出現(xiàn)的類型詞,得到標(biāo)簽集合和部分已標(biāo)實(shí)體數(shù)據(jù),這也將作為后續(xù)的半監(jiān)督標(biāo)簽傳播方法的輸入數(shù)據(jù)。由于基于啟發(fā)式規(guī)則的方法是無(wú)監(jiān)督的自動(dòng)抽取方法,它不需要傳統(tǒng)半監(jiān)督標(biāo)注方法中的大量人工標(biāo)注,大大優(yōu)化并減少了整體抽取時(shí)間和資源。另外,基于規(guī)則的方法抽取到的類型標(biāo)簽集是作為整個(gè)方法的標(biāo)簽輸入,所以必須具備足夠的可靠性和準(zhǔn)確率才能確保后續(xù)半監(jiān)督標(biāo)簽傳播方法的輸出結(jié)果良好。為了提高基于規(guī)則方法的準(zhǔn)確率,我們?cè)黾恿藢?duì)文獻(xiàn)摘要數(shù)據(jù)的類型抽取。首先,對(duì)文獻(xiàn)的摘要數(shù)據(jù)進(jìn)行知識(shí)實(shí)體模糊匹配識(shí)別,具體方法是先對(duì)抽取到的知識(shí)實(shí)體進(jìn)行類型詞去除,然后把去除掉類型詞的知識(shí)實(shí)體作為用戶詞典,再對(duì)摘要數(shù)據(jù)進(jìn)行中文分詞,再利用編輯距離計(jì)算相似度的匹配方法去匹配摘要中的知識(shí)實(shí)體,并分析該知識(shí)實(shí)體位置后面緊接著的詞,得到的就是該知識(shí)實(shí)體在摘要中對(duì)應(yīng)的類型詞。然后是基于啟發(fā)式規(guī)則的方法對(duì)摘要得到的知識(shí)實(shí)體進(jìn)行類型詞抽取,得到摘要知識(shí)實(shí)體的類型詞標(biāo)簽輸出。結(jié)合摘要的基于啟發(fā)式規(guī)則的類型抽取方法的具體流程如圖4所示。
圖4 基于啟發(fā)式規(guī)則的類型抽取方法流程圖
通過(guò)知識(shí)實(shí)體的類型信息抽取特性分析實(shí)驗(yàn),我們可以得到以下啟發(fā)式規(guī)則:
啟發(fā)式規(guī)則1: 設(shè)知識(shí)實(shí)體ei=(w1,w2,w3,…,wn-1,wn),n≥1,組成詞wi的詞性為ci。如果ci為名詞,則把wi加入類型詞候選集Ti。
啟發(fā)式規(guī)則2: 設(shè)知識(shí)實(shí)體ei=(w1,w2,w3,…,wn-1,wn),n≥1,wn是ei的最后一個(gè)詞,那么把wn加入類型詞候選集Ti;如果wn前存在一個(gè)或多個(gè)wk與wn為并列關(guān)系,那么把wk也加入類型詞候選集Ti。
基于上述啟發(fā)式規(guī)則,對(duì)于同時(shí)滿足規(guī)則1和規(guī)則2的候選詞,則加入類型標(biāo)簽集合,具體方法步驟如表2所示。
表2 基于啟發(fā)式規(guī)則的類型抽取方法
基于規(guī)則的方法是無(wú)監(jiān)督的方法,因此標(biāo)注的結(jié)果不一定準(zhǔn)確,有可能會(huì)出現(xiàn)錯(cuò)誤或不存在的類型標(biāo)注。為了提高基于規(guī)則方法標(biāo)注的準(zhǔn)確度和保證抽取到類型的合理性,我們提出了一種基于頻次的類型標(biāo)簽篩選方法。
首先,我們來(lái)定義不可靠類型標(biāo)簽,它應(yīng)該符合以下幾個(gè)特征:
(1) 該類型在知識(shí)實(shí)體中出現(xiàn)的頻次很少;
(2) 屬于該類型的知識(shí)實(shí)體的數(shù)量很少,一般指一個(gè)類型只對(duì)應(yīng)一個(gè)知識(shí)實(shí)體;
(3) 在該類型的知識(shí)實(shí)體中,知識(shí)實(shí)體也只包含該類型的標(biāo)簽,不包含其他類型的標(biāo)簽。
如果符合以上幾個(gè)特征,那么我們可以認(rèn)為這個(gè)類型標(biāo)簽是不可靠的,應(yīng)該進(jìn)行篩選。為此,我們對(duì)類型詞的頻次進(jìn)行統(tǒng)計(jì),具體的統(tǒng)計(jì)結(jié)果如表3所示。從統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn)出現(xiàn)頻次越多的類型詞數(shù)量越少,大量的類型詞只出現(xiàn)1~2次,而只有少數(shù)的類型詞出現(xiàn)頻次極高,這說(shuō)明了專業(yè)領(lǐng)域里的大部分知識(shí)實(shí)體集中歸類在少數(shù)的幾個(gè)類型里。而出現(xiàn)頻次1~10次的類型詞的數(shù)量高達(dá)2 826個(gè),占了類型總數(shù)的89.40%,我們認(rèn)為這個(gè)分組(類型詞出現(xiàn)頻次1~10)符合特征1的要求。所以,以這個(gè)分組的類型為初始篩選類型集合,篩選出同時(shí)符合特征(2)和特征(3)的類型,也就是類型和知識(shí)實(shí)體是一一對(duì)應(yīng)的類型。最后,我們對(duì)這些不可靠類型和對(duì)應(yīng)的知識(shí)實(shí)體從數(shù)據(jù)集中進(jìn)行清理,以保證類型標(biāo)簽的可靠性和合理性,從而進(jìn)一步提高基于規(guī)則的類型抽取方法的準(zhǔn)確度。
表3 基于類型詞頻次的統(tǒng)計(jì)結(jié)果
本節(jié)主要以4.2節(jié)中的基于規(guī)則的類型抽取方法輸出的多標(biāo)簽數(shù)據(jù)為輸入,提出一種基于多標(biāo)簽加權(quán)的標(biāo)簽傳播算法,根據(jù)知識(shí)實(shí)體間的相似度把4.2節(jié)中的已標(biāo)知識(shí)實(shí)體的類型標(biāo)簽傳遞給未標(biāo)知識(shí)實(shí)體,從而解決4.2節(jié)中基于規(guī)則的方法的召回率偏低的問(wèn)題。
標(biāo)簽傳播算法[31](LPA)由Zhu等人于2002年提出,它是一種基于圖的半監(jiān)督學(xué)習(xí)方法,其基本思路是用已標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息去預(yù)測(cè)未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息。標(biāo)簽傳播算法把標(biāo)簽信息從任意一個(gè)節(jié)點(diǎn)通過(guò)加權(quán)的各邊循環(huán)地傳遞到附近的其他節(jié)點(diǎn),最終達(dá)到全局穩(wěn)定的狀態(tài),從而推導(dǎo)出未標(biāo)簽節(jié)點(diǎn)的標(biāo)注信息的目標(biāo)。節(jié)點(diǎn)之間邊的權(quán)重越大,標(biāo)簽信息越容易在節(jié)點(diǎn)間傳遞。因此,樣本節(jié)點(diǎn)越相似,它們擁有同樣的標(biāo)簽的可能性就越大[32]。
為此,我們首先給出如下定義:
定義1轉(zhuǎn)換概率矩陣T:
在公式(1)中,Tij表示從節(jié)點(diǎn)xj轉(zhuǎn)移到節(jié)點(diǎn)xi的概率,也就是知識(shí)實(shí)體ej轉(zhuǎn)移到知識(shí)實(shí)體ei的概率。這里轉(zhuǎn)移概率Wij可由公式(2)計(jì)算得到:
其中,Sij是知識(shí)實(shí)體ei和ej的相似度度量,本文中使用編輯距離作為度量方法,?參數(shù)用于調(diào)整Sij的比例。這里我們?cè)O(shè)?為Sij的均值。
定義2編輯距離編輯距離又稱Levenshtein距離,也叫做 Edit Distance,是由蘇聯(lián)科學(xué)家 Vladimir Levenshtein于1965年提出的,它是一種常用的距離函數(shù)度量方法,且在文本相似度檢測(cè)領(lǐng)域得到了廣泛的應(yīng)用,編輯距離算法的具體步驟可以參考文獻(xiàn)[33]。
文本相似度計(jì)算: 編輯距離越大,相似度越小。假設(shè)源字符串s與目標(biāo)字符串t長(zhǎng)度的最大值為L(zhǎng)max,編輯距離為L(zhǎng)D,相似度為S,則利用公式(3)可以計(jì)算出S:
定義3類型標(biāo)簽矩陣Y設(shè)第一層抽取中成功抽出類型詞的知識(shí)實(shí)體個(gè)數(shù)為l,未能抽出類型詞的知識(shí)實(shí)體個(gè)數(shù)為u,則定義類型標(biāo)簽矩陣Y是一個(gè)(l+u)×R矩陣,R為已抽取類型標(biāo)簽的去重個(gè)數(shù)。設(shè)知識(shí)實(shí)體ei在第一層類型標(biāo)注后有k個(gè)類型標(biāo)簽,Cik是第i個(gè)實(shí)體的k標(biāo)簽的出現(xiàn)頻次。
其中,Wik是知識(shí)實(shí)體ei擁有類型標(biāo)簽k的權(quán)重,以標(biāo)簽k在ei中出現(xiàn)的頻率來(lái)度量。當(dāng)知識(shí)實(shí)體ei擁有類型標(biāo)簽k時(shí),則Yij=Wik,否則Yij=0,表示無(wú)該標(biāo)簽。
表4 基于多標(biāo)簽加權(quán)標(biāo)簽的傳播算法
多標(biāo)簽加權(quán)傳播的具體過(guò)程如圖5所示,圖左側(cè)的是已標(biāo)簽的l個(gè)實(shí)體及其k個(gè)標(biāo)簽數(shù)據(jù)作為輸入數(shù)據(jù),每一個(gè)標(biāo)簽有自身對(duì)應(yīng)的權(quán)值Wik,而圖右側(cè)的是將進(jìn)行標(biāo)簽傳播的n-l-1個(gè)未標(biāo)實(shí)體,在標(biāo)簽傳播之前,最右側(cè)的輸出標(biāo)簽是不存在的。如圖5所示的例子,已標(biāo)實(shí)體e1和e2同時(shí)滿足對(duì)實(shí)體el+1的標(biāo)簽傳播條件和e2同時(shí)滿足對(duì)實(shí)體el+1的標(biāo)簽傳播條件時(shí),實(shí)體e1把標(biāo)簽1、2、3傳播到實(shí)體el+1,而最右側(cè)新標(biāo)簽1、2、3對(duì)應(yīng)的新權(quán)值為Wik*Tij。 然后,實(shí)體e2把標(biāo)簽2、4、5傳播到實(shí)體el+1,其中標(biāo)簽4和標(biāo)簽5的新權(quán)值也是Wik*Tij,而標(biāo)簽2中已經(jīng)有權(quán)值,所以進(jìn)行權(quán)值的累加,因此標(biāo)簽2中權(quán)值為W12*T1,l+1+W22*T2,l+1。
圖5 多標(biāo)簽加權(quán)的標(biāo)簽傳播過(guò)程
本文使用網(wǎng)絡(luò)爬蟲(chóng)對(duì)中國(guó)知網(wǎng)(http://www.cnki.net/)的計(jì)算機(jī)類論文進(jìn)行爬取,并以爬取到的論文題目、論文關(guān)鍵詞及論文摘要作為實(shí)驗(yàn)數(shù)據(jù),共包含56 462篇計(jì)算機(jī)類核心期刊論文。以論文關(guān)鍵詞作為用戶詞典,我們對(duì)論文標(biāo)題進(jìn)行中文分詞及知識(shí)實(shí)體抽取,共抽出77 364個(gè)知識(shí)實(shí)體。其中,將人工標(biāo)注好類型的500個(gè)知識(shí)實(shí)體中的知識(shí)實(shí)體部分(未標(biāo)注)作為輸入數(shù)據(jù),而其人工標(biāo)注的類型只作為最終的客觀評(píng)價(jià)標(biāo)準(zhǔn),并將以準(zhǔn)確率(Precision)、召回率(Recall)和F1系數(shù)(F1-Measure)作為評(píng)價(jià)指標(biāo)。F1系數(shù)計(jì)算方法見(jiàn)公式(6)。
為了驗(yàn)證本文提出方法的有效性,并與其他傳統(tǒng)方法進(jìn)行比較,本文設(shè)計(jì)了三項(xiàng)任務(wù):
任務(wù)1: 通過(guò)實(shí)驗(yàn)得到知識(shí)實(shí)體類型分布規(guī)律,總結(jié)并定義常見(jiàn)的幾個(gè)知識(shí)實(shí)體類型,用作后續(xù)實(shí)驗(yàn)的已定義類型。
任務(wù)2: 檢驗(yàn)文獻(xiàn)摘要信息對(duì)基于啟發(fā)式規(guī)則的方法的影響。
任務(wù)3: 驗(yàn)證本文提出的HRA+ MLW-LPA類型抽取方法比傳統(tǒng)的CRF方法更適合于專業(yè)領(lǐng)域論文獻(xiàn)中知識(shí)實(shí)體類型的抽取任務(wù)。
5.2.1數(shù)據(jù)基本情況統(tǒng)計(jì)
在第2節(jié)中,我們只給出了知識(shí)實(shí)體類型的概念定義,并沒(méi)有具體定義知識(shí)實(shí)體類型有哪幾種,是因?yàn)樵谌斯?biāo)注過(guò)程中發(fā)現(xiàn)知識(shí)實(shí)體類型比一般文本的實(shí)體類型多,無(wú)法像ACE那樣明確地歸類及定義。另外,我們認(rèn)為不同領(lǐng)域的類型定義也會(huì)各不相同,只能通過(guò)對(duì)該專業(yè)領(lǐng)域的大量知識(shí)實(shí)體進(jìn)行初步抽取的類型詞進(jìn)行統(tǒng)計(jì)后才能確定。因此,我們對(duì)計(jì)算機(jī)領(lǐng)域抽取的共77 364個(gè)知識(shí)實(shí)體進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì)其類型分布規(guī)律,并給出計(jì)算機(jī)領(lǐng)域知識(shí)實(shí)體類型的具體定義。
本實(shí)驗(yàn)通過(guò)無(wú)監(jiān)督的啟發(fā)式規(guī)則方法對(duì)知識(shí)實(shí)體的類型詞進(jìn)行抽取,然后對(duì)不同類型詞出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),結(jié)果如表5所示。其中,null是指本實(shí)驗(yàn)中無(wú)法抽取到類型詞知識(shí)實(shí)體的標(biāo)識(shí),比率1是指包括null類型在內(nèi)的所有知識(shí)實(shí)體(共77 364個(gè))中該類型詞所占的比率;比率2是指除去null類型,只統(tǒng)計(jì)實(shí)驗(yàn)中成功抽取到類型詞的知識(shí)實(shí)體(共77 364-26 442=50 922個(gè))中該類型所占的比率。
結(jié)果表明,通過(guò)無(wú)監(jiān)督的啟發(fā)式規(guī)則方法對(duì)知識(shí)實(shí)體的類型詞進(jìn)行抽取已有較好的效果,共抽取到3 160種類型,知識(shí)實(shí)體類型詞的抽取率達(dá)到65.82%。從表5可以看到,“算法”類別的知識(shí)實(shí)體最多,共抽取到8 480個(gè),占所有抽取到類型的10.96%。排在2~5位的依次是“方法”“模型”“系統(tǒng)”“技術(shù)”,從這些類型詞可以看出,計(jì)算機(jī)領(lǐng)域主要研究的是算法、方法、模型和系統(tǒng)等,符合計(jì)算機(jī)領(lǐng)域算法、模型多等偏工程性的特點(diǎn)。
表5 不同類型詞出現(xiàn)頻次統(tǒng)計(jì)表
另外,通過(guò)表5還可以發(fā)現(xiàn): 在專業(yè)領(lǐng)域的知識(shí)實(shí)體類型中,不同類型詞的數(shù)量存在著極端不均衡的現(xiàn)象。例如,“算法”類型的知識(shí)實(shí)體有8 480個(gè),而頻次最少的“特征”類型只有436個(gè)。為了進(jìn)一步考察類型詞出現(xiàn)頻次的規(guī)律,我們對(duì)類型詞出現(xiàn)的頻次進(jìn)行降序排序,可以發(fā)現(xiàn),類型詞出現(xiàn)頻次與類型詞排名區(qū)間滿足冪律分布,如圖6所示。其中,x軸表示類型詞頻次的降序排名區(qū)間,y軸表示對(duì)應(yīng)x區(qū)間類型詞的出現(xiàn)頻次。從圖中擬合的乘冪曲線是一個(gè)冪律分布曲線,滿足函數(shù)y=kx?,其中k=13 021,?=-1.254,相關(guān)系數(shù)R2=0.992。
圖6 類型詞出現(xiàn)頻次與排名區(qū)間冪律關(guān)系圖
5.2.2實(shí)驗(yàn)對(duì)比
為了檢驗(yàn)任務(wù)2中摘要信息對(duì)知識(shí)實(shí)體類型抽取的影響和任務(wù)3中的HRA+MLW-LPA方法的有效性,我們進(jìn)行了一系列的對(duì)比實(shí)驗(yàn)。MLW-LPA和CRF的輸入數(shù)據(jù)均為HRA方法中輸出的多標(biāo)簽數(shù)據(jù)。其中在CRF方法的實(shí)驗(yàn)中采用CRF++工具,規(guī)范化算法選擇CRF-L2,擬合參數(shù)c=1,最少特征出現(xiàn)次數(shù)f=1,線程數(shù)p=4。
從3.2節(jié)的類型指示詞特性分析可以知道,知識(shí)實(shí)體類型的分布符合冪律分布,即大量的知識(shí)實(shí)體集中歸屬于少部分的類型,而剩下的少量知識(shí)實(shí)體類型分布十分分散,基本上屬于不同的類型。所以,為了對(duì)比不同知識(shí)實(shí)體類型分布下的實(shí)驗(yàn)效果,我們首先將知識(shí)實(shí)體按照類型進(jìn)行分組,并按照每個(gè)類型所包含的知識(shí)實(shí)體數(shù)量進(jìn)行降序排序,然后按照基于均衡知識(shí)實(shí)體樣本數(shù)的規(guī)則(也就是使得每個(gè)分組所包含的知識(shí)實(shí)體數(shù)量盡可能相等)對(duì)類型分組后再進(jìn)行進(jìn)一步的分組,具體分組結(jié)果如表6所示。
表6 基于均衡知識(shí)實(shí)體樣本數(shù)的分組結(jié)果
我們?cè)O(shè)計(jì)了兩個(gè)對(duì)照組來(lái)驗(yàn)證摘要輔助信息是否對(duì)知識(shí)實(shí)體類型抽取有影響,分別是HRA和HRA+Abstract、HRA+MLW-LPA和HRA+Abstract+MLW-LPA,結(jié)果如表7所示,從中可以看出: 結(jié)合了摘要(Abstract)的HRA和MLW-LPA方法比沒(méi)有結(jié)合摘要輔助抽取的方法的效果明顯要好。從表8的結(jié)果可以看出,在各個(gè)分組中,HRA+Abstract方法的F1系數(shù)均比HRA方法高,其中分組1提升最多,F(xiàn)1系數(shù)提高了8.3%,HRA+Abstract+MLW-LPA方法和HRA+MLW-LPA這個(gè)對(duì)照組呈現(xiàn)的結(jié)果也一樣,結(jié)合摘要的方法對(duì)知識(shí)實(shí)體類型抽取有明顯的提升效果。
表7 幾種不同方法的總體效果對(duì)比
幾種方法的總體效果對(duì)比如表7所示,從表中可以看出準(zhǔn)確率最高的是HRA+MLW-LPA方法,其次是HRA+Abstract+MLW-LPA方法,略低0.14%,而召回率和綜合的F1值均是HRA+Abstract+MLW-LPA方法最高,效果最好。另外,從表8和圖7的分組實(shí) 驗(yàn)結(jié)果也可以看出,我 們 提 出的HRA+Abstract+MLW-LPA方法在分組中的效果也是最好的,在各個(gè)分組的測(cè)試結(jié)果中F1系數(shù)均是最高。從實(shí)驗(yàn)結(jié)果中我們可以看出,CRF方法并不十分適合于這類專業(yè)文獻(xiàn)知識(shí)實(shí)體的類型標(biāo)注,可能的原因是這類知識(shí)實(shí)體長(zhǎng)度較短、上下文信息特征不足,導(dǎo)致無(wú)法準(zhǔn)確判斷標(biāo)注。另外,由于知識(shí)實(shí)體類型種類較多,類型特征高達(dá)3000多維,導(dǎo)致CRF模型的訓(xùn)練過(guò)程十分緩慢,性能較差。
表8 幾種不同方法在不同分組下的效果對(duì)比
續(xù)表
圖7 三種方法在不同分組下的效果對(duì)比
此外,我們還發(fā)現(xiàn)在在分組1~4中,在均衡知識(shí)實(shí)體樣本數(shù)的條件下,隨著分組包含的類型數(shù)量的增多,各個(gè)方法的效果逐步提升,但是到了分組5類型抽取效果卻急劇下降。我們認(rèn)為這與知識(shí)實(shí)體類型的冪律分布有關(guān)(見(jiàn)圖6),分組1~4的類型數(shù)量都是緩慢的遞增,而分組5卻指數(shù)性增長(zhǎng),導(dǎo)致類型數(shù)量太多而降低了召回率,出現(xiàn)了相反的效果。
隨著每天都有大量的專業(yè)文獻(xiàn)電子化和網(wǎng)絡(luò)化,人們從網(wǎng)絡(luò)上獲取到大量的文獻(xiàn)知識(shí)不再是難題,而新出現(xiàn)的難題是面對(duì)如此龐大的文獻(xiàn)數(shù)據(jù),現(xiàn)有的知識(shí)服務(wù)已經(jīng)無(wú)法很好地滿足人們對(duì)于文獻(xiàn)知識(shí)快速、準(zhǔn)確獲取的要求。本文將這類專業(yè)文獻(xiàn)中的知識(shí)實(shí)體作為研究對(duì)象,探討該類文獻(xiàn)獨(dú)有的特點(diǎn),并與一般網(wǎng)絡(luò)文本比較。另外,在相關(guān)實(shí)驗(yàn)的基礎(chǔ)上,我們總結(jié)了知識(shí)實(shí)體類型指示詞的一些特性;根據(jù)這些特性,本文提出了一種基于啟發(fā)式規(guī)則與標(biāo)簽傳播算法的類型抽取和標(biāo)注方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法比一般傳統(tǒng)方法在專業(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取上有更好的效果。
本文貢獻(xiàn)主要有以下三點(diǎn):
(1) 提出了知識(shí)實(shí)體的定義及分析這類專業(yè)領(lǐng)域知識(shí)實(shí)體的特點(diǎn);
(2) 定義了知識(shí)實(shí)體的類型指示詞,并通過(guò)統(tǒng)計(jì)實(shí)驗(yàn)總結(jié)出這些類型指示詞所具有的特性;
(3) 提出了一種基于啟發(fā)式規(guī)則與標(biāo)簽傳播算法的類型抽取和標(biāo)注方法。由于是無(wú)監(jiān)督的方法,該方法具有較高的靈活性和通用性。此外,實(shí)驗(yàn)結(jié)果表明該方法比傳統(tǒng)基于特征的CRF方法在專業(yè)領(lǐng)域知識(shí)實(shí)體的類型抽取方面效果要好。
未來(lái)的工作,我們擬在以下幾個(gè)方面展開(kāi):
(1)繼續(xù)深入探討專業(yè)領(lǐng)域文獻(xiàn)在信息抽取方面的方法,進(jìn)一步研究本文提出的方法在其他領(lǐng)域(例如醫(yī)學(xué)、化學(xué)等)的通用性;
(2)嘗試?yán)贸槿〉降闹R(shí)實(shí)體類型建立結(jié)構(gòu)化的知識(shí)模型,并以此分析知識(shí)實(shí)體之間的關(guān)系。
[1]數(shù)字圖書館迎大數(shù)據(jù)時(shí)代: 將整合資源提供深度服務(wù)[OJ].http://culture.people.com.cn/n/2014/1105/c172318-25981395.html
[2]陳宇,鄭德權(quán),趙鐵軍.基于Deep Belief Nets的中文名實(shí)體關(guān)系抽取[J].軟件學(xué)報(bào),2012,23(10):2572-2585.
[3]劉丹丹,彭成,錢龍華,等.《同義詞詞林》在中文實(shí)體關(guān)系抽取中的作用[J].中文信息學(xué)報(bào),2014,28(2):91-99.
[4]Suchanek F M, Kasneci G, Weikum G. Yago: A large ontology from wikipedia and wordnet[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2008, 6(3):203-217.
[5]Ni Y, Zhang L, Qiu Z, et al.Enhancing the open-domain classification of named entity using linked open data[M]. The Semantic Web-ISWC 2010. Springer, 2010:566-581.
[6]Dojchinovski M, Kliegr T. Entityclassifier. eu: real-time classification of enti-ties in text with Wikipedia[M]. Machine Learning and Knowledge Discovery in Databases. Springer, 2013:654-658.
[7]Hearst M A. Automatic acquisition of hyponyms from large text corpora[C]//Proceedings of the 14th conference on Computational linguistics-Volume 2. 1992:539-545.
[8]Evans R. A framework for named entity recognition in the open domain[C]//Recent Advances in Natural Language Processing Ⅲ: Selected Papers from RANLP 2003, 2004, 260:267-274.
[9]Etzioni O, Cafarella M, Downey D, et al. Unsupervised named-entity extraction from the web: An experimental study[J]. Artificial Intelligence, 2005, 165(1):91-134.
[10]Carlson A, Betteridge J, Wang R C, et al. Coupled semi-supervised learning for information extraction[C]//Proceedings of the Third ACM International Conference on Web Search and Data Mining. 2010:101-110.
[11]祝偉華, 盧熠, 劉斌斌. 基于HMM的Web信息抽取算法的研究與應(yīng)用[J].計(jì)算機(jī)科學(xué),2010,37(2):203-206.
[12]張銘,銀平,鄧志鴻,等.SVM+BiHMM:基于統(tǒng)計(jì)方法的元數(shù)據(jù)抽取混合模型[J].軟件學(xué)報(bào),2008,19(2):358-368
[13]董永權(quán), 李慶忠, 丁艷輝,等. 基于約束條件隨機(jī)場(chǎng)的Web數(shù)據(jù)語(yǔ)義標(biāo)注[J].計(jì)算機(jī)研究與發(fā)展,2012,49 (2):361-371.
[14]宋毅君, 王瑞波, 李濟(jì)洪, 等. 基于條件隨機(jī)場(chǎng)的漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注[J]. 中文信息學(xué)報(bào), 2014,28(3):36-47.
[15]張傳巖, 洪曉光, 彭朝暉, 等. 基于SVM和擴(kuò)展條件隨機(jī)場(chǎng)的Web實(shí)體活動(dòng)抽取[J].軟件學(xué)報(bào), 2012,23(10):2612-2627.
[16]Weeds J, Weir D. A general framework for distributional similarity[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, 2003:81-88.
[17]Clarke D. Context-theoretic semantics for natural language: an overview[C]//Proceedings of the Workshop on Geometrical Models of Natural Language Semantics, 2009:112-119.
[18]Lenci A, Benotto G. Identifying hypernyms in distributional semantic spaces[C]//Proceedings of the Sixth International Workshop on Semantic Evalua-tion, 2012:75-79.
[19]Basile P, Caputo A, Semeraro G. Supervised learning and distributional semantic models for super-sense tagging[M]. AI* IA 2013: Advances in Artificial Intelligence. Springer, 2013:97-108.
[20]Shi S, Zhang H, Yuan X, et al. Corpus-based semantic class mining: distributional vs. pattern-based approaches[C]//Proceedings of the 23rd International Conference on Computational Linguistics, 2010:993-1001.
[21]Yoshida K, Tsujii J. Reranking for biomedical named-entity recognition[C]//Proceedings of the Workshop on BioNLP 2007: Biological, Translational, and Clinical Language Processing. Association for Computational Linguistics, 2007: 209-216.
[22]毛存禮, 余正濤, 沈韜, 等. 基于深度神經(jīng)網(wǎng)絡(luò)的有色金屬領(lǐng)域?qū)嶓w識(shí)別[J].計(jì)算機(jī)研究與發(fā)展, 2015, 52(11): 2451-2459.
[23]郭劍毅, 薛征山, 余正濤, 等. 基于層疊條件隨機(jī)場(chǎng)的旅游領(lǐng)域命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2009, 23(5): 47-52.
[24]劉非凡, 趙軍, 呂碧波, 等. 面向商務(wù)信息抽取的產(chǎn)品命名實(shí)體識(shí)別研究[J].中文信息學(xué)報(bào), 2006, 20(1): 7-13.
[25]National Institute of Standards and Technology,2005.ACE(Automatic Content Extraction) Chinese Annotation Guidelines for Events.
[26]吳共慶, 胡駿, 李莉,等. 基于標(biāo)簽路徑特征融合的在線 Web 新聞內(nèi)容抽取[J].軟件學(xué)報(bào), 2016,27(3):714-735.
[27]鄭影, 李大輝. 面向微博內(nèi)容的信息抽取模型研究[J].計(jì)算機(jī)科學(xué), 2014, 41(2):270-275.
[28]Liu X, Li K, Zhou M, et al.Collective semantic role labeling for twitter with clustering[C]//IJCAI. 2011, 11: 1832-1837.
[29]Zhang F, Shi S, Liu J, et al. Nonlinear evidence fusion and propagation for hyponymy relation mining[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies,2011:1159-1168.
[30]Lin T, Mausam, Etzioni O. No noun phrase left behind: detecting and typing unlinkable entities[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012: 893-903.
[31]Zhu X, Ghahramani Z. Learning from labeled and unlabeled data with label propagation[R]//Technical Report CMU-CALD-02-107, Carnegie Mellon University, 2002.
[32]Chen J, Ji D, Tan C L, et al. Relation extraction using label propagation based semi-supervised learning[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006: 129-136.
[33]Levenshtein V I. Binary codes capable of correcting deletions, insertions and reversals[J]. Soviet Physics Doklady, 1966, 10(1):707-710.