哈寅晨 孟凡坤
(北京工業(yè)大學(xué)多媒體與智能軟件北京重點(diǎn)實(shí)驗(yàn)室 北京 100124)
命名實(shí)體識別對于很多自然語言處理領(lǐng)域的任務(wù),如信息抽取,信息檢索和自動(dòng)文摘等而言,,是一項(xiàng)非常重要且基礎(chǔ)的技術(shù)[1]。命名實(shí)體的識別主要分為三個(gè)子任務(wù):名字的識別(ENAMEX),包括人名,地名,機(jī)構(gòu)名;時(shí)間的識別(TIMEX),包括對時(shí)間短語如日期、時(shí)間等的識別;數(shù)字的識別(NUMEX),包括對金錢數(shù)量和百分比數(shù)量的識別等。和第一個(gè)任務(wù)相比,后面兩個(gè)子任務(wù)幾乎完全可以靠幾種模式匹配完成,要簡單得多。因此,名字的識別(ENAMEX)是命名實(shí)體識別研究的重點(diǎn)。
文獻(xiàn)[2]以人工總結(jié)的公司名構(gòu)成規(guī)則和六個(gè)知識庫為基礎(chǔ),通過兩次掃描實(shí)現(xiàn)對文本中公司名的識別。這種方法雖然可以達(dá)到一定的準(zhǔn)確率,但是覆蓋的范圍有限,僅僅依靠規(guī)則的方法很難正確覆蓋自然語言中出現(xiàn)的所有語言現(xiàn)象[3]。
本文在文獻(xiàn)[2]的基礎(chǔ)上,提出了一種基于條件隨機(jī)場(Conditional Random Fields,CRF)統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的公司名識別方法,在公司名的識別方面進(jìn)行了有效的探索。
公司名屬于“定語+名詞性中心詞”型的名詞短語,簡稱定名型短語,從宏觀上看,是一種偏正復(fù)合名詞,其結(jié)構(gòu)為X+Y,其中“X”和“Y”表示詞,X+表示X元素可以出現(xiàn)一次或多次。公司名的中心語重要集中在“公司”、“集團(tuán)”等有限的一些名詞上。這對我們識別公司名的右邊界起到了非常大的作用。另外,有不少公司名是以地名或人名開頭,這對我們識別公司名的左邊界是有一定作用的。在研究了大量的真實(shí)文本之后,我們發(fā)現(xiàn)在公司名中,有些詞和有些詞性是明顯不會作為公司名的組成部分的。
表1 公司名簡稱分類
簡稱類型 全稱 簡稱公司名關(guān)鍵字+公司名后綴 美國蘋果股份有限公司 蘋果公司地名+公司名關(guān)鍵字+公司名后綴 印度塔塔信息技術(shù)有限公司 印度塔塔公司
公司名的出現(xiàn)情況有兩種:全稱和簡稱。公司名的全簡稱的對應(yīng)關(guān)系如表1所示。由此可以看出,公司名關(guān)鍵字的識別,對于公司名簡稱的識別具有非常重要的意義。
條件隨機(jī)場(CRF)模型最早是由Lafferty和M cCallum在2001年提出,是一種用于在給定輸入結(jié)點(diǎn)值時(shí)計(jì)算指定輸出結(jié)點(diǎn)值的條件概率的無向圖模型[4]。假定O是一個(gè)值可以被觀察的“輸入”隨機(jī)變量集合,S是一個(gè)值能夠被模型預(yù)測的“輸出”隨機(jī)變量的集合,且這些輸出隨機(jī)變量之間通過表示依賴關(guān)系的無向邊連接起來。如果用C(S,O)表示這個(gè)圖中的團(tuán)的集合,CRF將輸出隨機(jī)變量值的條件概率定義為與無向圖中各個(gè)團(tuán)的勢函數(shù)(potential function)的乘積成正比:
其中,表示團(tuán)c的勢函數(shù)。當(dāng)圖形模型中的各輸出被連接成一條線性鏈的特殊情形時(shí),CRF假設(shè)在各個(gè)輸出結(jié)點(diǎn)之間存在一階馬爾科夫獨(dú)立性,二階或更高階的模型可以按照類似的方法擴(kuò)展。若讓表示被觀察的輸入數(shù)據(jù)序列,讓表示一個(gè)狀態(tài)序列,在給定一個(gè)輸入序列的情況下,線性鏈的CRF定義狀態(tài)序列的條件概率為:
其中,f是一個(gè)任意的特征函數(shù),是每一個(gè)特征函數(shù)的權(quán)值,歸一化因子為:
條件隨機(jī)場模型不同于產(chǎn)生式模型,它可以使用豐富的、彼此重疊的觀察序列的特征,而且不需要很嚴(yán)格的前提假設(shè);同時(shí),不同于最大熵馬爾科夫模型等概率模型,它不是對單個(gè)標(biāo)記歸一化之后再進(jìn)行全局搜索,而是在整個(gè)觀測序列上求解一個(gè)最優(yōu)的標(biāo)記序列,避免了標(biāo)記偏見問題。因此,條件隨機(jī)場模型本身非常適合用于中文命名實(shí)體識別等這樣的任務(wù)。
針對中文公司名的識別,我們將句子的分詞結(jié)果和詞性信息二者作為識別公司名的重要的特征信息,用于條件隨機(jī)場模型[5]。
由于公司名全稱具有相對明顯的左右邊界詞特征[6],所以區(qū)別于由Ramshaw和Marcus提出的BIO標(biāo)注方式,即B(begin,開始)、I(internal,內(nèi)部)和O(other,其他)。本文針對公司名全稱的結(jié)構(gòu)特點(diǎn),以及應(yīng)對從全稱中提取公司名關(guān)鍵字的需要,提出了一種BKTEO的標(biāo)注方式,即B(begin,開始)、K(keywords,公司名關(guān)鍵字)、T(type,公司類型)、E(end,公司名后綴)和O(other,其他),構(gòu)成標(biāo)注集合。標(biāo)注示例如下表所示:
由 p O上海 ns CN-B玖 m CN-K峰 q CN-K數(shù)碼 n CN-T科技 n CN-T有限公司 n CN-E提供 v O
針對于公司名簡稱,采用BCEO的標(biāo)注方式,即B(begin,開始)、C(continue,延續(xù))、E(end,結(jié)束)和O(other,其他),構(gòu)成標(biāo)注集合。標(biāo)注示例如下表所示:
和 cc O玖峰 nz CN-B科技 n CN-C有限公司 n CN-E總裁 n O
條件隨機(jī)場模型可以利用豐富的、彼此重疊的特征,所以在應(yīng)用中一個(gè)非常重要的問題就是如何針對特定的任務(wù)為模型選擇合適的特征集合,用這樣的特征集合表示復(fù)雜的語言現(xiàn)象[7]。相對于隱馬爾科夫模型只能利用中心詞的前n個(gè)詞作為上下文信息的弱點(diǎn),條件隨機(jī)場模型能夠同時(shí)使用中心詞的前n個(gè)詞和后m個(gè)詞作為該詞的上下文信息,這樣,中心詞的最終標(biāo)記不僅與前面詞語的信息相關(guān),還與其后的詞語相關(guān),更加接近實(shí)際情況。
針對中文公司名的識別,我們設(shè)置了大小為5的上下文觀察窗口,利用平行輸入的詞形 W(word)和詞性 P(Part of Speech)信息,對于待標(biāo)注的詞,其標(biāo)注結(jié)果依賴如下特征:
這三個(gè)式子分別表示,待標(biāo)注詞的標(biāo)注結(jié)果依賴于其所在位置前后兩個(gè)詞的詞形和自身的詞形,依賴于其所在位置前后兩個(gè)詞的詞性和自身的詞性,以及其前一個(gè)詞的標(biāo)注結(jié)果。
公司名識別策略的整體結(jié)構(gòu)圖如下圖1所示:
圖1 公司名識別策略的整體結(jié)構(gòu)圖
原始新聞本文首先進(jìn)入分詞和詞性標(biāo)注系統(tǒng),該系統(tǒng)已經(jīng)經(jīng)過了初步的改造,加入了信息產(chǎn)業(yè)領(lǐng)域常用概念和術(shù)語,以改善分詞和詞性標(biāo)注的效果。另外,加入了部分公司名關(guān)鍵字,用于識別公司名簡稱。
第一次掃描主要進(jìn)行公司名全稱的識別和公司名關(guān)鍵字的提取。在第一次掃描時(shí),原始文本經(jīng)過分詞和詞性標(biāo)注之后,進(jìn)入到“公司名全稱識別模塊”,被識別出的公司名全稱中表示為的部分被提取出來,作為公司名關(guān)鍵字加入到公司名關(guān)鍵字詞典中,并以“專有名詞”(nz)作為其在字典中的詞性標(biāo)注,以此改善第二次掃描時(shí)的分詞和詞性標(biāo)注結(jié)果。
第二次掃描則主要是利用第一次掃描中獲得的公司名關(guān)鍵字信息和改善后的分詞和詞性標(biāo)注結(jié)果,識別包含有公司名關(guān)鍵字的公司名簡稱。
本文使用的語料庫來自互聯(lián)網(wǎng)的信息產(chǎn)業(yè)新聞網(wǎng)站,共收集了13283篇。從中隨機(jī)選出了100篇新聞文本,對公司名全稱采用BKTEO的標(biāo)注方式進(jìn)行人工標(biāo)注,作為訓(xùn)練集,用于訓(xùn)練識別公司名全稱的條件隨機(jī)場模型。另外,同樣的對這100篇新聞文本,對所有的公司名實(shí)體(包括全稱和簡稱),采用BCEO的標(biāo)注方式進(jìn)行人工標(biāo)注,作為訓(xùn)練集,用于訓(xùn)練識別公司名全簡稱的條件隨機(jī)場模型。
對這100篇新聞文本進(jìn)行封閉測試,公司名全簡稱識別實(shí)驗(yàn)結(jié)果如下:
?文本數(shù)目 100測試點(diǎn)個(gè)數(shù) 1099識別出公司個(gè)數(shù) 903正確數(shù) 870錯(cuò)誤數(shù) 33準(zhǔn)確率 96.3%召回率 82.2% F1 88.7%
我們對結(jié)果中錯(cuò)的識別進(jìn)行了分析,總結(jié)如下:
(1)對于公司名類型的識別,非常依賴訓(xùn)練集的標(biāo)注數(shù)量,導(dǎo)致有些公司名不能識別。
(2)公司名關(guān)鍵字的提取的錯(cuò)誤會傳遞到第二遍掃描,即造成公司名全簡稱識別錯(cuò)誤。
(3)有些公司名的簡稱,特別是國企簡稱,其全稱本身通常不帶有關(guān)鍵字,如“中國電子科技集團(tuán)公司”簡稱為“中電集團(tuán)”,其中就不包含任何公司名關(guān)鍵字,給識別工作帶來了困難。
本文介紹了一種基于條件隨機(jī)場的公司名的識別方法。首次提出了利用 CRF統(tǒng)計(jì)模型自動(dòng)標(biāo)注的方法提取公司名關(guān)鍵字。經(jīng)過初步試驗(yàn),結(jié)果表明我們的識別方法是可行有效的。下一步的工作是對本文所提出的方法進(jìn)行改善,這包括擴(kuò)充訓(xùn)練集的數(shù)量,對全稱識別結(jié)果進(jìn)行后處理,進(jìn)一步過濾掉錯(cuò)誤的識別,以提高第二遍掃描的準(zhǔn)確率。
[1]孫鎮(zhèn),王惠臨.命名實(shí)體識別研究進(jìn)展綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,06:42-47.
[2]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識別[J].中文信息學(xué)報(bào),2002,16(2):1.
[3]廖先桃.中文命名實(shí)體識別方法研究[D].哈爾濱工業(yè)大學(xué),2006.
[4]Lafferty,John D.;M cCallum,Andrew;Pereira,F(xiàn)ernando C.N.:Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data.In:Proceedings of the Eighteenth International Conference on Machine Learning(ICML 2001),M organ Kaufmann Publishers,2001,pp.282-289.
[5]張祝玉,任飛亮,朱靖波.基于條件隨機(jī)場的中文命名實(shí)體識別特征比較研究[C].第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集.北京:出版者不詳,2008:111-117.
[6]邱莎,王付艷,申浩如,段玻,阿圓,丁海燕.基于含邊界詞性特征的中文命名實(shí)體識別[J].計(jì)算機(jī)工程,2012,13:128-130.
[7]黃利科,劉群.基于條件隨機(jī)場的中文產(chǎn)品名自動(dòng)識別方法[J].計(jì)算機(jī)應(yīng)用研究,2008,25(10):1829-1831.