李娟 虞金中
摘要:近年來,由于網(wǎng)絡(luò)新聞數(shù)據(jù)的快速增長,新聞文本中出現(xiàn)了很多新意的詞語,如何能夠準確識別實體,并提出了基于新詞的新聞命名實體識別方法。該方法首先利用網(wǎng)絡(luò)資源來獲得含有新詞的詞典,并與條件隨機場相結(jié)合構(gòu)建實體識別模型,然后提取新聞實體。實驗結(jié)果表明,該方法在提取新聞實體方面取得較好的效果。
關(guān)鍵詞:中文命名實體識別;詞性標注;特征模板;條件隨機場
分類號:TP391.1 文獻標識碼:A 文章編號:1009-3044(2018)22-0153-02
Abstract: In recent years, due to the rapid growth of online news data, there have been many new words in news texts, how to accurately identify entities, and news named entity recognition method based on new words has been proposed. The method first uses the network resources to obtain a dictionary containing new words, and constructs entity recognition model combined with conditional random fields, and then extracts news entities. The experimental results show that this method achieves better results in extracting news entities.
Key words: Chinese Name Entity Recognition; POS tagging; Feature Template; CRF
1引言
近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上的新聞信息呈指數(shù)級增加,網(wǎng)絡(luò)新聞信息不僅面臨著凌亂無序、過多冗余的困境,而且文本中出現(xiàn)很多流行詞語以及新意的詞語,這些詞語不具有語法規(guī)范,描述隨意,對識別新聞信息實體方面存在一些挑戰(zhàn)。從大量且繁雜的數(shù)據(jù)中挖掘出新聞重要的實體信息,有利于相關(guān)部門對新聞事件的監(jiān)測及分析。
命名實體識別是文本信息處理的重要基礎(chǔ),同時命名實體識別作為信息抽取的子任務(wù),深受信息科研者的重視。孫茂松等[1] 在國內(nèi)比較早開始進行國語姓名識別,他們主要采取統(tǒng)計的方式計算姓氏和姓名用字概率。張小衡等[2]對中文組織名稱進行識別與分析,主要采取人工制定的規(guī)則對高等校名進行了實驗分析。張華平[3]等提出了一個隨機模型解決中文命名實體識別的方法,把識別實體轉(zhuǎn)換為角色標注的問題,取得了良好的結(jié)果,使用1998年人民日報數(shù)據(jù)作為測試語料,人名識別的F值、召回率和準確率、召回率分別為95.40%95.23%,95.57%。CRF是概率無向圖模型,適用于分區(qū)序列和序列標注等問題。McCallum等[4]將CRF模型應(yīng)用于文本實體識別中,并在CONLL 2003測評中取得F值、準確率、召回率分別為88.96%、89.84%、88.10%的效果。
通過對新聞文本數(shù)據(jù)分析與研究,本文提出了一種基于新詞的新聞命名實體識別方法,識別新聞中的時間、地點、人物和機構(gòu)組織實體。首先訓(xùn)練CRF模型,進行候選新詞的提取,包含新詞的詞典與識別實體模型相結(jié)合識別出新聞中的實體。
2新詞發(fā)現(xiàn)、實體識別
2.1新詞發(fā)現(xiàn)
新詞的識別,對于候選新詞的獲取,目前主要有兩類方法[5],一是在大規(guī)模訓(xùn)練語料基礎(chǔ)上,使用統(tǒng)計方法確定新的單詞邊界,從而獲得候選的新單詞;二是在缺乏大規(guī)模訓(xùn)練語料,對實驗數(shù)據(jù)文本中的字串進行頻率統(tǒng)計,詞頻高于閾值的詞語作為候選新詞。
關(guān)于新詞的識別,本文基于Qiu[6]等提出一種中文未知單詞自動POS(詞性)猜測的方法建模。首先,準備訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)是通過使用現(xiàn)有工具(如ICTCLAS)在字典中對每個單詞的POS進行分段和標記而形成的,然后構(gòu)建學(xué)習(xí)中文單詞的結(jié)構(gòu)規(guī)則的CRFs模型。利用訓(xùn)練好的 CRF 進行詞性猜測, 然后給出每條規(guī)則的可信度分數(shù), 對于那些可信度分數(shù)低的標注結(jié)果, 根據(jù)這些單詞的全局上下文信息校正。
2.2構(gòu)建識別實體模型
近年來 CRF[7-9]模型在新聞事件命名實體任務(wù)中得到了廣泛的應(yīng)用,取得了良好的效果。因此,本文聯(lián)合新詞規(guī)則與命名實體識別抽取新聞實體,首先在獲取新詞的基礎(chǔ)上,把新詞放入自定義的詞典,然后與條件隨機場模型(CRF)相結(jié)合實現(xiàn)了新聞實體的識別。
2.2.1條件隨機場
條件隨機場[10](Conditional Random Field,CRF)是一種概率無向圖模型,不僅可以解決MEMM標記偏置的問題,而且在給定一個觀察序列x的條件下能夠獲取標記序列y的條件概率P(Y|X),并且屬于判別模型。
對于任意的v都可以,條件概率P(Y|X)被稱為條件隨機場,其中w ~ v表示結(jié)點v的所有相鄰結(jié)點w,w≠v表示除結(jié)點v外的所有結(jié)點w,YV和YW表示對應(yīng)結(jié)點v和w的隨機變量。換句話說,對于結(jié)點v,給定其所有鄰居w,它獨立于所有其他節(jié)點。
很多科研者一般使用自然語言分析處理文本,但是大部分文本處理任務(wù)都是關(guān)于序列問題,這些問題的結(jié)構(gòu)可以用一個鏈狀結(jié)構(gòu)來表示,相應(yīng)的模型是線性鏈條件隨機場,其圖模型如下圖1所示:
2.2.2基于條件隨機場的提取實體方法
首先基于命名實體規(guī)則挖掘的相關(guān)概念、過程和方法,使用了工具CRF++(CRF++是一個CRFs模型的實現(xiàn))抽取新聞文本中的實體。
特征模板包括token,詞性,邊界,前綴和后綴以及前后指導(dǎo)等功能。 考慮到一些有名的實體詞可以在不同的語境中引用不同的實體,例如“山峰”不僅可以代表一個旅游景點,而且也可以是一個普通詞。 如果您想更好地觀察令牌和上下文之間的關(guān)系,則需要分析文本中較長的依賴關(guān)系。 然而,窗口的增加將增加模型的訓(xùn)練時間,這可能導(dǎo)致過度擬合。
使用訓(xùn)練數(shù)據(jù)和特征模板訓(xùn)練詞性標注模型,對測試數(shù)據(jù)進行測試;通過分析測試結(jié)果的F值,不斷調(diào)整生成模型參數(shù),最終生成一個整體性能良好的模型。
3 實驗結(jié)果及分析
3.1 實驗語料
構(gòu)建命名實體識別模型的訓(xùn)練語料是1998年的人民日報語料庫,測試數(shù)據(jù)是網(wǎng)絡(luò)爬蟲抓取的新聞數(shù)據(jù)。網(wǎng)絡(luò)爬蟲抓取的數(shù)據(jù)來源包括:微博、頭條、搜狐新聞,該數(shù)據(jù)有20170篇。
3.2 實驗結(jié)果分析
以網(wǎng)絡(luò)爬蟲抓取的新聞?wù)Z料作為實驗測試數(shù)據(jù),多次隨機選取200條實驗結(jié)果進行分析與統(tǒng)計,實驗結(jié)果如表 1所示。
第一組是基于統(tǒng)計方法生成的CRF 模型,結(jié)合jieba在訓(xùn)練集上訓(xùn)練,測試集測試。第二組是在第一組的 CRF 模型上加入新詞詞典特征,在訓(xùn)練集上訓(xùn)練,測試集測試。
實驗結(jié)果表明,基于新詞的CRF模型在識別新聞實體取得較好的效果。識別效率提高的原因是,一些沒有明顯特征的新詞也可以由CRF與自定義詞典結(jié)合準確識別。 單個CRF模型根據(jù)特征區(qū)分實體和非實體,因此很難捕獲那些具有不重要特征的實體。 與沒有納入網(wǎng)絡(luò)新詞詞典的CRF模型相比,新聞詞典提供了更多的語義信息,增強了CRF模型的識別效果。
4 結(jié)論
在本文中,我們使用jieba結(jié)合網(wǎng)絡(luò)新詞來對新聞文檔進行分詞,然后推斷出這些詞的語境特征,使用CRF進行訓(xùn)練,最終識別實體,并取得更好的效果。如何提高模型的性能并保證提取新聞實體的效果,這是未來的工作之一,另外,通過添加現(xiàn)代新聞的數(shù)據(jù)來擴充訓(xùn)練語料庫,在新聞領(lǐng)域內(nèi)也是一個好的方法。
參考文獻:
[1] 孫茂松,黃昌寧,高海燕,等.中文姓名的自動辨識[J] .中文信息學(xué)報, 1995, 9(2):16 -27.
[2] 張小衡,王玲玲.中文機構(gòu)名稱的識別與分析 [J] .中文信息學(xué)報, 1997, 11(4):21 -32.
[3] Zhang H P,Liu Q,Yu H K,et a1.Chinese named entity recognition using role model[J].Cornputational Linguistics and Chinese Language Processing,2003,8(2):29-60.
[4] McCallum A,Li W.Early results for named entity recognition with conditional random fields,feature induction and web.enhanced lexicons[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4.Association for Computational Linguistics,2003:188-191.
[5] 張海軍,史樹敏,朱朝勇,黃河燕.中文新詞識別技術(shù)綜述[J].計算機科學(xué),2010,37(03):6-10+16.
[6] Qiu L, Hu C,Zhao K . A method for automatic POS guessing of Chinese unknown words[C].Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008).Manchester,2008: 705-712
[7] 龍光宇,徐云.CRF與詞典相結(jié)合的疾病命名實體識別[J].微型機與應(yīng)用,2017,36(21):51-53.
[8] 邱泉清,苗奪謙,張志飛.中文微博命名實體識別[J].計算機科學(xué),2013,40(06):196-198.
[9] 孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現(xiàn)代圖書情報技術(shù),2010(06):42-47.
[10] 謝志寧.中文命名實體識別算法研究[D].浙江大學(xué),2017.
【通聯(lián)編輯:光文玲】