杜麗萍 李曉戈 于根 劉春麗 劉睿
?
基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)
杜麗萍 李曉戈?于根 劉春麗 劉睿
西安郵電大學(xué), 西安710121; ?通信作者, E-mail: lixg@xupt.edu.cn
提出一種非監(jiān)督的新詞識(shí)別方法。該方法利用互信息(PMI)的改進(jìn)算法——PMI算法與少量基本規(guī)則相結(jié)合, 從大規(guī)模語(yǔ)料中自動(dòng)識(shí)別2~元網(wǎng)絡(luò)新詞(為發(fā)現(xiàn)的新詞最大長(zhǎng)度, 可以根據(jù)需要指定)。基于257 MB的百度貼吧語(yǔ)料實(shí)驗(yàn), 當(dāng)PMI方法的參數(shù)為10時(shí), 結(jié)果精度達(dá)到97.39%, 比PMI方法提高28.79%, 實(shí)驗(yàn)結(jié)果表明, 該新詞發(fā)現(xiàn)方法能夠有效地從大規(guī)模網(wǎng)絡(luò)語(yǔ)料中發(fā)現(xiàn)新詞。將新詞發(fā)現(xiàn)結(jié)果編纂成用戶詞典, 加載到漢語(yǔ)詞法分析系統(tǒng)ICTCLAS中, 基于10KB的百度貼吧語(yǔ)料實(shí)驗(yàn), 比加載用戶詞典前的分詞結(jié)果準(zhǔn)確率、召回率和值分別提高7.93%, 3.73%和5.91%。實(shí)驗(yàn)表明, 通過進(jìn)行新詞發(fā)現(xiàn)能有效改善分詞系統(tǒng)對(duì)網(wǎng)絡(luò)文本的處理效果。
新詞識(shí)別; 未登錄詞; 互信息; PMI改進(jìn)算法; 中文分詞
隨著信息時(shí)代的發(fā)展與科學(xué)技術(shù)的進(jìn)步, 大量網(wǎng)絡(luò)新詞不斷涌現(xiàn), 使得分詞結(jié)果中存在大量的“散串”, 嚴(yán)重影響分詞系統(tǒng)處理網(wǎng)絡(luò)文本的效果, 新詞識(shí)別已經(jīng)成為提高分詞效果的瓶頸[1]。
對(duì)于網(wǎng)絡(luò)上出現(xiàn)的新詞匯, 例如近日在網(wǎng)上熱傳的“APEC藍(lán)”、“Duang”、“一帶一路”、“單腎貴族”和“花樣作死”等詞語(yǔ), 一般的識(shí)別方法是基于大規(guī)模語(yǔ)料庫(kù), 由機(jī)器根據(jù)某個(gè)統(tǒng)計(jì)量自動(dòng)抽取出候選新詞, 再由人工篩選出正確的新詞[2]。Pecina等[3]采用55種不同的統(tǒng)計(jì)量進(jìn)行2元詞匯識(shí)別實(shí)驗(yàn), 結(jié)果表明, PMI算法是最好的衡量詞匯相關(guān)度的算法之一。通常情況下, PMI方法能夠很好地反映字串之間的結(jié)合強(qiáng)度, 但缺點(diǎn)是過高地估計(jì)低頻且總是相鄰出現(xiàn)的字串間的結(jié)合強(qiáng)度[3–4]。例如, “啰”和“嗦”、“蝙”和“蝠”等在語(yǔ)料庫(kù)中低頻且總是相鄰出現(xiàn), 這些字串的PMI值非常高, 包含這些低頻字串的垃圾串的PMI值也非常高, 例如“很啰”和“嗦”、“的蝙”和“蝠”等。針對(duì)此問題, 研究者將PMI方法與其他方法相結(jié)合進(jìn)行新詞發(fā)現(xiàn)研究。文獻(xiàn)[5–7]均采用PMI方法與log-likelyhood方法相結(jié)合進(jìn)行新詞識(shí)別。梁穎紅等[8]利用PMI方法衡量字串間的結(jié)合強(qiáng)度, 結(jié)合NC-value方法融入詞語(yǔ)上下文信息來提高3個(gè)字以上長(zhǎng)新詞的抽取精度。何婷婷等[9]采用互信息方法F-MI抽取結(jié)構(gòu)簡(jiǎn)單的質(zhì)詞。孫繼鵬等[10]提出一種語(yǔ)言文法信息與互信息相結(jié)合的新詞識(shí)別方法。Pazienza等[11]提出使用PMI2和PMI3的方法改進(jìn)PMI方法來識(shí)別新詞。Bouma[12]通過向PMI方法中引進(jìn)個(gè)聯(lián)合概率因子, 改善PMI方法的缺點(diǎn), 這種改進(jìn)的PMI方法稱為PMI方法。杜麗萍等[13]通過抽象語(yǔ)料庫(kù)中低頻且總是相鄰出現(xiàn)字串的數(shù)學(xué)特征, 從理論上證明, 當(dāng)向PMI方法中引進(jìn)3個(gè)及以上的聯(lián)合概率因子時(shí), PMI方法能夠克服PMI方法的缺點(diǎn)。
目前, 常用的分詞方法主要有3種: 基于詞表的分詞方法、基于統(tǒng)計(jì)模型的分詞方法和基于統(tǒng)計(jì)方法與規(guī)則方法相結(jié)合的分詞方法[2]。3種方法均有優(yōu)點(diǎn), 但也存在不足: 基于詞表的分詞方法效率高, 但對(duì)新詞的識(shí)別能力不足[14]; 基于規(guī)則的方法很難涵蓋所有的語(yǔ)言現(xiàn)象[2], 尤其對(duì)網(wǎng)絡(luò)語(yǔ)料的處理能力非常有限; 基于統(tǒng)計(jì)模型的分詞方法重點(diǎn)在于解決自動(dòng)分詞的歧義分詞問題, 但需要人工標(biāo)注訓(xùn)練語(yǔ)料, 且受訓(xùn)練語(yǔ)料領(lǐng)域的限制。ICTCLAS(In- stitute of Computing Technology, Chinese Lexical Analysis System)是基于隱馬爾科夫統(tǒng)計(jì)模型(HMM, Hidden MarKov Model)進(jìn)行分詞的廣受好評(píng)的中文分詞系統(tǒng), ICTCLAS2002版在國(guó)內(nèi)973評(píng)測(cè)中綜合第一名, 經(jīng)過15年打造, ICTCLAS2015版又增加了新詞自動(dòng)識(shí)別功能。
本文在杜麗萍等[13]的定理1和定理2基礎(chǔ)上, 采用非監(jiān)督的基于PMI與少量的基本規(guī)則相結(jié)合的方法, 從大規(guī)模網(wǎng)絡(luò)語(yǔ)料中自動(dòng)識(shí)別新詞, 并對(duì)ICTCLAS2002版分詞系統(tǒng)進(jìn)行改進(jìn), 對(duì)比改進(jìn)后的ICTCLAS2002分詞系統(tǒng)與ICTCLAS2002和ICTCLAS2015版的分詞效果。
1 分詞系統(tǒng)改進(jìn)
1.1 改進(jìn)分詞系統(tǒng)框架
分詞系統(tǒng)改進(jìn)主要分為兩個(gè)階段: 1)基于大規(guī)模語(yǔ)料庫(kù)進(jìn)行新詞發(fā)現(xiàn); 2)用新詞發(fā)現(xiàn)結(jié)果編纂用戶詞典, 加載到分詞系統(tǒng)中。圖1為改進(jìn)的分詞系統(tǒng)的流程。
1.2 基于PMI改進(jìn)方法的新詞發(fā)現(xiàn)
定義1 PMI算法[12]定義如下:
其中,()和()分別表示字串和的概率,(,)表示字串和的聯(lián)合概率, PMI(,)表示字串和的相關(guān)度, 也稱PMI值。特殊地, 當(dāng)=1時(shí), PMI方法即PMI方法。
新詞發(fā)現(xiàn)過程主要分為4個(gè)階段: 1)確定2元待擴(kuò)展種子; 2)將2元待擴(kuò)展種子擴(kuò)展至2~元; 3)過濾候選新詞; 4)人工判定。算法的步驟如下。
步驟1 從4元字串中確定出2元的待擴(kuò)展種子。對(duì)于每一個(gè)4元字串, 計(jì)算中間兩元字串和前兩元字串的PMI值之和的平均值以及中間兩元字串和后兩元字串的PMI值之和的平均值mean2。計(jì)算公式如下:
1)如果PMI(w-1,w, …,w+t-1)>PMI(w, …,w+t-1), 則認(rèn)為把字串?dāng)U展成的概率大于擴(kuò)展成的概率, 故向前擴(kuò)展。計(jì)算+PMI(w, …,w,w+1, ...,w+t-1)), 其中或。如果滿足
,
步驟6 人工判定。
2 實(shí)驗(yàn)及結(jié)果分析
2.1 實(shí)驗(yàn)數(shù)據(jù)
1)257 MB(約1000萬字)百度貼吧語(yǔ)料, 用于網(wǎng)絡(luò)新詞發(fā)現(xiàn)。
2)停用詞典: 包含702個(gè)停用詞(選自哈爾濱工業(yè)大學(xué)停用詞表), 用于過濾候選新詞結(jié)果中的垃圾串。
3)ICTCLAS核心詞典: 共收集79836個(gè)詞語(yǔ), 是目前比較規(guī)范的詞典之一, 用于過濾候選新詞結(jié)果中的核心詞匯, 以便得到新詞。
4)10 KB百度貼吧語(yǔ)料, 用于測(cè)試分詞系統(tǒng)改進(jìn)的效果。
2.2 新詞實(shí)驗(yàn)及結(jié)果
黃昌寧等[15]指出, 99%以上的詞長(zhǎng)都在五字及五字以下,故本實(shí)驗(yàn)設(shè)定抽取的最大詞長(zhǎng)等于5。
由于難以統(tǒng)計(jì)257 MB百度貼吧語(yǔ)料中的全部新詞, 所以只采用準(zhǔn)確率作為衡量新詞發(fā)現(xiàn)方法的評(píng)測(cè)標(biāo)準(zhǔn)。準(zhǔn)確率計(jì)算公式為
在PMI方法的參數(shù)取1~10之間10個(gè)正整數(shù)值時(shí), 分別進(jìn)行實(shí)驗(yàn), 圖2描述隨著值變化的準(zhǔn)確率變化趨勢(shì)。
表1列舉PMI方法的參數(shù)取1~10之間10個(gè)正整數(shù)值時(shí), 新詞結(jié)果的前20條。
表1 前20條實(shí)驗(yàn)結(jié)果
2.3 改進(jìn)分詞系統(tǒng)實(shí)驗(yàn)及結(jié)果
實(shí)驗(yàn)設(shè)計(jì)如下。實(shí)驗(yàn)一: 基于ICTCLAS2002版分詞系統(tǒng)進(jìn)行實(shí)驗(yàn); 實(shí)驗(yàn)二: 基于ICTCLAS2015版分詞系統(tǒng)進(jìn)行實(shí)驗(yàn); 實(shí)驗(yàn)三: 加載用戶詞典到ICTCLAS2002版分詞系統(tǒng)中進(jìn)行實(shí)驗(yàn)。采用準(zhǔn)確率、召回率和值3個(gè)指標(biāo)來衡量分詞系統(tǒng)的性能, 計(jì)算公式如下:
針對(duì)10 KB百度貼吧測(cè)試語(yǔ)料進(jìn)行上述實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果如表2所示, “切分出總詞數(shù)”表示分詞系統(tǒng)切分出的字串總數(shù)目, “識(shí)別新詞數(shù)目”表示分詞結(jié)果中包含的正確的新詞數(shù)目。
表2 實(shí)驗(yàn)結(jié)果
表3列舉10 KB百度貼吧語(yǔ)料中3個(gè)例句分別在實(shí)驗(yàn)一、實(shí)驗(yàn)二和實(shí)驗(yàn)三中的結(jié)果。
表3 實(shí)驗(yàn)結(jié)果舉例
例1 讓我這個(gè)菜鳥都有點(diǎn)情何以堪?。?/p>
例2 這個(gè)鏡頭在變形金剛剛出來時(shí)候不是就被噴了么?
例3 小正太, 你好。
2.4 結(jié)果分析
從圖2可以看出, 準(zhǔn)確率隨值增大而增大且逐漸趨于100%。時(shí)的準(zhǔn)確率比時(shí)提高13.6%,=10時(shí)的準(zhǔn)確率比=1時(shí)提高28.79%。因此, 當(dāng)PMI方法的參數(shù)時(shí), PMI方法能明顯改善新詞識(shí)別的效果。
由表1看出, 當(dāng)PMI方法的參數(shù)時(shí), 新詞識(shí)別結(jié)果與和時(shí)差異較大。在和的結(jié)果中, 排名在前的字串中均包含低頻的字或詞, 例如垃圾串“晦澀難”、“非貪婪”、“徽太尉”、“吧頭銜”中分別包含“晦澀”、“婪”、“徽”、“銜”等低頻字串, 且這些字串的搭配詞語(yǔ)固定。該現(xiàn)象反映出PMI方法和PMI2方法對(duì)低頻共現(xiàn)字串敏感的缺點(diǎn)。在的結(jié)果中, 均沒有出現(xiàn)低頻共現(xiàn)字串, 說明時(shí)PMI方法克服了PMI方法的缺點(diǎn), PMI方法能有效識(shí)別新詞。
從表2可以看出, 相對(duì)ICTCLAS2002加載用戶詞典前, ICTCLAS2002加載用戶詞典后分詞系統(tǒng)識(shí)別出的新詞數(shù)目增加149個(gè), 準(zhǔn)確率、召回率和值也分別提高7.93%, 3.37%和5.91%。結(jié)果表明, 增加用戶詞典后, ICTCLAS2002分詞系統(tǒng)處理網(wǎng)絡(luò)語(yǔ)料的效果有明顯改善。相對(duì)ICTCLAS2015分詞系統(tǒng), ICTCLAS2002加載用戶詞典后分詞系統(tǒng)識(shí)別出的新詞數(shù)目增加了124個(gè), 準(zhǔn)確率、召回率和值也分別提高6.7%, 3.1%和4.96%。
表3中, 針對(duì)例1, ICTCLAS 2002和ICTCLAS2015分詞系統(tǒng)均把新詞“菜鳥”切分為“菜/ 鳥”; ICTCLAS2002加載用戶詞典(詞典中包含新詞“菜鳥”)后, 分詞系統(tǒng)把新詞“菜鳥”切分為一個(gè)詞。針對(duì)例2, ICTCLAS2002分詞系統(tǒng)把新詞“變形金剛”切分為“變形/ 金剛”; ICTCLAS2015分詞系統(tǒng)分詞把“變形金”切分為一個(gè)詞, 把“變形金剛”中的“剛”和它后面的“剛”結(jié)合起來切分為“剛剛”; ICTCLAS2002加載用戶詞典(詞典中包含新詞“變形金剛”)后, 分詞系統(tǒng)把新詞“變形金剛”切分為一個(gè)詞。針對(duì)例3, ICTCLAS2002分詞系統(tǒng)把新詞“小正太”切分為“小/ 正/ 太”; ICTCLAS2015和ICTCLAS2002加載用戶詞典(詞典中包含新詞“小正太”)后分詞系統(tǒng)把新詞“小正太”切分為一個(gè)詞。從10 KB百度貼吧測(cè)試語(yǔ)料的分詞結(jié)果來看, 主要有3種情況: 1) ICTCLAS2002和ICTCLAS2015分詞系統(tǒng)在遇到新詞時(shí), 大多情況下均是將新詞切分為多個(gè)“散串”, 如例1, ICTCLAS2002加載包含這些新詞的用戶詞典之后, 這些新詞均能被正確切分; 2) ICTCLAS2015分詞系統(tǒng)自動(dòng)識(shí)別出新詞不正確, 導(dǎo)致句子中其他詞的分詞結(jié)果不正確, 如例2中把“變形金”當(dāng)做一個(gè)詞, 導(dǎo)致“變形金剛”后面的“剛”和“變形金剛”中的“剛”結(jié)合起來切分為“剛剛”; 3)在ICTCLAS2002把新詞切分為多個(gè)“散串”時(shí), ICTCLAS2015和ICTCLAS2002加載用戶詞典后的分詞系統(tǒng)正確切分出新詞, 如例3。結(jié)果表明, 通過加載用戶詞典改進(jìn)分詞系統(tǒng)是一種可靠有效的 方法。
3 結(jié)語(yǔ)
本文基于257 MB百度貼吧語(yǔ)料, 驗(yàn)證了PMI方法的參數(shù)取值大于等于3時(shí), 能夠克服PMI方法的缺點(diǎn), 并通過調(diào)整新詞發(fā)現(xiàn)算法中的參數(shù)來提高長(zhǎng)度大于2元的新詞識(shí)別率。最后, 驗(yàn)證了基于加載用戶詞典來改進(jìn)分詞系統(tǒng)是有效可行的方法。下一步工作是研究PMI方法的參數(shù)取值與語(yǔ)料庫(kù)規(guī)模、語(yǔ)料特征等因素的關(guān)系, 找出一種自適應(yīng)地確定參數(shù)值的方法, 提高新詞識(shí)別效果, 進(jìn)一步增強(qiáng)分詞系統(tǒng)處理Web文本的能力。
[1]張海軍, 史樹敏, 朱朝勇, 等. 中文新詞識(shí)別技術(shù)綜述. 計(jì)算機(jī)科學(xué), 2010, 37(3): 6–12
[2]宗成慶. 統(tǒng)計(jì)自然語(yǔ)言處理. 北京: 清華大學(xué)出版社, 2008: 103–146
[3]Pecina P, Schlesinger P. Combining association measures for collocation extraction // Proceeding Soft of the 21th International Conference on Compu-tational Linguisticsand 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL2006). Sydney, 2006: 651–658
[4]劉華. 一種快速獲取領(lǐng)域新詞語(yǔ)的新方法. 中文信息學(xué)報(bào), 2006, 20(5): 17–23
[5]劉建舟, 何婷婷, 駱昌日. 基于語(yǔ)料庫(kù)和網(wǎng)絡(luò)的新詞自動(dòng)識(shí)別. 計(jì)算機(jī)應(yīng)用, 2004, 24 (7): 132–134
[6]韓艷, 林煜熙, 姚建明. 基于統(tǒng)計(jì)信息的未登錄詞的擴(kuò)展識(shí)別方法. 中文信息學(xué)報(bào), 2009, 23(3): 24–30
[7]Patrick P, Lin D K. A statistical corpus-based term extractor // Stroulia E, Matwin S. lecture notes in artificial intelligence. London, 2001: 36–46
[8]梁穎紅, 張文靜, 周德福. 基于混合策略的高精度長(zhǎng)術(shù)語(yǔ)自動(dòng)抽取. 中文信息學(xué)報(bào), 2009, 23(6): 26–30
[9]何婷婷, 張勇. 基于質(zhì)子串分解的中文術(shù)語(yǔ)自動(dòng)抽取. 計(jì)算機(jī)工程, 2006, 32(23): 188–190
[10]孫繼鵬, 賈民, 劉增寶. 一種面向文本的概念抽取方法研究. 計(jì)算機(jī)應(yīng)用與軟件, 2009, 26(9): 28–30
[11]Pazienza M T, Pennnacchiotti M, Zanzotto F M. Terminology extraction: an analysis of linguistic and statistical approaches. Berlin: Springer-Verlag, 2005: 255–279
[12]Bouma G. Normalized (pointwise) mutual information in collocation extraction // Proc Boennial GSCL Conference 2009, Meaning: Processing Texts Automatically. Tubingen, 2009: 31–40
[13]杜麗萍, 李曉戈, 周元哲, 等. 互信息改進(jìn)方法在術(shù)語(yǔ)抽取中的應(yīng)用. 計(jì)算機(jī)應(yīng)用, 2015, 35(4): 996–1000, 1005
[14]莫建文, 鄭陽(yáng), 首照宇, 等. 改進(jìn)的基于詞典的中文分詞方法. 計(jì)算機(jī)工程與設(shè)計(jì), 2013, 34(5): 1802–1807
[15]黃昌寧, 趙海. 中文分詞十年回顧. 中文信息學(xué)報(bào), 2007, 21(3): 8–19
New Word Detection Based on an Improved PMI Algorithm for Enhancing Segmentation System
DU Liping, LI Xiaoge?, YU Gen, LIU Chunli, LIU Rui
School of Computer Science and Technology, Xi’an University of Posts and Telecommunications, Xi’an 710121; ? Corresponding author, E-mail: lixg@xupt.edu.cn
This paper presents an unsupervised method to identify internet new words from the large scale web corpus, which combines with an improved Point-wise Mutual Information (PMI), PMIalgorithm, and some basic rules. This method can recognize internet new words with length from 2 to(is any number as needed). Experimented based on 257 MB Baidu Tieba corpus, the precision of proposed system achieves 97.39% when the parameter value of PMIalgorithm is equal to 10, and the precision increases 28.79%, compared to PMI method. The results show that proposed system is significant and efficient for detecting new word from the large scale web corpus. Compiling the results of new word discovery into user dictionary and then loading the user dictionary into ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System), experimented with 10 KB Baidu Tieba corpus, the precision, the recall and-measure were promoted 7.93%, 3.73% and 5.91% respectively, compared with ICTCLAS. The result show that new word discovery could improve the performance of segmentation for web corpus significantly.
new word recognition; unknown word; PMI; improved PMI algorithm; Chinese word segmentation
10.13209/j.0479-8023.2016.024
TP391
2015-06-07;
2015-09-14; 網(wǎng)絡(luò)出版日期: 2015-09-29
國(guó)家自然科學(xué)基金(61373116)、陜西省普通高等學(xué)校重點(diǎn)學(xué)科專項(xiàng)資金(112-1602)和西安郵電大學(xué)研究生創(chuàng)新基金(ZL2013-31)資助