方玉萍 萬榮 方達
摘要:未登錄詞作為一類特殊詞出現(xiàn),在中文文本處理中常常帶來識別歧義,未登錄詞的識別好壞往往會影響到文本處理系統(tǒng)的整體性能。未登錄詞識別方法各有千秋,但對于識別未登錄詞都沒有最有效的方法,研究發(fā)現(xiàn)利用未登錄各類別的特點和難點進行方法的組合使用,可以提高其歧義的處理能力。本文研究中文文本未登錄詞的識別,以期能在各文本處理中能減少歧義達到提高識別的正確率和召回率。
關(guān)鍵詞:詞;方法;名;識別
中圖分類號:TP18? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)20-0203-02
開放科學(資源服務)標識碼(OSID):
Abstract: Unlogged words appear as a kind of special words, which brings the ambiguity of recognition in Chinese text processing. The recognition of unlogged words often affects the overall performance of text processing system. Unlogged word recognition methods are different, but there is no most effective method for identifying unlogged words. The combination of methods is used using the characteristics and difficulties of unlogged categories. This paper studies the recognition of unlogged words in Chinese text in order to reduce ambiguity in each text processing to improve the correct rate and recall rate of recognition.
Key words: Words; Methodology; Name; recognition
中文文本處理涵蓋了字、詞、句、段和篇章等多層面信息來處理,在研究過程中發(fā)現(xiàn)中文的詞更能精準表達句子的含義,所以現(xiàn)在的研究重點都放在詞語的處理上,而詞的識別是文本處理工作中最基本的工作,也是影響整個文本信息最突出的地方。未登錄詞對詞法分析影響最大,在處理過程中,未登錄詞往往會被錯誤識別,給后續(xù)的句法與語法分析帶來很大困難,有時會造成文本處理技術(shù)的一個瓶頸。
1 未登錄詞
未登錄詞即沒有被收錄在分詞詞表中但必須切分出來的詞,包括各類專有名詞(人名、地名、機構(gòu)名等)、縮寫詞、新增詞匯等等 [1]? 。
現(xiàn)有文本識別面臨的基本問題有:歧義詞和未登錄詞的識別。研究發(fā)現(xiàn),未登錄詞識別所造成的錯分數(shù)量遠遠大于歧義切分的錯分數(shù)量,所以研究未登錄詞可以提高文本分詞的效率。當前把未登錄詞分為以下三大類:(1)專用名詞即命名實體,一般指人名、地名、機構(gòu)名等,有時也包含時間或數(shù)值表達式。(2)網(wǎng)絡新詞,隨著網(wǎng)絡技術(shù)的發(fā)展而出現(xiàn)的一些非正式語言,如“藍瘦”“手游”等。(3)專業(yè)術(shù)語:包含一些專業(yè)上的縮略詞。由各行各業(yè)涌現(xiàn)出的特定領(lǐng)域內(nèi)的術(shù)語稱謂。
2 未登錄詞識別方法
目前,未登錄詞的識別方法主要有以下三大類:
2.1基于統(tǒng)計的文本識別方法
基于統(tǒng)計的文本識別方法是在給定大量的訓練文本集的前提下,利用機器學習模型的統(tǒng)計知識來學習詞語識別的規(guī)律,從而實現(xiàn)對未知文本的識別。這種方法只需統(tǒng)計語料中的字詞頻率,而不需要詞典,因而又叫作無詞典分詞法。隨著大規(guī)模語料庫的建立,統(tǒng)計機器學習方法的研究和發(fā)展,基于統(tǒng)計的中文識別方法漸漸成了主流方法。主要的統(tǒng)計模型有:N元文法模型,隱馬爾可夫模型,最大熵模型,條件隨機場模型等。
在實際的應用中,基于統(tǒng)計的文本識別系統(tǒng)都需要使用分詞詞典來進行字符串匹配分詞,同時使用統(tǒng)計方法識別一些新詞,即將字符串頻率統(tǒng)計和字符串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。
2.2基于詞典的文本識別方法
該方法是建立一個詞典,然后按照一定的策略進行文本掃描,若在詞典掃描到某個字符串,則識別出字符串為詞,將其從文本中切分出來。所以該方法也稱為機械的文本識別方法。按照掃描方向的不同,基于文本識別方法分為正向匹配法和逆向匹配法;按照字符串長度優(yōu)先匹配,可以分為最大字符串匹配法和最小字符串匹配法。由于中文文本每個字都可以成詞,而最小字符串匹配法識別出的文本太多,不提倡使用。所以基于詞典的文本識別方法一般使用正向最大字符串匹配法和逆向最大字符串匹配法或者是雙向(正向和逆向)匹配法。對于詞典的文本識別方法的改進方法主要還有設(shè)立切分標志法和結(jié)合詞性標注法。
2.3基于理解的文本識別方法
基于理解的文本識別方法是試圖通過模擬人類的大腦思維來理解句子,達到識別詞的目的。在識別文本的時候進行句子的句法、語法分析,然后利用大量的詞語信息來處理歧義內(nèi)容。由于中文構(gòu)成的復雜性,難以將語言信息組織成機器可直接讀取的形式,因此基于理解的文本識別方法目前仍處于實驗階段?;诶斫夥衷~的方法包括專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡分詞法。
基于詞典的文本識別方法是最早使用的,算法簡單易行,在各個領(lǐng)域均有應用,但消除歧義信息基于無法執(zhí)行,所以準確率不高。基于統(tǒng)計的文本識別方法在消除歧義中有較好的處理能力,但它需要大量的語料庫作為基礎(chǔ),耗時較大?,F(xiàn)在研究方法都是把兩者的優(yōu)缺點綜合考慮后進行組合來處理文本識別。