沈靜
?
淺析中文分詞方法
沈靜
(漳州職業(yè)技術(shù)學(xué)院計算機工程系,福建漳州363000)
中文分詞是中文文本挖掘和信息處理的基礎(chǔ)環(huán)節(jié),而中文文本挖掘首先面臨的是中文的分詞問題。中文分詞的方法主要有基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法三種,第一種分詞方法簡單、快捷,但對詞典的完備性要求很高;第二種充分利用文本信息,但完備性較差;第三種還處于理論研究階段。本文對現(xiàn)有的三種中文分詞方法進行了研究和對比。
中文分詞; 文本挖掘; 歧義切分
中文分詞就是由計算機在中文文本的詞與詞之間加上分界符。從表面來看它相比句法分析、語義分析等階段的難度要小,但卻是中文信息處理過程中最基礎(chǔ)、關(guān)鍵的步驟。
中文信息處理涵蓋了字、詞、短語、句子、篇章等多層面的信息加工處理任務(wù)。中文文本最小的組合單位是字,而最小的信息單位卻是詞,但中文文本中詞與詞之間沒有天然的分界符,所以在中文信息處理中,首要的任務(wù)就是“詞處理”,即中文分詞。
1.1中文分詞的意義
中文分詞是中文信息處理的基礎(chǔ),也是智能化中文信息處理中的關(guān)鍵步驟。中文信息處理是一門用計算機對中文(包括口語和書面語)進行轉(zhuǎn)換、傳輸、存儲、分析等加工的科學(xué)[1]。中文信息處理涉及字、詞和句三個層面的處理,每個處理階段都緊扣上一階段。從語言構(gòu)成上來講,字是最小的構(gòu)成單位,而詞才是有意義的基本語言單位。字處理簡單,技術(shù)已經(jīng)比較成熟,但是詞處理還有待進一步發(fā)展。所以在中文信息處理中,只有先確定了詞,才能進一步到短語劃分、概念抽取及主題分析等后續(xù)階段。中文不同于西文,詞與詞之間沒有明顯的間隔(空格),而中文的語法約束又不規(guī)范,且變化多樣,這都決定了中文分詞的困難性。
中文分詞在中文信息處理中具有重大的意義,它直接影響到中文信息處理及其相關(guān)領(lǐng)域的長遠發(fā)展。英文文本跨越了分詞階段,在詞的利用上更直接、完善,因而在詞相關(guān)的應(yīng)用領(lǐng)域(如信息檢索、機器翻譯、中文校對系統(tǒng)、語音輸出、主題分析等)發(fā)展中都比中文快,也展示了奪目的應(yīng)用前景。中文信息處理要想趕超英文在信息領(lǐng)域的發(fā)展,就必須先通過分詞這道難關(guān)。
1.2中文分詞的發(fā)展與應(yīng)用
目前,中文信息處理技術(shù)落后于西文處理技術(shù),除了因為它起步稍晚,最主要還是因為它還未完全攻克分詞這道難關(guān)。中文異于西文的行文特點使得許多西文的處理方法不能直接應(yīng)用于中文處理,而漢語本身的復(fù)雜性,以及對“詞”的不標準定義更加劇了中文分詞的困難性。
作為中文信息處理的核心和漢語自然語言理解的基礎(chǔ),中文分詞技術(shù)在很多現(xiàn)實應(yīng)用領(lǐng)域(漢字輸入法、中文信息檢索、信息過濾、自動摘要、自動分類及自動摘要,知識管理、中文文本的自動校對、機器翻譯、內(nèi)容數(shù)據(jù)挖掘、漢字識別與漢語語音識別的后處理、自動分類、漢語語音合成,中外文對譯、以句子為單位的漢字鍵盤輸入、漢字簡繁體轉(zhuǎn)換等)中都占據(jù)著很重要的地位[2-5]。要快速發(fā)展國內(nèi)計算機信息處理技術(shù),還要引進國外先進的計算機信息處理技術(shù),都急需解決中文分詞的問題。
已經(jīng)研究出來的中文分詞方法主要有三大類:基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法[6]。
2.1基于字符串匹配的分詞方法
基于字符串匹配的分詞方法,也稱為基于詞典的分詞法,這種分詞方法都依賴分詞詞典,根據(jù)詞典構(gòu)建方式的不同,又分為機械分詞法和特征詞庫法兩種。
(1)機械分詞方法
機械分詞法利用一個具有充足詞量的詞典,把待切分文本按照一定的算法與詞典中的詞條進行匹配,當有字符串與詞典中的某個詞條匹配成功時,就把它當做詞標記出來。
機械分詞的算法有多種。按照匹配字符串的長度來分,有最長匹配算法和最短匹配算法;按照匹配的方向來分,有正向匹配法和逆向匹配法;按照是否對詞性做標注來分,有單純分詞法和分詞與標注一體化法。但無論按哪種標準來分類,分詞的準確性都高度依賴詞典的完備性。
機械分詞法的特點是:算法簡單、易于實現(xiàn)、但分詞的準確性高度依賴于詞典的完備性,無法識別未登錄詞匯;當詞典越來越完備時,還要采取措施提高分詞效率;最關(guān)鍵的是,無論采取何種匹配算法,都存在歧義切分的問題。
(2)特征詞庫法
特征詞庫法主要用于分詞的預(yù)處理階段,先建立一個包含各種具有切分特征的詞的特征詞庫,然后根據(jù)特征詞庫中的詞條把待切分文本切分成若干個盡量短的字符串,最后再用機械匹配算法對每個字符短串進行進一步的細分。
特征詞庫法基于充分的漢語語言知識:漢語中存在數(shù)量有限的形態(tài)標志,如連詞、虛詞、詞綴(包括前綴和后綴)和重疊詞等,它們在中文文本中使用的頻率較高,可以利用事先建立好的特征詞庫把它們先切分出來。特征詞的選取需要深入研究漢語的構(gòu)詞法則和構(gòu)形法則等,對于那些不合常規(guī)法則的特例,也要全面地考慮和預(yù)計,采用有效方法加以處理。
機械分詞法和特征詞庫法都依賴詞典的完備性,且只注重了詞的組成形式,忽略了相鄰詞的詞性和詞義必須符合的約束關(guān)系(即語法和邏輯),這些約束關(guān)系都影響著分詞的正確性,也需要在分詞思想中加以考慮。同時,都需要解決未登錄詞匯的識別和歧義切分問題。
2.2 基于統(tǒng)計的分詞方法
基于統(tǒng)計的分詞法又稱為統(tǒng)計取詞法,它不依賴外部詞典,這種分詞方法認為:詞從本質(zhì)上來講是若干個字的組合,但又不像排列組合那樣具有任意性,只有那些組合在一起有使用意義的才能稱之為詞,某種字符串出現(xiàn)的頻率越高,那么它是詞的可能性也就越大。所以,在正式分詞之前,先計算出語料庫中所有可能是詞的字符串,并構(gòu)成一個詞典;然后再選擇某種機械分詞算法利用前面構(gòu)建好的詞典進行分詞。這種分詞方法的分詞過程和基于字符串匹配的分詞方法一致,關(guān)鍵在于詞典的構(gòu)建思路不同。例如曾田日、王晉國[7]就提出并實現(xiàn)了基于統(tǒng)計的云搜索分詞算法。
由于不依賴傳統(tǒng)的詞典,基于統(tǒng)計的分詞方法相較于基于詞典的分詞方法,對未登錄詞匯的識別率得到很大提高,但這也要求未登錄詞在語料庫中出現(xiàn)的頻率超過一定的閾值。當前,常用的基于統(tǒng)計的分詞實現(xiàn)方法有互信息模型、N元統(tǒng)計模型、隱馬爾科夫模型、最大熵模型等。
2.3 基于理解的分詞方法
基于理解的分詞方法是一種理想化的分詞方法,它像人工智能的一樣,希望機器能模擬人對句子的理解思路來分詞。相應(yīng)地,需要先人工定義句子的語法并輸入計算機;然后,計算機判斷待切分語句的句型并模擬人對句子的理解方式進行切詞。在這種分詞方法中,需要同時啟動句法分析、語義分析和分詞處理三個功能模塊,前兩個模塊所得的信息可以幫助處理分詞模塊中的歧義切分。相應(yīng)地,這類系統(tǒng)包括三個基本部分:
(1)分詞系統(tǒng),進行詞語的切分;
(2)句法語義系統(tǒng),對待處理語句進行語法、語義分析;
(3)總控部分,協(xié)調(diào)分詞系統(tǒng)利用句法語義分析系統(tǒng)生成的句法和語義信息,來處理分詞中的切分歧義。
要模擬人腦的分詞過程,首先要把各種漢語語言基礎(chǔ)知識編譯成機器可以直接讀取的形式,機器像人腦一樣存儲了大量的語言基礎(chǔ)知識后,再以機器學(xué)習的方式進一步上升到理解、分詞的階段。實際上,漢語語言的復(fù)雜性使得語義、語法等很難完全規(guī)律化,而機器學(xué)習也尚未發(fā)展到應(yīng)用階段,因此,這種理想中完美的方法的實現(xiàn)還需要時間。
在現(xiàn)有的三類中文分詞方法中,基于字符串匹配的分詞法中的機械分詞法目前的發(fā)展最成熟、使用也最廣泛。百度和google搜索引擎的實現(xiàn)都以該方法為基礎(chǔ)。
目前最成熟,應(yīng)用最廣泛的幾種機械分詞算法有:正向最大匹配法、逆向最大匹配法和最少切分法。
(1)正向最大匹配法[8],先準備一個完備的詞典(可以直接導(dǎo)出某種輸入法的詞庫),把詞典中的詞條按照一定規(guī)則(如長度、首字符的音序等)進行排列;分詞時,將待切分文本按正向順序(即從左到右的順序),與詞庫中的詞條進行匹配。如果有長度為M字符串與詞典中的詞條匹配成功,就把該詞切分出來,然后后移M個字符串繼續(xù)進行匹配;否則,從待切分字符串的下一個字的位置繼續(xù)進行匹配,直到匹配成功。
(2)逆向最大匹配法,它的基本思路與正向最大匹配算法相同,只是把待處理文本的處理方向改為反向(即從右到左),這種逆向掃描的方法較之正向匹配法可以一定程度的提高分詞的準確率。梁南元對正向最大匹配法和逆向最大匹配法進行了分詞結(jié)果統(tǒng)計,數(shù)據(jù)表明:正向最大匹配法的錯誤率為1/169;逆向最大匹配法的錯誤率為1/245[9]。
(3)最少切分法,這種方法認為,在處理一個句子時切分的詞最少時,分詞準確度比較高。但相應(yīng)地,分詞的精度也會下降。該方法一般都用于分詞的預(yù)處理階段,例如,利用特征詞庫把文本預(yù)切成漢字短串,再使用其他分詞方法進行更細致的切分。
在中文文本挖掘與信息處理中,我們首先遇到的就是中文的分詞問題,目前主要有三大類中文分詞方法:基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法。其中,基于字符串匹配的分詞方法最成熟,使用最廣泛,分詞算法研究成果也最多,如:正向最大匹配法、逆向最大匹配法、最少切分法等,在此基礎(chǔ)上,很多學(xué)者還提出了改進算法以提高分詞效率,解決分詞歧義和未登錄詞的識別問題;基于統(tǒng)計的分詞方法利用待處理信息本身生成詞典,進而完成分詞;而基于理解的分詞方法是最人性化的分詞方法,但目前還處于研究階段。
在互聯(lián)網(wǎng)發(fā)展迅猛的今天,中文分詞發(fā)揮著越來越重要的角色,但其算法復(fù)雜,實現(xiàn)困難,今后的研究將繼續(xù)朝著分詞速度和精度的提高,未登錄詞的識別和歧義切分方向發(fā)展。
[1] 劉遷, 賈惠波. 中文信息處理中自動分詞技術(shù)的研究與展望[J]. 計算機工程與應(yīng)用, 2006(3): 175-182.
[2] Wu Z. M., Tseng G. Chinese text segmentation for text retrieval: achievements and problems[J]. Journal of the American Society for Information Science, 1993, 44(9): 532-542.
[3] Wu Z. M., Tseng G. ACTS: An automatic Chinese text segmentation system for full text retrieval[J]. Journal of the American Society for Information Science, 1995, 46(1): 83-96.
[4] Nie J. Y., Brisebois M. On Chinese word segmentation and word-based text retrieval[J]. Proceedings of International Conference on Chinese Computing, 1996: 405-412.
[5] Sun M. S., Lin F. Z. Linguistic processing for Chinese OCR&TTS[J]. Proceedings of the 2nd International Conference of Virtual Systems and Multimedia, 1996: 27-42.
[6] 郭偉, 于中華. 基于延遲決策和斜率的新詞識別方法[J]. 四川大學(xué)學(xué)報: 自然科學(xué)版, 2007, 44(3): 519.
[7] 曾田日,王晉國. 基于統(tǒng)計的云搜索中文分詞算法[J]. 西北大學(xué)學(xué)報, 2015(4): 568-572.
[8] 吳旭東. 正向最大匹配分詞算法的分析與改進[J]. 科技傳播, 2011(20): 164-165.
[9] 梁南元. 書面漢語自動分詞綜述[J]. 計算機應(yīng)用與軟件, 1987(3): 44-50.
(責任編輯季平)
Chinese word segmentation method research
SHEN Jing
(Zhangzhou Institute of Technology, Zhangzhou 363000, China)
Chinese word segmentation is the foundation of Chinese text mining and information processing, and also the first problem faced in text mining. Chinese word segmentation methods mainly include word segmentation method based on string matching, word segmentation method based on statistics and word segmentation method based on the understanding, the first word segmentation method is simple, fast, but the dictionary completeness asked too much; The second make full use of text information, but poorer completeness; The third is still in the theoretical research stage. In this paper, the existing three methods were studied and compared in detail.
Chinese word segmentation; text mining; ambiguity segmentation
TP391.1
A
1673-1417(2016)03-0045-04 doi:10.13908/j.cnki.issn1673-1417.2016.03.0009
2016-05-15
沈靜(1982—),女,陜西漢中人,講師,碩士,研究方向:數(shù)據(jù)挖掘、信息安全。