王洪浩
【摘 要】在對(duì)漢字信息進(jìn)行處理的過(guò)程中,漢字詞匯本身的構(gòu)成具備一定的特殊性,無(wú)法實(shí)現(xiàn)像英文一樣根據(jù)空格來(lái)分隔單詞。因此,對(duì)于一整段漢字進(jìn)行切分形成獨(dú)立詞語(yǔ)是中文信息處理上難點(diǎn)所在。論文主要對(duì)中文分詞算法以及相應(yīng)的中文分詞技術(shù)進(jìn)行分析和研究,幫助更多人了解到中文分詞算法在搜索引擎中的應(yīng)用。
【Abstract】In the process of processing Chinese characters' information, the formation of Chinese character vocabulary itself has certain particularity, so it is difficult to separate words according to spaces as in English. Therefore, the fragmentation of a whole Chinese character into independent words is the difficulty of Chinese information processing. The paper mainly analyzes and studies the Chinese word segmentation algorithm and the corresponding Chinese word segmentation technology, so as to help more people understand the application of Chinese word segmentation algorithm in search engine.
【關(guān)鍵詞】中文分詞算法;搜索引擎;中文分詞技術(shù)
【Keywords】Chinese word segmentation algorithm; search engine; Chinese word segmentation technology
【中圖分類號(hào)】U44? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號(hào)】1673-1069(2019)01-0103-02
1 引言
中文分詞作為機(jī)器翻譯、文本分類、主題詞提取、信息檢索的基礎(chǔ)環(huán)解鎖,在近些年來(lái)技術(shù)的發(fā)展以及中文相關(guān)算法中也逐漸受到人們的重視。在搜索引擎技術(shù)的逐漸應(yīng)用推廣過(guò)程中通過(guò)將搜索引擎和中文信息處理相應(yīng)技術(shù)結(jié)合在一起,從而進(jìn)一步推動(dòng)全文搜索和中文分詞技術(shù)的研究,有越來(lái)越多優(yōu)秀的中文分詞算法出現(xiàn),并應(yīng)用到搜索引擎中,更好地實(shí)現(xiàn)關(guān)鍵字準(zhǔn)確搜索[1]。
2 中文分詞技術(shù)
在對(duì)中文分詞技術(shù)進(jìn)行分析過(guò)程中,目前可以從應(yīng)用上將其分為基于字符串匹配的分詞技術(shù)、基于統(tǒng)計(jì)的分詞技術(shù)、基于人工智能的分詞技術(shù)三大類。
2.1 基于字符串的匹配技術(shù)
分詞技術(shù)中有基于字符串的匹配分詞技術(shù),此類技術(shù)又可以稱為機(jī)械分詞計(jì)算法或基于詞庫(kù)的分詞算法,通過(guò)預(yù)測(cè)一個(gè)充分大的機(jī)器詞和等待切分的漢字串進(jìn)行匹配。通過(guò)不同的掃描方向?qū)⑵浞譃槟嫦颉⒄?、雙向匹配三種[2]。同時(shí),也可以通過(guò)不同的長(zhǎng)度優(yōu)先匹配可以分為最大匹配和最小匹配。按照是否與詞性標(biāo)注過(guò)程相結(jié)合分為單純分詞和分詞與標(biāo)注相結(jié)合的一體化分詞方法。在分詞串點(diǎn)支持之下匹配分詞效率非常高,算法相對(duì)較簡(jiǎn)單,但存在一定的問(wèn)題就是準(zhǔn)確性相對(duì)較差,很難排除機(jī)器機(jī)械切分所帶來(lái)的歧義。其中字符串匹配主要有正向最大匹配分詞算法、反向最大分子匹配分詞算法、雙向匹配分詞算法三種不同類型。第一種正向最大匹配分詞算法,該算法數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,算法簡(jiǎn)單,無(wú)需任何示范句法以及語(yǔ)義知識(shí),例如,在詞庫(kù)中使用max表示最大詞條長(zhǎng)度,STR是等待切分的四漢字串。通過(guò)等待切分的漢字串前max這個(gè)漢字作為匹配時(shí)段與words中的對(duì)應(yīng)詞條進(jìn)行匹配,如果其中有該詞組就匹配成功,詞組被分離出來(lái),反之就去掉相應(yīng)匹配字段最后一個(gè)字,將余下字符串思維與另一個(gè)匹配字段進(jìn)行匹配。第二種,反向最大匹配分詞算法基本原理和正向最大匹配分詞算法基本相同。但是兩種處理方法不同,一個(gè)從最頂端另外一個(gè)是從漢字串的尾端開始處理,相比較最大正向匹配法來(lái)說(shuō),此種方法能夠更好地實(shí)現(xiàn)對(duì)交際型的歧義字段的處理,簡(jiǎn)單、快速切分,歧義準(zhǔn)確率有明顯提升,但無(wú)法完全排除歧義現(xiàn)象。第三種,雙向匹配分詞算法,此算法就是將以上兩種算法結(jié)合起來(lái)構(gòu)成雙向匹配算法,能夠進(jìn)一步提升千分準(zhǔn)確率,還能夠有效消除部分歧義現(xiàn)象。但由于需要進(jìn)行正向和逆向兩相反方向的掃描,因此具備一定的復(fù)雜性。同時(shí),分詞詞庫(kù)還需要能夠同時(shí)支持這兩種順序檢索,總體來(lái)說(shuō)算法相比以上兩種要復(fù)雜的多。
2.2 基于統(tǒng)計(jì)的分詞方法
基于統(tǒng)計(jì)的分詞算法又稱為無(wú)詞庫(kù)分詞,認(rèn)為詞組作為最穩(wěn)定的組合,相鄰漢字在文本中同時(shí)出現(xiàn)次數(shù)越多,就越有可能構(gòu)成一個(gè)詞[3]。同時(shí)可以將自相鄰貢獻(xiàn)的頻率作為詞組可信度,對(duì)語(yǔ)料中相鄰貢獻(xiàn)字的組合頻度進(jìn)行統(tǒng)計(jì),并對(duì)互現(xiàn)信息進(jìn)行計(jì)算,同時(shí)通過(guò)頻度方式來(lái)對(duì)詞的頻率進(jìn)行判斷,達(dá)到識(shí)別新詞,但總的來(lái)說(shuō)效率無(wú)法提升,十分有效,時(shí)空開銷相對(duì)較大,識(shí)別精度相對(duì)較差,無(wú)法達(dá)到有效識(shí)別。其中,在對(duì)漢字間的緊密程度進(jìn)行統(tǒng)計(jì)的模型主要有互信息、T測(cè)試兩種方式。
2.3 基于人工智能的分詞方法
在人工智能基礎(chǔ)之上所采取的分詞方法,此算法就是在分詞的同時(shí)通過(guò)句法、語(yǔ)義,對(duì)于其中所經(jīng)常出現(xiàn)的歧義切分現(xiàn)象可以通過(guò)句法信息、語(yǔ)義信息兩方面來(lái)解決。在當(dāng)前的人工智能研究領(lǐng)域中兩個(gè)研究熱點(diǎn)所在就是專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)系統(tǒng),通過(guò)這兩者能夠更好地保證分詞的智能性,是未來(lái)一段時(shí)間內(nèi)分詞研究的主要趨勢(shì)和熱點(diǎn)所在[4]。但此種方法實(shí)現(xiàn)的基礎(chǔ)是大量的語(yǔ)言知識(shí)和信息,在擁有大量信息的同時(shí)也以擁有了知識(shí)本身所帶來(lái)的復(fù)雜性和靈活性,很難能夠直接讀取各種語(yǔ)言知識(shí)和信息組織,此種方法至今為止還停留在試驗(yàn)階段,沒(méi)有正式投入使用,這也和人工智能技術(shù)不夠成熟、技術(shù)成本相對(duì)較高等因素相關(guān)。
3 面向搜索引擎的中文分詞關(guān)鍵技術(shù)
在搜索引擎處理用戶查詢需求以及處理文檔的過(guò)程中中文分詞是其中的基礎(chǔ)所在,對(duì)于整個(gè)搜索引擎信息檢索準(zhǔn)確度產(chǎn)生影響的兩大關(guān)鍵因素主要是未登錄詞識(shí)別、歧義消解,兩大問(wèn)題將會(huì)嚴(yán)重影響搜索引擎準(zhǔn)確性和順利性,在網(wǎng)絡(luò)環(huán)境中搜索引擎中推廣和應(yīng)用中文分詞方法必須要解決未登錄詞識(shí)別、歧義消解兩大問(wèn)題。但我國(guó)對(duì)未登錄詞問(wèn)題研究的時(shí)間相對(duì)較短,認(rèn)識(shí)上還存在不穩(wěn)定性,還無(wú)法尋找有效方法解決此問(wèn)題,還有非常長(zhǎng)一段路要走。而對(duì)于歧義切分問(wèn)題來(lái)說(shuō),現(xiàn)階段的研究主要集中在交集型歧義字段的研究上。
4 結(jié)語(yǔ)
本文通過(guò)搜索引擎中常見中文分詞算法進(jìn)行分析,并對(duì)面向搜索引擎中文分詞關(guān)鍵技術(shù)中兩大問(wèn)題進(jìn)行分析,尋找更為有效方法來(lái)提升分詞準(zhǔn)確性。
【參考文獻(xiàn)】
【1】申兵一, 鞏青歌. 中文分詞技術(shù)在搜索引擎中的應(yīng)用研究[J]. 計(jì)算機(jī)與網(wǎng)絡(luò), 2010, 36(1):60-63.
【2】董妍汝. 中文分詞技術(shù)在搜索引擎中的應(yīng)用[J]. 辦公自動(dòng)化, 2010(4):44-45.
【3】劉紅芝. 中文分詞技術(shù)的研究[J]. 電腦開發(fā)與應(yīng)用, 2010, 23(3):1-3.
【4】周宏宇, 張政. 中文分詞技術(shù)綜述[J]. 安陽(yáng)師范學(xué)院學(xué)報(bào), 2010(2):54-56.