王洪浩
(山東哲遠(yuǎn)信息科技有限公司,山東 東營(yíng) 257200)
中文分詞作為機(jī)器翻譯、文本分類、主題詞提取、信息檢索的基礎(chǔ)環(huán)解鎖,在近些年來技術(shù)的發(fā)展以及中文相關(guān)算法中也逐漸受到人們的重視。在搜索引擎技術(shù)的逐漸應(yīng)用推廣過程中通過將搜索引擎和中文信息處理相應(yīng)技術(shù)結(jié)合在一起,從而進(jìn)一步推動(dòng)全文搜索和中文分詞技術(shù)的研究,有越來越多優(yōu)秀的中文分詞算法出現(xiàn),并應(yīng)用到搜索引擎中,更好地實(shí)現(xiàn)關(guān)鍵字準(zhǔn)確搜索[1]。
在對(duì)中文分詞技術(shù)進(jìn)行分析過程中,目前可以從應(yīng)用上將其分為基于字符串匹配的分詞技術(shù)、基于統(tǒng)計(jì)的分詞技術(shù)、基于人工智能的分詞技術(shù)三大類。
分詞技術(shù)中有基于字符串的匹配分詞技術(shù),此類技術(shù)又可以稱為機(jī)械分詞計(jì)算法或基于詞庫(kù)的分詞算法,通過預(yù)測(cè)一個(gè)充分大的機(jī)器詞和等待切分的漢字串進(jìn)行匹配。通過不同的掃描方向?qū)⑵浞譃槟嫦?、正向、雙向匹配三種[2]。同時(shí),也可以通過不同的長(zhǎng)度優(yōu)先匹配可以分為最大匹配和最小匹配。按照是否與詞性標(biāo)注過程相結(jié)合分為單純分詞和分詞與標(biāo)注相結(jié)合的一體化分詞方法。在分詞串點(diǎn)支持之下匹配分詞效率非常高,算法相對(duì)較簡(jiǎn)單,但存在一定的問題就是準(zhǔn)確性相對(duì)較差,很難排除機(jī)器機(jī)械切分所帶來的歧義。其中字符串匹配主要有正向最大匹配分詞算法、反向最大分子匹配分詞算法、雙向匹配分詞算法三種不同類型。第一種正向最大匹配分詞算法,該算法數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,算法簡(jiǎn)單,無需任何示范句法以及語義知識(shí),例如,在詞庫(kù)中使用max表示最大詞條長(zhǎng)度,STR是等待切分的四漢字串。通過等待切分的漢字串前max這個(gè)漢字作為匹配時(shí)段與words中的對(duì)應(yīng)詞條進(jìn)行匹配,如果其中有該詞組就匹配成功,詞組被分離出來,反之就去掉相應(yīng)匹配字段最后一個(gè)字,將余下字符串思維與另一個(gè)匹配字段進(jìn)行匹配。第二種,反向最大匹配分詞算法基本原理和正向最大匹配分詞算法基本相同。但是兩種處理方法不同,一個(gè)從最頂端另外一個(gè)是從漢字串的尾端開始處理,相比較最大正向匹配法來說,此種方法能夠更好地實(shí)現(xiàn)對(duì)交際型的歧義字段的處理,簡(jiǎn)單、快速切分,歧義準(zhǔn)確率有明顯提升,但無法完全排除歧義現(xiàn)象。第三種,雙向匹配分詞算法,此算法就是將以上兩種算法結(jié)合起來構(gòu)成雙向匹配算法,能夠進(jìn)一步提升千分準(zhǔn)確率,還能夠有效消除部分歧義現(xiàn)象。但由于需要進(jìn)行正向和逆向兩相反方向的掃描,因此具備一定的復(fù)雜性。同時(shí),分詞詞庫(kù)還需要能夠同時(shí)支持這兩種順序檢索,總體來說算法相比以上兩種要復(fù)雜的多。
基于統(tǒng)計(jì)的分詞算法又稱為無詞庫(kù)分詞,認(rèn)為詞組作為最穩(wěn)定的組合,相鄰漢字在文本中同時(shí)出現(xiàn)次數(shù)越多,就越有可能構(gòu)成一個(gè)詞[3]。同時(shí)可以將自相鄰貢獻(xiàn)的頻率作為詞組可信度,對(duì)語料中相鄰貢獻(xiàn)字的組合頻度進(jìn)行統(tǒng)計(jì),并對(duì)互現(xiàn)信息進(jìn)行計(jì)算,同時(shí)通過頻度方式來對(duì)詞的頻率進(jìn)行判斷,達(dá)到識(shí)別新詞,但總的來說效率無法提升,十分有效,時(shí)空開銷相對(duì)較大,識(shí)別精度相對(duì)較差,無法達(dá)到有效識(shí)別。其中,在對(duì)漢字間的緊密程度進(jìn)行統(tǒng)計(jì)的模型主要有互信息、T測(cè)試兩種方式。
在人工智能基礎(chǔ)之上所采取的分詞方法,此算法就是在分詞的同時(shí)通過句法、語義,對(duì)于其中所經(jīng)常出現(xiàn)的歧義切分現(xiàn)象可以通過句法信息、語義信息兩方面來解決。在當(dāng)前的人工智能研究領(lǐng)域中兩個(gè)研究熱點(diǎn)所在就是專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)系統(tǒng),通過這兩者能夠更好地保證分詞的智能性,是未來一段時(shí)間內(nèi)分詞研究的主要趨勢(shì)和熱點(diǎn)所在[4]。但此種方法實(shí)現(xiàn)的基礎(chǔ)是大量的語言知識(shí)和信息,在擁有大量信息的同時(shí)也以擁有了知識(shí)本身所帶來的復(fù)雜性和靈活性,很難能夠直接讀取各種語言知識(shí)和信息組織,此種方法至今為止還停留在試驗(yàn)階段,沒有正式投入使用,這也和人工智能技術(shù)不夠成熟、技術(shù)成本相對(duì)較高等因素相關(guān)。
在搜索引擎處理用戶查詢需求以及處理文檔的過程中中文分詞是其中的基礎(chǔ)所在,對(duì)于整個(gè)搜索引擎信息檢索準(zhǔn)確度產(chǎn)生影響的兩大關(guān)鍵因素主要是未登錄詞識(shí)別、歧義消解,兩大問題將會(huì)嚴(yán)重影響搜索引擎準(zhǔn)確性和順利性,在網(wǎng)絡(luò)環(huán)境中搜索引擎中推廣和應(yīng)用中文分詞方法必須要解決未登錄詞識(shí)別、歧義消解兩大問題。但我國(guó)對(duì)未登錄詞問題研究的時(shí)間相對(duì)較短,認(rèn)識(shí)上還存在不穩(wěn)定性,還無法尋找有效方法解決此問題,還有非常長(zhǎng)一段路要走。而對(duì)于歧義切分問題來說,現(xiàn)階段的研究主要集中在交集型歧義字段的研究上。
本文通過搜索引擎中常見中文分詞算法進(jìn)行分析,并對(duì)面向搜索引擎中文分詞關(guān)鍵技術(shù)中兩大問題進(jìn)行分析,尋找更為有效方法來提升分詞準(zhǔn)確性。