張慧芳
摘要:漢語分詞是從動態(tài)的信息中檢索出符合用戶個性化需求的詞匯理論,它能為用戶提供及時、個性化的信息服務(wù)。筆者探討了漢語詞匯分詞在網(wǎng)絡(luò)信息檢索中的應(yīng)用,提出隱式分詞詞典,該詞典在漢語文本輸入的同時進行分詞聯(lián)想,更好的解決了中文信息處理中需要分詞的問題。
關(guān)鍵詞:漢語;分詞;檢索;隱性詞典
信息技術(shù)時代,從網(wǎng)絡(luò)中學(xué)習(xí)知識和發(fā)布相關(guān)信息的人越來越多的人,互聯(lián)網(wǎng)信息技術(shù)發(fā)生了前所未有的爆炸式發(fā)展,這種變化在給用戶帶來方便的同時,也讓用戶陷入信息泥潭。如何更加準確、快捷地幫助用戶尋找其感興趣的信息,如何提高檢索質(zhì)量和檢索精度,將會成為“互聯(lián)網(wǎng) +”時代研究人員逐漸關(guān)注的焦點。漢語分詞正是用來從動態(tài)的信息流中抽取出符合用戶個性化需求的信息,從而為用戶提供及時、個性化的信息服務(wù)。漢語分詞的準確性直接影響到搜索結(jié)果是否符合用戶的目標需求。
近幾十年來,分詞技術(shù)取得可觀的研究成果,但在用戶提取信息時效果還是不盡人意。本文提出了建立隱式分詞詞典的設(shè)想,該詞典進行中文文本輸入的同時后臺程序進行分詞聯(lián)想,并將文本以相關(guān)詞串的形式儲存在計算機。我們期待這種方法能很大程度上解決中文信息處理中需要分詞的問題。
一、現(xiàn)存的分詞方法及其局限性
1.現(xiàn)有的分詞方法
自動分詞作為自然語言處理的前處理階段事關(guān)重大,它是各種漢語信息處理包括語音處理、主題詞檢索、詞頻統(tǒng)計、文摘生成等工作的基礎(chǔ)工程,也一直是制約中文信息處理飛躍的“ 瓶頸” 之一。關(guān)于分詞的必要性,筆者在另一篇文章《漢語詞匯分詞規(guī)范的理念和實踐》一文中已陳述,在此不做贅述。這里就現(xiàn)有的分詞方法做簡單概括并對其局限性做出評價。
目前的分詞系統(tǒng)采用的分詞方法主要有三種類型:
(1)機械分詞法。這種分詞方法很普遍,又叫字符串匹配的分詞方法,百度就是此類分詞。它又具體又分為:正向最大匹配法、逆向最大匹配法、最短路徑分詞法和雙向最大匹配法等。
a.正向最大匹配法,由左到右的方向。舉個例子:“不知道你在說什么”,這句話采用正向最大匹配法是 “不知道,你,在,說什么”。
b.逆向最大匹配法,由右到左的方向?!安恢滥阍谡f什么”用逆向最大匹配法來分,即“不,知道,你在,說,什么”。
c.最短路徑分詞法,使每一句中切出的詞數(shù)最小。“不知道你在說什么”最短路徑分詞法就是 “不知道,你在,說什么”,分出來就只有3個詞了。
d.雙向最大匹配法,進行由左到右、由右到左兩次掃描。
正向最大匹配法,最終切分結(jié)果為:“我們/在野/生動/物/園/玩”,其中,兩字詞3個,單字字典詞為2,非詞典詞為1。
(2)語義分詞法。語義分詞法引入了語義分析,對自然語言自身的語言信息進行更多的處理,如擴充轉(zhuǎn)移網(wǎng)絡(luò)法、知識分詞語義分析法、鄰接約束法、綜合匹配法、后綴分詞法等。
(3)理解分詞法,又稱人工智能法。這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。
2.現(xiàn)有分詞方法的局限性
現(xiàn)有的分詞方法,無論是機械分詞法、語義分詞法,還是人工智能分詞法都不能有效解決漢語詞自動切分中存在兩大困難。
a.歧義識別。主要的歧義有兩種:交集型歧義和組合型歧義,例如:表面的,因為“表面”和“面的”都是詞,那么這個短語就可以分成“表面 的”和“表 面的”。這種稱為交集型歧義(交叉歧義)。
b.未登錄詞的識別。未登錄詞也就是那些在分詞詞典中沒有收錄,但又確實能稱為詞的那些詞。除了“duang、閱兵藍”這樣的新詞以外,還有機構(gòu)名、人名、地名、產(chǎn)品名、商標名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于搜索引擎來說,分詞系統(tǒng)中的新詞識別十分重要。
二、漢語分詞在信息檢索中的應(yīng)用
隨著技術(shù)進步,漢語自動分詞技術(shù)的應(yīng)用之廣自然不必言說,分詞系統(tǒng)應(yīng)支持不同的應(yīng)用目標,包括各種輸入方式、簡繁轉(zhuǎn)換、語音合成、翻譯、檢索、文摘等等;支持不同領(lǐng)域的應(yīng)用,包括自然科學(xué)、社會和技術(shù)及日常辦公、新聞、交際等;支持不同地區(qū)(包括灣、澳、臺等地)的漢語處理,應(yīng)能適應(yīng)不同地區(qū)的不同用字、不同用詞、不同語言風(fēng)格,不同專有名詞構(gòu)成方式等。具體到信息檢索領(lǐng)域的應(yīng)用,對漢語自動分詞技術(shù)的特殊性需要分詞詞典。智能信息檢索無論是機械分詞法還是基于理解的分詞法,都依賴于分詞詞典。分詞詞典應(yīng)具備以下特性:
a.顆粒度問題。鑒于每個用戶的查詢請求各不相同,為了適應(yīng)用戶的查詢,檢索系統(tǒng)的詞庫的分詞單位應(yīng)該較小,應(yīng)該是現(xiàn)代漢語中最基本、最穩(wěn)定的詞。
b.專業(yè)詞典。雖然使用了雙向分詞算法,但也還存在著一定的失誤率,主要原因是基于字典、詞庫匹配的分詞方法對詞庫的依賴性較強。由于我們所研究的網(wǎng)頁信息有較強的專業(yè)性,所以我們可以通過盡可能地擴大專業(yè)詞庫,從而更大地降低分詞失誤率,專業(yè)詞典的編制是降低自然語言處理與智能信息檢索實現(xiàn)難度的有利輔助。
3、總體詞數(shù)越少越好,在相同字數(shù)的情況下,總詞數(shù)越少,說明語義單元越少,那么相對的單個語義單元的權(quán)重會越大,因此準確性會越高。
因此,我們設(shè)想出隱式分詞詞典,這種詞典可以最大程度上解決漢語分詞問題。
三、設(shè)置隱式分詞詞典的必要性及其功能
漢語分詞問題是大數(shù)據(jù)時代的產(chǎn)物,是計算機處理中文信息的需要,所以分詞問題應(yīng)該由計算機技術(shù)來實現(xiàn)。本文提出的隱式分詞詞典在文本錄入的同時由分詞軟件進行同步分詞,這種方法是未來大數(shù)據(jù)時代解決分詞問題必須考慮的。
首先,之前人們研究出的增加分詞符或者改變漢字書寫方式等自動分詞系統(tǒng)都要付出一定的改變,改變?nèi)藗兊囊沧x書寫習(xí)慣,若是信息量很龐大,要想改變?nèi)藗兏畹俟痰牧?xí)慣需要巨大開銷。反之,我們這種隱式分詞詞典系統(tǒng)幾乎很巧妙的解決了這個后顧之憂,不需要為分詞再付出額外的人力物力開銷。
其次,要實現(xiàn)分詞連寫,首要問題分詞必須要規(guī)范。在歷來的分詞爭議的歷史長流中,漢語分詞都沒有統(tǒng)一的規(guī)范。即使是現(xiàn)在,已經(jīng)出了分詞規(guī)范,也很少有人能把分詞的國家規(guī)范記得清清楚楚,至于準確地應(yīng)用則更是少之又少。而采用隱式分詞詞典,就可以由輸入軟件機器來記住分詞規(guī)范,使得所有在機內(nèi)的文本都是規(guī)范統(tǒng)一的,用戶需要時可以自由提取。
再次,對于分詞中固有歧義切分的識別,隱式分詞詞典在用戶輸入的時候,就通過與用戶的直接意愿交互來獲取這個信息,從而消除這種固有歧義切分?,F(xiàn)有的中文輸入法中基本上都采取了與用戶交互的方式來消除歧義,因此增加消除固有歧義切分的交互并不會給用戶帶來什么不便。
最后,隱式分詞連寫輸入法中的“隱式”是指在輸入時并不要求用戶去進行分詞工作,而是由輸入軟件來進行分詞工作,這對用戶來說分詞連寫是隱式的。另外,輸入的文本將以分詞的形式保存在計算機中,但是分詞標記卻是隱式的,若是用戶刻意要求顯示分詞標記點擊選項即可顯示。這種隱式分詞詞典的引入將使信息處理邁入嶄新時代。
綜上所述,隱式分詞連寫輸入法主要有以下幾個功能:
1.隱式的自動分詞詞典
隱式分詞詞典好比現(xiàn)在的英語“有道”軟件,該詞典將按照信息處理用國家分詞規(guī)范(GB/T 13715.92)進行自動分詞。只要鼠標點擊到詞那就自動呈現(xiàn)該詞對應(yīng)的英語詞匯,我們的分詞詞庫也可以做到:根據(jù)用戶需要,可以自定設(shè)置是否顯示分詞,想要展示時就鼠標點到那?;蛘呦袂袚Q中英文屏幕那樣切換到分詞屏幕;信息檢索時,也可以自動聯(lián)想所需要的分詞,這在極大程度上解決了信息處理的分詞歧義問題,這樣大大方便我們的語言生活。
2.中文文本的錄入
隱式分詞詞典具有向計算機輸入中文文本的功能。我們暫且計劃采用已有的拼音編碼進行輸入,當然,隨著技術(shù)成熟,以后將擴展到五筆字型等其它編碼形式。
3.保存并顯示文本
通過該詞典輸入法錄入的文本將以詞串的形式保存在機內(nèi),文本內(nèi)容可隱可顯。用戶根據(jù)需求自行設(shè)置是否顯示分詞標記,這樣既解決了分詞問題又不需要人們改變?nèi)粘A?xí)慣。
計算機裝上這樣的分詞詞典就可以自動識別分詞。
四、展望和困難
分詞連寫是一種民族思維的數(shù)字化工程?;ヂ?lián)網(wǎng)時代,漢語數(shù)字化的歷史進程卻是不可抗拒的。漢語實行分詞連寫,將極大地提高漢民族集體智能的數(shù)字化程度,從而大大加快中國的現(xiàn)代化歷史進程。
隱式分詞詞典的前景是光明的,路途不免遇到各種困難:
1.分詞規(guī)范問題。分詞標準的界定問題是漢語語法的一個基本、長期的問題。它涉及到核心詞表、詞的變形,詞綴等等方面。因此,《信息處理用現(xiàn)代漢語分詞詞表》針對語言信息處理的需求所提出的是:“這個詞表既要向根據(jù)語言學(xué)理念建立起來的詞表盡量靠攏,同時又要與老百姓心目中‘朦朦朧朧但又確乎存在的‘詞表盡量兼容?!?隱式分詞詞典不妨就按照這樣的分詞規(guī)范來做。
2.詞典的編制與運作。我們設(shè)想還要能夠讓詞典動起來,通過建立程序讓詞典可以自我更新,既得會“納新”有得會“吐陳”。對于出現(xiàn)達到一定的頻率的未登錄詞加以吸收使詞表完善,并對于過時的長期不用的詞語進行刪除,這樣一進一出使詞典基本保持平衡運作。
3.檢索用戶多樣化,需求不一。用戶層次的多樣化、層次不一,、需求深度不同,檢索系統(tǒng)需要針對不同用戶的特殊需求提供程度不一樣的檢索服務(wù)。對于不同領(lǐng)域的專業(yè)人士,檢索服務(wù)達到什么水平才算滿足大多數(shù)用戶的要求,這個尺度不易把握。(作者單位:北方民族大學(xué)文史學(xué)院)
基金項目:北方民族大學(xué)2014年區(qū)級大學(xué)生創(chuàng)新項目(項目編號QJCX-2014-001);北方民族大學(xué)2014年研究生創(chuàng)新院級項目;北方民族大學(xué)2015年研究生創(chuàng)新項目校級項目(項目編號YCX1507)
參考文獻:
[1]楊端志《漢語詞匯理論、詞典分詞與“詞”的認知》《山東大學(xué)學(xué)報》(哲學(xué)社會科學(xué)版)2003 年第6 期
[2]黃電,符紹宏自動分詞技術(shù)及其在信息檢索中應(yīng)用的研究.現(xiàn)代圖書情報技術(shù),2001;(1)
[3]黃昌寧.中文信息處理中的分詞問題語言文字應(yīng)用,1997;(1)
[4]國家技術(shù)監(jiān)份局,《中華人民共和國國家標準一信息處理用現(xiàn)代漢語分詞規(guī)范》(GB/T13715一92),s,中國標準出版社,1993年第一版。
[5]曹娟,周經(jīng)野.《隱式分詞連寫輸入方法—解決漢語分詞問題的根本途徑》,第二屆全國學(xué)生計算語言學(xué)研討會論文集,2004.8
[6]曹倩,丁艷,王超,等.漢語自動分詞研究及其在信息檢索中的應(yīng)用[J].計算機應(yīng)用研究,2004,(5):71~ 73.