尤慧麗
摘要:中文自動分詞是中文信息處理的基礎(chǔ),交集型歧義字段的消解又是中文自動分詞中的重點。本文將CRFs模型用于交集型歧義字段的歧義消解中。該算法將交集型歧義字段的消解任務(wù)由二值分類的問題轉(zhuǎn)化為序列標(biāo)注的問題,這樣不僅能處理任意鏈長的交集型歧義字串,而且能夠充分利用上下文環(huán)境的信息,在不同的上下文環(huán)境中對真歧義字串進行正確的切分。
關(guān)鍵詞:中文自動分詞;交集型歧義;CRFs模型;序列標(biāo)注
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)18-0263-02
1引言
漢語詞語的切分往往存在歧義,歧義切分是自動分詞中一個比較棘手的問題。歧義切分字段從構(gòu)成形式上可以劃分為交集型歧義切分字段、組合型歧義切分字段和混合型歧義切分字段三種類型。交集型歧義切分字段是中文自動分詞系統(tǒng)中的主要歧義類型,據(jù)相關(guān)統(tǒng)計,交集型歧義切分字段占所有歧義切分字段的85%以上[1],一直以來是人們研究的重點,本文主要討論交集型歧義字段。
對消解交集型歧義字段,現(xiàn)階段主要的方法有:基于詞概率模型的歧義消解方法和基于最大熵模型的歧義消解方法等。文獻[2]中提及的方法在一元概率語法模型中簡單易行,但參與計算的只有歧義字段內(nèi)每個詞的出現(xiàn)概率,和上下文環(huán)境沒有關(guān)系。而在二元概率語法模型中雖然能夠利用上下文環(huán)境信息,但是它存在的最大困難是數(shù)據(jù)稀疏的問題。文獻[4]將最大熵模型應(yīng)用于交集型歧義字段的消解任務(wù)中,但其消歧準確率不是特別理想。本文在對現(xiàn)有方法進行深入分析的基礎(chǔ)上,采用基于條件隨機場模型的算法來解決交集型歧義字段的切分問題。
2預(yù)備知識
2.1交集型歧義字段的定義
定義1:交集型歧義字段:設(shè)漢字字符串[S=c1c2...cn],其中S不是詞,[ci(i=1,2......n)]為單個漢字,如果存在整數(shù)[i1],[i2],...,[im], [j1],[j2]…[jm]([m≥2])滿足:(1) [w1=ci1...cj1],[w2=ci2...cj2],[wm=cim...cjm]分別構(gòu)成詞,并且S中不存在包含[w1]、[w2]、…、[wm]的詞;(2) [w1]、[w2]、…、[wm]相互交叉,即[ik 例如: A、資助/的/女童/已/從/小學(xué)/畢業(yè)/ B、從小/學(xué)/書法 漢字字符串“從小學(xué)”為交集型切分歧義,這里“從小”、“小學(xué)”均為詞,并構(gòu)成交叉,所以“從小學(xué)”是一個交集型歧義切分字段。 定義2:鏈長:一個交集型切分歧義字段所包含的交集串的集合稱為交集串鏈,它的個數(shù)稱為鏈長。 例如,在交集型歧義切分字段“提高產(chǎn)品質(zhì)量”中、“提高”、“高產(chǎn)”、“產(chǎn)品”、“品質(zhì)”、“質(zhì)量”均為詞,交集串的集合為“國,“產(chǎn)”,“品”,“質(zhì)”,鏈長為4。 2.2條件隨機場模型 條件隨機場模型(簡稱CRFs模型)是Lafferty等人在2001年提出的,是一種優(yōu)秀的統(tǒng)計機器學(xué)習(xí)方法。CRFs是一種以給定的輸入節(jié)點值為條件預(yù)測輸出節(jié)點值概率的無向圖模型。用于模擬序列標(biāo)注的CRFs模型是個簡單的鏈式圖,圖1所示的圖形結(jié)構(gòu)為線鏈CRFs。 3 基于條件隨機場的歧義消解方法 筆者將CRFs模型應(yīng)用到交集型歧義字段的消解工作中,將交集型歧義的消解任務(wù)由傳統(tǒng)二值分類的問題轉(zhuǎn)化為序列標(biāo)注的相關(guān)問題。 3.1觀察序列和標(biāo)注序列的表示 筆者以三字長交集型歧義切分字段[W=c1c2c3]為例,[w-1]和[w+1]分別表代表歧義字串W的上下文語境的前一個詞和后一個詞。那么,待標(biāo)注的觀察序列為:[w-1],[c1],[c2],[c3],[w+1]。序列標(biāo)注的任務(wù)就是對每一個觀察單元賦予一個標(biāo)注符號,以確定該觀察單元的狀態(tài)信息。這些狀態(tài)信息用四種方式來表示,即:位于歧義字串W之外、位于歧義字串內(nèi)詞語之首字、位于歧義字串內(nèi)非詞語首字、位于歧義字串內(nèi)且該字為單字詞,分別用字母“O”、“B”、“I”、“S”來表示。 為了更加清楚地說明觀察序列和標(biāo)注序列的含義,用“資助/的/女童/已/從/小學(xué)/畢業(yè)/”這一例句進行說明,觀察序列為“已 從 小 學(xué) 畢業(yè)”,對應(yīng)的標(biāo)注序列為“O S B I O”。 3.2特征模板 作為交集型歧義字串W的上下文環(huán)境信息,詞語[w-1]和[w+1]也為字串W提供了邊界信息。即所有的標(biāo)注序列均用符號“O”開始,并以此來結(jié)束。因此,歧義字串W的邊界信息也是重要的特征之一。例如:對觀察序列[w-1],[c1],[c2],[c3],[w+1]而言,[w-1]和[w+1]的邊界特征為Is-Boundary,而[c1],[c2],[c3]的邊界特征為Not-Boundary。 特征采用文獻[4]所描述的表達方式。 [f(yi-1,yi,x,i)=p(x,i)q(yi-1,yi)] (2) 其中,[p(x,i)]表示觀察序列x在i位置所對應(yīng)的觀察特征函數(shù),[q(yi-1,yi)]表示狀態(tài)轉(zhuǎn)移函數(shù),特征模板的具體表述如表1。 4實驗與分析 4.1實驗設(shè)計 為了對算法的消歧性能進行有效的評估,做了兩個實驗:(1)用二元詞概率模型作為基線,依次對ME模型和CFRs模型的消歧性能做以對比; (2) 考察訓(xùn)練樣本數(shù)目對標(biāo)注正確率的影響。 實驗中所采用的數(shù)據(jù)是由富士通研究開發(fā)中心有限公司和北京大學(xué)計算語言學(xué)研究所共同標(biāo)注的具有1000萬字以上的1998年上半年《人民日報》語料。其中,1-5月份為訓(xùn)練語料,6月份為測試語料。第一步:將已切分好的語料還原成未切分的原始生語料;第二步:用包含大約42425條詞條的詞典對訓(xùn)練語料和測試語料用最長詞次長詞算法進行匹配;第三步:將切分好的語料與第二步的匹配結(jié)果進行校對,得到交集型歧義切分字段。在本文的實驗中主要考察三字長、四字長兩種類型的歧義字串。對于三字長歧義字串,重點考慮頻率大于1的字串。訓(xùn)練集數(shù)目和測試集數(shù)目的詳細信息如下表2所示。
4.2實驗結(jié)果與分析
4.2.1 三種模型的比較
為了測試基于CRFs模型算法的性能,筆者采用二元詞概率模型作為基線,依次對ME模型和CFRs模型的消歧性能做以對比。由于在整個實驗中訓(xùn)練語料的規(guī)模比較大,選擇二元語法模型作為詞概率模型的具體實例,其中數(shù)據(jù)稀疏的問題用文獻[2]中所述的方法來進行平滑。采用文獻[3]所述的前三種模板類型作為ME模型的特征模板,然后使用maxent工具包進行訓(xùn)練。實驗結(jié)果如表3所示:
為了使實驗結(jié)果更加直觀地呈現(xiàn)出來,我們用柱狀圖來表示:
從實驗結(jié)果中可以看到,CRFs模型得到的綜合指標(biāo)F值為95.96%,正確率為98.79%,兩個值較ME模型和WBM模型都要略高。
4.2.2 訓(xùn)練樣本數(shù)目對標(biāo)注正確率的影響
在實驗中,筆者將訓(xùn)練樣本數(shù)目從10000個詞條連續(xù)不斷地增加至61523個詞條,來考察訓(xùn)練樣本數(shù)目對標(biāo)注正確率的影響。最后分別測試了詞概率模型(WBM)、最大熵模型(ME)和條件隨機場模型(CFRs)對標(biāo)注正確率的變化規(guī)律 。實驗的測試結(jié)果如圖3所示:
從圖3的測試結(jié)果中我們看出,WBM模型的標(biāo)注正確率一直沒有改變。主要原因經(jīng)過分析是因為WBM模型的性能只與訓(xùn)練數(shù)據(jù)的大小有關(guān),不受訓(xùn)練樣本數(shù)目的影響。條件隨機場模型和最大熵模型的消歧正確率均隨著訓(xùn)練樣本數(shù)目的增加而增加,而且在整個過程中條件隨機場模型的正確率相對于最大熵模型的正確率都要略高。當(dāng)訓(xùn)練樣本的數(shù)目低于25000的時候,CRFs模型和ME模型兩種模型的標(biāo)注正確率均低于詞概率模型。對于ME模型來講,只有當(dāng)訓(xùn)練樣本的數(shù)目高于40000時,該模型的標(biāo)注正確率才能超過詞概率模型。而CRFs模型,只需大約25100左右的訓(xùn)練樣本,其性能就能超過詞概率模型??梢姡谛颖緮?shù)據(jù)的情況下,CRFs模型同樣具有優(yōu)越的表現(xiàn)。
5結(jié)束語
筆者針對當(dāng)前大鏈長交集型歧義字段處理較為煩瑣的情況,將條件隨機場模型應(yīng)用到交集型歧義字段的消解任務(wù)中。最后做了大量實驗,實驗結(jié)果證明這種算法不僅能處理任意鏈長的交集型歧義字串,而且能夠充分利用上下文環(huán)境信息,在不同的上下文環(huán)境中對真歧義字串能夠進行正確的切分。取得了較為理想的效果,在很大程度上為解決中文自動分詞歧義問題提供了一種可行的途徑。但實現(xiàn)的結(jié)果是以序列標(biāo)注為前提的,而且沒有考慮句子中的未登錄詞和混合型歧義字段等問題,這正是下一步需要研究和改進的.
參考文獻:
[1] 孫茂松,左正平,鄒嘉彥.高頻最大交集型歧義切分字段在漢語自動分詞中的作用[J].中文信息學(xué)報,1999,13(1):27-34.
[2] 陳小荷.用基于詞的二元模型消解交集型分詞歧義[J].南京師大學(xué)報,2004,11(6):109-1126.
[3] 任惠,林鴻飛,楊志豪 融合字特征的平滑最大熵模型消解交集型歧義[J].中文信息學(xué)報,2010.