楊世超 紀(jì)月 趙立鵬
摘要:雖然古漢語(yǔ)數(shù)字化程度已經(jīng)較高,但是自動(dòng)化信息處理仍進(jìn)展緩慢,針對(duì)這一問(wèn)題,采用條件隨機(jī)場(chǎng)模型制定特征模板進(jìn)行古漢語(yǔ)分詞研究并構(gòu)建古漢語(yǔ)訓(xùn)練語(yǔ)料庫(kù)。實(shí)驗(yàn)分析表明,制定具有語(yǔ)言特征的特征模板可以獲得較高的分詞性能。
關(guān)鍵詞:古漢語(yǔ);分詞;條件隨機(jī)場(chǎng);特征模板;語(yǔ)料庫(kù)
中圖分類(lèi)號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)22-0183-02
1概述
古漢語(yǔ)典籍記載了中華民族的精華,存世古籍總計(jì)10萬(wàn)種以上,如果計(jì)入碑刻、家譜等約15萬(wàn)種,這些存世古籍負(fù)載著厚重的中華文明,凝聚著民族智慧。目前香港中文大學(xué)已經(jīng)做了中文分詞的數(shù)字化工作,然而針對(duì)古漢語(yǔ)的研究?jī)H僅停留在數(shù)字化層面,近年來(lái)隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,人們?cè)诮鉀Q計(jì)算機(jī)視覺(jué)、機(jī)器翻譯等方面逐漸成熟,但是在古漢語(yǔ)自然語(yǔ)言處理方面仍進(jìn)展緩慢,要想實(shí)現(xiàn)古漢語(yǔ)的篇章理解、文本分析,首先需要將古漢語(yǔ)進(jìn)行準(zhǔn)確率、召回率以及F值都較高的分詞,才能保障后續(xù)工作的正確性。
2古漢語(yǔ)分詞面臨的問(wèn)題
目前公開(kāi)的分詞系統(tǒng)都是針對(duì)現(xiàn)代漢語(yǔ)的分詞工具,該分詞結(jié)果顯然不能滿(mǎn)足古漢語(yǔ)自高性能古漢語(yǔ)分詞系統(tǒng)不僅需要好的古漢語(yǔ)分詞模型,而且需要有充足的古漢語(yǔ)訓(xùn)練語(yǔ)料。但是仍沒(méi)有公開(kāi)的古漢語(yǔ)分詞語(yǔ)料庫(kù)。
3語(yǔ)料庫(kù)的構(gòu)建
考慮到人工標(biāo)記語(yǔ)料工作量大、成本高,且標(biāo)記規(guī)范不一致等問(wèn)題,首先參照《用于信息處理的現(xiàn)代漢語(yǔ)分詞規(guī)范》制定統(tǒng)一的分詞規(guī)范,然后使用人工制定的語(yǔ)料訓(xùn)練模型,之后采用該模型進(jìn)行分詞,將輸出的分詞結(jié)果進(jìn)行人工校訂放人標(biāo)準(zhǔn)語(yǔ)料庫(kù)。最終獲得的語(yǔ)料庫(kù)如下表2《孟子》語(yǔ)料所示。
4條件隨機(jī)場(chǎng)
2001年J.Lafferty等人提出的條件隨機(jī)場(chǎng)是一種無(wú)向圖模型,給定輸入可以根據(jù)一定的條件概率對(duì)輸出進(jìn)行預(yù)測(cè)的統(tǒng)計(jì)模型。該模型可以用于解決序分詞、命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)。CRF改進(jìn)了隱馬爾科夫模型和最大熵馬爾科夫模型,可以更好地解決標(biāo)注偏置問(wèn)題以得到更佳的判別值。它的特征模板允許加入更多復(fù)雜特征,可以將古漢語(yǔ)復(fù)雜特征設(shè)計(jì)到特征模。
4.1制定特征模板
古漢語(yǔ)有不同于現(xiàn)代漢語(yǔ)的詞法、語(yǔ)法特點(diǎn),為了獲得較高效的古漢語(yǔ)分詞系統(tǒng),制定帶有古漢語(yǔ)特征的CRF特征模板是非常必要的,例如,“者在”古漢語(yǔ)里經(jīng)常作為詞綴使用,這一用法通常跟在一個(gè)形容詞后,如“老”者表示“上年紀(jì)的老人”。因此,本文設(shè)計(jì)的特征模板的復(fù)雜特征加入了詞綴特征。
4.2條件隨機(jī)場(chǎng)實(shí)現(xiàn)古漢語(yǔ)分詞
4.2.1語(yǔ)料及標(biāo)記方案
選取《論語(yǔ)》《孟子》《大學(xué)》《中庸》作為實(shí)驗(yàn)的數(shù)據(jù)來(lái)源。實(shí)驗(yàn)中采用4詞位標(biāo)記進(jìn)行古漢語(yǔ)的字標(biāo)注,分別用B表示首字符、E表示尾字符以、M表示中間字符及S表示單字詞。
4.2.2數(shù)據(jù)預(yù)處理
本文所采用的條件隨機(jī)場(chǎng)方法基于開(kāi)源的CRF++實(shí)現(xiàn),根據(jù)上述4詞位集表示方法將訓(xùn)練語(yǔ)料表示成輸入數(shù)據(jù)所需格式:天B;時(shí)E;不B;如E;地B;利E。
將數(shù)據(jù)均分為10等份,按照9:1進(jìn)行劃分訓(xùn)練集和測(cè)試集。
4.2.3模型訓(xùn)練
采用上述預(yù)處理后格式的文件,作為CRF++的輸入,進(jìn)行古漢語(yǔ)分詞模型的訓(xùn)練。
4.2.4模型測(cè)試
采用訓(xùn)練好的模型對(duì)古漢語(yǔ)字符序列進(jìn)行分詞,并和測(cè)試集進(jìn)行比較,得出模型的準(zhǔn)確率、召回率以及F值。
5實(shí)驗(yàn)結(jié)果及結(jié)論
通過(guò)10-折交叉驗(yàn)證,每次用平均劃分的份語(yǔ)料中的9份作為訓(xùn)練語(yǔ)料,剩余一份作為測(cè)試語(yǔ)料,計(jì)算十次實(shí)驗(yàn)的平局測(cè)評(píng)數(shù)據(jù)來(lái)對(duì)模型進(jìn)行測(cè)評(píng),實(shí)驗(yàn)結(jié)果如下表3所示:
本文采用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)了古漢語(yǔ)分詞任務(wù),實(shí)驗(yàn)發(fā)現(xiàn)可以通過(guò)人工制定符合古漢語(yǔ)語(yǔ)言特征的特征模板來(lái)獲得較好的分詞效果。