基于條件隨機(jī)場(chǎng)的古漢語(yǔ)分詞研究

2017-10-26 11:15:20楊世超紀(jì)月趙立鵬

電腦知識(shí)與技術(shù) 2017年22期

楊世超　紀(jì)月　趙立鵬

摘要：雖然古漢語(yǔ)數(shù)字化程度已經(jīng)較高，但是自動(dòng)化信息處理仍進(jìn)展緩慢，針對(duì)這一問(wèn)題，采用條件隨機(jī)場(chǎng)模型制定特征模板進(jìn)行古漢語(yǔ)分詞研究并構(gòu)建古漢語(yǔ)訓(xùn)練語(yǔ)料庫(kù)。實(shí)驗(yàn)分析表明，制定具有語(yǔ)言特征的特征模板可以獲得較高的分詞性能。

關(guān)鍵詞：古漢語(yǔ)；分詞；條件隨機(jī)場(chǎng)；特征模板；語(yǔ)料庫(kù)

中圖分類(lèi)號(hào)：TP181 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2017）22-0183-02

1概述

古漢語(yǔ)典籍記載了中華民族的精華，存世古籍總計(jì)10萬(wàn)種以上，如果計(jì)入碑刻、家譜等約15萬(wàn)種，這些存世古籍負(fù)載著厚重的中華文明，凝聚著民族智慧。目前香港中文大學(xué)已經(jīng)做了中文分詞的數(shù)字化工作，然而針對(duì)古漢語(yǔ)的研究?jī)H僅停留在數(shù)字化層面，近年來(lái)隨著計(jì)算機(jī)技術(shù)的快速發(fā)展，人們?cè)诮鉀Q計(jì)算機(jī)視覺(jué)、機(jī)器翻譯等方面逐漸成熟，但是在古漢語(yǔ)自然語(yǔ)言處理方面仍進(jìn)展緩慢，要想實(shí)現(xiàn)古漢語(yǔ)的篇章理解、文本分析，首先需要將古漢語(yǔ)進(jìn)行準(zhǔn)確率、召回率以及F值都較高的分詞，才能保障后續(xù)工作的正確性。

2古漢語(yǔ)分詞面臨的問(wèn)題

目前公開(kāi)的分詞系統(tǒng)都是針對(duì)現(xiàn)代漢語(yǔ)的分詞工具，該分詞結(jié)果顯然不能滿(mǎn)足古漢語(yǔ)自高性能古漢語(yǔ)分詞系統(tǒng)不僅需要好的古漢語(yǔ)分詞模型，而且需要有充足的古漢語(yǔ)訓(xùn)練語(yǔ)料。但是仍沒(méi)有公開(kāi)的古漢語(yǔ)分詞語(yǔ)料庫(kù)。

3語(yǔ)料庫(kù)的構(gòu)建

考慮到人工標(biāo)記語(yǔ)料工作量大、成本高，且標(biāo)記規(guī)范不一致等問(wèn)題，首先參照《用于信息處理的現(xiàn)代漢語(yǔ)分詞規(guī)范》制定統(tǒng)一的分詞規(guī)范，然后使用人工制定的語(yǔ)料訓(xùn)練模型，之后采用該模型進(jìn)行分詞，將輸出的分詞結(jié)果進(jìn)行人工校訂放人標(biāo)準(zhǔn)語(yǔ)料庫(kù)。最終獲得的語(yǔ)料庫(kù)如下表2《孟子》語(yǔ)料所示。

4條件隨機(jī)場(chǎng)

2001年J.Lafferty等人提出的條件隨機(jī)場(chǎng)是一種無(wú)向圖模型，給定輸入可以根據(jù)一定的條件概率對(duì)輸出進(jìn)行預(yù)測(cè)的統(tǒng)計(jì)模型。該模型可以用于解決序分詞、命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)。CRF改進(jìn)了隱馬爾科夫模型和最大熵馬爾科夫模型，可以更好地解決標(biāo)注偏置問(wèn)題以得到更佳的判別值。它的特征模板允許加入更多復(fù)雜特征，可以將古漢語(yǔ)復(fù)雜特征設(shè)計(jì)到特征模。

4.1制定特征模板

古漢語(yǔ)有不同于現(xiàn)代漢語(yǔ)的詞法、語(yǔ)法特點(diǎn)，為了獲得較高效的古漢語(yǔ)分詞系統(tǒng)，制定帶有古漢語(yǔ)特征的CRF特征模板是非常必要的，例如，“者在”古漢語(yǔ)里經(jīng)常作為詞綴使用，這一用法通常跟在一個(gè)形容詞后，如“老”者表示“上年紀(jì)的老人”。因此，本文設(shè)計(jì)的特征模板的復(fù)雜特征加入了詞綴特征。

4.2條件隨機(jī)場(chǎng)實(shí)現(xiàn)古漢語(yǔ)分詞

4.2.1語(yǔ)料及標(biāo)記方案

選取《論語(yǔ)》《孟子》《大學(xué)》《中庸》作為實(shí)驗(yàn)的數(shù)據(jù)來(lái)源。實(shí)驗(yàn)中采用4詞位標(biāo)記進(jìn)行古漢語(yǔ)的字標(biāo)注，分別用B表示首字符、E表示尾字符以、M表示中間字符及S表示單字詞。

4.2.2數(shù)據(jù)預(yù)處理

本文所采用的條件隨機(jī)場(chǎng)方法基于開(kāi)源的CRF++實(shí)現(xiàn)，根據(jù)上述4詞位集表示方法將訓(xùn)練語(yǔ)料表示成輸入數(shù)據(jù)所需格式：天B；時(shí)E；不B；如E；地B；利E。

將數(shù)據(jù)均分為10等份，按照9：1進(jìn)行劃分訓(xùn)練集和測(cè)試集。

4.2.3模型訓(xùn)練

采用上述預(yù)處理后格式的文件，作為CRF++的輸入，進(jìn)行古漢語(yǔ)分詞模型的訓(xùn)練。

4.2.4模型測(cè)試

采用訓(xùn)練好的模型對(duì)古漢語(yǔ)字符序列進(jìn)行分詞，并和測(cè)試集進(jìn)行比較，得出模型的準(zhǔn)確率、召回率以及F值。

5實(shí)驗(yàn)結(jié)果及結(jié)論

通過(guò)10-折交叉驗(yàn)證，每次用平均劃分的份語(yǔ)料中的9份作為訓(xùn)練語(yǔ)料，剩余一份作為測(cè)試語(yǔ)料，計(jì)算十次實(shí)驗(yàn)的平局測(cè)評(píng)數(shù)據(jù)來(lái)對(duì)模型進(jìn)行測(cè)評(píng)，實(shí)驗(yàn)結(jié)果如下表3所示：

本文采用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)了古漢語(yǔ)分詞任務(wù)，實(shí)驗(yàn)發(fā)現(xiàn)可以通過(guò)人工制定符合古漢語(yǔ)語(yǔ)言特征的特征模板來(lái)獲得較好的分詞效果。