• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于條件隨機(jī)場(chǎng)的古漢語(yǔ)分詞研究

      2017-10-26 11:15:20楊世超紀(jì)月趙立鵬
      電腦知識(shí)與技術(shù) 2017年22期
      關(guān)鍵詞:古漢語(yǔ)分詞語(yǔ)料庫(kù)

      楊世超 紀(jì)月 趙立鵬

      摘要:雖然古漢語(yǔ)數(shù)字化程度已經(jīng)較高,但是自動(dòng)化信息處理仍進(jìn)展緩慢,針對(duì)這一問(wèn)題,采用條件隨機(jī)場(chǎng)模型制定特征模板進(jìn)行古漢語(yǔ)分詞研究并構(gòu)建古漢語(yǔ)訓(xùn)練語(yǔ)料庫(kù)。實(shí)驗(yàn)分析表明,制定具有語(yǔ)言特征的特征模板可以獲得較高的分詞性能。

      關(guān)鍵詞:古漢語(yǔ);分詞;條件隨機(jī)場(chǎng);特征模板;語(yǔ)料庫(kù)

      中圖分類(lèi)號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)22-0183-02

      1概述

      古漢語(yǔ)典籍記載了中華民族的精華,存世古籍總計(jì)10萬(wàn)種以上,如果計(jì)入碑刻、家譜等約15萬(wàn)種,這些存世古籍負(fù)載著厚重的中華文明,凝聚著民族智慧。目前香港中文大學(xué)已經(jīng)做了中文分詞的數(shù)字化工作,然而針對(duì)古漢語(yǔ)的研究?jī)H僅停留在數(shù)字化層面,近年來(lái)隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,人們?cè)诮鉀Q計(jì)算機(jī)視覺(jué)、機(jī)器翻譯等方面逐漸成熟,但是在古漢語(yǔ)自然語(yǔ)言處理方面仍進(jìn)展緩慢,要想實(shí)現(xiàn)古漢語(yǔ)的篇章理解、文本分析,首先需要將古漢語(yǔ)進(jìn)行準(zhǔn)確率、召回率以及F值都較高的分詞,才能保障后續(xù)工作的正確性。

      2古漢語(yǔ)分詞面臨的問(wèn)題

      目前公開(kāi)的分詞系統(tǒng)都是針對(duì)現(xiàn)代漢語(yǔ)的分詞工具,該分詞結(jié)果顯然不能滿(mǎn)足古漢語(yǔ)自高性能古漢語(yǔ)分詞系統(tǒng)不僅需要好的古漢語(yǔ)分詞模型,而且需要有充足的古漢語(yǔ)訓(xùn)練語(yǔ)料。但是仍沒(méi)有公開(kāi)的古漢語(yǔ)分詞語(yǔ)料庫(kù)。

      3語(yǔ)料庫(kù)的構(gòu)建

      考慮到人工標(biāo)記語(yǔ)料工作量大、成本高,且標(biāo)記規(guī)范不一致等問(wèn)題,首先參照《用于信息處理的現(xiàn)代漢語(yǔ)分詞規(guī)范》制定統(tǒng)一的分詞規(guī)范,然后使用人工制定的語(yǔ)料訓(xùn)練模型,之后采用該模型進(jìn)行分詞,將輸出的分詞結(jié)果進(jìn)行人工校訂放人標(biāo)準(zhǔn)語(yǔ)料庫(kù)。最終獲得的語(yǔ)料庫(kù)如下表2《孟子》語(yǔ)料所示。

      4條件隨機(jī)場(chǎng)

      2001年J.Lafferty等人提出的條件隨機(jī)場(chǎng)是一種無(wú)向圖模型,給定輸入可以根據(jù)一定的條件概率對(duì)輸出進(jìn)行預(yù)測(cè)的統(tǒng)計(jì)模型。該模型可以用于解決序分詞、命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)。CRF改進(jìn)了隱馬爾科夫模型和最大熵馬爾科夫模型,可以更好地解決標(biāo)注偏置問(wèn)題以得到更佳的判別值。它的特征模板允許加入更多復(fù)雜特征,可以將古漢語(yǔ)復(fù)雜特征設(shè)計(jì)到特征模。

      4.1制定特征模板

      古漢語(yǔ)有不同于現(xiàn)代漢語(yǔ)的詞法、語(yǔ)法特點(diǎn),為了獲得較高效的古漢語(yǔ)分詞系統(tǒng),制定帶有古漢語(yǔ)特征的CRF特征模板是非常必要的,例如,“者在”古漢語(yǔ)里經(jīng)常作為詞綴使用,這一用法通常跟在一個(gè)形容詞后,如“老”者表示“上年紀(jì)的老人”。因此,本文設(shè)計(jì)的特征模板的復(fù)雜特征加入了詞綴特征。

      4.2條件隨機(jī)場(chǎng)實(shí)現(xiàn)古漢語(yǔ)分詞

      4.2.1語(yǔ)料及標(biāo)記方案

      選取《論語(yǔ)》《孟子》《大學(xué)》《中庸》作為實(shí)驗(yàn)的數(shù)據(jù)來(lái)源。實(shí)驗(yàn)中采用4詞位標(biāo)記進(jìn)行古漢語(yǔ)的字標(biāo)注,分別用B表示首字符、E表示尾字符以、M表示中間字符及S表示單字詞。

      4.2.2數(shù)據(jù)預(yù)處理

      本文所采用的條件隨機(jī)場(chǎng)方法基于開(kāi)源的CRF++實(shí)現(xiàn),根據(jù)上述4詞位集表示方法將訓(xùn)練語(yǔ)料表示成輸入數(shù)據(jù)所需格式:天B;時(shí)E;不B;如E;地B;利E。

      將數(shù)據(jù)均分為10等份,按照9:1進(jìn)行劃分訓(xùn)練集和測(cè)試集。

      4.2.3模型訓(xùn)練

      采用上述預(yù)處理后格式的文件,作為CRF++的輸入,進(jìn)行古漢語(yǔ)分詞模型的訓(xùn)練。

      4.2.4模型測(cè)試

      采用訓(xùn)練好的模型對(duì)古漢語(yǔ)字符序列進(jìn)行分詞,并和測(cè)試集進(jìn)行比較,得出模型的準(zhǔn)確率、召回率以及F值。

      5實(shí)驗(yàn)結(jié)果及結(jié)論

      通過(guò)10-折交叉驗(yàn)證,每次用平均劃分的份語(yǔ)料中的9份作為訓(xùn)練語(yǔ)料,剩余一份作為測(cè)試語(yǔ)料,計(jì)算十次實(shí)驗(yàn)的平局測(cè)評(píng)數(shù)據(jù)來(lái)對(duì)模型進(jìn)行測(cè)評(píng),實(shí)驗(yàn)結(jié)果如下表3所示:

      本文采用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)了古漢語(yǔ)分詞任務(wù),實(shí)驗(yàn)發(fā)現(xiàn)可以通過(guò)人工制定符合古漢語(yǔ)語(yǔ)言特征的特征模板來(lái)獲得較好的分詞效果。

      猜你喜歡
      古漢語(yǔ)分詞語(yǔ)料庫(kù)
      古漢語(yǔ)疑問(wèn)句末“為”字補(bǔ)證
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      結(jié)巴分詞在詞云中的應(yīng)用
      上古漢語(yǔ)“施”字音義考
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      值得重視的分詞的特殊用法
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      談?wù)劰艥h語(yǔ)的翻譯
      古漢語(yǔ)中表反問(wèn)的一組能愿動(dòng)詞
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      明溪县| 莎车县| 汤阴县| 南平市| 陵川县| 黑水县| 类乌齐县| 哈巴河县| 望奎县| 墨脱县| 城口县| 鞍山市| 青龙| 鲜城| 化德县| 东山县| 开远市| 吉水县| 沙坪坝区| 都兰县| 新干县| 高安市| 昭觉县| 台东市| 昌黎县| 栾川县| 长海县| 合作市| 姜堰市| 东乡族自治县| 景宁| 清远市| 河东区| 陈巴尔虎旗| 中江县| 石城县| 奎屯市| 曲麻莱县| 嘉鱼县| 利川市| 郯城县|