• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    文言信息的自動(dòng)抽?。夯诮y(tǒng)計(jì)和規(guī)則的嘗試

    2015-04-12 11:30:52虞寧翌饒高琦1荀恩東
    中文信息學(xué)報(bào) 2015年6期
    關(guān)鍵詞:白話(huà)文虛詞文言

    虞寧翌,饒高琦1,,荀恩東

    (1.北京語(yǔ)言大學(xué)語(yǔ)言科學(xué)院,北京100083;2.北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院,北京100083)

    1 引言

    中國(guó)語(yǔ)言由古代文言文到現(xiàn)代白話(huà)文經(jīng)過(guò)了近三千年的發(fā)展演變。排除字形的變化,語(yǔ)言本身在詞匯、語(yǔ)法和篇章層面都產(chǎn)生了巨大變化,但卻不失其連續(xù)性。這一特點(diǎn)使得在大時(shí)間跨度上研究漢語(yǔ)特征變化成為重要課題。對(duì)書(shū)面語(yǔ)進(jìn)行文言/白話(huà)標(biāo)注有助于對(duì)語(yǔ)言進(jìn)行歷時(shí)性的描寫(xiě),分析語(yǔ)言風(fēng)格,了解漢語(yǔ)書(shū)面語(yǔ)的發(fā)展情況。同時(shí)也方便對(duì)文言、白話(huà)混雜語(yǔ)料的分類(lèi)和加工。

    傳統(tǒng)的語(yǔ)言學(xué)自省的方法有其固有的主觀、高成本和緩慢的局限性。在文言、白話(huà)分類(lèi)標(biāo)注這一問(wèn)題中引入自然語(yǔ)言處理的成熟方法和模型,結(jié)合專(zhuān)家自省知識(shí),則有助于克服以上問(wèn)題。本文研究中發(fā)現(xiàn)的特征和方法反過(guò)來(lái)又可以深化對(duì)漢語(yǔ)演變作為一個(gè)連續(xù)統(tǒng)的認(rèn)識(shí),因而具有一定的理論價(jià)值。本文的研究在一定程度上驗(yàn)證了王力先生提出的觀點(diǎn),即文言與白話(huà)的分野不在詞匯與句式,而是虛詞系統(tǒng)[1]。

    在語(yǔ)料庫(kù)構(gòu)建的實(shí)踐中,我們?cè)庥隽宋难晕恼Z(yǔ)料和白話(huà)文語(yǔ)料混合的情況,這給語(yǔ)料庫(kù)的科學(xué)平衡構(gòu)建帶來(lái)了一定困難。在語(yǔ)言生活的調(diào)研工作中,社會(huì)大眾的文言使用情況是重要的調(diào)查目標(biāo)。在現(xiàn)代書(shū)面語(yǔ)寫(xiě)作中文言、白話(huà)夾雜的現(xiàn)象也比比皆是,這給句法語(yǔ)義分析帶來(lái)很大困擾。因而在大規(guī)模語(yǔ)料中通過(guò)計(jì)算手段自動(dòng)標(biāo)注文言文/白話(huà)文也具有重要的實(shí)踐和工程價(jià)值。本文研究發(fā)現(xiàn)使用基于字的統(tǒng)計(jì)特征可以實(shí)現(xiàn)對(duì)文言文較為精確的標(biāo)注。

    文章的組織結(jié)構(gòu)如下:第2節(jié)簡(jiǎn)述了現(xiàn)有相關(guān)研究;第3節(jié)描述了語(yǔ)料和測(cè)試集的構(gòu)建;第4節(jié)描述了基于規(guī)則的方法;第5節(jié)描述基于統(tǒng)計(jì)的方法;第6節(jié)是結(jié)論與展望。

    2 研究現(xiàn)狀

    經(jīng)過(guò)調(diào)研,與本文研究方向相同的研究工作并不多,相關(guān)的研究方向有漢語(yǔ)年代劃分、用字特征、語(yǔ)言風(fēng)格、中文文本分類(lèi)等方向。語(yǔ)言的發(fā)展是一個(gè)有序、緩慢、逐步演變的過(guò)程。社會(huì)語(yǔ)言學(xué)的理論揭示:語(yǔ)言是在穩(wěn)態(tài)中變化,在變化中保持穩(wěn)態(tài)。穩(wěn)態(tài)不同于靜態(tài)。自然語(yǔ)言處理通常關(guān)注共時(shí)語(yǔ)料,也即一個(gè)時(shí)間切片上的語(yǔ)言數(shù)據(jù)。大規(guī)模語(yǔ)料庫(kù)亦少對(duì)時(shí)間信息進(jìn)行標(biāo)注。而實(shí)際上,語(yǔ)言是不斷發(fā)展變化的。語(yǔ)料數(shù)據(jù)亦有其時(shí)效性。這不僅表現(xiàn)在詞匯短語(yǔ)的分布上,也表現(xiàn)在語(yǔ)義乃至語(yǔ)言風(fēng)格上[2-3]。

    石毓智對(duì)漢語(yǔ)發(fā)展的雙音化趨勢(shì)和動(dòng)補(bǔ)結(jié)構(gòu)進(jìn)行了探究。漢語(yǔ)的雙音化并非一蹴而就,是自漢代以來(lái)逐漸發(fā)展的[4]。胡裕樹(shù)在1981年對(duì)雙音化情況進(jìn)行過(guò)統(tǒng)計(jì),不計(jì)詞類(lèi)區(qū)別,在3 000個(gè)最常用的詞中,75%是雙音節(jié)詞,還有大量未列入的雙音節(jié)常用詞。總體上說(shuō),雙音詞占漢語(yǔ)詞匯的80%以上[5]。呂叔湘在1961年提出,在很多情況下,單音節(jié)詞只有加上一個(gè)音節(jié)(詞綴)才能獨(dú)立成詞或作為句子成分[6]。

    2012年和2013年,Mihalcea等和Popescu等[7-8]提出了時(shí)代消歧和時(shí)代檢測(cè)兩個(gè)任務(wù)及其基線(xiàn)。前者使用多種Welch測(cè)試、Run測(cè)試、最小二乘、Ratio、斯皮爾曼和Kendall測(cè)試等統(tǒng)計(jì)方法來(lái)判斷重要詞語(yǔ)(尤其是政治相關(guān)詞語(yǔ))在近兩百年的Google N-gram Corpus的分布,以判斷其是否隨機(jī),由此來(lái)進(jìn)行歷史時(shí)期分割。Mihalcea等提出的時(shí)代消歧任務(wù)是在詞語(yǔ)中挑選出具有時(shí)代區(qū)分力的詞語(yǔ)。

    在歷時(shí)語(yǔ)料的建設(shè)方面,北京語(yǔ)言大學(xué)建立的現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng),使用了《貴州日?qǐng)?bào)》《福建日?qǐng)?bào)》和《人民日?qǐng)?bào)》共計(jì)8億字、4.7億詞,并提供在線(xiàn)檢索①http://nlp.blcu.edu.cn/historical20%computing。時(shí)間跨度為1949—2013年[9]。北語(yǔ)漢語(yǔ)語(yǔ)料庫(kù)BCC的文學(xué)頻道則收集了時(shí)間跨度約為100年的文學(xué)語(yǔ)料24億字,并提供在線(xiàn)檢索[10]②http://bcc.blcu.edu.cn/index.php?corpus=1。

    3 測(cè)試集與統(tǒng)計(jì)基線(xiàn)

    3.1 單句測(cè)試集

    單句測(cè)試集包括1 372句文言文和1 538句白話(huà)文,共有2 900句,文言文和白話(huà)文的數(shù)量大致平衡。文言文部分選用了《論語(yǔ)》中的單句?!墩撜Z(yǔ)》形成于我國(guó)春秋時(shí)期,是最早的語(yǔ)錄體文集,記錄了孔子及其弟子的言行?!墩撜Z(yǔ)》作為儒家經(jīng)典文學(xué),有悠久的歷史,其中沒(méi)有白話(huà)文成分,是典型的文言作品?!墩撜Z(yǔ)》有較為成熟的句讀,易于程序切分為單句,方便使用,白話(huà)文部分采集自《人民日?qǐng)?bào)》?!度嗣袢?qǐng)?bào)》是我國(guó)第一大報(bào),使用了典范的現(xiàn)代漢語(yǔ)白話(huà)文,用字用詞十分規(guī)范。

    測(cè)試集的句子長(zhǎng)度保持在5—100字之間。若句長(zhǎng)小于5個(gè)字,句子中可判斷特征不明顯,實(shí)際可判斷力過(guò)差,會(huì)降低測(cè)試結(jié)果的有效性??紤]單句的實(shí)際情況,句長(zhǎng)超過(guò)100字的現(xiàn)象并不常見(jiàn)。古漢語(yǔ)的平均句長(zhǎng)通常小于現(xiàn)代漢語(yǔ)的平均句長(zhǎng)。若采用大量特殊的過(guò)長(zhǎng)現(xiàn)代漢語(yǔ)作為測(cè)試集,可能影響標(biāo)注,再則缺乏效力。

    測(cè)試集樣例:

    文言文:<文> 有朋自遠(yuǎn)方來(lái),不亦樂(lè)乎?

    <文> 孝弟也者,其為仁之本與!

    白話(huà)文:<白> 那么,增收的原因何在?

    <白> 移風(fēng)易俗,提倡健康文明的生活習(xí)慣!

    3.2 段落測(cè)試集

    段落測(cè)試集包括1 050段古漢語(yǔ)和1 050段現(xiàn)代漢語(yǔ),共2 100段,古漢語(yǔ)和現(xiàn)代漢語(yǔ)的數(shù)量持平。文言文部分選用了《古文觀止》和《全唐文》的段落?!豆盼挠^止》是歷代文言散文的精選集,清康熙年間編纂;《全唐文》是唐代及五代十國(guó)的文言散文,清嘉慶年間編纂。兩者均為清代中期前編纂,選文于上古和中古漢語(yǔ),是典范的文言文作品,不包含白話(huà)文,而且其段落長(zhǎng)度適中,適宜被選作段落測(cè)試集。

    白話(huà)文部分選用了《人民日?qǐng)?bào)》和《王朔文集》的段落。《人民日?qǐng)?bào)》的段落中包含較多阿拉伯?dāng)?shù)字和字母,在文言文中沒(méi)有阿拉伯?dāng)?shù)字和字母,因而不宜在測(cè)試集中使用,在尋找純漢字段落之外,我們還引入了《王朔文集》。王朔從20世紀(jì)80年代開(kāi)始寫(xiě)作,作品內(nèi)容為典型的當(dāng)代白話(huà)文?!冬F(xiàn)代漢語(yǔ)》等教材亦多使用其內(nèi)容做例句、例文。

    測(cè)試集中,段落長(zhǎng)度基本保持在100—300字之間。段落測(cè)試集格式與單句測(cè)試集相同。段落測(cè)試集僅用于對(duì)單句測(cè)試集結(jié)果的補(bǔ)充驗(yàn)證。

    3.3 報(bào)章體測(cè)試集

    報(bào)章體測(cè)試集包括1 000段梁?jiǎn)⒊淖髌?。梁?jiǎn)⒊菆?bào)章體文學(xué)的代表人物,他的作品文白相間,在近代中國(guó)具有很大的影響力。測(cè)試集被同時(shí)標(biāo)為文言文和白話(huà)文兩種形式,用于測(cè)試。段落長(zhǎng)度基本保持在100—300字之間。該測(cè)試集并不用于測(cè)試方法性能,僅用于研究報(bào)章體文學(xué)的用字特性。

    測(cè)試集舉例如下所示。

    <白>|<文> 四曰厲國(guó)恥。務(wù)使吾國(guó)民知我國(guó)在世界上之位置,知東西列強(qiáng)待我國(guó)之政策,鑒觀既往,熟察現(xiàn)在,以圖將來(lái)。內(nèi)其國(guó)而外諸邦,一以天演學(xué)物競(jìng)天擇、優(yōu)勝劣敗之公例,疾呼而棒喝之,以冀同胞之一悟。

    3.4 評(píng)測(cè)標(biāo)準(zhǔn)

    測(cè)試集中每個(gè)單句或段落之前有文言文和白話(huà)文的區(qū)別標(biāo)注。將測(cè)試集中的一個(gè)條目通過(guò)文言文和白話(huà)文的判別模型,將測(cè)試語(yǔ)句標(biāo)注為古漢語(yǔ)或現(xiàn)代漢語(yǔ),然后和原語(yǔ)句標(biāo)注情況進(jìn)行比較,分別獲得白話(huà)文和文言文的正確率P、召回率R和F值。

    正確率P=提取出的正確信息條數(shù)/提取出的信息條數(shù)

    召回率R=提取出的正確信息條數(shù)/樣本中的信息條數(shù)

    F值=正確率*召回率*2/(正確率+召回率)

    3.5 基線(xiàn)0

    將測(cè)試集的結(jié)果全部判斷為文言文或白話(huà)文。當(dāng)全部判斷為白話(huà)文時(shí),白話(huà)文的正確率約為0.529,召回率為1,F(xiàn)值約為0.692;當(dāng)全部判斷為文言文時(shí),文言文的正確率約為0.471,召回率為1,F(xiàn)值約為0.641。

    在以下的實(shí)驗(yàn)中,測(cè)試集與訓(xùn)練語(yǔ)料均沒(méi)有交疊。

    4 基于規(guī)則的方法

    4.1 用字特征

    漢語(yǔ)在漫長(zhǎng)的演變歷史中存在雙音化現(xiàn)象,也即越古老的文本中,越多的詞語(yǔ)為單音節(jié)詞,而越現(xiàn)代的則越多使用多音節(jié)詞(雙音為主)。在大多數(shù)情況下,古代的單音節(jié)詞在現(xiàn)代漢語(yǔ)的譯文中都以雙音節(jié)詞的形式出現(xiàn)。所以,在通常情況下,現(xiàn)代漢語(yǔ)的句長(zhǎng)長(zhǎng)于古漢語(yǔ)。以論語(yǔ)為例,原文總字?jǐn)?shù)為21 475字,某譯文總字?jǐn)?shù)為29 725。原文總字?jǐn)?shù)約占譯文總字?jǐn)?shù)的72.2%。

    隨著語(yǔ)言的演變,常見(jiàn)字集的內(nèi)容出現(xiàn)了明顯的轉(zhuǎn)移。例如,文言文中常見(jiàn)的指示代詞“斯”、“彼”等,在白話(huà)文中逐漸被“這”、“那”等所取代;文言文中常用的人稱(chēng)代詞“爾”、“其”等,在白話(huà)文中表示為“你”、“他”等。常見(jiàn)字的出現(xiàn)情況對(duì)古漢語(yǔ)、現(xiàn)代漢語(yǔ)的區(qū)分可以起到一定的參考作用[1]。

    通常認(rèn)為,實(shí)詞往往具有鮮明的時(shí)代特征。但是在本文任務(wù)中,實(shí)詞需要謹(jǐn)慎對(duì)待。很多實(shí)詞,如“經(jīng)濟(jì)”、“民主”、“國(guó)家”等,看似可以成為白話(huà)文的特征詞,實(shí)則其歷史可追溯到中古乃至上古,只是其含義與今日不同罷了[11]。因而實(shí)詞反而不適合作為判別特征來(lái)使用。

    4.2 句式分析

    在文言文中,特殊句式主要有四種,分別為:判斷句、被動(dòng)句、倒裝句、省略句。有些句式可以用結(jié)句式直接表示出來(lái),例如,判斷句“……者,……也”、“……也”等,被動(dòng)句“……見(jiàn)……于”、“為……所”等。還有一些無(wú)法用結(jié)句式直接表示出來(lái),例如,倒裝句、省略句。

    在現(xiàn)代漢語(yǔ)中,特殊句式有六種,分別為:把字句、被字句、連動(dòng)句、兼語(yǔ)句、判斷句,存現(xiàn)句。其中,把字句、被字句可以直接由“把”字、“被”字判斷,其他句式的判斷很難形式化。但是,由于白話(huà)文中“把”字、“被”字不僅僅是介詞,還會(huì)出現(xiàn)在其他詞語(yǔ)里,所以?xún)H憑“把”字、“被”字很難確定是否是把字句、被字句。文言文的特殊句式對(duì)文言文、白話(huà)文的區(qū)分可以具有的參考價(jià)值相對(duì)較大[12-13]。因此本文在基于規(guī)則的方法中使用文言句式來(lái)進(jìn)行分析。

    4.3 基于規(guī)則的實(shí)驗(yàn)

    選取常見(jiàn)的古漢語(yǔ)24個(gè)虛詞:之、乎、者、也、耶、矣、哉、於、吾、汝、爾、而、何、乃、其、且、若、所、為、焉、以、因、于、則。但是我們注意到,許多現(xiàn)代漢語(yǔ)的詞中也包含有這些虛詞??紤]到測(cè)試集本身不做分詞處理,我們從現(xiàn)代漢語(yǔ)詞典中匹配含有該虛詞的現(xiàn)漢詞語(yǔ),形成一個(gè)排歧詞表。對(duì)于測(cè)試集句子,匹配到該虛詞,且又不是排歧詞表中的詞語(yǔ),則虛詞數(shù)加1。匹配結(jié)束后,返回該句虛詞總數(shù)。

    構(gòu)造句式函數(shù),將測(cè)試句輸入。匹配測(cè)試句中是否出現(xiàn)下列句式:以“也”作為結(jié)尾,“……者,……也”,“為……所”,“無(wú)乃……于”。若出現(xiàn)一次句式,則句式數(shù)加1。匹配結(jié)束后,返回該句句式總數(shù)。

    將測(cè)試集中的句子輸入虛詞函數(shù)和句式函數(shù),若其中一個(gè)函數(shù)的返回結(jié)果大于0,則輸出句子為文言文,反之,輸出句子為白話(huà)文。

    經(jīng)過(guò)測(cè)評(píng),白話(huà)文的判斷正確率約為0.821,召回率約為0.458,F(xiàn)值約為0.588;文言文判斷的正確率約為0.594,召回率約為0.888,F(xiàn)值約為0.712。

    由測(cè)評(píng)結(jié)果可知,通過(guò)虛詞和句式規(guī)則測(cè)評(píng)后,白話(huà)文判斷的正確率較高,但是召回率不足,文言文判斷的正確率不足,但是召回率較高。出現(xiàn)這種現(xiàn)象的原因主要有:1.文言文中的常用虛詞在白話(huà)文中仍有大量運(yùn)用,且還是作為虛詞運(yùn)用;2.文言文中的實(shí)詞在白話(huà)文中仍有運(yùn)用;3.文言文中存在不包含虛詞的單句。

    這從一個(gè)側(cè)面上反映了現(xiàn)代漢語(yǔ)和古漢語(yǔ)之間沒(méi)有明確分界的事實(shí)。

    4.4 基于規(guī)則的優(yōu)化實(shí)驗(yàn)

    在基于規(guī)則的實(shí)驗(yàn)中,我們進(jìn)行兩方面的擴(kuò)充:1.虛詞。2.句式。

    在虛詞的擴(kuò)充情況中,不僅僅考慮虛詞是否存在,而是將虛詞出現(xiàn)的次數(shù)與句長(zhǎng)聯(lián)系起來(lái)。虛詞集的內(nèi)容與4.3中相同,虛詞出現(xiàn)次數(shù)通過(guò)虛詞出現(xiàn)的次數(shù)減去含虛詞的白話(huà)文詞語(yǔ)(排歧詞表內(nèi)容)出現(xiàn)的個(gè)數(shù)得到,然后除以句子長(zhǎng)度。

    在句式的擴(kuò)充情況中,將原來(lái)的四種句式擴(kuò)充為26種句式,包括:句首的“夫”、“若夫”、“且夫”、“今夫”、“孰”、“吾”;標(biāo)點(diǎn)前的“也”、“矣”、“焉”、“乎”、“諸”、“邪”、“哉”、“之”、“耶”、“曰”;以及固定搭配“如……何”、“若……何”、“奈……何”、“何以……為”、“何……之有”、“……者,……也”、“為……所”、“問(wèn)于”、“之以”、“無(wú)乃……于”。對(duì)測(cè)試集語(yǔ)句進(jìn)行匹配以考察其是否滿(mǎn)足句式。

    在測(cè)試中,若滿(mǎn)足句式或者虛詞頻率大于閾值t,就判斷句子為文言文,否則,為白話(huà)文。本文對(duì)虛詞頻率的閾值t進(jìn)行了對(duì)比實(shí)驗(yàn)。

    圖1是文言文正確率和F值在虛詞頻率的閾值t改變情況下的變化情況。橫坐標(biāo)為虛詞頻率的閾值,主縱坐標(biāo)為文言文F值,次縱坐標(biāo)為正確率。由圖可知,文言文正確率隨t值減小,F(xiàn)值在t=0.08的情況下達(dá)到0.941。

    圖1 文言文正確率和F值對(duì)比圖

    圖2是白話(huà)文正確率和F值在虛詞頻率的閾值t改變情況下的對(duì)比圖。橫坐標(biāo)為虛詞頻率的閾值,主縱坐標(biāo)為白話(huà)文F值,次縱坐標(biāo)為白話(huà)文正確率。由圖2可知,白話(huà)文正確率隨t值減小而增大。白話(huà)文的F值在t=0.08的情況下最高達(dá)到0.95。

    綜上所述,當(dāng)虛詞頻率的閾值t為0.08時(shí),優(yōu)化規(guī)則模型最優(yōu)。由4.3節(jié)可知,虛詞本身的存在對(duì)現(xiàn)代漢語(yǔ)的影響比較大,但是白話(huà)文的句長(zhǎng)普遍長(zhǎng)于文言文,且白話(huà)文虛詞數(shù)少于文言文的虛詞數(shù)。所以,虛詞數(shù)除以句長(zhǎng)得到的虛詞頻率在白話(huà)文中會(huì)遠(yuǎn)遠(yuǎn)小于文言文,因此t值可以發(fā)揮其分類(lèi)作用。圖3為兩種規(guī)則方法和基線(xiàn)0的F值比較。

    圖2 現(xiàn)代漢語(yǔ)正確率和F值對(duì)比圖

    圖3 基線(xiàn)0、規(guī)則和優(yōu)化規(guī)則的F值

    5 基于統(tǒng)計(jì)的方法

    5.1 N-gram語(yǔ)言模型

    本文在BCC語(yǔ)料庫(kù)古漢語(yǔ)頻道選取清代中期以前的文言文語(yǔ)料1.5億字(gbk編碼下約300M)和2000年前后的《人民日?qǐng)?bào)》語(yǔ)料1.5億字(gbk編碼下約300M)。我們使用Cambridge-CMU language toolkit實(shí)現(xiàn)了語(yǔ)言模型[14]。

    選用單句測(cè)試集,在測(cè)試的過(guò)程中,將測(cè)試語(yǔ)句在一元、二元、三元狀況下頻率的log值相加作為分?jǐn)?shù)。將在文言模型和白話(huà)模型中得到的分?jǐn)?shù)對(duì)比。將句子標(biāo)記為得分較高的模型。例如,

    有朋自遠(yuǎn)方來(lái),不亦樂(lè)乎?

    白話(huà)分值:-36.470 589

    文言分值:-33.058 824

    文言分值高于白話(huà)分值,則標(biāo)記為文言。

    將標(biāo)記結(jié)果與測(cè)試語(yǔ)句人工標(biāo)注結(jié)果對(duì)比,得到模型的正確率、召回率和F值。從中選取F值最高,且大小適中的模型為最優(yōu)模型。本文認(rèn)為F值越大,模型測(cè)試的結(jié)果越好。

    圖4是三元與二元語(yǔ)言模型的訓(xùn)練語(yǔ)料規(guī)模大小對(duì)標(biāo)注F值的影響。

    圖4 三元與二元模型對(duì)比圖

    在三元模型中,白話(huà)模型測(cè)試結(jié)果的F值隨模型語(yǔ)料的增大呈振蕩下降趨勢(shì)。在模型為50M時(shí),F(xiàn)值最大,約為0.785;在模型為100M時(shí),F(xiàn)值降為約0.590;當(dāng)模型為150M—300M時(shí),F(xiàn)值保持在0.3—0.2左右。

    文言模型測(cè)試結(jié)果的F值當(dāng)模型為100M時(shí)最大,約為0.751;當(dāng)模型為50M時(shí),F(xiàn)值最小,約為0.557;當(dāng)模型為150M—300M時(shí),F(xiàn)值保持在0.67左右。

    在二元模型中,現(xiàn)漢模型測(cè)試結(jié)果的F值隨模型語(yǔ)料的增大所呈現(xiàn)的趨勢(shì)與三元模型相仿。文言模型測(cè)試結(jié)果的F值當(dāng)模型為100M時(shí)最大,最大值約為0.749;當(dāng)模型為50M時(shí),F(xiàn)值最小,約為0.491;當(dāng)模型為150M—300M時(shí),F(xiàn)值保持在0.67左右。

    而一元語(yǔ)言模型的表現(xiàn)則呈現(xiàn)了巨大差異,白話(huà)模型測(cè)試結(jié)果的F值在模型為50M時(shí)為0,測(cè)試集沒(méi)有判斷為白話(huà)的結(jié)果,也即在較小的訓(xùn)練集上,文言文和白話(huà)文的用字差異無(wú)法得到體現(xiàn);當(dāng)模型為100M時(shí),F(xiàn)值最大,約為0.985;當(dāng)模型為150M—300M時(shí),F(xiàn)值基本不變,保持在0.98左右。圖6為文言、白話(huà)在三元、二元、一元模型下最好F值的對(duì)比。

    圖5 一元模型對(duì)比圖

    圖6 語(yǔ)言模型元數(shù)對(duì)標(biāo)注F值的影響

    其中,50M的白話(huà)模型在三元、二元情況下最優(yōu),其余情況下,均為100M的古漢、現(xiàn)漢模型最優(yōu)。三元模型最好的F值,文言約為0.751,白話(huà)約為0.785。二元模型最好的F值,古漢約為0.749,現(xiàn)漢約為0.769。一元模型最好的F值,古漢約為0.985,白話(huà)約為0.986。

    經(jīng)對(duì)比,在各模型不同元數(shù)下的標(biāo)注結(jié)果中,一元狀況下100M古漢現(xiàn)漢對(duì)比模型的標(biāo)注結(jié)果最優(yōu)。在接下來(lái)的實(shí)驗(yàn)中,主要針對(duì)100M模型進(jìn)行測(cè)試、標(biāo)注和優(yōu)化。

    5.2 段落測(cè)試實(shí)驗(yàn)

    用段落測(cè)試集測(cè)試100M語(yǔ)言模型,以檢測(cè)單句測(cè)試集中句子長(zhǎng)度對(duì)于模型標(biāo)注的偏差是否具有有限性。

    圖7為100M文白對(duì)比模型通過(guò)段落測(cè)試集后,在一元、二元、三元情況下的測(cè)試結(jié)果。

    圖7 段落測(cè)試集測(cè)試結(jié)果圖

    100M模型經(jīng)過(guò)段落測(cè)試集測(cè)試,測(cè)試結(jié)果大致與在單句測(cè)試集中相似。在一元模型中,文言、白話(huà)識(shí)別的F值大于0.999,測(cè)試結(jié)果略?xún)?yōu)于單句測(cè)試集。由此可見(jiàn),100M一元模型情況下測(cè)試結(jié)果優(yōu)秀不是偶然情況。

    用報(bào)章體測(cè)試集測(cè)試100M語(yǔ)言模型,以檢測(cè)報(bào)章體文學(xué)的用字特征。

    圖8為100M文白對(duì)比模型通過(guò)報(bào)章體測(cè)試集后,在一元、二元、三元模型中的測(cè)試結(jié)果。

    若報(bào)章體測(cè)試集被標(biāo)記為文言文,在100M模型中被標(biāo)注后,在一元、二元、三元模型中,F(xiàn)值均在0.9以上;若報(bào)章體測(cè)試集被標(biāo)記為現(xiàn)代漢語(yǔ),F(xiàn)值最小為0.01,最大值為0.239。由此可知,報(bào)章體大多會(huì)被模型識(shí)別為文言文。

    圖8 報(bào)章體測(cè)試集測(cè)試結(jié)果圖

    據(jù)分析,報(bào)章體的主要句式基本與白話(huà)文相同,語(yǔ)法也與白話(huà)文類(lèi)似。由于選用測(cè)試模型是基于字的統(tǒng)計(jì)模型,所以可以推測(cè),報(bào)章體被判斷為文言文的主要原因是大量使用文言文的基本用詞。

    5.3 基于機(jī)器學(xué)習(xí)的方法

    本文還使用樸素貝葉斯、最大熵和決策樹(shù)(ID3算法)三種統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型①本部分的機(jī)器學(xué)習(xí)模型使用麻省大學(xué)的MALLET工具包實(shí)現(xiàn)[14]進(jìn)行了標(biāo)注實(shí)驗(yàn)。我們選取10M古漢語(yǔ)單句語(yǔ)料和10M現(xiàn)代漢語(yǔ)單句語(yǔ)料。使用特征為標(biāo)注、行號(hào)與字符串(基于字)。其中最大熵模型表現(xiàn)最好,F(xiàn)值達(dá)到了0.967和0.968。

    圖10是本文所使用諸方法的測(cè)試結(jié)果。其中N-gram為使用一元模型時(shí)的結(jié)果?;€(xiàn)0和基線(xiàn)1的結(jié)果相差不太大?;€(xiàn)1在文言的標(biāo)注中優(yōu)于基線(xiàn)0,在白話(huà)文的標(biāo)注中弱于基線(xiàn)0,這與規(guī)則的使用情況有關(guān),因?yàn)榛€(xiàn)1使用的規(guī)則主要是針對(duì)文言文特征的,而不考慮其對(duì)白話(huà)文特征的影響,所以對(duì)文言文的標(biāo)注較為有利。由優(yōu)化規(guī)則實(shí)驗(yàn)可以判斷出,規(guī)則方法對(duì)本任務(wù)確有意義,但是規(guī)則本身的尋找和優(yōu)化過(guò)程存在一定難度,需要進(jìn)行大量實(shí)驗(yàn),得到較為完善的規(guī)則庫(kù)。

    基于統(tǒng)計(jì)的模型標(biāo)注效果明顯優(yōu)于基線(xiàn)0和基線(xiàn)1,由此可以確定基于統(tǒng)計(jì)的實(shí)驗(yàn)有其研究的意義,且可以得到了一個(gè)相對(duì)較好的結(jié)果。Unigram模型的F值最高,達(dá)到0.98以上,是實(shí)驗(yàn)過(guò)程中構(gòu)建的最優(yōu)模型,且相較于樸素貝葉斯、最大熵和決策樹(shù)三個(gè)機(jī)器學(xué)習(xí)模型,計(jì)算成本和時(shí)間成本都很低。

    圖9 樸素貝葉斯、最大熵、決策樹(shù)結(jié)果對(duì)比圖

    圖10 分類(lèi)方法結(jié)果分析圖

    6 結(jié)論和展望

    本文將文言文和白話(huà)文標(biāo)注問(wèn)題視作文本分類(lèi)任務(wù),通過(guò)基于規(guī)則和基于統(tǒng)計(jì)的方法進(jìn)行標(biāo)注。使用26種文言句式和24個(gè)文言虛詞構(gòu)成規(guī)則集,經(jīng)由白話(huà)文詞表進(jìn)行消歧,取得了一定的效果。在統(tǒng)計(jì)方中,本文使用了N-gram、樸素貝葉斯、決策樹(shù)、最大熵算法等幾種模型。實(shí)驗(yàn)發(fā)現(xiàn)基于統(tǒng)計(jì)的模型的標(biāo)注效果明顯優(yōu)于基線(xiàn),且F值普遍較高。其中一元語(yǔ)言模型取得了0.98的F值。

    本文的結(jié)論支持了語(yǔ)言學(xué)家一直以來(lái)的直覺(jué)判斷:即文言文的虛詞使用是使之區(qū)分于白話(huà)文的主要標(biāo)志,而非語(yǔ)法(或語(yǔ)序)。在語(yǔ)言演變過(guò)程中,最活躍的部分就是詞匯[16],而語(yǔ)法變化則相對(duì)緩慢。本文的工作也以計(jì)量的方式實(shí)證地證實(shí)了由文言文和白話(huà)文的分野主要集中在詞匯層面這一判斷。在這一現(xiàn)象中起主要作用的是虛詞并少量動(dòng)詞(如“曰”)為代表的特征詞匯。從一個(gè)側(cè)面來(lái)說(shuō),我們的工作實(shí)際描述了古代文言文到現(xiàn)代白話(huà)文作為一個(gè)連續(xù)統(tǒng)的存在性。

    從本文標(biāo)注任務(wù)的結(jié)果來(lái)看,民國(guó)時(shí)期的報(bào)章體更適合被視作文言文。

    未來(lái)計(jì)劃將規(guī)則方法和統(tǒng)計(jì)方法進(jìn)行融合,并對(duì)更多時(shí)間段不同語(yǔ)體(如詩(shī)歌)進(jìn)行測(cè)試,期待對(duì)這一問(wèn)題給出更圓滿(mǎn)的解決方案。

    [1] 王力著.中國(guó)語(yǔ)言學(xué)史[M].上海:復(fù)旦大學(xué)出版社,2007.

    [2] 張普.論語(yǔ)言的穩(wěn)態(tài)[J].鄭州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2008,(02):105-109.

    [3] 張普.論語(yǔ)言的動(dòng)態(tài)[J].長(zhǎng)江學(xué)術(shù),2008,(01):1-9.

    [4] 石毓智.漢語(yǔ)發(fā)展史上的雙音化趨勢(shì)和動(dòng)補(bǔ)結(jié)構(gòu)的誕生——語(yǔ)音變化對(duì)語(yǔ)法發(fā)展的影響[J].語(yǔ)言研究,2002,(02):1-4.

    [5] 胡裕樹(shù)主編.現(xiàn)代漢語(yǔ)[M].上海:上海教育出版社,1981.

    [6] 呂淑湘.現(xiàn)代漢語(yǔ)單雙音節(jié)問(wèn)題初探[J].中國(guó)語(yǔ)文,1963,1:10-22.

    [7] Mihalcea R,Nastase V.Word epoch disambiguation:Finding how words change over time[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Short Papers-Volume 2.Association for Computational Linguistics,2012:259-263.

    [8] Popescu O,Strapparava C.Behind the Times:Detecting Epoch Changes using Large Corpora[C]//Proceedings of International Joint Conference on Natural Language Processing.2013:347-355.

    [9] 荀恩東,饒高琦,謝佳莉,等.現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng)的建設(shè)與應(yīng)用[J].中文信息學(xué)報(bào),2015,29(3):169-176.

    [10] 饒高琦,臧嬌嬌,荀恩東.大數(shù)據(jù)視角下的語(yǔ)言實(shí)證工具:北語(yǔ)漢語(yǔ)語(yǔ)料庫(kù)系統(tǒng)BCC——以因果關(guān)系表達(dá)的語(yǔ)言模式研究為例[R].北京:北京市語(yǔ)言學(xué)年會(huì),2014.

    [11] 金觀濤,劉青峰.觀念史研究[M].北京:法律出版社,2009.

    [12] 王力著.古代漢語(yǔ)[M].北京:中華書(shū)局,1964.

    [13] 王力著.漢語(yǔ)史稿[M].北京:中華書(shū)局,1980.

    [14] Clarkson P.Rosenfeld R.Statistical Language Modeling Using The Cmu-Cambridge Toolkit[C]//Proceedings of Eurospeech.2000:2707-2710.

    [15] McCallum,Andrew Kachites.“MALLET:A Machine Learning for Language Toolkit.”[OL].http://mallet.cs.umass.edu.2002.

    [16] 徐通鏘,葉蜚聲.語(yǔ)言學(xué)概論[M].北京:北京大學(xué)出版社,1981.

    猜你喜歡
    白話(huà)文虛詞文言
    摭談聞一多的文言詩(shī)
    基于混合策略的藏文虛詞識(shí)別方法
    文言斷句判斷法
    文言實(shí)詞50例
    文言實(shí)詞推斷法
    Note from the Editor-in-Chief
    胡適妙解白話(huà)
    胡適巧推白話(huà)文
    黨員文摘(2016年3期)2016-03-12 21:58:22
    胡適妙解白話(huà)
    做人與處世(2015年4期)2015-09-10 07:22:44
    近現(xiàn)代媒介的功能如何由黨見(jiàn)本位轉(zhuǎn)向民意、輿論本位——以白話(huà)文運(yùn)動(dòng)為轉(zhuǎn)折點(diǎn)
    新聞傳播(2015年10期)2015-07-18 11:05:40
    文成县| 英山县| 南丰县| 丹凤县| 陵川县| 逊克县| 新津县| 玛沁县| 县级市| 达尔| 宝清县| 金乡县| 合山市| 乐山市| 水城县| 韩城市| 东乌| 长子县| 平陆县| 孝义市| 和顺县| 延庆县| 道真| 乌鲁木齐县| 开鲁县| 元江| 松潘县| 潜江市| 调兵山市| 井陉县| 皮山县| 调兵山市| 万山特区| 汕头市| 海城市| 彝良县| 天门市| 天水市| 东乡县| 临湘市| 汝南县|