• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中國(guó)英語(yǔ)新詞語(yǔ)料庫(kù)構(gòu)建技術(shù)研究

      2020-08-19 10:42:12劉永芳郝曉燕
      關(guān)鍵詞:互信息新詞語(yǔ)料

      劉永芳,郝曉燕,劉 榮

      1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,太原 030000

      2.太原理工大學(xué) 外國(guó)語(yǔ)學(xué)院,太原 030000

      1 引言

      中國(guó)英語(yǔ)作為英語(yǔ)使用型變體,在詞匯層面具有顯著的中國(guó)特色,已成為全球英語(yǔ)新詞最大供給方。隨著中國(guó)國(guó)際影響力日益增強(qiáng),大量中國(guó)英語(yǔ)新詞被國(guó)際社會(huì)接受并使用。中國(guó)英語(yǔ)詞匯的出現(xiàn)和發(fā)展反映著中國(guó)語(yǔ)言、社會(huì)及國(guó)際地位的變化,因此,研究中國(guó)英語(yǔ)詞匯具有重要的現(xiàn)實(shí)意義。

      中國(guó)英語(yǔ)最先引起人們注意的是詞匯層面的表現(xiàn)[1]。國(guó)內(nèi)對(duì)于中國(guó)英語(yǔ)新詞語(yǔ)的研究大多是對(duì)中國(guó)英語(yǔ)詞匯使用情況的研究[2],對(duì)于真實(shí)數(shù)據(jù)的考察多限于舉例[3-4]。國(guó)外對(duì)中國(guó)英語(yǔ)的研究較為薄弱,一些研究[5-7]借助少量數(shù)據(jù)試圖說(shuō)明中國(guó)英語(yǔ)詞匯層面特征,但是這些研究大多缺乏系統(tǒng)性及客觀性。這些研究所呈現(xiàn)的新詞數(shù)據(jù)稀少,為了更好地開展中國(guó)英語(yǔ)新詞研究工作,中國(guó)英語(yǔ)新詞語(yǔ)料庫(kù)是必不可少的工具,而新詞識(shí)別是建設(shè)新詞語(yǔ)料庫(kù)基礎(chǔ)且主要的手段之一。本文主要介紹構(gòu)建中國(guó)英語(yǔ)新詞語(yǔ)料庫(kù)的新詞識(shí)別技術(shù)。

      目前新詞識(shí)別研究方法主要有三種:基于統(tǒng)計(jì)方法,基于規(guī)則方法,基于統(tǒng)計(jì)和規(guī)則相結(jié)合方法。基于統(tǒng)計(jì)方法是通過各種統(tǒng)計(jì)量的計(jì)算來(lái)篩選新詞。李文坤等人[8]基于從COAE2014 主辦方提供的1 000 萬(wàn)條大規(guī)模微博語(yǔ)料數(shù)據(jù)集中自動(dòng)識(shí)別出不在給定的字典以內(nèi)的新詞,提出了基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)方法。Su 等人[9]分析對(duì)比適合微博文本特點(diǎn)的統(tǒng)計(jì)量后,利用加權(quán)計(jì)算改進(jìn)了鄰接熵算法,提高了新詞抽取準(zhǔn)確率。該方法靈活性高,適應(yīng)性強(qiáng),可移植性好,但需要訓(xùn)練大規(guī)模語(yǔ)料,并且存在數(shù)據(jù)稀疏等問題?;谝?guī)則方法是通過對(duì)新詞的詞形、詞義、詞性等構(gòu)建規(guī)則、匹配規(guī)則來(lái)識(shí)別新詞。段宇鋒等人[10]選取總樣本字?jǐn)?shù)超過7 萬(wàn)字的描述植物物種樣本的數(shù)據(jù)集作為語(yǔ)料,應(yīng)用N-Gram算法對(duì)專業(yè)領(lǐng)域的新詞自動(dòng)化識(shí)別進(jìn)行探索。Sasano 等人[11]基于日語(yǔ)詞語(yǔ)規(guī)則與其擬聲詞模式,提出在句子的格框架中添加新節(jié)點(diǎn)以發(fā)現(xiàn)最優(yōu)路徑,識(shí)別日語(yǔ)中的未登錄新詞。該方法針對(duì)特定領(lǐng)域準(zhǔn)確性很高,但可移植性較差,且規(guī)則構(gòu)建過程需要大量人力、物力的消耗。結(jié)合統(tǒng)計(jì)和規(guī)則方法可以在一定程度上發(fā)揮各自優(yōu)點(diǎn),有效提高新詞識(shí)別效果。夭榮朋等人[12]提出一種MBN-Gram算法,利用統(tǒng)計(jì)特征互信息和鄰接熵對(duì)新詞串?dāng)U展并篩選,最后利用詞典進(jìn)行過濾得到新詞集,但是其N-Gram 算法產(chǎn)生了大量詞串,導(dǎo)致實(shí)驗(yàn)效率降低。Mei等人[13]提出一種非監(jiān)督的新詞識(shí)別方法,利用詞頻、詞凝聚度、詞自由度及三個(gè)自定義參數(shù)組合形成的公式,結(jié)合少量過濾規(guī)則,從四個(gè)大規(guī)模的語(yǔ)料庫(kù)中識(shí)別出新詞,但該方法參數(shù)值的自適應(yīng)性未確定,對(duì)于計(jì)算機(jī)自動(dòng)抽取有一定局限性。

      綜上所述,本文采用統(tǒng)計(jì)和規(guī)則結(jié)合方法,提出了基于傳統(tǒng)互信息、鄰接熵等統(tǒng)計(jì)特征的改進(jìn)算法來(lái)識(shí)別中國(guó)英語(yǔ)新詞。首先利用N-Gram 算法對(duì)語(yǔ)料進(jìn)行分詞,再通過多字點(diǎn)互信息計(jì)算詞內(nèi)部凝聚度,通過鄰接熵計(jì)算詞外部自由度,最后設(shè)置雙點(diǎn)互信息閾值和鄰接熵閾值篩選,結(jié)合相應(yīng)詞典過濾,從而得到中國(guó)英語(yǔ)新詞,取得了較為理想的實(shí)驗(yàn)結(jié)果。

      2 中國(guó)英語(yǔ)新詞語(yǔ)料庫(kù)構(gòu)建

      構(gòu)建中國(guó)英語(yǔ)新詞語(yǔ)料庫(kù)包括語(yǔ)料選定工作和語(yǔ)料加工工作。

      語(yǔ)料選定工作主要考慮了以下內(nèi)容:語(yǔ)料數(shù)據(jù)量要足夠大;分布領(lǐng)域要廣泛;來(lái)源不可單一;獲取語(yǔ)料的技術(shù)手段有效可行。本文主要針對(duì)媒體正式語(yǔ)言中的詞匯進(jìn)行考察,因而語(yǔ)料需考慮媒體的代表性。目前,中國(guó)英語(yǔ)報(bào)刊和互聯(lián)網(wǎng)站點(diǎn)有很多家,綜合考慮發(fā)行量和影響力,選取期刊China Daily和Shanghai Daily。該期刊創(chuàng)刊時(shí)間較早,新聞更新及時(shí),覆蓋了經(jīng)濟(jì)、文化、社會(huì)、體育、歷史等多個(gè)領(lǐng)域,提供新聞電子版,方便獲取語(yǔ)料。

      中國(guó)英語(yǔ)語(yǔ)料庫(kù)建設(shè)前期,已通過購(gòu)買正版新聞?wù)Z料,利用Python 爬蟲技術(shù)獲取了2012 年至2018 年兩大網(wǎng)站全部英語(yǔ)語(yǔ)料。

      語(yǔ)料加工工作包含以下內(nèi)容:對(duì)獲取的語(yǔ)料進(jìn)行預(yù)處理,對(duì)處理后的語(yǔ)料進(jìn)行新詞識(shí)別。首先,過濾垃圾串,使用規(guī)則方法將語(yǔ)料中的中文、Url 鏈接、無(wú)效字符去除。其次,結(jié)合英文單詞特點(diǎn),用一個(gè)空格作為單詞之間的分隔符,便于語(yǔ)料庫(kù)存儲(chǔ)以及新詞識(shí)別。語(yǔ)料預(yù)處理已在語(yǔ)料庫(kù)建設(shè)前期完成。中國(guó)英語(yǔ)新詞識(shí)別在下文詳細(xì)介紹。

      3 中國(guó)英語(yǔ)新詞識(shí)別研究

      3.1 新詞識(shí)別相關(guān)技術(shù)

      3.1.1 點(diǎn)互信息

      判斷一個(gè)詞組是否可以構(gòu)成一個(gè)意義完整的詞組,詞內(nèi)部凝聚度可以作為度量標(biāo)準(zhǔn)。點(diǎn)互信息是常用的較穩(wěn)定的表示詞內(nèi)凝聚度的統(tǒng)計(jì)量。點(diǎn)互信息的計(jì)算公式為:

      其中,p(x)、p(y)分別表示詞x和詞y單獨(dú)出現(xiàn)在語(yǔ)料中的概率,p(xy)表示詞x和詞y同時(shí)出現(xiàn)在語(yǔ)料中的概率。當(dāng)PMI(x,y)<0 時(shí),表示詞x和詞y的出現(xiàn)是互不相關(guān)的;當(dāng)PMI(x,y)=0 時(shí),表示詞x和詞y是相互獨(dú)立出現(xiàn)的;當(dāng)PMI(x,y)>0 且其值越大時(shí),表示詞x和詞y同時(shí)出現(xiàn)可能性越高,越有可能成為新詞。

      互信息判斷二元詞其成詞概率效果很好,而應(yīng)用于多元詞就需要考慮將詞組劃分為兩部分。

      式(2)是互信息的變形公式,多元詞可以劃分為A、B兩部分,而A、B劃分又有多種形式,如“BRICS Leaders Xiamen Declaration(金磚國(guó)家領(lǐng)導(dǎo)人廈門宣言)”,可分為“BRICS”和“Leaders Xiamen Declaration”、“BRICS Leaders”和“Xiamen Declaration”及“BRICS Leaders Xiamen”和“Declaration”這三種組合形式,那么取不同形式概率均值顯然是有效的方法。

      其中,w1…wn為多元詞串,p(w1…wn)是詞串w1…wn出現(xiàn)在語(yǔ)料中的概率,avg(w1…wn)是多元詞串不同組合的平均概率。

      此外,分析式(2),當(dāng)詞AB頻率和詞A頻率顯著大于詞B頻率,那么PMI值會(huì)較小。設(shè)置單一正常閾值,無(wú)法識(shí)別到符合此特征的新詞;設(shè)置單一較低閾值,無(wú)效低頻詞會(huì)大量出現(xiàn),都會(huì)降低新詞識(shí)別準(zhǔn)確率[14]。

      因此,本文算法采用改進(jìn)后的多元點(diǎn)互信息式(3),并設(shè)置雙閾值對(duì)新詞進(jìn)行過濾篩選。

      3.1.2 鄰接熵

      判斷兩個(gè)詞是否可以構(gòu)成一個(gè)意義完整的詞組,除了詞內(nèi)凝聚度外,詞外部自由度也是一個(gè)衡量標(biāo)準(zhǔn)。鄰接熵是常用的準(zhǔn)確率較高的表示成詞概率的外部統(tǒng)計(jì)量。鄰接熵的計(jì)算公式為:

      其中,p(wl|w)表示詞w出現(xiàn)的情況下左鄰接詞是wl的條件概率,p(wr|w)表示詞w出現(xiàn)的情況下右鄰接詞是wr的條件概率。HL(w)和HR(w)值越大,說(shuō)明w候選詞組左邊相鄰的詞的種類越多,那么w成詞可能性越大;反之,HL(w)和HR(w)值越小,說(shuō)明w候選詞組左邊相鄰的詞的種類越少,那么w成詞可能性越小。如在語(yǔ)料中“Xiongan New Area(雄安新區(qū))”,它的前后往往連接是“from”“the”“that”這樣多種多樣的單詞,而“Xiongan New”它的后面連接很固定的是“Area”,“New Area”它的前面基本都是“Xiongan”,這樣就證明“Xiongan New Area”這三個(gè)單詞是一個(gè)新詞詞組的概率遠(yuǎn)遠(yuǎn)大于像“from Xiongan New Area”“Xiongan New Area that”等相關(guān)其他組合。

      3.1.3 N-Gram算法

      對(duì)詞組內(nèi)部凝聚度和詞外部自由度的判斷需要候選詞集。N-Gram算法可以用于對(duì)語(yǔ)料的切分,具有語(yǔ)種無(wú)關(guān)性,無(wú)需對(duì)研究語(yǔ)料進(jìn)行語(yǔ)言學(xué)處理,不需要詞典和規(guī)則。以英文語(yǔ)料為例,設(shè)置滑動(dòng)窗口的大小為N,每次滑動(dòng)一個(gè)窗口,直至文本結(jié)束,對(duì)文本語(yǔ)料進(jìn)行切分,切分后每個(gè)大小為N的字符串為一個(gè)gram,統(tǒng)計(jì)所有g(shù)ram 的頻率,并且按照事先設(shè)定好的閾值進(jìn)行過濾,形成符合條件的gram 詞表。N-Gram 算法簡(jiǎn)便易實(shí)現(xiàn),但是對(duì)于不設(shè)置N大小的大規(guī)模語(yǔ)料進(jìn)行處理,效率會(huì)很低。目前計(jì)算gram頻率的二元遞增Bigram算法和三元遞增Trigram 算法準(zhǔn)確率較好,但是基于中國(guó)英語(yǔ)新聞新詞單詞不只局限于三個(gè)及三個(gè)以下。文獻(xiàn)[15]通過分析大規(guī)模語(yǔ)料,發(fā)現(xiàn)中文每個(gè)詞條對(duì)應(yīng)2.33個(gè)英文單詞和英語(yǔ)每個(gè)詞條對(duì)應(yīng)2.25 個(gè)漢字。文獻(xiàn)[16]研究發(fā)現(xiàn),漢語(yǔ)新詞主要是2 個(gè)到4 個(gè)漢字。因此本文對(duì)語(yǔ)料利用N-Gram算法處理文本,設(shè)置1 ≤N≤5。

      3.2 新詞識(shí)別改進(jìn)算法

      目前,用于識(shí)別新詞的統(tǒng)計(jì)和規(guī)則相結(jié)合的方法中,基于點(diǎn)互信息和鄰接熵的結(jié)合方法是一種有效地識(shí)別新詞的方法。常用的新詞識(shí)別算法流程如圖1所示。

      圖1 常用的新詞識(shí)別算法流程圖

      傳統(tǒng)結(jié)合方法只針對(duì)兩個(gè)單詞的點(diǎn)互信息進(jìn)行判斷,并未擴(kuò)展到多詞判斷,存在詞內(nèi)部凝聚度不高的問題。此外,互信息在識(shí)別中國(guó)英語(yǔ)新詞時(shí)存在不利固有特性,設(shè)置單一的互信息閾值,實(shí)驗(yàn)會(huì)保留大量低頻無(wú)意義詞組,導(dǎo)致準(zhǔn)確率降低。

      針對(duì)以上不足之處,本文對(duì)傳統(tǒng)算法進(jìn)行了改進(jìn),加入多字點(diǎn)互信息的判斷,并且設(shè)置雙閾值對(duì)處理好的語(yǔ)料進(jìn)行新詞識(shí)別。首先使用N-Gram 算法對(duì)預(yù)處理過的語(yǔ)料切分,并得到1-gram~5-gram包含詞頻的gram表,過濾小于閾值的詞;利用篩選后在閾值區(qū)間點(diǎn)互信息的計(jì)算值再次篩選;接著利用鄰接熵計(jì)算值對(duì)詞的左右邊界進(jìn)行判定并篩選;最后利用多字點(diǎn)互信息計(jì)算值篩選出候選新詞集,因?yàn)樾略~不包含在已有常用詞典中,所以使用相應(yīng)詞典對(duì)已存在詞進(jìn)行過濾,得到新詞集。改進(jìn)后的算法流程如圖2所示。

      圖2 改進(jìn)后的新詞識(shí)別算法流程圖

      4 實(shí)驗(yàn)與分析

      4.1 實(shí)驗(yàn)語(yǔ)料

      針對(duì)語(yǔ)料庫(kù)建設(shè)中需要年度英語(yǔ)新詞的需要,本文從前期獲取的語(yǔ)料中抽取了2017年全部的英語(yǔ)語(yǔ)料作為實(shí)驗(yàn)數(shù)據(jù),約137.2 MB,約4.9 萬(wàn)篇新聞,約229 萬(wàn)個(gè)單詞。本文通過改進(jìn)后的點(diǎn)互信息和鄰接熵算法,對(duì)語(yǔ)料進(jìn)行新詞候選詞識(shí)別,利用詞典過濾已存在詞,最終得到新詞。

      4.2 評(píng)價(jià)指標(biāo)

      本文對(duì)新詞識(shí)別用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F值(F-measure)來(lái)評(píng)價(jià)實(shí)驗(yàn)結(jié)果。計(jì)算公式如下:

      其中,CN表示算法正確識(shí)別的新詞數(shù),DN表示算法識(shí)別到的新詞數(shù),M表示語(yǔ)料的新詞總數(shù)。

      4.3 對(duì)比實(shí)驗(yàn)

      本文使用傳統(tǒng)基于單閾值點(diǎn)互信息和鄰接熵的算法[8]、基于單閾值多字點(diǎn)互信息和鄰接熵算法、基于雙閾值點(diǎn)互信息和鄰接熵算法和基于雙閾值多字點(diǎn)互信息和鄰接熵算法(本文算法)進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1所示。

      表1 新詞識(shí)別實(shí)驗(yàn)結(jié)果

      由表1中的實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法在準(zhǔn)確率、召回率和F值上都有了一定的提高。本文在傳統(tǒng)融合統(tǒng)計(jì)和規(guī)則方法上,對(duì)候選詞集計(jì)算多字互信息并設(shè)置雙閾值和N-Gram 算法N的大小進(jìn)行篩選。改進(jìn)后的算法不僅可以獲得具有更高詞內(nèi)部凝聚度的詞,增加了正確識(shí)別到的新詞數(shù)量,而且去除了大量無(wú)意義詞串,減少了無(wú)效新詞的識(shí)別數(shù)量,進(jìn)而更準(zhǔn)確地識(shí)別新詞。綜合來(lái)看,本文在中國(guó)英語(yǔ)新詞識(shí)別上取得了較好的效果,可用于中國(guó)英語(yǔ)語(yǔ)料庫(kù)的建設(shè)。

      5 結(jié)束語(yǔ)

      本文主要介紹了中國(guó)英語(yǔ)新詞語(yǔ)料庫(kù)建設(shè)中的新詞識(shí)別技術(shù),為語(yǔ)料庫(kù)建設(shè)提供了有效的技術(shù)支持。傳統(tǒng)統(tǒng)計(jì)和規(guī)則結(jié)合算法缺少對(duì)詞的內(nèi)部凝聚度的判定,以及N-Gram 算法不限制N的長(zhǎng)度,會(huì)產(chǎn)生大量無(wú)效詞串,耗費(fèi)時(shí)間,降低實(shí)驗(yàn)效率。本文采用改進(jìn)后的算法識(shí)別中國(guó)英語(yǔ)新詞,取得了不錯(cuò)的效果。但綜合來(lái)看,本文方法還有一些需要改進(jìn)之處,可以考慮錯(cuò)誤識(shí)別的詞,分析總結(jié)其特點(diǎn),找出通用過濾規(guī)則,進(jìn)而提高新詞識(shí)別的準(zhǔn)確率。

      綜合來(lái)看,中國(guó)英語(yǔ)新詞語(yǔ)料庫(kù)還需要考慮諸多方面,如語(yǔ)料來(lái)源的多樣性、語(yǔ)料庫(kù)的動(dòng)態(tài)更新以及語(yǔ)料庫(kù)的設(shè)計(jì)合理性,都需要進(jìn)一步分析和研究。

      猜你喜歡
      互信息新詞語(yǔ)料
      《微群新詞》選刊之十四
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      改進(jìn)的互信息最小化非線性盲源分離算法
      基于增量式互信息的圖像快速匹配方法
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      小議網(wǎng)絡(luò)新詞“周邊”
      临沂市| 庆城县| 永仁县| 青海省| 兴隆县| 宽城| 湘潭县| 岑溪市| 海丰县| 米泉市| 义乌市| 临西县| 杭锦旗| 静乐县| 黎城县| 馆陶县| 恭城| 会东县| 耒阳市| 佛学| 祁连县| 蓬安县| 青海省| 海安县| 沙田区| 黎平县| 清远市| 安吉县| 密云县| 黄平县| 南和县| 三穗县| 乳源| 沅江市| 文化| 商水县| 彩票| 岳普湖县| 聊城市| 牟定县| 襄垣县|