• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用領(lǐng)域外數(shù)據(jù)對(duì)口語(yǔ)風(fēng)格短文本的相近語(yǔ)種識(shí)別研究

    2019-04-17 03:56:26何峻青趙學(xué)敏張克亮
    中文信息學(xué)報(bào) 2019年3期
    關(guān)鍵詞:維語(yǔ)語(yǔ)種字符

    何峻青,黃 嫻,趙學(xué)敏,張克亮

    (1. 中國(guó)科學(xué)院 聲學(xué)研究所 語(yǔ)言聲學(xué)與內(nèi)容理解實(shí)驗(yàn)室,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 信息工程大學(xué) 洛陽(yáng)校區(qū),河南 洛陽(yáng) 471003)

    0 引言

    語(yǔ)種識(shí)別(language identification,LID) 是自然語(yǔ)言處理的一個(gè)重要分支,旨在識(shí)別一個(gè)文本內(nèi)容所屬的語(yǔ)種。自Cavnar和Trenkle首先提出基于n元特征的文本分類(lèi)方法[1]以來(lái),語(yǔ)種識(shí)別研究得到了快速發(fā)展,在大量訓(xùn)練數(shù)據(jù)和格式規(guī)范的文本上取得了高精確度[2]和高覆蓋率[3]的成績(jī),語(yǔ)種識(shí)別也被認(rèn)為是一項(xiàng)基本已經(jīng)解決的任務(wù)。然而識(shí)別基于少量的數(shù)據(jù)、多語(yǔ)種混合輸入、語(yǔ)碼轉(zhuǎn)換(在兩種或兩種以上語(yǔ)言間轉(zhuǎn)換)、相近語(yǔ)種(語(yǔ)言變體、方言)、非常短的文本(如推特的推文)仍然是該領(lǐng)域的瓶頸[4-5]。在本研究中,我們遇到了訓(xùn)練數(shù)據(jù)嚴(yán)重不平衡、相近語(yǔ)種以及文本非常短這三個(gè)問(wèn)題,在訓(xùn)練數(shù)據(jù)受限的情況下識(shí)別維吾爾語(yǔ)和哈薩克語(yǔ)的口語(yǔ)風(fēng)格短文本。

    維吾爾語(yǔ)(以下簡(jiǎn)稱(chēng)維語(yǔ)) 和哈薩克語(yǔ)(以下簡(jiǎn)稱(chēng)哈語(yǔ))是典型的相近語(yǔ)言,都屬于阿爾泰語(yǔ)系突厥語(yǔ)族,都是黏連語(yǔ),在中東和中國(guó)西北部廣泛使用。文獻(xiàn)[6]認(rèn)為維語(yǔ)和哈語(yǔ)在句子層面的相似程度超過(guò)80%,在詞層面的相似程度則達(dá)到90%以上。區(qū)分這兩種語(yǔ)言的困難在于: ①兩種語(yǔ)言都用阿拉伯字母按照從右至左的順序書(shū)寫(xiě); ②共享字母多達(dá)26個(gè),另外還有兩個(gè)字母看上去一模一樣; ③詞匯和句法有很多重疊之處,僅靠查詢(xún)字典來(lái)區(qū)分兩種語(yǔ)言難度極大; ④都包含大量前、后綴,導(dǎo)致詞干提取和識(shí)別困難。

    本文定義的“口語(yǔ)風(fēng)格短文本”包括手機(jī)短信、微信等聊天工具的聊天記錄以及推特、臉書(shū)、微博等社交平臺(tái)上的發(fā)言。對(duì)這類(lèi)文本進(jìn)行語(yǔ)種識(shí)別存在很大難度,原因主要如下: ①每條文本長(zhǎng)度太短,大多數(shù)句子的長(zhǎng)度僅為3~9個(gè)詞; ②文本中存在大量的拼寫(xiě)和語(yǔ)法錯(cuò)誤,大大增加了詞干提取和錯(cuò)誤更正的代價(jià); ③廣泛使用了縮略語(yǔ)和俚語(yǔ)表達(dá),普通字典中并未收入這些內(nèi)容; ④收集口語(yǔ)風(fēng)格短文本費(fèi)時(shí)費(fèi)力,經(jīng)常存在語(yǔ)料不足的問(wèn)題; ⑤人們?yōu)榱溯斎敕奖?,在很多情況下未使用標(biāo)準(zhǔn)的字母,而是使用近形字符或同音字,導(dǎo)致語(yǔ)料中的字符遠(yuǎn)超過(guò)標(biāo)準(zhǔn)字符總數(shù)。本研究收集的維、哈口語(yǔ)風(fēng)格短文本語(yǔ)料中包含了超過(guò)100種字符,進(jìn)一步增加了區(qū)分維語(yǔ)和哈語(yǔ)口語(yǔ)風(fēng)格短文本的難度。

    本研究旨在構(gòu)建一個(gè)相近語(yǔ)種識(shí)別系統(tǒng),即使在訓(xùn)練數(shù)據(jù)受限的情況下也能夠識(shí)別口語(yǔ)風(fēng)格短文本所屬的相近語(yǔ)種(語(yǔ)言變體、方言)。文章內(nèi)容如下: 第1節(jié)簡(jiǎn)要總結(jié)了相關(guān)研究;第2節(jié)介紹了維、哈口語(yǔ)風(fēng)格短文本語(yǔ)料庫(kù)的構(gòu)建;第3節(jié)詳細(xì)介紹了分類(lèi)特征的設(shè)計(jì)、相近語(yǔ)種識(shí)別系統(tǒng)的構(gòu)建,以及評(píng)測(cè)標(biāo)準(zhǔn)的擬定;第4節(jié)通過(guò)一系列實(shí)驗(yàn)檢測(cè)了數(shù)據(jù)增補(bǔ)策略的有效性、各個(gè)特征在相近語(yǔ)種識(shí)別過(guò)程中的貢獻(xiàn)、傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)分類(lèi)器的性能比較,以及本系統(tǒng)對(duì)其他相近語(yǔ)種(語(yǔ)言變體、方言) 的識(shí)別效果;第5節(jié)為結(jié)論。

    1 相關(guān)研究

    最早進(jìn)行相近語(yǔ)種識(shí)別的研究見(jiàn)文獻(xiàn)[7]。該文首先提出了識(shí)別相近語(yǔ)言的重要性和難度,并提出了利用一個(gè)半監(jiān)督模型來(lái)識(shí)別印度尼西亞語(yǔ)和馬來(lái)語(yǔ)。此后該領(lǐng)域受到越來(lái)越多學(xué)者的關(guān)注,研究范圍包括多種南斯拉夫語(yǔ)言[8-9]、漢語(yǔ)變體[10]、葡萄牙語(yǔ)變體[11]、西班牙語(yǔ)變體[12]、英語(yǔ)變體[13]及阿拉伯語(yǔ)方言[14]等。2014年至2017年Marcos Zampieri等在COLING(2014)、RANLP(2015)、COLING(2016)、EACL(2017)下組織了“運(yùn)用自然語(yǔ)言處理工具識(shí)別相近語(yǔ)言、語(yǔ)言變體和方言”系列研討會(huì)(Workshop Series on Applying NLP Tools to Similar Languages, Varieties and Dialects, VarDial), 允許參賽者使用相同的數(shù)據(jù)來(lái)比較不同的相近語(yǔ)種識(shí)別方法的效果。每一屆研討會(huì)的共享任務(wù)提供若干組相近語(yǔ)言(語(yǔ)言變體、方言)語(yǔ)料,每種語(yǔ)言(變體或方言)有18 000個(gè)句子作為訓(xùn)練集,2 000個(gè)句子作為開(kāi)發(fā)集,此外還有1 000個(gè)句子作為測(cè)試集。四年來(lái),VarDial研討會(huì)提供訓(xùn)練和測(cè)試的語(yǔ)種(變體、方言)不斷增加,共享任務(wù)亦越來(lái)越多樣化。關(guān)于這幾屆VarDial研討會(huì)共享任務(wù)的語(yǔ)料、參賽系統(tǒng)采用的方法以及評(píng)測(cè)結(jié)果可參見(jiàn)文獻(xiàn)[5, 15-18]。綜合來(lái)看,字符的n元特征為最有效的特征,效果最佳的分類(lèi)模型包括支持向量機(jī)(SVM)、邏輯回歸(logistic regression),然而深度學(xué)習(xí)方法取得的效果并不理想[5,11,17-18]。

    對(duì)于短文本的語(yǔ)種識(shí)別,文獻(xiàn)[19-22]采用了通過(guò)額外語(yǔ)義(additional semantics)來(lái)擴(kuò)充短文本表征(short text representation)的方法,額外語(yǔ)義來(lái)自數(shù)據(jù)采集或者一個(gè)更大規(guī)模的知識(shí)源。文獻(xiàn)[23]介紹了在SEPLN 2014下的推特文本語(yǔ)種識(shí)別任務(wù)的情況。

    雖然n元模型在已有大量文本數(shù)據(jù)的情況下能取得非常好的效果,但是當(dāng)某個(gè)領(lǐng)域的數(shù)據(jù)很少的時(shí)候,則面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。傳統(tǒng)處理數(shù)據(jù)稀疏問(wèn)題的方法包括構(gòu)建與領(lǐng)域不相關(guān)的模型或者構(gòu)建使用專(zhuān)門(mén)領(lǐng)域技術(shù)的模型,但結(jié)果并沒(méi)有明顯改進(jìn)[21,24]。另一個(gè)處理方法則為使用大量別的任務(wù)或領(lǐng)域的數(shù)據(jù),即領(lǐng)域外數(shù)據(jù)(out-of-domain data),來(lái)改進(jìn)領(lǐng)域內(nèi)的語(yǔ)言模型。文獻(xiàn)[24-25]分別使用領(lǐng)域外數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)音識(shí)別語(yǔ)言模型和統(tǒng)計(jì)機(jī)器翻譯語(yǔ)言模型,均取得了較好的效果。文獻(xiàn)[26]討論了處理不均衡數(shù)據(jù)(imbalanced data)的多種方法。

    區(qū)分維語(yǔ)和哈語(yǔ)的研究見(jiàn)文獻(xiàn)[27]。該研究以特有字符為特征區(qū)分維語(yǔ)、哈語(yǔ)和柯?tīng)柨俗握Z(yǔ)。該方法在70個(gè)詞以上的文本中達(dá)到了97.70%的精確度,然而對(duì)于少于10個(gè)詞的文本對(duì)哈語(yǔ)的識(shí)別率降到了65.31%,原因在于哈語(yǔ)的特殊字符比其他兩個(gè)語(yǔ)種要少得多。針對(duì)短文本,有必要提取特有字符以外更多的有效特征來(lái)區(qū)分維語(yǔ)和哈語(yǔ)。

    在本研究中,我們?cè)噲D探討以下四個(gè)問(wèn)題:

    (1) 區(qū)分相近語(yǔ)種時(shí),如何解決有的語(yǔ)種資源受限的問(wèn)題?

    (2) 本文提出的特征是否有效?各個(gè)特征對(duì)系統(tǒng)的貢獻(xiàn)如何?

    (3) 傳統(tǒng)機(jī)器學(xué)習(xí)分類(lèi)器和深度學(xué)習(xí)分類(lèi)器對(duì)維、哈語(yǔ)這一組相近語(yǔ)種的口語(yǔ)風(fēng)格短文本的識(shí)別性能孰優(yōu)孰劣?

    (4) 本研究構(gòu)建的相近語(yǔ)種識(shí)別系統(tǒng)是否能夠有效識(shí)別其他相近語(yǔ)種(方言、變體)?

    2 維、哈語(yǔ)口語(yǔ)風(fēng)格短文本語(yǔ)料庫(kù)構(gòu)建

    2.1 語(yǔ)料收集

    隨著社交網(wǎng)絡(luò)的普及和手機(jī)等聊天工具的推廣,人們?cè)絹?lái)越多地使用即時(shí)信息來(lái)進(jìn)行交流,對(duì)口語(yǔ)風(fēng)格短文本的自然語(yǔ)言處理具有重要意義。我們從新疆收集了匿名來(lái)源手機(jī)用戶(hù)共計(jì)48 460條手機(jī)短信作為訓(xùn)練集,將同樣來(lái)源一天內(nèi)收集到的973條手機(jī)短信作為測(cè)試集。經(jīng)過(guò)維語(yǔ)和哈語(yǔ)語(yǔ)言專(zhuān)家的辨別和標(biāo)注,確定訓(xùn)練集中包含了48 432條維語(yǔ)短文本和148條哈語(yǔ)短文本,測(cè)試集中包含了687條維語(yǔ)短文本和286條哈語(yǔ)短文本。訓(xùn)練集中維語(yǔ)和哈語(yǔ)文本數(shù)量的比例達(dá)到了327∶1,數(shù)量嚴(yán)重失衡,在訓(xùn)練相近語(yǔ)種識(shí)別系統(tǒng)前有必要平衡兩個(gè)語(yǔ)種語(yǔ)料的數(shù)量。

    2.2 哈語(yǔ)口語(yǔ)風(fēng)格短文本增補(bǔ)和同化

    平衡維、哈兩種語(yǔ)言的語(yǔ)料規(guī)??梢酝ㄟ^(guò)刪減維語(yǔ)語(yǔ)料或者增加哈語(yǔ)語(yǔ)料的辦法來(lái)達(dá)成??紤]到如果將維語(yǔ)語(yǔ)料刪減到148條,數(shù)據(jù)過(guò)少會(huì)嚴(yán)重影響訓(xùn)練的效果,我們決定增補(bǔ)哈語(yǔ)語(yǔ)料。我們沒(méi)有繼續(xù)收集更多的匿名短信,原因在于此來(lái)源語(yǔ)料的獲取具有相當(dāng)難度,而且語(yǔ)言專(zhuān)家需要瀏覽超過(guò)300條文本才能篩選到1條哈語(yǔ)文本,若以此方法獲取4萬(wàn)余條哈語(yǔ)文本將耗費(fèi)巨大的人力物力。

    前面提到文獻(xiàn)[24-25]使用領(lǐng)域外數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)音識(shí)別語(yǔ)言模型和統(tǒng)計(jì)機(jī)器翻譯語(yǔ)言模型取得了較好的效果,我們決定使用領(lǐng)域外哈語(yǔ)短文本來(lái)補(bǔ)充哈語(yǔ)語(yǔ)料。為了獲取哈語(yǔ)的口語(yǔ)風(fēng)格短文本,我們選擇爬取哈語(yǔ)論壇[注]http: //bbs.senkazakh.com上的文本,沒(méi)有選擇爬取哈語(yǔ)新聞網(wǎng)頁(yè)或者推特推文的原因?yàn)? ①新聞網(wǎng)頁(yè)上的內(nèi)容為正式的書(shū)面語(yǔ),文本較長(zhǎng),與口語(yǔ)風(fēng)格短文本在詞和字符層面的重合率較??; ②雖然推特上的推文完全符合口語(yǔ)風(fēng)格短文本的特點(diǎn),但中國(guó)人極少使用推特,同時(shí),即便是哈薩克人使用推特發(fā)布的推文也可能使用了其他語(yǔ)言; ③該哈語(yǔ)論壇中的內(nèi)容經(jīng)哈語(yǔ)專(zhuān)家鑒定內(nèi)容基本全部為哈語(yǔ),內(nèi)容以對(duì)話風(fēng)格為主,符合我們選取語(yǔ)料的標(biāo)準(zhǔn)。

    基于以上理由,我們從該論壇爬取了70 909個(gè)網(wǎng)頁(yè)。爬取下來(lái)的文本長(zhǎng)短不一,分屬于文學(xué)、經(jīng)濟(jì)、娛樂(lè)等主題。為使爬取的數(shù)據(jù)最大限度接近訓(xùn)練語(yǔ)料,我們進(jìn)一步清洗爬取的內(nèi)容,從中選取不超過(guò)14個(gè)詞的短文本,獲得了339 609條符合要求的哈語(yǔ)文本。在此基礎(chǔ)上我們隨機(jī)選取了48 000條文本來(lái)匹配維語(yǔ)訓(xùn)練文本的規(guī)模。

    通過(guò)對(duì)哈語(yǔ)語(yǔ)料的增補(bǔ)和同化,我們最終構(gòu)建了一個(gè)包含49 119條維語(yǔ)和48 286條哈語(yǔ)口語(yǔ)風(fēng)格短文本的語(yǔ)料庫(kù),基本達(dá)到了數(shù)量平衡、風(fēng)格一致的要求。語(yǔ)料庫(kù)分為訓(xùn)練集(維語(yǔ)文本48 432條、哈語(yǔ)文本48 000條) 和測(cè)試集(維語(yǔ)文本687條、哈語(yǔ)文本286條)。圖1為增補(bǔ)哈語(yǔ)語(yǔ)料前后訓(xùn)練集中兩個(gè)語(yǔ)種口語(yǔ)風(fēng)格短文本的數(shù)量對(duì)比情況。圖2為經(jīng)增補(bǔ)后的維、哈語(yǔ)口語(yǔ)風(fēng)格短文本語(yǔ)料庫(kù)的構(gòu)成。

    圖1 語(yǔ)料增補(bǔ)前后訓(xùn)練集中維、哈語(yǔ)短文本數(shù)量對(duì)比

    圖2 經(jīng)增補(bǔ)后的維、哈口語(yǔ)風(fēng)格短文本語(yǔ)料庫(kù)構(gòu)成

    3 相近語(yǔ)種識(shí)別系統(tǒng)構(gòu)建

    3.1 特征提取

    由于本研究使用語(yǔ)料長(zhǎng)度很短,使用詞匯的n元特征會(huì)造成特征過(guò)于稀疏的問(wèn)題。通過(guò)重點(diǎn)分析維語(yǔ)和哈語(yǔ)的詞形學(xué)(morphology)特點(diǎn),我們?cè)O(shè)計(jì)了以下5個(gè)特征。

    (1) 特有字符。雖然兩種語(yǔ)言共享多達(dá)26個(gè)字母,但仍有少量字符不同。一旦在文本中找到了屬于某個(gè)語(yǔ)種的特有字符,就可判定該文本屬于對(duì)應(yīng)的那個(gè)語(yǔ)種。

    (2) 字符的n元特征。雖然維語(yǔ)和哈語(yǔ)有很多共有字符,但是各自的字符排序和組合有一定特點(diǎn),這些特點(diǎn)可以有效幫助區(qū)分語(yǔ)種。從已有相關(guān)研究可以看出,該特征也是相近語(yǔ)種識(shí)別系統(tǒng)中最常用的特征。

    (3) 前綴和后綴。維語(yǔ)和哈語(yǔ)都有許多詞綴,但是在許多情況下,兩種語(yǔ)言使用的詞綴不同。例如,兩種語(yǔ)言中表達(dá)相同意義的單詞往往以不同的字符開(kāi)頭,在維語(yǔ)中以“ya”開(kāi)頭的單詞在哈語(yǔ)中通常以“ja”開(kāi)頭,“o”在哈語(yǔ)中可以作為單詞首字母而在維語(yǔ)中則不行。維語(yǔ)中的“-lar”和哈語(yǔ)中的“-dar”表達(dá)同樣意思,但是拼寫(xiě)不同。需要注意的一點(diǎn)是,口語(yǔ)短文本中存在大量的拼寫(xiě)錯(cuò)誤,可能會(huì)導(dǎo)致該特征難以提取。因此我們將每個(gè)詞的前n個(gè)和后n個(gè)字符作為特征,n的范圍為1~3。

    (4) 詞的一元特征。詞的一元特征即該單詞出現(xiàn)的頻率。如果一個(gè)文本中包含了某個(gè)語(yǔ)種的高頻詞,那么該文本就更可能屬于該高頻詞對(duì)應(yīng)的語(yǔ)種。

    (5) 文本長(zhǎng)度。按照文本的長(zhǎng)度將其劃分到不同的長(zhǎng)度區(qū)間,對(duì)于各個(gè)長(zhǎng)度區(qū)間的樣本訓(xùn)練不同的模型。

    3.2 分類(lèi)器

    本文認(rèn)為相近語(yǔ)種識(shí)別任務(wù)實(shí)際上為將相近語(yǔ)種的文本進(jìn)行分類(lèi),因此本研究中的相近語(yǔ)種識(shí)別系統(tǒng)即用來(lái)區(qū)分相近語(yǔ)種的分類(lèi)器。

    其中,N為總樣本數(shù),#為頻數(shù)。f(x,y)通常為二值函數(shù),當(dāng)(x,y)同時(shí)出現(xiàn)時(shí)為1,否則為0。預(yù)測(cè)的時(shí)候,分類(lèi)器計(jì)算每個(gè)樣本的分值,選擇分值最高的類(lèi)別作為標(biāo)簽。由于最大熵分類(lèi)器將特征之間的依賴(lài)關(guān)系考慮在內(nèi),該過(guò)程更近似于人類(lèi)決策的過(guò)程。我們使用了斯坦福分類(lèi)器工具包[注]https: //nlp.stanford.edu/software/classifier.html構(gòu)建了一個(gè)基于最大熵的分類(lèi)器作為相近語(yǔ)種識(shí)別系統(tǒng)。

    隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)成功地應(yīng)用于圖像識(shí)別[28]和文本分類(lèi)[29]任務(wù),CNN成為目前最流行的深度學(xué)習(xí)分類(lèi)器。我們基于字符矢量(character embeddings)構(gòu)建了一個(gè)CNN分類(lèi)器來(lái)測(cè)試該分類(lèi)器識(shí)別維、哈語(yǔ)口語(yǔ)風(fēng)格短文本的表現(xiàn)情況。

    對(duì)于輸入的每個(gè)句子,將每個(gè)字符表示為固定長(zhǎng)度的字符矢量,則該句子表示為一個(gè)矩陣S。對(duì)每個(gè)句子矩陣S使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算和分類(lèi)的過(guò)程如下: 對(duì)于高度為z的一個(gè)卷積核Wm,用它以1為滑動(dòng)步長(zhǎng),在整個(gè)矩陣中從上至下滑動(dòng),每一步計(jì)算重合部分的兩個(gè)矩陣的點(diǎn)積及經(jīng)過(guò)激活的值xi,最后得到一個(gè)長(zhǎng)度為N-z+1的向量X,N為句子所包含的字符的數(shù)目。然后使用最大池化,取其中最大值得到一個(gè)元素cm。使用多個(gè)不同高度的卷積核進(jìn)行卷積,卷積核的寬度都為詞向量長(zhǎng)度,將結(jié)果拼接得到一個(gè)特征向量s。之后將特征向量s經(jīng)過(guò)一個(gè)全連接層,再使用softmax歸一化,預(yù)測(cè)該文本分別屬于維語(yǔ)和哈語(yǔ)的概率。公式如式(6)~式(10)所示。

    其中,·為點(diǎn)積操作,[...]表示元素拼接,ReLU表示規(guī)整線性單元(rectified linear unit),k為卷積核的總數(shù),m為第m個(gè)卷積核,bm為對(duì)應(yīng)卷積核的偏置。U為全連接層的參數(shù)矩陣,b為偏置,均為可訓(xùn)練參數(shù)。

    3.3 評(píng)價(jià)標(biāo)準(zhǔn)

    本文采用準(zhǔn)確率(Precision)P、召回率(Recall)R和精確度(Accuracy)A來(lái)評(píng)價(jià)系統(tǒng)的性能,如式(11)~式(13)所示。準(zhǔn)確率衡量系統(tǒng)正確判斷樣本類(lèi)別的能力,召回率描述系統(tǒng)檢索正確樣本的能力,精確度表示所有類(lèi)別的正確樣本能被正確分類(lèi)的比例,是整體的評(píng)價(jià)指標(biāo)。式中TP指正確預(yù)測(cè)為某種語(yǔ)言的樣本數(shù),F(xiàn)P指預(yù)測(cè)為該語(yǔ)言實(shí)際上不是該語(yǔ)言的樣本數(shù),TN指正確預(yù)測(cè)為不是該語(yǔ)言的樣本數(shù),F(xiàn)N指預(yù)測(cè)不是該語(yǔ)言但實(shí)際是該語(yǔ)言的樣本數(shù)。

    4 實(shí)驗(yàn)和結(jié)果

    在完成維、哈語(yǔ)口語(yǔ)風(fēng)格短文本語(yǔ)料庫(kù)和相近語(yǔ)種識(shí)別系統(tǒng)后,我們進(jìn)行了四組實(shí)驗(yàn),來(lái)尋求第1節(jié)中所提出問(wèn)題的答案。

    4.1 增補(bǔ)的哈語(yǔ)語(yǔ)料的可用性實(shí)驗(yàn)

    針對(duì)問(wèn)題(1),我們使用最大熵分類(lèi)器來(lái)測(cè)試哈語(yǔ)語(yǔ)料增補(bǔ)前后相近語(yǔ)種識(shí)別的效果。使用原有語(yǔ)料訓(xùn)練的分類(lèi)器對(duì)測(cè)試語(yǔ)料的識(shí)別結(jié)果和使用經(jīng)增補(bǔ)后的語(yǔ)料的識(shí)別結(jié)果如表1所示。

    表1 增補(bǔ)后哈薩克語(yǔ)料的可用性實(shí)驗(yàn)結(jié)果

    從實(shí)驗(yàn)結(jié)果來(lái)看,利用未經(jīng)增補(bǔ)的訓(xùn)練集訓(xùn)練分類(lèi)器后,維語(yǔ)的召回率高達(dá)99.3%,哈語(yǔ)的召回率則僅有70.6%。哈語(yǔ)訓(xùn)練語(yǔ)料經(jīng)過(guò)增補(bǔ)后,兩種語(yǔ)言的召回率接近(分別為95.1%和96.5%),精確度從90.9%上升到了95.5%,證明增補(bǔ)策略有效,同時(shí)顯示了在進(jìn)行相近語(yǔ)種識(shí)別時(shí),各語(yǔ)種訓(xùn)練數(shù)據(jù)規(guī)模均衡的重要性。

    4.2 選取特征的重要性實(shí)驗(yàn)

    針對(duì)問(wèn)題(2),為了考察3.1節(jié)提出的每個(gè)特征的重要性,我們分別測(cè)試了: ①所有特征、②所有特征減去特殊字符、③所有特征減去字符的n元特征(n=1,2,3,4)、④所有特征減去前后綴、⑤所有特征減去詞的一元特征,以及⑥所有特征減去bin值的分類(lèi)結(jié)果。本實(shí)驗(yàn)使用了最大熵分類(lèi)器在增補(bǔ)后的維、哈語(yǔ)訓(xùn)練語(yǔ)料上訓(xùn)練,實(shí)驗(yàn)結(jié)果如表2所示。

    表2 特征的重要性實(shí)驗(yàn)結(jié)果

    從表2可以看出,在減去每個(gè)特征(詞的一元特征除外)后系統(tǒng)的性能都有不同程度的下降,尤其是移除了字符的n元特征后,系統(tǒng)精確度下降最多,說(shuō)明這些特征都對(duì)本任務(wù)起到作用,字符的n元特征對(duì)本任務(wù)貢獻(xiàn)最大。相反,當(dāng)系統(tǒng)移除了詞的一元特征后,精確度還有略微提升,意味著詞層面的特征非但沒(méi)有起到幫助作用,反而降低了對(duì)維、哈語(yǔ)文本的語(yǔ)種識(shí)別效果。在后續(xù)的實(shí)驗(yàn)中,我們默認(rèn)選取除去詞的一元特征以外的所有特征。

    4.3 傳統(tǒng)機(jī)器學(xué)習(xí)分類(lèi)器與深度學(xué)習(xí)分類(lèi)器表現(xiàn)比較實(shí)驗(yàn)

    針對(duì)問(wèn)題(3), 我們分別構(gòu)建了最大熵分類(lèi)器和CNN分類(lèi)器來(lái)識(shí)別維語(yǔ)和哈語(yǔ)口語(yǔ)風(fēng)格短文本。最大熵分類(lèi)器使用了詞的一元特征以外的所有特征。CNN分類(lèi)器使用了50維的字符矢量(character embedding),并進(jìn)行均勻分布的隨機(jī)初始化,取值范圍為(-0.5, 0.5),卷積核的寬度分別設(shè)為[1,2,3,4],數(shù)目分別為[50, 200,300,500]。卷積層后用了一個(gè)隨機(jī)丟棄(dropout)層和最大池化(max-pooling)層,丟棄概率(dropout rate)設(shè)為0.5。表3列出了兩個(gè)分類(lèi)器的表現(xiàn)。

    表3 分類(lèi)器有效性實(shí)驗(yàn)結(jié)果

    從表3可以看出,在識(shí)別維語(yǔ)和哈語(yǔ)的口語(yǔ)風(fēng)格短文本這一任務(wù)中,最大熵分類(lèi)器精確度明顯高于CNN分類(lèi)器。在VarDial’2016 DSL共享任務(wù)中,參賽隊(duì)伍mitsls、Uppsala分別使用了基于字符層面的CNN和詞層面的CNN,結(jié)果精確度和F1值均低于大多數(shù)同時(shí)參賽的傳統(tǒng)機(jī)器學(xué)習(xí)分類(lèi)器(如基于SVM、邏輯回歸的分類(lèi)器) 的識(shí)別效果[7-8,18]。

    神經(jīng)網(wǎng)絡(luò)分類(lèi)器在識(shí)別多語(yǔ)種文本時(shí)取得的高精確度[2]與在處理相近語(yǔ)種時(shí)的低精確度形成了鮮明對(duì)比,原因值得探求。通過(guò)錯(cuò)誤分析,我們認(rèn)為CNN分類(lèi)器結(jié)果難以令人滿(mǎn)意的原因有兩點(diǎn): ①CNN分類(lèi)器用太多的卷積核作為參數(shù),對(duì)訓(xùn)練語(yǔ)料的規(guī)模要求高,4萬(wàn)條左右的訓(xùn)練文本難以使CNN分類(lèi)器學(xué)到足夠的特征規(guī)律; ②CNN分類(lèi)器的魯棒性較差,在處理維語(yǔ)文本時(shí),由于入庫(kù)的維語(yǔ)語(yǔ)料中包含有大量拼寫(xiě)錯(cuò)誤,含有拼寫(xiě)錯(cuò)誤的字符被當(dāng)作集外詞(out of set vocabulary),無(wú)對(duì)應(yīng)的字符向量,導(dǎo)致卷積核無(wú)法識(shí)別出特征字符序列,所以CNN分類(lèi)器對(duì)維語(yǔ)的識(shí)別效果較差。相比而言,哈語(yǔ)語(yǔ)料主要來(lái)自網(wǎng)絡(luò)論壇,誤拼錯(cuò)誤要少得多,所以CNN分類(lèi)器識(shí)別哈語(yǔ)的準(zhǔn)確率和召回率比維語(yǔ)要高得多。

    4.4 本系統(tǒng)對(duì)其他相近語(yǔ)種(語(yǔ)言變體、方言)的適用性測(cè)試

    針對(duì)問(wèn)題(4),即測(cè)試本系統(tǒng)識(shí)別其他相近語(yǔ)種(語(yǔ)言變體、方言)的口語(yǔ)風(fēng)格短文本的性能,我們使用了最大熵分類(lèi)器來(lái)識(shí)別VarDial’2016DSL共享任務(wù)子任務(wù)1下的兩個(gè)領(lǐng)域外口語(yǔ)風(fēng)格短文本測(cè)試集B1、B2。

    VarDial’2016 DSL共享任務(wù)子任務(wù)1提供了12種語(yǔ)言(語(yǔ)言變體)的新聞短文本作為訓(xùn)練語(yǔ)料,每種語(yǔ)料提供18 000個(gè)句子作為訓(xùn)練集,2 000個(gè)句子作為開(kāi)發(fā)集。測(cè)試集包括一個(gè)領(lǐng)域內(nèi)測(cè)試集(A)、兩個(gè)領(lǐng)域外測(cè)試集(B1,B2)。B1(波斯尼亞語(yǔ)、克羅地亞語(yǔ)和塞爾維亞語(yǔ))和B2(巴西葡萄牙語(yǔ)和歐洲葡萄牙語(yǔ))兩個(gè)測(cè)試集每個(gè)語(yǔ)種(方言、變體)各包含100個(gè)推特用戶(hù)的推文,平均每個(gè)用戶(hù)98.88和50.47條推文。選取識(shí)別B1、B2兩個(gè)測(cè)試集來(lái)測(cè)試本系統(tǒng)性能的原因在于,這兩個(gè)測(cè)試集中的文本同樣屬于口語(yǔ)風(fēng)格短文本,可以較好地考察本系統(tǒng)識(shí)別其他相近語(yǔ)種(語(yǔ)言變體、方言)口語(yǔ)風(fēng)格短文本的適用性。

    我們對(duì)測(cè)試語(yǔ)料做了簡(jiǎn)單的預(yù)處理,清除了其中的鏈接、@符號(hào)以及標(biāo)簽。然后選取了除詞的一元特征以外的所有特征,字符的n元特征中的n設(shè)置為1到7,使用最大熵分類(lèi)器在B1和B2任務(wù)上分別進(jìn)行語(yǔ)種識(shí)別實(shí)驗(yàn)。為了與當(dāng)時(shí)的參賽系統(tǒng)進(jìn)行比較,本次實(shí)驗(yàn)使用了VarDial’2016DSL共享任務(wù)中的評(píng)價(jià)指標(biāo): 精確度(A)和F1值。F1值的計(jì)算如式(14)所示。

    (14)

    其中,P為準(zhǔn)確率,R為召回率。

    本系統(tǒng)和當(dāng)時(shí)參加VarDial’2016DSL共享任務(wù)子任務(wù)1前五名對(duì)B1、B2的分類(lèi)結(jié)果如表4和表5所示。

    表4 對(duì)B1測(cè)試集相近語(yǔ)種識(shí)別排名前五的系統(tǒng)和本系統(tǒng)的表現(xiàn)

    表5 對(duì)B2測(cè)試集相近語(yǔ)種識(shí)別排名前五的系統(tǒng)和本系統(tǒng)的表現(xiàn)

    從表4和表5可以看出,GW-LT3在當(dāng)時(shí)的評(píng)測(cè)中排名第一,該系統(tǒng)使用了字符的n元特征(n=2~6)和單詞的n元特征(n=1~3),用詞頻對(duì)那些特征進(jìn)行加權(quán),并做了復(fù)雜的預(yù)處理。對(duì)比之下,本系統(tǒng)做的預(yù)處理少得多,對(duì)B1、B2進(jìn)行相近語(yǔ)種識(shí)別的精確度分別比該系統(tǒng)高0.6%和1.2%。由此,本系統(tǒng)不僅能夠在口語(yǔ)風(fēng)格短文本上有效區(qū)分維語(yǔ)和哈語(yǔ),對(duì)于其他語(yǔ)種的口語(yǔ)風(fēng)格短文本也能做很好的區(qū)分。

    對(duì)比nrc和tubasfs系統(tǒng),這兩個(gè)系統(tǒng)都使用了支持向量機(jī)分類(lèi)器,特征也都使用了字符的n元特征,n分別為1~6和1~7。然而本系統(tǒng)處理B1、B2的精確度均優(yōu)于這兩個(gè)系統(tǒng),顯示出在該任務(wù)中使用復(fù)合特征的最大熵分類(lèi)器分類(lèi)效果要優(yōu)于使用字符的n元特征的支持向量機(jī)分類(lèi)器。

    此外,本系統(tǒng)在處理維、哈語(yǔ)料時(shí),字符的n元特征(n=1~4)就取得了95.7%的精確度,而在處理本任務(wù)中的B1和B2測(cè)試集時(shí),n用到了1~7,精確度才分別達(dá)到92.6%和89.0%。其中一個(gè)原因在于VarDial’2016DSL共享任務(wù)子任務(wù)1提供的訓(xùn)練語(yǔ)料效果不如我們自建的維、哈語(yǔ)口語(yǔ)風(fēng)格短文本訓(xùn)練語(yǔ)料。因此,識(shí)別口語(yǔ)風(fēng)格短文本所屬語(yǔ)種時(shí),網(wǎng)絡(luò)論壇的語(yǔ)料比新聞?wù)Z料更適合作訓(xùn)練語(yǔ)料。

    5 結(jié)論

    本研究構(gòu)建了一個(gè)維語(yǔ)和哈語(yǔ)口語(yǔ)風(fēng)格短文本語(yǔ)料庫(kù),在此基礎(chǔ)上訓(xùn)練了一個(gè)最大熵分類(lèi)器,對(duì)維語(yǔ)、哈語(yǔ)的口語(yǔ)風(fēng)格短文本進(jìn)行語(yǔ)種識(shí)別。為了解決語(yǔ)料嚴(yán)重不平衡的問(wèn)題,我們使用了語(yǔ)料增補(bǔ)和同化的方法,從在線論壇爬取長(zhǎng)度相近的、領(lǐng)域外口語(yǔ)風(fēng)格文本來(lái)增補(bǔ)訓(xùn)練語(yǔ)料。實(shí)驗(yàn)結(jié)果證明增補(bǔ)和同化方法有效,并且在區(qū)分口語(yǔ)風(fēng)格短文本時(shí),論壇上爬取的文本比新聞文本更適合作訓(xùn)練語(yǔ)料。

    本文設(shè)計(jì)了一個(gè)最大熵分類(lèi)器對(duì)口語(yǔ)風(fēng)格短文本進(jìn)行相近語(yǔ)言語(yǔ)種識(shí)別。從實(shí)驗(yàn)結(jié)果看,字符層面的形態(tài)特征有效而詞匯層面的特征反而降低系統(tǒng)分類(lèi)的效果。此外,本系統(tǒng)不僅能夠有效區(qū)分維、哈語(yǔ)口語(yǔ)風(fēng)格短文本,針對(duì)VarDial’2016DSL共享任務(wù)子任務(wù)1中三種南斯拉夫語(yǔ)言和葡萄牙語(yǔ)的兩個(gè)變體的口語(yǔ)風(fēng)格短文本的語(yǔ)種識(shí)別也取得了非常好的效果。

    而對(duì)于區(qū)分維語(yǔ)和哈語(yǔ)這一組相近語(yǔ)言來(lái)說(shuō), CNN分類(lèi)器并未取得理想的效果,這與文獻(xiàn)[17-18]提出的現(xiàn)象一致。我們就此做了一定的錯(cuò)誤分析,在未來(lái)的工作中我們會(huì)繼續(xù)探求CNN分類(lèi)器在處理相近語(yǔ)言(語(yǔ)言變體、方言)時(shí)效果不盡人意的原因,并嘗試提出改進(jìn)方法。

    猜你喜歡
    維語(yǔ)語(yǔ)種字符
    對(duì)比語(yǔ)言學(xué)視野下的維吾爾語(yǔ)與朝鮮語(yǔ)音義相近詞比較初探
    尋找更強(qiáng)的字符映射管理器
    《波斯語(yǔ)課》:兩個(gè)人的小語(yǔ)種
    淺析維語(yǔ)口語(yǔ)技能的影響因素和提升路徑
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    “一帶一路”背景下我國(guó)的外語(yǔ)語(yǔ)種規(guī)劃
    試析否定詞綴在漢維語(yǔ)中的不同表現(xiàn)
    淺析現(xiàn)代維語(yǔ)部分阿拉伯—波斯語(yǔ)借詞語(yǔ)音變化
    文教資料(2012年24期)2012-04-29 00:44:03
    禄劝| 呼玛县| 鹤山市| 高青县| 塘沽区| 汾西县| 莱芜市| 临汾市| 长沙县| 石景山区| 合山市| 鄂托克前旗| 连州市| 丹江口市| 辉县市| 姚安县| 寿光市| 博湖县| 武邑县| 斗六市| 闽清县| 克东县| 平阴县| 麟游县| 巴马| 古蔺县| 霍林郭勒市| 潮安县| 桓仁| 宜宾县| 绿春县| 盐边县| 手游| 武川县| 肃南| 临澧县| 木兰县| 霍山县| 广州市| 原平市| 阿荣旗|