• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于統(tǒng)計和詞典方法相結(jié)合的韓漢雙語語料庫名詞短語對齊

      2018-09-18 09:33:40凌天斌畢玉德
      中文信息學(xué)報 2018年8期
      關(guān)鍵詞:韓國語義項語料

      凌天斌,畢玉德

      (解放軍戰(zhàn)略支援部隊信息工程大學(xué),河南 洛陽 471003)

      0 引言

      在基于實例的機器翻譯系統(tǒng)中,翻譯實例獲取根據(jù)粒度區(qū)分,可以分為篇章級、句子級、短語級和詞語級等,其中詞語對齊是基礎(chǔ),而短語對齊在很大一部分程度上依賴于詞語對齊。本文討論的是利用較大規(guī)模韓漢雙語平行語料庫,在統(tǒng)計和詞典相結(jié)合的詞對齊方法基礎(chǔ)上,實現(xiàn)基于雙語語料庫的短語對齊。由于短語對齊比句子對齊提供了更細程度的對譯信息,因此對于它的研究具有重要意義。

      在短語對齊方法方面,短語級別上的對齊可以歸結(jié)為雙語平行語料庫上的多詞單元的對應(yīng)。許多學(xué)者在多詞單元對齊和自動構(gòu)建雙語翻譯詞典方面做了進一步的研究,基本方法有n-gram、有限狀態(tài)機、近似字符匹配、雙語語法分析樹等。其中Marcu[1]說明了單個詞作為翻譯基本單元的不足,并說明了在翻譯中加入短語翻譯對的原因,并且證明了加入短語翻譯對可以提高系統(tǒng)性能。Zhang[2]等人為雙語句對建立一個互信息矩陣,并將矩陣中抽取的互信息值相似的區(qū)域視為短語對。Zhang和Stephan Vogel[3]提出了將短語對齊視為句子分割問題的方法,在源短語固定的情況下,尋找目標(biāo)短語的最優(yōu)左邊界和右邊界。常寶寶[4]等人提出了基于詞語關(guān)聯(lián)度進行詞語組合方法,并利用假設(shè)—檢驗的方法,在漢英雙語語料庫中抽取翻譯等價單位。程潔[5]等人采用結(jié)合閾值和關(guān)聯(lián)度提取的方法獲取多詞單元翻譯詞典。屈剛[6]等人針對漢英句子候選句法分析樹集中存在大量的翻譯異?,F(xiàn)象,使得源語言句法樹和目標(biāo)語言句法樹往往不存在簡單的對應(yīng)關(guān)系這一問題,提出了“有效句型”概念和“翻譯中相對不變準(zhǔn)則”的短語對齊模型。

      本文在現(xiàn)有資源的基礎(chǔ)上,首先從韓國語名詞短語結(jié)構(gòu)特點出發(fā),在統(tǒng)計和詞典相結(jié)合的詞對齊方法基礎(chǔ)上,提出了基于詞對齊位置信息的韓漢雙語語料庫名詞短語對齊方法。該方法在較大規(guī)模語料庫情況下,取得了較好的短語對齊結(jié)果。

      1 韓國語名詞短語結(jié)構(gòu)特點

      在韓國語研究方面,早期的研究都是以句子為單位,組塊識別和短語結(jié)構(gòu)分析是近年來關(guān)注的焦點。韓國語名詞組塊的研究則以基本名詞短語的相關(guān)研究為主[7]。安帥飛[8]等人提出了采用左右邊界判定進行名詞短語獲取的方法,并在此基礎(chǔ)上總結(jié)歸納出了八類名詞短語類型:

      (1) 名詞|代詞+?+名詞|名詞疊加;

      (2) 兩個或兩個以上名詞(代詞)混合疊加;

      (3) 名詞|代詞+接續(xù)助詞|特殊的副詞+名詞|代詞;

      (4) 冠形詞+名詞|代詞;

      (5) 數(shù)字|數(shù)詞+名詞;

      (6) 名詞|名詞疊加+?+名詞;

      (7) 名詞+名詞派生接尾詞+肯定指示詞+冠形轉(zhuǎn)成詞尾+名詞;

      (8) 名詞|代詞+數(shù)詞+(依存名詞)。

      其中,語料庫中韓國語采用“世宗計劃”語料庫的分詞標(biāo)注體系進行分詞標(biāo)注。根據(jù)八類名詞短語形式,通過定義正則表達式的方法實現(xiàn)語料庫中名詞短語的抽取。

      該方法的主要原理是: 根據(jù)名詞短語左右相鄰詞出現(xiàn)規(guī)律,確定名詞短語左右邊界,實現(xiàn)名詞短語的獲取。

      2 詞對齊方法

      2.1 詞典模糊匹配詞對齊方法

      雙語詞典具有豐富的詞匯對譯信息,是可以充分利用的優(yōu)秀資源,基于詞典的詞語對齊方法是利用雙語電子詞典來進行雙語詞語對齊的算法。由于真實翻譯中上下文的多樣性和翻譯的靈活性,為了提高詞典譯文的覆蓋率,我們引入了詞典的模糊匹配。

      詞典的模糊匹配采用詞語相似度計算的方法實現(xiàn),通常用Dice系數(shù)進行兩個字符串之間相似度的計算,詞語相似度如式(1)所示。

      (1)

      式(1)中,comm(t1,t2)是t1和t2中相同字符的個數(shù),len(t1)是字符串t1的長度,len(t2)是字符串t2的長度,Dice(t1,t2)取值在0到1之間。

      在獲得同一種語言中詞語相似度Dice(t1,t2)的基礎(chǔ)上,則源語言詞語s與目標(biāo)語言詞語t的相似度為,如式(2)所示。

      (2)

      式(2)中,DTk為源語言詞語s的所有譯文。h為定義好的相似度的閾值,Count為次數(shù)統(tǒng)計函數(shù),d為源語言詞語s譯文中的一個。若源語言詞語s存在多個譯文,在計算詞語相似度時,將所有譯文與目標(biāo)語言詞語t分別兩兩計算,取最大值作為兩個詞語的相似度值。

      基于詞典的詞語對齊方法可以得到比較可靠的非空匹配,但由于雙語詞典的覆蓋面是有限的,在未登錄詞、上下文關(guān)系方面存在一定的局限性,使得該方法達到的正確率和召回率都十分有限。

      2.2 基于語義相似度的詞對齊方法

      在真實翻譯過程中,譯文往往具有很強的靈活性,常常會存在同義詞替代翻譯詞的現(xiàn)象。中國科學(xué)院計算技術(shù)研究所的王斌[9]等人于1999年引入了語義作為基于詞典的詞語對齊方法的補充。

      《同義詞詞林》是現(xiàn)代漢語中比較常用的一部義類詞典,哈爾濱工業(yè)大學(xué)信息檢索實驗室在此基礎(chǔ)上完成了《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》,它收錄了了各類詞語7萬余條,按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起,把詞匯分成大、中、小三類,大類有12個,中類有97個,小類有1 400個。小類根據(jù)詞義的遠近和相關(guān)性原則分成若干個詞群。每個詞群中的詞語進一步分成若干行,同一行的詞語在詞義方面相同或具有很強的相關(guān)性。通過詞義代碼可以看出、這種分類方法具有層次性。通過抽象可以將該分類體系用一個樹形圖表示,則根節(jié)點的子節(jié)點就是所有大類,所有大類的子節(jié)點就是所有中類,中類的所有子節(jié)點就是所有小類。

      通過《同義詞詞林(擴展版)》的樹形結(jié)構(gòu),田久樂[10]等人提出了義項相似度算法,該算法主要思想是: 利用同義詞詞林獲得詞語義項的代碼,通過義項之間的語義距離計算出義項相似度。該算法基于義項代碼所在分支的區(qū)別進行判斷,義項代碼從哪一層開始不同,就使用該層對應(yīng)的系數(shù)與調(diào)節(jié)參數(shù)和控制參數(shù)相乘,得出兩個義項的相似度。如式(3)所示。

      若兩個義項不在同一顆樹上,則

      Sim(S1,S2)=f

      (3)

      若兩個義項在同一顆樹上,則

      (4)

      由式(4)可知,兩詞義S1與S2之間的語義距離可以定義為語義樹中節(jié)點S1到節(jié)點S2的最短路徑的長度,通過比較兩個詞的語義編碼可計算出它們的語義距離。兩個詞語的距離越大,其相似度越低;反之,兩個詞語的距離越小,其相似度越高。

      在義項相似度定義的基礎(chǔ)上,定義兩個漢語詞c1、c2的語義相似度公式,如式(5)所示。

      (5)

      式(5)中,Senseof(c1)和Senseof(c2)函數(shù)分別返回詞語c1和c2的詞義代碼集合。若詞語c1、c2存在多個義項,在計算詞語相似度時,將義項分別兩兩計算,通過式(5)取最大值作為兩個詞語的相似度值。

      基于語義相似度的詞語對齊方法,可以彌補基于詞典的詞語對齊方法在覆蓋面方面的不足,兩者結(jié)合使用可以提高對齊的召回率。

      2.3 基于統(tǒng)計的詞對齊方法

      在基于統(tǒng)計的詞對齊方法方面,本文中使用了目前比較典型的工具GIZA++。GIZA++是GIZA的一個擴展,是Och[11]等人在GIZA軟件包基礎(chǔ)上進一步優(yōu)化得到的統(tǒng)計機器翻譯工具。GIZA++在實現(xiàn)了IBM model 1-5和HMM(隱馬爾科夫模型)基礎(chǔ)上,對IBM-1、IBM-2和HMM模型的概率計算算法進行了改進。

      運行GIZA++相關(guān)命令,將普通文本轉(zhuǎn)化為 GIZA++ 格式,生成~.A3.final對齊文件,包含對齊概率、目標(biāo)句子、源語言句子和對齊位置信息。例如,

      # Sentence pair (3128) source length 14 target length 10 alignmentscore: 1.55964e-17

      但是1在2投資3領(lǐng)域4不5可能6一直7靠8運氣9。10

      2.4 統(tǒng)計與詞典相融合的詞對齊方法

      通過基于詞典和基于統(tǒng)計的詞對齊實驗,可以看出完全基于詞典的對齊可以獲得可靠的非空對齊。但是由于雙語詞典的覆蓋面有限,得到的對齊的召回率并不理想?;诮y(tǒng)計的方法可以彌補純詞典方法的不足,獲得更多對齊,因此可以將統(tǒng)計的方法作為初始對齊的方法,在此基礎(chǔ)上,使用基于詞典和基于語義相似度的方法進行詞對齊校正。其主要步驟為:

      (1) 通過GIZA++工具,獲取詞對齊文件;

      (2) 通過韓漢機讀辭典,獲取某一韓國語詞語的譯文;

      (3) 將該譯文與漢語句子中每個漢語詞語進行詞語相似度計算,取相似度值大于閾值結(jié)果中的最大值,將其對應(yīng)漢語詞語位置加入詞對齊文件;

      (4) 若不存在相似度值大于閾值的結(jié)果,對韓國語所對應(yīng)漢語譯文與漢語句子中所有詞語進行語義相似度計算,取語義相似度值大于閾值結(jié)果中的最大值,將其對應(yīng)漢語詞語位置加入詞對齊文件。

      上例中經(jīng)過統(tǒng)計方法得到的詞對齊結(jié)果再通過基于詞典和基于語義相似度的方法進行詞對齊校正,得到校正后的對齊文件如下所示:

      # Sentence pair (3128) source length 14 target length 10 alignmentscore: 1.55964e-17

      但是1在2投資3領(lǐng)域4不5可能6一直7靠8運氣9。10

      通過例句可以看出,在現(xiàn)有資源和語料規(guī)模的情況下,綜合使用基于詞典和基于統(tǒng)計的方法可以得到更好的對齊結(jié)果。

      3 名詞短語對齊方法

      表1 X與Y的聯(lián)列表

      表格中a、b、c、d的含義為:

      a: 雙語語料所有句對中,短語X和Y同時出現(xiàn)的次數(shù);

      b: 雙語語料所有句對中,短語X出現(xiàn)但短語Y不出現(xiàn)的次數(shù);

      c: 雙語語料所有句對中,短語X不出現(xiàn)但短語Y出現(xiàn)的次數(shù);

      d: 雙語語料所有句對中,短語X和Y均不出現(xiàn)的次數(shù);

      (6)

      名詞短語對齊方法主要利用詞對齊時所獲得的對齊位置信息實現(xiàn)名詞短語對齊,其主要步驟如下:

      (1) 從韓國語標(biāo)注語料中通過正則表達式抽取出韓國語名詞短語;

      (2) 根據(jù)抽取出的名詞短語,獲取詞對齊文件中每個韓國語詞語對應(yīng)的漢語位置;

      (3) 將獲得的漢語位置序列,按照從小到大的順序進行排序,按照排序順序抽取出對應(yīng)的漢語詞語,獲得候選名詞短語翻譯對;

      4 實驗結(jié)果及分析

      基于上述方法,本文初步實現(xiàn)了一個原型系統(tǒng),并針對基于詞典和語義相似度的詞對齊方法、基于統(tǒng)計的詞對齊方法和基于統(tǒng)計和詞典相融合的方法,初步進行了一些試驗,測試不同詞對齊方法對本文提出的基于詞對齊位置信息的名詞短語對齊結(jié)果的影響。

      實驗中使用的韓漢雙語詞典包含詞條50 357條。語義詞典使用《同義詞詞林》。經(jīng)過句子對齊并用于統(tǒng)計訓(xùn)練的雙語句對112 475對,來自韓國《朝鮮日報》、《中央日報》和《東亞日報》發(fā)布的各類新聞,內(nèi)容涵蓋韓國語的政治、經(jīng)濟、文化、科技等方面。該語料庫在內(nèi)容真實的基礎(chǔ)上,具備韓國語新聞?wù)Z料最普遍的語言特點,根據(jù)這些語料進行相應(yīng)研究,得出的結(jié)論也能體現(xiàn)出韓國語新聞?wù)Z料的一般性特征,因此選用新聞?wù)Z料,可使研究結(jié)果更加客觀真實。其中的漢語句子經(jīng)過分詞處理,韓國語句子經(jīng)過分詞和詞性標(biāo)注處理。從訓(xùn)練語料中隨機抽取300句對中的名詞短語并做人工校對,作為標(biāo)準(zhǔn)測試語料。

      在實驗結(jié)果的評價方面,目前最常用的兩個指標(biāo)分別是準(zhǔn)確率和召回率[12],其中,準(zhǔn)確率和召回率的定義如式(7)、式(8)所示。

      表2給出了基于詞典的詞對齊方法、基于統(tǒng)計的詞對齊方法和融合的詞對齊方法下的名詞短語對齊結(jié)果。

      表2 名詞短語對齊結(jié)果

      續(xù)表

      從表2可以看出,基于詞典的方法中,對齊具有較高的準(zhǔn)確率,但由于詞典的覆蓋能力有限,因此召回率較低。而基于統(tǒng)計的方法,可以提高召回率,但準(zhǔn)確率較低。在基于統(tǒng)計和詞典相融合的方法中,在基于統(tǒng)計的方法基礎(chǔ)上,利用基于詞典的方法,結(jié)合了基于統(tǒng)計的方法和基于詞典的方法的優(yōu)點,既彌補了基于統(tǒng)計方法中準(zhǔn)確性的不足,使得正確的對齊數(shù)增加,保證非空對齊的正確率,又可以克服基于詞典的方法中詞典覆蓋能力有限的問題,使得對齊的召回率有了進一步的提高,在此方法下召回率和準(zhǔn)確率也都達到了三個實驗中較為均衡的值。

      分析對齊中產(chǎn)生的錯誤,一部分原因是由于資源不足引起的(詞典譯文缺乏、統(tǒng)計數(shù)據(jù)不足等)。其他錯誤大部分是由于漢語和韓國語之間存在固有的表達差異造成的,如韓國語中的成語、慣用搭配等在相應(yīng)的漢語中通常采用意譯。本文提到詞對齊方法尚不能解決好這類錯誤,對于這些錯誤,有待進一步增加句法分析和語言學(xué)知識加以解決。

      5 結(jié)論

      本文通過對基于三種不同詞對齊方法的名詞短語對齊結(jié)果進行實驗分析,可以得到以下結(jié)論:

      (1) 語言學(xué)信息在雙語語料庫詞對齊中有著重要作用。雙語詞典可以提供可靠的非空對齊。基于詞典和語義相似度的方法可以提高對齊的正確率。

      (2) 當(dāng)語料庫規(guī)模較大時,基于統(tǒng)計的方法對提高對齊的召回率具有重要作用。

      (3) 在資源和語料不足的情況下,基于詞典和基于統(tǒng)計相結(jié)合的方法是進行詞對齊的有效方法。

      盡管本文使用了多種對齊方法,但對齊的準(zhǔn)確率與召回率仍然不能令人滿意。一個主要原因是由于韓漢雙語間的語言差異,使得很多對齊問題需要在句法層面上才能得以解決。

      猜你喜歡
      韓國語義項語料
      “玄”“懸”二字含義不同
      鄉(xiāng)音(2024年12期)2024-12-31 00:00:00
      韓國語不完全詞特征探析
      小心兩用成語中的冷義項
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      韓國語教學(xué)中“-??”的話語功能分析
      針對TOPIK評分標(biāo)準(zhǔn)的韓國語寫作教育
      兩用成語中的冷義項
      知識窗(2015年1期)2015-05-14 09:08:17
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      乌恰县| 灌阳县| 洪泽县| 广河县| 淄博市| 钦州市| 镇安县| 张北县| 宾阳县| 榆林市| 柳林县| 吉水县| 汕尾市| 黑水县| 台东市| 昌图县| 同江市| 乐平市| 唐河县| 扎鲁特旗| 蚌埠市| 北碚区| 天台县| 南安市| 亳州市| 宁波市| 东阳市| 昭通市| 德庆县| 庆云县| 盐山县| 麻阳| 子长县| 天峨县| 迁安市| 澄江县| 建阳市| 清徐县| 三穗县| 肥东县| 永宁县|