• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      漢蒙機器翻譯系統(tǒng)中量詞翻譯研究

      2010-06-05 02:43:22王斯日古楞斯琴圖那順烏日圖
      中文信息學報 2010年5期
      關鍵詞:蒙古文蒙古語數(shù)詞

      王斯日古楞, 斯琴圖, 那順烏日圖

      (1. 內(nèi)蒙古師范大學 計算機與信息工程學院, 內(nèi)蒙古 呼和浩特 010022;2. 內(nèi)蒙古師范大學 網(wǎng)絡中心, 內(nèi)蒙古 呼和浩特 010022;3. 內(nèi)蒙古大學 蒙古學學院, 內(nèi)蒙古 呼和浩特 010022)

      1 問題的提出

      關于漢蒙機器翻譯,我們曾經(jīng)做過基于規(guī)則的研究[1],基于實例的研究[2]和基于短語的統(tǒng)計方法的研究[3]。為了充分利用各種機器翻譯方法的優(yōu)點,我們正在開展基于混合策略的漢蒙機器翻譯系統(tǒng)的研究。在漢蒙統(tǒng)計機器翻譯研究的實驗中,經(jīng)過分析,發(fā)現(xiàn)有大量的量詞翻譯錯誤。例如:對于下面帶有量詞的句子的翻譯存在問題如下(注:由于我們試驗中使用的蒙古文語料全部是內(nèi)蒙古大學拉丁轉寫形式,所以本文中出現(xiàn)的蒙古文也直接使用了拉丁形式):

      (1) 輸出:SIREGEN DEGER_E TALBIJV BAI H0YAR TVS T0LI-DV

      問題:將量詞“本”翻譯成其代詞意義,如“本文內(nèi)容:TVS HICIYEL-UN AGVLG_A”中“本”被翻譯成“TVS”,而“兩本詞典”應該翻譯為“H0YAR DEBTER T0LI”或“H0YAR T0LI”,后一種翻譯中量詞可以省略。

      (2) 輸入:這是一只銀手鐲

      輸出:ENE B0L NIGE LE MONGGON BAGVV

      問題:“一只銀手鐲”中量詞“只”的翻譯應該為空,就是“NIGE MONGGON BAGVV”,而系統(tǒng)譯文中將翻譯成“LE”,與“只有”中的含義類似。

      為了解決這類量詞翻譯錯誤,我們引入了量詞表。具體做法是:首先將語料中出現(xiàn)的所有量詞抽出來,之后,將這些詞翻譯成蒙文,建立漢蒙量詞對應表,然后在對漢語分詞同時對其進行詞性標注,根據(jù)標注選出量詞進行翻譯。最后將帶翻譯的文本輸入到解碼器進行解碼。

      2 關于漢語和蒙古語中的量詞

      漢語語法的一個重要特點就是量詞非常豐富[4],而有些語言(如英語)中沒有量詞,這增加了漢外機器翻譯的復雜性。《現(xiàn)代漢語語法信息詞典》中一共收錄了256個量詞。在《現(xiàn)代漢語語法信息詞典詳解》[5]中對漢語量詞的描述為:

      (1) 量詞是放在數(shù)詞或指示代詞“這”、“那”后面的黏著詞。數(shù)詞與量詞組合而成的數(shù)量詞組是體詞性的,量詞還有區(qū)分名詞類別的作用。量詞重疊能指代名詞。

      (2) 量詞分名量詞,時量詞和動量詞三個小類。名量詞又分為個體量詞,度量詞、集體量詞、種類量詞、不定量詞、容器量詞、成形量詞、倍率量詞等子類。

      (3) 度量詞(“公斤、米”)和個體量詞(“匹、頭、棵”)是典型的量詞。

      (4) 多數(shù)容器量詞(“碗、桶、車”等)是由名詞兼的。

      (5) “些、點兒”是不定量詞,它們前面的數(shù)只能是“一”。

      (6) “片、塊、股”等是成形量詞,一部分成形量詞(“攤、堆、捆”)是動詞兼的。

      (7) “倍、成、分”等量詞總接在數(shù)詞后使用。

      (8) 借用名詞(“省、市、縣、班、排、連、頭、臉”等)作臨時量詞的現(xiàn)象很普通。詞典中不可能將這些名詞全做為量詞收入,而在名詞庫中設置“臨量”的屬性字段。

      蒙古語中也有量詞。它是用來表示事物和行為的計量單位的詞[6]。蒙古語量詞也和其他語言一樣,有固定量詞和臨時量詞之分[7]。像ALDA(度)、DELIM(半度) 、IMAHV(寸)是固有詞,JING(斤)、LANG(兩)、KILVGRAM(公斤)等漢語借詞和國際通用量詞,ATHV (把)、GAJAR(里)等屬兼類固定量詞。AYAG_A(碗),DVSVL(滴)、 JAGVN(世紀)等則屬臨時量詞。蒙古語量詞按其意義可分為度量詞(ALDA度)、時量詞(H0N0G晝夜)和集合量詞(SURUG群)。在蒙古語語法信息詞典量詞分庫中,按照信息處理用蒙古文詞語標記集國家標準,將蒙古文量詞分為名量詞(Qn)、時間量詞(Qc)和動量詞(Qv)三類。

      蒙古語語法信息詞典量詞分庫中共收錄了144個量詞。漢語和蒙古語中雖然都有量詞,但是這兩種語言中的量詞并不是一一對應的,在對漢語量詞和蒙古語量詞對應關系進行研究的基礎上,我們構建了漢蒙量詞翻譯表。

      3 漢蒙量詞詞表的構造

      文獻[8]把基于TBED自動獲取的規(guī)則應用在漢英機器翻譯的數(shù)量詞翻譯中,提高了系統(tǒng)翻譯性能。在漢蒙機器翻譯中我們提出用量詞表來解決漢蒙量詞翻譯問題,我們首先構造了漢蒙兩次對應表。首先收集了漢語中出現(xiàn)的量詞。除了《現(xiàn)代漢語語法信息詞典》中的量詞外,我們也從語料庫中抽取了部分臨時量詞。語料庫主要是使用了北京大學的《人民日報》一個月的標注語料庫。通過程序我們對《人民日報》語料中出現(xiàn)的量詞進行了統(tǒng)計分析。結合語法信息詞典和語料庫的統(tǒng)計我們構造了漢語的量詞表,在此基礎上通過大量的實例分析給出了相應蒙古文譯文。在具體翻譯時出現(xiàn)的問題及其解決方法如下:

      (1) 一對一關系:漢語中的大多數(shù)度量詞在蒙古語中都有相應的譯文,而且翻譯是一一對應關系,只要在語料中出現(xiàn)過,翻譯結果就應該正確,例如:公斤(KIL0gRAM)、千伏(KIL0W0Lt)、海里(MILI)、瓶(L0NGH0)等。度量詞的翻譯不能省略。我們把這類量詞收集后放到量詞表中直接翻譯。在表1 中給出了部分度量詞及其翻譯。

      (2) 一對多關系:有些漢語量詞對應到蒙語中有多個譯文,就是一對多的情況,如表1所示。

      表1 漢蒙量詞翻譯中一對多示例表(一對多)

      續(xù)表

      對于一對多的量詞,我們把他們從量詞表中去掉,將它的翻譯任務留給統(tǒng)計解碼器,解碼器將根據(jù)概率值進行翻譯。為了保證其中每個量詞的多個可能的譯文都在短語表中出現(xiàn),我們將一對多的量詞的每個量詞的可能翻譯以短語對的形式提供給雙語平行語料庫。

      (3) 一對零關系:在漢語中量詞非常豐富,并且在表示數(shù)量的時候一般要求必須使用。但是在漢語中有些使用量詞的場合對應蒙古語中不用量詞。對這些量詞我們可以把它們看成是空對應,即漢語中的量詞對應的蒙古文譯文是空的。翻譯時我們把這類量詞用空串替換就可以。例如:“一個人”翻譯成 “NIGE HOMON”,“三輛車”翻譯成“GVRBAN TERGE”,“兩只老鼠”翻譯成“H0YAR HVLVGAN_A”,其中的量詞“個”、“輛”和“只”在蒙古語譯文中是不用翻譯的。

      (4) 多對一關系:在翻譯中,有多個漢語量詞對應到同一個蒙古語量詞的情況,就是多對一的情況。例如:漢語中的量詞“伙、派、批、章、幫、集”等都翻譯成蒙古文中的 “BOLOG”;“樣、種、樁” 等都翻譯成蒙古文中的 “JUIL”;“遍、次、回、架次、起、趟” 等都翻譯成蒙古文中的 “VDAG_A”。對于多對一的情況,我們在量詞翻譯表中直接給出譯文進行翻譯就可以。

      (5) 在漢語中大多數(shù)量詞可以重疊,而且重疊后的量詞出現(xiàn)在數(shù)詞后面時依然是量詞。對此我們在翻譯時,在相應譯文后加一個BURI(或NIGEBURI)進行翻譯即可。但是重疊后的量詞一般很少在數(shù)詞后出現(xiàn)。

      4 量詞處理算法

      為了解決量詞翻譯錯誤,我們在預處理中對量詞進行了翻譯。為此我們設計和實現(xiàn)了量詞處理模塊。算法描述如下:

      輸入:漢語句子;

      處理: (1) 對句子進行切分和詞性標注;

      (2) 在普通量詞翻譯表中查找句子中所有量詞;

      (3) 如果找到,就根據(jù)翻譯表進行翻譯;

      輸出:量詞翻譯后的句子。

      其中,找出所有量詞是指根據(jù)量詞的概念,出現(xiàn)在數(shù)詞后面或者代詞“這、那”后的量詞。即詞性標記為(m,q)序偶或(這/r,q)(那/r,q)序偶。普通量詞翻譯表中放的是沒有歧義的一對一、多對一和一對空的量詞的翻譯。

      5 實驗及其分析

      我們在漢蒙統(tǒng)計機器翻譯系統(tǒng)中按照上面算法實現(xiàn)了量詞處理模塊,然后進行了對比實驗,對于下列具體句子的翻譯過程為:

      輸入:這是一支優(yōu)美的曲調。

      不進行量詞處理時翻譯過程為:

      分詞之前:這是一支優(yōu)美的曲調。

      分詞之后:這/r 是/v 一/m 支/q 優(yōu)美/a 的/u 曲調/n 。/w

      去掉標記后:這 是 一 支 優(yōu)美 的 曲調 。

      翻譯結果:ENE B0L NIGE SIRHEG G0Y0 SAYIHAN DAGVV-YIN AYAS .

      進行量詞處理時翻譯過程為:

      分詞之前:這是一支優(yōu)美的曲調。

      分詞之后:這/r 是/v 一/m 支/q 優(yōu)美/a 的/u 曲調/n 。/w

      處理量詞后:這/r 是/v 一 優(yōu)美/a 的/u 曲調/n 。/w

      去掉標記后:這 是 一 優(yōu)美 的 曲調 。

      翻譯結果:ENE B0L NIGE G0Y0 SAYIHAN DAGVV-YIN AYAS .

      在本句子中,量詞“支”在蒙古文中應該不進行翻譯,經(jīng)過量詞處理后,可以得到符合蒙古語的正確譯文。我們用自動評測系統(tǒng)對系統(tǒng)性能進行了評測,語言模型為三元。在政府文獻領域(TS1)和日常對話領域(TS2)的評測結果如表2所示。

      表2 不帶量詞表與帶量詞表的系統(tǒng)對比實驗

      試驗結果表明,在漢蒙統(tǒng)計機器翻譯系統(tǒng)中對于量詞的預處理會提高系統(tǒng)的翻譯性能。在政府文獻領域BLEU值提高了0.22,在日常對話領域BLEU值提高了0.31。在政府文獻領域提高較低的原因是政府文獻測試語料中出現(xiàn)地量詞個數(shù)比日常對話測試語料中出現(xiàn)地量詞個數(shù)少。通過此方法我們可以比較準確地將漢語中大量存在的量詞翻譯成蒙古語。各種對應關系的量詞個數(shù)如表3所示。

      表3 各種對應關系中漢蒙量詞個數(shù)

      在《現(xiàn)代漢語語法信息詞典》中沒有收錄臨時量詞,我們量詞表中收錄了部分臨時量詞。通過實驗分析,量詞表的引入對于處理臨時量詞和一對空的漢蒙量詞翻譯是非常有效的。在漢語中量詞雖然是很小的集合,但是它的應用非常廣。目前對沒被收錄的量詞和一對多的量詞我們直接在統(tǒng)計解碼器中進行翻譯。漢蒙量詞翻譯表實際上給出了部分量詞的翻譯模板,具有歧義的部分用統(tǒng)計解碼器進行翻譯,這樣可以將規(guī)則和統(tǒng)計方法各自的優(yōu)勢發(fā)揮出來。

      6 總結與展望

      本文對漢語和蒙古語中的量詞翻譯進行研究的基礎上,提出了使用量詞表進行翻譯,總結出了一對一、多對一、一對零和一對多等漢語量詞到蒙語量詞翻譯的對應關系,給出了各種對應中的翻譯方法。試驗證明這種方法可以有效地解決翻譯中出現(xiàn)的量詞錯誤,尤其是對臨時量詞和一對空的量詞翻譯非常有效。

      通過對量詞翻譯的實驗,我們發(fā)現(xiàn),在統(tǒng)計機器翻譯系統(tǒng)中,對于數(shù)詞、量詞等規(guī)則性較強的詞類,如果用規(guī)則或模板的方法進行處理,會有效的提高統(tǒng)計系統(tǒng)的翻譯性能。 關于漢蒙數(shù)詞翻譯的方法,在文獻[9]中進行了詳細的研究。下一步,我們將數(shù)詞和量詞結合起來,將規(guī)則和模板方法應用在統(tǒng)計機器翻譯中,進一步提高漢蒙機器翻譯系統(tǒng)的性能。同時臨時量詞和外來度量詞也很多,所以量詞表也有必要不斷的擴充和完善。

      [1] 那順烏日圖,劉群,巴達瑪放德斯爾.關于漢蒙機器輔助翻譯系統(tǒng)[J].阿爾泰學報,2001.

      [2] 侯宏旭,劉群,那順烏日圖.基于實例的漢蒙機器翻譯[J].中文信息學報,2007,21(4):65-72.

      [3] 王斯日古楞,斯琴圖,那順烏日圖.基于短語的漢蒙統(tǒng)計機器翻譯研究[C]//中國少數(shù)民族自然語言處理技術研究與進展——第二屆全國少數(shù)民族自然語言處理學術研討會論文集,2008.

      [4] 袁竹筠.淺談漢英量詞的對比及對外漢語的量詞教學[J].遼寧教育行政學院學報,2009,(7):77-79.

      [5] 俞士汶,等著.現(xiàn)代漢語語法信息詞典詳解[M].北京:清華大學出版社,1998.

      [6] 清格爾泰.蒙古語語法[M].呼和浩特:內(nèi)蒙古人民出版社,1991.

      [7] 那順烏日圖.蒙古語語法信息詞典的框架設計[D]. 呼和浩特:內(nèi)蒙古大學,2003.

      [8] Yang Muyun et al, TBED Based Chinese-English Translation Rule Acquisition[C]//Proc. of International Conference on Natural Language Processing and Knowledge Engineering, IEEE Press, 2003.10.

      [9] 雪艷,應玉龍.基于阿拉伯數(shù)字中介的漢蒙數(shù)詞對齊策略[C]//中國少數(shù)民族自然語言處理技術研究與進展—第二屆全國少數(shù)民族自然語言處理學術研討會論文集,2008:248-256.

      猜你喜歡
      蒙古文蒙古語數(shù)詞
      含有“心”一詞蒙古語復合詞的語義
      土默特地方蒙古語地名再探
      數(shù)詞
      關于新發(fā)現(xiàn)的《字母匯編》(蒙古文)
      論蒙古語中反映心理逆境傾向的某些字的含義
      關于蒙古文在各種瀏覽器上顯示方法的探討
      俄語詞“Sherti”在蒙古語中的變義(蒙古文)
      略論Khandjamts夫人(基里爾蒙古文)
      對聯(lián)中數(shù)詞的藝術運用(下)
      對聯(lián)(2011年24期)2011-09-19 06:40:14
      英語數(shù)詞順口溜等
      治县。| 尼勒克县| 白河县| 汉川市| 东至县| 和平区| 宜阳县| 乐都县| 凤山市| 古蔺县| 西华县| 九龙县| 临沂市| 丰镇市| 伊金霍洛旗| 隆子县| 阿克| 金溪县| 镇沅| 神池县| 连城县| 宜丰县| 手游| 邯郸县| 杭锦后旗| 桂东县| 府谷县| 卫辉市| 仪征市| 陆良县| 辰溪县| 太原市| 夏河县| 灵丘县| 大石桥市| 阜康市| 开鲁县| 诏安县| 尉氏县| 大渡口区| 金湖县|