• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于字形與語(yǔ)音的音譯單元對(duì)齊方法

    2016-10-12 08:29:09劉博佳徐金安陳鈺楓張玉潔
    關(guān)鍵詞:音譯字形語(yǔ)料

    劉博佳 徐金安 陳鈺楓 張玉潔

    ?

    基于字形與語(yǔ)音的音譯單元對(duì)齊方法

    劉博佳 徐金安?陳鈺楓 張玉潔

    北京交通大學(xué)計(jì)算與信息技術(shù)學(xué)院, 北京 100044; ?通信作者, E-mail: jaxu@bjtu.edu.cn

    為了解決僅采用基于語(yǔ)音或基于字形的音譯方法造成的誤差過(guò)大問(wèn)題, 以漢英音譯為主要研究對(duì)象, 運(yùn)用統(tǒng)計(jì)與規(guī)則的理論思想, 提出融合基于語(yǔ)音和字形的音譯單元對(duì)齊方法, 設(shè)計(jì)了4個(gè)實(shí)驗(yàn), 與傳統(tǒng)方法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果顯示, 該方法能夠很好地提高機(jī)器音譯的準(zhǔn)確性。

    機(jī)器音譯; 對(duì)齊; N-gram 模型; 基于語(yǔ)音的音譯方法; 基于字形的音譯方法

    在自然語(yǔ)言處理應(yīng)用中, 機(jī)器音譯常被用于解決未登錄詞(out-of-vocabulary, OOV)的問(wèn)題, 音譯結(jié)果的準(zhǔn)確度直接影響到實(shí)際應(yīng)用[1]。對(duì)于采用不同字母表和發(fā)音系統(tǒng)的不同語(yǔ)系之間(如英語(yǔ)與漢語(yǔ), 英語(yǔ)與日語(yǔ), 英語(yǔ)與阿拉伯語(yǔ)等), 機(jī)器音譯的難度往往很大。根據(jù)音譯的方向, 可以分為正向音譯(forward-transliteration)和反向音譯(backward-transliteration), 也可分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。經(jīng)過(guò)歷年的發(fā)展, 音譯的主流方法經(jīng)歷了從基于規(guī)則到基于統(tǒng)計(jì)的發(fā)展過(guò)程[1]。根據(jù)音譯要素分類(lèi), 主要分為基于語(yǔ)音(phoneme-based)的音譯框架[2]和基于字形(grapheme-based)的音譯框架[3]。

    基于規(guī)則的方法需要人工針對(duì)特定的語(yǔ)言對(duì)和音譯方向建立音譯規(guī)則[4]。Wan等[4]提出從英文到中文的基于規(guī)則的正向音譯方法, 該方法的思想被大量應(yīng)用在規(guī)則音譯系統(tǒng)中。蔣龍等[5]指出, 規(guī)則的音譯框架采用跨語(yǔ)言的語(yǔ)音對(duì)應(yīng)表, 這種方法的典型不足就是不能為表中的每一種對(duì)應(yīng)提供一個(gè)概率值, 以便排序選擇最優(yōu)翻譯。同時(shí), 由于完備的規(guī)則系統(tǒng)需要完全通過(guò)手工撰寫(xiě)語(yǔ)言規(guī)則, 需要很大的人力投入, 且獲取的規(guī)則不容易泛化。因此, 隨著NLP領(lǐng)域的發(fā)展, 機(jī)器音譯的方法逐漸向統(tǒng)計(jì)方法靠攏。

    在基于統(tǒng)計(jì)方法的音譯中, 經(jīng)常使用對(duì)齊模型 IBM model 1-3和HMM[3]。GIZA++①是一個(gè)融合了IBM model 1-5 和 HMM 模型的開(kāi)源對(duì)齊工具。很多音譯方法將一個(gè)音譯人名對(duì)看做SMT中的一個(gè)句子對(duì)[6], 將每個(gè)音譯單元看做句子中的單詞, 并直接使用 GIZA++進(jìn)行對(duì)齊, 取得較好的翻譯效果。

    理論上, 基于語(yǔ)音的音譯框架能夠更好地提高準(zhǔn)確率。Gao等[7]在2004年提出一種不同于噪聲信道模型的基于音素的音譯模型, 直接使用源語(yǔ)言到目標(biāo)語(yǔ)言的生成概率計(jì)算音譯結(jié)果。但是, 由于一個(gè)音譯單元可能存在多種發(fā)音形式, 并且由于不同語(yǔ)系之間拼寫(xiě)規(guī)則的不同, 從源語(yǔ)言的語(yǔ)音轉(zhuǎn)化成目標(biāo)語(yǔ)言語(yǔ)音的步驟之間存在很大誤差?;谧中蔚囊糇g框架能夠避免從字形轉(zhuǎn)換到語(yǔ)音, 從語(yǔ)音再還原成字形的音譯單元的誤差, 擺脫對(duì)發(fā)音規(guī)則的依賴(lài)。李海舟研究小組[6,8–9]在英到中的音譯中使用直接對(duì)齊, 采用基于噪聲信道模型進(jìn)行音譯, 取得較好的效果, 但是由于跳過(guò)了語(yǔ)音環(huán)節(jié), 會(huì)不可避免地產(chǎn)生信息丟失。

    綜合考慮以上方法的優(yōu)缺點(diǎn), 本文在構(gòu)建基于統(tǒng)計(jì)機(jī)器音譯框架后, 引入音譯方法中的規(guī)則, 在使用基于字形的音譯框架的同時(shí), 融合語(yǔ)音要素的音譯方法, 提出音譯單元的融合對(duì)齊方法。

    1 流程描述

    按本文方法構(gòu)建的音譯系統(tǒng)的流程如圖1所示, 主要包括數(shù)據(jù)前處理、訓(xùn)練音譯模型、解碼實(shí)驗(yàn)及后處理4個(gè)部分。

    首先, 在前處理階段, 數(shù)據(jù)來(lái)源分為訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料。將雙語(yǔ)平行訓(xùn)練語(yǔ)料分別按照基于字母的音節(jié)劃分規(guī)則和基于字形與字音并結(jié)合漢語(yǔ)與英語(yǔ)音節(jié)細(xì)劃分規(guī)則, 進(jìn)行音譯單元的粗劃分與細(xì)劃分。將測(cè)試語(yǔ)料也依據(jù)給出的音節(jié)劃分規(guī)則進(jìn)行相應(yīng)的音譯單元的劃分操作。第2步, 將已劃分好音譯單元的訓(xùn)練語(yǔ)料用提出的方法進(jìn)行雙語(yǔ)音譯單元對(duì)的對(duì)齊。第3步, 用已對(duì)齊的平行語(yǔ)料訓(xùn)練音譯模型。第4步, 對(duì)已劃分好音譯單元的源語(yǔ)言測(cè)試語(yǔ)料進(jìn)行解碼實(shí)驗(yàn)。第5步, 將解碼實(shí)驗(yàn)之后輸出的目標(biāo)語(yǔ)言音譯結(jié)果進(jìn)行還原操作, 主要是進(jìn)行音譯單元的還原與格式還原。同時(shí), 倘若出現(xiàn)數(shù)據(jù)稀疏問(wèn)題所造成的未登錄詞, 則引入維基百科的數(shù)據(jù), 用于解決未登錄詞的翻譯問(wèn)題, 有效地緩解數(shù)據(jù)稀疏問(wèn)題。

    本文主要論述音譯系統(tǒng)中前處理、訓(xùn)練模型與解碼實(shí)驗(yàn)的部分, 后處理部分只做簡(jiǎn)單敘述。

    2 數(shù)據(jù)前處理

    前處理部分的重點(diǎn)在于對(duì)源語(yǔ)言語(yǔ)料與目標(biāo)語(yǔ)言語(yǔ)料進(jìn)行音譯單元的劃分。我們采取基于音節(jié)的音譯單元?jiǎng)澐忠?guī)則, 將音譯單元的劃分過(guò)程分為粗劃分和細(xì)劃分兩個(gè)階段。

    2.1 音譯單元粗劃分階段

    英文名的音節(jié)劃分規(guī)則是按照文獻(xiàn)[5]給出的規(guī)則方法, 首先將英文26個(gè)字母進(jìn)行分類(lèi), 分類(lèi)情況如表1所示。完成對(duì)英文字母的分類(lèi)后, 按照表2所示的音節(jié)劃分規(guī)則進(jìn)行粗劃分。

    表1 英文字母分類(lèi)情況

    表2 音譯單元粗劃分規(guī)則

    2.2 音譯單元細(xì)劃分階段

    根據(jù)以上粗劃分的結(jié)果, 我們發(fā)現(xiàn)劃分后的語(yǔ)料中存在一些不合理現(xiàn)象, 如音譯對(duì)“埃利歐/E LIOU”、“羅密歐/ROM MEO”、“阿布拉霍爾/A B RA HA L L”等, 通過(guò)日常的發(fā)音習(xí)慣可以清楚地分辨出, 此處出現(xiàn)的“歐”或單獨(dú)的“L”和“R”等均是用于輔助前一音節(jié)發(fā)音的作用, 此時(shí)將它們與前一音節(jié)合并為一個(gè)音節(jié)更符合發(fā)音規(guī)律。經(jīng)統(tǒng)計(jì), 此種情況不在少數(shù)。

    因此, 我們依照數(shù)據(jù)統(tǒng)計(jì)結(jié)果改良發(fā)音規(guī)則, 對(duì)粗劃分的劃分結(jié)果進(jìn)行細(xì)化, 如表3所示。例如, 對(duì)于給定英文名CHURTON, 它的音譯單元?jiǎng)澐诌^(guò)程如圖2所示。

    表3 音譯單元細(xì)劃分規(guī)則

    在以往的研究中, 對(duì)于音節(jié)的劃分方法常常局限在一個(gè)步驟上, 缺少相應(yīng)的細(xì)化過(guò)程, 會(huì)對(duì)后面步驟的效果產(chǎn)生影響。本文采用兩個(gè)階段的劃分過(guò)程, 經(jīng)實(shí)驗(yàn)2和3 (見(jiàn)5.2節(jié))論證, 能夠更好地提升音譯效果。

    3 音譯模型

    3.1 規(guī)則與統(tǒng)計(jì)相結(jié)合的自動(dòng)對(duì)齊方法

    音譯單元等級(jí)自動(dòng)對(duì)齊的主要目的在于使?jié)h英雙語(yǔ)名字各自的音譯單元相互對(duì)齊。例如上述例子“丘頓/CHUNTON”, 自動(dòng)對(duì)齊的結(jié)果就是“丘/ CHUN”和“頓/TON”。在機(jī)器音譯中, 雙語(yǔ)音譯單元的對(duì)齊效果直接影響音譯結(jié)果的好壞, 同時(shí)由于在音譯過(guò)程中不存在音譯單元的調(diào)序問(wèn)題, 通常情況下, 源語(yǔ)言音譯單元的對(duì)齊結(jié)果就是目標(biāo)語(yǔ)言相同序號(hào)的音譯單元。

    由于在上一步分詞過(guò)程中常存在源語(yǔ)言與目標(biāo)語(yǔ)言劃分的音譯單元個(gè)數(shù)不同的情況, 一般的自動(dòng)對(duì)齊常存在一對(duì)多與一對(duì)空的問(wèn)題, 這樣的對(duì)齊結(jié)果往往不具有代表性, 對(duì)提升音譯效果起阻礙作用。因此, 自動(dòng)對(duì)齊的難點(diǎn)在于選擇正確的音譯單元對(duì), 盡量消除上述問(wèn)題。我們采用基于規(guī)則的自動(dòng)對(duì)齊算法, 具體步驟如下。

    1)對(duì)于分詞后漢語(yǔ)與英語(yǔ)名字音譯單元個(gè)數(shù)相同的情況, 采取直接對(duì)齊的規(guī)則, 即將相同序號(hào)的音譯單元對(duì)齊, 形成音譯單元對(duì), 例如: “歐文/ER WIN”。

    2)對(duì)于分詞后漢語(yǔ)與英語(yǔ)名字音譯單元個(gè)數(shù)不相同的情況。

    ①首先將漢語(yǔ)名字分詞結(jié)果轉(zhuǎn)化成拼音的表示形式, 例如, “埃格德/AAGAARD”表示為“AI4 (1) GE2(2) DE2(3)/AA(1) GAA(2) R(3) D(4)”。

    ②根據(jù)音節(jié)首字母匹配規(guī)則, 以漢語(yǔ)的音譯單元首字母為準(zhǔn), 分別對(duì)應(yīng)英語(yǔ)的音節(jié)首字母, 即用A, G, D這3個(gè)字母, 將英文名字“AAGAARD”重新劃分成“AA”、“GAAR”和“D”三部分。同時(shí)根據(jù)漢英字母發(fā)音的規(guī)律, 按照文獻(xiàn)[4]中的權(quán)重分配規(guī)則, 將劃分方式進(jìn)一步細(xì)化。

    ③經(jīng)過(guò)上述步驟, 將得到一個(gè)英語(yǔ)名字的一種或幾種的劃分方式<,>i, (=1,2, …,)。

    ⑤計(jì)算第種劃分方式中, 單個(gè)音譯單元對(duì)<c,e>的概率:

    其中, |<c,e>|與|<c>|表示該音譯單元對(duì)在所有對(duì)齊方式中的統(tǒng)計(jì)與在所有名字中對(duì)應(yīng)音譯單元的統(tǒng)計(jì)。

    ⑥計(jì)算第種劃分方式的概率:

    比較種劃分方式的概率大小, 取概率值最大的劃分方式作為最終劃分方式。

    3.2 N-gram音譯模型

    對(duì)于漢英方向機(jī)器音譯, 假設(shè)中文名與英文名可以以字符序列的方式表示, 其中, 中文名表示為=123…x(表示中文名漢字?jǐn)?shù)), 英文名表示為123…y(表示英文名字母數(shù)), 經(jīng)過(guò)前處理與對(duì)齊的步驟后, 中、英人名對(duì)被分別表示為音譯單元的序列。

    中文名字:=123…c;英文名字:123ece(=1, 2, 3, …,=1, 2, 3, …)分別表示第或個(gè)中文或英文音譯單元, 即中英文音譯單元的數(shù)目相同。

    由此, 中文音譯單元c與英文音譯單元e就形成對(duì)齊關(guān)系。與的對(duì)齊關(guān)系表示如下:

    其中, 一個(gè)中文音譯單元中可能包含一個(gè)至多個(gè)漢字, 一個(gè)英文音譯單元中可能包含一個(gè)至多個(gè)英文字母。

    根據(jù)上述,,的定義, 漢語(yǔ)到英語(yǔ)的音譯過(guò)程可以用下式推導(dǎo):

    其中,(,,)表示,,的聯(lián)合概率。

    經(jīng)過(guò)實(shí)驗(yàn)對(duì)比, 我們采取N-gram的音譯模型, 其中=3, 式(3)重寫(xiě)為

    4 數(shù)據(jù)后處理

    4.1 還原操作

    經(jīng)過(guò)解碼實(shí)驗(yàn), 輸出的最優(yōu)結(jié)果是以音譯單元形式表示的目標(biāo)語(yǔ)言人名(本文研究的音譯方向?yàn)闈h到英, 因此輸出的目標(biāo)語(yǔ)言為英語(yǔ))的形式, 這并不是我們真正需要的音譯結(jié)果, 因此, 需要對(duì)該數(shù)據(jù)進(jìn)行還原處理, 我們主要進(jìn)行了兩個(gè)步驟的還原操作。

    1)音譯單元還原操作。在音譯單元的劃分階段, 特別是在細(xì)劃分階段, 存在將鼻音{m, n}雙寫(xiě)的情況, 所以在解碼實(shí)驗(yàn)輸出結(jié)果的音譯單元中也存在這種情況。因此, 當(dāng)出現(xiàn)“mm”或“nn”時(shí), 若其前后是被元音包圍的情況, 將其改為“m”或“n”。

    2)格式還原操作。在實(shí)際音譯單元?jiǎng)澐诌^(guò)程中, 音譯單元與音譯單元之間是以空格區(qū)分的。因此, 此處的格式還原操作為去除音譯單元之間的分隔符, 將其還原為一個(gè)單詞的形式。

    4.2 數(shù)據(jù)稀疏處理

    在音譯過(guò)程中不可避免地會(huì)產(chǎn)生數(shù)據(jù)稀疏問(wèn)題, 本研究使用維基百科的數(shù)據(jù)來(lái)緩解這一問(wèn)題。主要方法是, 將出現(xiàn)數(shù)據(jù)稀疏問(wèn)題的源語(yǔ)言人名再次進(jìn)行前處理操作, 同時(shí)從維基百科中抽取漢英人名對(duì)作為參考語(yǔ)料, 對(duì)其進(jìn)行與之前的訓(xùn)練語(yǔ)料相同的處理操作后, 利用式(1)和(2), 選取與問(wèn)題人名中音譯單元對(duì)應(yīng)的概率最大的目標(biāo)語(yǔ)言音譯模型, 并將其作為新的解碼實(shí)驗(yàn)的輸出結(jié)果, 再進(jìn)行還原操作。

    5 實(shí)驗(yàn)分析

    實(shí)驗(yàn)使用的雙語(yǔ)語(yǔ)料來(lái)自I2R2009的音譯數(shù)據(jù)[6,8–9]。該數(shù)據(jù)包含31961條惟一的英文詞條及其對(duì)應(yīng)的官方音譯結(jié)果, 各部分?jǐn)?shù)據(jù)的使用量如表4所示。

    表4 實(shí)驗(yàn)數(shù)據(jù)

    5.1 實(shí)驗(yàn)評(píng)價(jià)

    對(duì)于本次實(shí)驗(yàn)結(jié)果的評(píng)價(jià)方法, 采用的是PRF系統(tǒng)評(píng)測(cè)模型, 其中(Precision)為準(zhǔn)確率,(Recall)為召回率,值用于均衡準(zhǔn)確率與召回率的誤差。本次實(shí)驗(yàn)中對(duì)準(zhǔn)確的定義是音譯結(jié)果與參考集中給定的參考結(jié)果完全一致。

    5.2 實(shí)驗(yàn)結(jié)果

    為從整體上比較本文方法與只使用基于字形的音譯方法, 我們?cè)O(shè)計(jì)了以下4個(gè)實(shí)驗(yàn)。

    1)基線實(shí)驗(yàn)。本文基線系統(tǒng)采用文獻(xiàn)[10]提出的方法, 以評(píng)價(jià)提出方法的性能。僅采用基于字形的音譯單元對(duì)齊方法, 對(duì)英文語(yǔ)料進(jìn)行簡(jiǎn)單的按音節(jié)的音譯單元?jiǎng)澐址椒? 對(duì)中文語(yǔ)料采取按空格音譯劃分方法, 并用GIZA++工具進(jìn)行音譯單元的對(duì)齊, 訓(xùn)練音譯模型并輸出最好的一個(gè)結(jié)果, 將其實(shí)驗(yàn)結(jié)果作為對(duì)比參照。

    2)粗劃分實(shí)驗(yàn)。將訓(xùn)練語(yǔ)料只進(jìn)行音譯單元的粗劃分, 并用GIZA++工具進(jìn)行簡(jiǎn)單的漢英音譯單元的對(duì)齊, 訓(xùn)練我們的音譯模型, 并輸出最好的一個(gè)結(jié)果。

    3)雙重劃分實(shí)驗(yàn)。將訓(xùn)練語(yǔ)料進(jìn)行音譯單元的粗劃分與細(xì)劃分, 并使用GIZA++工具進(jìn)行簡(jiǎn)單的漢英音譯單元對(duì)齊, 訓(xùn)練我們的音譯模型, 并輸出最好的一個(gè)結(jié)果。

    4)對(duì)齊改進(jìn)實(shí)驗(yàn)。將訓(xùn)練語(yǔ)料進(jìn)行音譯單元的粗劃分與細(xì)劃分, 并使用我們提出的對(duì)齊改進(jìn)方法處理對(duì)齊結(jié)果, 用該數(shù)據(jù)訓(xùn)練我們的音譯模型, 并將Top1作為輸出結(jié)果。

    與基線系統(tǒng)相比, 我們的系統(tǒng)得到較好的性能表現(xiàn)(表5), 分析如下。

    1)單純的基于字形的音譯方法, 音譯效果不理想, 例如“斯滕尼/STENY”, 用該方法的輸出結(jié)果是“STENNY”, 而在其他兩個(gè)實(shí)驗(yàn)中均能獲得正確結(jié)果。這種鼻音的單寫(xiě)雙寫(xiě)問(wèn)題在現(xiàn)實(shí)應(yīng)用中并不少見(jiàn), 因此該方法不能直接用于機(jī)器音譯中。

    2)引入新的劃分步驟之后, 音譯單元的劃分更加準(zhǔn)確, 例如“斯托克邁/STOCKMAYER”, 在粗劃分時(shí)會(huì)被劃分成“斯托克邁/S TO C K MA YE R”, 英文音譯單元明顯劃分不夠準(zhǔn)確, 在經(jīng)過(guò)細(xì)劃分后, 成功地變?yōu)橐浴癝 TO CK MA YER”表示的更準(zhǔn)確的形式。音譯系統(tǒng)的準(zhǔn)確率、召回率與值均有提高, 足以證明該方法的可行性。

    3)運(yùn)用我們提出的對(duì)齊方法后,,和值都有明顯提升, 進(jìn)一步驗(yàn)證了字形與語(yǔ)音融合的音譯單元對(duì)齊方法既降低了語(yǔ)音轉(zhuǎn)換步驟中的誤差, 又減輕了僅采用基于字形的方法造成的信息對(duì)視問(wèn)題。由此可以得出, 基于字形和語(yǔ)音的音譯單元對(duì)齊方法能夠提高音譯的效果。

    6 總結(jié)及未來(lái)工作

    本文提出一種新的融合的方法用于音譯單元的劃分與對(duì)齊過(guò)程。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證得知, 我們提出的方法能夠很好地提高音譯的準(zhǔn)確率, 同時(shí)在解決音譯單元對(duì)齊的一對(duì)多與一對(duì)空問(wèn)題方面表現(xiàn)較好。本研究有如下創(chuàng)新。

    1)提出融合字形與語(yǔ)音的音譯單元對(duì)齊方法。在以往的研究成果中, 大部分的工作將關(guān)注點(diǎn)投放在字形或者語(yǔ)音音素一個(gè)縱向的方面。在本次研究中, 我們致力于將字形與語(yǔ)音的研究成果結(jié)合起來(lái), 吸收兩者的優(yōu)點(diǎn), 彌補(bǔ)其中一方的缺點(diǎn), 更好地提升音譯效果。

    2)結(jié)合規(guī)則與統(tǒng)計(jì)音譯方法各自的優(yōu)點(diǎn), 提出規(guī)則與統(tǒng)計(jì)相結(jié)合的音譯單元?jiǎng)澐峙c自動(dòng)對(duì)齊的方法, 將其運(yùn)用在相應(yīng)過(guò)程中, 并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的可行性。

    但是, 對(duì)于來(lái)源不同的英、漢人名, 存在不同的音譯習(xí)慣, 在我們的音譯過(guò)程中并沒(méi)有很好地解決這個(gè)問(wèn)題。下一步的工作將引入更多的音譯單元?jiǎng)澐忠?guī)則與對(duì)齊規(guī)則, 同時(shí)更好地利用維基百科的數(shù)據(jù), 對(duì)來(lái)源不同的人名進(jìn)行不同處理, 希望能夠進(jìn)一步提高音譯的效果。

    [1]李婷婷. 基于非參數(shù)貝葉斯學(xué)習(xí)的多語(yǔ)言人名音譯研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2013

    [2]Lin Weihao, Chen Hsin-Hsi. Backward machine transliteration by learning phonetic similarity // Pro-ceedings of the 6th Conference on Natural Language Learning. Taipei, 2002: 1–7

    [3]Zaidan O. Z-MERT: a fully configurable open source tool for minimum error rate training of machine translation systems. Prague Bulletin of Mathematical Linguistics, 2009, 91: 79–88

    [4]Wan S, Verspoor C M. Automatic English-Chinese name transliteration for development of multilingual resources // Processing of the 17th ICCL. 1998: 1352–1356

    [5]蔣龍, 周明, 簡(jiǎn)立峰. 利用音譯和網(wǎng)絡(luò)挖掘翻譯命名實(shí)體. 中文信息學(xué)報(bào), 2007, 21(1): 23–29

    [6]Li Haizhou, Kumaran A, Zhang Min, et al. Whitepaper of NEWS 2009 machine transliteration shared task // Proceedings of the 2009 Named Entities Workshop: Shared Task on Transliteration. Singapore: Association for Computational Linguistics, 2009: 19–26

    [7]Gao Wei, Wong Kam-Fai, Lam Wai. Phoneme-based transliteration of foreign names for OOV problem // Proceedings of the 1st International Joint Conference on Natural Language Proceedings, Lecture Notes in Computer Science. Hainan, 2004: 110–119

    [8]Li H, Zhang M, Su J. A joint source-channel model for machine transliteration // Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Barcelona, 2004: 1190–1194

    [9]Zhang Min, Li Haizhou, Su Jian. Direct orthogra-phical mapping for machine transliteration // Proceed-ings of the 20th International Conference on Compu-tational Linguistics (COLING’04). Sydney, 2004: 716–722

    [10]Wang Dandan, Yang Xiaohui, Xu Jin’an, et al. A hybrid transliteration model for Chinese/English named entities — BJTU-NLP Report for the 5th Named Entities Workshop. Beijin, 2015

    Integrating of Grapheme-Based and Phoneme-Based Transliteration Unit Alignment Method

    LIU Bojia, XU Jin’an?, CHEN Yufeng, ZHANG Yujie

    School of Computer and Information, Beijing Jiaotong University, Beijing 100044; ? Corresponding author, E-mail: jaxu@bjtu.edu.cn

    In order to solve the errors caused by only using the pheneme-based method or the grapheme-based method, applying the theory of statistics and rules, this paperproposes a new method for transliteration unit alignment which integrates the two main transliteration methods. Four experiments are designed to compare with the traditional methods. Experimental results show that proposed method outperforms other methods in terms of performance in machine transliteration.

    machine transliteration; alignment; N-gram model; grapheme-based method; phoneme-based method

    10.13209/j.0479-8023.2016.001

    TP391

    2015-06-18;

    2015-08-16; 網(wǎng)絡(luò)出版日期: 2015-09-29

    國(guó)家自然科學(xué)基金(61370130, 61473294)、中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(2014RC040)和國(guó)家國(guó)際科技合作專(zhuān)項(xiàng)(2014DFA11350)資助

    ① http://www-i6.informatik.rwth-aachen.de/Colleagues/och/software/GIZA++.html

    猜你喜歡
    音譯字形語(yǔ)料
    清末民初音譯元素名規(guī)范方案用字探析
    甲骨文“黍”字形義考
    甲骨文中的字形直立化二則
    復(fù)習(xí)生字字形的方法
    夏譯漢籍中的音譯誤字
    西夏學(xué)(2017年1期)2017-10-24 05:31:38
    基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
    添一筆變個(gè)字
    華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
    新疆地名的音譯轉(zhuǎn)寫(xiě)及英譯規(guī)范
    《苗防備覽》中的湘西語(yǔ)料
    大片免费播放器 马上看| 人人妻人人添人人爽欧美一区卜| 国产 精品1| 免费黄网站久久成人精品| 国产精品国产av在线观看| 久久久久久久久久人人人人人人| 少妇人妻 视频| 高清av免费在线| 少妇猛男粗大的猛烈进出视频| 97精品久久久久久久久久精品| 久久久国产欧美日韩av| 亚洲成色77777| freevideosex欧美| 国产精品欧美亚洲77777| 亚洲综合精品二区| 纯流量卡能插随身wifi吗| 日韩在线高清观看一区二区三区| 国产精品国产三级专区第一集| 精品午夜福利在线看| 精品国产国语对白av| 久热久热在线精品观看| 亚洲,欧美,日韩| 久久人妻熟女aⅴ| 国产麻豆69| 久久午夜综合久久蜜桃| 亚洲精品在线美女| 精品少妇黑人巨大在线播放| 国产精品成人在线| 精品久久久久久电影网| 欧美日韩国产mv在线观看视频| 妹子高潮喷水视频| 成年人免费黄色播放视频| 日产精品乱码卡一卡2卡三| 熟女少妇亚洲综合色aaa.| 精品久久久精品久久久| 少妇人妻精品综合一区二区| 18禁国产床啪视频网站| 亚洲一区二区三区欧美精品| 青春草亚洲视频在线观看| 97人妻天天添夜夜摸| 一级爰片在线观看| 国产成人精品无人区| 久久久久久伊人网av| 中文字幕av电影在线播放| 女性被躁到高潮视频| 欧美亚洲日本最大视频资源| 欧美日本中文国产一区发布| 久久久久久久久久人人人人人人| 一本—道久久a久久精品蜜桃钙片| 亚洲婷婷狠狠爱综合网| 午夜影院在线不卡| a级毛片在线看网站| 少妇的丰满在线观看| 精品卡一卡二卡四卡免费| 999精品在线视频| 日韩在线高清观看一区二区三区| 国产 一区精品| 久久影院123| 一级a爱视频在线免费观看| 国产色婷婷99| 久久免费观看电影| 在线观看国产h片| 一二三四在线观看免费中文在| 欧美97在线视频| av.在线天堂| 久久久久久伊人网av| 久久韩国三级中文字幕| 国产亚洲av片在线观看秒播厂| 女性生殖器流出的白浆| 日韩制服骚丝袜av| av国产久精品久网站免费入址| 国产爽快片一区二区三区| 国产一区二区三区综合在线观看| 国产精品国产三级专区第一集| 亚洲欧洲精品一区二区精品久久久 | 国产黄频视频在线观看| 亚洲欧洲精品一区二区精品久久久 | 久久99热这里只频精品6学生| 天堂俺去俺来也www色官网| kizo精华| 99香蕉大伊视频| av国产精品久久久久影院| 亚洲精品在线美女| 久久久国产精品麻豆| 视频区图区小说| 国产成人免费无遮挡视频| 中文字幕亚洲精品专区| 国产有黄有色有爽视频| 一级片'在线观看视频| 春色校园在线视频观看| 日韩电影二区| 国产精品国产三级专区第一集| 青春草亚洲视频在线观看| 秋霞在线观看毛片| 亚洲久久久国产精品| 国产一区二区三区av在线| 欧美日韩视频高清一区二区三区二| 韩国高清视频一区二区三区| 亚洲国产精品999| 亚洲精品久久久久久婷婷小说| 亚洲欧洲日产国产| 丰满饥渴人妻一区二区三| 久久久久久久精品精品| 国产精品蜜桃在线观看| 久久鲁丝午夜福利片| 日本午夜av视频| 久久97久久精品| 中文字幕亚洲精品专区| 国产精品av久久久久免费| 99热网站在线观看| 美女国产高潮福利片在线看| 午夜福利,免费看| 日韩人妻精品一区2区三区| 日韩av免费高清视频| 国产片特级美女逼逼视频| 国产免费又黄又爽又色| 91午夜精品亚洲一区二区三区| 欧美国产精品一级二级三级| 999精品在线视频| 国产成人精品福利久久| 亚洲av男天堂| 国产精品久久久久成人av| 天天影视国产精品| 欧美亚洲 丝袜 人妻 在线| av天堂久久9| 免费看av在线观看网站| 亚洲成人av在线免费| 一级毛片 在线播放| 99久久精品国产国产毛片| 久久国产精品男人的天堂亚洲| 制服丝袜香蕉在线| 欧美精品av麻豆av| 中文字幕制服av| 国产成人精品福利久久| 日韩三级伦理在线观看| 亚洲欧美日韩另类电影网站| 国产伦理片在线播放av一区| 人人妻人人澡人人看| 国产免费一区二区三区四区乱码| 午夜福利乱码中文字幕| 免费在线观看黄色视频的| 丰满少妇做爰视频| 亚洲人成网站在线观看播放| 少妇被粗大猛烈的视频| 日本欧美国产在线视频| 黄片小视频在线播放| 免费观看a级毛片全部| av卡一久久| 精品亚洲成国产av| 视频在线观看一区二区三区| 午夜福利视频精品| 一区福利在线观看| 欧美日韩精品成人综合77777| 卡戴珊不雅视频在线播放| 精品人妻一区二区三区麻豆| 日韩av在线免费看完整版不卡| 国产高清国产精品国产三级| 成年av动漫网址| 国产免费现黄频在线看| 午夜激情久久久久久久| 久久精品夜色国产| 精品酒店卫生间| 日韩一卡2卡3卡4卡2021年| 人妻人人澡人人爽人人| 亚洲视频免费观看视频| 成人国产麻豆网| 午夜老司机福利剧场| 国产日韩欧美在线精品| 久久99蜜桃精品久久| 国产综合精华液| 女的被弄到高潮叫床怎么办| 亚洲国产精品一区二区三区在线| 国产成人av激情在线播放| 久久精品国产鲁丝片午夜精品| 交换朋友夫妻互换小说| 午夜福利视频精品| 亚洲欧美成人精品一区二区| 亚洲成国产人片在线观看| 少妇 在线观看| 美女高潮到喷水免费观看| 久久久久国产一级毛片高清牌| 黄网站色视频无遮挡免费观看| 午夜福利在线免费观看网站| 男女高潮啪啪啪动态图| 精品亚洲成国产av| 制服诱惑二区| 国产精品久久久久久精品电影小说| 中文字幕人妻丝袜一区二区 | 王馨瑶露胸无遮挡在线观看| 亚洲男人天堂网一区| 最黄视频免费看| 在线 av 中文字幕| 国产白丝娇喘喷水9色精品| 亚洲综合色网址| 久久久久久免费高清国产稀缺| 99精国产麻豆久久婷婷| 天美传媒精品一区二区| 欧美变态另类bdsm刘玥| 国产精品亚洲av一区麻豆 | 亚洲,欧美,日韩| 十分钟在线观看高清视频www| 人妻系列 视频| 欧美最新免费一区二区三区| 校园人妻丝袜中文字幕| av视频免费观看在线观看| 成人国产麻豆网| 国产黄色视频一区二区在线观看| 精品国产乱码久久久久久男人| 欧美精品av麻豆av| 亚洲国产看品久久| 性少妇av在线| 国产成人欧美| 亚洲精品日韩在线中文字幕| 一区二区三区乱码不卡18| 1024香蕉在线观看| 久久久国产一区二区| 在线免费观看不下载黄p国产| 尾随美女入室| 国产极品天堂在线| 大片免费播放器 马上看| 国产野战对白在线观看| 欧美日韩一级在线毛片| 日本欧美国产在线视频| 99re6热这里在线精品视频| 日韩三级伦理在线观看| av女优亚洲男人天堂| 亚洲久久久国产精品| 啦啦啦在线观看免费高清www| 一级a爱视频在线免费观看| 80岁老熟妇乱子伦牲交| 精品一区二区免费观看| 一二三四在线观看免费中文在| 国产男女超爽视频在线观看| 丰满乱子伦码专区| 国产免费又黄又爽又色| av在线观看视频网站免费| 一本久久精品| 宅男免费午夜| 国产97色在线日韩免费| 亚洲国产欧美日韩在线播放| 日本免费在线观看一区| 搡老乐熟女国产| 欧美日韩亚洲高清精品| 丝袜人妻中文字幕| 亚洲色图综合在线观看| 国产免费又黄又爽又色| 欧美日韩视频精品一区| 久久青草综合色| 五月天丁香电影| 国产精品不卡视频一区二区| 26uuu在线亚洲综合色| 国产精品免费视频内射| 色94色欧美一区二区| 精品久久久久久电影网| 亚洲精品中文字幕在线视频| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 天堂8中文在线网| 欧美成人精品欧美一级黄| 精品少妇黑人巨大在线播放| 少妇的丰满在线观看| 丝袜在线中文字幕| 你懂的网址亚洲精品在线观看| 男女高潮啪啪啪动态图| av在线app专区| 如日韩欧美国产精品一区二区三区| av国产精品久久久久影院| 久久人人97超碰香蕉20202| 国产有黄有色有爽视频| 欧美日韩视频高清一区二区三区二| 精品视频人人做人人爽| 两性夫妻黄色片| 黑人欧美特级aaaaaa片| 精品亚洲成国产av| 久久久久久久久久久久大奶| 欧美 亚洲 国产 日韩一| 午夜福利一区二区在线看| 日本av免费视频播放| 99久久综合免费| 国产一区有黄有色的免费视频| 国产极品粉嫩免费观看在线| 免费日韩欧美在线观看| 免费大片黄手机在线观看| 一区在线观看完整版| 亚洲国产精品一区三区| 少妇精品久久久久久久| 精品国产乱码久久久久久小说| 在现免费观看毛片| 熟女av电影| 日韩精品有码人妻一区| 国产精品久久久久久精品古装| 五月开心婷婷网| 免费不卡的大黄色大毛片视频在线观看| 校园人妻丝袜中文字幕| 亚洲人成网站在线观看播放| 国产一区二区在线观看av| 日韩一区二区三区影片| 满18在线观看网站| 99久久精品国产国产毛片| 国产一区有黄有色的免费视频| 久久久精品国产亚洲av高清涩受| 人妻系列 视频| 黄色一级大片看看| 亚洲国产av影院在线观看| 香蕉精品网在线| 制服丝袜香蕉在线| 精品少妇内射三级| 国产免费现黄频在线看| 在线观看国产h片| 国产欧美日韩一区二区三区在线| 男女啪啪激烈高潮av片| 中文字幕精品免费在线观看视频| 亚洲久久久国产精品| 日韩大片免费观看网站| 亚洲精品国产av蜜桃| 国产黄频视频在线观看| 国产精品熟女久久久久浪| 亚洲精品一二三| 国产精品欧美亚洲77777| www.自偷自拍.com| 在线观看免费日韩欧美大片| 9热在线视频观看99| 新久久久久国产一级毛片| 永久免费av网站大全| 国产成人免费无遮挡视频| 精品少妇黑人巨大在线播放| 免费观看性生交大片5| 赤兔流量卡办理| 国产成人91sexporn| 中文字幕亚洲精品专区| 一级片免费观看大全| av国产久精品久网站免费入址| 美女高潮到喷水免费观看| 免费久久久久久久精品成人欧美视频| 国产精品麻豆人妻色哟哟久久| 99热网站在线观看| 中文字幕制服av| 哪个播放器可以免费观看大片| 麻豆精品久久久久久蜜桃| 精品国产一区二区三区久久久樱花| 91精品国产国语对白视频| 日韩欧美一区视频在线观看| 国产精品三级大全| 亚洲欧美色中文字幕在线| 日韩制服骚丝袜av| 18禁动态无遮挡网站| 免费观看a级毛片全部| 国产精品久久久久久精品古装| 久久99一区二区三区| 一二三四中文在线观看免费高清| 国产一区二区激情短视频 | 亚洲综合精品二区| 亚洲欧美成人精品一区二区| 国产精品三级大全| 蜜桃在线观看..| 母亲3免费完整高清在线观看 | 国产日韩欧美亚洲二区| 久久久久精品久久久久真实原创| 最近的中文字幕免费完整| 久久国产精品大桥未久av| 亚洲婷婷狠狠爱综合网| 精品人妻熟女毛片av久久网站| 啦啦啦在线观看免费高清www| 国产成人欧美| 国产黄色免费在线视频| 韩国av在线不卡| 久久人妻熟女aⅴ| 日日摸夜夜添夜夜爱| 大香蕉久久网| 男女高潮啪啪啪动态图| 18禁观看日本| 欧美精品一区二区免费开放| 久久久久久免费高清国产稀缺| 国产免费现黄频在线看| 美女主播在线视频| 国产在线一区二区三区精| 1024视频免费在线观看| 亚洲国产色片| av网站免费在线观看视频| 大片免费播放器 马上看| 欧美黄色片欧美黄色片| 两个人看的免费小视频| 亚洲av综合色区一区| 日韩人妻精品一区2区三区| 日本av手机在线免费观看| 久久精品国产亚洲av涩爱| 国产片内射在线| 国产野战对白在线观看| 日韩三级伦理在线观看| 91成人精品电影| 可以免费在线观看a视频的电影网站 | 亚洲国产精品国产精品| 婷婷色综合大香蕉| 久久精品国产亚洲av天美| 黄片无遮挡物在线观看| 国产精品久久久久久精品古装| 日韩av在线免费看完整版不卡| 秋霞在线观看毛片| 国产女主播在线喷水免费视频网站| 亚洲国产色片| 亚洲一码二码三码区别大吗| 国产精品99久久99久久久不卡 | 日韩av在线免费看完整版不卡| 狂野欧美激情性bbbbbb| 满18在线观看网站| 免费在线观看视频国产中文字幕亚洲 | 大陆偷拍与自拍| 日韩一卡2卡3卡4卡2021年| 免费看av在线观看网站| 亚洲精品日韩在线中文字幕| 亚洲精品在线美女| 国产极品天堂在线| 精品人妻在线不人妻| 97在线视频观看| 国产不卡av网站在线观看| 久久ye,这里只有精品| 国产日韩欧美视频二区| 视频在线观看一区二区三区| 校园人妻丝袜中文字幕| 中文字幕制服av| 制服诱惑二区| 欧美国产精品va在线观看不卡| 老司机影院毛片| 久久精品久久精品一区二区三区| 国产白丝娇喘喷水9色精品| 国产成人av激情在线播放| 午夜福利一区二区在线看| 丰满迷人的少妇在线观看| 丁香六月天网| 看非洲黑人一级黄片| 老熟女久久久| 波多野结衣一区麻豆| 日韩一区二区三区影片| 国产精品一国产av| 黄网站色视频无遮挡免费观看| 天天操日日干夜夜撸| 麻豆乱淫一区二区| 成年美女黄网站色视频大全免费| 国产精品免费视频内射| 乱人伦中国视频| 黄片无遮挡物在线观看| 99久久人妻综合| 久久精品久久久久久噜噜老黄| 国产精品免费视频内射| 边亲边吃奶的免费视频| 男人爽女人下面视频在线观看| 人体艺术视频欧美日本| 超碰成人久久| 欧美+日韩+精品| 少妇人妻久久综合中文| 国产欧美日韩一区二区三区在线| 久久久精品国产亚洲av高清涩受| 激情视频va一区二区三区| 在线看a的网站| 国产精品熟女久久久久浪| 男女免费视频国产| 王馨瑶露胸无遮挡在线观看| 精品国产乱码久久久久久男人| 看免费av毛片| 香蕉丝袜av| 国产成人aa在线观看| 大香蕉久久成人网| 如何舔出高潮| 最新中文字幕久久久久| 18禁观看日本| 中文字幕色久视频| 美女中出高潮动态图| 成人漫画全彩无遮挡| 亚洲视频免费观看视频| 美女福利国产在线| 波野结衣二区三区在线| 五月天丁香电影| 国产不卡av网站在线观看| 亚洲,一卡二卡三卡| kizo精华| 久久青草综合色| 在线天堂最新版资源| 男女边吃奶边做爰视频| 欧美激情极品国产一区二区三区| 精品少妇久久久久久888优播| 黄色配什么色好看| 又黄又粗又硬又大视频| 免费观看av网站的网址| 国产精品一二三区在线看| 亚洲激情五月婷婷啪啪| 纯流量卡能插随身wifi吗| 久久99精品国语久久久| 女人被躁到高潮嗷嗷叫费观| 91国产中文字幕| 精品亚洲乱码少妇综合久久| 色婷婷av一区二区三区视频| 一区福利在线观看| 亚洲欧洲精品一区二区精品久久久 | 我要看黄色一级片免费的| 成人毛片a级毛片在线播放| a级毛片黄视频| 成人手机av| 免费看av在线观看网站| 亚洲一级一片aⅴ在线观看| 久久久欧美国产精品| 久久热在线av| 国产高清不卡午夜福利| 欧美 亚洲 国产 日韩一| av在线观看视频网站免费| 另类精品久久| 成人国产av品久久久| 国产成人欧美| 亚洲av日韩在线播放| 少妇 在线观看| 男女下面插进去视频免费观看| 青春草国产在线视频| 免费播放大片免费观看视频在线观看| 欧美av亚洲av综合av国产av | 有码 亚洲区| 深夜精品福利| 亚洲精品av麻豆狂野| 制服丝袜香蕉在线| 九色亚洲精品在线播放| 少妇人妻 视频| 久久久久久久国产电影| 制服丝袜香蕉在线| 久久久久国产精品人妻一区二区| 免费播放大片免费观看视频在线观看| 一边摸一边做爽爽视频免费| 大香蕉久久成人网| 久久精品国产a三级三级三级| 18禁裸乳无遮挡动漫免费视频| 一区二区日韩欧美中文字幕| 亚洲精品av麻豆狂野| 欧美激情极品国产一区二区三区| 人人妻人人添人人爽欧美一区卜| 欧美xxⅹ黑人| 最近的中文字幕免费完整| 亚洲美女视频黄频| 日日啪夜夜爽| 丰满迷人的少妇在线观看| 国产又色又爽无遮挡免| 久久综合国产亚洲精品| 99国产综合亚洲精品| 国语对白做爰xxxⅹ性视频网站| 日本免费在线观看一区| 99热全是精品| 五月伊人婷婷丁香| 精品一品国产午夜福利视频| 成人漫画全彩无遮挡| 精品一品国产午夜福利视频| 青青草视频在线视频观看| 女性生殖器流出的白浆| 最近的中文字幕免费完整| 亚洲精品,欧美精品| 一个人免费看片子| 大片电影免费在线观看免费| 国产不卡av网站在线观看| 99久久综合免费| 国产精品一区二区在线观看99| 2021少妇久久久久久久久久久| 国产 一区精品| 自线自在国产av| 一级毛片电影观看| 国产伦理片在线播放av一区| 久久韩国三级中文字幕| 这个男人来自地球电影免费观看 | 午夜福利视频在线观看免费| 国产精品免费大片| 成人亚洲精品一区在线观看| 亚洲欧美一区二区三区久久| 国产成人精品久久久久久| 一二三四在线观看免费中文在| 一级,二级,三级黄色视频| 国产乱人偷精品视频| 18禁裸乳无遮挡动漫免费视频| 美女午夜性视频免费| 亚洲精品av麻豆狂野| 日本免费在线观看一区| 美女视频免费永久观看网站| 一区二区av电影网| 欧美老熟妇乱子伦牲交| 国产日韩一区二区三区精品不卡| 国产精品不卡视频一区二区| 国产在视频线精品| 美女大奶头黄色视频| 久久精品国产亚洲av天美| 成年女人毛片免费观看观看9 | 国产精品亚洲av一区麻豆 | 黑丝袜美女国产一区| 国产日韩欧美视频二区| 久久99蜜桃精品久久| 国产日韩欧美亚洲二区| 看免费av毛片| 美女大奶头黄色视频| 亚洲图色成人| 亚洲欧洲精品一区二区精品久久久 | 中文字幕亚洲精品专区| 亚洲成国产人片在线观看| 久久久久国产网址| 日韩成人av中文字幕在线观看| 男的添女的下面高潮视频| 高清在线视频一区二区三区| 七月丁香在线播放| 精品少妇黑人巨大在线播放| 777久久人妻少妇嫩草av网站| 一区在线观看完整版| 欧美变态另类bdsm刘玥| 99久久精品国产国产毛片| 只有这里有精品99| 男女无遮挡免费网站观看| √禁漫天堂资源中文www| 国产高清不卡午夜福利| 国产成人aa在线观看| 亚洲一级一片aⅴ在线观看| 国产精品香港三级国产av潘金莲 | 亚洲精品日韩在线中文字幕| 免费黄网站久久成人精品| 菩萨蛮人人尽说江南好唐韦庄| 99re6热这里在线精品视频| 不卡av一区二区三区|