• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于子詞的歷史典籍術(shù)語(yǔ)對(duì)齊方法

      2016-05-04 01:14:54車超鄭曉軍
      中文信息學(xué)報(bào) 2016年3期
      關(guān)鍵詞:音譯典籍分詞

      車超,鄭曉軍

      (1. 大連大學(xué) 先進(jìn)設(shè)計(jì)與智能計(jì)算省部共建教育部重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116024;2. 大連交通大學(xué) 機(jī)械工程學(xué)院,遼寧 大連 116028)

      基于子詞的歷史典籍術(shù)語(yǔ)對(duì)齊方法

      車超1,鄭曉軍2

      (1. 大連大學(xué) 先進(jìn)設(shè)計(jì)與智能計(jì)算省部共建教育部重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116024;2. 大連交通大學(xué) 機(jī)械工程學(xué)院,遼寧 大連 116028)

      由于歷史典籍術(shù)語(yǔ)存在普遍的多義性且缺少古漢語(yǔ)分詞算法,使用基于雙語(yǔ)平行語(yǔ)料的對(duì)齊方法來(lái)自動(dòng)獲取典籍術(shù)語(yǔ)翻譯對(duì)困難重重。針對(duì)上述問(wèn)題,該文提出一種基于子詞的最大熵模型來(lái)進(jìn)行典籍術(shù)語(yǔ)對(duì)齊。該方法結(jié)合兩種統(tǒng)計(jì)信息抽取頻繁在一起出現(xiàn)的字作為子詞,使用子詞對(duì)典籍進(jìn)行分詞,解決了缺少古漢語(yǔ)分詞算法的問(wèn)題。針對(duì)典籍術(shù)語(yǔ)的多義性,根據(jù)典籍術(shù)語(yǔ)的音譯模式制定音譯特征函數(shù),并結(jié)合其他特征使用最大熵模型來(lái)確定術(shù)語(yǔ)的翻譯。在《史記》雙語(yǔ)平行語(yǔ)料上的實(shí)驗(yàn)表明,使用子詞的方法遠(yuǎn)遠(yuǎn)優(yōu)于未使用子詞的方法,而結(jié)合三種特征的最大熵模型能有效的提高術(shù)語(yǔ)對(duì)齊的準(zhǔn)確率。

      子詞;術(shù)語(yǔ)對(duì)齊;最大熵模型;音譯特征

      Sub-Word Based Translation Extraction for Terms in Chinese Historical Classics

      1 引言

      典籍作為中華民族五千年文明和智慧的結(jié)晶,是現(xiàn)代中華文化的源頭。將這些優(yōu)秀的典籍翻譯為英文,推廣給全世界,是向外傳播中華文化,提高中國(guó)文化軟實(shí)力的重要途徑。典籍翻譯中最耗時(shí)和最有挑戰(zhàn)性的工作是典籍術(shù)語(yǔ)的翻譯。在有些情況下,譯者高達(dá)60%的實(shí)際翻譯時(shí)間花在了術(shù)語(yǔ)翻譯的查詢和研究中。本文研究基于雙語(yǔ)語(yǔ)料的歷史典籍術(shù)語(yǔ)對(duì)齊方法,試圖自動(dòng)獲取大量術(shù)語(yǔ)翻譯對(duì),幫助歷史典籍的翻譯。

      歷史典籍中的“術(shù)語(yǔ)”是指歷史典籍中的官職名稱、封號(hào)、謚號(hào)、地名、人名等固定稱謂,與現(xiàn)代漢語(yǔ)的命名實(shí)體有著相同的特點(diǎn)與性質(zhì)。因此,本文將歷史典籍術(shù)語(yǔ)對(duì)齊等價(jià)為命名實(shí)體的對(duì)齊問(wèn)題?;陔p語(yǔ)平行語(yǔ)料的對(duì)齊方法根據(jù)對(duì)齊的過(guò)程,可以分為兩大類: 一類是對(duì)稱方法[1-3],這類方法分別在源語(yǔ)言和目標(biāo)語(yǔ)言中識(shí)別出命名實(shí)體后,再建立它們之間的對(duì)齊關(guān)系。另一類方法是非對(duì)稱的方法[4-7]。只識(shí)別出源語(yǔ)言命名實(shí)體,然后在目標(biāo)語(yǔ)言中確定它們的對(duì)應(yīng)關(guān)系。由于上述方法都需要對(duì)漢語(yǔ)進(jìn)行分詞,而目前的古漢語(yǔ)分詞方法較少[8],古漢語(yǔ)分詞的標(biāo)注語(yǔ)料也較少[9],導(dǎo)致現(xiàn)有的分詞算法無(wú)法應(yīng)用在古漢語(yǔ)分詞上。為了避開(kāi)分詞,一種思路是將漢語(yǔ)中的每個(gè)字看作一個(gè)詞[10],來(lái)對(duì)齊實(shí)體。但這種方法會(huì)增加很多候選實(shí)體,增加了計(jì)算量,忽略掉很多有意義的組合信息。近年來(lái),在分詞方法中出現(xiàn)一種基于子詞的方法[11-12],不僅能夠有效利用字本身的上下文特征,而且能夠有效融合字與詞的組合特征。因此,本文將中文分割為“子詞”,作為對(duì)齊的基本單位,提出一種基于子詞的最大熵模型來(lái)進(jìn)行術(shù)語(yǔ)對(duì)齊。該方法將頻繁在一起出現(xiàn)的字抽取出來(lái)作為子詞,使用子詞對(duì)古漢語(yǔ)進(jìn)行切分,保留了字與字的組合信息,解決了缺乏古漢語(yǔ)分詞算法的問(wèn)題。同時(shí),針對(duì)典籍術(shù)語(yǔ)音譯的不同模式制定音譯函數(shù),并結(jié)合其他特征使用最大熵模型獲取術(shù)語(yǔ)的翻譯對(duì)。

      2 子詞的獲取與篩選

      本文方法使用的子詞分為兩字子詞和三字子詞。三字子詞是在兩字子詞基礎(chǔ)上獲得的,所以先介紹兩字子詞的獲取。

      2.1 兩字子詞的獲取

      獲取兩字子詞最常見(jiàn)和最簡(jiǎn)單的方法是直接選取在一起出現(xiàn)次數(shù)較多的字符對(duì)作為子詞,但這種方法不僅會(huì)忽略低頻詞,而且會(huì)造成標(biāo)記跨越問(wèn)題。為此,本文采取多種統(tǒng)計(jì)信息相結(jié)合的方法來(lái)獲取子詞。目前,判斷二元關(guān)聯(lián)程度的統(tǒng)計(jì)方法主要有: 互信息法、t檢驗(yàn)法、χ2檢驗(yàn)法和似然假設(shè)檢驗(yàn)法?;バ畔⒎ㄟm合衡量二元獨(dú)立性,而不是依賴性;t檢驗(yàn)法的前提是要求字頻服從正態(tài)分布;χ2檢驗(yàn)法對(duì)頻繁二元組的檢驗(yàn)?zāi)芰^強(qiáng),但對(duì)低頻二元組的計(jì)算存在偏差[13];似然假設(shè)檢驗(yàn)法對(duì)低頻二元組的檢驗(yàn)?zāi)芰?qiáng),但是計(jì)算高頻二元組時(shí),會(huì)出現(xiàn)浮點(diǎn)數(shù)溢出的現(xiàn)象。為此,本文對(duì)高頻字使用χ2檢驗(yàn)法判斷其是否組成子詞,對(duì)低頻字使用對(duì)數(shù)似然比的方法判斷是否組成子詞。

      2.2 三字子詞的獲取與篩選

      由于很多兩字子詞是從同一個(gè)三字詞中分割得到的,如果只使用兩字子詞,會(huì)把一個(gè)完整的術(shù)語(yǔ)分為兩個(gè)詞,在后續(xù)的術(shù)語(yǔ)對(duì)齊階段,對(duì)齊模型必須找到這兩個(gè)詞才能對(duì)齊成功,增加了對(duì)齊模型出錯(cuò)的幾率。例如,“未央宮”分割得到“未央”和“央宮”兩個(gè)子詞,這些子詞會(huì)把“未央宮”分為“未央”和“宮”,對(duì)齊模型如果遺漏了其中的一個(gè)詞會(huì)發(fā)生對(duì)齊錯(cuò)誤。如果“未央宮”作為一個(gè)詞對(duì)齊,就比較容易對(duì)齊成功。所以我們將首尾相連的子詞合在一起組成三字子詞,避免對(duì)完整術(shù)語(yǔ)的分割,提高對(duì)齊的準(zhǔn)確率。但是上述做法也會(huì)引入一些錯(cuò)誤的子詞。古漢語(yǔ)中有些動(dòng)詞和助詞如“曰”、“會(huì)”,經(jīng)常和人名、地名結(jié)合在一起使用。使用統(tǒng)計(jì)信息獲取子詞時(shí),這些詞會(huì)和人名、地名連接在一起組成子詞,如“李克曰”、“會(huì)垓下”。這些經(jīng)常與人名、地名一起出現(xiàn)的詞,我們稱為黏連詞。黏連詞和術(shù)語(yǔ)組成子詞,會(huì)導(dǎo)致對(duì)齊錯(cuò)誤,且很難更正。為了避免上述問(wèn)題的發(fā)生,本文對(duì)常和人名、地名一起出現(xiàn)的動(dòng)詞和助詞進(jìn)行總結(jié),建立黏連詞表,凡是子詞中出現(xiàn)黏連詞的,都將其從子詞列表中刪除。

      3 歷史命名實(shí)體對(duì)齊模型

      3.1 對(duì)齊方法的框架

      給定雙語(yǔ)對(duì)齊語(yǔ)料,要抽取中英文術(shù)語(yǔ)對(duì)的步驟如下:

      (1) 將中文句子按子詞分割,若句子中包含子詞,子詞算作一個(gè)詞,不是子詞的字符,每個(gè)字符算作一個(gè)詞,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料進(jìn)行英文到中文的詞對(duì)齊。

      (2) 在英文句子中識(shí)別出英文術(shù)語(yǔ)。

      (3) 對(duì)英文命名實(shí)體中的每個(gè)單詞找到對(duì)齊概率大于某一閾值的中文詞語(yǔ)作為其對(duì)齊的中文詞語(yǔ),將中文詞語(yǔ)根據(jù)其在句子中出現(xiàn)的位置組成候選術(shù)語(yǔ)。

      (4) 根據(jù)最大熵模型,計(jì)算每個(gè)候選命名實(shí)體的對(duì)齊概率值,選取概率最大的候選命名實(shí)體作為英文命名實(shí)體的對(duì)應(yīng)翻譯。

      上述(3)中,由于子詞包含多個(gè)字符,英文術(shù)語(yǔ)的不同單詞對(duì)齊的子詞之間有可能有重復(fù)的字,所以不能直接用組合子詞的方式來(lái)構(gòu)建候選術(shù)語(yǔ)翻譯。本文根據(jù)與源術(shù)語(yǔ)中各個(gè)單詞對(duì)齊的詞語(yǔ)在目標(biāo)句子中出現(xiàn)位置來(lái)截取字符串作為候選術(shù)語(yǔ)翻譯,其具體過(guò)程為: 假設(shè)源術(shù)語(yǔ)在句子中的位置為i1到i2,則對(duì)應(yīng)的目標(biāo)術(shù)語(yǔ)在句子中的起始位置為jmin=mini1≤i≤i2{j=ai},結(jié)束位置為jmax=maxi1≤i≤i2{j=ai},選取jmin到j(luò)max之間的子詞組成的短語(yǔ)作為候選術(shù)語(yǔ)翻譯。

      3.2 最大熵模型

      (1)

      (2)

      本文的最大熵模型使用YASMETFS軟件包*http: //www-i6.informatik.rwth-aachen.de/web/Software/YASMET.html進(jìn)行參數(shù)訓(xùn)練。

      3.3 翻譯特征函數(shù)

      對(duì)齊概率是構(gòu)建命名實(shí)體的基礎(chǔ),本文在IBM模型1的基礎(chǔ)上構(gòu)建了詞匯對(duì)齊特征如式(3)所示。

      (3)

      其中p(J|I)表示長(zhǎng)度為I的術(shù)語(yǔ)e對(duì)應(yīng)的目標(biāo)術(shù)語(yǔ)長(zhǎng)度為J的概率。該概率應(yīng)該通過(guò)雙語(yǔ)術(shù)語(yǔ)列表進(jìn)行統(tǒng)計(jì)計(jì)算得到。但是目前沒(méi)有關(guān)于歷史典籍的術(shù)語(yǔ)列表,本文的語(yǔ)料規(guī)模太小,一些概率值很難進(jìn)行平滑。但是我們觀察雙語(yǔ)平行語(yǔ)料發(fā)現(xiàn),源術(shù)語(yǔ)中實(shí)詞的個(gè)數(shù)與目標(biāo)術(shù)語(yǔ)中字符個(gè)數(shù)大體相等,根據(jù)此規(guī)律,對(duì)長(zhǎng)度概率的計(jì)算方法如式(4)所示。

      (4)

      其中Len(e)表示e中動(dòng)詞、名詞等實(shí)詞的個(gè)數(shù),冠詞、介詞等停用詞不算在其中,有連接符“-”的詞算兩個(gè)詞,例如,Len(“the Marquis of Huai-yin”)= 3,其中的”the”,” of”不算,“Huai-yin”算作兩個(gè)詞。

      3.4 音譯特征函數(shù)

      歷史典籍中很多術(shù)語(yǔ)中包含地名、姓氏,而地名、姓氏大多是音譯的,所以歷史典籍術(shù)語(yǔ)翻譯中音譯現(xiàn)象特別多。歷史典籍中的音譯方法與現(xiàn)代漢語(yǔ)中的音譯方法完全不同。現(xiàn)代漢語(yǔ)中的音譯是從英語(yǔ)翻譯到漢語(yǔ),其過(guò)程是由英語(yǔ)讀音找到近似的漢語(yǔ)拼音,再由漢語(yǔ)拼音轉(zhuǎn)化為漢語(yǔ)。而歷史典籍中音譯是從漢語(yǔ)翻譯到英語(yǔ),直接由字的漢語(yǔ)拼音作為翻譯,如圖1所示。

      圖1 現(xiàn)代漢語(yǔ)命名實(shí)體與歷史典籍術(shù)語(yǔ)的音譯過(guò)程對(duì)比

      因?yàn)闅v史典籍中術(shù)語(yǔ)的音譯過(guò)程與現(xiàn)代漢語(yǔ)的巨大不同,不能借用現(xiàn)代漢語(yǔ)的音譯特征函數(shù)??紤]到歷史典籍術(shù)語(yǔ)音譯一般遵循固定的模式,我們根據(jù)固定模式制定音譯特征函數(shù)。根據(jù)對(duì)術(shù)語(yǔ)翻譯的觀察,主要有兩類音譯模式: (1)術(shù)語(yǔ)中每個(gè)字都翻譯為漢語(yǔ)拼音,這種模式多應(yīng)用于人名或地名的翻譯,如(“蕭何”,“Hsiao Ho”);(2)漢語(yǔ)命名實(shí)體中某個(gè)固定稱謂進(jìn)行意譯,其他的字符音譯,如(“齊桓公”,“Duke Huan of Ch’i”)。本文使用音譯單詞在英文術(shù)語(yǔ)中的比例作為音譯特征值,考慮到第二種音譯模式,進(jìn)行意譯的固定稱謂,也算作音譯。定義音譯函數(shù)如式(5)所示。

      (5)

      其中:Len(e)含義如式(4),Npinyin(c,e)表示英文術(shù)語(yǔ)e中含有中文術(shù)語(yǔ)c中字符對(duì)應(yīng)漢語(yǔ)拼音的個(gè)數(shù),含有“-”的拼音單詞算作兩個(gè),Ntitle(c)表示中文術(shù)語(yǔ)c中含有固定稱謂的字符個(gè)數(shù),是否含有固定稱謂通過(guò)查詢?nèi)斯そ⒌墓潭ǚQ謂列表來(lái)判斷。

      3.5 同現(xiàn)特征函數(shù)

      由于歷史典籍術(shù)語(yǔ)的多義性,術(shù)語(yǔ)與其翻譯不一定有嚴(yán)格的同現(xiàn)關(guān)系,但是錯(cuò)誤的翻譯與術(shù)語(yǔ)肯定沒(méi)有同現(xiàn)關(guān)系。所有同現(xiàn)關(guān)系雖然不一定能幫助準(zhǔn)確識(shí)別正確的翻譯,但是同現(xiàn)關(guān)系肯定能篩選出錯(cuò)誤的翻譯。本文在定義同現(xiàn)特征時(shí),既要考慮同現(xiàn)次數(shù)在中文術(shù)語(yǔ)中出現(xiàn)的比例,又要考慮在英文術(shù)語(yǔ)中出現(xiàn)的比例,同現(xiàn)特征定義如式(6)所示。

      (6)

      其中,F(xiàn)re(c,e)表示中文術(shù)語(yǔ)c和英文術(shù)語(yǔ)e一起出現(xiàn)的次數(shù),F(xiàn)re(c)和Fre(e)分別表示中文術(shù)語(yǔ)c、英文術(shù)語(yǔ)e出現(xiàn)的次數(shù)。

      4 實(shí)驗(yàn)結(jié)果及分析

      4.1 實(shí)驗(yàn)設(shè)置

      為了驗(yàn)證本文的術(shù)語(yǔ)對(duì)齊方法,使用《史記》及其美國(guó)漢語(yǔ)家Burton Watson的《史記》節(jié)譯本構(gòu)建的對(duì)齊語(yǔ)料進(jìn)行術(shù)語(yǔ)抽取。我們對(duì)《史記》中《秦始皇本紀(jì)》《秦本紀(jì)》《項(xiàng)羽本紀(jì)》《高祖本紀(jì)》《呂后本紀(jì)》建立包含4144句對(duì)的雙語(yǔ)對(duì)齊語(yǔ)料。由于本文先識(shí)別出英文術(shù)語(yǔ)再在中文中獲取其對(duì)應(yīng)翻譯,對(duì)絕大部分術(shù)語(yǔ)都能找到其翻譯,所以本文方法的準(zhǔn)確率和召回率相差很小,所以本文只使用準(zhǔn)確率作為評(píng)測(cè)指標(biāo),其定義如式(7)所示。

      (7)

      其中:Ncorrect表示算法翻譯正確的術(shù)語(yǔ)對(duì)個(gè)數(shù),Ntranslate表示算法計(jì)算出結(jié)果的術(shù)語(yǔ)對(duì)個(gè)數(shù)。

      Burton Watson的《史記》節(jié)譯本中將所有的術(shù)語(yǔ)翻譯的首字母為大寫(xiě),所以在識(shí)別英文術(shù)語(yǔ)時(shí)比較簡(jiǎn)單,直接把所有大寫(xiě)單詞提取出來(lái)并進(jìn)行簡(jiǎn)單驗(yàn)證就可以作為術(shù)語(yǔ)。按照大寫(xiě)規(guī)則提取后再經(jīng)人工篩選,共從英文翻譯中提取出641個(gè)術(shù)語(yǔ)。本文仿照命名實(shí)體的分類,將歷史典籍術(shù)語(yǔ)分為人名、地名、組織名和其他。值得注意的是,我們將官職歸為了組織名,因?yàn)楣俾毭痪唧w指某個(gè)人,而是表示某個(gè)組織的領(lǐng)導(dǎo),和組織的關(guān)系更大,所以把它歸為組織名。其他是指除了人名、地名、組織名之外的其他術(shù)語(yǔ),主要包括時(shí)間,如“初刻”等。本文各種類型的術(shù)語(yǔ)數(shù)量如表1所示。

      表1 各類型術(shù)語(yǔ)的數(shù)量

      4.2 實(shí)驗(yàn)結(jié)果及分析

      (1) 子詞的作用

      為了驗(yàn)證子詞對(duì)術(shù)語(yǔ)對(duì)齊的作用,本文對(duì)使用子詞和未使用子詞的對(duì)齊方法進(jìn)行了對(duì)比。由于同現(xiàn)特征對(duì)子詞有一定的優(yōu)化,本文主要對(duì)使用翻譯特征和音譯特征的最大熵模型進(jìn)行測(cè)試。使用與未使用子詞的最大熵模型的準(zhǔn)確率對(duì)比結(jié)果如表2所示。

      表2 使用與未使用子詞的最大熵模型準(zhǔn)確率(%)對(duì)比

      由表2的對(duì)比結(jié)果可以看出,使用子詞后顯著地提高了正確率,準(zhǔn)確率提高30%左右。在術(shù)語(yǔ)的幾種類型中,對(duì)地名的準(zhǔn)確率提高的最多。通過(guò)結(jié)合表3,我們分析發(fā)現(xiàn),地名中的兩個(gè)詞作為一個(gè)搭配出現(xiàn)的可能性更大,容易被作為子詞抽取出來(lái),體現(xiàn)出子詞的作用?;谧釉~的方法對(duì)其他類型的術(shù)語(yǔ)沒(méi)有提升,主要是因?yàn)槠渌愋偷男g(shù)語(yǔ)在語(yǔ)料中出現(xiàn)的次數(shù)較少,同時(shí)術(shù)語(yǔ)中的兩個(gè)字作為搭配出現(xiàn)的頻率也很少,所以無(wú)法作為子詞抽取出來(lái)?;谧釉~的方法就不能提高準(zhǔn)確率。

      為了探討使用子詞能夠提高對(duì)齊準(zhǔn)確率的原因,本文使用子詞后將對(duì)齊結(jié)果由錯(cuò)誤更正為正確的術(shù)語(yǔ)翻譯對(duì)抽取部分放在表3中。由表3可以看出,直接使用字來(lái)構(gòu)成術(shù)語(yǔ)翻譯時(shí),經(jīng)常會(huì)遺失術(shù)語(yǔ)中的個(gè)別字造成術(shù)語(yǔ)翻譯錯(cuò)誤。尤其是對(duì)于字?jǐn)?shù)比較多的中文術(shù)語(yǔ),遺漏的可能性更大。造成這種現(xiàn)象主要原因在于,詞匯對(duì)齊方法使用多個(gè)詞的對(duì)齊概率乘積作為短語(yǔ)的對(duì)齊概率,在詞對(duì)齊概率較小的情況,一個(gè)短語(yǔ)中含有的詞越多,短語(yǔ)的對(duì)齊概率越小,所以對(duì)齊方法傾向于詞較少的短語(yǔ),這就造成了經(jīng)常遺漏字的現(xiàn)象?;谧釉~的對(duì)齊方法將頻繁出現(xiàn)的字放在一起組成子詞進(jìn)行對(duì)齊,子詞中包含字與字之間的組合信息,減少了遺漏字的現(xiàn)象。

      表3 未使用子詞方法對(duì)齊錯(cuò)誤的術(shù)語(yǔ)

      (2) 各種特征函數(shù)的作用

      本文選用IBM model 4作為基準(zhǔn)方法與本文的最大熵方法進(jìn)行對(duì)比。為了對(duì)比各種特征函數(shù)的作用,本文在詞匯對(duì)齊特征的基礎(chǔ)上分別加入音譯特征和同現(xiàn)特征與基準(zhǔn)方法對(duì)比,各種特征函數(shù)的對(duì)齊結(jié)果如表4所示。同時(shí),為了比較本文方法與基準(zhǔn)方法的不同,將使用三種對(duì)齊特征的本文方法與基準(zhǔn)方法進(jìn)行了詳細(xì)對(duì)比,見(jiàn)表5。

      表4 各種特征函數(shù)的對(duì)齊結(jié)果(%)

      表5 本文方法與基準(zhǔn)方法對(duì)齊結(jié)果對(duì)比

      由表4的對(duì)齊結(jié)果可以看出,在使用子詞之后,即使作為基準(zhǔn)方法的IBM Model 4也達(dá)到了將近80%的準(zhǔn)確率。從整體來(lái)看,使用三種特征的本文方法比基準(zhǔn)方法準(zhǔn)確率高6%。從表5來(lái)看,本文方法在基準(zhǔn)方法的基礎(chǔ)上修改了65個(gè)對(duì)齊結(jié)果,將其中44個(gè)錯(cuò)誤結(jié)果修改為正確結(jié)果,將八個(gè)正確結(jié)果修改為錯(cuò)誤結(jié)果,21個(gè)結(jié)果仍舊是錯(cuò)誤的。本文方法修正的結(jié)果大部分是正確的,且正確率優(yōu)于基準(zhǔn)方法,這說(shuō)明三種對(duì)齊特征的加入能有效提高對(duì)齊效果。

      在最大熵模型使用的幾種特征函數(shù)中,由于人名和地名大量的使用了音譯,音譯特征對(duì)人名和地名的對(duì)齊最有效。例如,“General Li”使用詞匯對(duì)齊特征的結(jié)果為“酈將”,因?yàn)椤搬B將軍”翻譯為“General Li”符合“固定稱謂意譯+個(gè)別字音譯”的翻譯模式,可以認(rèn)為是音譯。使用音譯特征之后,找到了正確的翻譯“酈將軍”。“Feng Chieh”使用翻譯特征的結(jié)果為“劫“,使用音譯特征之后更正為完整的對(duì)齊結(jié)果“馮劫”。由以上結(jié)果可以看出,音譯特征可以幫助補(bǔ)充完整遺失詞語(yǔ)的對(duì)齊結(jié)果。音譯特征對(duì)組織名的翻譯沒(méi)有任何提升效果,是因?yàn)榻M織名如“the Privy Treasurer”等幾乎不使用音譯,所以音譯特征對(duì)組織名的翻譯不起作用。

      同現(xiàn)特征對(duì)組織名的翻譯作用最大,這主要是有兩個(gè)原因造成的。一方面,本文的同現(xiàn)特征是和翻譯特征和音譯特征結(jié)合在一起使用的,很多人名和地名的翻譯使用音譯特征和同現(xiàn)特征都能找到,所以使用音譯特征后,給翻譯特征提高準(zhǔn)確率的余地很少。而組織名中音譯較少,更便于發(fā)揮同現(xiàn)特征的作用。另一方面,組織名中含有的詞語(yǔ)較多,相比詞語(yǔ)較少的人名和地名,同現(xiàn)特征更為明顯,同現(xiàn)特征函數(shù)的取值更高。例如,“the Excellent Scion”使用詞匯對(duì)齊和意譯特征的對(duì)齊結(jié)果為“冠軍”,由于“卿子”也和“the Excellent Scion”一起出現(xiàn),所以加入“同現(xiàn)特征”后的對(duì)齊結(jié)果為“卿子冠軍”。

      由表4可以看出,所有的對(duì)齊特征都未提升其他類型的術(shù)語(yǔ)的對(duì)齊精度,其他類型的術(shù)語(yǔ)一共有三個(gè),對(duì)齊錯(cuò)誤的有兩個(gè),分別是“the Day of Concealment”和“the Wang Sacrifice”,由于這兩個(gè)短語(yǔ)出現(xiàn)的次數(shù)較少,這兩個(gè)術(shù)語(yǔ)在詞匯對(duì)齊階段就出現(xiàn)錯(cuò)誤,正確中文術(shù)語(yǔ)翻譯中的有些詞語(yǔ)并未出現(xiàn)在候選詞語(yǔ)中,所以后續(xù)的步驟中,最大熵模型使用什么特征也無(wú)法獲取正確的中文翻譯,其他類型的術(shù)語(yǔ)的準(zhǔn)確率一直未改變。

      5 總結(jié)

      本文針對(duì)歷史典籍的術(shù)語(yǔ)對(duì)齊中存在的問(wèn)題,提出了一種基于子詞的最大熵模型進(jìn)行術(shù)語(yǔ)對(duì)齊。該方法使用子詞來(lái)分割中文句子,解決了沒(méi)有古漢語(yǔ)分詞算法的問(wèn)題。針對(duì)歷史典籍術(shù)語(yǔ)的多義性,使用包含翻譯特征、音譯特征和同現(xiàn)特征的最大熵模型進(jìn)行對(duì)齊。在《史記》平行語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,基于子詞的方法遠(yuǎn)遠(yuǎn)優(yōu)于不使用子詞的方法,最大熵模型使用的各種特征對(duì)不同類型的術(shù)語(yǔ)都有效果。

      由實(shí)驗(yàn)結(jié)果分析可以看出,術(shù)語(yǔ)對(duì)齊受詞對(duì)齊結(jié)果的影響很大,詞對(duì)齊結(jié)果不正確,后續(xù)無(wú)法抽取英文正確的翻譯。此外,本文雙語(yǔ)平行語(yǔ)料的規(guī)模較小,獲取的歷史典籍術(shù)語(yǔ)數(shù)目不多。所以本文以后的工作,一是要提高詞對(duì)齊的正確率,二是自動(dòng)獲取更大規(guī)模的雙語(yǔ)平行語(yǔ)料。

      [1] Huang Fei,Vogel Stephan,Waibel Alex. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization[C]//Proceedings of the Workshop on Multilingual and Mixed-language Named Entity Recognition,Sapporo,Japan,2003: 184-192.

      [2] 陳鈺楓,宗成慶,蘇克毅. 漢英雙語(yǔ)命名實(shí)體識(shí)別與對(duì)齊的交互式方法[J]. 計(jì)算機(jī)學(xué)報(bào),2010,34(9): 1688-1696.

      [3] Yufeng Chen,Chengqing Zong. A Semantic-Specific Model for Chinese Named Entity Translation[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing,Chiang Mai,Thailand,2011: 138-146.

      [4] Y. Al-Onaizan,K. Knight. Translating named entities using monolingual and bilingual resources[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,2002: 400-408.

      [5] R.C. Moore. Learning translations of named-entity phrases from parallel corpora[C]//Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics,2003: 259-266.

      [6] Chun-J en Lee,Jason S Chang,Jyh-Shing R. Jang. Alignment of bilingual named entities in parallel corpora using statistical models and multiple knowledge sources[J]. ACM Transactions on Asian Language Information Processing (TALIP),2006,5(2): 121-145.

      [7] 陳懷興,尹存燕,陳家駿. 一種命名實(shí)體翻譯等價(jià)對(duì)的抽取方法[J]. 中文信息學(xué)報(bào),2008,22(4): 55-60.

      [8] 楊志勝,基于字根法的古漢語(yǔ)分詞模型[D]. 天津大學(xué)碩士學(xué)位論文,2007.

      [9] 留金騰,宋彥,夏飛. 上古漢語(yǔ)分詞及詞性標(biāo)注語(yǔ)料庫(kù)的構(gòu)建——以《淮南子》為范例[J]. 中文信息學(xué)報(bào),2013,27(6-15).

      [10] Donghui Feng,Yajuan Lv,Ming Zhou. A new approach for English-Chinese named entity alignment[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),Barcelona,Spain,2004: 372-379.

      [11] 趙海,揭春雨. 基于有效子串標(biāo)注的中文分詞[J]. 中文信息學(xué)報(bào),2007,21(5): 8-13.

      [12] 黃德根,焦世斗,周惠巍. 基于子詞的雙層 CRFs 中文分詞[J]. 計(jì)算機(jī)研究與發(fā)展,2010,(5): 962-968.

      [13] 王素格,楊軍玲,張武. 自動(dòng)獲取漢語(yǔ)詞語(yǔ)搭配[J]. 中文信息學(xué)報(bào),2006,(06): 31-37.

      [14] Franz Josef Och,Hermann Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,2002: 295-302.

      CHE Chao1,ZHENG Xiaojun2

      1. Key Laboratory of Advanced Design and Intelligent Computing(Ministry of Education),Dalian University,Dalian, Liaoning 116024,China;

      2. School of Mechanical Engineering,Dalian Jiaotong University,Dalian,Liaoning 116028,China)

      It is difficult to extract term translation pairs from the parallel corpus of historical classics due to lack of proper word segmentation for ancient Chinese. In this paper we introduce a term alignment method using maximum entropy model based on sub-words. In our approach,we first extract word pairs as sub-words by chi-square statistics and log-likelihood ratio test, and apply them to segment Chinese. Then we build transliteration features according to the transliteration model of classics terms, and perform term alignment through maximum entropy. The use of sub-words addresses the lack of word segmentation method for ancient Chinese and the maximum entropy model integrating three kinds of features deals with the polysemy of terms. The experiments on the parallel corpora ofShiJishow the effectiveness of the sub-words by a large improvement in performance compared to the IBM Model 4.

      sub-words; term alignment; maximum entropy model; transliteration

      車超(1981—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:chechao101@163.com鄭曉軍(1982—),博士,主要研究領(lǐng)域?yàn)橹悄苡?jì)算。E?mail:cnzhengxj@163.com

      2014-05-15 定稿日期: 2014-09-11

      國(guó)家自然科學(xué)基金(61402068,61304206)

      1003-0077(2016)03-0046-06

      TP391

      A

      猜你喜歡
      音譯典籍分詞
      《典籍里的中國(guó)》為什么火?
      金橋(2021年4期)2021-05-21 08:19:24
      清末民初音譯元素名規(guī)范方案用字探析
      結(jié)巴分詞在詞云中的應(yīng)用
      夏譯漢籍中的音譯誤字
      西夏學(xué)(2017年1期)2017-10-24 05:31:38
      在詩(shī)詞典籍中賞春日盛景
      值得重視的分詞的特殊用法
      典籍翻譯模式的構(gòu)建與啟發(fā)
      新疆地名的音譯轉(zhuǎn)寫(xiě)及英譯規(guī)范
      先秦典籍中的男嬖形象探微
      英漢音譯規(guī)律探微*
      姜堰市| 安达市| 汉阴县| 泰宁县| 普格县| 伽师县| 石城县| 鹿邑县| 孟州市| 杂多县| 广平县| 昌宁县| 太保市| 临西县| 正定县| 阿克陶县| 文水县| 玉田县| 南和县| 慈利县| 谢通门县| 理塘县| 原阳县| 烟台市| 东至县| 石柱| 清涧县| 小金县| 抚州市| 乳源| 高要市| 连州市| 临澧县| 巫山县| 秦安县| 西畴县| 托克逊县| 沧源| 牟定县| 苍溪县| 读书|