吳恒 代思師
內(nèi)容摘要:隨著神經(jīng)網(wǎng)絡(luò)翻譯的發(fā)展,谷歌翻譯和百度翻譯成為使用率較高的機(jī)器翻譯平臺。本文從金融時報(FT)雙語網(wǎng)站選取一篇新聞媒體的文本進(jìn)行案例研究,對比人工翻譯和兩種機(jī)器翻譯,分析兩種機(jī)器翻譯的優(yōu)缺點,提出人工翻譯依然無法替代,同時通過適當(dāng)利用機(jī)器翻譯的長處,可以提高翻譯效率和質(zhì)量。
關(guān)鍵詞:信息類文本 機(jī)器翻譯 問題 分析
傳統(tǒng)的機(jī)器翻譯存在著“只見樹木不見森林”的問題,而近幾年,尤其是2016年以來,隨著神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)的突飛猛進(jìn),機(jī)器翻譯的表現(xiàn)獲得質(zhì)的飛躍。谷歌推出的神經(jīng)網(wǎng)絡(luò)翻譯(GNMT, Google Neural Machine Translation)采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs, Recurrent Neutral Networks)在產(chǎn)出譯句的每個部分時都會參考整個原句,譯文用詞和語序都更自然,更符合目標(biāo)語的語法。以維基百科和新聞譯文為對象的質(zhì)量測試表明,谷歌將翻譯錯誤將降低了55%-85%。而百度翻譯也采用了神經(jīng)網(wǎng)絡(luò)翻譯,目前,神經(jīng)機(jī)器翻譯已經(jīng)取代統(tǒng)計機(jī)器翻譯成為Google和百度等在線機(jī)器翻譯系統(tǒng)的核心技術(shù)。
根據(jù)德國翻譯家卡塔琳娜·賴斯(Katharine Reiss)的文本類型理論,文本類型包括信息型( informative)、表情型(expressive)、操作型(operative)三類。信息類文本是指“自然科學(xué)、科技、工商經(jīng)濟(jì)”類文書文本,講求術(shù)語表達(dá)的專業(yè)性,語言表述的直陳性、客觀性、邏輯性和文體風(fēng)格的不變性。新聞文本屬于信息類文本,翻譯時強(qiáng)調(diào)重視原文、簡潔明了,且具有術(shù)語復(fù)雜、句式固定等特點,因此具有最高的機(jī)器翻譯適用性。
《金融時報》中文網(wǎng)站的文章是經(jīng)濟(jì)新聞類,屬于信息類文本。本文選取了網(wǎng)站中一篇題為《全球債市拋售加劇》的文章為研究對象,探討新聞信息類文本的機(jī)器翻譯的優(yōu)缺點,對比谷歌和百度兩種平臺的翻譯,并嘗試提出改進(jìn)的建議。
本部分從字詞句等傳統(tǒng)領(lǐng)域進(jìn)行對比分析,用R指代網(wǎng)站的人工翻譯,G為谷歌翻譯,B百度翻譯。為比對方便,原文劃線處對應(yīng)的翻譯用陰影標(biāo)出。
一.常用表達(dá)
這里的常用表達(dá)除了專有名詞外,還包括常用的詞和短語。
(P8)That lifted the 10-year US Treasury yield, the most widely watched interest rate in the global economy, by 5 basis points to a peak of 2.73 per cent on Monday, the highest since April 2014.
R: 這使得10年期美國國債收益率(全球經(jīng)濟(jì)中最受關(guān)注的利率)在周一上升5個基點,至2.73%的峰值,為2014年4月以來最高水平。
G: 這將全球經(jīng)濟(jì)最廣泛關(guān)注的10年期美國國債收益率提高了5個基點,至周一高點2.73%,為2014年4月以來的最高點。
B: 這使全球經(jīng)濟(jì)最受關(guān)注的10年期美國國債收益率提高了5個基點,達(dá)到星期一的2.73%點,為2014年4月以來的最高點。
財經(jīng)類的文章中,會經(jīng)常出現(xiàn)這樣的句式和表達(dá),如“……上漲/下跌……,至……,為……最高/低水平”,原文的“a peak of number”是常用表達(dá),意為“……峰值”。谷歌翻譯中翻譯成“高點”也未嘗不可,但是百度翻譯中漏譯了這層意思,只能歸咎于數(shù)據(jù)庫中沒有對應(yīng)的詞條,或者訓(xùn)練用的語料本身就漏譯了。需要擴(kuò)充數(shù)據(jù)庫專業(yè)詞匯,輔以人工糾錯,解決詞匯層面的問題。
(P8)The ①10-year German Bund climbed ②7bp to 0.69 per cent, lifting the five-year Bund yield back into ③positive territory for the first time since November 2015.
R: ①10年期德國國債收益率攀升②7個基點,至0.69%,5年期德國國債收益率自2015年11月以來首次回到③正值區(qū)間。
G: ①10年期德國外灘上漲②7個基點至0.69%,自5月份以來首次將5年期外灘收益率回升至③正面區(qū)間。
B: ①德國10年期國債上漲②7BP至0.69%,提升五年債券的收益率回到了2015年11月以來的首次③正。
Bund在德語中對應(yīng)bond,讀音和拼寫都與英語接近,人工翻譯能夠識別出來,但是bund在英語中也有“堤岸、同盟”等意思,會產(chǎn)生干擾,這時人工翻譯的優(yōu)勢就體現(xiàn)了出來。谷歌翻譯很顯然沒有“學(xué)習(xí)”這個特殊用法,即“德國”后面的Bund意為“國債”,而百度翻譯也沒有“學(xué)習(xí)”數(shù)字后面的bp意為“基點”。原文③positive territory暴露了百度翻譯的漏譯問題,因為沒有對應(yīng)的詞條,機(jī)器翻譯只有一個字——“正”。谷歌翻譯雖然語義上有點偏差,但也算中規(guī)中矩,沒有完全漏掉。但是,谷歌翻譯中波浪線部分居然將November翻譯成“5月份”,說明系統(tǒng)還有很嚴(yán)重的漏洞。筆者嘗試將“since November 2015”之前的三個意群“l(fā)ifting the five-year Bund yield”,“back into positive territory”和“for the first time”任意刪除一個,機(jī)器都能識別出“2015年11月以來”,說明目前機(jī)器翻譯的模式識別還有提升空間。
對比詞條①的三種翻譯,人工翻譯增加了“收益率”,增詞不增意,讓譯文更清楚易懂,體現(xiàn)了人工翻譯的主動性。這一點是目前機(jī)器翻譯望塵莫及的地方。
二.詞語搭配
搭配是指某種語言中一些詞往往同時的趨勢,搭配的形成是隨機(jī)的,不同語言會有不同的搭配習(xí)慣。
(P1) The global bond market sell-off deepened on Monday, …
R: 全球債券市場的拋售周一加劇……
G: 周一全球債券市場拋售加深……
B: 星期一,全球債券市場拋售進(jìn)一步加劇……
“deepen”的搭配意義取決于前面出現(xiàn)的詞sell-off(拋售),中文一般使用“加劇”,而非“加深”。如果是Friendship deeps,自然可以說“友情加深”。神經(jīng)機(jī)器翻譯能夠通過大量的數(shù)據(jù)訓(xùn)練識別出語言模式,所以,谷歌翻譯的問題或許通過更進(jìn)一步的數(shù)據(jù)訓(xùn)練,可以得到解決。百度翻譯把“deepen”處理為“加劇”,更符合漢語的習(xí)慣,表明百度的翻譯系統(tǒng)能夠根據(jù)前文的“拋售”等詞,自動篩選出符合語境的譯文。畢竟,百度是中文搜索第一網(wǎng)站,其海量的中英文雙語語料是數(shù)據(jù)訓(xùn)練的有力保障。
(P2) …but stirred concerns that long-dormant inflation might finally make a comeback …
R: ……但這也引發(fā)了人們的擔(dān)憂:即長期蟄伏的通脹也許終于會卷土重來……
G: ……但令人擔(dān)憂的是長期擱置的通貨膨脹最終可能卷土重來……
B: ……但人們擔(dān)心長期休眠的通脹可能最終卷土重來……
“l(fā)ong-dormant”這里的機(jī)器譯文分別是“長期擱置”和“長期休眠”。雖然在語義上都與“l(fā)ong-dormant”對應(yīng),但是適用于不同的搭配,如“長期擱置的問題”和“長期休眠的狀態(tài)”,但是原文的中心詞是“通脹”,所以更恰當(dāng)?shù)拇钆涫侨斯しg選擇的“長期蟄伏”。根據(jù)語境選擇不同的搭配,是人工翻譯天然的優(yōu)勢,而機(jī)器翻譯通過海量數(shù)據(jù)的訓(xùn)練,或許也能實現(xiàn)。
三.定語結(jié)構(gòu)
(P7):Investors now expect the Federal Reserve to follow through on its plans to raise interest rates three times this year, and the European Central Bank is forecast to end its crisis-era stimulus programme.
R:投資者現(xiàn)在預(yù)計美聯(lián)儲(Fed)今年將執(zhí)行其加息三次的計劃,并預(yù)計歐洲央行(ECB)將結(jié)束危機(jī)時期的刺激計劃。
G:投資者現(xiàn)在預(yù)計美聯(lián)儲將在今年三次加息的計劃中繼續(xù)執(zhí)行,預(yù)計歐洲央行將結(jié)束危機(jī)時代的刺激計劃。
B:投資者現(xiàn)在預(yù)計美聯(lián)儲將執(zhí)行其今年三次加息的計劃,預(yù)計歐洲央行將結(jié)束其危機(jī)時期的刺激計劃。
后置定語依然是機(jī)器英中翻譯的一個重大挑戰(zhàn)。本例中“to …three times”的后置定語修飾前面的plan,兩個機(jī)器翻譯的版本都處理成前置定語,語言結(jié)構(gòu)上機(jī)械轉(zhuǎn)換成漢語中習(xí)慣的形式也是機(jī)器翻譯擅長的地方。但是,兩種機(jī)器翻譯都將時間狀語this year看作“加息”的限定成分,而人工翻譯準(zhǔn)確地把握限定對象,將“今年”的位置調(diào)整到動詞“執(zhí)行”的前面。這樣處理讀起來也更通順,更符合漢語的表達(dá)習(xí)慣。筆者也分析了機(jī)器翻譯遇到前后兩個定語同時修飾一個中心詞的情況,翻譯結(jié)果不盡如人意。
(P2): ①Mounting optimism ②over the strength of the world economy has buoyed equities, which have enjoyed their best start to a year since 1987, but ...
R: 人們②對世界經(jīng)濟(jì)走強(qiáng)①日益樂觀的情緒近期推高了股市。今年是自1987年以來股市開局表現(xiàn)最好的一年……
G: ②對世界經(jīng)濟(jì)實力表示樂觀的態(tài)度助長了自1987年以來最佳開局的股市……
B:人們②對世界經(jīng)濟(jì)實力的樂觀情緒提振了股市,自1987以來,股市迎來了一年來最好的開局……
原文中的mounting意為increasing,兩種機(jī)器翻譯中都沒有體現(xiàn)。筆者把optimism的后置定語“over … economy”刪除以后,谷歌翻譯變成“樂觀情緒提振了股市”,漏譯仍然存在;百度翻譯則是“越來越多的樂觀情緒提振了股市”。筆者將“optimism”改成“price”,谷歌翻譯成“股價上漲”,可見谷歌的“深度學(xué)習(xí)”還沒有學(xué)到mounting optimism這種情況,而百度翻譯雖然收錄了這種搭配,但是中文翻譯過于死板,沒有人工翻譯的靈性。
通過分析對比后面非限制性定語從句的處理情況,百度翻譯將從句另起一句,優(yōu)于谷歌翻譯。谷歌翻譯將which從句處理成限制性定語,跟前面一句揉在一起,結(jié)果比較冗長。筆者嘗試將定語②刪掉,谷歌翻譯成“樂觀情緒提振了股市,自1987年以來已經(jīng)開始了一年的最佳開局”,仍然是不明就里。谷歌翻譯在處理類似結(jié)構(gòu)時,應(yīng)學(xué)習(xí)百度翻譯的處理方法?;蛟S讓機(jī)器把which機(jī)械的替換成距離最近的名詞,也能減少類似的錯譯。
四.指示代詞
指示代詞是實現(xiàn)銜接的一個重要手段。譯文與原文一樣需要銜接,英文銜接體現(xiàn)在語篇的表層結(jié)構(gòu)上,通過語法手段和詞匯手段的使用。
(P6)“①It all feels a little bit euphoric,” said Larry Hatheway, chief economist at GAM, the investment group. “②It has led to a lot of people thinking that we should prepare the groundwork for some risk mitigation strategies. ③This cant go on forever.”
R: “①這一切讓人感覺有點欣快過頭,”投資集團(tuán)GAM的首席經(jīng)濟(jì)學(xué)家拉里·夏德威(Larry Hatheway)說,“②這導(dǎo)致很多人認(rèn)為,我們應(yīng)該為一些風(fēng)險緩解策略做好鋪墊。③這波行情不會永遠(yuǎn)持續(xù)下去。”
G:… Larry Hatheway表示:“①這一切都讓人感到欣喜若狂。 “②這導(dǎo)致了很多人認(rèn)為我們應(yīng)該為一些風(fēng)險緩解戰(zhàn)略奠定基礎(chǔ)。③這不可能永遠(yuǎn)持續(xù)下去?!?/p>
B:“①這一切都感覺有點興奮,”Larry Hatheway說,在GAM投資集團(tuán)首席經(jīng)濟(jì)學(xué)家。“②這導(dǎo)致許多人認(rèn)為我們應(yīng)該為一些減輕風(fēng)險的戰(zhàn)略做好準(zhǔn)備。③這不能永遠(yuǎn)持續(xù)下去?!?/p>
原文中使用了it和this,機(jī)器翻譯全部處理為“這”,一個兩個沒問題,但是一連串的“這”會讓讀者有點摸不著頭腦。原文it和this用詞的不同在中文翻譯中應(yīng)該體現(xiàn)出來。這一點人工翻譯表現(xiàn)得更好,this譯成“這波行情”讓讀者很容易回溯到上文的語境。指示代詞的指代內(nèi)容會隨著語境的變化而變化,而機(jī)器翻譯在技術(shù)上很難規(guī)定指代的具體內(nèi)容,即便海量的數(shù)據(jù)“學(xué)習(xí)”以后,也難以應(yīng)對千變?nèi)f化的指代對象。這種尷尬的結(jié)果其實可以追溯到中英兩種語言實現(xiàn)銜接的差異。英文用指示代詞,而中文常用具體名詞指代上文內(nèi)容。所以,英漢互譯中指示代詞的處理上,人工翻譯是難以替代的。此外,兩種機(jī)器翻譯還有些小問題,比如谷歌機(jī)器翻譯中兩段引文合并后,波浪線處多了一個引號;百度翻譯中波浪線處的“在”也出現(xiàn)得莫名其妙,這都是機(jī)器容易出現(xiàn)“小毛病”的佐證。
五.名詞化
名詞化指的是其他詞類形成名詞的過程,或者是指分句派生出名詞詞組的過程。名詞化是信息類文章中常見的語法現(xiàn)象,名詞化結(jié)構(gòu)的背后常常是一個動詞結(jié)構(gòu)。
(P7): There is also nervousness that the Bank of Japan could scale back some of its ultra-aggressive stimulus later in 2018.
R: 還有人擔(dān)心,日本央行(BoJ)可能會在2018年晚些時候縮減一部分極端激進(jìn)的刺激措施。
G: 日本央行也可能在2018年晚些時候縮減一些超激進(jìn)的刺激措施。
B: 還有一種緊張情緒,即日本央行可能在2018年底縮減其部分激進(jìn)刺激計劃。
原文中的there is nervousness,其深層的意思是people feel nervous about …,人工翻譯很準(zhǔn)確地抓到這個意思。從兩種機(jī)器翻譯的對比看,谷歌翻譯出現(xiàn)漏譯;百度翻譯雖然沒有漏譯,但是譯文差強(qiáng)人意,究其原因是被原文“有”的表層結(jié)構(gòu)限制了。名詞化涉及語義理解,需要看透表面的結(jié)構(gòu),抓住深層次的動作含義,這也許是目前機(jī)器翻譯比較難突破的問題之一。
從人工翻譯與兩種機(jī)器翻譯的對比可以看出,人工翻譯依然優(yōu)勢明顯,不可替代,而谷歌和百度翻譯各有優(yōu)缺點。百度在常用搭配的選擇上超過谷歌;而谷歌收錄的財經(jīng)類詞匯超過百度,百度需要更多的提高數(shù)據(jù)庫的專業(yè)化程度。而對于長難句的處理,百度傾向于保留原文結(jié)構(gòu),而谷歌則傾向于拆分結(jié)構(gòu)。盡管長句翻譯一般是用拆句法,但是如果拆了以后出現(xiàn)漏譯錯譯,則是得不償失,所以需要人工翻譯審核把關(guān)。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的技術(shù)雖然大大提高了機(jī)器翻譯質(zhì)量,但是仍然存在一些低級錯誤,以及翻譯質(zhì)量不高的問題,人工翻譯,尤其是高級筆譯和審校依然是不可替代的。
參考文獻(xiàn)
[1]Wu, Y., M. Schuster, Z. Chen et al. Googles Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv: 1609. 08144v2 [cs. CL], 2016.
[2]孫茂松,周建設(shè).從機(jī)器翻譯歷程看自然語言處理研究的發(fā)展策略.語言戰(zhàn)略研究,2016(6):12-18.
[3]劉洋,神經(jīng)機(jī)器翻譯前沿發(fā)展.計算機(jī)研究與發(fā)展.2017,54(6):1144-1149.
[4]張美芳.文本類型理論及其對翻譯研究的啟示.中國翻譯,2009(5):54-55.
[5]原傳道.英語“信息型文本”翻譯策略.中國科技翻譯,2005,18(3):50-52.
[6]孫謹(jǐn)慎.基于文本類型理論的機(jī)器翻譯研究.中國科技翻譯,2016(3):27-29.
[7]羅賓·威格爾斯沃思.全球債市拋售加劇.http://www.ftchinese.com/story/001
076136/ce#adchannelID=1100.2018-2-1.
[8]Baker, Mona. In Other Words, A Course-book on Translation. Routledge, 1992: 15, 47.
[9]Halliday, M.A.K & Hasan, R. Cohesion in English. Longman, 1976.
(作者單位:空軍預(yù)警學(xué)院外語教研室;對外經(jīng)濟(jì)貿(mào)易大學(xué)英語學(xué)院在職人員高級課程研修班)