斯賓塞·麥斯泰爾++小月遙
喬希注視著窗外的群山,望得出神了,手邊的茶慢慢涼了下來。群山近在咫尺,威嚴而壯麗。他手中捧著他最愛的小說,書里曾無數(shù)次地描述過這美景??Х瑞^里熙熙攘攘,人們暢快地談論著天南海北的奇聞異事。喬希獨自坐著,但他并不孤單。當他的目光回到身前的時候,他發(fā)現(xiàn)自己的面前坐著一個人,用他聽不懂的語言,對他講話。喬希戴上了一對小耳機。耳機把那陌生的語言轉換成了他熟悉的語言,喬希捕捉到了最后一句話:“……我最喜歡的小說。”
“這本嗎?”喬希舉起了手中的書,問道。
“對呀。”
“這也是我的最愛,”喬希說,“這是譯文版,不過,這本小說我至少讀過12遍了。”
喬希的新朋友笑道:“是哪個版本的譯文?谷歌版的還是亞馬遜版的?”
科技樂觀主義者認為,總有一天,人類能夠借助翻譯器,去閱讀任何書籍,無論這本書的原語言多么晦澀難懂。一直以來這都是人工智能工程師的奮斗目標之一。翻譯工作是電腦不能用數(shù)字技術解決的最古老的難題之一。1954年,喬治敦大學和IBM公司共同推出了第一款翻譯器。這款翻譯器能夠把俄語翻譯成英語,可以應對十分復雜的句子。它總共能夠識別60個句子,遵循6種語法規(guī)則,內部儲存了250個詞匯。設計者對公眾表示,機器翻譯的技術難題,將在未來3到5年得以解決。
有無數(shù)人在這個領域進行著不懈的探索,2001年,谷歌重新投身于這個領域,并且很快就超過了其他競爭者。一開始,谷歌只能做6種語言之間的翻譯(英語、葡萄牙語、德語、意大利語、西班牙語和法語),它不斷改進自己的算法、翻譯質量和翻譯速度。到2005年,谷歌的翻譯器已經(jīng)能夠支持8種語言了。它在一場翻譯比賽中,用1000臺電腦,在40個小時之內翻譯1000個句子。而今,2016年,谷歌網(wǎng)站能夠在幾秒鐘內,完成對103種語言的翻譯。每個月,都有超過5億人次使用翻譯器。其中超過92%的用戶不在美國。讓機器翻譯能夠與具體的語境相結合,是所有程序員共同努力的方向,有的人甚至聲稱,機器翻譯已經(jīng)解決了這個問題。
上周,紐約市韋弗利實驗室發(fā)布了他們的最新成果派樂(pilot)。這是一副售價299美元的耳機,預計在2017年發(fā)售。這項設備預計能夠對4種語言進行接近于同聲傳譯水平的翻譯。這個設備受到了視頻“當他與一位法國女孩相遇”的啟發(fā)。項目的創(chuàng)始人安德魯·奧喬亞說,派樂能夠讓“人與人之間擺脫語言的障礙,讓生命信馬由韁”。在發(fā)布會之后,《福布斯》雜志采訪了韋弗利實驗室,仔細詢問了這個翻譯設備的真實性。但是他們卻忽略了這個項目背后一個更加重要的假設:拋開資金問題不談,這項設備能夠幫助人們與外國人相戀嗎?
喬希無意結識任何人,但這實在是一場美麗的偶遇。喬希正打算告訴他的新朋友,這本書是他在一次交通事故雙腿受傷之后,他媽媽送給他的,這本小說陪伴了他10多年。服務員開始給他續(xù)茶。當服務員說話的時候,他發(fā)現(xiàn),她說話的節(jié)奏與周圍的人不同。然后,翻譯器里就開始發(fā)聲了:“你從哪來?”這個問題真是一個和陌生人開始聊天的萬能句式。
電腦(比如IBM的設備)曾經(jīng)運用和人類一樣的模式學習語言:把一門語言中紛繁復雜的語法、例外用法、例外的例外用法進行內化。語法太復雜了,電腦程序可能要掌握超過一百萬種指令。翻譯結果經(jīng)常顯得非常笨重粗糙。1949年,科學家沃倫·韋弗提出了一種新的理念,它可以取代基于語法的翻譯技術,這種技術被稱作基于統(tǒng)計模型的機器翻譯技術(SMT)。該技術并不會逐點進行翻譯,韋弗提出了一種雙管齊下的方法:首先,電腦會檢索上百萬份文檔,用統(tǒng)計法找出具有典型性的語言模式,并由此記憶其中的語法、句法和遣詞的規(guī)則。與此同時,程序會創(chuàng)建一個模型,來預測特定的短語將出現(xiàn)在句子中的什么位置,如何進行翻譯。比如,一臺電腦在數(shù)十億次的重復之后,能夠預測到,在德語中,動詞一般出現(xiàn)在句子的末尾。
韋弗利實驗室還沒有公布他們軟件的細節(jié),但是,谷歌的翻譯軟件很可能也采用了同樣的技術方法,谷歌用這種預測機制來提供統(tǒng)計學上最接近真實的翻譯,這很可能是迄今為止最好的翻譯方法。但是人們運用語言的環(huán)境多種多樣,翻譯軟件也必須對具體的語境(也就是“域”)進行識別。比如,當一位客人正在買吉他的時候,翻譯器就知道應該把“neck”翻譯成“琴頸”。但是,為了實現(xiàn)統(tǒng)計上的典型性,一個“域”必須非常大,至少有200萬個詞。因此,這方面的翻譯訓練材料都來自如聯(lián)合國這樣的大型組織。這些組織擁有大量的已經(jīng)被人工翻譯的材料,即便如此,這種算法還是有其自身的局限性。
很多人即使閱讀了5萬份由英語翻譯成羅馬尼亞語的歐盟議會報告,也學不會羅馬尼亞語;但是他們卻能夠輕而易舉地看懂那些YouTube評論區(qū)里或是Facebook上的網(wǎng)絡語言,這些網(wǎng)絡語言就像垃圾場一樣,充滿了語法錯誤、詞匯濫用或純標點符號組成的表情。但是一臺電腦遇到了哪怕一點程序之外的語法規(guī)則,都無法識別。
從結果上看,基于統(tǒng)計模型的機器翻譯技術極大地提高了機器翻譯的流暢度。但是它還無法應對俚語或者方言。這個問題只是一個技術層面的問題;理論上來講,更大的數(shù)據(jù)庫,更快的運算速度和更先進的算法最終能解決這個問題(就像辦公軟件里面的自動糾錯功能一樣)。其實,機器翻譯技術所面臨的真正難題,并不是技術層面的,難題來自于語言本身。
喬希告訴服務員,她的聲音特別好聽,然后又點了一份曲奇。他的新朋友也不介意服務員打斷他們的談話,但是喬希手里全是汗。他用餐巾擦了擦,不知道怎么樣才能把話題帶回那本小說上來。他口吃了半天,然后直接問出了頭腦里出現(xiàn)的第一個問題:“你最近怎么樣?”
愉快的氣氛是如此的平常,人們經(jīng)常忽視這種氣氛的復雜性。從語言學上來看,這被稱之為交際語言,意思是一種表達不光傳遞了一份信息,更達成了一種社交目的。比如,當別人問你“最近怎么樣”的時候,多數(shù)人會覺得別人只是發(fā)出一份關心,并不是真的想打聽你最近都經(jīng)歷了什么。只要數(shù)據(jù)庫夠大,機器就能識別“最近怎么樣”這個句式,并進行與之相關的聯(lián)想。但是交際語言,就像所有的常用語言一樣,非常不穩(wěn)定。如果喬希生在了喬叟的那個時代(14世紀),他可能會說:“貴客,歡迎來此”;在莎士比亞的年代(16-17世紀),他可能會說:“天賜良日,天公作美啊?!保莻€時候“hello”用來表示驚奇、意外。)
因特網(wǎng)是一個巨大又復雜的語言環(huán)境,這個環(huán)境使得語言翻譯也不停地變化。1986年,美國和英國英語最大的語言數(shù)據(jù)庫伯明翰語料庫里包含了2000萬個詞匯。到了今天,數(shù)據(jù)庫中的牛津字典分區(qū)里就有25億個詞匯了,這些詞匯中有很多都來自于愛爾蘭、澳大利亞、新西蘭、加勒比、加拿大、印度、新加坡和南非。更何況,現(xiàn)在的詞典編撰者還要去了解博客、電子郵件、社交軟件、電視節(jié)目劇本、留言板等很多媒體。對于那些用戶自己可以進行編輯的網(wǎng)站,新詞匯的數(shù)量更是呈爆炸式的增長。
語言的自我演變進行得十分迅速。比如“Netflix and Chill”(字面意思是“看個電視劇放松一下”,實則帶有一定程度的性暗示)這個詞,如果這個詞在下一季《歡樂再滿屋(Huller House)》結束后仍在流行,那么它的含義很可能已經(jīng)隨著觀眾興趣的改變而改變了。矛盾的是,基于統(tǒng)計模型的機器翻譯技術的特征,是靜態(tài)的、保守的、被動的。數(shù)據(jù)庫中那些已經(jīng)過時的表達,會阻礙翻譯算法去適應語言的演變。如果想要讓翻譯程序實時適應語言的演變,那就必須讓程序能夠準確地接觸所有的書面、口頭表達,這個過程中翻譯程序很可能識別不了某些語言的自我演變。
過了一會兒,咖啡館里就只剩下喬希他們倆了。他們兩個人的人生經(jīng)歷特別相似。他們都有一個親哥哥,小的時候都有成為藝術家的夢想,每早都起來跑步(而且都睡過頭過)。這場對話輕松自然,沒有尷尬,也沒有冷場。喬希甚至都沒空吃曲奇。喬希的目光多次掠過曲奇餅,然后喬希的朋友就說:“咱們一起吃吧?!?/p>
英語里,很多表示肯定的表達中,深藏了各式各樣的潛臺詞。比如,喬??梢詳蒯斀罔F地回復一句:“好?。▂es)”但是,出于討論的需要,我們假設喬希已經(jīng)餓得前胸貼后背了,咖啡廳的廚師又剛好下班了,他特別想一個人把曲奇全吃了。所以,他很可能說“好吧(fine)”。“好”和“好吧”字面上都表示贊同和許可。但是后者包含著勉強,不舒服的情緒?!昂冒伞笔切『⒆颖桓改负叭ハ聵莵G垃圾時,既表示遵從又表示不情愿時會使用的詞。就像交際語言一樣,“好吧”真正所要表達的東西,不是字面上的意義,而在于它所暗示的情感。
15分鐘之后,這場聊天已經(jīng)進行得十分順利了,喬希想要有更進一步的表示,但是他忍住了,就像所有人第一次約會一樣,喬希覺得現(xiàn)在的氣氛有些曖昧。
如果喬希的約會對象說的是日語,喬希必須小心翼翼地應對。一般來說,日本人覺得,你一聲不響地聽別人講話,不太禮貌,你應該經(jīng)常說“是嘛、啊、沒錯”等予以回應。這些表達,在英語環(huán)境下,會讓人覺得聆聽者對這個話題十分感興趣;但是在日語環(huán)境下則并非如此,聆聽者予以回應完全是出于禮貌。日本人幾乎從來不直接拒絕別人。如果喬希與他的新朋友吃完了飯,邀請他一起回家,那喬希很可能得到一個模棱兩可的回答:“可以是可以,只不過……”任何一個日本人都會立刻發(fā)現(xiàn)這其實就是拒絕,但是天真的喬希聽不出這弦外之音。
但是,在辨別親密關系的時候,日語是一門絕佳的語言?;谡勗掚p方的社會地位和親密關系,他們的動詞和名詞有完全不同的4種修辭方式。如果和喬希約會的姑娘講話時完全不使用敬語,談吐特別隨意,那么這就是一種強烈的暗示:她對喬希很感興趣。
如果喬希在波哥大,他的約會對象很可能會用“您”(usted)來稱呼他。相比于“你”(tú),這是一個比較正式的第二人稱稱呼。如果對方把“您”改成了“你”,顯然這暗示著兩人的關系變親密了。但是英語中的第二人稱稱呼只有“你(you)”,翻譯器應該如何傳達出這種情感上的差別?這類難題,即使是人工翻譯,也很難解決。對于喬希的翻譯器來說,就更難了。計算機依據(jù)統(tǒng)計數(shù)據(jù)來進行翻譯,而不是依據(jù)對詞語或者人們行為的準確理解來進行翻譯,計算機沒辦法判斷親密關系。沒有任何的統(tǒng)計模型能夠對兩人關系的親密程度進行量化、比較。不過我們還是要恭喜喬希,他邁出了拉近關系的第一步。
當兩人準備起身離開的時候,喬希坦率地說,他之前和他的伴侶一起生活了5年,最近一段時間才分手。不幸的是,對于“伴侶”這個詞的真正含義,翻譯器沒法準確掌握。
性別,就像禮貌用語一樣,在不同的語言中,表達方式多種多樣。例如在阿拉伯語中,可以輕易地從名詞、動詞、形容詞中分辨出性別。在英語中,詞語的性別特征則不那么明顯。在英語文章中作者完全可以不露痕跡地掩蓋一個人的性別,就像這篇文章,只看喬希和新朋友之間對話,讀者無法判斷喬希的約會對象是男是女。英語的“伴侶”(partner)一詞,既可以指代異性情侶,也可以指代同性情侶。
多數(shù)情況下,一個人想要了解另一個人,會更加關注他說話的方式,他的弦外之音,而不是他說話的具體內容。有意無意地,在一場對話里面,聆聽者總會捕捉到各種各樣的來自語言之外的信息。即使是說話的口音,也能傳遞很多,比如人們一聽到倫敦口音,就會覺得這個人多半很刻板、保守。對于喬希自己來說,想要講清楚英語中幾個同義詞的具體差別就特別困難,更不用說翻譯器了。這種來自語義上的小差異,在表達中會引起特別不一樣的效果。就好比一副近視眼鏡,度數(shù)上差一點點,普通人可能覺得無傷大雅,但對使用者來說,整個世界都會變模糊。
拋開這些繁瑣的語言學理論不談。喬?,F(xiàn)在和他男朋友回到了小旅館。他的新男朋友有點緊張,聳著雙肩,無所適從?!斑馈彼f,“你最近怎么樣?(how are you)”喬希的男朋友把喬希剛見面時的窘態(tài)模仿得活靈活現(xiàn),兩個人都笑了,一起倒在床上。喬希深深地吸了一口氣說:“我們再也不離開這個大鼻子小廚師(nosey little cook)了?!比缓笏l(fā)現(xiàn)自己口誤了,他其實想說“可愛的小家(cozy little nook)”,但是兩個人又被逗得前仰后合。
喬希剛剛犯了一個首音誤置的錯誤。他把第一個詞的元音字母和第三個詞的元音字母互換了。喬希的口誤是無心之舉,但是人們經(jīng)常會精心設計這類文字游戲來取樂。這也是人和電腦之間的一個重大差別。電腦可以完成龐大復雜的運算,但是卻沒有辦法理解這種脫離語法規(guī)則的語言游戲。就像上文提到的,機器翻譯的難點,并不在于對單個詞匯的翻譯,任何一個單獨的詞,無論多難,都能翻譯。比如葡萄牙語中的一個詞“紹達蒂思(saudades)”,在英語中,找不到任何一個詞能跟它完美匹配,但是我可以用英語去解釋它:這是一種相思病,對某人某物思念得無可救藥。翻譯的真正難點在于,當人們使用某個詞的時候,他們的意圖是不穩(wěn)定的、多樣的、模棱兩可的,甚至是具有欺騙性的。
除開這些種種的不足,谷歌翻譯和他的同行所提供的機器翻譯技術,已經(jīng)在效率上和經(jīng)濟上超過人工翻譯了。正如某次會議上,一位谷歌翻譯的程序工程師所指出的那樣:當你想快速瀏覽某些文件,或者查看某些評論(比如說餐館評論)的時候,你不在乎語法錯誤。這時候,機器翻譯就是你的一個完美選擇。從商業(yè)的角度上來說,當翻譯內容特別客觀,可以排除人的主觀干涉的時候,比如說,當北美紅十字會想要得知墨西哥城所有醫(yī)院的醫(yī)療用品庫存總計的時候,機器翻譯就大有用武之地了。
就算韋弗利的新產(chǎn)品“派樂”翻譯出來的內容生澀難懂,對于學生、游客、移民和難民來說,它已經(jīng)可以幫上大忙了。它能夠幫助人們與社會有更加實質性的接觸,甚至可以讓人們相愛。但是,它什么時候才能做到像它承諾的那樣,讓“人與人之間可以擺脫語言的障礙,生命信馬由韁”?
當喬希到達機場,必須與他的男朋友分離的時候,他一直在抽泣,不停地說自己回家收拾好了東西,就會馬上飛回來,回去之后,天天都要保持電話聯(lián)系。等喬?;丶抑螅虐l(fā)現(xiàn),他們倆的作息時間差別太大了。開始還天天通話,后來就只有周末通話,再后來,只是每周通話一次。最后他們甚至只用電子郵件聯(lián)系了。6個月之后,當喬希回憶起這段感情的時候,他覺得自己所迷戀的,可能并不是那個人,而是那份異國戀愛的體驗。
把語言當作是一組統(tǒng)計學意義上的語法集合,是非常不切實際的觀點。人們之間的談話是如此的復雜,它凌駕于最精致的計算機算法之上。電腦所作的翻譯,深深地依賴著數(shù)據(jù)庫,沒有真情實感,太過糾結于單個的字符串。語言不是一種單純的工具,也不是一種公式,它像小兔子一樣機靈狡黠,讓人捉摸不透。
[譯自美國《大西洋》月刊]