一只小手
在大英博物館的柔光中,人們只能勉強(qiáng)看到鐫刻在這些古老泥板上的密密麻麻的楔形標(biāo)記。這些細(xì)小的標(biāo)記,是世界上最古老的書(shū)寫系統(tǒng)——楔形文字的遺跡。
大約150年前,學(xué)者們首次破譯了楔形文字,然而直到目前,能被讀懂的文字僅有一小部分,仍有約90%的文字未被破譯出來(lái)。但是,這種情況可能會(huì)有所改變,一項(xiàng)新技術(shù)正在給它們進(jìn)行“解鎖”,效果還挺不錯(cuò)。這都要?dú)w功于現(xiàn)代工具——機(jī)器翻譯。
現(xiàn)在你是不是越來(lái)越好奇了,連學(xué)者們都無(wú)法完全破解這種古老文字的秘密,機(jī)器又是如何做到的呢?
見(jiàn)證古帝國(guó)的興衰
楔形文字起源于5000多年前的美索不達(dá)米亞,位于底格里斯河和幼發(fā)拉底河之間,也就是現(xiàn)在的伊拉克。它記錄了一個(gè)長(zhǎng)達(dá)3000年之久的、復(fù)雜而迷人的文明。從王室之間憤怒內(nèi)斗的信件,到安撫一個(gè)任性嬰兒的儀式,這些泥板可以讓人們從一個(gè)獨(dú)特的視角了解那段歷史,它們記錄了阿卡德、亞述和巴比倫帝國(guó)的興衰。據(jù)估計(jì),人們已經(jīng)挖掘出了約50萬(wàn)塊楔形文字板,但還有很多仍深埋地下。
約150年前,學(xué)者們首次破譯了楔形文字,然而直到目前,仍有約90%的楔形文字未被翻譯出來(lái)。
但是,這種情況可能會(huì)有所改變.這都要?dú)w功于現(xiàn)代工具——機(jī)器翻譯。
加拿大多倫多大學(xué)亞述學(xué)研究員佩龍現(xiàn)在正在進(jìn)行的一個(gè)項(xiàng)目,是用機(jī)器翻譯公元前21世紀(jì)以來(lái)美索不達(dá)米亞文明的行政記錄,數(shù)量多達(dá)69000份。
美索不達(dá)米亞文明孕育了車輪、天文學(xué)、每小時(shí)有60分鐘的計(jì)時(shí)制、地圖、洪水和方舟的故事,以及世界上最古老的英雄敘事詩(shī)——《吉爾伽美什史詩(shī)>。這本詩(shī)集主要是用蘇美爾語(yǔ)和阿卡德語(yǔ)寫成的,能讀懂這些語(yǔ)言的學(xué)者少之又少。
除了泥板,還有5萬(wàn)多枚美索不達(dá)米亞雕刻印章散落在世界各地。幾千年來(lái),古人使用由雕刻石頭制成的印章,這些印章被壓入潮濕的黏土中,用來(lái)標(biāo)記門、罐子、石板和其他物品。這些刻章只有1/10被編入目錄,更不用說(shuō)翻譯了。
英國(guó)牛津大學(xué)亞述學(xué)教授達(dá)爾表示,“我們所獲得的關(guān)于美索不達(dá)米亞文明的資料比古希臘、古羅馬和古埃及的加起來(lái)還要多,但真正的挑戰(zhàn)在于找到能讀懂它們的人?!?/p>
佩龍與其團(tuán)隊(duì)正在對(duì)一個(gè)數(shù)據(jù)庫(kù)中的4000個(gè)古代行政文本樣本編寫算法。這些行政文本包括交易和運(yùn)輸記錄,比如把羊、蘆葦束或啤酒運(yùn)到神廟或個(gè)人手中的記錄。這些文字最初是用蘆葦筆刻在黏±上的,向我們展示了古代美索不達(dá)米亞文明的日常生活情況,包括權(quán)力結(jié)構(gòu)和貿(mào)易網(wǎng)絡(luò),同時(shí)還展示了社會(huì)歷史的其他方面,如女工的角色。
這些行政文書(shū)的措辭很簡(jiǎn)單,例如“第15天,廚房有11只母山羊”。這種特點(diǎn)使得它們特別適合被自動(dòng)化處理。一旦算法學(xué)會(huì)了如何將樣本文本翻譯成英語(yǔ),它們就能自動(dòng)翻譯其他泥板上的文字了。
佩龍希望機(jī)器分析也能弄清蘇美爾語(yǔ)的一些特征,這是至今仍困擾著現(xiàn)代學(xué)術(shù)界的難題。這種已經(jīng)滅絕的語(yǔ)言與任何現(xiàn)代語(yǔ)言都沒(méi)有聯(lián)系,但卻保存在以楔形文字書(shū)寫的泥板中。這可能是我們與更古老,甚至沒(méi)有歷史記載的社會(huì)之間最后的聯(lián)系。
觸碰古老寶藏
多虧了先進(jìn)的成像技術(shù),現(xiàn)在任何人只要能上網(wǎng)就能接觸到這些寶藏。比如,世界上現(xiàn)存最古老的皇家圖書(shū)館,人們正在將它數(shù)字化。這座圖書(shū)館位于尼尼微,由亞述國(guó)王亞述巴尼帕建造。雖然早在公元前612年,尼尼微遭遇洗劫時(shí),這些泥板被火烤得又黑又硬,但上面的文字仍可辨認(rèn)。
新的成像技術(shù)讓人們?cè)谔幚磉@些古老且破損嚴(yán)重的文本時(shí)更加輕松。有了精細(xì)的圖像,人們就有可能找出那些肉眼看不見(jiàn)的模糊標(biāo)記。
一個(gè)名為“楔形文字?jǐn)?shù)字圖書(shū)館倡議”的項(xiàng)目,將保存在德黑蘭、巴黎和牛津館藏中的泥板及印章進(jìn)行數(shù)字化處理。這個(gè)龐大的在線數(shù)據(jù)庫(kù)已經(jīng)包含了世界上約1/3的楔形文字,以及一些未被破譯的書(shū)面語(yǔ)言(如古伊朗的原始埃蘭語(yǔ))。
如果沒(méi)有這樣龐大的數(shù)字資源,讓機(jī)器進(jìn)行翻譯幾乎是不可能的。
數(shù)字化還幫助研究者們將散落在世界各地的文本拼湊起來(lái)。
研究人員曾對(duì)美索不達(dá)米亞的200多枚石印的3D圖像進(jìn)行了數(shù)字化處理。在試點(diǎn)項(xiàng)目中,他們使用了人工智能算法校驗(yàn)了6塊碑文,并識(shí)別出在世界其他地方發(fā)現(xiàn)的與之匹配的石印。算法準(zhǔn)確地挑選出了兩塊現(xiàn)存于意大利和美國(guó)的泥板,這兩塊泥板上蓋的石印是一樣的。
在過(guò)去,想要將石印和印痕匹配起來(lái)困難重重,因?yàn)樵S多石印保存在數(shù)千千米之外的地方。而現(xiàn)在,人工智能的發(fā)展能幫助人們探索世界各地收藏品中蘊(yùn)藏的豐富信息。
破譯古人的語(yǔ)言
成像技術(shù)也改變了對(duì)于未破譯文本的研究。
對(duì)于數(shù)量少、具創(chuàng)造性文本的破譯,人類往往比機(jī)器做得更好,人類有著對(duì)生活和組織方式的深入理解,以及高度的靈活性。例如,早期的楔形文字符號(hào)并不是線性排布的,而是簡(jiǎn)單地與畫(huà)在周圍的方框排在一起。原始埃蘭語(yǔ)是三維立體的,一個(gè)圓印的深淺不同意義也不同。但是,技術(shù)可以放大、分享和比較圖片的細(xì)節(jié),加快了破譯進(jìn)程。
佩龍希望機(jī)器最終能夠翻譯更復(fù)雜的蘇美爾語(yǔ)和其他語(yǔ)言,比如阿卡德語(yǔ)。也許有一天,我們將能夠閱讀所有古老文字的翻譯版本。
古代美索不達(dá)米亞的國(guó)王們深深地思考著過(guò)去和未來(lái)。他們崇敬前朝的楔形文字,也將記錄著他們名字和成就的銘文埋藏地下,希望后世的統(tǒng)治者會(huì)將榮耀歸于自己。
在某種程度上,他們的愿望已經(jīng)實(shí)現(xiàn)了。他們經(jīng)歷過(guò)的戰(zhàn)爭(zhēng)和征服可能已經(jīng)被大多數(shù)人遺忘,但是他們最強(qiáng)大的發(fā)明——文字,在過(guò)去的幾干年里助力了人類思想和技術(shù)的發(fā)展。
而現(xiàn)在,人類開(kāi)始訓(xùn)練機(jī)器從過(guò)去中學(xué)習(xí)。(原文刊載于BBC網(wǎng)站,標(biāo)題為《The key to cracking long-deadlanguages?》)(責(zé)任編輯:白玉磊責(zé)任校對(duì):司明婧)