程彥博
當(dāng)互聯(lián)網(wǎng)延伸到每個(gè)人的生活中并把世界各地的人們聯(lián)結(jié)在一起,當(dāng)中國(guó)“一帶一路”宏偉的戰(zhàn)略構(gòu)想逐漸展開(kāi),不同語(yǔ)言之間高效、準(zhǔn)確的翻譯顯得越來(lái)越重要。然而,如何破解機(jī)器翻譯質(zhì)量低的難題?互聯(lián)網(wǎng)和大數(shù)據(jù)將提供創(chuàng)新性的思路。
4月19日,由百度牽頭并與中科院自動(dòng)化所、浙江大學(xué)、哈爾濱工業(yè)大學(xué)、中科院計(jì)算所、清華大學(xué)合作的科研項(xiàng)目“基于大數(shù)據(jù)的互聯(lián)網(wǎng)機(jī)器翻譯核心技術(shù)及產(chǎn)業(yè)化”獲得了中國(guó)電子學(xué)會(huì)科技進(jìn)步一等獎(jiǎng)。
當(dāng)互聯(lián)網(wǎng)延伸到每個(gè)人的生活中并把世界各地的人們聯(lián)結(jié)在一起,當(dāng)中國(guó)“一帶一路”的偉大戰(zhàn)略構(gòu)想逐漸展開(kāi),不同語(yǔ)言之間高效、準(zhǔn)確的翻譯顯得越來(lái)越重要,而互聯(lián)網(wǎng)機(jī)器翻譯也得到了人們?cè)絹?lái)越多的重視和關(guān)注。
未完成的“通天塔”
大家都耳熟能詳“通天塔”的故事:人類本來(lái)說(shuō)同一種語(yǔ)言,他們齊心協(xié)力修建“通天塔”,希望能通往上帝居住的天堂。上帝為了阻止這一切,就“變亂”了人類的語(yǔ)言,讓各個(gè)部族的人們由于語(yǔ)言不通而無(wú)法順暢地交流,“通天塔”的建造也半途而廢。
顯然,操持不同語(yǔ)言的人們之間如何相互溝通,是從古至今擺在人類面前的難題。隨著時(shí)代的發(fā)展,世界各地的人們?cè)谖幕⒔?jīng)濟(jì)、政治、生活等方方面面交流日益頻繁,語(yǔ)言問(wèn)題的解決也日趨緊迫。機(jī)器翻譯生逢其時(shí),其實(shí)時(shí)快捷、支持多語(yǔ)種的翻譯模式正是解決上述問(wèn)題的最優(yōu)方案。
然而,機(jī)器翻譯也有劣勢(shì),那就是它還不夠智能,做不到像譯員一樣理解語(yǔ)義,從而導(dǎo)致翻譯的準(zhǔn)確性和流暢性離人們的預(yù)期還有一段距離。
讓所有的語(yǔ)言可以自由轉(zhuǎn)換,實(shí)現(xiàn)溝通無(wú)障礙是人類幾千年來(lái)的夢(mèng)想。雖然距離實(shí)現(xiàn)這個(gè)夢(mèng)想還有很長(zhǎng)的路要走,但是希望的曙光正在照亮那座半途而廢的“通天塔”——這就是互聯(lián)網(wǎng)機(jī)器翻譯。
“采用機(jī)器翻譯技術(shù)自動(dòng)實(shí)現(xiàn)語(yǔ)言之間翻譯是人工智能的終極目標(biāo)之一,而互聯(lián)網(wǎng)大數(shù)據(jù)和自然語(yǔ)言分析技術(shù)正在給機(jī)器翻譯注入新的活力。”百度技術(shù)副總裁王海峰博士表示,互聯(lián)網(wǎng)海量數(shù)據(jù)和日益創(chuàng)新的自然語(yǔ)言分析技術(shù)正在推動(dòng)機(jī)器翻譯技術(shù)取得前所未有的突破。
創(chuàng)新帶來(lái)核心競(jìng)爭(zhēng)力
王海峰博士介紹,近幾年來(lái),百度取得了語(yǔ)料處理技術(shù)、模型處理技術(shù)和翻譯方法等機(jī)器翻譯核心技術(shù)的突破。這些成果使百度能夠?qū)崟r(shí)快捷處理每天上億次的翻譯請(qǐng)求,響應(yīng)互聯(lián)網(wǎng)用戶多方面的翻譯需求,也帶動(dòng)了很多相關(guān)產(chǎn)品和產(chǎn)業(yè)的發(fā)展。
“百度機(jī)器翻譯團(tuán)隊(duì)依托互聯(lián)網(wǎng)數(shù)據(jù)優(yōu)勢(shì)和自然語(yǔ)言處理技術(shù)優(yōu)勢(shì),研發(fā)出海量、高質(zhì)翻譯知識(shí)獲取技術(shù),突破了傳統(tǒng)方法在知識(shí)獲取方面規(guī)模小、成本高的瓶頸。更為重要的是,百度提出了創(chuàng)新的基于互聯(lián)網(wǎng)大數(shù)據(jù)的多策略翻譯模型,突破了單一方法的限制,可以實(shí)時(shí)響應(yīng)復(fù)雜多樣的包含網(wǎng)絡(luò)新詞、科技文獻(xiàn)、電子商務(wù)、古文、粵語(yǔ)等多領(lǐng)域、多文體的翻譯需求?!蓖鹾7宀┦勘硎尽?/p>
此外,為了進(jìn)一步提高翻譯質(zhì)量,“基于大數(shù)據(jù)的互聯(lián)網(wǎng)機(jī)器翻譯核心技術(shù)及產(chǎn)業(yè)化”項(xiàng)目在翻譯消歧、譯文調(diào)序、小語(yǔ)種翻譯等機(jī)器翻譯領(lǐng)域經(jīng)典難題上提出創(chuàng)新的解決方案。該項(xiàng)目申請(qǐng)專利40項(xiàng),已獲授權(quán)17項(xiàng);制定國(guó)際標(biāo)準(zhǔn)1項(xiàng);取得軟件著作權(quán)34項(xiàng);出版專著3部;發(fā)表領(lǐng)域頂級(jí)論文90余篇。項(xiàng)目成果被專家鑒定為“在多策略融合翻譯等技術(shù)方面取得突破,在翻譯質(zhì)量、翻譯語(yǔ)種方向、響應(yīng)時(shí)間三個(gè)指標(biāo)上達(dá)到國(guó)際領(lǐng)先水平,并取得了顯著的經(jīng)濟(jì)效益和巨大的社會(huì)效益”。
機(jī)器翻譯產(chǎn)業(yè)化
清華大學(xué)計(jì)算機(jī)系黨委書記、博士生導(dǎo)師孫茂松教授從當(dāng)前備受矚目的“一帶一路”談起,這個(gè)具有全球視野的國(guó)家級(jí)戰(zhàn)略預(yù)計(jì)會(huì)涉及俄羅斯、印度等超過(guò)60個(gè)國(guó)家,涉及人口三四十億,想要打造政治互信、經(jīng)濟(jì)融合、文化包容的利益共同體,不同的語(yǔ)言將造成很大障礙,而機(jī)器翻譯的作用舉足輕重。孫茂松認(rèn)為,從國(guó)家戰(zhàn)略角度看,機(jī)器翻譯是國(guó)家的重要戰(zhàn)略資源;從老百姓角度看,包括做生意、旅游等各個(gè)方面,機(jī)器翻譯都是不可缺少的工具。它的社會(huì)效益、經(jīng)濟(jì)效益是不可低估的。
一種技術(shù)要真正服務(wù)社會(huì),就應(yīng)該走出科研機(jī)構(gòu),實(shí)現(xiàn)產(chǎn)業(yè)化。百度一方面與國(guó)內(nèi)頂尖科研機(jī)構(gòu)合作,研發(fā)擁有自主知識(shí)產(chǎn)權(quán)的互聯(lián)網(wǎng)核心技術(shù),另一方面也積極推動(dòng)機(jī)器翻譯的產(chǎn)業(yè)化,致力于讓互聯(lián)網(wǎng)機(jī)器翻譯技術(shù)產(chǎn)生更大的價(jià)值。在百度和有關(guān)部門的共同努力下,“基于大數(shù)據(jù)的互聯(lián)網(wǎng)機(jī)器翻譯核心技術(shù)及產(chǎn)業(yè)化”項(xiàng)目的成果已應(yīng)用于國(guó)家多個(gè)重要部門和百度翻譯等產(chǎn)品中,覆蓋全球超過(guò)5億用戶。通過(guò)免費(fèi)開(kāi)放的API,該項(xiàng)技術(shù)成果支持了包括華為、敦煌網(wǎng)等企業(yè)在內(nèi)的超過(guò)7000個(gè)第三方應(yīng)用,有力地提升了中國(guó)企業(yè)對(duì)外溝通和開(kāi)放創(chuàng)新能力,帶動(dòng)了相關(guān)產(chǎn)業(yè)的繁榮與發(fā)展。
王海峰博士表示,機(jī)器翻譯是百度連接人與服務(wù)戰(zhàn)略的重要組成部分。隨著人們國(guó)際交流需求的釋放,企業(yè)努力向國(guó)際化轉(zhuǎn)型,百度創(chuàng)新的機(jī)器翻譯技術(shù)將有更大的用武之地,在推進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)方面有著巨大的想象空間。
業(yè)內(nèi)人士表示,幾十年來(lái),作為自然語(yǔ)言處理領(lǐng)域最重要的研究方向之一,自主研發(fā)的機(jī)器翻譯技術(shù)不僅在學(xué)術(shù)領(lǐng)域具有重要意義,更成為全球互聯(lián)背景下的跨文化交流和貿(mào)易的推手、戰(zhàn)略性信息安全資源,甚至產(chǎn)業(yè)化助推器。在全球化發(fā)展潮流中,機(jī)器翻譯技術(shù)正在改變?nèi)藗兊墓ぷ骱蜕罘绞??;蛟S三五年之后,機(jī)器翻譯將更加深入地融入人們的日常生活,機(jī)器翻譯的產(chǎn)業(yè)化也將引起新一輪的產(chǎn)業(yè)浪潮。
中國(guó)計(jì)算機(jī)報(bào)2015年15期