• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自然語言處理中機(jī)器翻譯發(fā)展態(tài)勢的哲學(xué)思考

      2023-12-26 05:47:09王汝發(fā)
      綏化學(xué)院學(xué)報(bào) 2023年11期
      關(guān)鍵詞:經(jīng)驗(yàn)主義實(shí)例語料庫

      王 鼎 王汝發(fā)

      (1.西北民族大學(xué);2.甘肅政法大學(xué)教學(xué)質(zhì)量管理運(yùn)行監(jiān)控中心 甘肅蘭州 730000)

      20世紀(jì)50年代以來,研究者根據(jù)計(jì)算機(jī)運(yùn)算速度加快,內(nèi)存容量增加等性能的提高及其處理能力,研制成功了基于規(guī)則的機(jī)器翻譯,這種翻譯方法“機(jī)器可以根據(jù)源語語言分析規(guī)則理解源語語言,并依據(jù)源語語言和目的語之間的轉(zhuǎn)換和目的語語言生成規(guī)則,將源語語言自動(dòng)轉(zhuǎn)換成目的語言?!盵1]基于規(guī)則的機(jī)器翻譯其核心主要在語言“規(guī)則”上,這里的“規(guī)則”有幾方面的涵義,一方面必須具備大量的知識(shí)積累,知識(shí)由手工按一定的規(guī)則譯成代碼,這本身就是一件困難的事情;另一方面,大量知識(shí)的積累也是一種不易的事情,因?yàn)橹R(shí)獲取和知識(shí)的調(diào)整對機(jī)器翻譯系統(tǒng)的開發(fā)有阻礙作用。

      一、由基于規(guī)則的機(jī)器翻譯到基于實(shí)例的機(jī)器翻譯

      我們知道,技術(shù)存在于人類目的性活動(dòng)的各個(gè)領(lǐng)域,張成智等[2]認(rèn)為:“翻譯學(xué)的技術(shù)轉(zhuǎn)向是指隨著信息技術(shù)、計(jì)算語言學(xué)、術(shù)語學(xué)等學(xué)科發(fā)展,翻譯學(xué)實(shí)踐發(fā)生了從純?nèi)斯しg到人工翻譯與信息技術(shù)相結(jié)合的變化,從而引發(fā)翻譯理論研究的變革?!边@實(shí)際上正是我們所說的翻譯技術(shù)創(chuàng)新,通過技術(shù)創(chuàng)新解決原有技術(shù)系統(tǒng)功能有限的矛盾。從認(rèn)識(shí)論的角度看,基于規(guī)則的機(jī)器翻譯其規(guī)則包括源語言的分析規(guī)則和源語言的內(nèi)部表示到目標(biāo)語言內(nèi)部表示轉(zhuǎn)換規(guī)則等,這些規(guī)則是高度抽象的,它受制于人工編寫規(guī)則的質(zhì)量和數(shù)量,與人的主觀因素相關(guān),編寫工作費(fèi)時(shí)費(fèi)力,且在知識(shí)的獲取和調(diào)整上不利于機(jī)器翻譯系統(tǒng)的快速發(fā)展。歸納總結(jié)出這些規(guī)則同樣是一件不僅比較困難而且成本很高的事情。為了解決這一難題,20世紀(jì)80年代,日本學(xué)者Nagao根據(jù)平行語料庫中的信息和計(jì)算機(jī)計(jì)算能力的提升,又提出了一種新的方法,他在其論文《采用類比原則進(jìn)行日-英機(jī)器翻譯的一個(gè)框架》中指出:“人類在翻譯一個(gè)簡單句子的時(shí)候,并不會(huì)作深層次的語法分析,而是實(shí)現(xiàn)將源句適當(dāng)分為若干短語片段,然后再把這些短語翻譯成目標(biāo)語言,最后把翻譯好的短語片段(fragmental phrases)恰當(dāng)?shù)慕M合成為一個(gè)句子。而對每一個(gè)短語片段則是相應(yīng)的例子作為參考,通過類比原則進(jìn)行翻譯的?!盵3](P10)這里的“實(shí)例”指的是在平行語料庫中許多的信息可以直接被用作機(jī)器自動(dòng)翻譯的例子,以取代基于規(guī)則的機(jī)器翻譯方法。學(xué)術(shù)界通常把這種翻譯方法稱為基于實(shí)例的機(jī)器翻譯(Example-Based Machine Translation),顯然,這與基于規(guī)則的機(jī)器翻譯相比,又是更高一階的技術(shù)轉(zhuǎn)向。它克服了基于規(guī)則的機(jī)器翻譯由“規(guī)則”引起的不足和局限性,在學(xué)術(shù)界也有人把這種機(jī)器翻譯稱為基于類比的機(jī)器翻譯(Analogy-Based Machine Translation)。類比指的是根據(jù)兩類不同對象之間在某些方面的相似或相同,推出它們在其他方面也可能有相似或相同的一種推理方法。其結(jié)果是猜測的,它是具有創(chuàng)造性的一種方法,是獲得新思路、新方法的一種觀點(diǎn)和一種手段?;趯?shí)例的機(jī)器翻譯技術(shù)自提出后,多位學(xué)者進(jìn)行了深入研究,取得了許多重要的成果,例如中科院專家團(tuán)隊(duì)聯(lián)合開發(fā)研究的“基于詞對齊的EBMT 系統(tǒng)?!盵4]這一系統(tǒng)的工作一般主要分三個(gè)步驟進(jìn)行:首先,根據(jù)相似度計(jì)算實(shí)例選擇;其次,根據(jù)確定下來的實(shí)例,輸入句子與翻譯實(shí)例進(jìn)行匹配;再次,利用詞典對句子中未匹配上的詞語進(jìn)行翻譯。不過這種技術(shù)仍有一定的不足和局限性,首先要求必須有對齊的平行語料庫,否則無法進(jìn)行機(jī)器翻譯,而對于對齊的雙語平行語料庫的構(gòu)建又是一個(gè)工程量浩大的工程,有時(shí)不一定能做到。同時(shí),因語料庫是先前建設(shè)好的,在語料庫的某一段時(shí)間內(nèi)是可行的。而語言作為一種社會(huì)現(xiàn)象,它與社會(huì)的發(fā)展十分緊密,隨著社會(huì)的變革和新的社會(huì)現(xiàn)象的產(chǎn)生,可能涌現(xiàn)出新的詞語,這對于機(jī)器翻譯來說是難以完全實(shí)現(xiàn)的。

      二、由基于實(shí)例的機(jī)器翻譯到基于統(tǒng)計(jì)的機(jī)器翻譯

      基于實(shí)例的機(jī)器翻譯研究在20 世紀(jì)80、90 年代出現(xiàn)了很多的方案,這些方案主要以平行語料庫為基礎(chǔ),通過類比的方法獲取翻譯結(jié)果,大多數(shù)研究主要借助于雙語詞典。很顯然,翻譯效果的優(yōu)劣在一定程度上取決于平行語料庫的質(zhì)量和覆蓋面,如果沒有可用的高質(zhì)量覆蓋面廣泛的雙語平行語料庫,則這種翻譯方法的匹配率極低,僅限于特定專業(yè)領(lǐng)域應(yīng)用。一旦處理的語言種類繁多,五花八門,利用基于實(shí)例的機(jī)器翻譯方法要解決自然語言里無窮無盡的翻譯任務(wù)著實(shí)是一件不易的事情。當(dāng)人們發(fā)現(xiàn)基于實(shí)例的機(jī)器翻譯方法的不足和缺點(diǎn)后,不得不尋求更高一級的翻譯技術(shù),也就是我們所言的翻譯技術(shù)更高一級的轉(zhuǎn)向。開始主張以數(shù)據(jù)為中心而不是以人為中心,這也就是人們通常所說的經(jīng)驗(yàn)主義方式,經(jīng)驗(yàn)主義方式主張利用數(shù)學(xué)的理論與方法,通過建立數(shù)學(xué)模型,借助計(jì)算機(jī)技術(shù)這一高科技手段來解決復(fù)雜的語言轉(zhuǎn)換問題。這是機(jī)器翻譯領(lǐng)域發(fā)生的又一次重大變革,稱之為基于統(tǒng)計(jì)的機(jī)器翻譯。這種方法就是我們所說的基于統(tǒng)計(jì)的機(jī)器翻譯方法。

      如前文所言,基于規(guī)則的機(jī)器翻譯是理性主義占主導(dǎo)的,而基于統(tǒng)計(jì)的機(jī)器翻譯則是經(jīng)驗(yàn)主義占主導(dǎo)的[5](P3)。隨著信息技術(shù)特別是Internet 技術(shù)的廣泛應(yīng)用,這種模型的方法成了解決兩種語言之間翻譯“屏障”的重要工具。建立這種模型是一種積極的思維活動(dòng),一般包含兩部分,即模型的理論基礎(chǔ)和模型的假設(shè)。2007年中科院院士高慶獅在為宋成慶先生《統(tǒng)計(jì)自然語言處理》的序言中曾言:“由于統(tǒng)計(jì)法能使自然語言處理的正確率從比較低的水平有較快增長,引起人們廣泛注意,所以近十年來有比較快的發(fā)展?!盵5](P3)可以說,基于統(tǒng)計(jì)的機(jī)器翻譯的理論基礎(chǔ)正是哲學(xué)中的經(jīng)驗(yàn)主義。

      讓我們來看基于規(guī)則的機(jī)器翻譯技術(shù)與基于統(tǒng)計(jì)的機(jī)器翻譯技術(shù)的差異。首先來看兩種技術(shù)的哲學(xué)基礎(chǔ):前者其哲學(xué)基礎(chǔ)是理性主義的,后者是經(jīng)驗(yàn)主義的,這種理性主義方法主張由人類專家觀察不同自然語言之間的轉(zhuǎn)換規(guī)律,通過編撰規(guī)則的方式,以語言規(guī)則的形式表示翻譯知識(shí)。經(jīng)驗(yàn)主義的一個(gè)顯著特征是主張以數(shù)據(jù)為中心并非人,以數(shù)學(xué)模型描述自然語言的轉(zhuǎn)換過程。雖然在觀念層面上,兩種技術(shù)在意識(shí)形態(tài)上具有較大差異,但是,兩者各有所長,在追求技術(shù)效用和目的上又是一致的。

      在2014 年以后,基于神經(jīng)網(wǎng)絡(luò)技術(shù)的翻譯取得了重大進(jìn)展,比基于統(tǒng)計(jì)的機(jī)器翻譯在翻譯質(zhì)量上有進(jìn)一步的提升。由于目前主流的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯實(shí)際上還是以經(jīng)驗(yàn)主義方法為主導(dǎo)的,故限于篇幅本文在此不再多贅。

      三、從機(jī)器翻譯技術(shù)再看科學(xué)與技術(shù)的幾個(gè)問題

      多年來,學(xué)術(shù)界特別是科學(xué)技術(shù)哲學(xué)界的學(xué)人們進(jìn)行了深入的研究和探討,有技術(shù)哲學(xué)專家們提出了一些非常值得研究的問題,如“機(jī)器是不是技術(shù)?如果是,該怎樣區(qū)分作為生產(chǎn)成品、生產(chǎn)手段的機(jī)器同作為技術(shù)要素的機(jī)器?”“科學(xué)與技術(shù)之間究竟有怎樣的對稱性、非對稱性和互補(bǔ)性?……能否把技術(shù)看作是科學(xué)的應(yīng)用,或接受應(yīng)用科學(xué)'(applied science)?”筆者想以機(jī)器翻譯技術(shù)為例,談?wù)勎覀儗@兩個(gè)問題之見。首先,我們把機(jī)器翻譯分解成“機(jī)器”和“翻譯”兩部分來看,這里的“機(jī)器”就是指計(jì)算機(jī),計(jì)算機(jī)是現(xiàn)代化智能電子設(shè)備,是集成網(wǎng)絡(luò)、計(jì)算、媒體等技術(shù)為一體的電子設(shè)備。[6]因此,這里的機(jī)器是硬件,并且是大規(guī)模的機(jī)器硬件。從這一點(diǎn)上說,似乎機(jī)器不是技術(shù),但創(chuàng)造這個(gè)機(jī)器卻需要現(xiàn)代化的集成網(wǎng)絡(luò)、計(jì)算、電工等技術(shù)才可以完成,并且既有生產(chǎn)手段的機(jī)器成分也有技術(shù)要素的機(jī)器成分,由此又可以認(rèn)為這里的機(jī)器又是技術(shù),結(jié)合二者我們是否可以說,機(jī)器翻譯中的機(jī)器是技術(shù)與硬件融合而成的一個(gè)電子設(shè)備。如果視語言翻譯中得到的譯文為產(chǎn)品,則機(jī)器翻譯中的計(jì)算機(jī)又是生產(chǎn)產(chǎn)品的機(jī)器。其次,翻譯部分則是由語言學(xué)、計(jì)算機(jī)科學(xué)技術(shù)、數(shù)學(xué)、認(rèn)知科學(xué)等為基礎(chǔ)(支撐)的技術(shù),它是以這些科學(xué)為基礎(chǔ),經(jīng)實(shí)驗(yàn)成功后得到的應(yīng)用技術(shù)(有人也稱“應(yīng)用科學(xué)”“實(shí)驗(yàn)科學(xué)”“技術(shù)科學(xué)”,實(shí)際上這是從學(xué)科角度而言的)。在機(jī)器翻譯技術(shù)領(lǐng)域近年來國內(nèi)外獲得了不少發(fā)明專利,從機(jī)器翻譯技術(shù)看,呈現(xiàn)出一體化發(fā)展態(tài)勢。當(dāng)然,由于我們水平所限,加之“技術(shù)”概念本身定義的特殊性,這里不可能全面探討專家學(xué)者們提出的這些問題,僅以“機(jī)器翻譯技術(shù)”為例,從一個(gè)側(cè)面對這些問題進(jìn)行一些思考,希望成為一塊引玉之磚,引起更多人關(guān)注機(jī)器翻譯的研究。

      由機(jī)器翻譯技術(shù)的創(chuàng)立之路及其轉(zhuǎn)向的討論可以看出,理所當(dāng)然機(jī)器翻譯技術(shù)是一種技術(shù),并且是一種新興技術(shù),為什么這么說呢?這是因?yàn)樗闲屡d技術(shù)的定義:“新興技術(shù)指建立在科學(xué)基礎(chǔ)上的創(chuàng)新,它們有可能創(chuàng)造一個(gè)新行業(yè)或改變某個(gè)已經(jīng)存在的行業(yè),具有高度不確定性?!盵7]反過來看,它又是科學(xué),更準(zhǔn)確地說是實(shí)驗(yàn)科學(xué)或應(yīng)用科學(xué)。在此方面高慶獅院士有著自己獨(dú)到的見解:“自然語言理解和處理不僅是一門社會(huì)需求巨大的應(yīng)用技術(shù),而且也是一門具有非常重要科學(xué)意義的自然科學(xué)?!盵5](P3)這是因?yàn)閺臋C(jī)器翻譯的理論基礎(chǔ)及其發(fā)展歷程分析具備實(shí)驗(yàn)科學(xué)的定義。因此,我們認(rèn)為機(jī)器翻譯技術(shù)兼有技術(shù)與科學(xué)雙重性,或者說兼有技術(shù)與科學(xué)兩種品質(zhì),應(yīng)屬于技術(shù)科學(xué)的范疇。筆者認(rèn)為,雖然機(jī)器翻譯冠名為“技術(shù)”,但實(shí)際上它主要是以多種學(xué)科于一體的復(fù)合型交叉學(xué)科,其理論根據(jù)主要是建立在多種學(xué)科的理論基礎(chǔ)之上的,這些學(xué)科的理論基礎(chǔ)缺一不可,它是一項(xiàng)將這些學(xué)科的理論基礎(chǔ)與技術(shù)融為一體的一個(gè)綜合體,它們之間具有相互包含的融合關(guān)系。換言之,機(jī)器翻譯技術(shù)是以理論科學(xué)為基礎(chǔ)的技術(shù),對其而言在科學(xué)與技術(shù)之間的劃界不能簡單歸之于“是”與“非”的二值邏輯,也無法簡單把技術(shù)的重要組成部分:人類知識(shí)的三大部類——自然科學(xué)、社會(huì)科學(xué)和人文學(xué)科[8]進(jìn)行隔離開,這種多重性的多個(gè)部分是緊密聯(lián)系無法分開的一個(gè)整體。也就是說,機(jī)器翻譯技術(shù)它又是一項(xiàng)技術(shù)科學(xué),是一個(gè)由以上多重因素復(fù)合而成的復(fù)雜系統(tǒng),在這里基礎(chǔ)科學(xué)是機(jī)器翻譯技術(shù)的基礎(chǔ),如果把這項(xiàng)技術(shù)看作大樓,則基礎(chǔ)科學(xué)就是構(gòu)建這座大樓的建筑材料,它是技術(shù)的基礎(chǔ)和源泉。機(jī)器翻譯技術(shù)是由科學(xué)理論推導(dǎo)出來的技術(shù),沒有基礎(chǔ)科學(xué)做基礎(chǔ),不可能產(chǎn)生出機(jī)器翻譯技術(shù)。

      結(jié)語

      筆者從多個(gè)方面考察了自然語言處理中機(jī)器翻譯技術(shù)在升級發(fā)展過程中的轉(zhuǎn)向態(tài)勢,它經(jīng)歷了一個(gè)從無到有,由簡單到復(fù)雜、從低級到高級再到更高級的不尋常的轉(zhuǎn)向發(fā)展歷程。與很多技術(shù)轉(zhuǎn)向不同的是,機(jī)器翻譯技術(shù)的轉(zhuǎn)向是信息技術(shù)發(fā)展和市場需求共同作用的結(jié)果,這一結(jié)果正是為人類將語言學(xué)的研究從單純的語言學(xué)范疇拓展到計(jì)算機(jī)技術(shù)、數(shù)學(xué)、認(rèn)知科學(xué)等多種看似毫無相關(guān)的多重領(lǐng)域的過程,通過分析使我們對機(jī)器翻譯技術(shù)在自然語言處理中的本質(zhì)有了更深刻的認(rèn)識(shí)和理解;同時(shí),也使我們認(rèn)識(shí)到了機(jī)器翻譯技術(shù)的轉(zhuǎn)向升級的規(guī)律和特點(diǎn)。實(shí)際上,每次翻譯技術(shù)的轉(zhuǎn)向升級也是由機(jī)器翻譯外的科學(xué)技術(shù)的進(jìn)步推動(dòng)而形成的,其過程由理性主義逐步過渡到經(jīng)驗(yàn)主義。當(dāng)然,對于機(jī)器翻譯技術(shù)還面臨著許多一時(shí)難以解決的困境和問題,諸如自然語言中普遍存在的詞義問題,更細(xì)一點(diǎn)而言,如一詞多義、一義多詞、同形異義、詞義模糊、詞義歧義等問題;同樣小說、散文、詩歌等表現(xiàn)性文本的翻譯,還有思維、情感、語氣等都是在今后的機(jī)器翻譯中需要解決的問題。同時(shí),翻譯技術(shù)還需要受翻譯規(guī)律和語言規(guī)律等客觀因素的制約,必須處理好“語言與技術(shù)”“翻譯與技術(shù)”“語言與文化”等之間的關(guān)系。這是因?yàn)槭澜缟喜徽撃膫€(gè)國家或民族的語言,都蘊(yùn)含著極其豐富的文化內(nèi)涵,彰顯著不同國家或不同民族的文化精髓?!案鲊绾蜗幕糸u和文化發(fā)展過程中的歷史差異,以及文化呈現(xiàn)狀態(tài)上的形式差異和文化系統(tǒng)之間的不同層次差異,這是一帶一路'建設(shè)中最迫切的核心問題。”[9]機(jī)器翻譯是一種跨語言跨文化的交際活動(dòng),面對的是跨越語言與文化的雙重“屏障”。必須防止工具之上、工具無所不能的片面認(rèn)識(shí)。在未來的自然語言處理領(lǐng)域,機(jī)器翻譯只能部分代替人工翻譯,將是人工翻譯與機(jī)器翻譯共存、人機(jī)協(xié)同、相輔相成的時(shí)代。我們應(yīng)該看到,機(jī)器翻譯技術(shù)同一般技術(shù)具有共同的地方,也具有兩面性,不能只看到這一技術(shù)的優(yōu)勢,這是孤立的、靜止的樂觀主義觀點(diǎn);反過來也要警惕只看到這一技術(shù)的劣勢和不足,這是片面的悲觀主義觀點(diǎn)。應(yīng)該全面、客觀、公正的評價(jià)機(jī)器翻譯這一科學(xué)技術(shù),辯證地看待這一技術(shù)的轉(zhuǎn)向與發(fā)展態(tài)勢。

      猜你喜歡
      經(jīng)驗(yàn)主義實(shí)例語料庫
      《語料庫翻譯文體學(xué)》評介
      批判的語境經(jīng)驗(yàn)主義:數(shù)據(jù)與語境
      ——第十七屆《哲學(xué)分析》論壇專題研討之二
      思 辨
      中國詩歌(2019年6期)2019-11-15 00:26:47
      走出經(jīng)驗(yàn)主義、拿來主義迷津——蘇寧峰《表現(xiàn)論視野下中學(xué)語文的批判性解讀》序
      走出經(jīng)驗(yàn)主義、拿來主義迷津——蘇寧峰《表現(xiàn)論視野下中學(xué)語文的批判性解讀》序
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      完形填空Ⅱ
      完形填空Ⅰ
      語料庫語言學(xué)未來發(fā)展趨勢
      沁水县| 南溪县| 包头市| 铜山县| 长葛市| 方正县| 巨鹿县| 齐河县| 陵水| 当阳市| 安新县| 南漳县| 无极县| 慈利县| 江山市| 准格尔旗| 九寨沟县| 大埔县| 岱山县| 额济纳旗| 德保县| 十堰市| 衡阳市| 德安县| 阳泉市| 黎城县| 宣化县| 麻城市| 平乐县| 德清县| 新民市| 龙里县| 龙游县| 汕尾市| 太仆寺旗| 连平县| 林州市| 靖边县| 哈尔滨市| 崇州市| 尼木县|