摘 要: 近年來平行語料庫(kù)相關(guān)研究受到國(guó)內(nèi)外學(xué)者們的重視。漢德平行語料庫(kù)相關(guān)研究相對(duì)處于起步階段,本文以自建《論語》漢德平行語料庫(kù)為例,敘述了漢德平行語料庫(kù)的建設(shè)步驟、語料對(duì)齊,并介紹需使用的軟件。
關(guān)鍵詞: 漢德平行語料庫(kù) 語料庫(kù)建設(shè) 《論語》 衛(wèi)禮賢
1.平行語料庫(kù)
“平行語料庫(kù)”是英語術(shù)語“parallel corpus”翻譯而成,但我國(guó)學(xué)者對(duì)該術(shù)語的翻譯存在差異。國(guó)內(nèi)使用較多的術(shù)語是“平行語料庫(kù)”,還有“對(duì)應(yīng)語料庫(kù)”、“平行對(duì)應(yīng)語料庫(kù)”、“對(duì)譯語料庫(kù)”、“并行語料庫(kù)”和“對(duì)照語料庫(kù)”等表述。本文采用“平行語料庫(kù)”這一使用較多的術(shù)語。
雙語平行語料庫(kù)自20世紀(jì)90年代開始研制,在計(jì)算機(jī)語言學(xué)中蓬勃發(fā)展,并滲透到其他方面。由于平行語料庫(kù)既含有源語篇章又含有其平行對(duì)應(yīng)的目的語篇章,因而可用于目的語篇章與源語篇章的對(duì)比分析。平行語料庫(kù)可為實(shí)證研究、對(duì)比語言學(xué)和翻譯研究提供研究基礎(chǔ),也可用于雙語詞庫(kù)的提取、雙語詞典的編纂、機(jī)器翻譯和語言工作領(lǐng)域。
在國(guó)外,荷蘭、挪威、英國(guó)、美國(guó)、加拿大等許多國(guó)家都建立了涉及不同語種的規(guī)模不同的平行語料庫(kù)。內(nèi)地及港澳臺(tái)的不少大學(xué)和語言研究中心分別建立了側(cè)重點(diǎn)不同的“英漢雙語語料庫(kù)”。北京外國(guó)語大學(xué)中國(guó)外語教學(xué)研究中心還推出了漢英、漢日兩個(gè)對(duì)應(yīng)庫(kù)的大型“雙語平行語料庫(kù)”。
國(guó)內(nèi)德語界基于漢德平行語料庫(kù)的建設(shè)和研究幾年前已經(jīng)啟動(dòng),標(biāo)志是錢敏汝2011年主持的“中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室與北京外國(guó)語大學(xué)聯(lián)合開展德漢雙語語料庫(kù)研究項(xiàng)目”。目前基于漢德平行語料庫(kù)在翻譯方面做出的研究是筆者的博士論文《基于語料庫(kù)對(duì)<論語>衛(wèi)禮賢德譯本的跨文化研究》,此外,葛囡囡的博士論文《語料庫(kù)支持下的專利文獻(xiàn)德漢翻譯探究——一項(xiàng)篇章語用學(xué)視角下的研究》也是借助德漢平行語料庫(kù)對(duì)專利文獻(xiàn)做出的研究。
在筆者的博士論文研究中,通過自建小型《論語》漢德平行語料庫(kù),借助ParaConc軟件,將平行語料庫(kù)的檢索和研究方法運(yùn)用到中國(guó)文化特色詞語的翻譯當(dāng)中,在漢德平行語料庫(kù)方面的研究做出了新的嘗試和開拓。
2.《論語》漢德平行語料庫(kù)的創(chuàng)建方法
平行語料庫(kù)的創(chuàng)建與普通語料庫(kù)的創(chuàng)建相比,既有相同之處又有特殊之處。平行語料庫(kù)的準(zhǔn)備過程與普通語料庫(kù)有共同之處,都需將紙質(zhì)語料掃描、轉(zhuǎn)化和校對(duì)或?qū)﹄娮诱Z料篩選整理。與普通語料庫(kù)不同的是,平行語料庫(kù)的創(chuàng)建還需要進(jìn)行雙語語料之間的對(duì)齊,即將源語篇章與目的語篇章建立起段落或者句子層面(甚至是詞語層面)的對(duì)應(yīng)?!罢Z料間的對(duì)齊在平行語料庫(kù)的建設(shè)使用中都是一個(gè)關(guān)鍵步驟”(McEnery/Xiao/Tono,2006:50)。
2.1建立單語語料庫(kù)
建立單語語料庫(kù)是建立平行語料庫(kù)之前的一個(gè)重要步驟,工作量較大,主要涉及篇章的收集、掃描、錄入和反復(fù)校對(duì)。筆者博士論文研究中自建《論語》漢德平行語料庫(kù)的單語純篇章語料庫(kù)包括《論語》中文20篇,衛(wèi)禮賢的德語文獻(xiàn)型翻譯20篇,衛(wèi)禮賢的德語工具型翻譯20篇。篇章獲取的來源主要有兩種:一是電子文稿;二是紙質(zhì)印刷體。
《論語》中文版本在網(wǎng)上搜集電子文稿,然后以楊伯峻《論語譯注》為基礎(chǔ),通過人工校對(duì)排除異同。采用楊伯峻的《論語譯注》為本語料庫(kù)中文版本有以下幾個(gè)考慮:首先,衛(wèi)禮賢翻譯《論語》的參考文獻(xiàn)中列出了《四書會(huì)解》《宋本十三經(jīng)注疏》《古經(jīng)解》《皇清經(jīng)解》《鄉(xiāng)黨句解》《困學(xué)紀(jì)聞》等書籍,但對(duì)使用的版本未明確說明,其使用的中文版本在當(dāng)今學(xué)界研究中尚未有明確發(fā)現(xiàn);其次,楊伯峻的《論語譯注》在國(guó)內(nèi)外產(chǎn)生過重大影響,“已成為世界上許多大學(xué)的文科教材或重要參考書”(楊逢彬,2008:30),而楊伯峻編寫這本書的出發(fā)點(diǎn)是“幫助一般讀者比較容易而正確地讀懂論語,并給有志深入研究的人提供若干線索”(楊伯峻,2010:34)。《論語》的版本章節(jié)分合本來在“歷代版本和各家注本相互間稍有出入”(同上),楊伯峻在斟酌取舍之后在各篇篇名之下,簡(jiǎn)略說明各重要注解本的異同。綜合考慮,筆者認(rèn)為,楊伯峻的《論語譯注》對(duì)于當(dāng)今普通讀者的閱讀和學(xué)習(xí),比朱熹的《四書集注》或者《宋本十三經(jīng)注疏》等更適宜。
德語的譯本采取了Anaconda出版社2007年版本的Konfuzius Gespr?覿che為目的語篇章,該版本以1914年的版本(為衛(wèi)禮賢翻譯出版《論語》的第二版)基礎(chǔ)重印。此版本中衛(wèi)禮賢對(duì)漢語源文篇章多同時(shí)采取兩種翻譯方法,即文獻(xiàn)型翻譯和工具型翻譯,兩種譯本采用不同的字體和字號(hào)加以區(qū)分。
德語單語語料庫(kù)的建設(shè)具體為:首先用掃描儀將紙質(zhì)版掃描為PDF格式保存在電腦中,借助OCR識(shí)別軟件將其轉(zhuǎn)變成可編輯的Word文檔,進(jìn)行人工校對(duì)和復(fù)查錯(cuò)誤,使之成為準(zhǔn)確率高的文檔之后,通過人工干預(yù)將其分為兩個(gè)文檔,一個(gè)是文獻(xiàn)型翻譯篇章,一個(gè)是工具型翻譯篇章。
在單語語料庫(kù)的建設(shè)過程中,筆者還參考了朱熹《四書集注》的章節(jié)劃分,也參考了Zweitausendeins出版社出版衛(wèi)禮賢的Die Lehre des Konfuzius一書中的《論語》部分,該書漢語采用的是上海古籍出版社2004年出版折金良年的《論語譯注》;此外,部分參考了外語教學(xué)與研究出版社出版的“大中華文庫(kù)——漢德對(duì)照”《論語》一書,該書漢語部分采用楊伯峻的《論語譯注》,德語部分是衛(wèi)禮賢譯本中的文獻(xiàn)型翻譯部分,工具型翻譯及注釋等并未在該書中出現(xiàn)。
完成中德文篇章的數(shù)字化以后將篇章存儲(chǔ)為純文本文檔,對(duì)于不同語言種類的篇章,格式上也有不同要求:中文文本使用的標(biāo)點(diǎn)符號(hào)為中文全角符號(hào),德文文本使用的標(biāo)點(diǎn)符號(hào)是德文符號(hào),其中德文文本在保存的時(shí)候需要用Unicode格式保存,否則德語特殊的字母,?覿、?觟、ü和?覻將無法正常顯示。
2.2建立雙語平行語料庫(kù)
在經(jīng)過數(shù)字化加工之后的單語純篇章語料庫(kù)基礎(chǔ)之上,需要使用軟件進(jìn)一步處理和手工對(duì)齊才能建成可以使用的平行語料庫(kù)。需特別注意的是,為了在ParaConc中搜索中文,需要在中文字符之間插入一個(gè)空格,否則將無法檢索(在檢索時(shí),如果是兩個(gè)或兩個(gè)以上中文字,之間需加入空格),可借助Word添加空格的功能在所有字符之間插入一個(gè)空格。鑒于漢德兩種語言之間的較大差異,尤其《論語》其先秦古漢語本身的語言特點(diǎn),兩種語言句子屬性的自動(dòng)標(biāo)注是不易實(shí)現(xiàn)的。目前還沒有程序可以做到高準(zhǔn)確率把中國(guó)古漢語的典籍篇章與其德語譯本自動(dòng)對(duì)齊。所以,要做到句子級(jí)別上的精準(zhǔn)度,大量手工操作是必不可少的。
德語目的語篇章和中文源語篇章在章節(jié)上的差別為:德語版的一個(gè)章節(jié)對(duì)應(yīng)漢語版的兩章節(jié)或多章節(jié)共有13處,對(duì)待這類情況,筆者按照漢語的章節(jié)將德語譯本的這一部分分成對(duì)應(yīng)的兩部分或多個(gè)部分,同時(shí)將這一部分德語版本中的德語小標(biāo)題復(fù)制粘貼到后面部分之前作為小標(biāo)題。其后章節(jié)編號(hào)仍承襲之前的編號(hào)不變。這種情況下,添加了16個(gè)復(fù)制的小標(biāo)題。
此外,還有3處為漢語版一章節(jié)對(duì)應(yīng)德語版的兩章節(jié),這種情況,筆者按照漢語的章節(jié)將德語譯本的兩章節(jié)合并為一章節(jié),同時(shí)將第二章節(jié)的德語標(biāo)題移至第一章節(jié)的德語標(biāo)題處與第一章節(jié)的標(biāo)題合并。其后章節(jié)編號(hào)仍承襲之前的編號(hào)不變。這種情況下,小標(biāo)題數(shù)量并沒有變化,只是為對(duì)齊而調(diào)整了3處位置。
由于漢德語言之間的差異及《論語》本身先秦古漢語的語言特點(diǎn),對(duì)其句子結(jié)構(gòu)屬性的劃分和界定尚且沒有可以借鑒的語言模型套用。鑒于筆者博士論文研究出發(fā)點(diǎn),在參考前人研究的基礎(chǔ)之上,結(jié)合自建語料庫(kù)本身的特點(diǎn),筆者將句號(hào)、分號(hào)、感嘆號(hào)、句末的轉(zhuǎn)折號(hào)及后接直接引語的冒號(hào)或逗號(hào)作為劃分漢語純文本最小句子單位的依據(jù),并在此基礎(chǔ)上對(duì)漢語純文本中界定的句子逐一進(jìn)行了手工處理。比照漢語純文本的句子分級(jí),可以對(duì)德語篇章進(jìn)行手工處理加工,導(dǎo)入Excel中將兩個(gè)文本完成初步的句級(jí)對(duì)齊,將兩個(gè)文本再次以純文本形式分別保存。完成這一步驟之后,再將手工處理完的漢語純文本和德語純文本導(dǎo)入ParaConc軟件,借助其對(duì)齊功能多次調(diào)試之后最終可以使兩個(gè)文本完成對(duì)齊,生成可以使用的平行語料庫(kù)。不過由于純文本中會(huì)存在手工處理時(shí)不易發(fā)現(xiàn)的特殊符號(hào)和格式錯(cuò)誤,因此在對(duì)齊過程中軟件會(huì)在不能識(shí)別處中斷,多次嘗試改進(jìn)格式錯(cuò)誤或者特殊符號(hào)后,最終可以完成漢語源語篇章和德語文獻(xiàn)型翻譯譯本兩個(gè)文本句級(jí)層面上的對(duì)齊。平行語料庫(kù)對(duì)齊后,在ParaConc軟件中顯示如下:
平行語料庫(kù)建設(shè)截圖1
上述是自建平行語料庫(kù)中的漢語源語篇章和衛(wèi)禮賢德語文獻(xiàn)型翻譯譯本的處理方式??紤]到筆者的博士論文研究中工具型翻譯譯本和源語篇章的關(guān)系,對(duì)待某些章節(jié),衛(wèi)禮賢只給出了文獻(xiàn)型翻譯譯本而對(duì)應(yīng)則沒有給出工具型翻譯譯本,或者,為了目的語讀者更好地接受理解目的語篇章,考慮德語受眾的語言和思維習(xí)慣,在一些章節(jié)里譯者會(huì)對(duì)句子順序等進(jìn)行調(diào)整。鑒于筆者的博士論文研究的出發(fā)點(diǎn)是重點(diǎn)研究特殊文化詞匯的翻譯,同時(shí)考慮到平行語料研究中的不同檢索方式,筆者在研究中對(duì)衛(wèi)禮賢德語工具型翻譯譯本和漢語源語篇章之間采取了段落間對(duì)齊的方式。由于許多漢語源語篇章中許多章節(jié)的段落實(shí)則為幾句話組成,因此采取段落對(duì)齊方式之后再進(jìn)行檢索,達(dá)到對(duì)漢語源語篇章和文獻(xiàn)型翻譯譯本句級(jí)對(duì)齊方式的一個(gè)補(bǔ)充。由于部分章節(jié)衛(wèi)禮賢只采取文獻(xiàn)型翻譯一種譯法而未提供工具型翻譯譯本,此情況下,筆者在其對(duì)應(yīng)處補(bǔ)充“無”一字,以便源語篇章段落和目的語篇章段落對(duì)齊。同時(shí),考慮到《論語》中絕大部分章節(jié)均為一個(gè)段落,所以對(duì)不是一個(gè)段落的章節(jié)也人工調(diào)整為一個(gè)段落,以便處理,簡(jiǎn)化工作。對(duì)齊后結(jié)果如下:
平行語料庫(kù)建設(shè)截圖2
2.3使用軟件
筆者對(duì)自建平行語料庫(kù)的檢索主要借助ParaConc軟件,該軟件由新西蘭奧克蘭大學(xué)應(yīng)用語言學(xué)教授Michael Barlow開發(fā)研制,借助該軟件可以對(duì)平行語料庫(kù)中源語篇章與目的語篇章進(jìn)行對(duì)應(yīng)檢索,從而使翻譯研究更加直觀、便捷。關(guān)于該軟件在筆者博士論文研究中的具體使用,筆者會(huì)在下一篇論文中與具體實(shí)例結(jié)合加以說明。
3.結(jié)語
本文詳細(xì)介紹了筆者博士論文研究創(chuàng)建《論語》漢德平行語料庫(kù)的方法和過程,并簡(jiǎn)要介紹了研究中使用的軟件,希望對(duì)德語界漢德平行語料庫(kù)的建設(shè)及研究提供自己的經(jīng)驗(yàn)和教訓(xùn)。
參考文獻(xiàn):
[1]黃立波.基于漢英/英漢平行語料庫(kù)的翻譯共性研究[M].上海:復(fù)旦大學(xué)出版社,2007.
[2]李小龍.基于語料庫(kù)對(duì)《論語》衛(wèi)禮賢德譯本的跨文化研究.北京外國(guó)語大學(xué)博士論文,2017.
[3]劉澤權(quán).《紅樓夢(mèng)》中英文語料庫(kù)的創(chuàng)建及應(yīng)用研究[M].北京:光明日?qǐng)?bào)出版社,2012.
[4]王克非等.雙語對(duì)應(yīng)語料庫(kù)研制與應(yīng)用[M].北京:外語教學(xué)與研究出版社,2004.
[5]楊伯峻.論語譯注[M].北京:中華書局,2010.
[6]楊逢彬.《論語(漢德對(duì)照)》前言。載:李雪濤(整理).論語(漢德對(duì)照)[M].北京:外語教學(xué)與研究出版社,2010.
[7]朱熹.四書集注[M].北京:中華書局,1957.
[8]Hunston, Susan. Corpara in Applied Linguistics[M]. Cambridge, 2002.
[9]Konfuzius/van Ess, Hans. Die Lehren des Konfuzius: Die vier konfunianischen Bücher[M]. Frankfurt am Main, 2008.
[10]McEnery, Tony/ Xiao, Richard/ Tono, Yukio. Corpus-based Language Studies: An Advanced Resource Book[M]. London/New York, 2006.
[11]Wilhelm, Richard: Konfuzius Gespr?覿che[M]. K?觟ln, Anaconda, 2007.