何禮
摘 要:翻譯研究語料庫可分為平行語料庫,可比較語料庫,翻譯語料庫和口譯語料庫。 這些語料庫的編譯涉及文本選擇,注釋和對齊等方面,而文本內(nèi)容的選擇尤為關(guān)鍵。
關(guān)鍵詞:翻譯語料庫;文本內(nèi)容;選擇原則
一、翻譯語料庫選擇方法分析
在翻譯研究語料庫的研究中,三種文本選擇方法總結(jié)如下:
(一)基于學(xué)術(shù)成就或影響力的方法
如上所述,翻譯研究語料庫旨在用于調(diào)查翻譯特征,翻譯規(guī)范和語言轉(zhuǎn)換規(guī)則。因此,該語料庫中的文本應(yīng)該具有高質(zhì)量,影響力廣等特點(diǎn)。如果文本質(zhì)量不理想或翻譯內(nèi)容不合標(biāo)準(zhǔn),則無法實(shí)現(xiàn)預(yù)期目標(biāo)。更糟糕的是,這樣的語料庫可能會提供誤導(dǎo)性信息,從而影響翻譯規(guī)范的研究。所以,翻譯研究語料庫中的文本應(yīng)當(dāng)是由著名翻譯家或由著名出版社出版的譯文構(gòu)成。如果有兩個(gè)或兩個(gè)以上相同作品的翻譯文本,建議選擇更加著名翻譯者或出版商的作品,因?yàn)樗麄兿碛懈蟮淖x者群和更廣泛的影響力。對于口譯語料庫而言,由于高級會議的語言質(zhì)量通常優(yōu)于低級別會議的語言質(zhì)量,因此前者的文本對于口譯語料庫的編制具有更大的價(jià)值。例如,胡開寶編寫的漢英會議口譯語料庫所收集的素材都來自于中國國務(wù)院及其各部委舉行的新聞發(fā)布會上的口譯文本。這種語料庫中解釋文本的質(zhì)量更加可靠。
(二)基于文本可用性的方法
基于文本可用性的方法涉及(1)源文本及其翻譯是否可用以及(2)翻譯的作品是否是真實(shí)的。如果源作品的翻譯作品不可用,則不應(yīng)將其包含在語料庫中。同樣,如果不能找到翻譯原文,也不能被包含在翻譯研究的語料庫中。 此外,專門為翻譯研究而制作的翻譯譯文不能是虛構(gòu)或者理想的文本,而是現(xiàn)實(shí)生活中的真實(shí)文本。
(三)基于時(shí)間的方法
基于時(shí)間的方法強(qiáng)調(diào),翻譯研究語料庫應(yīng)該僅包含研究目標(biāo)所規(guī)定的特定時(shí)間段內(nèi)發(fā)表的翻譯作品,而不包括在此期間之外發(fā)表的翻譯作品。胡顯耀為當(dāng)代中國翻譯小說研究編寫的“當(dāng)代中國翻譯小說語料庫”,包括了1980至2000年間出版的中文小說多種語言譯本。上海交通大學(xué)的歷時(shí)英漢平行語料庫,包括了1911年至2011年出版的英漢翻譯作品。
二、文本選擇過程中的抽樣策略
語料庫中的文本應(yīng)根據(jù)語料庫的性質(zhì)選擇。專注與著名作家翻譯作品的專業(yè)語料庫,可以按照上面所提到的三個(gè)原則進(jìn)行篩選。 如果同時(shí)存在多個(gè)不同的版本,則應(yīng)優(yōu)先考慮知名度較高的版本。 對于一些具有更大范圍文本覆蓋的專業(yè)語料庫或通用語料庫,如果包括所有相關(guān)文本,這些語料庫的將過大,從而增加編譯和管理這些語料庫的復(fù)雜性。 在這種情況下,采用科學(xué)的抽樣策略尤為重要。
抽樣策略包括系統(tǒng)抽樣和分層抽樣。系統(tǒng)抽樣,稱為間隔抽樣。抽樣過程中,所有樣本按順序排列,以相等的間隔選擇。分層抽樣是把所涉及的對象分成不同的組(稱為層),然后從這些分層中以相同或不同的比例抽取樣本。前者稱為平衡抽樣,后者稱為塔式抽樣。編制翻譯英語語料庫(TEC)的策略是分層抽樣。語料庫中包含的文本首先分為小說,傳記,新聞報(bào)道和雜志文章。然后從這些類別中對每個(gè)群體進(jìn)行抽樣。
三、翻譯語料庫文本捕捉策略分析
文本捕捉是指將書面文本和口頭文本計(jì)算機(jī)化的過程。由于文本載體等方面的區(qū)別,捕捉書面文本和口頭文件的方法存在著較大差異。
捕獲書面文本的方法涉及手動(dòng)輸入,掃描和電子文本的使用。使用計(jì)算機(jī)手動(dòng)輸入文本,適用于轉(zhuǎn)錄音頻文件,手寫文本和掃描文件。這些文件通常包含了大量的雜亂的代碼等方面語言錯(cuò)誤,手動(dòng)輸入可以盡可能降低錯(cuò)誤率。 掃描方法是指使用掃描儀將文本輸入計(jì)算機(jī)。 在掃描文本時(shí),應(yīng)注意兩點(diǎn):(1)掃描機(jī)通常識別率較低,以及(2)有必要校對和編輯掃描文件以消除不必要的符號。此外,文本錄入也可以使用從因特網(wǎng)下載的已發(fā)布的電子文本。使用從互聯(lián)網(wǎng)上下載的文本的主要問題在于它們可能存在多余的空格,空白行,虛線,多余的語言符號,雜亂的代碼等問題,這些符號對于語料庫研究毫無價(jià)值,必須將其刪除。
語音文本的捕獲涉及音頻或視頻文件的獲取和轉(zhuǎn)錄。 音頻和視頻文件主要出現(xiàn)在日常交流,商務(wù)談判,會議演講和電視廣播節(jié)目中,通過磁帶或錄像機(jī)或通過購買電視廣播節(jié)目的音頻或錄像帶以及出版的磁帶或視頻錄制來獲得。
口頭文本與書面文本的不同之處在于以下幾點(diǎn):(1)由于口頭交流是一種無意識的或即興的交流,它的文本中包含許多副語言特征,如修改,重復(fù),暫停,笑聲,中斷,語言也存在一些錯(cuò)誤或不準(zhǔn)確。 (2)由于錄音質(zhì)量或說話者含糊的發(fā)音,口頭文本中可能會有難以理解的發(fā)音。 (3)口頭文本中的斷句無法通過標(biāo)點(diǎn)符號來表示,而是通過暫停的持續(xù)時(shí)間來表示。此外,句子類型(無論是陳述句還是疑問句)都是通過不同語調(diào)表現(xiàn)出來的。上升曲調(diào)表示疑問句,而下降曲調(diào)表示陳述或感嘆句。這些都是口頭文本和書面文本的區(qū)別。在將口頭文本轉(zhuǎn)錄成書面文本時(shí),應(yīng)該考慮到這些差異,并通過使用各種書面符號來標(biāo)注這些特征。
例如,短暫停(2-3秒)可由符號“...”標(biāo)識,符號“......”表示長暫停(4-6秒)。 符號“ - ”表示中斷,而猶豫可以通過符號“...”標(biāo)識或通過單詞“er”或“well”標(biāo)識。符號“*”可用于表示難以理解的單詞。暫停時(shí)間的長短也決定了不同標(biāo)點(diǎn)符號的使用。 例如,如果暫停很長,則在話語單元之后使用句號或問號,而如果暫停很短則使用逗號。
四、文本的分詞與注釋策略
與英語單詞不同,中文單詞是由一個(gè)或多個(gè)漢子組成。一個(gè)漢字可能代表一個(gè)音節(jié),但它不一定構(gòu)成一個(gè)單詞。另外,中文單詞之間沒有插入空格。鑒于漢語和英語單詞之間的差異以及對單詞級別進(jìn)行統(tǒng)計(jì)分析的需要,在語料庫中對中文文本進(jìn)行分詞是非常有必要的。目前,中文文本可以使用Autotag或ICTCLAS 3.0進(jìn)行單詞分詞。前者由臺灣中文信息處理集團(tuán)開發(fā),后者由中國科學(xué)院計(jì)算技術(shù)研究所開發(fā)。 ICTCLAS3.0遵循中國國家標(biāo)準(zhǔn)GB13715的“當(dāng)代漢語信息處理分詞規(guī)范”,可用于中文文本的分割和注釋,分割精度達(dá)97%。但是,由于軟件無法識別中文專有名詞,縮略詞和數(shù)字,因此需要進(jìn)一步進(jìn)行手動(dòng)校對。