陳華妮,王迪
(中國民用航空飛行學(xué)院,四川廣漢 618307)
在國家“一帶一路”的政策背景下,為響應(yīng)中華文化“走出去”以及國家語言能力建設(shè)號召,國內(nèi)各大高校相繼大力開展信息時代語言服務(wù)人才培養(yǎng)模式研究,探索新型語言服務(wù)人才培養(yǎng)的特色道路。同時,大數(shù)據(jù)和語言技術(shù)的飛速發(fā)展也給高校外語專業(yè)語言服務(wù)人才的培養(yǎng)理念和培養(yǎng)方式上的調(diào)整帶來了前所未有的機遇[1-3]。
語料庫語言學(xué)作為最具活力、 發(fā)展最為迅速的語言學(xué)領(lǐng)域之一,越來越多地被應(yīng)用于語言學(xué)各分支的研究中。隨著翻譯技術(shù)的普及,越來越多的學(xué)者和譯者投入到語料庫的研究和實踐中。語料庫建設(shè)、研究和實踐也日益成為外語專業(yè)學(xué)科發(fā)展的重點方向之一。
語料庫研究是外國語言學(xué)及應(yīng)用語言學(xué)專業(yè)學(xué)科人才需掌握的必不可少技能。與此同時,翻譯專業(yè)在學(xué)科建設(shè)上也對語料提出了明確要求。在2010年5月7日,國務(wù)院學(xué)位委員會下發(fā)《關(guān)于開展新增碩士專業(yè)學(xué)位授權(quán)點審核工作的通知》(學(xué)位〔2010〕20號),其附件1~15《翻譯碩士專業(yè)學(xué)位授權(quán)點基本條件》中“教學(xué)條件”中明確規(guī)定:“申請設(shè)立筆譯方向的,須擁有專用筆譯實驗室及供筆譯教學(xué)使用的翻譯軟件或資料庫”[4-6]。
近年來,在全球化的浪潮下,我國民航飛速發(fā)展,我國民航業(yè)國際交流也與日俱增,極大地刺激了民航翻譯的需求。平行翻譯語料庫可以對民航翻譯研究和實踐提供很好的翻譯實例和量化數(shù)據(jù)。該研究針對民航英漢平行雙語翻譯語料庫進行了總體設(shè)計,建成了小型民航英漢平行翻譯語料庫。該研究旨在通過加強民航英漢平行翻譯語料庫建設(shè)從而促進我國民航翻譯研究和實踐的進一步發(fā)展。
該研究的主要研究內(nèi)容為民航英漢平行翻譯語料庫的建立和術(shù)語庫的建設(shè)。該研究建成了2 個小型民航英漢平行翻譯語料庫和1 個民航翻譯術(shù)語庫。該研究的意義主要有以下3 個方面。
為學(xué)院一線翻譯教師提供更多教學(xué)案例,擺脫以前基于經(jīng)驗的教學(xué)模式,教授學(xué)生掌握預(yù)翻譯、項目術(shù)語準備、術(shù)語統(tǒng)一、語料信息檢索、協(xié)同翻譯等當下翻譯流程的關(guān)鍵環(huán)節(jié),使學(xué)生所學(xué)與將來工作無縫對接,提高學(xué)生的競爭力[7-9]。
為MTI 以及BTI 學(xué)生提供一個檢索平臺,學(xué)生可隨時查找民航翻譯實例,便于定期回顧,查漏補缺,形成一套翻譯自主學(xué)習(xí)平臺。
在進行民航的翻譯實踐時,幫助譯者快速查找相關(guān)譯文表達,提高翻譯工作效率及準確率。
基于該語料庫建設(shè)可進一步開展各項研究,為學(xué)校在翻譯教學(xué)與研究方面提供更豐富的研究素材和工具。利用平行語料檢索技術(shù),研究人員可以獲取豐富的雙語句對表達,通過對比,進一步發(fā)現(xiàn)語言特點[10-13]。
《民航英漢平行翻譯語料庫建立與研究》研究工作主要分為以下幾個階段。
第一階段:語料庫相關(guān)資料搜集。
通過互聯(lián)網(wǎng)以及數(shù)字圖書館,收集并整理與平行翻譯語料庫相關(guān)的文獻。通過互聯(lián)網(wǎng)以及數(shù)字圖書館,搜集各類民航英漢雙語語料數(shù)據(jù)。
第二階段:語料庫建設(shè)總體規(guī)劃。
在文獻研究的基礎(chǔ)上,完成民航英漢平行雙語語料庫建設(shè)的總體設(shè)計方案。
第三階段:英漢雙語語料加工。
獲取雙語語料數(shù)據(jù)后,完成語料加工工作,如語料提取、語料降噪等。民航英漢平行雙語語料庫建設(shè)時語料加工采用的部分技術(shù)方法包括以下幾點。
(1)語料提取:將搜集的PDF 雙語語料轉(zhuǎn)成可編輯的Word 文檔。主要方法如下:首先,將PDF 中的文字復(fù)制粘貼到Word 文檔中。其次,對于無法復(fù)制粘貼的文字采用多種方法進行處理,如使用Adobe Acrobat Pro DC 進行轉(zhuǎn)換;使用福昕高級PDF編輯器進行轉(zhuǎn)換; 使用ABBY Finereader 進行OCR識別轉(zhuǎn)換;使用在線網(wǎng)站進行轉(zhuǎn)換,如https://www.cleverpdf.com/等;使用Tmxmall 的工具箱進行轉(zhuǎn)換;使用手機OCR 識別APP,如搜狗輸入法文字識別、OCR掃描王等進行轉(zhuǎn)換;使用WPS 進行轉(zhuǎn)換等[14-18]。
(2)語料清洗:對Word 格式語料進行預(yù)處理。主要工作包括: 將Word 文檔中所有的軟回車替換成硬回車;處理Word 文檔中的句子斷句異常;自動編號(序號)換成文字編號;將文檔中的紅色代碼批量選中并刪除;批量替換刪除<>中的代碼;去除多余空格和“-”;處理表格識別混亂;識別混亂的圖文框和圖表;處理上下標無法識別;處理頁眉、頁腳、頁碼和目錄混亂;提取中英文文檔中的中文/英文[19]。
(3)語料分類:根據(jù)文本的類型將語料進行分類,以建成不同類型的民航英漢平行翻譯語料庫。
第四階段:英漢雙語語料對齊及術(shù)語庫建設(shè)。
使用在線對齊工具Tmxmall Aligner 進行語料對齊。使用Tmxmall Aligner 將長段落原文譯文自動拆分為多句,借助在線對齊工具實現(xiàn)一對多、多對多智能對齊并以tmx 格式導(dǎo)出[20-23]。
將導(dǎo)出的tmx 格式文件導(dǎo)入語帆術(shù)語寶,完成術(shù)語提取及術(shù)語庫建設(shè)。主要的建庫方法為:使用云帆術(shù)語寶提取術(shù)語提取詞頻為1 的術(shù)語,并逐一驗證,刪除重復(fù)部分,保留一詞多譯;提取詞頻為2 的術(shù)語,并逐一驗證,刪除重復(fù)部分,保留一詞多譯;以tbx 以及Excel 格式導(dǎo)出,按字母順序排序; 在YICAT 平臺創(chuàng)建術(shù)語庫,并將導(dǎo)出的tbx 格式文件導(dǎo)入新建的術(shù)語庫,完成術(shù)語庫創(chuàng)建[24-27]。
第五階段:英漢雙語對齊語料入庫。
將對齊的語料分類導(dǎo)入YICAT 平臺記憶庫,建成2 個民航英漢平行翻譯語料庫。用戶選擇檢索模式,在檢索框中輸入關(guān)鍵詞并選擇檢索范圍,即可進行檢索。
該研究的主要成果為:建成A330/A340 飛行機組操作手冊語平行翻譯語料庫和DA42 NG 飛機飛行手冊平行翻譯語料庫; 建成DA42 NG 飛機飛行手冊術(shù)語庫。該研究主要在以下兩個方面體現(xiàn)了創(chuàng)新性。
第一,國內(nèi)外平行翻譯語料庫研究多涉及英語和歐洲語言,涉及漢語的英漢/漢英平行翻譯語料庫研究十分有限,這與漢語作為世界上大語種的地位極不相稱,與當前翻譯研究的需要也不相適應(yīng)。該語料庫的建設(shè)是英漢/漢英平行翻譯語料庫建設(shè)的有利補充。
第二,現(xiàn)有的平行翻譯語料庫多以一般性文本題材為主,很少有針對某一文類的專門用途英語的平行語料庫。民航英漢平行翻譯語料庫屬于英漢專門用途英語平行語料庫,它的設(shè)計和建立是平行翻譯語料庫研究領(lǐng)域的一個有利補充。
首先,該平行翻譯語料庫收集真實的翻譯語言,民航翻譯人員能通過翻譯語料庫查找到更多的翻譯實例。因此,該語料庫能很好地促進民航翻譯實踐。
其次,該平行翻譯語料庫的建立提供了基于雙語對齊語料的檢索平臺,促進了民航翻譯研究和實踐。民航翻譯人員和研究人員可進行多方面檢索,有助于翻譯規(guī)范和翻譯理論的驗證。
最后,該平行翻譯語料庫的建立為機型手冊翻譯任務(wù)提供支持。2020年,該平行翻譯語料庫為DA42、SR20、M2 等民航機型手冊翻譯任務(wù)的順利完成提供了有力支持。
建設(shè)英漢平行雙語語料庫為語料庫研究和翻譯實踐服務(wù)已經(jīng)成為新時代語言研究者必不可少的重要組成部分。通過語料庫管理語料,可在檢索語料時增強針對性,提高準確率和效率;在翻譯實踐時,參考利用已建成的語料庫,可以避免重復(fù)性勞動,提升翻譯效率。該研究通過民航英漢平行翻譯語料庫的建立,為基于語料庫的民航翻譯實踐和研究提供了借鑒和幫助。民航翻譯研究人員應(yīng)進一步建設(shè)大型民航英漢平行翻譯語料庫,進一步提高檢索語料的針對性和準確率,促進民航翻譯質(zhì)量的提升以及民航翻譯研究的發(fā)展。