李葆衛(wèi)
(西藏民族大學(xué)外語學(xué)院 陜西咸陽 712082)
“中國政府西藏白皮書”漢英平行語料庫的建設(shè)及應(yīng)用研究
李葆衛(wèi)
(西藏民族大學(xué)外語學(xué)院 陜西咸陽 712082)
“中國政府西藏白皮書”漢英平行語料庫是以迄今為止中國政府發(fā)布的12部涉藏白皮書的漢英文本為語料構(gòu)建的平行語料庫,主要為西藏各級政府的對外宣傳,高校涉藏翻譯教學(xué),翻譯軟件的開發(fā)及大型涉藏漢英平行語料庫的建設(shè)服務(wù),因此具有重大的應(yīng)用前景。
西藏白皮書;漢英平行語料庫;文本對齊
語料庫是一個按照一定的采樣標(biāo)準(zhǔn)采集而來的、代表一種語言或者某語言的一種變體或文類的電子文本集。近些年來,語料庫的建設(shè)與研究發(fā)展迅速,其中平行語料庫的建設(shè)引起了更多學(xué)者的關(guān)注。雙語平行語料庫中的語料來自兩種語言,它們互相對應(yīng),一種語言是另一種語言的譯文。目前,因為大多數(shù)雙語平行語料庫都做到了句子間對齊,所以雙語平行語料庫對人工翻譯研究和機器翻譯研究具有重要的意義。[1]
白皮書是一個國家政府對重要的問題正式發(fā)表的官方文件,也是得到國際公認(rèn)的正式政府文件,因其慣用白色封面裝幀,所以又稱“白皮書”。白皮書具有立場鮮明,行文規(guī)范,語言簡練的特點。自1991年發(fā)布第一部白皮書,截至2015年9月底,中國政府已發(fā)表了98部白皮書,[2]內(nèi)容涉及政治、經(jīng)濟、文化、人權(quán)、國防以及民族政策等方面。這些白皮書全面、準(zhǔn)確地介紹中國政府在上述重大問題上的原則、立場、政策、主張和取得的進(jìn)步,因此受到了國際社會的廣泛關(guān)注,成為研究中國政府政策的主要情報來源。迄今為止,“中國政府西藏白皮書”共發(fā)布12部,占全部發(fā)表白皮書的近1/6,反映了中央政府對西藏自治區(qū)的高度重視。中國政府白皮書的外文譯本一般由國務(wù)院新聞辦公室下設(shè)的專門機構(gòu)負(fù)責(zé),外文譯本在立場觀點及法律效力上等同于漢語文本,是國家對外宣傳的重要手段與方式。
“中國政府西藏白皮書”漢英平行語料庫是主要以12部關(guān)于西藏的白皮書的漢語及其對應(yīng)的英語文本為語料的專用語料庫,能為西藏自治區(qū)各級政府部門的對外宣傳翻譯實踐提供指導(dǎo)與借鑒,具有維護國家原則立場與政治主張準(zhǔn)確;統(tǒng)一的重要作用。目前,以涉藏政府文件為內(nèi)容的專題語料庫的建設(shè)在我國及西藏自治區(qū)尚屬空白。因此,在一定程度上本研究填補了涉藏政府文件英漢雙語語料庫的空白,具有創(chuàng)新性與實踐性的特點。
(一)設(shè)計目的
本語料庫的建設(shè)有以下三個服務(wù)目標(biāo)與目的:
1、為西藏對外宣傳服務(wù)
西方對西藏的報道“大多是負(fù)面的”。[3]一方面是因為西方敵對勢力操作輿論對我國政府蓄意進(jìn)行歪曲與詆毀;另一方面也是因為我們的對外宣傳做的不足。這要求西藏自治區(qū)各級地方政府不斷加大對外宣傳客觀真實的西藏,不斷宣傳西藏所取得的發(fā)展與成就,以事實來回?fù)糌?fù)面輿論。英語作為世界主流媒體語言之一,是對外宣傳必須使用的語言。但是作為政治敏感度較高的地區(qū),西藏對外宣傳的稍微不慎都會給西方持?jǐn)硨B(tài)度的反華輿論提供可乘之機與攻訐的口實。因此,在對外宣傳中保證國家政策、政治立場與觀點的準(zhǔn)確、清晰并與中央保持高度一致是對外宣傳的基本出發(fā)點。本研究擬建成的“中國政府西藏白皮書”漢英平行語料庫就是為對外宣傳提供可靠保證。它是我國涉藏官方正式文件漢英文本的匯編,屬于專門用途的單向?qū)?yīng)語料庫,旨在為西藏自治區(qū)人民政府和西藏自治區(qū)外事僑務(wù)辦公室等對外宣傳工作提供準(zhǔn)確、規(guī)范、權(quán)威與統(tǒng)一的漢英雙語對照政策語料。
2、為涉藏翻譯研究以及翻譯教學(xué)實踐服務(wù)
“中國政府西藏白皮書”漢英平行語料庫也可以為西藏自治區(qū)及國內(nèi)外高校各級研究機構(gòu)的涉藏翻譯研究提供翔實的涉藏政府文件雙語對照語料。建成后的漢英平行語料庫則可直接用作翻譯素材,為對外宣傳的翻譯教學(xué)提供準(zhǔn)確的實踐與研究實例。
3、為翻譯軟件的開發(fā)及大型涉藏漢英平行語料庫的建設(shè)服務(wù)
語料庫建設(shè)中未標(biāo)注的平行文本將可直接用作翻譯記憶,為CAT翻譯軟件提供涉藏翻譯記憶,從而為以后的涉藏翻譯項目提供支持。涉藏術(shù)語標(biāo)注將為涉藏術(shù)語的收集和識別提供基礎(chǔ),為開發(fā)涉藏翻譯軟件提供前期準(zhǔn)備。同時,本平行語料庫的研發(fā)將為研制大型涉藏漢英平行語料庫的建設(shè)提供實踐機會和技術(shù)準(zhǔn)備。
(二)語料庫構(gòu)成
“中國政府西藏白皮書”漢英平行語料庫共收錄12本白皮書及其英語譯文,包括:《西藏的主權(quán)歸屬與人權(quán)狀況》1992、《西藏自治區(qū)人權(quán)事業(yè)新發(fā)展》1998、《西藏文化的發(fā)展》2000、《西藏現(xiàn)代化發(fā)展》2001、《西藏的生態(tài)建設(shè)與環(huán)境保護》2003、《西藏的民族區(qū)域自治》2004、《西藏文化的保護與發(fā)展》2008、《西藏民主改革50年》2009、《西藏和平解放60年》2011、《西藏的發(fā)展與進(jìn)步》2013年、《西藏發(fā)展道路的歷史選擇》2015、《民族區(qū)域自治制度在西藏的成功實踐》2015。
作為專門用途語料庫,語料選取不遵循通用語料庫的抽樣原則,而是對其中的漢英語料進(jìn)行全文收錄。按照一般的平行語料庫的庫容計算方式,英語以詞數(shù)為計,漢語以字?jǐn)?shù)為計,該庫初步設(shè)計為445774字/詞,結(jié)合英漢字詞比,英語179465詞,漢語266309字。同時,隨著新的“中國政府西藏白皮書”的出版發(fā)行,該庫也將作動態(tài)收集并更新,因此庫容也會隨研究深入而增加。
(三)語料收集
1、語料來源
為了保證語料的完整與正確性,所有白皮書的漢語文件與部分英語文件均取自“國務(wù)院新聞辦公室”網(wǎng)站(www.scio.gov.cn)中“政府白皮書”一欄,部分白皮書的英文版來自外文出版社正式出版的中國政府白皮書。
2、存儲格式
鑒于收集到的文本存儲介質(zhì)類別不同,所有文本不管處理與否,都需要留好原始文本的備份,以方便返回檢視。若為紙質(zhì)文本,則需要借助掃描儀掃描并進(jìn)行OCR識別為Word文本,再轉(zhuǎn)存為UTF-8格式的TXT文本;若為圖片類存儲的PDF文本,則仍需要借助軟件識別為Word文本,并轉(zhuǎn)為TXT文本;若PDF文本可直接轉(zhuǎn)為Word文本,然后繼續(xù)轉(zhuǎn)為TXT文本;Word文本則同樣直接轉(zhuǎn)為
TXT文本。總之,所有的語料文本都需要轉(zhuǎn)為UTF-8的TXT純文本格式。
3、文件命名
以字母、數(shù)字和下劃線的編號方式來進(jìn)行,原則上力求文件名簡短明晰,語料統(tǒng)一收錄在同名文件夾“Collection of White Paper by XX”文件夾中,XX為收錄人姓名首字母大寫。在文件夾內(nèi)按各自所負(fù)責(zé)的文件數(shù)量新建子文件夾,分別命名為D1,D2,D3等,D指documents。在子文件夾中以網(wǎng)頁、word文檔、純文本文檔三種形式保存語料及元信息。因此,假設(shè)語料文本是“《西藏主權(quán)歸屬與人權(quán)狀況》1992”,該文件由LBW收集,則文件編號為LBW_N_DW_1992_Ch.txt,其英語翻譯文本則為LBW_N_DW_1992_En.txt,對齊后的雙語文本則為LBW_N_DW_1992_CE.txt,或者以翻譯記憶交換格式存儲的TMX文本。
4、校對
語料的內(nèi)容及文本格式需要檢查,以確定內(nèi)容完整無誤,以及是否存在亂碼。校對文本命名編號,細(xì)致校對掃描識別后的文本。
(四)語料的再加工
1、語料處理
收集完成的語料,利用正則表達(dá)式清潔文本、去除冗余信息。例如,對文本的空行,段首尾的空白等無意義的信息進(jìn)行批量清理。
2、文本存儲
在得到清潔文本后,將所有文本復(fù)制為三個文件夾內(nèi)存儲。第一個存儲作為原始語料。第二個用來標(biāo)示元文本信息。第三個則用來進(jìn)行平行語料對齊。另建一個Excel表用來記錄各個文本的元信息。
3、元信息標(biāo)注
元文本信息包括題目、發(fā)布者、時間等,使用XML格式進(jìn)行人工標(biāo)注。例如:
〈Metadata〉
〈Title〉Successful Practice of Regional Ethnic Autonomy in Tibet〈/Title〉
〈Language〉EN〈/Language〉
〈Type〉Document〈/Type〉
〈Publisher〉SCIO〈/Publisher〉
〈Publication_Year〉2015〈/Publication_Year〉
〈URL〉http://www.scio.gov.cn/zfbps/32832/Docu? ment/1447091/1447091.htm〈/URL〉
〈Contributor〉Li〈/Contributor〉
〈Proofreader〉Zhou〈/Proofreader〉
〈/Metadata〉
4、語料對齊
語料之間的平行對齊是平行語料庫建設(shè)的核心所在,平行對齊質(zhì)量的高低直接影響語料庫質(zhì)量的好壞。Bowker討論了對齊的單位問題,指出句級對齊應(yīng)是雙語平行語料庫建設(shè)中較為適合的對齊方式。[4]我們以漢語句子為主進(jìn)行切分,英語譯文句子與漢語對齊。我們采用ABBYY Aligner軟件進(jìn)行自動對齊,但自動對齊的語料存在諸多錯誤,需要各部分負(fù)責(zé)人逐句進(jìn)行人工校對。對齊后進(jìn)行校對。校對完成后將所有文件保存為兩種格式,一種為翻譯記憶交換格式TMX文件,可以直接用作翻譯記憶;另一種則為帶表格式的純文本文件,用于詞性標(biāo)注。
5、語料標(biāo)注
語料庫標(biāo)注過程復(fù)雜,全方位標(biāo)注的語料庫并不常見,大部分語料庫根據(jù)自身需要和現(xiàn)有的人力軟件等條件有選擇地進(jìn)行標(biāo)注?!爸袊鞑匕灼睗h英平行語料庫擬對平行語料中的中英文句子進(jìn)行詞性標(biāo)注。英語句子的詞性標(biāo)注擬使用Go Tagger軟件或CLAWS POS Tagger,漢語分詞及標(biāo)注擬使用ICTCLAS漢語分詞軟件。標(biāo)注完后保存并復(fù)制為兩個文件夾,其中一個文件夾內(nèi)文本使用程序?qū)刹糠址蛛x進(jìn)行標(biāo)注的文本重新合并為平行文本,從而成為經(jīng)過詞性標(biāo)注的平行文本。另外一個文本在經(jīng)過詞性標(biāo)注后,將進(jìn)一步進(jìn)行人工標(biāo)注,對涉藏術(shù)語進(jìn)行標(biāo)注。詞性標(biāo)注后的文本都將進(jìn)行人工校對。
6、涉藏術(shù)語提取
“中國政府西藏白皮書”漢英平行語料庫擬對白皮書語料中涉藏專有名詞進(jìn)行提取及語義標(biāo)注,建成動態(tài)的漢英單向翻譯術(shù)語庫,為涉藏漢英術(shù)語翻譯提供參考。涉藏術(shù)語標(biāo)注將確定新的涉藏詞語碼類,對一些涉藏專名進(jìn)行分類編碼,力求簡明清晰。結(jié)果依舊需要人工校對。
(五)語料庫出版與在線檢索
待詞性標(biāo)注完成后,所形成的未分詞的文本可以作為翻譯記憶用來進(jìn)行翻譯教學(xué)或翻譯項目工作,而分詞文本與標(biāo)注文本則可通過各類自由的單
語或雙語平行檢索軟件進(jìn)行離線檢索,至此,其語料庫功能已可以得到發(fā)揮。至于其出版和在線檢索,則需要等各類文本解決完版權(quán)問題后,才可進(jìn)行。
漢英平行語料庫的語料由整理好的漢英白皮書文本經(jīng)過保存而構(gòu)成。啟動Paraconc,載入語料,就可以開始使用“中國政府西藏白皮書”漢英平行語料庫。本語料庫的主要作用體現(xiàn)在以下三個方面:
第一,通過檢索關(guān)鍵詞,可以提供準(zhǔn)確、權(quán)威、一致的翻譯實例。
“民族團結(jié)”
例如,“民族團結(jié)”、“和平解放”、《十三法典》。
第二,能對漢譯英、英譯漢雙語搭配等進(jìn)行全面考察。
例如,漢語詞“堅持”及其對應(yīng)英語詞“adhere to”在漢語及英語中的各自搭配。
第三,查詢各類主題,起到政策庫的作用。
例如,了解國家對“民族”的確認(rèn),對“西藏教育”的投入等。
由此可見,本語料庫具有開放性、便捷性、連貫性三大特點:
漢語詞“堅持”的搭配
1、開放性。本語料庫是一個開放的系統(tǒng),隨著國家新的涉藏白皮書的發(fā)表,可以及時擴充語料;2、便捷性。本語料庫可以迅速地檢查出涉藏專業(yè)
術(shù)語的英文對應(yīng)詞及該詞所在的句子;3、連貫性。通過檢索專業(yè)術(shù)語可以發(fā)現(xiàn)國家在重大問題上的一貫表述與立場,也可以了解某個民生問題的發(fā)展情況。
“中國政府西藏白皮書”漢英平行語料庫是一個開放的語料庫,隨時收入新的涉藏白皮書,以保持最全、最新、最權(quán)威的特點。整個庫的建設(shè)通過建立課題小組,吸收對此有濃厚興趣的研究者加入,同時也吸納一定的學(xué)生,以增強學(xué)生的動手能力??傊?,詳細(xì)的論證與細(xì)致科學(xué)的分工,為白皮書語料庫的建設(shè)奠定了堅實的基礎(chǔ)。它將為西藏自治區(qū)的對外宣傳提供準(zhǔn)確、統(tǒng)一、權(quán)威的指導(dǎo),并可以服務(wù)于相關(guān)翻譯研究及教學(xué)實踐,因此具有重大的應(yīng)用前景。
[1]梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].北京:外語教育與研究出版社,2010.
[2]國務(wù)院新聞辦公室網(wǎng)站www.scio.gov.cn
[3]傳媒在線http://news.xinhuanet.com
[4]Bowker,Lynne.Computer-Aided Translation Technology [M].Ottawa:University of Ottawa Press,2002.
[責(zé)任編輯 劉曉艷]
[校 對 夏 陽]
D635;H315.9
A
1003-8388(2016)05-0141-06
2016-03-16
李葆衛(wèi)(1973-),男,陜西岐山人,現(xiàn)為西藏民族大學(xué)外語學(xué)院講師,博士,主要研究方向為外國語言學(xué)及應(yīng)用語言學(xué)。
本文系西藏民族大學(xué)西藏文化傳承發(fā)展協(xié)同創(chuàng)新中心立項課題“‘中國政府西藏白皮書’漢英平行語料庫建設(shè)及應(yīng)用研究”(項目號:XT15003);西藏民族大學(xué)校內(nèi)科研立項“關(guān)聯(lián)視角:言語幽默分析”(項目號:14myy06)的階段性成果。