竇智
【摘 要】美劇影視的傳播影響了大量英語學(xué)習(xí)者,對(duì)美劇里的人物、臺(tái)詞、情節(jié)等的分析如火如荼。目前國內(nèi)尚無建成可用的美劇語料庫,平行語料庫的研究也是進(jìn)展緩慢。因此本項(xiàng)目建設(shè)了一個(gè)小型的美劇雙語平行語料庫,希冀為語料庫翻譯學(xué)的研究提供平臺(tái)基礎(chǔ)。論文闡述了平行語料庫的設(shè)計(jì)過程,從語料的采集加工、標(biāo)注對(duì)齊、軟件使用等方面詳細(xì)分析,給語料庫愛好者們提供建庫指南。
【Abstract】 The spread of American movies and TV plays a great influence on a large number of English learners. The analysis of characters, lines and plots in the American drama is in full swing. At present, there is no available corpus of American drama in China, and the research of parallel corpus is developing slowly. So this project has built a small bilingual parallel corpus of American dramas, hoping to provide a platform for the study of corpus translation. This paper expounds the design process of the parallel corpus, analyzes the collection and processing of corpus, label alignment and software usage, etc., and provides database enthusiasts with a library guide.
【關(guān)鍵詞】美劇字幕;平行語料庫建設(shè);雙語語料
【Keywords】American drama subtitle; parallel corpus construction; bilingual corpus
【中圖分類號(hào)】H315.9 【文獻(xiàn)標(biāo)志碼】A 【文章編號(hào)】1673-1069(2018)07-0094-02
1 引言
自20世紀(jì)80年代以來,美劇在中國大陸傳播發(fā)展已有38年。美劇在我國從小眾獨(dú)享到網(wǎng)絡(luò)熱播,正邁向全民化。學(xué)生是美劇的受眾群體之一,通過尋找美劇中的話題與外國人進(jìn)行跨文化的交流;觀看美劇不僅給人帶來視聽享受,而且相比教材文本,可以學(xué)到最新實(shí)用的詞匯用法及口語表達(dá);借助美劇可以了解美國的政治、歷史、文化、社會(huì)和美國人的日常生活等知識(shí)。語言是不斷更新發(fā)展的,綜上,美劇是學(xué)習(xí)英語最鮮活生動(dòng)的資料。然而由于網(wǎng)絡(luò)傳播中的美劇作品不帶有中文字幕,這就催生了一批字幕翻譯員,盡管翻譯出了美劇臺(tái)詞的主要意思,但翻譯質(zhì)量難免良莠不齊。這就引出了對(duì)翻譯規(guī)范、譯者風(fēng)格和翻譯策略等翻譯學(xué)的研究,美劇語料庫的建設(shè)是千呼萬喚始出來。因此,建設(shè)一個(gè)美劇字幕翻譯英漢語料庫可為后來的影視翻譯研究提供平臺(tái)基礎(chǔ)[1]。
語料庫是以計(jì)算機(jī)為載體承載語言知識(shí)的基礎(chǔ)資源;存放的是實(shí)際使用中真實(shí)出現(xiàn)過的語言材料。這些真實(shí)語料要經(jīng)過加工處理,才會(huì)成為有研究價(jià)值的資源。 語料庫憑借電子計(jì)算機(jī)操作系統(tǒng)和相關(guān)語料庫軟件,對(duì)所收集語料進(jìn)行賦碼和標(biāo)注處理,實(shí)現(xiàn)語料的自動(dòng)存儲(chǔ)、檢索和統(tǒng)計(jì)(胡開寶2011)。 雙語平行語料庫可以使兩種或兩種以上的語言對(duì)比,具備微觀研究和宏觀研究結(jié)合的優(yōu)勢(shì)。語料庫尤其是平行語料庫作為一種研究工具,在語言學(xué)研究,尤其是翻譯學(xué)、自然語言處理以及機(jī)器翻譯等研究領(lǐng)域起著越來越不可替代的作用[2]。
2 美劇字幕平行語料庫的整體設(shè)計(jì)思路
2.1 設(shè)計(jì)目的
近年來英語國家的影視作品對(duì)英語學(xué)習(xí)者產(chǎn)生了影響,尤其臺(tái)詞的模仿在語言交流中隨處耳聞。 迄今為止,國內(nèi)尚無該領(lǐng)域建成可用的美劇字幕語料庫。在選擇語料庫類型時(shí),根據(jù)研究需要,選擇能匹配美劇字幕翻譯的雙語平行語料庫。 王克非(2004a)指出平行語料是由源語文本及其平行對(duì)應(yīng)的譯語文本構(gòu)成的雙語語料庫。與其他語料庫相比,平行語料庫的優(yōu)勢(shì)在于能自動(dòng)呈現(xiàn)兩種或兩種以上的語句對(duì)應(yīng)關(guān)系。 建設(shè)美劇字幕庫的目的是為了后續(xù)在此平臺(tái)的基礎(chǔ)上進(jìn)行研究: ①翻譯語言特征和規(guī)范研究;②美劇的口語俚語研究;③美國社會(huì)文化的反映;④譯者風(fēng)格和翻譯教學(xué)等研究。 因此,本項(xiàng)目組自建一個(gè)小型的美劇字幕翻譯英漢雙語平行語料庫,以填補(bǔ)該領(lǐng)域的空白[3]。
2.2 語料庫規(guī)模
人們普遍認(rèn)為語料庫規(guī)模越大,就越有研究語言應(yīng)用的價(jià)值,然而任何語料庫只代表關(guān)于語言應(yīng)用現(xiàn)狀的小樣本(胡開寶2011a)。所以應(yīng)根據(jù)設(shè)計(jì)目的和語料庫屬性來確定語料庫規(guī)模,不可盲目求大。 由于處理難度高,平行語料庫的發(fā)展一直滯后于其他類型語料庫,而且平行語料庫耗費(fèi)大量時(shí)間和精力,故本項(xiàng)目建設(shè)一個(gè)容納100萬詞的小型美劇字幕平行語料庫, 以共時(shí)性為主,即主要收集二十世紀(jì)后半葉和二十一世紀(jì)的有影響力的語料,保證語言文本的新鮮和經(jīng)典。
2.3 語料庫屬性
語料庫根據(jù)收錄語料內(nèi)容的不同分為四種:異質(zhì)型(Heterogeneous corpus)廣泛收錄各種語料;同質(zhì)型(Homogeneous)只收集同一類別的語料;系統(tǒng)型(Systematic)選用的語料有平衡性和系統(tǒng)性,反應(yīng)語言的全貌;專用型(Specialized)是為特定用途而建立的語料。 本語料庫屬于同質(zhì)、專用型,主要抽樣采集幾部當(dāng)代熱播美劇和經(jīng)典影片,對(duì)英語學(xué)習(xí)者有影響的和受同學(xué)們喜聞樂見的影視字幕,如 《紙牌屋》、《權(quán)利的游戲》、《摩登家庭》、《亂世佳人》美劇。
3 美劇語料的采集和處理
采集語料在人人影視、字幕庫等網(wǎng)站下載字幕文件包,解壓文件包進(jìn)行篩選,留下漢語和英語的簡(jiǎn)寫文本。多數(shù)字幕文件的英漢雙語在一個(gè)文件里,需要人工分開將英語和漢語另存一個(gè)文本,然后用計(jì)算機(jī)軟件對(duì)語料進(jìn)行去噪和加工。
3.1 語料初加工
選用的文本編輯軟件是Emeditor,其操作便捷,支持多種配置。 用此編輯器進(jìn)行文本凈化,清除時(shí)間軸和字體代碼等嘈雜的信息,數(shù)字和不必要的空格以及符號(hào)也清除,之后務(wù)必在篇頭處保留譯者的名字。此操作的輔助功能為計(jì)算機(jī)的搜索和替換功能,使用正則表達(dá)式批量處理,目的是保證英語和漢語的句子匹配對(duì)齊。由于下載的字幕包里漢語部分沒有標(biāo)點(diǎn),所以對(duì)著英語部分句對(duì)句的手動(dòng)添加標(biāo)點(diǎn),這也是平行語料庫耗時(shí)耗力的原因之一。處理完畢后進(jìn)行語料的初步校對(duì),清除雜質(zhì),將無法匹配的影視劇中出現(xiàn)的專有名詞如場(chǎng)景、地名等刪除,然后將英語和漢語分別存在一個(gè)文件夾里,存儲(chǔ)格式為txt格式,文件名標(biāo)寫清晰的美劇名稱。
3.2 標(biāo)注和處理
所謂標(biāo)注(也稱附碼)把各種表示語言特征的附碼標(biāo)注在相應(yīng)的語言成分上,便于計(jì)算機(jī)識(shí)讀。無論是計(jì)算機(jī)自動(dòng)還是人工標(biāo)注,都不能削除失誤(余國良2009a)。標(biāo)注分為詞性標(biāo)注、詞義標(biāo)注、句法標(biāo)注和語篇標(biāo)注,通過這些加工,語料才變成有利用價(jià)值的研究材料。本項(xiàng)目選用了詞性標(biāo)注,即用詞性符號(hào)標(biāo)記單詞的詞性,如動(dòng)詞,形容詞。
針對(duì)漢語語料,用漢語詞性標(biāo)注工具軟件,該應(yīng)用程序操作便捷,可批量處理文件。打開軟件加載漢語文件夾,選擇要處理的文件,點(diǎn)擊開始切分標(biāo)注,瞬間得到標(biāo)注成功的漢語語料。針對(duì)英語語料,使用的軟件為TagAnt,每次只能處理一個(gè)保存為utf-8格式的文檔。 點(diǎn)擊input files選擇要處理的英語語料,按 start瞬間得到標(biāo)注成功的英語語料。然后打開標(biāo)注后的語料,在英漢雙語的句號(hào)、問號(hào)和嘆號(hào)處加上