周龍英,張莉洲
(九江學(xué)院 外國(guó)語(yǔ)學(xué)院,江西 九江332005)
面向雙語(yǔ)教學(xué)的平行語(yǔ)料庫(kù)構(gòu)建及應(yīng)用
周龍英,張莉洲
(九江學(xué)院 外國(guó)語(yǔ)學(xué)院,江西 九江332005)
本文的研究目標(biāo)是要建立一個(gè)專(zhuān)門(mén)面向雙語(yǔ)教學(xué),充分考慮學(xué)生和英語(yǔ)教師的需求的,以英語(yǔ)教材為主的雙語(yǔ)平行語(yǔ)料庫(kù)。在此基礎(chǔ)之上討論了該語(yǔ)料庫(kù)的構(gòu)建及其重點(diǎn)和難點(diǎn)工作。同時(shí)對(duì)語(yǔ)料庫(kù)的應(yīng)用進(jìn)行了科學(xué)調(diào)研,明確了本次研究的價(jià)值所在。
雙語(yǔ)教學(xué);平行語(yǔ)料庫(kù);可行性;應(yīng)用價(jià)值
語(yǔ)料庫(kù)(Corpus)是為了語(yǔ)言研究按照一定的原則收集和組織的真實(shí)的自然語(yǔ)言作品(書(shū)面的和口頭的)的集合。其中,以雙語(yǔ)(或多語(yǔ))平行語(yǔ)料庫(kù)為基礎(chǔ)的應(yīng)用日益增多。憑借這種雙語(yǔ)語(yǔ)料庫(kù),可以比較兩種語(yǔ)言的異同,利用它開(kāi)展廣泛的雙語(yǔ)教學(xué)與研究、翻譯研究(包括自動(dòng)翻譯)以及編撰雙語(yǔ)詞典,具有巨大的潛在研究?jī)r(jià)值。[1]
然而,為數(shù)不多的英雙語(yǔ)語(yǔ)料庫(kù)因受建庫(kù)目的和最終用戶(hù)類(lèi)型等因素的影響,與單語(yǔ)語(yǔ)料庫(kù)相比,無(wú)論是在規(guī)模、質(zhì)量,還是加工深度都相差甚遠(yuǎn),僅用于語(yǔ)言學(xué)研究、法律、翻譯或詞典編纂等特定領(lǐng)域。雙語(yǔ)語(yǔ)料庫(kù)自身建設(shè)亦缺乏系統(tǒng)性。同時(shí),在高校教學(xué)方面,由于大多數(shù)雙語(yǔ)教學(xué)的開(kāi)設(shè)是選擇專(zhuān)業(yè)的主課程,所要求的語(yǔ)料各不相同,所以這些語(yǔ)料庫(kù)并不適合不同專(zhuān)業(yè)的雙語(yǔ)教學(xué)的語(yǔ)料要求,這就為雙語(yǔ)教學(xué)帶來(lái)了很多不便。
創(chuàng)建及應(yīng)用面向雙語(yǔ)教學(xué)的英漢平行語(yǔ)料庫(kù),可以為學(xué)生實(shí)現(xiàn)自主化、個(gè)性化、立體化外語(yǔ)學(xué)習(xí)提供切實(shí)的保障,推動(dòng)大學(xué)英語(yǔ)課程改革和專(zhuān)業(yè)雙語(yǔ)教學(xué)的具體實(shí)施。因此,本研究力圖建立一個(gè)專(zhuān)門(mén)面向雙語(yǔ)教學(xué),充分考慮學(xué)生和英語(yǔ)教師的需求的以大學(xué)英語(yǔ)教材為主的,英漢雙語(yǔ)平行語(yǔ)料庫(kù)。本研究的開(kāi)展將把語(yǔ)料庫(kù)與英漢雙語(yǔ)教學(xué)有效地結(jié)合起來(lái)。
漢英/英漢平行語(yǔ)料庫(kù)的建設(shè)過(guò)程包括總體設(shè)計(jì)、數(shù)據(jù)庫(kù)框架設(shè)計(jì)、語(yǔ)料收集、語(yǔ)料導(dǎo)入、雙語(yǔ)句子對(duì)齊、雙語(yǔ)句子分詞、語(yǔ)料校對(duì)等步驟。在總體設(shè)計(jì)上,漢英/英漢平行語(yǔ)料庫(kù)包含若干專(zhuān)科語(yǔ)料庫(kù);在數(shù)據(jù)庫(kù)建設(shè)時(shí),采用群組分布式操作模式和以句子為基本存儲(chǔ)單位的關(guān)系型數(shù)據(jù)庫(kù);在語(yǔ)料導(dǎo)入時(shí),語(yǔ)料將統(tǒng)一以txt文本形式進(jìn)入數(shù)據(jù)庫(kù);在對(duì)齊和分詞時(shí),采用計(jì)算機(jī)程序運(yùn)作與人工校對(duì)相結(jié)合的方法。借鑒語(yǔ)言學(xué)語(yǔ)料庫(kù)的檢索功能,設(shè)計(jì)了關(guān)鍵詞檢索、模糊檢索、搭配檢索、句型檢索、對(duì)譯詞詞頻統(tǒng)計(jì)、檢索結(jié)果自動(dòng)排序等6項(xiàng)適用于雙語(yǔ)教學(xué)及研究的檢索項(xiàng)目。
(一)漢英/英漢平行翻譯語(yǔ)料庫(kù)的總體設(shè)計(jì):
1.建庫(kù)目的:為面向雙語(yǔ)教學(xué)的研究和實(shí)踐提供實(shí)證支持。
2.語(yǔ)料庫(kù)規(guī)模:中小型的、開(kāi)放式的,平行語(yǔ)料庫(kù)約100萬(wàn)字詞,研究者可隨時(shí)根據(jù)需要添加英漢/漢英雙語(yǔ)對(duì)應(yīng)的語(yǔ)料。
3.選材規(guī)則:選材涉及各個(gè)領(lǐng)域,保證語(yǔ)料的均衡性。英語(yǔ)語(yǔ)料主要來(lái)源于大學(xué)英語(yǔ)(修訂本)、新編大學(xué)英語(yǔ)、21世紀(jì)大學(xué)英語(yǔ)、全新版大學(xué)英語(yǔ)等教材課文,漢語(yǔ)譯文來(lái)源于上述教材相對(duì)應(yīng)的教師參考書(shū)。
4.漢英比例:全庫(kù)包括漢語(yǔ)原文數(shù)據(jù)庫(kù)、英語(yǔ)譯文數(shù)據(jù)庫(kù)、英語(yǔ)原文數(shù)據(jù)庫(kù)和漢語(yǔ)譯文數(shù)據(jù)庫(kù)等文本庫(kù),英譯漢和漢譯英語(yǔ)料各占全庫(kù)語(yǔ)料的50%。
5.子庫(kù)設(shè)置:啟動(dòng)檢索平臺(tái)時(shí),可根據(jù)研究需要調(diào)入不同的子庫(kù)文本。我們根據(jù)選材類(lèi)別把語(yǔ)料存為獨(dú)立版本及各種層級(jí)相連的子庫(kù):即設(shè)英文、中文兩個(gè)獨(dú)立版本的總庫(kù);其中英文和中文總庫(kù)下各分設(shè):大學(xué)英語(yǔ) (修訂本)、新編大學(xué)英語(yǔ)、二十一世紀(jì)大學(xué)英語(yǔ)、全新版大學(xué)英語(yǔ)四類(lèi)教材一級(jí)子庫(kù),各級(jí)子庫(kù)下面根據(jù)教材的第一、二、三、四冊(cè)再分為不同的二級(jí)子庫(kù)。同時(shí)添加網(wǎng)上能下載的雙語(yǔ)對(duì)照小說(shuō)、雙語(yǔ)雜志、雙語(yǔ)新聞等雙語(yǔ)語(yǔ)料。[3]
(二)雙語(yǔ)平行語(yǔ)料庫(kù)數(shù)據(jù)組織模式選擇
1.EML標(biāo)記語(yǔ)言和群組分布式操作模式
用EML(Extend Marking Language)標(biāo)記語(yǔ)言,并且在此基礎(chǔ)上設(shè)計(jì)多用戶(hù)并發(fā)操作模式,即群組分布式操作模式。整個(gè)語(yǔ)料庫(kù)建設(shè)系統(tǒng)和使用系統(tǒng)由若干臺(tái)聯(lián)網(wǎng)計(jì)算機(jī)組成,其中一臺(tái)計(jì)算機(jī)充當(dāng)服務(wù)器,存儲(chǔ)大量的數(shù)據(jù),其余計(jì)算機(jī)通過(guò)局域網(wǎng)訪(fǎng)問(wèn)服務(wù)器,通過(guò)訪(fǎng)問(wèn)獲得需要加工的數(shù)據(jù)。群組分布式操作模式下,用戶(hù)或創(chuàng)建人員只要與服務(wù)器相連即可操作雙語(yǔ)語(yǔ)料庫(kù)。[4]
2.以句子為基本存儲(chǔ)單位
漢英/英漢平行語(yǔ)料庫(kù)由漢語(yǔ)和英語(yǔ)兩種語(yǔ)言組成,在數(shù)據(jù)庫(kù)研發(fā)階段,主要從語(yǔ)言學(xué)角度對(duì)這兩種語(yǔ)言進(jìn)行對(duì)比和分析。在計(jì)算機(jī)處理語(yǔ)料時(shí),要對(duì)漢語(yǔ)進(jìn)行詞性標(biāo)注,對(duì)英語(yǔ)進(jìn)行類(lèi)符歸類(lèi)識(shí)別。漢英/英漢平行語(yǔ)料庫(kù)宜采用基于句子的數(shù)據(jù)庫(kù)存儲(chǔ),可將詞性標(biāo)注工作交給專(zhuān)門(mén)的分詞軟件進(jìn)行處理,該項(xiàng)工作可在檢索平臺(tái)的建設(shè)階段完成。
3.采用關(guān)系型數(shù)據(jù)庫(kù)
目前關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)成為數(shù)據(jù)庫(kù)的主流,關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)也層出不窮,比較著名的有SQL/DS、DBZ、Oracle、SQLServer、dBase等。SQLServer是具有客戶(hù)/服務(wù)器結(jié)構(gòu)的數(shù)據(jù)庫(kù)管理系統(tǒng),該軟件能快速處理龐大數(shù)據(jù)。因而本研究主要使用SQLServer數(shù)據(jù)庫(kù)管理系統(tǒng)。
(三)數(shù)據(jù)庫(kù)基本表
數(shù)據(jù)庫(kù)的最基本存儲(chǔ)單位是表,漢英/英漢平行語(yǔ)料庫(kù)的基本表包括兩大類(lèi):語(yǔ)料基本信息類(lèi)表和對(duì)譯關(guān)系類(lèi)表。語(yǔ)料基本信息類(lèi)表主要用來(lái)詳細(xì)精確記錄文本的作者、作品名、譯者、章節(jié)、段落、句子編號(hào)等信息,語(yǔ)料基本信息類(lèi)表包括原文句子表、譯文句子表、作品信息表、作者/譯者信息表等。
(一)語(yǔ)料預(yù)處理
語(yǔ)料預(yù)處理分兩個(gè)步驟,一是整理原始語(yǔ)料,是入庫(kù)的語(yǔ)料具有統(tǒng)一的格式和規(guī)范;二是語(yǔ)料分句導(dǎo)入,通過(guò)對(duì)標(biāo)點(diǎn)符號(hào)的判斷完成分句工作,繼而導(dǎo)入以句子為基本存儲(chǔ)單位的雙語(yǔ)語(yǔ)料庫(kù)。
(二)對(duì)齊與分詞處理
語(yǔ)料導(dǎo)入數(shù)據(jù)庫(kù)只是語(yǔ)料庫(kù)建設(shè)的初級(jí)階段,其工作量?jī)H占整個(gè)語(yǔ)料庫(kù)建設(shè)的10%,而大量的工作,是語(yǔ)料的對(duì)齊與分詞。語(yǔ)料對(duì)齊是實(shí)現(xiàn)中英文雙語(yǔ)可鏈接式檢索的前提,分詞是進(jìn)行詞頻統(tǒng)計(jì)或搜索對(duì)譯詞的關(guān)鍵。
1.句子對(duì)齊
在目前的計(jì)算機(jī)水平下,句子對(duì)齊要采用先計(jì)算機(jī)對(duì)齊后人工審核的方式。對(duì)齊順序:按照“作品一>篇章一>段落一>句子”的先后順序進(jìn)行對(duì)齊。首先建立作品對(duì)應(yīng)關(guān)系,存入表articlRe;建立篇章對(duì)譯關(guān)系,存入表Ch即terR;建立段落對(duì)譯關(guān)系,存入表parRa;建立句子對(duì)譯關(guān)系,存入表esntenCeR,同時(shí)對(duì)原文和譯文基本屬性進(jìn)行標(biāo)注,更新表sentenee_init和sentenee_trans。[5]
計(jì)算機(jī)自動(dòng)對(duì)齊方法:以句子為基本單位,采用逐步順序基于原文譯文長(zhǎng)度的對(duì)齊方法。計(jì)算機(jī)對(duì)齊只能作為輔助,更多的還需要依靠人工對(duì)齊。
2.句子分詞
本文借鑒其它研究成果,結(jié)合所設(shè)計(jì)的關(guān)系性雙語(yǔ)語(yǔ)料庫(kù),提出基于詞和句子規(guī)則的詞語(yǔ)對(duì)齊方法。
分詞流程:
(1)讀入句子;
(2)對(duì)句子按照標(biāo)點(diǎn)符號(hào)進(jìn)行初次分割,分割出子句;
(3)對(duì)子句做正向最大構(gòu)詞假設(shè),在詞典中搜索是否匹配(期間可利用子句結(jié)構(gòu)形式規(guī)則進(jìn)行正向最大值的約束);
(4)無(wú)匹配,減小構(gòu)詞長(zhǎng)度,并利用子句結(jié)構(gòu)形式規(guī)則進(jìn)行正向最大值的約束,尋求詞典匹配;
(5)直到詞典匹配為止,將此詞作為已分詞語(yǔ)進(jìn)行處理;
(6)該詞去掉后的子句,轉(zhuǎn)到步驟(3);
(7)無(wú)詞典匹配,則更新詞典,并將此次作為已分詞語(yǔ)進(jìn)行處理。正反匹配所得的詞再進(jìn)行匹配,能夠完全匹配才算成功,否則進(jìn)行人工分詞。[6]
(三)語(yǔ)料庫(kù)管理
由于語(yǔ)料庫(kù)的數(shù)據(jù)處理往往達(dá)到海量(上百萬(wàn)條記錄),數(shù)據(jù)的維護(hù)也是多層次的,往往是多人同時(shí)處理數(shù)據(jù),數(shù)據(jù)并發(fā)處理情況非常突出。所以要建立與數(shù)據(jù)維護(hù)相適應(yīng)的管理機(jī)制,具體包括:(1)創(chuàng)建數(shù)據(jù)維護(hù)日志,記錄語(yǔ)料庫(kù)操作信息;(2)對(duì)數(shù)據(jù)庫(kù)進(jìn)行備份與恢復(fù);(3)在數(shù)據(jù)系統(tǒng)的安全性設(shè)置方面,對(duì)用戶(hù)操作進(jìn)行加密處理,避免網(wǎng)絡(luò)攻擊,確保信息安全和數(shù)據(jù)不失真;(4)如果數(shù)據(jù)無(wú)法在一臺(tái)計(jì)算機(jī)上操作執(zhí)行,可以使用工作組機(jī)制,分布式操作。[7]
語(yǔ)料索引工具的資源共享,使我們能夠有效地利用語(yǔ)料庫(kù)進(jìn)行英語(yǔ)教學(xué)和學(xué)習(xí)。目前,英語(yǔ)單語(yǔ)的共享索引工具有MicroConcord(Tim Johns&Mike Scott)、Wordsmith Tools(Mike Scott)、TACTWEB和Concordance 1.1.3(R.J.C.Watt)。它們的基本功能包括了詞表生成、語(yǔ)篇統(tǒng)計(jì)、“帶語(yǔ)境的關(guān)鍵詞”索引、排序、搭配詞統(tǒng)計(jì)、詞語(yǔ)形式統(tǒng)計(jì)、主題詞提取、詞叢統(tǒng)計(jì)、聯(lián)想詞統(tǒng)計(jì)及重組等。Paraconc(Michael Barlow)雙語(yǔ)索引工具具有漢英平行檢索和帶語(yǔ)境的關(guān)鍵詞檢索的功能。[8]
(一)英漢翻譯教學(xué)
雙語(yǔ)平行語(yǔ)料庫(kù)及其索引可提供句子及篇章級(jí)的英漢對(duì)譯,因此學(xué)生可以做各種英漢互譯練習(xí);低年級(jí)或基礎(chǔ)較差的學(xué)生可以借助漢語(yǔ)的解釋更好地理解英語(yǔ)課文;學(xué)生還可通過(guò)對(duì)英漢語(yǔ)篇的對(duì)比來(lái)加深對(duì)英語(yǔ)篇章的理解和認(rèn)識(shí)等。[9]
(二)雙語(yǔ)情景教學(xué)
學(xué)生可以通過(guò)語(yǔ)料庫(kù)索引所提供的語(yǔ)境進(jìn)行詞匯練習(xí),通過(guò)對(duì)大量的真實(shí)的語(yǔ)境的觀察,配合該詞或該語(yǔ)法規(guī)律的使用頻率,驗(yàn)證詞典、語(yǔ)法書(shū)中所給的定義和語(yǔ)法規(guī)律,從而發(fā)現(xiàn)更為真實(shí)準(zhǔn)確的定義和規(guī)律,使學(xué)習(xí)的過(guò)程變成自我探索和自我發(fā)現(xiàn)的過(guò)程。而教師有了基于語(yǔ)料庫(kù)的詞頻統(tǒng)計(jì),就可以知道哪些詞匯及其用法需要掌握,需要在教學(xué)中投入更多時(shí)間。在解釋詞或搭配的意義和用法時(shí),可以借助語(yǔ)料庫(kù)檢索軟件在語(yǔ)料庫(kù)中尋找以該語(yǔ)言為母語(yǔ)的人對(duì)該詞的使用或搭配的生動(dòng)、真實(shí)的例句。語(yǔ)料庫(kù)詞匯檢索還可以避免教師選擇過(guò)時(shí)的表達(dá)法。[10]
(三)雙語(yǔ)語(yǔ)言練習(xí)及測(cè)試
由于語(yǔ)料庫(kù)索引提供索引詞用法的真實(shí)語(yǔ)境、詞匯搭配及頻率信息,通過(guò)詞語(yǔ)索引可以開(kāi)發(fā)出實(shí)時(shí)詞匯練習(xí)、同義詞比較、搭配詞組練習(xí)等。這樣便可以極大地減輕教師的工作量,并且使題目更具真實(shí)性和可靠性。
雙語(yǔ)平行語(yǔ)料庫(kù)和檢索工具對(duì)雙語(yǔ)教學(xué)起到了很大的促進(jìn)作用。它在幫助學(xué)生自學(xué)英語(yǔ),提高雙語(yǔ)能力方面是其它教科書(shū)和工具書(shū)所不能替代的。同時(shí)它又能幫助教師制作出準(zhǔn)確的詞匯教學(xué)大綱和詞表,編排科學(xué)的練習(xí)。大量例證已經(jīng)表明,雙語(yǔ)平行語(yǔ)料庫(kù)在大學(xué)語(yǔ)教學(xué)上有著廣闊的使用前景和潛在的開(kāi)發(fā)價(jià)值。語(yǔ)料庫(kù)只是一個(gè)工具,對(duì)語(yǔ)料的收集、整理和使用都要求使用者具備語(yǔ)言學(xué)、外語(yǔ)教學(xué)等多方面知識(shí)。教師應(yīng)樹(shù)立實(shí)證思想,對(duì)英漢語(yǔ)義、語(yǔ)法、語(yǔ)篇對(duì)比、英漢雙語(yǔ)搭配、英漢互譯規(guī)律等有敏銳意識(shí),經(jīng)常求證語(yǔ)料庫(kù),以促進(jìn)雙語(yǔ)教學(xué)。[11]
(注:本論文是九江學(xué)院校級(jí)課題《面向雙語(yǔ)教學(xué)的平行語(yǔ)料庫(kù)構(gòu)建及應(yīng)用研究》階段性成果之一。)
[1][3]王克非,等.雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù):研制與應(yīng)用[M].北京:外語(yǔ)教學(xué)與研究出版社,2003.
[2][4][5][6]錢(qián)之瑩.漢英/英漢平行翻譯語(yǔ)料庫(kù)的設(shè)計(jì)及其在翻譯中的應(yīng)用[D].華東師范大學(xué)優(yōu)秀碩士論文,2005-04.
[7]常寶寶,等.雙語(yǔ)語(yǔ)料庫(kù)收集整理加工任務(wù)說(shuō)明書(shū)以及相關(guān)規(guī)范[EB/ 0L].Http://www.icl.pku.edu.cn/icl-groups/parallel/workspace/973MT-specification-of-ParaCorpus-V1.0.Pdf,2002.
[8]鄧飛.向教學(xué)的英漢雙語(yǔ)平行語(yǔ)料庫(kù)的創(chuàng)建及其應(yīng)用[J].惠州學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2005-08,25(4).
[9]王克非.雙語(yǔ)平行語(yǔ)料庫(kù)在翻譯教學(xué)上的用途 [J].外語(yǔ)電化教學(xué),2004,(6).
[10]Rundell M.The BNC-a spoken corpus[J].Modern English Teacher, 1995,(4):13-15.
[11]謝家成.小型英漢平行語(yǔ)料庫(kù)的建立與運(yùn)用[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2004-05,27(3).
湖北經(jīng)濟(jì)學(xué)院學(xué)報(bào)·人文社科版2010年4期