張博
摘 要:英漢商務(wù)信函語(yǔ)料庫(kù)中語(yǔ)塊提取研究在借鑒語(yǔ)塊理論研究的基礎(chǔ)上,提出商務(wù)信函中英語(yǔ)和漢語(yǔ)語(yǔ)塊的界定標(biāo)準(zhǔn),對(duì)其進(jìn)行了分類和形式化描述,提出了一種基于規(guī)則匹配的方案,通過(guò)自動(dòng)在互聯(lián)網(wǎng)上采集網(wǎng)頁(yè)構(gòu)筑動(dòng)態(tài)語(yǔ)料庫(kù),利用英漢商務(wù)信函語(yǔ)塊的結(jié)構(gòu)、意義和功能等方面的特征制定英漢商務(wù)信函語(yǔ)塊自動(dòng)提取規(guī)則,從而實(shí)現(xiàn)從未經(jīng)人工校對(duì)、自動(dòng)分詞以及詞性標(biāo)注的生語(yǔ)料中自動(dòng)提取英漢商務(wù)信函語(yǔ)塊的功能。該文依據(jù)語(yǔ)塊理論來(lái)探討英漢商務(wù)信函語(yǔ)料庫(kù)中語(yǔ)塊提取研究的研究目的,主要工作和研究成果。
關(guān)鍵詞:英漢商務(wù)信函 語(yǔ)料庫(kù) 語(yǔ)塊提取 研究目的
中圖分類號(hào):F711 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2015)08(c)-0190-02
1 語(yǔ)塊理論
語(yǔ)塊研究在國(guó)內(nèi)外語(yǔ)言學(xué)界已引起廣泛的重視。該研究的熱潮可從2009年5月在對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)英語(yǔ)學(xué)院成功召開(kāi)的“首屆全國(guó)語(yǔ)言語(yǔ)塊教學(xué)與研究學(xué)術(shù)研討會(huì)”得到印證。國(guó)內(nèi)的語(yǔ)塊研究越來(lái)越細(xì)致、深入,主要涉及搭配的研究;揭示詞塊運(yùn)用與英語(yǔ)口語(yǔ)和寫(xiě)作之間的關(guān)系;強(qiáng)調(diào)詞塊學(xué)習(xí)在二語(yǔ)習(xí)得中的重要地位;語(yǔ)塊提取等。Sinclair(1991)認(rèn)為:那些出現(xiàn)頻率高的詞匯串成了英語(yǔ)中基本的語(yǔ)言單位,大約70%的英語(yǔ)語(yǔ)言由存儲(chǔ)于人體大腦的語(yǔ)言板塊構(gòu)成。由于商務(wù)信函中的語(yǔ)言大多是具有一定的言語(yǔ)程式或行話,如:Enclosed please find…(隨函附寄……,請(qǐng)查收),cash on delivery(貨到付款)等。此種言語(yǔ)程式或行話由于出現(xiàn)頻率很高, 并且形式和意義較固定, 使用的語(yǔ)境也較固定, 就像一個(gè)板塊一樣??梢灶A(yù)測(cè),借助于語(yǔ)料庫(kù)、統(tǒng)計(jì)分析、認(rèn)知科學(xué)等方面的知識(shí)和方法,語(yǔ)塊理論應(yīng)用于語(yǔ)言教學(xué)、信息檢索和機(jī)器翻譯等方面的研究將更為明確化和具體化。因此,英漢商務(wù)信函語(yǔ)料庫(kù)的構(gòu)建及語(yǔ)塊提取具有重要意義。
國(guó)內(nèi)外學(xué)者對(duì)“語(yǔ)塊(chunks)”的表述有多種形式,如: “l(fā)exical phrases”(Nattinger & DeCarrico,1992),“formulaic sequence” (Wray,2002)。雖然名稱不同,且這些名稱所指的內(nèi)容也有一定的差別,但其探討的本質(zhì)基本相同。Lewis (1997) 認(rèn)為,語(yǔ)言不是由傳統(tǒng)的語(yǔ)法結(jié)構(gòu)與詞匯組成,而是由多詞的語(yǔ)塊組成的。Altenberg & Granger(2001)發(fā)現(xiàn),大約70%的日??谡Z(yǔ)都是由預(yù)制語(yǔ)塊構(gòu)成的。半固定化的結(jié)構(gòu)和其它預(yù)制語(yǔ)言或“板塊”結(jié)構(gòu)在語(yǔ)言習(xí)得和語(yǔ)言運(yùn)用中起十分重要的作用。因此,我們不應(yīng)該僅僅在課堂中提供給學(xué)生大量的抽象的語(yǔ)法結(jié)構(gòu)、孤立的單詞或者大段語(yǔ)篇的輸入,而應(yīng)該教給學(xué)生類似語(yǔ)塊這種結(jié)合了語(yǔ)法結(jié)構(gòu)、意義和功能的語(yǔ)言單位,且通過(guò)大量重復(fù)性的操練使這些語(yǔ)塊固定在學(xué)生的心理詞庫(kù)中。
關(guān)于語(yǔ)塊的研究方法,現(xiàn)有的研究主要使用了語(yǔ)法學(xué)方法、語(yǔ)料庫(kù)語(yǔ)言學(xué)方法、語(yǔ)言心理學(xué)研究方法以及近年來(lái)才出現(xiàn)的教學(xué)實(shí)驗(yàn)研究方法。語(yǔ)法學(xué)的研究方法出現(xiàn)得最早,這種方法強(qiáng)調(diào)要對(duì)語(yǔ)塊的定義和所包含的范圍進(jìn)行嚴(yán)格的界定。但從研究成果來(lái)看,語(yǔ)塊的名稱、定義和分類有很多種,沒(méi)有形成一個(gè)統(tǒng)一的受到普遍認(rèn)可的理論框架。且現(xiàn)有的對(duì)語(yǔ)塊的定義和分類都是在對(duì)英語(yǔ)這一語(yǔ)言進(jìn)行分析的基礎(chǔ)上進(jìn)行的,不能確定這種定義和分類方法也適合其他語(yǔ)言。并且,語(yǔ)塊的范圍是可變的,在不同的領(lǐng)域,如語(yǔ)言教學(xué)領(lǐng)域的語(yǔ)塊,就不同于文學(xué)創(chuàng)作領(lǐng)域的語(yǔ)塊。語(yǔ)料庫(kù)語(yǔ)言學(xué)方法注重通過(guò)考察在大規(guī)模語(yǔ)料庫(kù)中的出現(xiàn)頻率再加上常識(shí)判斷來(lái)識(shí)別多詞結(jié)構(gòu)、固定搭配和其他反復(fù)出現(xiàn)的語(yǔ)塊。在語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究領(lǐng)域,語(yǔ)塊的提取一直是個(gè)難題?,F(xiàn)有的詞塊提取方法主要有搭配法、詞叢法和搭配——詞叢法,在此基礎(chǔ)之上,濮建忠(2007)獨(dú)辟蹊徑,構(gòu)建了語(yǔ)料庫(kù)數(shù)據(jù)驅(qū)動(dòng)的連續(xù)詞塊自動(dòng)提取模型,這不僅有效地排除了“結(jié)構(gòu)”和“意義”不完整的噪音序列,而且較好地避免了詞叢法選取的詞塊之間的重疊部分,提取出的詞塊準(zhǔn)確地反映了真實(shí)語(yǔ)言的使用情況(李晶潔,衛(wèi)乃興2010)。
筆者認(rèn)為,上述方法都有各自的優(yōu)點(diǎn)和不足之處。同時(shí),各種方法又相輔相成、互為依據(jù)、互相補(bǔ)充。語(yǔ)法學(xué)研究方法是所有其他研究之根本,不對(duì)語(yǔ)塊的概念進(jìn)行嚴(yán)格的定義,不按照統(tǒng)一標(biāo)準(zhǔn)對(duì)語(yǔ)塊進(jìn)行分類,就無(wú)法使用篩選、統(tǒng)計(jì)、分析等語(yǔ)料庫(kù)語(yǔ)言學(xué)方法; 不通過(guò)語(yǔ)言心理學(xué)的相關(guān)研究方法,使用語(yǔ)法學(xué)研究方法研究出的理論就會(huì)缺乏相應(yīng)的科學(xué)依據(jù);不通過(guò)教學(xué)實(shí)驗(yàn),使用語(yǔ)法學(xué)研究方法提出的關(guān)于語(yǔ)塊作用的理論也得不到驗(yàn)證。
總的來(lái)看,語(yǔ)塊研究在國(guó)內(nèi)剛起步,還有許多問(wèn)題尚待研究,應(yīng)加強(qiáng)語(yǔ)塊本體和應(yīng)用的研究,特別是筆者關(guān)注的語(yǔ)言教學(xué)和翻譯領(lǐng)域。因此,英漢商務(wù)信函語(yǔ)料庫(kù)的構(gòu)建及語(yǔ)塊提取具有重要意義。
2 研究目的
到目前為止,國(guó)內(nèi)外鮮有學(xué)者專門(mén)針對(duì)英漢商務(wù)信函語(yǔ)料庫(kù)中的語(yǔ)塊提取展開(kāi)研究。由于商務(wù)交往中有相當(dāng)?shù)囊徊糠謨?nèi)容是通過(guò)信函形式進(jìn)行,針對(duì)英漢商務(wù)信函語(yǔ)塊對(duì)商務(wù)英語(yǔ)教學(xué)、信息檢索和機(jī)器翻譯等方面工作造成的障礙,英漢商務(wù)信函語(yǔ)料庫(kù)中語(yǔ)塊提取研究在借鑒其他語(yǔ)塊研究的基礎(chǔ)上,提出了商務(wù)信函中英語(yǔ)和漢語(yǔ)語(yǔ)塊的界定標(biāo)準(zhǔn),對(duì)其進(jìn)行了分類和形式化描述并提出了一種基于規(guī)則匹配的方案,通過(guò)自動(dòng)在互聯(lián)網(wǎng)上采集網(wǎng)頁(yè)構(gòu)筑動(dòng)態(tài)語(yǔ)料庫(kù),利用英漢商務(wù)信函語(yǔ)塊結(jié)構(gòu)、意義和功能等方面的特征制定英漢商務(wù)信函語(yǔ)塊自動(dòng)提取規(guī)則,從而實(shí)現(xiàn)從未經(jīng)人工校對(duì)、自動(dòng)分詞以及詞性標(biāo)注的生語(yǔ)料中自動(dòng)提取英漢商務(wù)信函語(yǔ)塊的功能。
3 主要工作和研究成果
(1)在借鑒英語(yǔ)和漢語(yǔ)對(duì)語(yǔ)塊概念與分類研究的基礎(chǔ)上,將英漢商務(wù)信函語(yǔ)塊分為三種類型:全稱縮略語(yǔ)塊、慣用表達(dá)語(yǔ)塊、專業(yè)術(shù)語(yǔ)語(yǔ)塊。(2)為了制定英漢商務(wù)信函語(yǔ)塊自動(dòng)提取規(guī)則,通過(guò)對(duì)大量英漢商務(wù)信函語(yǔ)料的分析,將基于規(guī)則的英漢商務(wù)信函語(yǔ)塊自動(dòng)提取共包括三個(gè)步驟:文本預(yù)處理、英漢商務(wù)信函語(yǔ)塊識(shí)別和后期處理,并對(duì)其進(jìn)行了形式化描述,分析了基于規(guī)則的英漢商務(wù)信函語(yǔ)塊自動(dòng)提取的關(guān)鍵技術(shù)。(3)設(shè)計(jì)制作英漢商務(wù)信函語(yǔ)塊自動(dòng)提取實(shí)驗(yàn)系統(tǒng),通過(guò)“網(wǎng)頁(yè)自動(dòng)下載模塊、語(yǔ)料信息抽取與格式化模塊、文本預(yù)處理模塊、英漢商務(wù)信函語(yǔ)塊識(shí)別模塊、后期處理模塊”五個(gè)模塊,采用基于規(guī)則的方法實(shí)現(xiàn)了從未經(jīng)人工校對(duì)、自動(dòng)分詞以及詞性標(biāo)注的生語(yǔ)料文本中自動(dòng)提取英漢商務(wù)信函語(yǔ)塊的功能,取得了較好的提取效果。
4 研究意義
語(yǔ)塊數(shù)量如此之多,僅靠死記硬背是不現(xiàn)實(shí)的,因此,研究如何利用語(yǔ)料庫(kù)進(jìn)行語(yǔ)塊的提取,在語(yǔ)言教學(xué)和機(jī)器翻譯等方面的研究中具有十分重要的意義。英漢商務(wù)信函語(yǔ)料庫(kù)中語(yǔ)塊提取研究是利用計(jì)算機(jī)進(jìn)行基于英漢商務(wù)信函雙語(yǔ)語(yǔ)料庫(kù)的語(yǔ)塊提取研究,具有多方面的重要意義:(1)該研究為開(kāi)展對(duì)外經(jīng)貿(mào)交流和向國(guó)外有關(guān)企業(yè)機(jī)構(gòu)提供經(jīng)濟(jì)技術(shù)合作和貿(mào)易方面的信息咨詢服務(wù)并解決英漢商務(wù)信函中的語(yǔ)言溝通障礙。(2)英漢商務(wù)信函語(yǔ)塊自動(dòng)提取的實(shí)現(xiàn)為英漢商務(wù)信函機(jī)器輔助翻譯系統(tǒng)的譯準(zhǔn)率提高起到關(guān)鍵作用,為研制在互聯(lián)網(wǎng)上進(jìn)行機(jī)器輔助英漢商務(wù)信函翻譯系統(tǒng)提供基礎(chǔ),為研制經(jīng)貿(mào)專業(yè)機(jī)器翻譯系統(tǒng)創(chuàng)造必要的條件。(3)英漢商務(wù)信函語(yǔ)塊自動(dòng)提取方法對(duì)進(jìn)一步對(duì)大規(guī)模各種專業(yè)的雙語(yǔ)語(yǔ)料利用計(jì)算機(jī)自動(dòng)提取語(yǔ)塊提供了思路。(4)構(gòu)建的一個(gè)規(guī)模為100萬(wàn)詞次的英漢商務(wù)信函語(yǔ)料庫(kù)(包括四個(gè)子庫(kù):英語(yǔ)商務(wù)信函語(yǔ)料庫(kù),漢語(yǔ)商務(wù)信函語(yǔ)料庫(kù),英漢商務(wù)信函平行語(yǔ)料庫(kù),漢英商務(wù)信函平行語(yǔ)料庫(kù))該庫(kù)為動(dòng)態(tài)的,可以自動(dòng)獲取服務(wù)于語(yǔ)塊自動(dòng)提取的知識(shí)資源,是面向商務(wù)領(lǐng)域的一個(gè)特定的語(yǔ)料庫(kù),它對(duì)商務(wù)英語(yǔ)學(xué)習(xí)者、商務(wù)漢語(yǔ)學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到指導(dǎo)作用。
參考文獻(xiàn)
[1] 濮建忠.英語(yǔ)詞匯教學(xué)中的類聯(lián)接、搭配及詞塊[J].外語(yǔ)教學(xué)與研究,2003(6):438-445.
[2] Wray, A. Formulaic Language and the Lexicon[M].Cambridge: Cambridge University Press,2002.
[3] Altenberg B.& Granger S.The Grammatical and Lexical Patterning of “Make”in Native and Non native Student Writing[J].Applied Linguistics,2001,22(2):173-194.
[4] 王立非,陳香蘭.語(yǔ)言語(yǔ)塊教學(xué)與研究在中國(guó)的進(jìn)展—— “首屆全國(guó)語(yǔ)言語(yǔ)塊教學(xué)與研究學(xué)術(shù)研討會(huì)”綜述[J].外國(guó)語(yǔ),2009(6):90-94.
[5] 曹合建.基于語(yǔ)料庫(kù)的商務(wù)英語(yǔ)研究[M].北京:對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2008.
[6] 李晶潔,衛(wèi)乃興.學(xué)術(shù)英語(yǔ)文本中連續(xù)短語(yǔ)單位的提取方法[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2010(2):45-50.