[摘要]本文主要從研究目的、研究方法、研究工具、分析結(jié)果幾方面淺析了南京大學(xué)外國(guó)語(yǔ)學(xué)院高超博士如何運(yùn)用語(yǔ)料庫(kù)方法對(duì)研究對(duì)象進(jìn)行定量研究分析,探討了語(yǔ)料庫(kù)在其文章中是怎樣發(fā)揮研究作用,從而得出明晰、高效的分析結(jié)果的。通過(guò)以上分析,歸結(jié)出了采用語(yǔ)料庫(kù)去研究相關(guān)問(wèn)題是一種非??陀^、有效的新興研究方法。對(duì)這種研究方法的廣泛使用可以使語(yǔ)料庫(kù)在語(yǔ)言分析領(lǐng)域發(fā)揮更大的作用,產(chǎn)生更大的價(jià)值。
[關(guān)鍵詞]《基于語(yǔ)料庫(kù)的中國(guó)新聞?dòng)⒄Z(yǔ)主題詞研究》;語(yǔ)料庫(kù);主題詞;語(yǔ)言研究
[中圖分類(lèi)號(hào)]H313.1 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1005-3115(2014)14-0059-02
在2006年第6期《北京第二外國(guó)語(yǔ)學(xué)院學(xué)報(bào)》(外語(yǔ)版)上,南京大學(xué)外國(guó)語(yǔ)學(xué)院高超博士發(fā)表了題為《基于語(yǔ)料庫(kù)的中國(guó)新聞?dòng)⒄Z(yǔ)主題詞研究》的論文。作者指出其研究采用基于CENAC語(yǔ)料庫(kù)(中國(guó)英語(yǔ)新聞?wù)Z料庫(kù))和BNC語(yǔ)料庫(kù)(英國(guó)國(guó)家語(yǔ)料庫(kù)),來(lái)分析中國(guó)的英語(yǔ)新聞中詞匯與主題表達(dá)之間的相互關(guān)系,以及詞匯的使用和語(yǔ)言學(xué)特征。其論文旨在以中國(guó)的英語(yǔ)新聞為例,通過(guò)對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)統(tǒng)計(jì)方法探究中國(guó)人在中國(guó)本土使用英語(yǔ)的現(xiàn)狀、所用語(yǔ)料庫(kù)中材料與主題之間的關(guān)系,從而進(jìn)一步從新的視角來(lái)分析探索中國(guó)的英語(yǔ)新聞特征。本文簡(jiǎn)要分析其文章中對(duì)語(yǔ)料庫(kù)研究方法的運(yùn)用以及語(yǔ)料庫(kù)在當(dāng)今語(yǔ)言研究中的重要性。
一、語(yǔ)料庫(kù)簡(jiǎn)介
語(yǔ)料庫(kù)(corpus,復(fù)數(shù)corpora),指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫(kù),借助計(jì)算機(jī)分析工具,研究者可開(kāi)展相關(guān)的語(yǔ)言理論及應(yīng)用研究。關(guān)于語(yǔ)料庫(kù)有三點(diǎn)基本認(rèn)識(shí):語(yǔ)料庫(kù)中存放的是在語(yǔ)言的實(shí)際使用中真實(shí)出現(xiàn)過(guò)的語(yǔ)言材料;語(yǔ)料庫(kù)是以電子計(jì)算機(jī)為載體承載語(yǔ)言知識(shí)的基礎(chǔ)資源;真實(shí)語(yǔ)料需要經(jīng)過(guò)加工(分析和處理),才能成為有用的資源。
語(yǔ)料庫(kù)是語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的基礎(chǔ)資源,也是經(jīng)驗(yàn)主義語(yǔ)言研究方法的主要資源,應(yīng)用于詞典編纂、語(yǔ)言教學(xué)、傳統(tǒng)語(yǔ)言研究、自然語(yǔ)言處理中基于統(tǒng)計(jì)或?qū)嵗难芯康确矫妗?/p>
二、研究簡(jiǎn)述
(一)研究目的
中國(guó)英語(yǔ)在英語(yǔ)家族中是很重要的一員。擁有傳奇英語(yǔ)學(xué)習(xí)經(jīng)歷的復(fù)旦大學(xué)教授葛傳規(guī)是“中國(guó)英語(yǔ)”概念的最早提出者,這一概念是葛傳規(guī)教授于1980年在《翻譯通訊》期刊中發(fā)表的《漫談?dòng)蓾h譯英問(wèn)題》一文中首次提出。1993年,北京外國(guó)語(yǔ)大學(xué)中國(guó)外語(yǔ)教育研究中心的李文中教授指出,中國(guó)英語(yǔ)的出現(xiàn)是英語(yǔ)在中國(guó)被很好地運(yùn)用的現(xiàn)實(shí)。
高超在其文章引言中首先介紹了“中國(guó)英語(yǔ)”這一概念的由來(lái)和現(xiàn)狀,從而引出了通過(guò)數(shù)據(jù)統(tǒng)計(jì)的方法,對(duì)中國(guó)英語(yǔ)新聞的主題詞進(jìn)行研究分析,并探討了中國(guó)的英語(yǔ)新聞中詞匯與主題表達(dá)之間的相互關(guān)系以及詞匯的使用和語(yǔ)言學(xué)特征,還有作者的文章對(duì)教材開(kāi)發(fā)、詞典編撰、世界英語(yǔ)的研究等所提供的借鑒作用。
(二)研究方法
《基于語(yǔ)料庫(kù)的中國(guó)新聞?dòng)⒄Z(yǔ)主題詞研究》一文作者高超采用了微型語(yǔ)料庫(kù)CENAC(中國(guó)英語(yǔ)新聞?wù)Z料庫(kù))和英國(guó)國(guó)家語(yǔ)料庫(kù)BNC。她的分析步奏明晰,分為三個(gè)步驟:制定標(biāo)準(zhǔn),收集文本并轉(zhuǎn)換成純文本格式;運(yùn)用統(tǒng)計(jì)軟件處理文本,生成主題詞詞表和數(shù)據(jù)庫(kù);標(biāo)注漢語(yǔ)借詞、造詞、發(fā)生語(yǔ)義轉(zhuǎn)換的詞。微型語(yǔ)料庫(kù)CENAC是中國(guó)英語(yǔ)語(yǔ)料庫(kù)(China English Corpus)的一個(gè)子語(yǔ)料庫(kù),是由李文中博士領(lǐng)導(dǎo)創(chuàng)建的一個(gè)觀察語(yǔ)料庫(kù)。它包含來(lái)自《中國(guó)日?qǐng)?bào)》、《北京周末》和《上海星報(bào)》2002年的2296個(gè)新聞文章的文本,共計(jì)1263211個(gè)詞。作者將英國(guó)國(guó)家語(yǔ)料庫(kù)BNC設(shè)為用來(lái)對(duì)比的參照語(yǔ)料庫(kù),包括4124個(gè)現(xiàn)代英語(yǔ)文本,共計(jì)100106008個(gè)詞。作者所運(yùn)用的兩個(gè)語(yǔ)料庫(kù)所包含的語(yǔ)料豐富,可以為她的分析研究很好地發(fā)揮作用。
(三)研究工具
作者所采用的語(yǔ)料庫(kù)分析軟件是Word Smith Tools,主要用來(lái)生成詞表和主題詞數(shù)據(jù)庫(kù)(顯著性水平設(shè)定為p<0.0000001)。作者主要是對(duì)CENAC和BNC中的主題詞和關(guān)鍵主題詞進(jìn)行主題分析和語(yǔ)言學(xué)特點(diǎn)分析。CENAC的文本共分為十二類(lèi):文化生活、政治、經(jīng)濟(jì)、法律、環(huán)境、教育、科學(xué)、體育、交通通信、廣告、工業(yè)、農(nóng)業(yè)。經(jīng)過(guò)數(shù)據(jù)處理可以提取語(yǔ)料庫(kù)中的主題詞、關(guān)鍵主題詞和它們的聯(lián)想詞。Word Smith Tools是一個(gè)在Window下運(yùn)行的用來(lái)觀測(cè)文字在文本中的表現(xiàn)的功能強(qiáng)大的綜合軟件包。它共包含Concord(語(yǔ)境共現(xiàn)檢索工具)、Word List (詞頻列表檢索工具)、Key Words(關(guān)鍵詞檢索工具)、Splitter(文本分割工具)、Text Converter (文本替換工具)、Viewer(文本瀏覽工具)六個(gè)程序,其中前面三個(gè)程序是主要文本檢索工具,后面三個(gè)程序?qū)儆谳o助性工具。
4.分析結(jié)果
作者文章的主題分析和語(yǔ)言學(xué)特征分析顯示出四點(diǎn)結(jié)果:其一,在CENAC語(yǔ)料庫(kù)中的詞匯運(yùn)用與中國(guó)社會(huì)文化環(huán)境有緊密的聯(lián)系,詞匯幾乎涉及到了中國(guó)社會(huì)文化各個(gè)領(lǐng)域,例如文化、政治等;其二,詞匯運(yùn)用與主題表達(dá)也密切相關(guān),主題詞、關(guān)鍵主題詞和它們的聯(lián)想詞之間有聯(lián)想和共現(xiàn)關(guān)系,共同構(gòu)成一定的語(yǔ)義網(wǎng)絡(luò);其三,CENAC數(shù)據(jù)庫(kù)中出現(xiàn)大量本土化詞匯(主要用來(lái)表示與中國(guó)相關(guān)的人名、地名和中國(guó)特有的事物,以及中國(guó)人的文化價(jià)值觀等),其中包括漢語(yǔ)外來(lái)詞、造詞、共享的英語(yǔ)詞匯等等,而這些里面漢語(yǔ)外來(lái)詞的數(shù)量是最多的;其四,中國(guó)英語(yǔ)的詞匯極其富有創(chuàng)造力,尤其是本土化詞匯。另外,作者的此研究對(duì)教材開(kāi)發(fā)、詞典編撰、世界英語(yǔ)的研究等也有一定的借鑒作用。
三、研究分析
運(yùn)用語(yǔ)料庫(kù)進(jìn)行語(yǔ)言類(lèi)研究分析是非常有效、非常必要的。在《基于語(yǔ)料庫(kù)的中國(guó)新聞?dòng)⒄Z(yǔ)主題詞研究》一文中,若同樣是對(duì)中國(guó)新聞中的英語(yǔ)主題詞進(jìn)行研究,但卻不運(yùn)用語(yǔ)料庫(kù)進(jìn)行分析,這項(xiàng)研究是很難順利進(jìn)行下去的。
首先,中國(guó)新聞?dòng)⒄Z(yǔ)詞匯的數(shù)量是非常龐大的。中國(guó)是一個(gè)超級(jí)大國(guó),無(wú)論人口、地域、文化等,其數(shù)量都是驚人的。在社會(huì)越來(lái)越發(fā)達(dá)的21世紀(jì),不管是經(jīng)濟(jì)、政治還是文化領(lǐng)域,中國(guó)都越來(lái)越多地與世界中的各個(gè)國(guó)家產(chǎn)生來(lái)往。因此,可想而知,在文化和信息高度發(fā)展的今天,英語(yǔ)新聞報(bào)刊和視頻的數(shù)量是數(shù)不勝數(shù)的。想對(duì)這樣一個(gè)數(shù)量無(wú)法統(tǒng)計(jì)的文本進(jìn)行研究并分析,如果沒(méi)有一個(gè)數(shù)據(jù)庫(kù)來(lái)作為基礎(chǔ)支撐,將會(huì)步履維艱。
其次,如果沒(méi)有運(yùn)用語(yǔ)料庫(kù),即使勉強(qiáng)得出了一個(gè)結(jié)果,這個(gè)結(jié)果的正確率和清晰度也是無(wú)法肯定的。對(duì)數(shù)據(jù)庫(kù)的運(yùn)用不僅使得研究得以進(jìn)行,并且在使用數(shù)據(jù)庫(kù)進(jìn)行分析后會(huì)發(fā)現(xiàn)得出的結(jié)果一目了然、清晰明了。譬如作者在使用CENAC語(yǔ)料庫(kù)分析得出的與政治相關(guān)的主題詞結(jié)果中,“China”、“United”、“States”三詞高頻出現(xiàn),這個(gè)現(xiàn)象向我們傳達(dá)了一個(gè)很清晰的信息,那就是中美關(guān)系在中國(guó)政治新聞中的重要性。另一個(gè)例子,在與人物相關(guān)的主題詞中,唯一出現(xiàn)的一位古代帝王是“Kangxi”,這個(gè)主題詞的分析結(jié)果顯示了在中國(guó)英語(yǔ)新聞中出現(xiàn)的與人物有關(guān)的詞中,最受公眾關(guān)注的帝王是康熙——中國(guó)古代最有名的帝王之一。
第三,如果沒(méi)有運(yùn)用語(yǔ)料庫(kù),其得出的結(jié)果中,不會(huì)映射出與所查主題詞相關(guān)聯(lián)的其他高頻關(guān)聯(lián)詞,也不會(huì)得出相應(yīng)的有關(guān)各個(gè)領(lǐng)域(政治、經(jīng)濟(jì)、文化、飲食等)的結(jié)論。例如文中指出的與交通運(yùn)輸和住房相關(guān)的詞“Lu”(路)、“Hutong”(胡同)、“Dajie”(大街)等,通過(guò)索引我們會(huì)發(fā)現(xiàn),在中國(guó),胡同的歷史很悠久,可以一直追溯到元朝(1271~1368)。胡同的名字也是五花八門(mén)、各有特色,譬如“Guirenguan Hutong”——貴人關(guān)胡同、“Gouyiba Huton”——狗尾巴胡同、“Yaba Hutong”——啞巴胡同、“KoudaiHutong”——口袋胡同、“Mashenmiao Hutong”——馬神廟胡同。再例如“sides”一詞在數(shù)據(jù)庫(kù)所選文本中共出現(xiàn)66次,其中35次與“both”搭配使用,27次與“two”搭配使用。說(shuō)明在中國(guó)的新聞中,“side”是與“both”和“two”常做搭配使用的,“both sides”和“two sides”被稱(chēng)作“l(fā)iang’an”(兩岸),在中國(guó),這兩個(gè)詞當(dāng)然特指的是臺(tái)灣海峽兩岸。這三個(gè)英文單詞在中國(guó)新聞中如此高頻率地被用到,說(shuō)明“兩岸”話(huà)題在中國(guó)備受關(guān)注。
作者高超充分運(yùn)用數(shù)據(jù)庫(kù)研究分析法探究了中國(guó)的英語(yǔ)新聞中詞匯與主題表達(dá)之間的密切聯(lián)系,英語(yǔ)新聞中主題詞的出現(xiàn)不僅是一種語(yǔ)言或信息上的傳入,更重要的是它體現(xiàn)了與之相關(guān)的中國(guó)文化、政治、社會(huì)等各個(gè)方面的隱射意義。
四、結(jié)語(yǔ)
語(yǔ)料庫(kù)語(yǔ)言學(xué)是一門(mén)新興學(xué)科,它是在20世紀(jì)中后期才嶄露頭角的,它像一名富有活力的少年經(jīng)歷了多年的成長(zhǎng),現(xiàn)在正在走向成熟并散發(fā)出強(qiáng)大的魅力。語(yǔ)料庫(kù)現(xiàn)已成為一個(gè)重要的研究手段,它不僅為語(yǔ)言的定量研究提供了更加科學(xué)的研究方法和更加廣泛的言語(yǔ)素材,也使得語(yǔ)言研究的傳統(tǒng)觀念、方法得到了更好的更新。通過(guò)對(duì)《基于語(yǔ)料庫(kù)的中國(guó)新聞?dòng)⒄Z(yǔ)主題詞研究》一文中語(yǔ)料庫(kù)方法運(yùn)用的分析,語(yǔ)言研究者將更加明確,采用語(yǔ)料庫(kù)去研究相關(guān)問(wèn)題是非??陀^的一種新興、有效的研究方法。對(duì)這種研究方法的廣泛使用可以使語(yǔ)料庫(kù)在言語(yǔ)分析領(lǐng)域發(fā)揮更大的作用,產(chǎn)生更大的價(jià)值。
[參考文獻(xiàn)]
[1] Scott,M.R.Word Smith Tools[M].Oxford University Press,1996.
[2]Thomas,J主編,何安平導(dǎo)讀.用語(yǔ)料庫(kù)研究語(yǔ)言[M].北京:外語(yǔ)教學(xué)與研究出版社,2001.
[3]高超.基于語(yǔ)料庫(kù)的中國(guó)新聞?dòng)⒄Z(yǔ)主題詞研究[J].北京第二外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2006,(6).