崔穎
摘 要: 語料庫是對生活中的語言資料加以收集和整理,便于使用者進行研究和分析的一種研究方法。我國對語料庫的研究雖落后于西方,但是從上世紀(jì)開始,國內(nèi)語料庫取得了前所未有的發(fā)展。本文陳述了國內(nèi)語料庫的分類,分析了語料庫的應(yīng)用和在國內(nèi)的發(fā)展趨勢,為語料庫的使用者和研究者提供了了解語料庫的途徑。
關(guān)鍵詞: 語料庫 分類應(yīng)用 發(fā)展趨勢
語料庫研究是基于人類真實的語言資料,調(diào)查和分析語言的分布、使用規(guī)律、使用頻率和使用模式的一種研究方法。電腦科技的發(fā)展,為語料庫研究帶來了前所未有的發(fā)展機會。由于電腦具有龐大的存儲功能、篩查功能和分析功能,20世紀(jì)的中后期形成了許多對電腦語料庫的對比研究的語言學(xué)理論。
從20世紀(jì)20年代開始就有學(xué)者為制定基礎(chǔ)漢字字表開始建立語料庫。自上世紀(jì)70年代末以來,現(xiàn)代漢語語料庫(1983年)等機器可讀語料庫開始建設(shè)。90年代以后,以《人民日報》光盤數(shù)據(jù)庫、北大語料庫為代表的大型漢語語料庫日益發(fā)展,語料庫成為研究漢語的主要資源。我國從上個世紀(jì)80年代,由上海交通大學(xué)楊惠中教授為首的項目組開始建設(shè)JDEST學(xué)術(shù)英語語料庫,促進了英語語料庫語言學(xué)在中國的發(fā)展。這個語料庫是當(dāng)時世界上的第一個同類語料庫,也是國內(nèi)最大最完備的英語語料庫之一。由廣東外語外貿(mào)大學(xué)桂詩春教授和楊惠中教授合辦開發(fā)的“中國學(xué)習(xí)者語料庫”(CLEC)于1999年建成,該語料庫廣泛收集了我國中學(xué)生和大學(xué)生在內(nèi)的超過一百萬詞的各種書面語資料,并對所有語料進行了語法標(biāo)注和言語失誤的標(biāo)注,對研究中國學(xué)習(xí)者的英語特點具有開創(chuàng)性的意義。最近幾十年,隨著電腦科技的發(fā)展和教育國際化的加深,語料庫語言學(xué)在中國的發(fā)展及其快速。我國現(xiàn)有的語料庫包括口筆譯語料庫、平行語料庫,研究方向包含許多方面,包括二語習(xí)得、翻譯對比、話語分析、認知語言學(xué)等方面的研究。不同研究背景和學(xué)術(shù)背景的人都參與語料庫建設(shè),為語料庫帶來越來越多、越來越全面的研究資源。西方對語料庫的研究比中國早,通過國內(nèi)外的學(xué)術(shù)交流,國外的語言學(xué)家給中國的語料庫研究開辟了更廣闊的發(fā)展空間,帶來了許多新的知識和營養(yǎng)。
一、語料庫的分類
語料庫主要是按照其收集語料的類別,研究的服務(wù)對象或研究的目的進行分類的。我國現(xiàn)有的語料庫大致可以分為英語學(xué)習(xí)者語料庫、平行語料庫、特殊英語語料庫、漢語語料庫等。
(一)英語學(xué)習(xí)者語料庫
英語學(xué)習(xí)者語料庫由廣東外語外貿(mào)大學(xué)和上海交通大學(xué)合作建設(shè)和開發(fā),簡稱CLEC,其中搜羅100多萬詞條,主要是針對中國的中學(xué)生和大學(xué)生等英語學(xué)習(xí)者在學(xué)習(xí)中的書面語進行研究。該語料庫中標(biāo)注了學(xué)生的失誤,便于研究中國學(xué)生在習(xí)得英語的過程中的常見問題進行分析和研究。除此之外,上海交通大學(xué)所創(chuàng)立的大學(xué)英語學(xué)習(xí)者口語語料庫COLSEC包含了5萬個詞次。與CLEC不同,這個語料庫偏重英語學(xué)習(xí)者在口語中常犯的問題和錯誤,為我們對中國學(xué)生英語口語的研究提供了便利。香港科技大學(xué)建設(shè)的香港科技大學(xué)學(xué)習(xí)者語料庫HKUST Learner Corpus,是針對大學(xué)英語學(xué)習(xí)者所使用的英語所建立的語料庫,該語料庫針對的范圍主要是大學(xué)英語學(xué)習(xí)者,語料的收集主要是以在學(xué)習(xí)英語的大學(xué)生為對象,方便我們對大學(xué)生的英語思維和習(xí)慣進行研究。而南京大學(xué)建設(shè)的中國英語專業(yè)語料庫CEMC,則是針對國內(nèi)英語專業(yè)的學(xué)生設(shè)立的語料庫,這個語料庫共收集100多萬詞次。
(二)平行語料庫
北京外國語大學(xué)建設(shè)的漢英平行語料庫PCCE,是涉及范圍最廣的漢英平行語料庫。國內(nèi)還有其他的一些比較具體和專業(yè)的語料庫,比如馮友蘭的《中國哲學(xué)史》漢英對照語料庫;香港城市理工大學(xué)建設(shè)的對比語料庫LIVAC;臺灣建設(shè)的平衡語料庫Sinica Corpus;國家語言文字工作委員會應(yīng)用研究所的計算機專業(yè)的雙語語料庫,等等。
(三)特殊英語語料庫
由河南師范大學(xué)建設(shè)的中國英語(China English)語料庫;由解放軍外語學(xué)院建設(shè)的軍事英語語料庫(Corpus of Military Texts);上海交通大學(xué)建設(shè)的新視野大學(xué)英語教材語料庫,等等。
二、語料庫的應(yīng)用
(一)用于語言的研究
大量的語言素材存儲在語料庫中,按照一定的語言學(xué)原則分類組合在一起,這為語言的研究提供了方便和便利。對語言學(xué)家來說,語料庫的存在更方便他們查詢、檢索和分析語言原始數(shù)據(jù),從某種程度上說,簡化了語言學(xué)家分析語料的過程和時間,大量的語言素材使語言學(xué)家對語言的定量分析成為可能。語料庫的存在便于語言學(xué)家揭示地區(qū)語言的特征及一個區(qū)域(國家或地區(qū))的語言使用情況。語料庫中的語言資料方便語言學(xué)家對語言的某些特征或結(jié)構(gòu)進行檢索,比如某個詞匯或句型在某個語言或某個地區(qū)的語言中的分布等。
(二)用于語言測試
語料庫的存在為基于語言的測試試卷的出題和批改提供了依據(jù)。語料庫能夠揭示一些常見的問題和錯誤。對于出題者而言,能更方便地了解英語學(xué)習(xí)者在學(xué)習(xí)中常出現(xiàn)的問題和錯誤,從而在出題的時候具有針對性地測評,更真實準(zhǔn)確地反映學(xué)生的語言學(xué)習(xí)狀況。對學(xué)生而言,語料庫能夠反映他們的不足,從而推動他們對自己錯誤的改進和修正,利用語料庫做有針對性的復(fù)習(xí)和練習(xí),從而達到減少錯誤和提高語言能力的目的。
(三)用于編撰字典
語料庫中所收集的大量詞條,是來源于真實生活的,是確實存在的句子和詞匯。在字典的編撰過程中,不僅要快速顯示和反映出詞條的出現(xiàn)頻率和各個語義的使用情況,而且真實生活的詞條會比編撰的詞條更形象、生動、準(zhǔn)確。語料庫中詞匯和句型的使用還能反映語言的發(fā)展趨勢,由于語言的發(fā)展日新月異,新的詞義和詞匯不停涌現(xiàn)。語料庫能夠幫助字典的編撰者很好地掌握和了解語言的發(fā)展趨勢,從而在字典的編寫中與時俱進,添加最新的內(nèi)容。
(四)用于機器翻譯
隨著互聯(lián)網(wǎng)和國際化的發(fā)展,許多人傾向上網(wǎng)翻譯不懂的外語詞匯和句子。語料庫能夠歸納詞匯和句型的語義和語用,從而對給定的句子進行分析,從語料庫中搜索出它所認為最符合該句型或詞匯的翻譯方式。雖然仍有需要改進的地方,但大致講,翻譯軟件已經(jīng)能夠滿足基本的翻譯,為語言不通的國人提供便利。同時,語料庫還能對常見的英語或漢語錯誤進行分析,并提醒校正,大大節(jié)省翻譯者和語言學(xué)習(xí)者的時間和精力。
(五)用于語言教學(xué)
語料庫存儲的信息量相當(dāng)巨大,學(xué)習(xí)外語的學(xué)生對于如此龐大的數(shù)據(jù)庫,可以按自己的要求和需要進行檢索、分析和學(xué)習(xí)。由于語料庫中的語言信息來源于生活,因此更真實可靠,更生動多樣。語言學(xué)習(xí)者對語料庫的使用是多元化的,這樣有利于促進外語學(xué)習(xí)者的主觀能動性的發(fā)揮。語料庫的使用者對語言資料的開放式的使用,為學(xué)生提供了思考的機會,同時也為教師轉(zhuǎn)換角色提供了可能。
三、語料庫在中國的發(fā)展趨勢
語料庫在中國已經(jīng)得到長足發(fā)展,各種語料庫紛紛涌現(xiàn)。隨著教育國際化和計算機技術(shù)的發(fā)展,學(xué)習(xí)者語料庫的建設(shè)是今后語料庫研究的重點之一,口語語料庫的發(fā)展和對口語語料進行的話語分析已經(jīng)成為語料庫今后的發(fā)展方向。我國語料庫的發(fā)展雖然迅速,但仍然存在一些問題。比如,語料資源的重復(fù)性,語料庫之間的獨立非信息共享的問題,歷時語料庫對早期中國語料的收集問題,以及語料庫在教學(xué)中應(yīng)用的問題,都是亟待解決的巨大課題。
雖然語料庫發(fā)展迅速,但是仍然存在許多問題。語料庫的存在和發(fā)展,無疑為我國語言學(xué)的研究和外語學(xué)習(xí)的發(fā)展作出了巨大的貢獻。隨著計算機的普及和人們對語料庫認識的提高,語料庫的進一步發(fā)展和大規(guī)模的應(yīng)用,以及它對外語教學(xué)的指導(dǎo),會隨著時間的推移而發(fā)揮更重要的作用。
參考文獻:
[1]馮銳,朱慧,李會敏.語料庫及語料庫語言學(xué)研究初探[J].肇慶學(xué)院學(xué)報,2009(06).
[2]甄鳳超.語料庫語言學(xué)在中國的成長與發(fā)展[J].當(dāng)代外語研究,2010(03).
[3]孟塖.我國語料庫語言學(xué)研究現(xiàn)狀及展望[J].四川文理學(xué)院學(xué)報,2012(06).
[4]黃曉梅,黃勇.語料庫語言學(xué)研究發(fā)展現(xiàn)狀淺析[J].新西部(理論版),2013(08).
[5]衛(wèi)乃興.語義韻研究的一般方法[J].外語教學(xué)與研究:外國語文雙月刊,2002(4):300-307.