【摘 要】大型語料庫包含的語料信息非常龐雜,它們對于語言用法的研究、教材和詞典的編寫有著重要的意義。然而對于一線高職英語教師而言,大型語料庫的數(shù)據(jù)冗余使得針對其的觀察研究費時費力,實用性不夠強。自建小型或微型的語料庫有助于豐富外語教學(xué)環(huán)境,開展以課堂為中心的實證教學(xué)研究。但多數(shù)教師認(rèn)為自建語料庫難度太大、技術(shù)要求過高、時間和精力投入難以達(dá)到。實際上,教師可以通過使用網(wǎng)上可獲取的電子化文檔、利用有效的語料庫軟件,把精力集中于語料庫內(nèi)容的選取和呈現(xiàn)上。本文介紹微型語料庫建設(shè)的可行性、方法、步驟以及應(yīng)用,借以提倡廣大一線高職英語教師利用科研成果豐富和提高自己,讓高職英語教學(xué)更加科學(xué)化和客觀化。
【關(guān)鍵詞】微型語料庫;高職英語;檢索軟件
中圖分類號: H319.3 文獻(xiàn)標(biāo)識碼: A 文章編號: 2095-2457(2018)01-0056-002
【Abstract】The corpus information contained in the large corpus is very complicated.It is of great significance for the study of language usage, teaching materials and dictionaries. However, for first-line vocational English teachers, the data redundancy of large-scale corpus makes the observation and research on it time-consuming and laborious, and the practicability is not strong enough. Self-built small or mini corpus helps to enrich the foreign language teaching environment and carry out the classroom-centered empirical teaching research. However, most teachers think that the difficulty of self-built corpus is too high, the technical requirements are too high, and time and effort are hard to reach. In fact, teachers can focus their efforts on the selection and presentation of corpus content by using the corpus of available electronic documents available online. This article introduces the feasibility, method, procedure and application of the construction of miniature corpus, in order to promote the majority of first-line vocational English teachers to use scientific research to enrich and improve themselves, to make higher vocational English teaching more scientific and objective.
【Key words】Micro corpus; Vocational English; Retrieval software
0 引言
語料庫語言學(xué)自20 世紀(jì) 60 年代初期開始發(fā)展,是一門新興的語言學(xué)分支學(xué)科,現(xiàn)在理論和技術(shù)兩方面都已趨于成熟。它致力于研究真實的語言數(shù)據(jù),研究者需要借助語料庫檢索工具對語料文本進(jìn)行檢索、取樣、分析和統(tǒng)計,從而發(fā)現(xiàn)原本未留意的語言在真實語境中使用的模式和規(guī)律[1]。近年來,越來越多的學(xué)者和專家投入到語料庫的研究中,語料庫應(yīng)用涉及到語言研究的方方面面。
與此同時,大型通用語料庫迅猛發(fā)展,數(shù)據(jù)規(guī)模急速變大,目前已經(jīng)達(dá)到了幾億形符[2]。如英國國家語料庫BNC(British National Corpus)收集了各種來源的書面、口頭語言樣本1億字;美國當(dāng)代英語語料庫COCA(Corpus of Contemporary American English),截至2017年11月共收錄超過5.6億字的語言材料。大型語料庫包羅萬象、語料樣品多,但是繁多的語料和復(fù)雜的語境使得產(chǎn)出數(shù)據(jù)復(fù)雜,學(xué)習(xí)者或者研究者僅靠人工觀察想在結(jié)果中找出特定的內(nèi)容或者發(fā)現(xiàn)規(guī)律猶如大海撈針。相比較而言,自建語料庫建庫目標(biāo)明確、更新速度快、針對性強,適合特定教學(xué)對象的難度和興趣。而且本機(jī)操作,經(jīng)濟(jì)快捷。
但是在國內(nèi),語料庫建設(shè)方面的研究常見于本科院校,高職院校此方面的探索較少。本文以筆者自建的《絕望主婦》對白語料庫為例介紹微型語料庫建設(shè)的步驟和方法,并對如何使用微型語料庫輔助教學(xué)進(jìn)行了簡單探討。
1 自建微型語料庫的可行性
語料庫,顧名思義就是語言材料庫,其中存放的是在語言的實際使用中真實出現(xiàn)過的語言材料。梁茂成等(2010)將其定義為“一個按照一定的采樣標(biāo)準(zhǔn)采集的、由若干個電子文本構(gòu)成的、具有一定容量的‘電子文本集,并且這些電子文本可作為一個整體代表某語言或者某語言的某種變體或文類”[3]。
人們一般認(rèn)為構(gòu)建語料庫是一個花費大量人力物力的工程,大量數(shù)據(jù)的獲取和材料的規(guī)范型電子化聽起來就很難。實際上,隨著計算機(jī)技術(shù)的發(fā)展、網(wǎng)上電子文本的日益豐富、如ABBYY Fine Reader 之類OCR軟件的廣泛使用,個人收集大量真實的語料不再是一件非常困難的事情[4]。其次, WordSmith、AntConc、WordPilot和CQPweb等語料庫軟件提供了有效的技術(shù)支持。此外,個人語料庫的規(guī)模不會很大、建庫要求不是很嚴(yán)格、語料加工程度也不用很深,所以個人建設(shè)微型的教學(xué)語料庫是完全可行的。
2 高職微型語料庫的創(chuàng)建
事先設(shè)計對于語料庫建設(shè)非常重要,即使是微型教學(xué)語料庫,也是如此。建立語料庫需要有明確的目的,它直接影響了語料庫的類型和規(guī)模,并最終決定語料的選擇和整理的方式[4]。此外還要考慮取樣標(biāo)準(zhǔn)、設(shè)備、存貯方式和格式等因素。筆者在設(shè)計語料庫時,考慮到目前使用的教材語言不夠地道、與現(xiàn)實生活相脫節(jié)、缺少對應(yīng)視頻輔助這些情況,目標(biāo)是創(chuàng)建一個帶視、聽、讀資源的微型教學(xué)語料庫,激發(fā)學(xué)生的學(xué)習(xí)興趣、豐富化學(xué)生的學(xué)習(xí)體驗。
2.1 語料的選擇、采集
為了保證語料的真實性,教學(xué)語料庫應(yīng)選用母語人士的語言材料。在選擇時,優(yōu)先選用網(wǎng)上已有的電子化語料可以簡化語料庫建設(shè)的人力和物力。網(wǎng)上英語語言材料十分豐富,不僅有來自各個網(wǎng)站的最新語料,還有一些專門的電子文本庫、電影電視劇本等。此外,如果研究者找不到符合建庫目的現(xiàn)有電子文本材料,還可以利用OCR軟件電子化紙質(zhì)材料再進(jìn)行校對。
筆者建庫主要是為了使之服務(wù)于教學(xué),希望語料內(nèi)容盡可能生活化、語言的難度符合高職聽說教學(xué)的要求,并有音頻、視頻材料作為有效補充,所以在對比了《老友記》、《生活大爆炸》、《摩登家庭》和《絕望的主婦》四部英語學(xué)習(xí)者非常喜愛的美劇后,選擇了生活氣息比較濃厚、主要演員發(fā)音地道、對白語速適中的家庭倫理劇《絕望的主婦》。該劇包含很多精彩的臺詞對白,尤其是每集故事解說中使用的語句詞匯,非常值得細(xì)心品讀[5]。筆者通過互聯(lián)網(wǎng)搜集到現(xiàn)已播出的八季英中對照字幕文檔。
2.2 語料的分類和整理
收集的語料應(yīng)按照一定的原則進(jìn)行分類,分類原則在參考大型語料庫分類標(biāo)準(zhǔn)的基礎(chǔ)上兼顧實際應(yīng)用需要。創(chuàng)建語料庫文件時,需要將每一個文本獨立存放,存檔為txt純文本格式且以英文字母形式命名,這是大多數(shù)語料庫軟件支持的格式。文件命名格式也應(yīng)該統(tǒng)一,方便語料庫的后續(xù)補充添加。筆者采集的是美劇對白語料,為了便于根據(jù)檢索結(jié)果定位至相應(yīng)視頻片段,就直接按照相應(yīng)的劇集將八季文檔分為8個文件夾、178個txt文本。
從網(wǎng)絡(luò)獲取的文件,一方面其文本信息可能會有一些錯誤,要仔細(xì)核對;另一方面文本會存在不合規(guī)范的符號和格式,影響到檢索結(jié)果的正確性和可靠性,需要批量清潔與整理。筆者在實際操作中首先使用了EditPadPro、PowerGREP進(jìn)行文本格式的轉(zhuǎn)換和清潔,然后通過Super Batch Renamer統(tǒng)一重命名文本,得到了178個生文本,之后根據(jù)相應(yīng)劇集視頻快速核對這178個文本語言信息的正誤,同時刪除多余的空格和空行,減少冗余數(shù)據(jù)的產(chǎn)生。
2.3 語料的標(biāo)注和賦碼?
標(biāo)注是大型語料庫的重要規(guī)范之一,對語料庫的生文本進(jìn)行標(biāo)注可以為語料庫帶來增值[6]。按照國際通用的COCOA標(biāo)準(zhǔn),標(biāo)注多位于文件的首行,提供的相關(guān)信息放入尖括號“<>”中,便于識別。
語料的賦碼是一種特殊的標(biāo)識,它分為詞類賦碼和句法賦碼兩類。在進(jìn)行詞性賦碼之前,應(yīng)確定賦碼方案,常見的賦碼方案有CLAWS賦碼系統(tǒng)、TAGGIT系統(tǒng)和Brills tagger 賦碼系統(tǒng)[7]。賦碼標(biāo)注過的語料庫可以進(jìn)行較為復(fù)雜的檢索和分析,從而發(fā)揮更多的作用;未經(jīng)賦碼的語料庫被稱為生語料庫,只能進(jìn)行詞匯層級的檢索。筆者選用了常用的賦碼工具Tree tagger對自建語料庫生文本進(jìn)行自動詞性標(biāo)注。
2.4 微型語料庫的使用
經(jīng)過整理和標(biāo)注后的電子文本集中存放在某個文件夾中,就是自建的微型語料庫。研究者必須借助語料庫檢索工具,如Word Smith、AntConc,對語料庫進(jìn)行檢索應(yīng)用。
比如在進(jìn)行大學(xué)英語第二單元“how to express thanks and respond to it”的授課時,學(xué)生遇到了owe這個疑難詞,筆者通過在對白語料庫中檢索“owe”獲取了批量的語例、并截取了相應(yīng)的視頻片段,應(yīng)用于課堂講解中,使得教學(xué)更生動、直接,學(xué)生的學(xué)習(xí)興趣更加濃厚。再比如鑒于動詞在句子中的靈魂性作用,筆者要求學(xué)生優(yōu)先掌握一些常用動詞的用法,這時就運用了AntConc的詞匯表功能,統(tǒng)計絕望主婦各季中的高頻動詞。比如經(jīng)過概率統(tǒng)計可知,第一季23劇集中高頻使用了was,have,know,are ,get,go,like,want,think,did這十個動詞,然后再分別以這十個詞為關(guān)鍵詞進(jìn)行檢索,可以其具體的語境的使用情況。
在語料庫實際應(yīng)用中,一方面教師可以運用語料庫工具觀察和分析語料庫呈現(xiàn)的語例,發(fā)現(xiàn)語言規(guī)律和特征,使教學(xué)更具針對性;另一方面教師也可以引導(dǎo)學(xué)生分組討論從語料庫中篩選出的多行詞語索引項,自行進(jìn)行推斷、歸納和總結(jié)規(guī)律,參與自身的知識構(gòu)建中來。這響應(yīng)了以學(xué)生為中心的二語習(xí)得教學(xué)原則,也是甄鳳超(2005)所強調(diào)的“語言的習(xí)得不是一個從教師到學(xué)生的簡單過程,而是一個由學(xué)生自己發(fā)現(xiàn)和探索的過程”的體現(xiàn)[8]。
3 結(jié)語
綜上所述,自建微型語料庫加深了高職英語教師對語料庫的認(rèn)識、提高了自身的教學(xué)能力和專業(yè)素養(yǎng)。教師利用語料庫工具加工、處理語料,應(yīng)用于高職英語課堂教學(xué),不僅為教學(xué)帶來了豐富、有趣、地道的新資源,而且拓展了教學(xué)方法和教學(xué)技術(shù),從而豐富了學(xué)習(xí)者的學(xué)習(xí)體驗,讓高職英語教學(xué)更加多樣化、科學(xué)化和客觀化。但由于受到語料庫語言學(xué)、二語教學(xué)理念以及相關(guān)技術(shù)的限制,高職英語教師關(guān)于“在教學(xué)中構(gòu)建和使用微型教學(xué)語料庫的研究”還不夠充分,有待進(jìn)一步、更深入的探索。高職教師應(yīng)該經(jīng)常更新教學(xué)理念、提升科研能力,然后將語言學(xué)和二語習(xí)得方面的一些新發(fā)現(xiàn)、新成果積極運用于課堂實踐。微型語料庫的建設(shè)涉及收集、分類、整理和標(biāo)注多個環(huán)節(jié),需要研究者投入相當(dāng)多的時間和精力,但回報是非常豐厚的。尤其是標(biāo)注環(huán)節(jié),標(biāo)注的種類越多,在檢索時運用正則表達(dá)式能提取的語言信息就越多,也越能發(fā)揮語料庫的教學(xué)效力和功用。此外,研究和應(yīng)用的過程也是一個教師不斷學(xué)習(xí)和提高自我的過程。
【參考文獻(xiàn)】
[1]何安平.語料庫語言學(xué)與英語教學(xué)[M].外語教學(xué)與研究出版社,2004.
[2]楊惠中.語料庫語言學(xué)導(dǎo)論=An Introduction to Corpus Linguistics[M].上海外語教育出版社,2002.
[3]梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].北京:外語教學(xué)與研究出版社,2010.
[4]謝家成,談宏慧.學(xué)習(xí)者英漢平行語料庫的建設(shè)與運用[J].長江大學(xué)學(xué)報(社會科學(xué)版),2009,32(2):87-89.
[5]李影.語料庫在高職高專英語詞匯教學(xué)中的應(yīng)用[J].阜陽職業(yè)技術(shù)學(xué)院學(xué)報,2017,28(1):44-47.
[6]梁茂成.詞性賦碼語料庫的檢索與正則表達(dá)式的編寫[J].中國外語教育,2009(2):65-73.
[7]鄭志恒.美英報刊英語標(biāo)注語料庫建設(shè)研究[J].外語研究,2007(2):32-38.
[8]甄鳳超.語料庫數(shù)據(jù)驅(qū)動的外語學(xué)習(xí):思想、方法和技術(shù)[J].外語界,2005,04:19-27+40.
[9]Graeme Kennedy.語料庫語言學(xué)入門[M].外語教學(xué)與研究出版社,2000.
[10]何安平.語料庫與外語教學(xué)[J].國外外語教學(xué),2001,03:15-19.
[11]謝家成.論個人教學(xué)語料庫的構(gòu)建[J].外語電化教學(xué),2003,03:27-30.
[12]許葵花,張衛(wèi)平.論語料庫語言學(xué)在外語教學(xué)中的應(yīng)用[J].外語與外語教學(xué),2003,04:21-24.
[13]徐曼菲.小型語料庫在外語教學(xué)中應(yīng)用研究[J].廣東第二師范學(xué)院學(xué)報,2007,27(4):98-102.
[14]岳豪.利用AntConc在外語教學(xué)中自建小型語料庫[J]. 河南工程學(xué)院學(xué)報(自然科學(xué)版),2008,04:44-47.
[15]李影.論話語標(biāo)記語so的語用功能[J].阜陽職業(yè)技術(shù)學(xué)院學(xué)報,2014,02:81-84.