陳 功
(北京外國語大學(xué),北京,100089)
目前語料庫已經(jīng)被越來越多的研究者所接受,成為語言研究的“默認(rèn)數(shù)據(jù)源”(Teubert 2005)。通過語料庫檢索軟件對語言現(xiàn)象進(jìn)行檢索,能夠系統(tǒng)地對海量的文本進(jìn)行審視,并且快速獲得該語言現(xiàn)象使用的基礎(chǔ)數(shù)據(jù),如頻數(shù)信息,使我們有可能發(fā)現(xiàn)一些過去從未有機(jī)會發(fā)現(xiàn)的語言事實(Sinclair 1991)??梢哉f,語料庫檢索已經(jīng)成為語言研究的重要手段之一。研究者若能對語料庫進(jìn)行有效、準(zhǔn)確的檢索,不僅可以觀察到豐富的語言現(xiàn)象,還可以從語料庫中獲得科學(xué)、準(zhǔn)確的基礎(chǔ)數(shù)據(jù)。
然而,在語料庫語言學(xué)研究飛速發(fā)展的過程中,語料庫檢索這一看似簡單實則重要的問題被擱置了下來。本文認(rèn)為,在語料庫用戶結(jié)構(gòu)逐漸多元化的今天,語料庫檢索方面的問題開始凸顯。主要基于以下兩個現(xiàn)實:(1)語料庫研究不再局限于本領(lǐng)域或相關(guān)領(lǐng)域的研究者,不同學(xué)術(shù)背景的研究人員紛紛介入(衛(wèi)乃興2009)。新的研究群體對語料庫研究方法的完全接納需要一個過程,而且并不是所有人都能最終完全掌握。(2)具體到語料庫檢索方面,如今網(wǎng)絡(luò)搜索引擎的強(qiáng)大影響力讓很多研究者誤認(rèn)為,語料庫檢索操作很簡單。但是,在實際檢索過程中,我們往往容易忽略很多重要的細(xì)節(jié),從而導(dǎo)致語言現(xiàn)象的漏檢或誤檢。因此,如果我們對語料庫檢索的有效性和準(zhǔn)確性不給予足夠的重視,語料庫研究的價值可能會大打折扣。
對不同格式的語料庫①進(jìn)行檢索,需要相應(yīng)檢索工具的支持,這是語料庫檢索的一個重要前提。檢索工具的性能和局限暫且不論,作為語言研究者,我們更應(yīng)該關(guān)注的是如何最大限度地利用好已有的檢索工具,從語料庫中準(zhǔn)確查找出符合研究目的所需的語言信息。這就要求我們要有針對性地使用不同的檢索模式,以達(dá)到預(yù)期的研究目的。
按照用戶所使用的檢索語言,我們將常用的語料庫檢索分為以下三種模式:自然語言檢索、人工語言檢索、自然語言和人工語言相結(jié)合的檢索。
自然語言檢索,顧名思義,即通過構(gòu)成語料庫文本的字面字符串(literal string)進(jìn)行的語料庫檢索。檢索項可以是任意的單詞、短語或句子。是三種模式中最簡單易學(xué)的檢索方式,主要有以下兩方面的優(yōu)勢:(1)該檢索模式的操作方式簡單,往往是研究者在研究初期觀察語料時最常用、最便捷的檢索方式。通過觀察索引行可以幫助研究者判斷該語言現(xiàn)象是否具有深入研究的價值;(2)對于語料庫初學(xué)者來說,直接使用自然語言進(jìn)行檢索更符合其行為習(xí)慣,而且容易上手,因此他們大多傾向于使用自然語言檢索。目前,我國語料庫研究者能夠從互聯(lián)網(wǎng)獲取的通用性英語語料庫檢索工具已經(jīng)達(dá)10余種(李亮2007),基本上都支持自然語言檢索。
然而,自然語言檢索模式往往無法滿足較為復(fù)雜的研究需求。例如,在英語三詞復(fù)雜介詞②的研究中,如果使用自然語言檢索模式,研究者首先需要解決的問題就是如何窮盡所有的三詞復(fù)雜介詞。在這種模式下,語料庫檢索反而變得復(fù)雜、繁瑣,而且無法充分利用語料庫研究方法的優(yōu)勢。可見,自然語言檢索模式雖簡單易懂,但其有限的檢索表達(dá)能力在實際研究中局限性較大。
所謂人工語言檢索,其實是相對于自然語言檢索而言的。這里探討的人工語言主要有兩種③:語料庫標(biāo)注碼和正則表達(dá)式。兩者產(chǎn)生的目的和發(fā)展階段雖各不相同,但都是根據(jù)自然語言設(shè)計的規(guī)范性人造語言,為語料庫研究突破自然語言檢索模式的局限提供了最大限度的可能性。
2.2.1 語料庫標(biāo)注碼檢索
多層級標(biāo)注是對語料庫進(jìn)行深度分析的必備條件(梁茂成2006)。因此,標(biāo)注碼檢索模式下,首先要求對語料庫生文本(raw text)做進(jìn)一步加工,按照制定好的標(biāo)注方案對語料庫進(jìn)行標(biāo)注,如詞性標(biāo)注、句法標(biāo)注、語義標(biāo)注等,才能“從語言學(xué)的角度對語料庫進(jìn)行解釋”(Leech 1997:2)。目前通行的英語語料庫大部分都為研究者提供了帶有詞性標(biāo)注的語料(POS tagged data)。
標(biāo)注給語料庫增加了信息,也就意味著,研究者可以充分利用這些信息拓展自己的研究。Tognini-Bonelli(2001)認(rèn)為標(biāo)注使得語言的結(jié)構(gòu)容易把握,方便從抽象層面進(jìn)行語言研究。這是該檢索模式的一大優(yōu)勢。以詞性標(biāo)注為例,詞性賦碼大多是在傳統(tǒng)語言學(xué)詞類劃分的基礎(chǔ)上設(shè)計的,因此,同類詞的賦碼便具有共同的特征,如在CLAWS賦碼集中,情態(tài)動詞的碼為VM。也就是說,只需檢索VM就可以得到包含所有情態(tài)動詞的索引行和相關(guān)數(shù)據(jù)。Hunston(2002/2006:79)把這種通過標(biāo)注碼進(jìn)行語料庫研究的方法稱為“基于類”(category-based)的研究方法。其檢索項可以是單個碼或者多碼序列,取決于研究者的研究目的。
顯然,與基于自然語言的檢索相比,使用標(biāo)注碼進(jìn)行語料庫檢索在研究某一類語言現(xiàn)象上優(yōu)勢明顯,但在使用中也存在一些問題。首先,對于多數(shù)初級用戶而言,對不同格式標(biāo)注碼的熟悉和靈活使用需要一個過程。其次,任何一種語料庫標(biāo)注碼的設(shè)計都不是完美的,這也會給研究帶來不可避免的問題。我們將在第三部分做進(jìn)一步探討。
2.2.2 正則表達(dá)式檢索
正則表達(dá)式成熟于計算機(jī)程序匯編工作中對文本處理的需求。有著同樣需求的語料庫語言學(xué)研究者正是看到了正則表達(dá)式出色的文本處理能力,而將其應(yīng)用到了語料庫研究中來?!斑@種技術(shù)簡潔而功能強(qiáng)大,可以用為數(shù)不多的幾個符號來匹配各種存在一定規(guī)律的字符串?!梢詷O大地提高檢索效率,因此正則表達(dá)式是語料庫檢索和文本清潔過程中必備的技術(shù)”(梁茂成等2010:17)。
與語料庫詞性賦碼的類屬相比,正則表達(dá)式的一些符號可以表示比字符串更大范圍的“類”的概念,如S(表示所有非空格)、w(表示所有的字母、數(shù)字和下劃線)、d(表示所有的數(shù)字);還可以表示字符串的數(shù)量等,如{1,}表示字符串使用一次以上,那么very{1,}可以匹配very使用一次以上的情況。不過,單單使用正則表達(dá)式往往無法實現(xiàn)對具體語言現(xiàn)象的檢索。因此,在實際的語料庫應(yīng)用研究中,正則表達(dá)式通常會和語料庫標(biāo)注碼或字符串一起作為檢索項使用,以便更準(zhǔn)確地定位檢索目標(biāo),實現(xiàn)較好的查準(zhǔn)率。例如,如果要在CLAWS賦碼文本中觀察have所有形式的使用情況,則可以通過兩種人工語言相結(jié)合的方式,檢索“w+_VHw”④輕松得到觀察語料。目前,大部分語料庫檢索軟件和文本處理工具都支持正則表達(dá)式。
近年來,越來越多的語料庫研究者已經(jīng)意識到了正則表達(dá)式在語料庫檢索和文本處理中的強(qiáng)大功能。但是,對于大多數(shù)非計算機(jī)專業(yè)背景的研究者來說,正則表達(dá)式是一種完全不熟悉的語言,加之其易讀性差,導(dǎo)致用戶在理解和接受方面還存在困難,這在一定程度上也限制了該檢索模式的推廣。為了讓更多的研究者能夠享受正則表達(dá)式帶來的便捷,國內(nèi)學(xué)者,如梁茂成教授,為此做了一系列的努力,編寫出了國內(nèi)第一款免費的正則表達(dá)式編寫輔助工具Pattern Builder(參見梁茂成2009;梁茂成等2010),不僅可以方便初學(xué)者了解正則表達(dá)式在檢索中的作用,還為中高級用戶提供了正則表達(dá)式測試功能。
在實際的語料庫研究中,除了自然語言檢索和人工語言檢索之外,還有一種非常重要的檢索模式,即將自然語言和人工語言相結(jié)合進(jìn)行檢索。簡單來講,就是將“字符串+語料庫標(biāo)注碼”、“字符串+正則表達(dá)式”或“字符串+語料庫標(biāo)注碼+正則表達(dá)式”作為檢索項的檢索模式。目的是為了最大限度地準(zhǔn)確完成研究者制定的檢索任務(wù)。
例如,在CLAWS賦碼的文本中觀察“it is+形容詞+that…”結(jié)構(gòu),可將檢索項寫為:
it_(S+)sis_(S+)s(S+)_JJsthat_(S+)
這個檢索項包含了字符串(it,is,that)、語料庫詞性標(biāo)注碼(JJ,表示普通形容詞)和正則表達(dá)式(S+和s,其中S+用于匹配未知的標(biāo)注碼或詞,s表示空格)。檢索結(jié)果如下圖所示:
不難看出,組合檢索模式不僅突破了自然語言有限的檢索表達(dá)能力,還發(fā)揮了人工語言在類屬關(guān)系等方面的優(yōu)勢。具體來說,組合模式一方面利用字符串或標(biāo)注碼進(jìn)行精確定位,另一方面借助正則表達(dá)式強(qiáng)大的匹配功能進(jìn)行查找,有效實現(xiàn)了對某一語言現(xiàn)象的檢索??梢灶A(yù)見,這種組合模式的檢索將在語料庫研究中發(fā)揮愈加重要的作用,應(yīng)該引起研究者的關(guān)注。
在語料庫研究中,我們不僅需要根據(jù)研究內(nèi)容選擇有效的檢索模式,同時也要確保檢索過程的科學(xué)性和檢索結(jié)果的準(zhǔn)確性。作為語料庫研究的前期工作之一,語料庫檢索對后續(xù)的研究意義重大。因為通過初期檢索獲得的基礎(chǔ)數(shù)據(jù),如頻數(shù),往往成為研究者進(jìn)一步進(jìn)行統(tǒng)計檢驗和分析的基礎(chǔ),基礎(chǔ)數(shù)據(jù)一旦出現(xiàn)問題,將會給整個研究帶來顛覆性的后果。而“作為語料庫研究的一個基本前提,數(shù)據(jù)及其算法的準(zhǔn)確性具有至高無上的重要性”(陳功、梁茂成2010)。因此,我們對語料庫檢索需持科學(xué)謹(jǐn)慎的態(tài)度。
語料庫檢索過程中可能發(fā)生這樣或者那樣的問題,對各種因素或細(xì)節(jié)的忽視都會導(dǎo)致檢索結(jié)果的不準(zhǔn)確。下面分別用兩個簡單的案例說明:
案例一:
檢索對象:英語三詞復(fù)雜介詞,如bymeansof,intermsof等;
檢索文本:經(jīng)過CLAWS自動詞性賦碼后的語料庫(LOCNESS),其中三詞復(fù)雜介詞有統(tǒng)一的賦碼,如:in_II31terms_II32of_II33;
檢索項:根據(jù)CLAWS三詞復(fù)雜介詞賦碼的特性,將檢索項設(shè)置為:
(S+_II31)s(S+_II32)s(S+_II33)
檢索結(jié)果:經(jīng)過人工核對,能夠全部檢索出帶有相應(yīng)標(biāo)注碼的三詞復(fù)雜介詞,說明該檢索模式還是有效的。但是通過反向隨機(jī)檢查⑤卻發(fā)現(xiàn),部分研究內(nèi)容由于被賦予了其他形式的標(biāo)注碼而被遺漏,如by_IIvirtue_NN1of_IO,for_IFpurposes_NN2of_IO等。
案例二:
檢索對象:形容詞最高級中使用most的情況,如themostsignificant;
檢索文本:WECCL(1.0)賦碼語料庫;
檢索項:根據(jù)已知項和待檢項,設(shè)置如下:
(the_AT)s(most_RGT)s(S+_JJ)
檢索結(jié)果:未找到匹配的檢索對象。檢索失敗的原因是:檢索項編寫格式與文本標(biāo)注格式不一致,即WECCL(1.0)語料庫詞性賦碼格式為:“單詞+空格+<詞性標(biāo)注碼>”,如“the
(thes
通過上述兩個簡單的案例可以發(fā)現(xiàn),語料庫檢索需要考慮許多方面的因素,有時即便是忽略一個空格都會造成檢索結(jié)果的不準(zhǔn)確,而“檢索的效果會直接影響到研究的信度”(梁茂成等2010:70)。因此,在語料庫檢索中,研究者要結(jié)合研究目的設(shè)計準(zhǔn)確的檢索模式,做到精確檢索。當(dāng)然,還要找出容易導(dǎo)致檢索失誤的原因,這對提升語料庫檢索的準(zhǔn)確性意義重大。本文認(rèn)為,語料庫檢索結(jié)果不準(zhǔn)確可能是由客觀和主觀兩方面因素造成的。
3.2.1 客觀因素
研究者有時會在語料庫檢索的實際操作中發(fā)現(xiàn),有些困難和問題是難以避免的。然而,不論如何,我們都應(yīng)對其根本原因有客觀充分的認(rèn)識。
(1) 不論是語料庫加工者還是語料庫應(yīng)用研究者,對語言的認(rèn)識都是有限的。相應(yīng)地,為語料庫添加語言學(xué)信息的深度也是有限的,標(biāo)注碼的設(shè)計也無法做到盡善盡美。例如,what在CLAWS詞性賦碼文本中被標(biāo)注為DDQ(wh-determiner),而what在具體使用中絕非只有這一種用法,如what在感嘆句中的標(biāo)注就值得我們考慮(What_DDQa_ATterrible_JJlife_NN1 !_!)。那么,標(biāo)注碼的設(shè)計到底應(yīng)該細(xì)致到何種程度才算合適?過于寬泛,則無法反映語言的特殊現(xiàn)象;過于細(xì)致,卻容易失去分類的意義。在大量的語料面前,這個矛盾讓語料庫加工者很難找到一個合理的平衡。而這個問題對語料庫應(yīng)用者的實際操作來說也有不小的影響,很多時候,我們只能通過人工判斷來篩選合乎研究目的的檢索結(jié)果。
(2) 自然語言是在不斷發(fā)展變化的,相對而言,語料庫標(biāo)注碼的設(shè)計則略顯滯后。在面對一些尚處在發(fā)展過程中、或尚未進(jìn)入詞典的語言現(xiàn)象時,標(biāo)注碼的設(shè)計者可能會有所忽略。例如,案例一中CLAWS對英語三詞復(fù)雜介詞的標(biāo)注,就可能遺漏了一些語言現(xiàn)象。其中inregardto被標(biāo)注為in_II31regard_II32to_II33,而inregardsto則被標(biāo)注成了in_RPregards_VVZto_II。顯然,CLAWS詞性標(biāo)注碼的設(shè)計者將inregardto放在了固定復(fù)雜介詞之列,而未給inregardsto一個合理的身份。然而,通過BNC在線檢索系統(tǒng)(http:∥corpus.byu.edu/bnc/)檢索發(fā)現(xiàn),inregardto使用頻率為3次,而inregardsto出現(xiàn)了7次;只不過兩者出現(xiàn)的語體有所差異,前者均出現(xiàn)在書面語正式文體中,而后者則多出現(xiàn)在口語中。由此,我們至少可以肯定,inregardsto在語言使用中的地位已經(jīng)基本確立。對于我們語料庫應(yīng)用研究者來說,一旦發(fā)現(xiàn)類似的、由于語言演變造成的標(biāo)注碼滯后問題,唯一的補(bǔ)救辦法就是在經(jīng)過考證之后,修改語料庫中的賦碼,并加以說明,使檢索結(jié)果盡可能科學(xué)準(zhǔn)確。
(3) 語料庫標(biāo)注的誤差。馮志偉(2009:xxviii)總結(jié)了學(xué)術(shù)界對語料庫標(biāo)注的批評,其中一種批評認(rèn)為,“手工標(biāo)注的語料庫準(zhǔn)確性高而一致性差,自動或半自動的標(biāo)注一致性高而準(zhǔn)確性差,語料庫的標(biāo)注難以做到兩全其美?!币宰詣釉~性標(biāo)注為例,CLAWS7對英語本族語者書面語進(jìn)行自動標(biāo)注時,賦碼準(zhǔn)確率可達(dá)到96%~97%(梁茂成2006)。雖然達(dá)到這樣的準(zhǔn)確率已實屬不易,但誤差是客觀存在的,如CLAWS將in_RPregards_VVZto_II中的regards標(biāo)為動詞第三人稱單數(shù)顯然是不對的。因此,作為研究者,我們在檢索中要注意細(xì)心觀察索引行,及時排除類似問題。尤其在使用人工標(biāo)注的語料庫時,更要警惕標(biāo)注一致性的問題。
3.2.2 主觀因素
客觀因素雖然存在,但主觀因素往往是導(dǎo)致語料庫檢索出現(xiàn)問題的直接原因。主要有以下幾個方面:
(1) 未做好檢索項的設(shè)計。在考慮檢索需求時,語料庫研究者應(yīng)該盡可能全面地考慮某一語言現(xiàn)象的各種使用情況。比如,理論上,修飾名詞的形容詞可以有無窮多個,那么我們在編制檢索項時就應(yīng)該盡量照顧到這個現(xiàn)象。只有充分考慮各種可能性,才能使語料庫檢索結(jié)果盡可能窮盡所有的相關(guān)語言現(xiàn)象。但是規(guī)則之后總是潛藏著一些例外。比如,絕大部分的形容詞都在名詞之前做修飾語,但也有一些只能位于名詞之后。而哪些問題可解決,哪些問題不可避免,都是我們在研究前期的不斷嘗試中應(yīng)該考慮清楚的。
(2) 未了解語料庫文本的特征。在進(jìn)行語料庫檢索之前,研究者首先需要認(rèn)識文本,確定研究應(yīng)使用生文本還是經(jīng)過標(biāo)注的文本。如果是經(jīng)過標(biāo)注的語料庫,則要確認(rèn)標(biāo)注內(nèi)容(是詞性標(biāo)注,還是句法標(biāo)注、語義標(biāo)注,或錯誤標(biāo)注等)、標(biāo)注格式⑥(即單詞和標(biāo)注信息的組合呈現(xiàn)方式),以及所依據(jù)的標(biāo)注集(tagset)分別是什么。案例二中的檢索失敗就是由于不了解語料庫賦碼文本的格式導(dǎo)致的。
(3) 未了解檢索工具的設(shè)置。檢索工具啟動之后均表現(xiàn)為系統(tǒng)的默認(rèn)設(shè)置,如AntConc3.2.2w啟動之后,Search Term默認(rèn)設(shè)置為Words,不區(qū)分大小寫,File Setting為.txt文件,Tag setting為Show tags等等。如果研究有特殊要求,我們就應(yīng)該對檢索工具進(jìn)行重新設(shè)置。如果想用AntConc3.2.2w檢索What一詞在句首的使用情況,就應(yīng)將Search Term的第二個選項Case選中,同時在檢索框中輸入首字母大寫的What(參見下圖)。
同理,需要使用正則表達(dá)式進(jìn)行檢索時,也要點擊Regex的復(fù)選框進(jìn)行設(shè)置。
(4) 未做好人工核準(zhǔn)工作。語料庫研究有了工具的輔助,并不意味著單靠工具就可以得到準(zhǔn)確的結(jié)果,相反,語料庫檢索的每一步都離不開研究者的檢查核對。首先,檢索項編寫好之后要反復(fù)測試,以便盡可能窮盡相關(guān)內(nèi)容,在使用正則表達(dá)式時尤其應(yīng)該注意其匹配范圍。其次,要對檢索結(jié)果進(jìn)行反查,以便及時發(fā)現(xiàn)遺漏問題。另外,需要注意的是,為了不遺漏任何一例語言現(xiàn)象,檢索項設(shè)置時往往需要擴(kuò)大匹配目標(biāo),但同時也不可避免地導(dǎo)致了冗余語例的出現(xiàn)。因此,還需要人工判斷檢索結(jié)果,剔除不相關(guān)內(nèi)容。
語料庫檢索是一個反復(fù)的、循環(huán)式的、不斷完善優(yōu)化檢索結(jié)果的過程。語料庫檢索的有效性和準(zhǔn)確性應(yīng)該成為研究者密切關(guān)注的問題。“能否使用正確的方法對不同格式的語料庫文本進(jìn)行檢索是語料庫數(shù)據(jù)分析和提取的關(guān)鍵”(梁茂成等2010:57)。做好一次語料庫檢索,其實現(xiàn)過程要比聽上去復(fù)雜得多,這其中的每一個環(huán)節(jié)都需要研究者認(rèn)真對待。我們反對唯工具論,語料庫研究工具固然是研究的有力助手,但卻愈發(fā)需要研究者深刻思想的指引和嚴(yán)謹(jǐn)細(xì)致的科學(xué)態(tài)度的規(guī)范。正像Hunston(2002/2006:214)的感慨一樣:“語料庫使生活變得更加簡單,但語料庫同時也使生活變得更加復(fù)雜”,語料庫研究不僅僅讓我們“更加無法忽略語言本身無限的復(fù)雜性”,也需要我們能夠正視研究過程的復(fù)雜性并謹(jǐn)慎對待之。
附注:
① 主要指未經(jīng)過標(biāo)注(raw)或經(jīng)過標(biāo)注(tagged)的語料庫。其中,標(biāo)注過的語料庫也可能有不同的呈現(xiàn)方式,詳見附注⑥。
② 英語復(fù)雜介詞(complex preposition)指的是在語義和句法功能上與單個介詞相同的多詞序列,包括兩詞組合(becauseof)、三詞組合(bymeansof)以及四詞組合(asaresultof)等(Biberetal.1999:75)。
③ 嚴(yán)格來講,一些檢索工具指定的通配符也可以在語料庫檢索中發(fā)揮積極的作用,但是由于各個檢索工具的通配符并不一定有統(tǒng)一的設(shè)置標(biāo)準(zhǔn),因此,本文在此暫不做討論。
④ 在“w+_VHw”這個表達(dá)式中,w+匹配have所有的形式,VH為have各形式詞性標(biāo)注碼中共有的前兩位,后面的w匹配一個字母、數(shù)字或下劃線,也就是說“VHw”可匹配have所有形式的詞性標(biāo)注碼,如VH0(have原形)、VHZ(has)、VHG(having)等。
⑤ 得到檢索結(jié)果后,通過觀察所有三詞復(fù)雜介詞的組合規(guī)律,發(fā)現(xiàn)第一位上的介詞通常為in,by,for,on,with,as,而最后一位上的介詞通常為of,from,to,for,with。這樣,便可以通過這些已知信息反過來對檢索結(jié)果進(jìn)行核查,如(in_S+)s+(S+_S+)s+(of_S+)。
⑥ 以詞性標(biāo)注為例,呈現(xiàn)方式主要有以下幾種:word_tag,word
Biber, D., S.Johansson, G.Leech, S.Conrad & E.Finegan.1999.LongmanGrammarofSpokenandWrittenEnglish[M].London: Longman.
Hunston, S.2002/2006.CorporainAppliedLinguistics[M].Beijing: World Publishing Corporation.
Leech, G.1997.Introducing corpus annotation [A].In R.Garsideetal.(eds.).CorpusAnnotation:LinguisticInformationfromComputerTextCorpora[C].London/New York: Longman.1-18.
Sinclair, J.1991.Corpus,Concordance,Collocation[M].Oxford: Oxford University Press.
Teubert, W.2005.My version of corpus linguistics [J].InternationalJournalofCorpusLinguistics10(1): 1-13.
Tognini-Bonelli, E.2001.CorpusLinguisticsatWork[M].Amsterdam/Philadelphia: John Benjamins.
陳功、梁茂成.2010.首屆全國學(xué)習(xí)者語料庫專題研討會綜述[J].外語電化教學(xué)134:77-80.
馮志偉.2009.導(dǎo)讀[A].R.Mitkov.牛津計算語言學(xué)手冊[M].北京:外語教學(xué)與研究出版社.
李亮.2007.英語語料庫檢索工具的設(shè)計理念及其深層化[J].外語電化教學(xué)118:16-20.
梁茂成.2006.學(xué)習(xí)者英語書面語料自動詞性賦碼的信度研究[J].外語教學(xué)與研究(4):279-286.
梁茂成.2009.詞性賦碼語料庫的檢索與正則表達(dá)式的編寫[J].中國外語教育(2):65-73.
梁茂成、李文中、許家金.2010.語料庫應(yīng)用教程[M].北京:外語教學(xué)與研究出版社.
衛(wèi)乃興.2009.語料庫語言學(xué)的方法論及相關(guān)理念[J].外語研究(5):36-42.