謝家成
(長(zhǎng)江大學(xué)外國(guó)語(yǔ)學(xué)院,湖北荊州434023)
搭配、搭配提取與運(yùn)用
謝家成
(長(zhǎng)江大學(xué)外國(guó)語(yǔ)學(xué)院,湖北荊州434023)
搭配是語(yǔ)言中習(xí)慣性的結(jié)伴使用,在統(tǒng)計(jì)上具有顯著性;搭配具有語(yǔ)言學(xué)特征,在詞類、位置和句法結(jié)構(gòu)上相對(duì)固定。搭配提取正是基于上述特征,有針對(duì)性地選擇自建語(yǔ)料,利用語(yǔ)料庫(kù)工具提取諸如詞類間搭配、詞串、兩個(gè)詞之間的搭配等多種形式的搭配,能更有針對(duì)性地揭示特定語(yǔ)域的語(yǔ)言表達(dá)規(guī)律及其蘊(yùn)含的文化信息。
搭配;搭配提取;詞串提取
搭配是語(yǔ)言中常見(jiàn)的現(xiàn)象,但學(xué)界迄今對(duì)其沒(méi)有統(tǒng)一的界定。視角不同,人們對(duì)搭配的認(rèn)識(shí)也就不同。[1]
從語(yǔ)言的橫組合看,搭配即“詞項(xiàng)的習(xí)慣性結(jié)伴使用”[2](P14),詞項(xiàng)間的搭配選擇具有有限性和可預(yù)見(jiàn)性。搭配組合一般在句內(nèi),但也可以超越句子,屬于更大的語(yǔ)篇,如“Ben serves…That’s his fifth ace of the match”中“serve”與“ace”的搭配。雖然韓禮德(Halliday)[3](P75)將搭配擴(kuò)展到常出現(xiàn)于共同語(yǔ)境、語(yǔ)義相關(guān)、具有篇章銜接作用的詞語(yǔ),如“doc2 tor”和“nurse”,但這種定義太過(guò)寬泛。搭配可以是連續(xù)的,也可以是非連續(xù)的;可以是兩個(gè)詞,也可以是多個(gè)詞乃至整個(gè)句子。
從語(yǔ)言的縱聚合看,搭配也指詞與語(yǔ)法范疇的共現(xiàn),即“詞語(yǔ)在語(yǔ)法上的結(jié)伴關(guān)系”,如“con2 scious”的一個(gè)典型語(yǔ)法結(jié)構(gòu)便是“be+否定詞+ conscious+of+名詞”。另外,從縱聚合看,詞類間的搭配很有規(guī)律,詞語(yǔ)的詞類往往決定了其搭配模式。如常見(jiàn)的名詞類搭配模式有:“名詞+動(dòng)詞”(dog bark),“動(dòng)詞+名詞”(fly a kite),“形容詞+名詞”(warm greetings),“名詞+名詞”(crop fail2 ure)等。綜上所述,搭配可以理解為詞與詞或詞與語(yǔ)法結(jié)構(gòu)的經(jīng)常性共現(xiàn)。
語(yǔ)料庫(kù)的興起則為搭配研究開創(chuàng)了新的局面。從語(yǔ)料庫(kù)視角,人們對(duì)搭配關(guān)注的重點(diǎn)是搭配的自動(dòng)提取。筆者通過(guò)運(yùn)用多種有針對(duì)性的自建語(yǔ)料,實(shí)證地展示語(yǔ)料庫(kù)檢索軟件的搭配提取功能在語(yǔ)言教學(xué)與研究中的運(yùn)用。
雖然語(yǔ)料庫(kù)檢索行功能結(jié)合使用者直覺(jué)有助于獲得搭配資源,但是,從語(yǔ)料庫(kù)視角,人們更關(guān)注的是如何從大規(guī)模語(yǔ)料庫(kù)中自動(dòng)提取詞語(yǔ)搭配。搭配自動(dòng)提取(collocation extraction)在理論上有三種途徑:基于統(tǒng)計(jì)、基于規(guī)則和基于統(tǒng)計(jì)與規(guī)則相結(jié)合。不過(guò),在實(shí)踐中純粹基于規(guī)則的方法很少見(jiàn)?,F(xiàn)有的搭配自動(dòng)提取方法多是以統(tǒng)計(jì)為主,輔之以詞性、句法等語(yǔ)言學(xué)規(guī)則。
較早對(duì)搭配自動(dòng)提取進(jìn)行嘗試的Choueka等人認(rèn)為,搭配是重復(fù)出現(xiàn)的相鄰的詞匯序列。[4]基于這一理念,Choueka等人提出的搭配自動(dòng)提取方法主要是基于對(duì)相鄰詞語(yǔ)序列實(shí)際出現(xiàn)頻率的統(tǒng)計(jì)。這一方法也稱為“N2gram”(指二字詞“bigram”、三字詞“trigram”等多字詞串,相關(guān)文獻(xiàn)中也稱之為詞叢)。雖然理論上“N2gram”可指任意長(zhǎng)度的詞語(yǔ)序列,但一般指二字詞到六字詞。這種早期的單純基于出現(xiàn)頻數(shù)的方法比較簡(jiǎn)單,但存在不少缺陷。一是只能提取相鄰的詞匯所構(gòu)成的搭配,無(wú)法提取非連續(xù)性的搭配。二是由于搭配提取主要取決于實(shí)際出現(xiàn)頻數(shù),因而受語(yǔ)料庫(kù)規(guī)模的影響太大。后來(lái),人們也提出了一些基于概率統(tǒng)計(jì)的詞串提取方法,但依然不能提取非連續(xù)性的搭配。
對(duì)搭配自動(dòng)提取的重大改進(jìn)來(lái)自Church和Hanks。[5]他們秉承弗斯的理念,認(rèn)為搭配就是經(jīng)常性共現(xiàn)的詞語(yǔ),但在技術(shù)層面上提出了利用統(tǒng)計(jì)學(xué)中的互信息值(mutual information)這一基于相關(guān)性測(cè)量的方法來(lái)計(jì)算兩個(gè)詞之間(pairs)的可預(yù)見(jiàn)程度(association ratio)。該方法主要通過(guò)對(duì)比共現(xiàn)的兩個(gè)詞語(yǔ)的期望頻率和實(shí)際頻率(compare the probability with what actually happens),測(cè)量?jī)蓚€(gè)共現(xiàn)詞匯的搭配強(qiáng)度。該方法實(shí)現(xiàn)了非連續(xù)性搭配的自動(dòng)提取。在此基礎(chǔ)上人們還提出了一些類似的提取搭配的統(tǒng)計(jì)測(cè)量方法,如 T值、Z值等。這些方法所基于的理念大致相同,即測(cè)量?jī)蓚€(gè)詞在文本中共現(xiàn)的概率是否顯著,是否非偶然性共現(xiàn)。但在統(tǒng)計(jì)時(shí)側(cè)重點(diǎn)有所不同,因此在實(shí)踐中可嘗試用多種方法進(jìn)行搭配提取。
基于概率統(tǒng)計(jì)提取搭配的最大優(yōu)點(diǎn)是能夠提取非連續(xù)性的詞語(yǔ)搭配。不過(guò),這種方法只能測(cè)量?jī)蓚€(gè)詞語(yǔ)間的搭配強(qiáng)度,無(wú)法提取由多個(gè)詞語(yǔ)構(gòu)成的搭配。另外,基于概率提取的搭配也容易出現(xiàn)所提取的搭配從統(tǒng)計(jì)上相關(guān)性很高,如“doctor、nurse”,但并非真正意義上的詞語(yǔ)搭配。為克服這些缺點(diǎn),人們?cè)谧詣?dòng)提取搭配時(shí)開始巧妙地運(yùn)用語(yǔ)言學(xué)知識(shí)進(jìn)行篩選,因?yàn)樵~語(yǔ)搭配具有結(jié)構(gòu)性,在組合關(guān)系上,詞與詞之間位置相對(duì)固定,且搭配詞之間在詞類和句法關(guān)系上也很有規(guī)律。
在結(jié)合統(tǒng)計(jì)測(cè)量和語(yǔ)言學(xué)知識(shí)提取搭配方面做得最成功的要數(shù)Smadja的“Xtract”系統(tǒng)和 Kilgarriff的“Word Sketch”引擎。Smadja[6](P151)的“Xtract”系統(tǒng)基于對(duì)搭配的兩個(gè)基本假設(shè):搭配詞必須是非偶然性地經(jīng)常共現(xiàn),受句法約束,搭配詞之間的位置相對(duì)固定。該系統(tǒng)首先通過(guò)統(tǒng)計(jì)測(cè)量方法(Z值)提取關(guān)鍵詞在一定范圍內(nèi)的符合非偶然性共現(xiàn)的所有搭配候選詞,然后運(yùn)用語(yǔ)言學(xué)特征,通過(guò)位置分布信息和句法結(jié)構(gòu)信息等過(guò)濾其中不符合相應(yīng)語(yǔ)言學(xué)特征的搭配候選詞。如利用位置信息過(guò)濾那些在位置上平均分布的搭配候選詞,僅保留那些至少在一個(gè)位置上出現(xiàn)較高頻率(即峰值)的搭配詞。另外,也利用詞類信息過(guò)濾那些不符合典型的詞類間搭配特征的搭配候選詞。這些過(guò)濾提高了搭配提取的準(zhǔn)確率。不僅如此,在過(guò)濾不符合語(yǔ)言學(xué)特征的搭配候選詞的同時(shí),該工具還對(duì)符合條件的兩個(gè)搭配詞進(jìn)行擴(kuò)展,以提取更有用的多字詞搭配,如“blue、stocks”被擴(kuò)展替換為“blue chip stocks”,這樣大大提高了搭配提取的適用性和召回率。Kilgarriff的“Word Sketch”引擎也充分利用了語(yǔ)料的詞類標(biāo)記信息和搭配的句法特征,能提供基于句法關(guān)系的分類搭配詞。以“heavy”為例,其提供的主要搭配有:該詞做系表結(jié)構(gòu)時(shí)的名詞主語(yǔ)搭配(adj.subject),如“traf2 fic、air、eyes、heart、legs”;做限定詞時(shí)的名詞搭配(modifies),如“smoker、drinker”等。這種基于典型句法特征分類的搭配更為實(shí)用,對(duì)詞典編纂和語(yǔ)言教學(xué)等具有極大的促進(jìn)作用,是目前最適用的搭配提取系統(tǒng)。
搭配自動(dòng)提取極大地提高了搭配研究的效率,提供了大量豐富而客觀的信息,也提升了搭配研究的深度,使人們獲得了一些憑借直覺(jué)或傳統(tǒng)方法無(wú)法獲得的認(rèn)識(shí),有助于彌補(bǔ)主觀直覺(jué)之不足。雖然搭配提取技術(shù)還有待進(jìn)一步完善,所提取的搭配還需適當(dāng)輔之以直覺(jué)判斷,但搭配自動(dòng)提取所獲得的豐富信息已被廣泛運(yùn)用于詞典編纂、語(yǔ)言研究和教學(xué)等多個(gè)方面。
目前大型通用語(yǔ)料庫(kù)提供了豐富的搭配資源,如學(xué)習(xí)者詞典、專門搭配詞典、網(wǎng)上語(yǔ)料庫(kù)(如Word Sketch Engine)等。雖然目前能免費(fèi)獲得的語(yǔ)料庫(kù)工具的搭配提取功能還遠(yuǎn)不夠完善,但利用更有針對(duì)性的特定語(yǔ)料,如教材語(yǔ)料、口語(yǔ)語(yǔ)料和期刊論文語(yǔ)料等,通過(guò)語(yǔ)料庫(kù)工具提取搭配,對(duì)于外語(yǔ)教學(xué)和研究依然十分有用,也是上述現(xiàn)有的搭配資源所無(wú)法替代的。下文將通過(guò)實(shí)證運(yùn)用來(lái)探討和展示如何利用免費(fèi)語(yǔ)料庫(kù)工具(此處指AntConc)和更有針對(duì)性的自建語(yǔ)料來(lái)提取搭配,輔助語(yǔ)言教學(xué)與研究。
通過(guò)語(yǔ)料庫(kù)技術(shù)提取搭配主要有兩種方法:一是通過(guò)軟件的檢索行功能,人工提取搭配;二是通過(guò)軟件的統(tǒng)計(jì)功能,自動(dòng)提取搭配,不過(guò)也需要輔之以直覺(jué)選擇。在搭配提取的對(duì)象上,又可分為基于特定關(guān)鍵詞/結(jié)構(gòu)和無(wú)特定關(guān)鍵詞/結(jié)構(gòu)兩種情況。
直接觀察檢索行獲得搭配是最為直接的方法,一般針對(duì)特定的關(guān)鍵詞或結(jié)構(gòu),通過(guò)排序觀察與其共現(xiàn)的詞語(yǔ)及出現(xiàn)頻數(shù),再結(jié)合直覺(jué)判斷。檢索行方法比較適合較小的語(yǔ)料,如教材語(yǔ)料。以人教版的新課標(biāo)初中和高中英語(yǔ)教材為例,通過(guò)檢索關(guān)鍵詞“heavy”,可以展示該套教材中所呈現(xiàn)的該詞的所有典型搭配,如作為限定詞所搭配的典型名詞有“box/clothes/coat/traffic/fog/food”,作為系表結(jié)構(gòu)所搭配的典型主語(yǔ)有“he/she/legs”,這些典型搭配也是典型的語(yǔ)境,往往體現(xiàn)了不同的語(yǔ)義。這種調(diào)查將有助于教師對(duì)教材的全面掌握,在課堂上的直接呈現(xiàn)則無(wú)疑會(huì)有助于學(xué)生對(duì)教材的全面復(fù)習(xí)和掌握,而結(jié)合大型通用語(yǔ)料庫(kù)所提供的搭配資源則能使教師更有針對(duì)性地進(jìn)行講解和補(bǔ)充。
如果語(yǔ)料進(jìn)行了詞性標(biāo)注(網(wǎng)上可免費(fèi)下載詞性標(biāo)注軟件,如Brill Tagger),則可以檢索不同詞類間的搭配,大大擴(kuò)展語(yǔ)料庫(kù)對(duì)搭配的提取能力。如“名詞+名詞”類搭配非常有助于語(yǔ)言表達(dá)的精煉和地道,但常常被學(xué)習(xí)者忽視。因此,有針對(duì)性地選擇特定語(yǔ)料,以上述人教版的初中英語(yǔ)教材為例,對(duì)經(jīng)過(guò)詞性標(biāo)注后的教材語(yǔ)料提取所有的“名詞+名詞”搭配,這種采用語(yǔ)料庫(kù)手段集中呈現(xiàn)的方式,可以通過(guò)突顯大量的相關(guān)搭配和語(yǔ)境以引起學(xué)習(xí)者的關(guān)注,從而提升學(xué)習(xí)者對(duì)這類搭配的敏感度。鑒于搭配對(duì)語(yǔ)言學(xué)習(xí)的重要性(搭配是語(yǔ)言表達(dá)流利和地道的基礎(chǔ))和艱巨性(易受忽視且數(shù)量眾多),利用語(yǔ)料庫(kù)方法在課堂上進(jìn)行顯性的講授無(wú)疑是值得的。
基于統(tǒng)計(jì)的搭配自動(dòng)提取包括兩類,一是通過(guò)簡(jiǎn)單的詞頻統(tǒng)計(jì)(也可通過(guò)概率)提取連續(xù)的詞串,二是通過(guò)概率統(tǒng)計(jì)提取非連續(xù)的兩個(gè)詞的搭配。
1.提取連續(xù)的詞串
詞串的提取分為無(wú)具體關(guān)鍵詞和有具體關(guān)鍵詞兩種情況。
對(duì)于無(wú)具體關(guān)鍵詞的詞串提取,不少人認(rèn)為意義不大。這種說(shuō)法有一定道理,因?yàn)檎Z(yǔ)料庫(kù)工具提取的這類組合中不少似乎沒(méi)有明顯的意義,以二字詞串為例,所提取的高頻詞串中包含大量的類似于“I am,on the”這樣的組合。仔細(xì)探究,提取詞串還是具有一定的意義的,但應(yīng)注意以下兩點(diǎn):一是選取的語(yǔ)料應(yīng)高度同質(zhì),如均為口語(yǔ)化很強(qiáng)的電影劇本語(yǔ)料。以流行美劇《老友記》為例,提取所有的二字詞串,雖然其中不少表達(dá)缺乏明顯的意義,但從中還是可以獲得地道的口語(yǔ)表達(dá)詞塊,如“I mean,I know,You know,My God,You guys”等。二是一些表面上似乎價(jià)值不大的組合,如“are you”,觀察語(yǔ)境則發(fā)現(xiàn)它能構(gòu)成許多有用的更大詞串,如“are you ready(for),are you okay/all right,are you se2 rious,are you crazy,are you sure,are you kidding (me)/joking,are you scared/upset,are you gonna be ok(call her)”等。可見(jiàn),較小的詞串通常是更大詞串的一部分,小詞串的語(yǔ)言生成能力不容忽視。
而基于具體關(guān)鍵詞所提取的詞串則往往更有價(jià)值。如為了調(diào)查英文期刊論文寫作的表達(dá)規(guī)律,建設(shè)了小型期刊論文語(yǔ)料庫(kù)。語(yǔ)料來(lái)自應(yīng)用語(yǔ)言學(xué)類的國(guó)外頂級(jí)期刊,規(guī)模約為20萬(wàn)詞。以論文中的常用詞匯“study”為例,提取其二字詞串就獲得了許多有用的搭配,如表示研究類別和性質(zhì)的常見(jiàn)搭配“case/descriptive/explorative/comparative/empirical/ experimental/laboratory/pilot/longitudinal study”;表示過(guò)去、現(xiàn)在和將來(lái)研究的常見(jiàn)搭配,如“previ2 ous/recent studies,the present/current study,fur2 ther studies”;典型的動(dòng)詞搭配則有“investigate/ex2 amines/compare/show/suggest/demonstrate/indicate”等,進(jìn)一步觀察這些動(dòng)詞的時(shí)態(tài)還能有更多發(fā)現(xiàn)。另外,對(duì)提取的搭配進(jìn)一步觀察也發(fā)現(xiàn),一些表面上意義不大的搭配從更大的語(yǔ)境看表達(dá)力很強(qiáng),如“no study”和“few studies”常被用來(lái)指出現(xiàn)有研究之不足,如“no(published)study/few studies has/ have directly/systematically tested/looked at…”;而“our study”的大量出現(xiàn)(詞串提取沒(méi)有得到my study這樣的搭配)則反映了論文作者的表達(dá)視角傾向于用第一人稱的復(fù)數(shù)形式,以避免體現(xiàn)個(gè)人的主觀性。
2.提取非連續(xù)的兩個(gè)詞的搭配
和檢索行相比,提取非連續(xù)的兩個(gè)詞的搭配主要是基于概率統(tǒng)計(jì),這更適用于大規(guī)模語(yǔ)料。大規(guī)模語(yǔ)料來(lái)源廣,代表性強(qiáng),不僅能較好地體現(xiàn)語(yǔ)言表達(dá)方面的規(guī)律,也能在一定程度上體現(xiàn)使用該語(yǔ)言的人群對(duì)某事物的集體看法,因?yàn)檎Z(yǔ)言不僅建構(gòu)社會(huì),而且體現(xiàn)社會(huì)。因此,通過(guò)對(duì)語(yǔ)言的調(diào)查能夠揭示文化信息,而從搭配角度揭示人們對(duì)事物的集體認(rèn)識(shí)則是一種較為高效的手段。
以自建的英美文學(xué)作品語(yǔ)料庫(kù)為例(約1500萬(wàn)詞),通過(guò)檢索“dog”的常用搭配,可以探究英美民族對(duì)于狗的一些集體認(rèn)識(shí)。由于搭配提取的參數(shù)可以靈活選擇,此處選擇關(guān)鍵詞左邊跨度為2,右邊為3,最低頻率為3,按互信息值排列。通過(guò)觀察發(fā)現(xiàn),語(yǔ)料庫(kù)自動(dòng)提取的一些搭配體現(xiàn)了英美民族對(duì)于狗這一動(dòng)物的多維度且較為復(fù)雜的認(rèn)識(shí),如:狗的典型行為動(dòng)作為“yelp、bark、wag、bay、howl、bite、lick、bound、chase、sniff、guard、save”;狗可以分為“hun2 ting、prairie、farm、puppy、pet、wild、stray”;常常與狗一同出現(xiàn)的事物有“sledges、cats、master、goats、sheep、fox、horse”;對(duì)狗的常見(jiàn)修飾語(yǔ),又可分為褒義類“faithful、friendly、clever、obedient、little、great”,貶義類“fierce、mad、cunning、hungry”和中性類“black、big、old、sleeping”等。其中有些表面上顯得意義不大的搭配詞,如“old、eat、living”等,實(shí)際上可能體現(xiàn)了較為固定的習(xí)俗表達(dá),如“can’t learn an old dog new tricks;it’s dog eat dog;a living dog is better than a dead lion”。最能體現(xiàn)英美民族對(duì)狗的認(rèn)識(shí)的搭配詞則是介詞“l(fā)ike”。通過(guò)比喻,人們充分地展示了對(duì)狗的不同特性的不同看法,因此通過(guò)觀察該搭配的具體語(yǔ)境能有許多發(fā)現(xiàn)。如英美民族對(duì)“dog”的表達(dá)中許多含有消極語(yǔ)義,如“slay/ hang/kill/beat you like a dog;be treated like a dog;die like a dog;lived like dogs in a kennel;quar2 rel like dogs and cats;like a cornered/angry/hun2 gry/mad dog;like the dog in the manger”等。表達(dá)積極語(yǔ)義的則大多與忠實(shí)、溫順有關(guān),如“l(fā)ike a faithful/pet dog;(he cringed along at my compan2 ion’s side)like a dog with its master”。另外也有一些中性的比喻表達(dá),非常形象生動(dòng),如“ran round, like a dog who is picking up a scent;follow you a2 bout like a dog;pant/bark like a dog”等。這些發(fā)現(xiàn)可能與語(yǔ)料來(lái)源有關(guān),該語(yǔ)料大多為19世紀(jì)和20世紀(jì)上半葉的文學(xué)作品。
綜上所述,搭配對(duì)于語(yǔ)言學(xué)習(xí)與研究均非常重要。搭配提取充分利用了搭配的特性,即搭配是語(yǔ)言中習(xí)慣性的結(jié)伴使用,因此在統(tǒng)計(jì)上具有顯著性。搭配具有語(yǔ)言學(xué)特征,在詞類、位置和句法結(jié)構(gòu)上相對(duì)固定。搭配提取提高了搭配研究的效率和深度,而基于大規(guī)模通用語(yǔ)料庫(kù)的搭配提取則為語(yǔ)言學(xué)習(xí)與研究提供了豐富的資源。但這并不排除更有針對(duì)性地選擇自建語(yǔ)料,使用語(yǔ)料庫(kù)檢索工具提取諸如詞類間搭配、詞串、兩個(gè)詞之間的搭配等多種形式的搭配。上述大量的實(shí)證運(yùn)用則充分證明了其對(duì)于語(yǔ)言教學(xué)與研究的應(yīng)用價(jià)值,能更有針對(duì)性地揭示語(yǔ)言表達(dá)規(guī)律及其蘊(yùn)含的文化信息。
[1]謝家成.搭配的多視角透視[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2008 (2).
[2]Firth,J.R.Papers in Linguistics[M].London:Oxford University Press,1957.
[3]Halliday,M.A.K.,Hasan,R.Cohesion in English[M].London: Longman,1976.
[4]Choueka Y.,Klein T.Neuwitz E.Automatic Retrieval of Fre2 quent Idiomatic and Collocational Expressions in a Large Corpus [J].Literary and Linguistic Computing,1983(1).
[5]Church,K.W.,P.W.Hanks.Word Association Norms,Mutual Information,and Lexicography[J].Computational Linguistics, 1990(1).
[6]Smadja,F.Retrieving Collocations from Text:Xtract[J].Compu2 tational Linguistics,1993(1).
責(zé)任編輯 強(qiáng) 琛 E2mail:qiangchen42@163.com
book=860,ebook=860
H314
A
1673-1395(2010)03-0065-04
20100312
謝家成(1969—),男,湖北荊州人,副教授,主要從事語(yǔ)料庫(kù)語(yǔ)言學(xué)研究。