基于語料庫的同一后綴不同構詞過程的形態(tài)生成能力研究
——以派生后綴“-ly”為例

2022-04-24 07:41:18李華劍鄧耀臣

東北亞外語論壇 2022年2期

李華劍鄧耀臣

大連外國語大學英語學院大連 116044 中國

一、引言

詞綴生成能力一直是語言形態(tài)研究中的熱門話題。不同的詞綴基于構詞規(guī)則能夠不斷的創(chuàng)造新的復雜單詞，但是基于構詞規(guī)則所產生的新詞的數量變化很大。例如在英語中以“-th”結尾的單詞（warmth）很少，而以“-ness”結尾的單詞（goodness）卻有成千上萬，研究不同詞綴的生成能力既可以了解不同詞綴的構詞能力的差異，也可以讓我們從詞匯層面觀察語言的發(fā)展和變化趨勢。

二、文獻綜述

詞綴生成能力是語言形態(tài)研究中最熱門和最具爭議的話題之一。Plag (2003)將生成能力描述為詞綴的固有屬性即“用來創(chuàng)造新的復雜詞匯”，關于詞綴生成能力及其測量方法，在許多文獻中提出了不同的觀點和方法(Aronoff, 1976; Chitashvili & Baayen, 1993; Baayen & Renouf, 1996; Plag, 1999, 2004; Baayen, 1992, 1993,1994, 2001, 2009; Bauer, 2001; Gaeta & Ricca, 2003; Pustylnikov & Schneider-Wiejowski, 2009；among many others)。例如，Gaeta & Ricca（2003）選擇了58個意大利語的派生后綴，將基于語料庫和基于詞典分別所得出的詞綴生成能力數據進行了一個對比分析。這是因為在對意大利語的詞綴相關研究中，頻數盡管一直以來都被認為是評價詞綴在構詞過程中的生成能力可用的一個相關參數，但是很少有研究將其作為主要研究對象，此前的研究主要還是以詞典為導向來評估詞綴的生成能力。為此該研究基于自建的報紙語料庫，對這58個派生后綴從頻數和罕見詞（Hapax/詞頻為1）這兩個角度進行生成能力的評估，并將數據和之前的以詞典為導向的數據進行全方面的對比，最終的研究發(fā)現(xiàn)表明，在詞綴生成能力研究領域，基于語料庫的數據整體更加可靠，因為它們避免了詞典編撰過程中的一些缺點（例如詞典有時出于全面性的考慮會保留一系列已經很少使用的古老的復雜形式，這會對以詞典為導向的研究產生干擾），使用基于真實語料的大規(guī)模語料庫往往能更全面準確的反映不同詞綴的生成能力，這個研究結論同樣也證實了Baayen的觀點的合理性與可實踐性。

Baayen 生成能力計量方式

在生成能力計量研究這方面，Baayen(2009)的生成能力計算方式是一個著名而復雜的衡量指標。他的基于語料庫的定量估算形態(tài)生成能力的方法已經成為構詞過程生成能力共時和歷時研究的主要范式(Gaeta & Ricca, 2003; Plag, 1999,2006)。Baayen的目標是計算在語料庫中由特定的形態(tài)過程生成新詞的概率，他提出了估算形態(tài)生成能力的定量方法。Baayen(2009)基于語料庫中的罕見詞(hapax legomena)，也即詞頻為1的詞，提出了三個生成能力維度，即已實現(xiàn)生成能力（realized productivity）、潛在生成能力（potential productivity）和擴大生成能力（expanding productivity），每一個維度都探索了生成能力的一個方面：

已實現(xiàn)生成能力（realized productivity），下文簡稱為“RP”，計算在構詞過程中不同的后綴已經產生的不同單詞的數量，Baayen認為這種衡量方法“顯示了過去的生成能力和該后綴的使用程度”。

已實現(xiàn)生成能力的計算公式為：

RP=某一后綴已經產生的不同單詞的數量

潛在生成能力（potential productivity），下文簡稱為“PP”，所表明的是某一個類別(或詞綴)的潛在生成能力，通過統(tǒng)計“語料庫中只出現(xiàn)一次的形態(tài)類別的所有單詞的數量，再用該數據除以這一類別（或詞綴）所構建的單詞的總數量（包含所有詞頻的單詞而不僅僅是頻率為1的罕見詞）。Baayen認為hapax的數量可以顯示一個詞綴的生成能力，這一測量方法同時也是“在某一語料庫或文本中遇到尚未觀察到的單詞類型的概率”。

潛在生成能力的計算公式為：

擴大生成能力（expanding productivity），下文簡稱為“EP”，它是用給定語料庫中該形態(tài)類別的hapax數量除以語料庫中hapax詞的總數量，Baayen認為這一指標可以有效地“評估形態(tài)類別擴張和吸引新成員的速度”。同時也指出“這個比率是對所有詞綴對詞匯增長率的相對貢獻的估計”。

擴大生成能力的計算公式為：

綜上所述，這三個維度都探索了生成能力的一個方面，具有不同的功能，基于這三個維度可以對派生后綴的生成能力進行綜合評估。使用這三個維度衡量生成能力的方式在國內外的不同語言的研究中都得到了充分的驗證，例如Seyyedeh Zohreh Aftabia& Abbas Ali Ahangara& Hassan Mishmast Nehib（2021）中基于Baayen的生成能力計算模型對波斯語的派生后綴的生成能力進行了定量的研究，研究基于Baayen(2009)提出的生成能力計算模型和Lotfi Zadeh的模糊集合理論，對Bijankhan語料庫中波斯語派生詞綴的生成能力進行了研究，一共對51個派生后綴進行考察，該研究的結果證明Baayen的生成能力衡量方式在評估波斯語詞綴的生成能力方面同樣有效。

在生成能力研究層面，就筆者目前所閱讀的文獻，目前已有的研究多集中于對一兩個詞綴進行深入的定量或定性的分析研究，例如Baayen & Neitt(1997)曾基于自建的新聞報紙的語料庫對荷蘭語的派生后綴“-heid”進行了定量分析，目前的研究鮮有綜合不同的語料庫進行生成能力的對比分析研究。因此本研究基于Brown語料庫和LOB語料庫這兩個平衡語料庫，選擇派生后綴“-ly”為研究對象,由于基于“-ly”這一個派生后綴所產生的單詞有兩種詞性，分別是形容詞和副詞，本研究將回答以下兩個問題：

1.基于Baayen的生成能力三個衡量維度，以“-ly”為后綴派生的形容詞和副詞的生成能力是否有差異？如果有差異造成這種差異的原因是什么？

2.美式英語和英式英語的統(tǒng)計結果是否有差異？

三、研究設計

研究語料

本研究以Brown語料庫和LOB（全稱Lancaster-Oslo-Bergen）語料庫為研究語料，Brown語料庫由美國Brown大學在20世紀60年代初創(chuàng)建，該語料庫收集了500個連貫的美國英語書面語，用于研究當代美國英語。它是世界上第一個平衡語料庫，也一直是英語平衡語料庫的標準，LOB語料庫便是基于此標準模仿Brown語料庫的比例建立起來的英國英語語料庫，其語料搜集自1961年英國英語出版物上的文本，共500篇，這兩個語料庫對當代美國英語和英國英語有著足夠的代表性可以支撐本次研究。

表1 Brown語料庫和LOB語料庫概況

表2 Brown語料庫和LOB語料庫的具體容量

研究工具

本研究主要使用LancsBox和Excel這兩個工具輔助研究。LancsBox是由蘭卡斯特大學開發(fā)的一款多功能語料分析工具，使用LancsBox可以很快捷方便制作基于詞頻的Wordlist，便于后續(xù)研究。LancsBox也可以對文本進行詞性標記，由于本研究主要考察副詞和形容詞的生成能力，因此可以借助LancsBox快速準確的排除其余詞性的單詞。得到最終要研究的數據后使用Excel協(xié)助進行進一步的數據篩選處理以保證結果的準確性，同時可以制作不同的表格使數據更加直觀。

研究步驟

1.使用LancsBox將派生后綴“-ly”分別基于Brown和LOB語料庫制作wordlists，將wordlists導入Excel后進行兩步篩選，保證數據的準確性：

①基于LancsBox所制作的wordlists已經標好了全部單詞的詞性，將數據導入Excel后篩選出以“-ly”為后綴的形容詞和副詞：

②再進行完以詞性為標準的篩選后，進行人工核驗，將最后的結果核驗無誤后進行下一步的研究。

通過以上兩個篩選步驟來保障研究數據的精確性和完整性。

2.將整理完的研究數據通過Excel依照Baayen所提出的生成能力計算方式進行計算，將研究結果以表格形式呈現(xiàn)并繼續(xù)進行分析。

數據統(tǒng)計

基于Brown和LOB語料庫，將以“-ly”為后綴生成的單詞經過篩選過后，分為形容詞和副詞兩個類別以表3的形式呈現(xiàn)

表3 以”-ly”為后綴的單詞數量

四、結果與討論

1.基于Baayen的生成能力三個衡量維度，以“-ly”為后綴派生的形容詞和副詞的生成能力是否有差異？如果有差異造成這種差異的原因是什么？

基于Baayen的生成能力三個衡量維度對兩個語料庫的數據整合進行計算并且以表4記錄

表4 基于語料庫的形容詞和副詞的生成能力

從表4可以看出，以“-ly”為后綴派生的形容詞和副詞的生成能力存在明顯差異。具體來說在所使用的語料庫中形容詞的單詞數量遠遠小于副詞的單詞數量，因此形容詞的RP和EP遠小于副詞的RP。同時形容詞的PP略大于副詞的PP，但兩者的差距并不是很大，沒有像RP和PP那么明顯的差異性。

“-ly”既是副詞后綴也是形容詞后綴。“-ly”作為本族語的副詞后綴，幾乎可以加在一切的形容詞后面，表示狀態(tài)（如cheerfully）、程度（greatly）以及時間（recently）等等，因此以“-ly”為后綴的副詞數量特別龐大。與之相比，“-ly”也可以加在名詞后面充當形容詞后綴，在這種情況下，“-ly”并不是活性詞綴，它的構詞數量是很有限的，其主要意思為like a (像……的)、characteristic of(有……性質的)以及suited to(適于……的)等等，例如，ghostly（像鬼一樣的）、brotherly（有兄弟特點的）、manly（適合男子的）等等，因此以“-ly”為后綴的形容詞數量不是很多。

RP這一衡量維度顯示了過去的生成能力和該后綴使用的程度，EP這一衡量維度是對所有詞綴對詞匯增長率的相對貢獻的估計，從上文可以得出以“-ly”為后綴的副詞數量特別多，而以“-ly”為后綴的形容詞數量不是很多，因此在語料庫中“-ly”的副詞的RP和EP均遠大于形容詞。

PP這一衡量維度是表示在某一語料庫或文本中遇到尚未觀察到的單詞類型的概率，由于“-ly”為后綴的形容詞數量不是很多，所以很多以此形成的形容詞相對而言比較陌生，而對以“-ly”為后綴的副詞已經非常熟悉，因此在某一語料庫中遇到尚未觀察的單詞類型概率兩者相差不大。前者是因為數量少很多不是很熟悉，后者是構詞數量很多因此也會遇到尚未觀察到的單詞類型，但總體而言兩者相差不是很多。PP多與EP相結合來考察詞綴的生成能力。

2.美式英語和英式英語的統(tǒng)計結果是否有差異？

基于Baayen的生成能力三個衡量維度分別對Brown和LOB語料庫進行計算并且以表5記錄

表5 基于語料庫的形容詞和副詞的生成能力

從表5可以看出，在Brown和LOB語料庫兩個語料庫中，前者代表的是美式英語，后者代表的是英式英語。從結果來看兩者之間存在差異，在兩個語料庫中形容詞的RP和PP的相對差異較為明顯，其余各項數據的差異很小?？傮w而言，兩個語料庫之間存在差異但是差異不大。

這可能是因為英式英語和美式英語其實最大的差別就是發(fā)音，除了發(fā)音，詞匯方面也存在差異。雖然美國和英國官方語言都是英語，而且有很深的淵源，但在日后的發(fā)展過程當中，因為文化不同，所以還是會產生差異，例如football,美式英語稱之為橄欖球，英式英語稱之為足球，因此存在差異但差異并不是很大。

五、結語

本研究基于Baayen的詞綴生成能力的三個衡量維度，以Brown語料庫和LOB語料庫為研究語料，對派生后綴“-ly”進行了深層次考察，分為形容詞和副詞兩個類別進行比較分析，結果表明形容詞在已實現(xiàn)生成能力和擴大生成能力這兩個維度均遠小于副詞，造成這種差異的原因大部分是因為因此以“-ly”為后綴的副詞數量特別龐大，而以“-ly”為后綴的形容詞數量不是很多。而在潛在生產力這一衡量維度形容詞和副詞的差別不大。造成這種差異的原因大部分是因為在某一語料庫中遇到尚未觀察的單詞類型概率兩者相差不大，前者是因為數量少很多不是很熟悉，后者是構詞數量很多因此也會遇到尚未觀察到的單詞類型。同時也比較了代表美式英語的Brown語料庫和代表英式英語的LOB語料庫這兩個語料庫的數據統(tǒng)計結果的差別，結果表明有差異但差異不大。

本研究也存在明顯的不足。一是選擇研究的對象不多，僅僅選擇了“-ly”這一個派生后綴作為研究對象，二是選擇的語料庫不是很新，容量也不是很大，有待于后續(xù)的研究進行進一步的豐富和補充。

基于語料庫的同一后綴不同構詞過程的形態(tài)生成能力研究——以派生后綴“-ly”為例

一、引言

二、文獻綜述

三、研究設計

四、結果與討論

五、結語

基于語料庫的同一后綴不同構詞過程的形態(tài)生成能力研究
——以派生后綴“-ly”為例

二、文獻綜述

三、研究設計

四、結果與討論

五、結語