孫道功 陳藝瑋
摘 要 《面向應(yīng)用的漢語語義構(gòu)詞研究》一書,采用定量統(tǒng)計和定性說明相結(jié)合的方法,基于數(shù)據(jù)庫中5萬多個合成詞對語義構(gòu)詞規(guī)律進行深入探索,歸納得出字義與詞義的關(guān)系類型和語義構(gòu)詞規(guī)則。該書分析角度新穎,構(gòu)思縝密,展示出諸多的新特色,特別是通篇運用了基于數(shù)據(jù)庫的數(shù)量統(tǒng)計方法,提出了語義關(guān)系分析描寫的具體路徑,綜合運用多種理論多維深度解釋構(gòu)詞規(guī)則,并嘗試把語義構(gòu)詞的研究成果直接應(yīng)用于中文信息處理。
關(guān)鍵詞 構(gòu)詞規(guī)則 語義構(gòu)詞 理論與應(yīng)用
《面向應(yīng)用的漢語語義構(gòu)詞研究》一書,是亢世勇教授等(2020)基于《漢語語義構(gòu)詞數(shù)據(jù)庫》,對語義構(gòu)詞規(guī)律進行探索的新成果。該書主體部分基于數(shù)據(jù)庫歸納得出字義與詞義的關(guān)系類型和語義構(gòu)詞規(guī)則。書中對字義與詞義關(guān)系的定量分析和類型歸納,既是對傳統(tǒng)詞匯學(xué)研究方法的革新,也是對當(dāng)前漢語字、詞義關(guān)系研究的有益補充。眾所周知,現(xiàn)代漢語詞匯系統(tǒng)在不斷擴大,但“漢字”卻沒有增加,這說明新詞語是由舊有構(gòu)詞材料通過新的組合方式產(chǎn)生的。該書在對常用雙音節(jié)合成詞詞義分析的基礎(chǔ)上,通過對三音節(jié)合成詞新詞語進行研究,尋求常用漢字的語義構(gòu)詞規(guī)律。這一研究具有重要的實踐意義,特別是對于提高計算機未登錄詞語的識別效率,提高語言信息處理的準確度,都具有很高的實用價值。
《面向應(yīng)用的漢語語義構(gòu)詞研究》對語素義和詞義關(guān)系的分析細致全面、角度新穎、構(gòu)思縝密,展示出諸多新特色,體現(xiàn)了作者在詞義關(guān)系分析方面的新穎視角和獨特見解。其中有四點特別突出。
一、 通篇運用了基于數(shù)據(jù)庫的定量統(tǒng)計方法
定量和定性相結(jié)合,是當(dāng)前語言研究的重要趨勢。為了對詞義關(guān)系進行量化分析,該書構(gòu)建了《漢語語義構(gòu)詞數(shù)據(jù)庫》,并基于數(shù)據(jù)庫定量統(tǒng)計,分析歸納了詞義關(guān)系及類型。多樣化的數(shù)據(jù)統(tǒng)計成為該書的一大特色和亮點。
研究過程中,科學(xué)精確的數(shù)字統(tǒng)計和簡明直觀的圖表運用讓各類詞語的義類構(gòu)成特點和詞義關(guān)系一目了然,也讓傳統(tǒng)詞匯學(xué)中的某些模糊表達變得具體直觀。書中對義位義類的主要構(gòu)成方式、語素義與詞義(義位)的關(guān)系分析等方面都有體現(xiàn)。傳統(tǒng)詞匯學(xué)對語素義和詞義關(guān)系的分析,通常采用“語素義基本反映詞義”“語素義部分地反映詞義”等籠統(tǒng)的說法,該書采用定量統(tǒng)計和定性說明相結(jié)合的方法,通過對數(shù)據(jù)庫中5萬多個合成詞的考察分析,把字義與詞義的關(guān)系歸納為八種類型:A+B=A=B(如“哄騙”)、A+B=A(如“人物”)、A+B=B(如“阿哥”)、A+B=C(如“爪牙”)、A+B=A+B(如“陪考”)、A+B=A+B+D(如“冷眼”)、A+B=A+D(如“救星”)、A+B=D+B(如“走運”)。在類型歸納的基礎(chǔ)上,分類并統(tǒng)計出各個類型的所占比例,并對每一類型的義類構(gòu)成和構(gòu)詞特點進行解釋描寫。作者基于數(shù)據(jù)庫考察發(fā)現(xiàn),只有第四種類型(A+B=C)看不出字義與詞義的關(guān)系,其他七種字義與詞義都有明顯的關(guān)系。但是第四種只占詞語總量的8.02%,而其他七種加起來占91.98%。在這八種類型中,第六種(A+B=A+B+D)所占比例最高,達到44.99%,第五種(A+B=A+B)所占比例次之,占27.60%。定量統(tǒng)計數(shù)據(jù)表明,漢語詞匯中字義與詞義有密切的關(guān)系。由字義可以推知詞義,這是漢語詞匯的重要特點??梢哉J為,具體直觀的數(shù)據(jù)和圖表讓讀者對語義構(gòu)詞規(guī)則有了更清楚的了解和把握,特別是用字母標示出字義與詞義的關(guān)系模式,便于語義形式化和自然語言處理。
定量研究的主要優(yōu)勢是“化繁為簡”,將紛繁復(fù)雜的語言現(xiàn)象通過必要的裁剪、刪節(jié)、修整、簡化,最終轉(zhuǎn)變成為幾個關(guān)鍵的“變量”,并以此來開展研究和定性分析。在對每一類型的構(gòu)詞規(guī)則和特點歸納總結(jié)時,先用表格說明義位義類的主要構(gòu)成方式,再對表格數(shù)據(jù)進行解釋,不僅簡明易懂,也更具客觀性和說服力。該書善于利用數(shù)據(jù)表達,將一些復(fù)雜繁瑣的籠統(tǒng)說明改為定量統(tǒng)計分析,可以很大程度上增強內(nèi)容的解釋力。毫無疑問,各種圖表的綜合運用讓內(nèi)容分析更加成系統(tǒng)、有條理,表達更加直觀、透徹、有序。通篇運用了基于數(shù)據(jù)庫的定量統(tǒng)計方法,成為該書的一大亮點。
二、 提出了詞義關(guān)系分析描寫的具體路徑
國內(nèi)研究詞匯語義關(guān)系的論文或論著頗多,但是其分析大多仍停留在舉例式的分析層面。該書對語義關(guān)系的分析全部立足于語義構(gòu)詞數(shù)據(jù)庫,同時提出了詞義關(guān)系分析描寫的具體路徑。
首先,基于人機兩用的研究理念,設(shè)立“字位”作為詞義關(guān)系分析和描述的基點?!白治弧敝敢粋€單音單義的漢字,是最小的語義構(gòu)詞單位,即每個“字位”包括一形、一音、一義。故一個多音多義的漢字可以形成多個字位。“字位”有點像詞典學(xué)中的義項,但又不完全相同?!白治弧笔轻槍ψ侄缘模际菃我艄?jié)的。而義項是對詞而言的,可以是單音節(jié)或多音節(jié)。以“字位”為描寫單位可以避免描寫結(jié)果比較粗疏的問題,使信息描述的顆粒度更小,獲得的信息也更精細化。書中遵循“一字一條、一義一條、意義與語法功能結(jié)合”等原則將“國標GB2312”所定義的6763個漢字衍生為17430個字位,按照《同義詞詞林》的三級語義分類體系(大類、中類、小類)給每個字位歸類,錄入數(shù)據(jù)庫,建成了大型的《漢字義類信息庫》。其次,在字、詞語義分類信息庫的基礎(chǔ)上,通過統(tǒng)計比較說明字、詞語義分布的實際情況以及二者之間的對應(yīng)關(guān)系,為進一步進行語義構(gòu)詞規(guī)則的研究提供基礎(chǔ)?;谛畔炜疾欤瑫刑岢隽俗?、詞義之間的三個一致性:(1) 字的義類體系和詞的義類體系基本一致;(2) 字、詞在各個義類中的分布比例基本一致;(3) 除個別的類外,字、詞的絕對數(shù)量多少一致。可見,漢語中字與詞在義類上有著明確的對應(yīng)關(guān)系。再次,選取定量的雙音合成詞,利用“漢字義類信息庫”對構(gòu)成雙音合成詞的每個字進行語義標注,建成大型的《漢語語義構(gòu)詞數(shù)據(jù)庫》,在此基礎(chǔ)上進行現(xiàn)代漢語語義構(gòu)詞規(guī)則的研究,通過統(tǒng)計歸納得出由字義整合成詞義的具體規(guī)則。
基于書中提出的詞義關(guān)系分析描寫的具體路徑,作者對現(xiàn)代漢語中的5萬多個雙音合成詞和6830個三音節(jié)合成詞新詞語內(nèi)部的詞義關(guān)系進行分析描寫。特別需要注意的是,“字位”的設(shè)置以及《漢字義類信息庫》的構(gòu)建,都是為了描寫詞匯內(nèi)部的詞義關(guān)系服務(wù)的。在此基礎(chǔ)上,基于字義和詞義的關(guān)系,構(gòu)建了《漢語語義構(gòu)詞數(shù)據(jù)庫》。該庫中合成詞的標注信息非常豐富,涉及合成詞語義類,前字、后字的語義類和釋義,字、詞語義關(guān)系類型等,從不同層級明確合成詞的語義構(gòu)成情況,其建庫方式和標注信息也為之后的詞義關(guān)系研究提供了參考模板。
數(shù)據(jù)庫中語義類標記包括三級,其中大類有12個:A人、B物、C時間與空間、D抽象事物、E特征、F動作、G心理活動、H活動、I現(xiàn)象與狀態(tài)、J關(guān)聯(lián)、K助語、L敬語。各個大類內(nèi)部按照詞義之間的同義程度分出若干中類,中類包括94個,其標記符號是在大類字母后面添加小寫的a、b、c、d等表示。各個中類內(nèi)部進一步按照詞義之間的同義程度分出小類,小類包括1428個,其標記符號是在大類、中類字母后面用數(shù)字01、02、03、04等表示。樣例如表1:
表1中的標記符號部分說明如下:“聯(lián)邦”,合成詞的語義類是Di02,大類D表示抽象事物,中類i表示社會、政法,小類02表示國家。前字符號Ie09,大類I 表示現(xiàn)象與狀態(tài),e 表示事態(tài),小類09表示連接、聯(lián)合;后字符號Di02,與“聯(lián)邦”的義類符號一致?!白帧⒃~語義關(guān)系類型”對應(yīng)的6表示“聯(lián)邦”語義關(guān)系類型是“A+B=A+B+D”。再如“聯(lián)播”,合成詞的語義類是Hh03,大類H表示活動類,h表示文體活動類,小類03表示傳播。前字Ie09,大類I 表示現(xiàn)象與狀態(tài),e 表示事態(tài),小類09表示連接、聯(lián)合;后字Hh03與“聯(lián)播”的義類一致,其他不再贅述。
毫無疑問,明確合成詞的各級語義單位,不僅在描寫詞義組成情況時比較方便,而且可以使描寫結(jié)果更加系統(tǒng)科學(xué)。特別是對詞語義類分類情況的描述和對構(gòu)詞規(guī)則特點的總結(jié),具有明確性和系統(tǒng)性,為現(xiàn)代漢語詞匯語義關(guān)系的描寫提供了范式。
此外,在解釋說明語素義和詞義關(guān)系時,該書不單純局限于兩個語素的聯(lián)系,對構(gòu)詞語素進行搭配類型、轉(zhuǎn)指方式的分析,擴大對語素義和詞義關(guān)系分析的范圍。不局限于已有的分析方法,不囿于已有的研究視角,而探尋新的分析角度,是該書在詞義關(guān)系分析方面特別值得稱贊的地方。唯有如此,才可以更好地將合成詞深層的語義構(gòu)詞特點揭示出來,也使詞義關(guān)系研究突破了傳統(tǒng)分析的局限。
三、 綜合運用多種理論多維深度解析構(gòu)詞規(guī)則
傳統(tǒng)詞義研究中往往存在重描寫輕解釋的現(xiàn)象。該書在分析詞義關(guān)系類型時,把分析描寫和理論解釋有機結(jié)合起來,特別是對現(xiàn)象的解釋,綜合運用多種理論,有深度且多有創(chuàng)見,超越了當(dāng)前學(xué)界的同類研究。
譬如在分析雙音名詞中無向詞語的語義構(gòu)詞特點時,基于詞語的物性角色來說明每個語素的隱喻、轉(zhuǎn)喻或隱轉(zhuǎn)喻情況;然后在生成詞庫理論的指導(dǎo)下,對同義類語素雙音合成名詞中的無向詞語的語義變化進行了分析。首先根據(jù)兩個語素義如何通過轉(zhuǎn)喻或隱喻變?yōu)樵~義,將無向詞語分為八類:(1)前項-后項轉(zhuǎn)喻(包含整體轉(zhuǎn)喻),如須眉、裙釵、山水等;(2)前項-后項隱喻(包含整體隱喻),如心腹、鴛鴦、樊籠等;(3)前項轉(zhuǎn)喻-后項隱喻,如肉票;(4)前項隱喻-后項轉(zhuǎn)喻,如瓊筵;(5)前項隱喻-整體隱喻,如眼線;(6)前項轉(zhuǎn)喻-整體隱喻,如草包;(7)前項隱喻-整體轉(zhuǎn)喻,如兔唇;(8)前項轉(zhuǎn)喻-整體轉(zhuǎn)喻,如布衣。其中(1)、(2)兩種占比最高,分別達到60.03%和24.80%,其他六種類型僅占15.17%。然后根據(jù)物性結(jié)構(gòu)理論,分析每一類中無向詞語的語素義體現(xiàn)了詞義的哪種物性結(jié)構(gòu)。最終得出無向詞語的語素義轉(zhuǎn)變?yōu)樵~義的具體途徑。并基于分析歸納得出了22種物性關(guān)系,來解釋語素義體現(xiàn)的物性角色類型,以及與詞義是何種關(guān)系,是基于相關(guān)性發(fā)生轉(zhuǎn)喻還是相似性發(fā)生隱喻等。同時,將無向詞語中的物性關(guān)系與構(gòu)詞類型對應(yīng)起來。無向詞語語素義通常要通過隱喻或轉(zhuǎn)喻才能變?yōu)樵~義,因此無向詞語的構(gòu)詞類型大部分為第四類(A+B=C)或第六類(A+B=A+B+D)。由此可以看出,前項和后項兩個語素更偏向同時進行轉(zhuǎn)喻或者同時進行隱喻來得到詞義。人們更容易將語素義和詞義聯(lián)系到一起,更容易通過語素義理解詞義,這符合人類普遍的認知規(guī)律。不難看出,綜合運用概念整合與隱喻、轉(zhuǎn)喻理論,生成詞庫理論等多種理論,從多個視角來研究詞義與其構(gòu)成語素義表面上不存在關(guān)系的原因,超越了當(dāng)前此類研究的論文或論著。
為了給構(gòu)詞規(guī)則的理論闡釋提供更豐富的信息,作者在語料庫中標注了豐富的語義信息,如構(gòu)詞類序、四項規(guī)則、轉(zhuǎn)義作用的對象、轉(zhuǎn)義的類型、轉(zhuǎn)義涉及具體要素、釋義、具體闡釋和語義角色框架等八種參數(shù)。詞語信息要素齊全,不僅便于對于現(xiàn)代漢語中的構(gòu)詞類型進行多維細致的考察分析,同時給語料庫的使用帶來極大便利,也為后續(xù)語料庫的開發(fā)提供了參考。
綜合運用多種理論分析漢語中司空見慣的構(gòu)詞規(guī)則,不僅優(yōu)于單一理論背景下的構(gòu)詞規(guī)則解釋,同時也富有啟發(fā)意義。這啟發(fā)我們要深入考慮如何把幾種理論結(jié)合起來對某一語言現(xiàn)象進行細致解釋,而不單單停留在表面。例如以隱喻和轉(zhuǎn)喻理論為主線貫穿整個分析過程,以詞語的物性角色為基礎(chǔ),將物性角色看作詞語的一部分,用隱喻和轉(zhuǎn)喻概括與物性角色糅合的合成詞的語義特點等,書中的這些做法都為漢語的詞匯語義研究提供了新的嘗試,帶來了新的思考。
四、 語義構(gòu)詞的研究成果直接應(yīng)用于中文信息處理
未登錄詞的識別與處理,一直是中文信息處理的難點。實踐證明,基于大規(guī)模語料庫的語義構(gòu)詞模式的自動分類,可以顯著提高對未登錄詞的識別效率。
該書提出了一種新的基于層次加權(quán)圖編輯距離(GED:Graph edit distance)的使用模糊化(Fuzzification)、核技術(shù)(Kernel Techniques)和懲罰因子(Penalty factors)的多目標優(yōu)化分類器(FKP-MCOC)方法,并將其用于漢語語義構(gòu)詞模式的預(yù)測分析。首先計算每個語義構(gòu)詞圖和原型圖之間的層次加權(quán)的GED,然后計算它們之間的相似性度量,經(jīng)過歸一化的GED被嵌入到一個新的特征向量空間,基于新的特征向量空間,使用FKP-MCOC模型和算法來預(yù)測語義構(gòu)詞模式。在漢語語義構(gòu)詞模式分析數(shù)據(jù)集上的實驗結(jié)果與支持向量機(SVM:Support Vector Machines)的比較分析表明,書中提出并使用的基于層次加權(quán)GED的FKP-MCO分類器方法可以顯著增加不同構(gòu)詞模式的分離度以及在一個新的復(fù)合詞語義模式數(shù)據(jù)上的預(yù)測性能。
書中的實驗結(jié)果表明,對于八類不同的漢語語義構(gòu)詞目標模式的預(yù)測平均準確率為88.79%,比支持向量機的性能平均值高出4.85個百分點??梢钥闯?,基于漢語構(gòu)詞模式形成的FKP-MCOC的預(yù)測性能要顯著好于目前通常使用凸二次規(guī)劃方法的SVM。FKP-MCOC方法的顯著特征是將每個輸入數(shù)據(jù)與模糊隸屬度關(guān)聯(lián)能夠顯著降低數(shù)據(jù)中噪聲和異常的干擾;同時,語義層次加權(quán)核的應(yīng)用能夠?qū)⒎蔷€性可分的問題轉(zhuǎn)化為線性可分的問題。特別是基于語義層次加權(quán)核的FKP-MCOC模型能夠有效地用于漢語語義構(gòu)詞模式的自動分類,以便提高機器對漢語詞語的認知和理解的準確性。
該書把漢語語義構(gòu)詞的研究成果直接應(yīng)用于中文信息處理,并取得了很好的測試效果。一方面,說明了書中基于數(shù)據(jù)庫歸納得出的構(gòu)詞規(guī)則適用性強,可以用于識別未登錄詞。另一方面,也對進一步開展?jié)h語多音節(jié)詞以及混合不同音節(jié)的詞語的自動識別和預(yù)測,提供了基礎(chǔ)和參考。
此外,該書還提出了諸多富有新意的新觀點。譬如漢語合成詞中90%以上字義與詞義有直接或間接的聯(lián)系,可以由字義推出詞義,但A+B=C類是例外。這類詞語的語義透明度低,語素組合后產(chǎn)生了新的意義,無法由語素義直接推知詞義。對于這一難題,該書提出了新的解決思路,采用生成詞庫論的物性結(jié)構(gòu)理論分析這類詞轉(zhuǎn)義產(chǎn)生的途徑,突破“套用句法模式分析構(gòu)詞法”的傳統(tǒng)方法,很好地解釋了該類詞語素義和詞義之間的關(guān)系。同時也證明了物性結(jié)構(gòu)理論在詞義分析方面的強大解釋力,豐富和發(fā)展了漢語詞匯語義學(xué)理論。在語義類方面,將雙音合成詞的語義類構(gòu)成特點歸納為四種規(guī)則:同類規(guī)則、后向型規(guī)則、前向型規(guī)則和無向型規(guī)則。對每一規(guī)則的詞義構(gòu)成特點進行了細致描寫,特別是提出無向型詞語的語素義發(fā)生了轉(zhuǎn)指,語素義義類與詞義不一致,探討這類詞的語義特點更有助于更好地解釋某些語義現(xiàn)象。文中結(jié)合隱喻、轉(zhuǎn)喻理論和生成詞庫理論來說明該類詞轉(zhuǎn)義產(chǎn)生的具體途徑和方式,為現(xiàn)代漢語詞匯語義研究提供了新角度和新方法。
五、 結(jié)語
正如任何事物都不是完美無缺的一樣,該書也存在一些值得商榷之處。如,雖然各項研究都建立在大規(guī)模數(shù)據(jù)庫的基礎(chǔ)上,通過統(tǒng)計比較說明字、詞語義分布的實際情況以及二者之間的對應(yīng)關(guān)系,為進一步進行語義構(gòu)詞規(guī)則研究提供了理論基礎(chǔ),但是整本書統(tǒng)計數(shù)據(jù)較多,對現(xiàn)象的解釋相對還較少,尤其是在第二至四章,多是對統(tǒng)計結(jié)果的歸納總結(jié),較少對特點進行解釋說明和原因分析。此外,書中將字、詞的語義類分為大類、中類和小類,每一類用相應(yīng)的字母來標示。這一做法為語義形式化研究提供了基礎(chǔ)和便利,但是也不可避免地降低了內(nèi)容的可讀性,特別是在閱讀語義構(gòu)詞規(guī)則時,有時候很難直接想到字母所代表的是哪一語義類,往往需要往前翻看對義類分布的相關(guān)介紹才能知曉。同時,書中語義構(gòu)詞的研究成果,雖然在未登錄詞的識別中取得了較好的實驗結(jié)果,但是在全面應(yīng)用于計算機語言信息處理、提升中文信息處理的效度等方面,還有待進一步檢驗。
瑕不掩瑜,《面向應(yīng)用的漢語語義構(gòu)詞研究》一書,理論和應(yīng)用并舉,定量和定性結(jié)合,對漢語的語義構(gòu)詞問題進行了全方位研究,提出了解決問題的新思路和新方法,還為漢語語義構(gòu)詞研究提供了新范式。理論與應(yīng)用并舉,是語言學(xué)研究的方向。該書作為一部兼顧理論與應(yīng)用的漢語語義構(gòu)詞研究的力作,值得讀者仔細研讀。
參考文獻
1. 亢世勇等.語言資源開發(fā)與應(yīng)用.外語教學(xué)與研究出版社,2018.
2. 亢世勇等.面向應(yīng)用的漢語語義構(gòu)詞研究.中國社會科學(xué)出版社,2020.
3. 孫道功.應(yīng)用與前瞻:現(xiàn)代漢語新詞語計量研究與應(yīng)用.辭書研究,2010(2).
(責(zé)任編輯 劉 博)