摘 要:隨著計算機技術的發(fā)展,語料庫技術越來越成為一種更為科學、經濟的手段被引入到辭書編纂領域。通過在漢語辭書釋義方面的語料庫技術運用,不僅能提高辭書釋義的客觀性、準確性,還能進一步增強漢語辭書編纂的科學性。本文以北大語料庫為依據(jù),以《現(xiàn)代漢語詞典》(第6版)中的相關詞目及釋義為研究對象,通過對語料庫中存儲的數(shù)據(jù)進行深入全面地分析,進一步明確現(xiàn)代語料庫技術在改進釋義內容、規(guī)范義項順序和提高近義辨別方面的作用。
關鍵詞:語料庫 漢語辭書 釋義 作用
一、引言
上世紀80年代以來,計算機應用技術不斷發(fā)展,以語料庫為基礎的語言學研究在語言學和計算機科學領域中都取得了豐碩成果,語料庫的建設也受到了世界各國的廣泛重視。近年來,語料庫規(guī)模的擴大及配套的檢索技術的完善,為辭書編纂帶來了新的思路和角度。從世界范圍來看,應用語料庫技術、引入語料庫數(shù)據(jù)分析方法來進行辭書編纂已成為趨勢。語料庫對詞典的收詞立目、釋義、義項、例證等諸多方面提供依據(jù)。通過對語料庫規(guī)模巨大、真實可靠的語料的分析,不僅能提高辭書的客觀性、準確性,還能進一步增強辭書編纂的科學性。語料庫作為一種工具和手段,在語言研究、自然語言處理,尤其是辭典編纂中,發(fā)揮著至關重要的作用。本文以北大語料庫為依據(jù),以《現(xiàn)代漢語詞典》(第6版)中的相關詞目及釋義為研究對象,旨在通過對語料庫中存儲的數(shù)據(jù)進行深入地分析,明確現(xiàn)代語料庫技術對漢語辭書釋義的作用。
二、改進釋義內容
辭書的釋義內容體現(xiàn)了編纂者對詞語的理解和概括,運用語料庫的數(shù)據(jù)分析,可以有效發(fā)現(xiàn)、檢驗或者補充傳統(tǒng)情況下對詞語理解的偏差,給讀者一個更清晰準確的釋義。我們以《現(xiàn)代漢語詞典》(第6版)中“展露”一詞為例:
從北大語料庫中檢索含有“展露”一詞的語例共有206個,其中有205個為有效語例。然后一一統(tǒng)計與其構成的組合,根據(jù)例數(shù)的多少排列,最后將例數(shù)排列在前三位的組合記錄并得出上圖。根據(jù)統(tǒng)計分析發(fā)現(xiàn),“展露笑容”組合的例數(shù)最多,其次是“展露才華”“展露生機”。所以筆者認為在釋義時還應考慮“展露”一詞還有呈現(xiàn)或表露某種神態(tài)的意思,近10%的語例顯示“展露”和“笑容”搭配,在統(tǒng)計過程中還有很多與“精神”“生機”等一些詞語搭配。依據(jù)上述的定性定量分析,“展露”可以解釋為:
展露(動)展現(xiàn);呈現(xiàn);顯露:~笑容/~才華
通過語料庫的數(shù)據(jù)分析,我們可以發(fā)現(xiàn)詞語在釋義過程中存在的問題,進而根據(jù)統(tǒng)計的結果進一步補充或完善詞語釋義內容。詞語的釋義內容不僅要考慮其本身的含義,還應發(fā)現(xiàn)其區(qū)別特征。只有這樣才可以讓讀者更準確地把握詞語,而詞語后面列舉的例子也是詞語釋義內容的一部分,更具代表性和典型性的例子也更有助于讀者理解詞語。
三、規(guī)范義項順序
義項排序問題在辭書釋義過程中是一個不可避免的問題,規(guī)范合理的義項順序,不僅可以科學、準確地解釋詞語,而且還有助于讀者正確地理解和學習。我們以《現(xiàn)代漢語詞典》(第6版)中“問訊”一詞為例:
問訊①詢問:~處/找人~。②訊問;審問:接受警方~。③<書>問候:互致~/朝夕~。④僧尼跟人應酬時合十招呼。也說打問訊。
筆者從北大語料庫中檢索到含有“問訊”一詞的句子共計153個,其中有效語例145個,無效語例8個。對這145個有效語例進行分析,根據(jù)辭書中給出的4個義項分別進行該義項下的語例統(tǒng)計,然后再根據(jù)其在總有效語例中所占的比例,給出量化統(tǒng)計,進而可以得出上表。根據(jù)上表的數(shù)據(jù)分析可以看出,“問訊”在句中顯示為義項①有107句,所占比例為74%;“問訊”在句中顯示為義項②有20句,所占比例為14%;“問訊”在句中顯示為義項③有12句,所占比例為8%;“問訊”在句中顯示為義項④有6句,所占比例為4%。根據(jù)上表可以看出,“問訊”一詞的義項排列順序,應該遵循使用頻率上的要求。先說“詢問”義,再說“訊問、審問”義,再說“<書>問候”義,最后說“僧尼跟人應酬時合十招呼”義。
運用語料庫進行辭書釋義,可以規(guī)范義項排列順序。語料庫中的大量語料是人們日常使用或者接觸情況的真實反映,因而語料庫的統(tǒng)計結果可以最真實地反應人們在使用和理解該詞語時,常用和不常用的意義區(qū)分。辭書在解釋詞語時,可以根據(jù)語料庫統(tǒng)計的結果,對所釋詞的義項順序做一個有根據(jù)的排列。這樣不僅便于初學者學習、理解和運用,也有利于文化程度較高的讀者把握詞語的使用程度。
四、提高近義辨別
近義詞在現(xiàn)代漢語學習中是一個難點,這些形式不同但表達意義相近或相同的詞給漢語學習者帶來了很大的困難。例如“叛離”“叛逆”兩個詞在《現(xiàn)代漢語詞典》中解釋為:
叛離背叛:~祖國
叛逆 ①背叛:~行為/~封建禮教
②有背叛行為的人:舊制度的~
這兩個詞作動詞時的釋義完全一致,但在舉例中可以看到二者的差別。在同為動詞時,“叛離”詞條下的例證對于“叛逆”不適用,但是“叛逆”詞條下的例證對于“叛離”部分適用,如可以說“叛離封建禮教”,也可以說“叛逆封建禮教”?!芭涯妗庇袃煞N詞性:名詞和動詞。根據(jù)上述情況,筆者對這兩個詞進行語料庫檢索,得到“叛離”的有效語例共37個,“叛逆”的有效語例共569個。對這些語例中詞語后面的搭配詞進行窮盡式的分析,并根據(jù)次數(shù)由多到少依次排列得到如下結果(只列出所占比例排在前五位的使用情況):
從上表中可以看出,當“叛離”“叛逆”這兩個詞同時為動詞時,它們后面的搭配詞語基本上都不相同。需要說明的是,“叛離”“叛逆”都存在單獨使用的情況,都已經排除在外,沒有記錄在表格當中,“叛離”單用的情況有11例,“叛逆”單用的情況有155例?!芭涯妗眴斡脮r,在128個例證中作名詞使用,并且與“叛逆”搭配排在第一位的“者”,表達的意思也是名詞性“叛逆”的含義。由此可見,“叛逆”作為名詞的用法比較常見,所以筆者建議在釋義“叛逆”一詞時應當把它的名詞性釋義放在首位,釋義內容和配例都比較科學,因此只調換順序,內容和配例不加改動。當“叛離”“叛逆”這兩個詞都為動詞時,后面的搭配基本上不相同,所以在釋義配例中應當體現(xiàn)出來。根據(jù)調查的情況,“叛離”已有的配例是較為科學的,但由于第二類(制度類)使用的頻率也比較高,建議再加上一例與制度類搭配的短語,如:叛離科舉制等。而對于“叛逆”一詞,根據(jù)調查數(shù)據(jù)統(tǒng)計的結果,“叛逆”與“精神”一詞搭配排在第二位,與“行為”一詞搭配排在第五位,并且都是為四字短語的使用情況,所以在釋義配例時應該把這兩個短語列舉出來?;谏鲜龇治觯\用典型配例和分立義項可以更加精確和完整的釋義詞語,“叛離”“叛逆”這兩個詞的釋義如下:
叛離 背叛:~祖國/~科舉制
叛逆 ①有背叛行為的人:舊制度的~
②背叛:~精神/~行為
漢語辭書釋義在對待近義詞時,不僅可以從意義、用法、色彩差異等特點描述它們的區(qū)別特征,還可以通過例證補充說明詞語。語料庫的出現(xiàn),為我們提供了大量真實、可靠的語料,這既可以有效地幫助我們從海量信息中選擇更有說服力和更為科學的區(qū)別特征,也進一步提高了詞語釋義的精確性,減少不必要的垃圾信息干擾,增強漢語辭書的實用價值。
五、結語
運用語料庫的數(shù)據(jù)分析,可以使我們更加客觀地了解詞語在現(xiàn)實生活中的使用情況,進而更加準確地把握詞語釋義的尺度。在使用語料庫的同時還應該注意很多問題,比如窮盡性、有效性等問題。窮盡性就是在檢索語料的過程中,應該將含有檢索條目的語例盡可能完全地收錄進來。這樣我們可以全面了解詞語的使用情況,為進一步的全面分析打好基礎。若是檢索的語料沒有窮盡該領域,就會導致分析結果有一定程度的偏差,語料抽樣比例越小,最終所得到的結果偏差就越大。有效性是在窮盡性基礎上的進一步發(fā)展,在大量語料中,選取有效的語例作為研究對象,才能發(fā)揮語料的最大價值。如果沒有在窮盡的語料中進一步明確其有效性,最終的分析結果就不能反映語言發(fā)展的現(xiàn)實,不具有針對性,也就失去了研究的價值。在研究過程中,筆者還發(fā)現(xiàn)語料分布的平衡性、語料質量的明確性等問題,這些都對研究的最終結果產生著重要的作用。
語料庫技術對辭書釋義發(fā)揮著重要作用。它可以改進釋義內容,發(fā)現(xiàn)詞語在釋義過程中存在的問題,選取更具代表性和典型性的例子輔助釋義,使讀者更準確地把握詞義;它可以規(guī)范義項順序,根據(jù)語料使用的真實情況來考察詞語的使用和發(fā)展,以更符合現(xiàn)實和人類理解的排列順序,滿足不同層次讀者的需求;它還可以提高近義詞辨別,從語用義、用法、色彩差異等多種角度,從海量信息中選取更具說服力和區(qū)別度的詞語特征,減少垃圾信息干擾,增強辭書的實用價值。
(本文為2016年度湖南科技學院科學研究項目“基于COCA的平衡語料庫研究”。)
參考文獻:
[1]符淮青.詞典學詞匯學語義學文集[C].北京:商務印書館,2004.
[2]張志毅,張慶云.詞匯語義學[M].北京:商務印書館,2005.
[3]郭銳.現(xiàn)代漢語詞類研究[M].北京:商務印書館,2002.
[4]邢福義.漢語語法三百問[M].北京:商務印書館,2002.
[5]衛(wèi)乃興.基于語料庫和語料庫驅動的詞語搭配研究[J].當代語言學,2002,(2).
[6]蘇寶榮.詞義研究與辭書釋義[M].北京:商務印書館,2008.
[7]馮志偉.計算語言學基礎[M].北京:商務印書館,2001.
(唐萌 湖南永州 湖南科技學院人文與社會科學學院 425100)