王治敏
(北京語言大學(xué)漢語學(xué)院,北京 100083)
基于時(shí)間跨度的漢語教學(xué)常用詞表統(tǒng)計(jì)研究①
王治敏
(北京語言大學(xué)漢語學(xué)院,北京 100083)
統(tǒng)計(jì)特征;教材編寫;統(tǒng)計(jì)詞表
本文利用語料的頻次信息和時(shí)間跨度,通過設(shè)計(jì)不同的統(tǒng)計(jì)時(shí)點(diǎn),建立了兩個(gè)可以反映詞語歷時(shí)變化的漢語名詞常用詞語統(tǒng)計(jì)詞表。兩個(gè)統(tǒng)計(jì)詞表不僅為《漢語水平詞匯與漢字等級大綱》新詞的收取和歷史詞的過濾提供了有價(jià)值的數(shù)據(jù),也為人工選取教學(xué)詞匯提供了有益的參考。為驗(yàn)證統(tǒng)計(jì)詞表的可靠性,本文又進(jìn)行了統(tǒng)計(jì)詞表與教材高頻詞的對比研究,結(jié)果表明《人民日報(bào)》雖然是新聞?wù)Z料,但是基本包含了漢語作為第二語言教材中的常用詞匯。
漢語常用詞表的研制歷史由來已久,學(xué)者們經(jīng)過多次實(shí)踐,研制出多個(gè)面向不同需求的常用詞詞表,例如:1986年北京語言學(xué)院研制的《現(xiàn)代漢語頻率詞典》;1989年北京航空航天大學(xué)的《現(xiàn)代漢語常用詞詞頻詞典》;北京師范大學(xué)的《中小學(xué)漢語教學(xué)詞表》;1990山東大學(xué)的《現(xiàn)代漢語常用詞庫》以及 1992年國家漢語水平考試委員會辦公室考試中心研制的《漢語水平詞匯與漢字等級大綱》(簡稱 HSK詞匯大綱)。其中 HSK詞匯大綱的影響最大,大綱中詞匯的篩選不僅集成了上述各類詞表的資源成果,同時(shí)還邀請了 33位對外漢語教學(xué)專家進(jìn)行人工干預(yù)。詞匯大綱曾經(jīng)作為我國對外漢語總體設(shè)計(jì)、教材編寫、課堂教學(xué)、教學(xué)測試的重要依據(jù),在學(xué)界發(fā)揮了重要的作用,但是由于詞匯大綱所用的統(tǒng)計(jì)語料全部來自上個(gè)世紀(jì) 80年代,多年來未曾更新,有些詞匯已經(jīng)不再使用。
長期以來,學(xué)者們對于詞匯大綱的修訂提出過種種建議。趙金銘 (2003)提出在大型語料庫進(jìn)行精詞頻和義頻統(tǒng)計(jì)之后重新進(jìn)行詞語篩選和分級。姜德梧 (2004)從詞匯的發(fā)展變化、收詞標(biāo)準(zhǔn)、詞性標(biāo)注、同形詞和一詞多義的處理、輕聲和兒化等多個(gè)方面提出了解決這些問題的原則和方法。李紅印 (2005)提出把大于詞的短語、結(jié)構(gòu)、成語和習(xí)用語歸入新增的 “語匯大綱”,與已有的 “漢字等級大綱”、“詞匯等級大綱”相照應(yīng)。劉長征 (2008)提出利用語言監(jiān)測的相關(guān)結(jié)果,實(shí)現(xiàn)對外漢語教學(xué)用詞表定期更新的設(shè)想。如何繼承原有大綱的成果,研制新的大綱是亟待解決的問題。
因此,本文嘗試?yán)么笠?guī)模語料的統(tǒng)計(jì)結(jié)果,自動提取和發(fā)現(xiàn)漢語常用詞語,建立名詞常用詞語統(tǒng)計(jì)詞表,為詞匯大綱的詞條收取和更新提供科學(xué)可靠的依據(jù),也為制定基于統(tǒng)計(jì)特征的漢語教學(xué)本科詞匯大綱提供思路。
常用詞的界定往往要和基本詞匯聯(lián)系在一起,常用詞就是當(dāng)代社會中常用的詞,它可以是基本詞匯的詞,也可以是一般詞匯的詞,常用詞的確定完全根據(jù)詞在最流行的書刊中的頻次 (劉叔新,1964)。一個(gè)詞語是否常用,往往是憑借經(jīng)驗(yàn)和直覺的判斷,但是這種直覺判斷往往帶有主觀的個(gè)人因素,不同的專業(yè)背景可能有不同的結(jié)果,因此,制定一個(gè)詞語收取的客觀標(biāo)準(zhǔn)非常重要。
國家語言監(jiān)測與研究中心在《中國語言生活狀況報(bào)告》中發(fā)布了針對中國內(nèi)地報(bào)紙、廣播電視和網(wǎng)絡(luò)的用字用詞的調(diào)查結(jié)果。該調(diào)查基于超大規(guī)模語料,考慮了平面媒體、有聲媒體、教材媒體等多方面的因素,而且發(fā)布了年度流行語的監(jiān)測。由于時(shí)間只有一年的跨度,上述調(diào)查還無法判斷詞語的持續(xù)性,無法作為判定常用詞的標(biāo)準(zhǔn)。
因此,本文給出了一個(gè)量化的定義,衡量一個(gè)詞語是否常用,最重要的應(yīng)該看該詞是否能夠在特定的時(shí)間段中持續(xù)流行,這就是說,一個(gè)詞語的常用程度不能只通過一個(gè)點(diǎn)的頻次記錄來衡量,而應(yīng)該把該詞語放在歷史大背景下,通過考察詞語在多個(gè)統(tǒng)計(jì)時(shí)點(diǎn)的變化來確定其常用程度。如果一個(gè)詞在特定歷史時(shí)段中的統(tǒng)計(jì)時(shí)點(diǎn)上出現(xiàn)數(shù)量很多且分布很均勻,根據(jù)出現(xiàn)的頻繁和穩(wěn)定程度可以認(rèn)為該詞為常用詞匯。如果一個(gè)詞語在某一個(gè)特定歷史時(shí)段的多個(gè)統(tǒng)計(jì)時(shí)點(diǎn)上出現(xiàn)很少或者不出現(xiàn),我們就認(rèn)為該詞的使用情況復(fù)雜,有待于觀察,不能作為常用詞匯。為了驗(yàn)證這一假設(shè),本文以《人民日報(bào)》作為基本語料,考察《人民日報(bào)》(1999~2003)這一歷史時(shí)段詞語的發(fā)展變化。選擇《人民日報(bào)》主要是考慮到語言的規(guī)范、發(fā)行量、影響力等多方面的因素。
在 5年的《人民日報(bào)》中如何確定統(tǒng)計(jì)時(shí)點(diǎn)是首先要考慮的問題。本文設(shè)計(jì)了兩種統(tǒng)計(jì)方案,第一種以 5年《人民日報(bào)》中 20個(gè)季節(jié)時(shí)點(diǎn)作為統(tǒng)計(jì)對象,第二種選擇以 5年《人民日報(bào)》中的第一個(gè)季度 (5個(gè)季度)作為統(tǒng)計(jì)對象,期望通過兩種統(tǒng)計(jì)的對比分析,確定最合理的常用詞語提取方法。語料加工如下:
首先,利用北京大學(xué)計(jì)算語言學(xué)研究所自主研制的分詞軟件對 5年的《人民日表》進(jìn)行切分標(biāo)注,然后把經(jīng)過分詞標(biāo)注后的語料按照季度分成 20個(gè)子集 S1、S2……S20。先后提取詞語在 20個(gè)子集和第一季度 5個(gè)子集的詞頻統(tǒng)計(jì)數(shù)據(jù),建立兩個(gè)可以反映詞語變化曲線的《人民日報(bào)》統(tǒng)計(jì)詞表。這兩個(gè)統(tǒng)計(jì)詞表記錄了在 5年時(shí)間詞語在季度上的統(tǒng)計(jì)數(shù)據(jù)。
其次,常用詞語必須滿足在 20個(gè)季度或者5個(gè)季度的統(tǒng)計(jì)詞表中均有出現(xiàn),通過這樣的篩選,在任意一個(gè)季度不出現(xiàn),都會被過濾掉。最后兩個(gè)統(tǒng)計(jì)詞表所收的名詞如表1所示:
表1:漢語名詞統(tǒng)計(jì)詞表收詞情況統(tǒng)計(jì)
兩個(gè)統(tǒng)計(jì)詞表的統(tǒng)計(jì)時(shí)點(diǎn)不同,得到的常用詞語集合也有所差別,統(tǒng)計(jì)的時(shí)點(diǎn)越多,限定條件越嚴(yán)格,得到的名詞條數(shù)越少。20個(gè)季度統(tǒng)計(jì)詞表中的名詞詞條只有 8607條,而 5個(gè)季度統(tǒng)計(jì)詞表得到的名詞要高得多,名詞總數(shù)達(dá)到 11175條。兩個(gè)詞表詞條總數(shù)不同,詞語分布是否也存在差異?筆者對此進(jìn)行了調(diào)查,調(diào)查結(jié)果表明,當(dāng)名詞的平均頻次大于 10次、50次、100次時(shí),詞表的名詞個(gè)數(shù)變化曲線基本重合。當(dāng)名詞的平均頻次小于 10次時(shí),兩個(gè)詞表的個(gè)數(shù)出現(xiàn)了明顯的分化,兩個(gè)統(tǒng)計(jì)詞表的名詞數(shù)分別為 2562條和 5297條。數(shù)量上有了明顯差距,這說明兩個(gè)詞表最重要的收詞差異在于低頻詞的收取方面,具體分布如圖 1所示:
圖1:統(tǒng)計(jì)詞表詞語分布與對比分析
詞語在兩個(gè)詞表的季度節(jié)點(diǎn)上的平均頻次紀(jì)錄較高,往往很常用。例如:“經(jīng)濟(jì)、企業(yè)、公司”是現(xiàn)代生活中的高頻詞,它們在兩個(gè)詞表的平均頻次全部超過了 2000次以上。因此未來新詞的收取主要考慮平均頻次靠前的詞語。
有一些詞語在統(tǒng)計(jì)詞表上雖然有記錄,但是頻次非常低,說明其常用程度不高。例如:“大哥大”現(xiàn)在已經(jīng)不用,只是語料中還有零星紀(jì)錄,不過這樣的詞語相對于頻次高的詞語,它的變化曲線也幾乎為零。例如:
圖2:“大學(xué)、信息、大哥大”的詞語變化圖示
還有一些詞語,在 20個(gè)季度中分布不穩(wěn)定。例如:“小鬼”在 20個(gè)季度的平均頻次為2.15次,在 2000年和 2003年第四季度的頻次為 0,與之相比,“火柴”的頻次相比高一些,平均頻次為 4.95,但是其分別在 2001年第一季度、2002年第二季度和 2003年的第四季度分別出現(xiàn)了 0紀(jì)錄。“火柴”這個(gè)詞語反映了人們社會生活的變化,原來人們使用火柴點(diǎn)火做飯,現(xiàn)在出現(xiàn)了電子打火,城市里居民幾乎不再使用火柴?!盎鸩瘛钡念l次出現(xiàn)了明顯變化。因此“小鬼、火柴”被排除在統(tǒng)計(jì)詞表之外。
圖3:“小鬼、火柴”的詞語變化圖示
漢語中有很多詞語可能會在這一時(shí)段出現(xiàn),但不能保證在所有的統(tǒng)計(jì)時(shí)點(diǎn)中出現(xiàn),大量的低頻、分布不均勻的詞語都會被本文設(shè)計(jì)的統(tǒng)計(jì)詞表自動排除。
統(tǒng)計(jì)詞表中還有一些詞語,受突發(fā)事件的影響,在個(gè)別季度中出現(xiàn)急劇增加。以“肺炎、疫情、傳染病”為例:
圖4:兩個(gè)統(tǒng)計(jì)詞表中“肺炎、疫情、傳染病”的變化圖示
這 3個(gè)詞語在 2003年的使用頻次猛增,致使這 3個(gè)詞語的季度平均頻次不能反應(yīng)它們的真實(shí)使用程度,因此詞語的收取不能光考慮平均頻次,還需要考慮它的穩(wěn)定程度。
王治敏 (2009)提出一個(gè)衡量詞語穩(wěn)定程度的U作為選取常用詞語的依據(jù),該模型反映了詞語在語料中出現(xiàn)的平均頻次及詞匯波動性等因素。因此本文采用該模型來計(jì)算。
式 (1)中,f表示詞語出現(xiàn)的平均頻次,其計(jì)算公式如式 (2)所示;stdev(f)表示詞語出現(xiàn)頻次的標(biāo)準(zhǔn)差,其計(jì)算公式如式 (3)所示。
式 (2)、式 (3)中,n為詞語統(tǒng)計(jì)頻次f的個(gè)數(shù)。從公式 (1)可以看出,參數(shù)與詞語在語料庫中出現(xiàn)的平均頻次成正比,與詞語出現(xiàn)頻次的標(biāo)準(zhǔn)差成反比。詞語的季度平均值反映了使用該詞語的頻繁程度,一個(gè)詞語使用得越頻繁,其在語料中的季度平均值越高。標(biāo)準(zhǔn)差stdev(f)反映了該詞語出現(xiàn)頻次的波動程度,一個(gè)詞語在季度中的分布越不穩(wěn)定,其標(biāo)準(zhǔn)偏差的值越大,U的值就越小。比如和年度突發(fā)事件的詞語標(biāo)準(zhǔn)偏差很大,參數(shù)U就會把這些詞語排除在外。
按照評價(jià)參數(shù)U,排名越靠前,詞語穩(wěn)定性和季度出現(xiàn)頻繁程度就越高。我們按照兩個(gè)統(tǒng)計(jì)詞表中的U值排列順序統(tǒng)計(jì)發(fā)現(xiàn),排名靠前的詞語中有大量名詞可以作為未來 HSK詞匯大綱的備選新詞語。不過,兩個(gè)統(tǒng)計(jì)詞表在備選詞語提取方面存在明顯的差異,具體如圖 5所示:
圖5:統(tǒng)計(jì)詞表中新詞備選分布圖示
在U排名前 500條詞語中,5個(gè)季度的統(tǒng)計(jì)詞表中在新詞備選遠(yuǎn)遠(yuǎn)高于 20個(gè)季度的統(tǒng)計(jì)詞表,備選詞語有 258條,已經(jīng)占總數(shù)的 51.6%。而 20個(gè)季度的統(tǒng)計(jì)詞表前 500位中只包含備選詞語 156條,占總數(shù)的 31.20%。這說明 5個(gè)季度的統(tǒng)計(jì)詞表在新詞提取方面具有明顯的優(yōu)勢。因此,未來 HSK詞匯大綱的新詞收取應(yīng)主要參考 5個(gè)季度統(tǒng)計(jì)詞表的數(shù)據(jù)。
漢語名詞統(tǒng)計(jì)詞表記錄了詞語的各種統(tǒng)計(jì)特征,為漢語詞匯大綱的所有詞語提供了在大規(guī)模語料中的歷時(shí)分布,也為濾掉陳舊詞匯提供了可能。筆者分別用兩個(gè)統(tǒng)計(jì)詞表對 HSK詞匯大綱的名詞進(jìn)行了篩選和人工統(tǒng)計(jì),結(jié)果如下:
圖6:兩個(gè)統(tǒng)計(jì)詞表中未出現(xiàn)的 HSK歷史詞匯
兩個(gè)統(tǒng)計(jì)詞表分別濾掉 HSK名詞 179條和153條,從上面的統(tǒng)計(jì)可以看出,丁級詞匯比例最高,兩個(gè)詞表分別為 145條、124條,相比較而言,20個(gè)季度的統(tǒng)計(jì)詞表的過濾能力比 5個(gè)季度的過濾能力稍強(qiáng),這可能與兩個(gè)統(tǒng)計(jì)詞表的詞語限定條件有關(guān)。兩個(gè)詞表的交叉部分為138條。具體分布如表2所示:
表2:兩個(gè)統(tǒng)計(jì)詞表共同過濾掉的 HSK歷史詞匯
丁級詞匯的交叉部分為 112條,占絕大部分。甲級詞匯最少,只有一例 “汽水”。 “汽水”原來是人們生活中常用詞,但由于生活水平的提高,出現(xiàn)了種類繁多的飲品,人們常常統(tǒng)稱為“飲料”,可以考慮用 “飲料”替換掉“汽水”。上述詞語絕大多數(shù)都是不常用的詞匯,例如“火柴、冰棍兒、校徽、尼龍、的確良”等詞語所指的事物已經(jīng)在人們生活中基本消失,應(yīng)該考慮剔除。除此之外,還有與農(nóng)業(yè)生產(chǎn)、戰(zhàn)爭相關(guān)的詞語,對留學(xué)生的漢語教學(xué)作用不大,也可以征求專家意見后考慮有選擇地剔除。
2006年中國語言生活狀況報(bào)告中發(fā)布了漢語作為第二語言教材用詞調(diào)查結(jié)果,并給出了漢語作為第二語言教材中具有代表性的 1500條高頻詞 (蘇新春,2006)。這 1500條高頻詞語由 12套教材統(tǒng)計(jì)得到,最低頻次為 33次,覆蓋了總語料的 77%,這樣高的比例足以說明學(xué)者們在編寫教材時(shí)對這些詞語的認(rèn)同。為此筆者對這些高頻詞作了進(jìn)一步的統(tǒng)計(jì),考察發(fā)現(xiàn)二字詞最多,占到全部詞語的 59.60%,一字詞位居第二,占全部詞語的 37.73%,三字詞 38個(gè),占全部詞語的 2.53%。名詞在 1500高頻詞中共計(jì) 479條,基本占全部高頻詞語的 1/3。在這些名詞中,一字名詞 99條,二字名詞 359條,三字名詞 20條,沒有四字名詞。
圖7:1500高頻名詞字?jǐn)?shù)分布
從上面的統(tǒng)計(jì)可以看出,二字名詞的比例非常高,已經(jīng)占全部名詞的 72.23%。因此二字名詞將是研究的重點(diǎn)。除此之外,高頻名詞中沒有四字詞語,這說明對外漢語教材中四字成語使用非常少,這可能和 HSK詞匯大綱的收詞有關(guān),在 HSK詞匯大綱中成語不在考慮范圍內(nèi),今后也要加強(qiáng)這方面的研究。
教材中的高頻名詞大多是我們生活中的基礎(chǔ)詞匯,它們在《人民日報(bào)》中分布如何?在本文設(shè)計(jì)的統(tǒng)計(jì)詞表中有多大比例?筆者對此做了詳細(xì)考察,發(fā)現(xiàn) 479高頻名詞中有 466個(gè)詞語都包含在 20個(gè)季度統(tǒng)計(jì)詞表中,占全部詞語的 97.29%。這足以說明,《人民日報(bào)》雖然是新聞?wù)Z料,語體方面很正式,但是基本涵蓋了人們?nèi)粘5纳钤~匯。因此,選擇《人民日報(bào)》語料作為實(shí)驗(yàn)語料完全可行。
不在《人民日報(bào)》加工出來的統(tǒng)計(jì)詞表的詞語共計(jì) 12個(gè),它們是 “嬸、太祖母、少爺、掌柜、一年、每年、每天、年輕人、期中、民族、英語、大聲”。其中 “嬸、太祖母、少爺、掌柜”并不是常用的稱呼用語,特別是 “少爺、掌柜”現(xiàn)在已經(jīng)基本不用?!耙荒?、每年、每天”沒有出現(xiàn)在《人民日報(bào)》統(tǒng)計(jì)詞表中主要是由于切分問題,在語料中,“一年、每年、每天、年輕人”不是以一個(gè)詞語的形式出現(xiàn),分別被切分成兩個(gè)詞。“民族”在語料中以 “民族之林 /n、民族主義 /n、少數(shù)民族 /n”出現(xiàn)。統(tǒng)計(jì)詞表中雖然沒有 “英語、漢語”,但是 “中文、英文”都在統(tǒng)計(jì)詞表中,這可能和《人民日報(bào)》的語體有關(guān)。
本文以名詞為例,利用語料的時(shí)間跨度和頻次信息設(shè)計(jì)了兩個(gè)漢語名詞常用詞語統(tǒng)計(jì)詞表,并利用該詞表自動過濾 HSK詞匯大綱中過時(shí)的詞匯,實(shí)現(xiàn)了詞匯大綱的半自動更新,常用詞語統(tǒng)計(jì)詞表為詞匯大綱中的所有詞匯繪制了一個(gè)歷時(shí)的詞語變化圖譜,為人工選取教學(xué)詞匯提供有益的參考。兩個(gè)統(tǒng)計(jì)詞表在新詞收取和歷史詞匯更新方面具有各自的優(yōu)勢,因此未來詞匯大綱的收詞應(yīng)該綜合利用兩個(gè)統(tǒng)計(jì)詞表的統(tǒng)計(jì)數(shù)據(jù)。上述方法同樣也可用于其他詞類的常用詞語提取研究。
另外,統(tǒng)計(jì)詞表和教材高頻詞的對比研究也表明,《人民日報(bào)》雖然是新聞?wù)Z料,但是基本包含了漢語作為第二語言教材中的常用詞匯,這為利用新聞?wù)Z料開展常用詞語的統(tǒng)計(jì)研究提供了有價(jià)值的證據(jù)。
北京語言學(xué)院語言教學(xué)研究所 1986 《現(xiàn)代漢語頻率詞典》,北京語言學(xué)院出版社。
國家漢語水平考試委員會辦公室考試中心 2001 《漢語水平詞匯與漢字等級大綱》 (修訂本),經(jīng)濟(jì)科學(xué)出版社。
國家語言資源監(jiān)測與研究中心 2006 《中國語言生活狀況報(bào)告 2005》(下編),商務(wù)印書館。
國家語言資源監(jiān)測與研究中心 2007 《中國語言生活狀況報(bào)告 2006》(下編),商務(wù)印書館。
姜德梧 2004 《關(guān)于〈漢語水平詞匯與漢字等級大綱〉的思考》,《世界漢語教學(xué)》第 1期。
李紅印 2005 《〈漢語水平詞匯與漢字等級大綱〉收“語”分析》,《語言文字應(yīng)用》第 4期。
劉長征 2008 《對外漢語教學(xué)用詞表的多元化與動態(tài)更新》,《語言文字應(yīng)用》第 2期。
劉叔新 1964 《論詞匯體系問題》,《中國語文》第3期。
蘇新春 2006 《對外漢語詞匯大綱與兩種教材詞匯狀況的對比研究》,《語言文字應(yīng)用》第 2期。
王治敏 2009 《漢語常用名詞的自動提取研究——兼論“漢語水平詞匯與漢字等級大綱”的詞語更新問題》,《全國第十屆計(jì)算語言學(xué)學(xué)術(shù)會議論文集》(CNCCL):52-58。
趙金銘 張 博 程 娟 2003 《關(guān)于修訂 <漢語水平詞匯等級大綱 >的若干意見》,《世界漢語教學(xué)》第 3期。
The Statistical Research on Diachron ic Changes of the Common Wordlist for Chinese Teaching
WANG Zhi-min
(College of Chinese Studies,Beijing Language and Culture University,Beijing100083,China)
statistical characteristics;textbook compilation;statistical database
Frequency and time span of corpus are used to establish two statistical databases for common nouns,which can reflect the diachronic changes of Chinese nouns by designing different time points.The databases not only provide the valuable data for collecting the new words and filtering the historical words for Syllabus ofGraded W ords and Characters for Chinese Proficiency,but also provide the beneficial reference for artificial selection of the teaching vocabulary. In order to verify its reliabilty,we make a contrast analysis of the statistical database and high frequencywords of textbook.The results show that thePeople'sDaily,as a news corpus,contains the basic common nouns for Chinese as a second language teachingmaterials.
H195
A
1674-8174(2010)04-0049-07
2010-06-18
王治敏 (1972-),女,北京語言大學(xué)副教授,博士,碩士生導(dǎo)師,主要從事對外漢語教學(xué)、自然語言處理研究。
教育部人文社科研究項(xiàng)目 (09YJC740010);國家語言資源中心平面媒體分中心課題
①本文曾在國家語言資源監(jiān)測與研究中心暨平面媒體分中心成立五周年學(xué)術(shù)會議上宣讀,陸儉明教授、馮志偉教授、楊爾弘教授提出了諸多寶貴意見,特此致謝。
【責(zé)任編輯 蔡 麗】