高 松,邱 爽
(黑龍江大學(xué)文學(xué)院,哈爾濱150080)
近年來(lái),語(yǔ)料庫(kù)語(yǔ)言學(xué)得到了蓬勃發(fā)展。語(yǔ)料庫(kù)既是一種工具,更是一門(mén)科學(xué),它正在對(duì)語(yǔ)言研究的許多領(lǐng)域產(chǎn)生愈來(lái)愈大的影響[1]。語(yǔ)料庫(kù)為語(yǔ)言學(xué)的研究提供了一種新的思維視角,輔助人們的語(yǔ)言“直覺(jué)”和“內(nèi)省”判斷,已逐漸成為語(yǔ)言學(xué)研究的主流方法。
詞匯是語(yǔ)言的重要組成部分,是語(yǔ)言的三大要素之一。在對(duì)外漢語(yǔ)教學(xué)中,詞匯教學(xué)一直處于核心地位。實(shí)施教學(xué)的基礎(chǔ)和主要依據(jù)是教材,教材的質(zhì)量關(guān)系著教學(xué)的質(zhì)量[2]。決定教材質(zhì)量的關(guān)鍵問(wèn)題之一,就是教材詞匯的選擇與編排。教材詞匯選擇編排得是否科學(xué)合理,直接影響到學(xué)習(xí)者學(xué)習(xí)的積極性和對(duì)外漢語(yǔ)教師教學(xué)的效果。目前,關(guān)于對(duì)外漢語(yǔ)詞匯的研究主要集中于詞匯教學(xué)中教學(xué)法的使用方面,對(duì)詞匯特征的系統(tǒng)分析,尤其是對(duì)教材詞匯特征的定量分析方面的研究相對(duì)較少。
本文以在對(duì)外漢語(yǔ)教學(xué)界相當(dāng)有影響的《登攀·中級(jí)漢語(yǔ)教程》系列教材為研究對(duì)象,采用語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究方法,借助語(yǔ)料庫(kù)檢索與統(tǒng)計(jì)分析軟件,對(duì)教材課文文本的詞匯進(jìn)行定量研究。通過(guò)統(tǒng)計(jì)課文文本詞頻建立高頻詞語(yǔ)表,統(tǒng)計(jì)課文平均句數(shù)得出平均句長(zhǎng),基于統(tǒng)計(jì)出的詞匯信息揭示教材詞匯的特征,為對(duì)外漢語(yǔ)詞匯教學(xué)提供參考,也為今后的對(duì)外漢語(yǔ)教材編寫(xiě)和詞匯選擇提供借鑒。
本文以《登攀·中級(jí)漢語(yǔ)教程》(以下簡(jiǎn)稱(chēng)《登攀》)系列教材作為語(yǔ)料來(lái)源。《登攀》是2005年由北京語(yǔ)言大學(xué)出版社出版的漢語(yǔ)中級(jí)精讀教材,在對(duì)外漢語(yǔ)教學(xué)界具有較高的知名度,其選文覆蓋面廣,體裁豐富,為眾多漢語(yǔ)學(xué)習(xí)者所熟知。該系列教材分為上下兩冊(cè),共36篇課文。
為了對(duì)教材詞匯進(jìn)行定量研究,發(fā)現(xiàn)詞匯的特征,我們將教材中的36課基礎(chǔ)課文逐課錄入計(jì)算機(jī)中,以課為單位,建立了36個(gè)文本文檔。基于課文文本,我們利用傳媒語(yǔ)言語(yǔ)料庫(kù)在線(xiàn)分詞標(biāo)注系統(tǒng)對(duì)語(yǔ)料進(jìn)行了分詞和詞性標(biāo)注。同時(shí),對(duì)語(yǔ)料文本的詞次數(shù)和詞種數(shù)進(jìn)行了統(tǒng)計(jì)。統(tǒng)計(jì)發(fā)現(xiàn):教材課文總詞次數(shù)為36 511,總詞種數(shù)為5 928,單課最少詞次數(shù)為195,最多詞次數(shù)為739。最后,利用Antconc語(yǔ)料庫(kù)檢索軟件對(duì)課文文本語(yǔ)料庫(kù)中的詞匯信息進(jìn)行了檢索統(tǒng)計(jì)。
詞頻統(tǒng)計(jì)是在語(yǔ)言學(xué)等領(lǐng)域中普遍運(yùn)用的一種詞匯分析研究方法,其統(tǒng)計(jì)的對(duì)象是一定文本材料中詞匯出現(xiàn)的次數(shù)。
基于已經(jīng)分詞和詞性標(biāo)注的教材課文文本,我們用Antconc語(yǔ)料庫(kù)檢索統(tǒng)計(jì)軟件統(tǒng)計(jì)出《登攀》中5 928個(gè)詞種的詞頻,按照出現(xiàn)頻次從高到低的順序制成頻率詞表。根據(jù)對(duì)頻率詞表的觀察,我們發(fā)現(xiàn):出現(xiàn)頻次在100以上的詞語(yǔ)有33個(gè),占總詞種數(shù)的0.56%;出現(xiàn)頻次在10以上的詞語(yǔ)有427個(gè),占總詞種數(shù)的7.2%;出現(xiàn)頻次為1的詞語(yǔ)有3 234個(gè),占總詞種數(shù)的54.55%??梢钥闯觯n文中出現(xiàn)頻次較高的詞在總詞種數(shù)中的占比較低,而課文中一半左右的詞僅出現(xiàn)了1次。教材詞匯體現(xiàn)出“高頻詞數(shù)量少,低頻詞數(shù)量多”的特點(diǎn)。
我們根據(jù)頻率詞表,提取出了前十個(gè)高頻詞語(yǔ),制成了高頻詞表。從中可以看出結(jié)構(gòu)助詞“的”的使用頻率最高,出現(xiàn)頻次為1730;其次是人稱(chēng)代詞“我”,出現(xiàn)頻次為1 126;然后是動(dòng)態(tài)助詞“了”,出現(xiàn)頻次為919。
高頻詞 頻 次 高頻詞 頻 次1.的 1 730 6.在328 2.我 1 126 7.他327 3.了 919 8.說(shuō)312 4.是 534 9.你302 5.就 331 10.不276
平均句長(zhǎng)是測(cè)量語(yǔ)料難易程度的重要指標(biāo)。哥倫比亞大學(xué)的弗勒施認(rèn)為想要測(cè)量一個(gè)語(yǔ)料的難易程度,應(yīng)該包含每一百個(gè)詞的音節(jié)數(shù)與平均每句的詞數(shù)[3]。后來(lái),國(guó)外有學(xué)者提出新的測(cè)量標(biāo)準(zhǔn),即以每個(gè)單位空間中的平均詞數(shù)和句子的平均詞數(shù)這兩個(gè)要素,作為衡量語(yǔ)料難易程度的標(biāo)準(zhǔn)[4]。我們基于國(guó)內(nèi)外學(xué)者的研究,對(duì)《登攀》每篇課文的平均句長(zhǎng)等進(jìn)行了考察。首先,以隨機(jī)形式對(duì)該系列教材的36篇課文逐課地進(jìn)行段落抽取,然后對(duì)每篇課文抽取的一個(gè)段落進(jìn)行統(tǒng)計(jì)分析,得出每百字段落所包含的平均句子數(shù),又對(duì)每句所包含的詞數(shù)進(jìn)行了統(tǒng)計(jì),得出了平均句長(zhǎng)。
通過(guò)統(tǒng)計(jì),我們計(jì)算出教材每百字句數(shù)和句長(zhǎng)的平均值分別為3.37和31.06,即教材課文文本每百字平均包含3.37個(gè)句子,課文中句子平均包含31.06個(gè)詞。每課的平均句數(shù)和平均句長(zhǎng)的統(tǒng)計(jì)數(shù)據(jù),如下圖所示:
從圖中可以看出:第 3、13、18、21、30、31、33課共有7篇課文的平均句長(zhǎng)明顯高于平均值,這些課文的難度較大。而第 1、2、9、12、24、29、32、34、35課共有9篇課文的平均句長(zhǎng)明顯低于平均值,這些課文的難度較小。其他20篇課文的平均句長(zhǎng)都比較接近整套教材課文句長(zhǎng)的平均值。如果將整套教材的難度分為高、中、低三個(gè)等級(jí)的話(huà),由統(tǒng)計(jì)可以看出難度為中等水平的課文所占的比重是最大的,而難度為高等、低等水平的課文占比大致相同??傮w來(lái)講,教材《登攀》在課文難度的設(shè)置與安排上還是比較合理的。以上這些研究結(jié)論,應(yīng)該引起對(duì)外漢語(yǔ)教師和學(xué)習(xí)者的注意。難度較大的課文,教師教學(xué)和學(xué)習(xí)者學(xué)習(xí)都較困難;難度較小的課文,教師教學(xué)和學(xué)習(xí)者學(xué)習(xí)都容易些。
課文編號(hào)平均句數(shù)平均句長(zhǎng)課文編號(hào)平均句數(shù)平均句長(zhǎng)1 4.38 22.83 19 3.45 29.20 2 4.10 24.40 20 3.19 31.33 3 2.23 44.75 21 2.64 37.83 4 3.33 30.00 22 3.67 27.25 5 3.01 33.25 23 3.55 28.20 6 3.39 29.50 24 4.31 23.20 7 3.39 29.50 25 3.33 33.00 8 3.54 28.25 26 3.06 32.67 9 4.04 24.75 27 3.60 27.80 10 2.92 34.25 28 3.38 29.60 11 3.30 30.30 29 4.21 23.75 12 4.17 24.00 30 2.13 47.00 13 2.59 38.60 31 2.07 48.33 14 3.66 27.33 32 4.38 22.83 15 3.74 26.75 33 2.86 35.00 16 3.45 29.00 34 3.91 25.58 17 3.20 31.25 35 3.97 25.20 18 1.97 50.67 36 3.23 31.00
新HSK是國(guó)家漢辦/孔子學(xué)院總部2009年推出的一項(xiàng)國(guó)際漢語(yǔ)能力標(biāo)準(zhǔn)化考試,是在吸收了舊HSK的優(yōu)點(diǎn),借鑒近年來(lái)國(guó)際語(yǔ)言測(cè)試研究的熱點(diǎn)成果的基礎(chǔ)上研制出來(lái)的[5]?!缎聺h語(yǔ)水平考試大綱》(以下簡(jiǎn)稱(chēng)“新大綱”)于2010年初由商務(wù)印書(shū)館全部出齊。新大綱公布了詞匯等級(jí)表,該詞表共收錄詞語(yǔ)5 000個(gè),是根據(jù)考生參加不同等級(jí)考試需要而制定的一個(gè)具有標(biāo)準(zhǔn)化、規(guī)范性的詞表。
《登攀》系列教材課文所包含的詞語(yǔ)有5 928個(gè),新大綱詞匯等級(jí)表收錄的詞語(yǔ)有5 000個(gè),所包含的詞語(yǔ)數(shù)量大致相當(dāng)。兩者在數(shù)據(jù)規(guī)模上雖有差距,但相差不大,所以,具有一定的可比性。我們統(tǒng)計(jì)發(fā)現(xiàn),《登攀》課文詞表與新大綱詞表中,共現(xiàn)詞有2 056個(gè)。從詞語(yǔ)的音節(jié)數(shù)上來(lái)看,單音節(jié)詞有406個(gè),占共現(xiàn)詞的19.75%。雙音節(jié)和多音節(jié)詞有1 650個(gè),占共現(xiàn)詞的80.25%。從詞性上來(lái)看,共現(xiàn)詞中名詞和動(dòng)詞占比較大。
為了考察《登攀》詞匯選擇的科學(xué)性、合理性,我們計(jì)算了新大綱詞匯對(duì)教材詞匯的覆蓋率。我們參照前輩時(shí)賢的研究方法,用程序?qū)⑿麓缶V詞表與分詞后的語(yǔ)料進(jìn)行了處理,對(duì)大綱詞表中有,而語(yǔ)料中沒(méi)有的詞語(yǔ)進(jìn)行改寫(xiě),保留新大綱詞表和語(yǔ)料中共現(xiàn)的詞語(yǔ)[6]。為計(jì)算得出新大綱詞匯對(duì)教材詞匯的覆蓋率,我們使用了范鳳祥提出的某數(shù)量詞匯對(duì)長(zhǎng)度為N任意一語(yǔ)篇的單詞覆蓋率 C的公式[7]。公式中:C為覆蓋率;Fwj為被覆蓋的第j個(gè)詞匯在語(yǔ)篇出現(xiàn)的頻次;s為被覆蓋的詞匯數(shù);N為語(yǔ)篇總單詞數(shù)。
利用公式,我們計(jì)算得出新大綱詞匯對(duì)教材詞匯的覆蓋率為55.85%,該值距離95%的參考值還有很大差距。由此可以看出,即使學(xué)習(xí)者掌握了新大綱一級(jí)到六級(jí)的全部詞匯,也很難讀懂《登攀》這套教材的課文。因?yàn)樵谄骄溟L(zhǎng)為31.06的教材文本中,平均每句仍有13.7個(gè)詞語(yǔ)不能識(shí)讀,這會(huì)使學(xué)習(xí)者對(duì)課文的理解產(chǎn)生障礙。
通過(guò)對(duì)《登攀》這套教材詞匯的定量分析,我們可以看出,該教材在課文難度設(shè)置上比較合理,難度為中等水平的課文占比最大,難度高和難度低的課文占比相近,教材課文整體難度水平設(shè)置得較為合理,較適合學(xué)習(xí)者學(xué)習(xí)。同時(shí),我們計(jì)算得出了新大綱詞匯對(duì)教材詞匯的覆蓋率55.85%,這個(gè)值是偏低的,不利于學(xué)習(xí)者對(duì)中級(jí)漢語(yǔ)教材的學(xué)習(xí)。對(duì)外漢語(yǔ)教學(xué)主要以教材為載體,學(xué)習(xí)者對(duì)教材詞匯的掌握程度直接影響他們對(duì)漢語(yǔ)的運(yùn)用能力。對(duì)《登攀》這套教材詞匯進(jìn)行定量的分析,可為今后該教材的修訂提供數(shù)據(jù)上的參考,也可為其他中級(jí)水平對(duì)外漢語(yǔ)教材的編寫(xiě)提供借鑒和幫助。
[1]周小兵,趙新.中級(jí)漢語(yǔ)精讀教材的現(xiàn)狀與新型教材的編寫(xiě)[J].漢語(yǔ)學(xué)習(xí),1999,(1):54-57.
[2]桂詩(shī)春.語(yǔ)料庫(kù)語(yǔ)言學(xué)與中國(guó)外語(yǔ)教學(xué)[J].現(xiàn)代外語(yǔ),2010,(4):419-426.
[3]樂(lè)眉云.介紹一種測(cè)定英語(yǔ)教材難度的科學(xué)方法[J].外語(yǔ)教學(xué)與研究,1983,(4):47-49.
[4]張寧志.漢語(yǔ)教材語(yǔ)料難度的定量分析[J].世界漢語(yǔ)教學(xué),2000,(3):83-88.
[5]張晉軍,解妮妮,王世華,李亞男,張軼英.新漢語(yǔ)水平考試(HSK)研制報(bào)告[J].中國(guó)考試,2010,(9):38-43.
[6]張衛(wèi)國(guó).閱讀:覆蓋率、識(shí)讀率和字詞比[J].語(yǔ)言文字應(yīng)用,2006,(3):102-109.
[7]范鳳祥.輪機(jī)英語(yǔ)詞匯的量化特征[J].大連海事大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2006,(2):128-132.