面向華裔留學(xué)生的漢字學(xué)習(xí)文本的獲取

2016-04-06 10:39:44□張榕

現(xiàn)代語(yǔ)文 2016年3期

□張榕

□張榕

摘要：華裔留學(xué)生漢語(yǔ)聽(tīng)說(shuō)能力與漢字讀寫(xiě)能力脫節(jié)現(xiàn)象給教學(xué)帶來(lái)不少難題。本文提出一種算法簡(jiǎn)單、實(shí)用的，基于大規(guī)模真實(shí)語(yǔ)料的華裔留學(xué)生漢字學(xué)習(xí)文本的獲取方法，將識(shí)別出來(lái)的句子集作為漢字學(xué)習(xí)文本，使學(xué)習(xí)者通過(guò)學(xué)習(xí)最少的句子認(rèn)識(shí)最多的高頻漢字。

關(guān)鍵詞：華裔留學(xué)生漢字學(xué)習(xí)文本獲取高頻漢字句子集句子識(shí)別

一、問(wèn)題的提出

漢字難認(rèn)、難記是漢語(yǔ)學(xué)習(xí)者和漢語(yǔ)教師的共識(shí)。華裔留學(xué)生作為特殊的漢語(yǔ)學(xué)習(xí)群體，在留學(xué)生中占有相當(dāng)大的比重，他們與其他學(xué)習(xí)者有著不同的語(yǔ)言和文化背景。相當(dāng)數(shù)量的留學(xué)生在家庭環(huán)境中使用普通話或粵語(yǔ)、客家話等漢語(yǔ)方言。一般來(lái)說(shuō)，華裔留學(xué)生對(duì)語(yǔ)義、句法知識(shí)的掌握水平較高，同時(shí)具有較高的漢語(yǔ)聽(tīng)說(shuō)水平；然而其漢字認(rèn)讀水平與其他單項(xiàng)習(xí)得水平嚴(yán)重脫節(jié)。這種現(xiàn)象長(zhǎng)期以來(lái)給教學(xué)分班、教材選擇和課堂教學(xué)帶來(lái)了相當(dāng)大的難題。筆者針對(duì)華裔留學(xué)生做過(guò)一項(xiàng)學(xué)習(xí)動(dòng)機(jī)與需求調(diào)查，結(jié)果表明，絕大多數(shù)學(xué)習(xí)者希望在加強(qiáng)聽(tīng)、說(shuō)、讀、寫(xiě)整體漢語(yǔ)水平的基礎(chǔ)上，能在有限的時(shí)間內(nèi)盡可能掌握更多的漢字。尤其是以字母文字為母語(yǔ)的華裔學(xué)生，如何在最大程度上提高常用漢字的認(rèn)讀能力，始終是他們?cè)谡麄€(gè)學(xué)習(xí)過(guò)程中最為關(guān)心的問(wèn)題。

漢字教學(xué)是對(duì)外漢語(yǔ)教學(xué)的重點(diǎn)和難點(diǎn)。據(jù)統(tǒng)計(jì)，漢字的總數(shù)超過(guò)8萬(wàn)個(gè)?！冬F(xiàn)代漢語(yǔ)常用詞表》中常用漢字的數(shù)目為3500個(gè)左右。其中，按照使用頻率分類(lèi)，常用漢字2500個(gè)，次常用漢字1000個(gè)。面對(duì)如此龐大的漢字集，究竟哪些漢字對(duì)留學(xué)生來(lái)說(shuō)最需要記憶，采用何種記憶方式，提供何種漢字學(xué)習(xí)材料，在具體操作中隨意性和主觀性較大?，F(xiàn)行通用的漢字學(xué)習(xí)輔助資料一般分為兩種。一是漢字介紹型書(shū)籍，主要針對(duì)有代表性的獨(dú)體字、形聲字等進(jìn)行描述與解釋?zhuān)M(jìn)而幫助學(xué)習(xí)者在音、形、義的基礎(chǔ)上去臨摹、認(rèn)讀與記憶漢字。另一種為按拼音從A至Z排序的詞表型詞典。課堂漢字教學(xué)普遍參照課后的生詞表、整本書(shū)的生詞表或《新HSK詞匯等級(jí)大綱詞表》（以下簡(jiǎn)稱(chēng)《大綱》）。上述兩類(lèi)傳統(tǒng)的漢字學(xué)習(xí)材料一直被廣泛使用，但這些學(xué)習(xí)文本有著自身無(wú)法克服的缺陷。漢字介紹型書(shū)籍主要以激發(fā)學(xué)習(xí)者學(xué)習(xí)漢字的興趣為目的，篇幅集中于一些象形字或形聲字等。然而這些字相對(duì)于3500個(gè)常用字來(lái)說(shuō)所占比例極小，對(duì)于掌握一定數(shù)量的常用漢字的目標(biāo)來(lái)說(shuō)遠(yuǎn)遠(yuǎn)不夠。詞表型詞典以拼音排序，漢字之間缺少內(nèi)在的語(yǔ)義關(guān)聯(lián)，即便是同一篇課文后的生詞表，詞匯之間語(yǔ)義割裂現(xiàn)象依舊明顯。漢字的學(xué)習(xí)不能脫離語(yǔ)義信息。分析語(yǔ)言現(xiàn)象，必須把和它所依賴(lài)的語(yǔ)境聯(lián)系起來(lái)，把一個(gè)語(yǔ)言片段孤立起來(lái)分析，難于判斷這個(gè)語(yǔ)言片段的結(jié)構(gòu)和意義。[1]從認(rèn)知語(yǔ)言學(xué)的角度分析，詞匯是語(yǔ)義場(chǎng)中的節(jié)點(diǎn)，節(jié)點(diǎn)之間互相關(guān)聯(lián)，一個(gè)節(jié)點(diǎn)的激活引發(fā)下一個(gè)節(jié)點(diǎn)的激活。孤立地去記憶詞匯，不僅枯燥、單調(diào)且較難產(chǎn)生長(zhǎng)久記憶；同時(shí)，詞語(yǔ)只有進(jìn)入上下文語(yǔ)言環(huán)境才能與其他詞匯建立某種有意義的關(guān)聯(lián)。詞匯的意義表達(dá)不能脫離語(yǔ)言形式與組配關(guān)系。若根據(jù)人為主觀判斷提供給學(xué)習(xí)者一個(gè)句子、段落或篇章進(jìn)行漢字學(xué)習(xí)，就有可能出現(xiàn)超綱詞或非常用詞，同時(shí)，重復(fù)出現(xiàn)的詞匯會(huì)影響漢字學(xué)習(xí)效率。漢字學(xué)習(xí)不僅是一個(gè)多看、多寫(xiě)、多練的過(guò)程。提供給學(xué)習(xí)者何種漢字學(xué)習(xí)材料能達(dá)到最高效的漢字習(xí)得目標(biāo)，同樣需要引起對(duì)外漢語(yǔ)教學(xué)界的重視。

本文利用語(yǔ)料庫(kù)語(yǔ)言學(xué)的方法為華裔留學(xué)生提供一種不同于傳統(tǒng)漢字學(xué)習(xí)的參考文本，學(xué)習(xí)者可通過(guò)學(xué)習(xí)最少的句子，掌握最多的漢字?；谡Z(yǔ)料庫(kù)的識(shí)別方法可提供給學(xué)習(xí)者最客觀的，能夠體現(xiàn)詞匯搭配關(guān)系及語(yǔ)用價(jià)值的真實(shí)語(yǔ)言，使教師在選材過(guò)程中不受主觀人為因素的干擾，避免了孤立、無(wú)關(guān)聯(lián)的漢字組合或人為主觀虛構(gòu)的句子的出現(xiàn)。獲取這樣的句子集合，對(duì)于漢語(yǔ)教師以及漢語(yǔ)學(xué)習(xí)者都具有現(xiàn)實(shí)意義。

語(yǔ)料庫(kù)語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)的結(jié)合，前人已有研究。鄭艷群[2]、盧偉[3]將語(yǔ)料庫(kù)的知識(shí)廣泛應(yīng)用于漢語(yǔ)教學(xué)相關(guān)分支；郭曙綸[4]、蔡永強(qiáng)[5]等將語(yǔ)料庫(kù)知識(shí)輔助漢語(yǔ)詞典編纂；張寶林[6]使用語(yǔ)料庫(kù)對(duì)語(yǔ)法項(xiàng)目進(jìn)行考察；楊泉[7]用語(yǔ)料庫(kù)進(jìn)行偏誤、糾錯(cuò)研究等。然而，將語(yǔ)料庫(kù)語(yǔ)言學(xué)應(yīng)用于面向漢字學(xué)習(xí)文本的識(shí)別，學(xué)界尚不多見(jiàn)。

一般來(lái)說(shuō)，語(yǔ)料中使用頻度高的文本應(yīng)作為教學(xué)材料選擇的候選集。對(duì)留學(xué)生而言，掌握該類(lèi)漢字集更具有實(shí)用價(jià)值。獲取該漢字集并非只是依靠語(yǔ)料進(jìn)行字頻或詞頻統(tǒng)計(jì)、排序得到一個(gè)高頻字詞表的工作。漢字教學(xué)不能脫離句子教學(xué)，句子集合不是詞匯的簡(jiǎn)單羅列。句子囊括的漢字不僅使用頻度高，且能體現(xiàn)真實(shí)的句法功能和詞語(yǔ)間的搭配信息。筆者通過(guò)考察幾套市面上使用較為廣泛的漢語(yǔ)教材，發(fā)現(xiàn)主觀性較強(qiáng)、句子語(yǔ)用價(jià)值不高，或在真實(shí)語(yǔ)言中使用頻率極低的句子被教材收錄的現(xiàn)象始終存在。例如：一些教材中以常見(jiàn)的句式“這是桌子”為例進(jìn)行闡述。從語(yǔ)用價(jià)值層面分析“這是桌子”可能出現(xiàn)的語(yǔ)境分為兩類(lèi)。一是幼兒語(yǔ)言習(xí)得；二是說(shuō)話者抱怨一張不能正常使用的桌子，且該句應(yīng)采用反問(wèn)語(yǔ)氣“這是桌子？”。顯然，這兩種語(yǔ)言環(huán)境都不適用于漢語(yǔ)作為第二語(yǔ)言教學(xué)。這種低語(yǔ)用價(jià)值的句子在真實(shí)語(yǔ)料中出現(xiàn)的概率極低，我們認(rèn)為不應(yīng)作為漢語(yǔ)教學(xué)的參考文本。例句的選取應(yīng)展示詞匯的語(yǔ)法特點(diǎn)，提供充足的語(yǔ)義信息，具有實(shí)際的語(yǔ)用價(jià)值。[5]基于大規(guī)模語(yǔ)料庫(kù)的句子識(shí)別，避免了教材編纂者閉門(mén)造車(chē)現(xiàn)象的發(fā)生。

二、基于語(yǔ)料庫(kù)統(tǒng)計(jì)的句子識(shí)別

本文采用句子的高頻詞密度定義句子中包含高頻常用詞的程度，從而識(shí)別出高頻詞密度大的句子集合。詞型詞例比用來(lái)衡量文本中的詞匯密度，即不同的詞全部數(shù)目占文本實(shí)際出現(xiàn)的詞語(yǔ)總數(shù)的比率。反映在漢字能力測(cè)試層面，詞型詞例比體現(xiàn)學(xué)生所掌握詞匯的覆蓋率。同理，句子的高頻詞詞匯密度反映了句子的使用頻度，包含高頻詞匯多的句子具有較高的高頻詞匯密度。

基于以上觀察，本文采用統(tǒng)計(jì)的方式來(lái)進(jìn)行高頻漢字句子集的識(shí)別。計(jì)算步驟如圖1：

圖1：高頻漢字句子集識(shí)別流程圖

流程說(shuō)明：

1.語(yǔ)料的預(yù)處理

通過(guò)語(yǔ)料庫(kù)過(guò)濾去掉噪音信息，文本以句子集合的純文本格式保存。

2.將句子進(jìn)行分詞并統(tǒng)計(jì)詞頻

《大綱》是教材編纂、等級(jí)考試、學(xué)生學(xué)習(xí)以及教師教學(xué)重要的詞匯參考指標(biāo)?！洞缶V》中的一、二、三級(jí)詞匯主要面向初、中級(jí)漢語(yǔ)學(xué)習(xí)者。其中，一級(jí)詞匯150個(gè)，總字?jǐn)?shù)172個(gè)；二級(jí)詞匯300個(gè)，總字?jǐn)?shù)344個(gè)；三級(jí)詞匯600個(gè)，總字?jǐn)?shù)623個(gè)?！洞缶V》中前三級(jí)所包含的詞匯基本能滿足大部分華裔學(xué)生的認(rèn)讀需求與目標(biāo)。本文只選用大綱前三個(gè)等級(jí)的詞匯進(jìn)行實(shí)驗(yàn)。由于每個(gè)等級(jí)詞匯數(shù)與字?jǐn)?shù)基本一致，我們采用詞頻統(tǒng)計(jì)的方法以保證漢字意義的完備性和形式上的整體性。識(shí)別算法基于詞頻統(tǒng)計(jì)，因此，需要對(duì)語(yǔ)料庫(kù)文本進(jìn)行分詞處理。本文使用中科院的ICTCLAS分詞軟件對(duì)整個(gè)語(yǔ)料庫(kù)進(jìn)行分詞處理。

3.句子長(zhǎng)度（將句子長(zhǎng)度定義為詞語(yǔ)個(gè)數(shù)）的處理

適合華裔學(xué)生漢字學(xué)習(xí)的句子需要考慮二語(yǔ)學(xué)習(xí)者的可接受程度及句子的可擴(kuò)展程度。因此，句子長(zhǎng)度需要做一定的限制。詞匯擴(kuò)展是對(duì)外漢語(yǔ)課堂詞匯教學(xué)的一項(xiàng)重要內(nèi)容，將詞擴(kuò)展到短語(yǔ)，短語(yǔ)擴(kuò)展到單句，單句擴(kuò)展到復(fù)句是詞匯操練的一個(gè)重要項(xiàng)目。在對(duì)語(yǔ)料的考察中，我們發(fā)現(xiàn)，長(zhǎng)度小于3的句子多數(shù)為短語(yǔ)，而考察的目標(biāo)是識(shí)別出一個(gè)語(yǔ)法結(jié)構(gòu)完整的句子；而長(zhǎng)度大于15的句子，多以復(fù)句或多重嵌套形式出現(xiàn)，不適合漢語(yǔ)教學(xué)對(duì)象的語(yǔ)言水平。因此，本文針對(duì)華裔留學(xué)生的語(yǔ)言學(xué)習(xí)特點(diǎn)，將長(zhǎng)度小于3的或大于15的句子過(guò)濾掉。

4.使用《大綱》詞表進(jìn)行過(guò)濾

依據(jù)《大綱》制定過(guò)濾模板，過(guò)濾掉包含詞表之外詞語(yǔ)的句子。由于句子識(shí)別是基于較大規(guī)模語(yǔ)料庫(kù)，同時(shí)語(yǔ)料庫(kù)可進(jìn)行動(dòng)態(tài)更新，所以，詞表過(guò)濾過(guò)程不會(huì)影響到識(shí)別的召回率。

5.句子評(píng)分算法

句子評(píng)分算法為每個(gè)句子提供客觀的評(píng)價(jià)依據(jù)。由于每個(gè)詞匯在實(shí)際語(yǔ)料庫(kù)中出現(xiàn)的頻率不同，即每個(gè)詞匯在語(yǔ)料中的重要程度對(duì)識(shí)別結(jié)果的貢獻(xiàn)度不同，因此，句子評(píng)分采用詞頻作為權(quán)重。

設(shè)：

（4）每個(gè)詞匯的權(quán)重得分為：

為減少句子中重復(fù)詞匯對(duì)句子得分的影響，我們對(duì)詞匯的權(quán)重按如下公式進(jìn)行平滑處理：

經(jīng)過(guò)該公式為所有句子評(píng)分后，從語(yǔ)料庫(kù)中識(shí)別出得分最高的若干句子作為候選句子集合。

6.詞匯去重

高頻詞匯句子集識(shí)別的目標(biāo)是從語(yǔ)料庫(kù)中識(shí)別出最少的句子且識(shí)別出的句子包含最多的詞匯，同時(shí)這些詞匯具有不重復(fù)性，即識(shí)別出的句子集合中各個(gè)句子之間詞匯交集最小。某些詞匯，比如：虛詞“了和的”，代詞“我和你”等在語(yǔ)料中出現(xiàn)頻率極高，重疊出現(xiàn)是不可避免的，由于這類(lèi)詞匯數(shù)量相對(duì)有限，對(duì)整個(gè)識(shí)別效率的影響可忽略不計(jì)。

假設(shè)已識(shí)別的句子集合為F，而集合F中的詞匯集合為H，則算法描述如下：

輸入–語(yǔ)料庫(kù)C

輸出–結(jié)果句子集合F

重復(fù)以下步驟直到F中的句子包含所有的《大綱》詞匯

找出C中得分最高的句子S

F ←F ＋ S

C ←C - S

H ←H ＋ S中的所有詞匯

其中計(jì)算C中每個(gè)句子得分時(shí)需將集合H中的詞匯影響去掉。

三、實(shí)驗(yàn)與結(jié)果分析

（一）實(shí)驗(yàn)方案

實(shí)驗(yàn)使用的語(yǔ)料庫(kù)來(lái)源為互聯(lián)網(wǎng)、報(bào)刊雜志和專(zhuān)業(yè)書(shū)籍等。語(yǔ)料規(guī)模為150M。語(yǔ)料庫(kù)內(nèi)容以日常生活、語(yǔ)言學(xué)習(xí)類(lèi)文本為主，同時(shí)還兼有文體娛樂(lè)及文學(xué)體裁的內(nèi)容，這些文本含有大量的日常用語(yǔ)，能滿足留學(xué)生的學(xué)習(xí)、工作等交際需要。另外，語(yǔ)料庫(kù)中文化負(fù)載詞、漢語(yǔ)特有句式密度較大，這可以幫助學(xué)習(xí)者掌握必要的語(yǔ)用知識(shí)以及相關(guān)的中國(guó)文化知識(shí)。語(yǔ)料庫(kù)經(jīng)過(guò)本文描述的算法處理后得到最終結(jié)果。

（二）實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

本文采用召回率、準(zhǔn)確率和識(shí)別效率3個(gè)參數(shù)對(duì)系統(tǒng)進(jìn)行客觀評(píng)價(jià)。

1.召回率

召回率反映系統(tǒng)正確識(shí)別的結(jié)果占所有可能正確結(jié)果的比例，計(jì)算表達(dá)式為：

其中，n為《大綱》詞表中的詞匯總數(shù)，m為識(shí)別的句子集合S中包含的《大綱》詞表中的詞匯數(shù)。

2.準(zhǔn)確率

準(zhǔn)確率反映系統(tǒng)正確選取的結(jié)果占所有選取結(jié)果的比例，計(jì)算表達(dá)式為：

其中，n為識(shí)別出的句子集合S中的詞匯總數(shù)，m為集合S中包含的《大綱》詞表中的詞匯數(shù)。只有準(zhǔn)確率較高才能保證識(shí)別的集合較小。

3.識(shí)別效率

識(shí)別效率反映算法每次迭代識(shí)別時(shí)句子中有效詞匯的比例，計(jì)算表達(dá)式為：

其中，n為當(dāng)前句子的詞匯數(shù)，m為當(dāng)前句子中包含的《大綱》詞表中的詞匯數(shù)。該值越高，說(shuō)明一次迭代識(shí)別到的有效詞匯越多，因此，需要的總迭代次數(shù)就越小，從而使得識(shí)別句子的集合最小。

（三）實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)發(fā)現(xiàn)，隨著識(shí)別句子數(shù)的增加，系統(tǒng)的召回率逐步增大。句子數(shù)為50句時(shí)，集合中《大綱》前三個(gè)等級(jí)詞匯為215個(gè)；句子數(shù)為100句時(shí)，詞匯為406個(gè)；而在200句左右時(shí)趨于穩(wěn)定，集合中前三個(gè)等級(jí)詞匯達(dá)到545個(gè)，召回率達(dá)到89.72%。如果綜合考慮算法效率和最終召回率，在相當(dāng)規(guī)模的語(yǔ)料庫(kù)基礎(chǔ)上，可將此數(shù)字作為迭代的終止次數(shù)。

實(shí)驗(yàn)發(fā)現(xiàn)，隨著句子數(shù)目的增加，準(zhǔn)確率不斷下降，即識(shí)別句子中非《大綱》前三個(gè)等級(jí)的詞匯占比逐漸增加。句子數(shù)為50句時(shí)，集合中的總詞匯為232個(gè)，其中，《大綱》前三個(gè)等級(jí)詞匯為215個(gè)，準(zhǔn)確率為92.67%；句子數(shù)為100句時(shí)，集合中的總詞匯為406個(gè)，前三個(gè)等級(jí)詞匯為324個(gè)，準(zhǔn)確率為79.80%；當(dāng)句子數(shù)達(dá)到200句時(shí)，集合中的總詞匯為779個(gè)，前三個(gè)等級(jí)詞匯已經(jīng)達(dá)到545個(gè)，而此時(shí)的準(zhǔn)確率仍大于69.96%。

實(shí)驗(yàn)顯示，隨著句子數(shù)的增加，識(shí)別效率不斷下降，但很快穩(wěn)定在0.19%左右，說(shuō)明每次迭代都可以識(shí)別到新的詞匯，整個(gè)算法是收斂的。

識(shí)別出來(lái)的句子集除了包含一些在語(yǔ)料中統(tǒng)計(jì)出的極為高頻的詞匯以外，句子之間的詞匯沒(méi)有其他交集。在語(yǔ)料選擇上，教師可根據(jù)學(xué)習(xí)者的學(xué)習(xí)需求加以選擇。例如：面向有商務(wù)漢語(yǔ)學(xué)習(xí)需求的學(xué)生，教師可加大語(yǔ)料中商務(wù)領(lǐng)域文本的比重。教師也可根據(jù)學(xué)習(xí)者學(xué)習(xí)時(shí)間的長(zhǎng)短，在句子數(shù)量上加以選擇。在文本數(shù)量要求大，或?qū)︻I(lǐng)域性有一定傾向的情況下，應(yīng)該保證識(shí)別集合中的詞匯與《大綱》的緊密度與在真實(shí)母語(yǔ)環(huán)境中的流通度。僅憑借教師的經(jīng)驗(yàn)手工編寫(xiě)句子文本顯然是不現(xiàn)實(shí)的，而通過(guò)本文的識(shí)別方法能滿足這兩方面的條件。

四、結(jié)語(yǔ)

本文利用語(yǔ)料庫(kù)語(yǔ)言學(xué)的方法來(lái)發(fā)現(xiàn)包含高頻詞匯的最小句子集，以服務(wù)于華裔留學(xué)生這一特殊漢語(yǔ)學(xué)習(xí)群體的漢語(yǔ)學(xué)習(xí)。學(xué)習(xí)者通過(guò)學(xué)習(xí)最少的句子集合，掌握最多的常用漢字。這些詞匯不僅是真實(shí)漢語(yǔ)語(yǔ)料庫(kù)中的高頻詞，也是對(duì)外漢語(yǔ)教學(xué)的基本詞匯。利用該識(shí)別方法，漢語(yǔ)教師可從龐大的、雜亂無(wú)章的語(yǔ)料中獲取最適合教給學(xué)生的漢語(yǔ)句子集，避免了手工編寫(xiě)漢字學(xué)習(xí)文本的主觀性。由于識(shí)別過(guò)程基于大規(guī)模語(yǔ)料庫(kù)，教師可自行選擇識(shí)別句子的數(shù)量，同時(shí)，可依據(jù)學(xué)習(xí)者的學(xué)習(xí)需求在語(yǔ)料選擇領(lǐng)域性上加以調(diào)整。這些特點(diǎn)都是傳統(tǒng)的漢字學(xué)習(xí)教材所不能同時(shí)兼顧的。該方法也可為對(duì)外漢語(yǔ)教材及詞典編纂者提供真實(shí)的例句素材，使描述與再現(xiàn)語(yǔ)言更客觀且有據(jù)可依。在實(shí)驗(yàn)過(guò)程中，筆者也發(fā)現(xiàn)一些得分較高的識(shí)別結(jié)果在實(shí)際教學(xué)過(guò)程中不太符合留學(xué)生的學(xué)習(xí)需求，教師可將識(shí)別結(jié)果進(jìn)行適當(dāng)?shù)娜斯ば?duì)與調(diào)整，使語(yǔ)料庫(kù)語(yǔ)言學(xué)的統(tǒng)計(jì)方法更有效地服務(wù)于漢字教學(xué)。

本課題為北京語(yǔ)言大學(xué)院級(jí)科研項(xiàng)目（中央高?；究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金資助），項(xiàng)目編號(hào)為[16YJ080303]。

參考文獻(xiàn)：

[1]張志公.現(xiàn)代漢語(yǔ)[M].北京：人民教育出版社，1982.

[2]鄭艷群.語(yǔ)料庫(kù)技術(shù)在漢語(yǔ)教學(xué)中的應(yīng)用透視[J].語(yǔ)言文字應(yīng)用，2013，（1）.

[3]盧偉.語(yǔ)料庫(kù)在對(duì)外漢語(yǔ)教學(xué)中的應(yīng)用[J].廈門(mén)大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版），1999，（4）.

[4]郭曙綸.語(yǔ)料庫(kù)技術(shù)在對(duì)外漢語(yǔ)學(xué)習(xí)詞典編纂中的問(wèn)題及處理[A].第三屆對(duì)外漢語(yǔ)學(xué)習(xí)詞典學(xué)國(guó)際研討會(huì)論文集[C].北京：中國(guó)社會(huì)科學(xué)出版社，2008.

[5]蔡永強(qiáng).略論對(duì)外漢語(yǔ)學(xué)習(xí)詞典的編寫(xiě)原則[A].鄭定歐，李祿興，蔡永強(qiáng)主編.對(duì)外漢語(yǔ)學(xué)習(xí)詞典學(xué)國(guó)際研討會(huì)論文集（二）[C].北京：中國(guó)社會(huì)科學(xué)出版社，2006.

[6]張寶林.回避與泛化-基于“HSK”動(dòng)態(tài)作文語(yǔ)料庫(kù)的“把”字句習(xí)得研究[J].世界漢語(yǔ)教學(xué)，2010，（2）.

[7]楊泉.基于HSK作文語(yǔ)料庫(kù)的留學(xué)生離合詞偏誤計(jì)算機(jī)自動(dòng)糾錯(cuò)系統(tǒng)初探[J].語(yǔ)言文字應(yīng)用，2011，（2）.

（張榕北京語(yǔ)言大學(xué)漢語(yǔ)速成學(xué)院 100083）

現(xiàn)代語(yǔ)文2016年3期

現(xiàn)代語(yǔ)文的其它文章: 目的論指導(dǎo)下的日中影視字幕翻譯策略研究——以電影《危險(xiǎn)的斜面》為例; 翻譯理論的革新：語(yǔ)用學(xué)的引入——語(yǔ)用翻譯淺談; 英漢詩(shī)歌音韻比較研究——以《詩(shī)經(jīng)·蒹葭》不同英譯本對(duì)漢詩(shī)音韻處理的對(duì)比為例; 試談漢外筆譯碩士生口譯能力的培養(yǎng); 試析商務(wù)漢語(yǔ)學(xué)習(xí)詞典的實(shí)用性; “有木有/木有”的變異使用

面向華裔留學(xué)生的漢字學(xué)習(xí)文本的獲取

一、問(wèn)題的提出

二、基于語(yǔ)料庫(kù)統(tǒng)計(jì)的句子識(shí)別

三、實(shí)驗(yàn)與結(jié)果分析

四、結(jié)語(yǔ)

一、問(wèn)題的提出

二、基于語(yǔ)料庫(kù)統(tǒng)計(jì)的句子識(shí)別

四、結(jié)語(yǔ)