• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向漢語(二語)教學的語法點知識庫構建及語法點標注研究

      2015-04-14 07:51:28譚曉平楊麗姣蘇靖杰
      中文信息學報 2015年6期
      關鍵詞:二語知識庫語料

      譚曉平,楊麗姣,蘇靖杰

      (北京師范大學中文信息處理研究所,北京100875)

      1 引言

      隨著中國經濟的發(fā)展,學漢語的人數迅速增長。為進一步提高漢語(二語)教學的質量和效率,語言資源建設也逐漸引起了學界的關注。張普[1]認為“漢語信息處理與對外漢語教學是科學與技術的結合,是新科學與高技術的結合??茖W與技術一經結合就會產生無窮的力量,就會發(fā)生飛躍。”詹衛(wèi)東[2]也認為“漢語語言學研究應該更加注重語言工程的研究和開發(fā),以提高漢語大規(guī)模語言資源的數量、類型及易獲得性。”據統(tǒng)計,2010~2012年被派往海外進行漢語(二語)教學的3 682名學生志愿者當中,非漢語國際教育專業(yè)的本科生占57.3%,碩士生占36.1%[3]??梢姡處熽犖橹杏写蟛糠植⒎菍I(yè)出身。對于“新手”教師來說,困難在于漢語教學中哪些內容屬于語法點?語法點應該從哪些方面來教?什么樣的例句更適合于課堂教學?

      為解決這些問題,本文以三個平面理論為指導,以經典的漢語(二語)教材和新HSK樣題文本語料為語料基礎,研究了面向漢語(二語)教學的語法點描述框架,構建了語法點知識庫和與之配套的語法點標注語料庫,研究成果已應用于漢語(二語)教學及教材研究。

      本文余下內容組織結構如下:第二節(jié)介紹了目前語法資源建設的相關情況及“漢語國際教育動態(tài)語料庫”的基本情況;第三節(jié)簡要介紹了知識庫構建的理論基礎——三個平面理論,詳細論述了知識庫的建設;第四節(jié)介紹了語料庫中語法點的標注研究;第五節(jié)分析了知識庫和語料庫在漢語(二語)教學及教材研究方面的應用;第6節(jié)是總結與展望。

      2 相關工作

      2000年以后,面向漢語(二語)教學的語法資源建設引起了學者們的關注。邢紅兵、張旺熹[4]、鄭艷紅[5]以現行的語法教學大綱為基礎標注出了母語語料中的語法點,鄭艷群的標注研究涉及到了語法點的語義信息,但二者均未關注語法點的句法、語用信息。弓月亭、邢紅兵[6]提出了建設“語法教學資源庫”的設想與原則。彭煒明、宋繼華等[7]建立了“國際漢語教學語法資源庫”,重建了語法大綱,研究了語法點的自動識別規(guī)則。北京大學正在建設中的“現代漢語構式數據庫”將對1 000多個構式進行多維度、數據化、結構化的描述,涉及句法、語義、語用等信息。目前語法資源的建設取得了一定成績,但在以下方面還有進一步研究的空間:(1)現有相關資源建設直接用于教師備課、教學的少,主要為教材編寫、教學大綱的制定提供數據參考;(2)語法點的選取、描述方式、標注內容如何更好地服務于教學,值得深入研究。

      “漢語國際教育動態(tài)語料庫”是面向漢語(二語)教學的語料庫,從語料的收集、標注加工到檢索功能的設計,都從教學的實際需求出發(fā)。該語料庫收集了197冊經典的漢語(二語)教材語料及66套HSK樣題文本語料,共計141 464個句子,2 472 115個詞次,并進行了多義詞、語法點、話題、交際功能的多維度標注,可實現相應的檢索與查詢功能。本研究就是在“漢語國際教育動態(tài)語料庫”建設過程中逐步形成的,是對該項研究的總結與擴展。

      3 語法點知識庫的構建

      3.1 理論基礎

      胡裕樹、范曉[8]提出了語法研究的“三個平面理論”——句法平面、語義平面、語用平面。之后,岳方遂[9]、胡裕樹[10]、邵敬敏[11]等學者對三個平面的研究對象、三個平面之間的關系等問題展開了討論,本文對三個平面理論的研究對象進行了梳理,結果如表1所示。

      表1 三個平面理論的研究對象

      本研究以三個平面理論為基礎,并結合對外漢語教學的教學語法理論,對以上研究對象進行篩選和補充,構建了語法點知識庫及與之配套的語法點標注語料庫。

      3.2 語法點的選取

      語法點的選取以教學的常用性和必要性為主要原則,采取統(tǒng)計的方法以確定語法點的常用性。首先對《新實用漢語課本》[12]、《中文聽說讀寫》[13]、《對外漢語教學語言點150例》[14]三部教材中出現的語法點進行了統(tǒng)計。三部教材共出現語法點503個,其中有32個語法點出現在了三部教材中,100個語法點出現在了兩部教材中。本文以這132個語法點為基礎語法點,然后分析這132個語法點標注的必要性,因助詞、副詞等語法點可通過“關鍵詞/詞性”的方式從語料庫中檢索到相關語料,因此,暫未收錄到語法點知識庫中。本研究最終選取了121個語法點,并將其分為四類,如表2所示。

      表2 語法點的分類及示例

      3.3 語法點的描述框架及知識庫的屬性設置

      3.3.1 語法點的描述框架

      盧福波[15]認為語法教學需要把形式細化,注意形式和意義的結合。魯健驥[16]、任玉華[17]、盧福波[18]等學者將“三個平面理論”應用于漢語(二語)教學中,強調教學中應將語義、句法、語用結合起來。吳中偉[19]認為語法點的解說一般包括四個方面的內容:句法結構、語義表達、語用功能、典型例子?;谝陨蠈W者的論述,本文認為語法點的知識描述應包括基本信息、語義信息、句法信息、語用信息四大類,各類別下又設若干小類(表3)。

      表3 語法點的描述框架

      3.3.2 知識庫的屬性設置

      語法點知識庫共設置了21個屬性,各屬性的取值一方面參考了現有的語法研究的相關成果,另一方面在一定規(guī)模的語料中對相關研究成果進行了驗證、修訂和統(tǒng)計。

      (1)基本信息

      基本信息設置有編號、名稱、變式、等級、相似語法點、偏誤六個屬性。“編號”采用語法點在數據庫中的序號與語法點常項部分的首字母組合的形式,如“一……就……”的編號為“8YJ”?!白兪健敝概c語法點語義相同、結構相似的語法點,如語法點“從……到……”,其變式為“從……到……再到……”?!暗燃墶敝刚Z法點在《國際漢語教學通用課程大綱(修訂版)》的所屬等級,幫助教師判斷語法點的難易程度,如介詞“向”的等級信息為“HSK-3”?!跋嗨普Z法點”列舉在學習過程中易混淆的語法點,如介詞“對”的相似語法點包括介詞“給、跟、向”?!捌`”幫助教師預測、認識某些語法點學生習得的偏誤情況,以便更有針對性地進行教學,其取值是從北京語言大學的“HSK動態(tài)作文語料庫”中選取的偏誤語料。

      (2)語義信息

      語義信息設置有語義類別、語義類別的數量、語義類別頻率三個屬性?!罢Z義類別的數量”指語法點可表達幾種意義,“語義類別”的取值主要參考權威的語法書及一些經典的對外漢語教材?!罢Z義類別頻率”反映了個語義類別在語料庫中的頻率信息。表4是語法點知識庫中對“一……就……”語義信息的描述。

      表4 “一……就……”的語義信息

      (3)句法信息

      句法信息設置有基本形式類別、基本形式數量、基本形式頻率、否定形式、否定形式頻率、主語信息、主語信息頻率、搭配信息八個屬性。語法點不同,需要填寫的句法信息的屬性也不相同。以語法點“一……就……”為例,應填寫的屬性包括:基本形式類別、基本形式數量、基本形式頻率、主語信息、主語信息頻率。(表5、表6)

      表5 “一……就……”的句法信息1

      續(xù)表

      表6 “一……就……”的句法信息2

      (4)語用信息

      語用信息設置有語體、口氣、語氣、語用意義四個屬性?!罢Z體”描述語法點常用于書面語還是常用于口語?!翱跉狻泵枋稣Z法點是表達肯定、否定、強調還是委婉的口氣?!罢Z氣”描述語法點是常用于陳述、疑問、祈使還是感嘆?!罢Z用意義”是專門針對復句類語法點設置的一類屬性,描述復句類語法點的語用意義,其屬性取值包括:并列、承接、遞進等。以語法點“一來……二來……”、“是……還是……”、“連……也……”為例,其語用信息的描述如表7所示。

      表7 語用信息描述

      4 語法點的標注研究

      語法點知識庫的建設為語法點語義、句法、語用的查詢提供了數據基礎,但要動態(tài)地反映語法點的相關屬性及頻率信息,實現基于句法、語義的語料查詢,為語法點的教學與研究提供豐富的用例,則需要建設與之配套語法點標注語料庫。本研究標注的語料為“漢語國際教育動態(tài)語料庫”中的漢語(二語)教材及HSK樣題文本語料,共計141 464條。

      4.1 標注的內容

      標注的內容主要是語法點在各條語料中所體現的語義信息及句法信息,具體包括語義類別、基本形式、否定形式、主語信息、搭配信息,其中語義類別和基本形式是每個語法點都需要標注的內容,其他內容則視語法點的教學需求而定。以語法點“越……越……”為例,其標注的內容包括語義類別、基本形式、主語信息三項內容,標注示例如圖1所示。

      圖1 語法點“越……越……”的標注示例

      4.2 標注的方法與步驟

      本文以語法點介詞“給”為例,說明語法點標注的具體步驟與方法。

      步驟一:從“漢語國際教育動態(tài)語料庫”中提取標注語料。標注語料的提取分為兩種方式,一是通過“關鍵詞”或“關鍵詞/詞性”的方式從語料庫中檢索包含語法點的語料;二是針對無法通過關鍵詞提取語料的語法點,則采用人工篩選的方式,從141 464條語料中逐一篩選,如“連動句”、“兼語句”等。

      步驟二:根據教學需求,設置語法點的“預標注框架”,如介詞“給”的預標注框架如表8所示。

      表8 介詞“給”的預標注框架

      從表8可以看出:介詞“給”需要標注語義類別、基本形式、否定形式、搭配信息四項內容,前三項內容均設置了“其他”選項,用于標注語料中出現但在預標注框架中未列出的項目。語義類別中的“語義模糊”,用于標注因語境缺失而導致“給”的語義類別無法判斷的語料?!皠h除”用于標注語料中包含“給”但不作為介詞使用的語料。

      步驟三:設置如圖2所示的標注表格。本研究采用MICROSOFT EXCEL軟件進行標注。因為EXCEL有較強的數據存儲、管理、處理的功能,而且使用簡單、方便。在標注語義類別、基本形式、否定形式中,標注表格自動提供了可選項目,標注者只需要進行點選,在一定程度上保證了標注的一致性。搭配信息則需標注者根據語料的實際情況進行手工輸入。

      圖2 介詞“給”的標注表格

      步驟四:當完成標注后,為確保標注語料的正確性與科學性,標注小組需要對標注為“語義模糊”、“其他”的語料進行討論,修訂“預標注框架”,形成“標注框架”。例如,在介詞“給”的標注中,根據標注結果,在語義類別中增加了“引進動作對象(中性)”這一義項,基本形式中增加了“給我+動”、“給+名+以……”這兩種形式。

      4.3 標注的準確率

      為保證標注的質量,課題組在討論的基礎上為每個語法點制定了標注框架,設置了點選的標注方式,從而保證標注的科學性。標注者完成標注后,課題組需要檢測標注結果,并對標注為“語義模糊”、“其他”的語料進行討論,進一步保證標注的準確性。為衡量語料庫標注的質量,本研究抽取了四個語法點,考查了其語義類別、基本形式標注的準確率,結果如表9所示。

      表9 語法點標注的準確率

      從表9可看出,以上四個語法點標注的準確率均在90%以上,基本能滿足應用需求。

      5 應用研究

      5.1 語法點及語料的多維度查詢

      本研究在語法點知識庫及語法點標注語料庫的基礎上開發(fā)了語法點及語料的查詢工具,可實現語法點及用例的多維度查詢功能,其界面如圖3所示。

      教師可點擊“固定結構”、“介詞及介詞結構”、“特殊句式”、“復句”來查看所有語法點,如果教師想要了解語法點“太……了”的用法,只需點擊“太……了”,便可進入圖4所示的界面。

      語法點查詢工具為教師提供了以下功能:(1)點擊圖4中的“太……了”,可獲得語料庫中包含該語法點的所有語料;(2)可獲得如圖4所示的語義類別、基本形式、搭配信息,幫助教師了解該語法點的教學內容及教學重點;(3)根據語義類別和基本形式獲取相應語料,如當教師點擊基本形式下的“太+動+了”,則可獲得如圖4右側所示的語料。

      圖3 語法點查詢界面

      圖4 語法點“太……了”的查詢界面

      5.2 漢語(二語)教材的研究

      語法點知識庫和語法點標注語料庫還可應用于漢語(二語)教材研究,如分析漢語(二語)教材在語法點的編排與選取上是否符合母語的實際使用情況。本文以比較句的形式類別為考察對象,比較了比較句在母語語料和《新實用漢語課本》中的使用情況。陳珺、周小兵[20]將比較句分為“跟……一樣”、“像……”等十種形式類別,并考察了其在母語中的出現頻率。本文從“漢語國際教育動態(tài)語料庫”中選擇了《新實用漢語課本》作為比較研究的對象,按形式類別對比較句進行了統(tǒng)計,比較句在母語語料和漢語(二語)教材語料中的出現頻率如表10所示。

      表10 比較句的出現頻率

      從表10可以得到圖5。

      圖5 比較句在母語語料和教材語料中的對比圖

      從圖5可看出:(1)“跟……一樣”、“像……一樣/那樣……”、“A比B更/還……”在教材中的出現頻率略高于母語,可見,教材基本反映了母語的實際使用情況;(2)在母語語料中“A比B+形/動”的使用頻率最高,可見,該形式應是教學的重點內容,教材的設置基本能滿足這一需求;(3)“A比B+形/動+數量補語”在母語語料中出現的頻率為0,但在漢語教材中的出現率卻為最高,可見,教材不應將該形式作為教學的重點內容,類似的情況也出現在“有……這么/那么……”、“……沒有……”、“一天/年比一天/年”這幾個形式中;(4)“……不比……”在教材語料中僅出現了一次,跟母語語料比略低。經過對比,本文認為:在教材編寫中可以適當減少包含“……A比B+形/動+數量補語”、“一天/年比一天/年”、“……沒有……”、“有……這么/那么……”這四個形式的語料,增加包含“……不比……”、“……不如/比不上……”這兩個形式的語料。

      6 小結

      目前課題組建成了包含121個語法點的語法點知識庫,包含95 592個句次的語法點標注語料庫,涉及語義類別233項,形式類別580項,在知識庫和語料庫的基礎上開發(fā)了語法點及用例的查詢工具。與現有的語法知識庫和通用型漢語語料庫相比,其特色表現在:(1)通用型語料庫的語料內容及難易程度不適合直接應用于漢語教學,而本研究所采用的教材語料及HSK樣題文本語料更適合于學習者的理解與接收;(2)語法點知識庫的屬性設置、取值、語法點的標注都從漢語(二語)教學的實際需求出發(fā);(3)語料庫語法點查詢功能的開發(fā)能直接滿足教師備課、教材研究等方面的需求。

      在下一階段的工作中,將進一步對標注結果進行檢測,提高標注質量,開展語法點的自動標注研究。

      [1] 張普.論漢語信息處理技術與對外漢語教學[J].語言教學與研究,1991,01:111-129.

      [2] 詹衛(wèi)東.大數據時代的漢語語言學研究[J].山西大學學報(哲學社會科學版),2013,05:70-77.

      [3] 朱瑞平,錢多.漢語教師志愿者背景、動機與志愿者項目的可持續(xù)發(fā)展研究[J].國際漢語教學研究,2015,01:63-68.

      [4] 邢紅兵,張旺熹.現代漢語語法項目的標注及統(tǒng)計研究[C].北京語言大學對外漢語研究中心.對外漢語教學的全方位探索——對外漢語研究學術討論會論文集.北京語言大學對外漢語研究中心,2004:17.

      [5] 鄭艷群.多屬性標注的漢語口語教學多媒體素材庫建設及應用[J].語言教學與研究,2012,05:34-39.

      [6] 弓月亭,邢紅兵.數字化漢語教學進展與深化[C].中文教學現代化學會,2008:5.

      [7] 彭煒明,宋繼華,趙敏.面向國際漢語教學的語法資源庫建設[J].中國遠程教育,2014,08:90-94.

      [8] 胡裕樹,范曉.試論語法研究的三個平面[J].新疆師范大學學報(社會科學版),1985,02:7-15,30.

      [9] 岳方遂.有關三個平面問題的一次討論——黃山現代漢語語法修辭研討會側記[J].漢語學習,1991,06:28-29.

      [10] 胡裕樹.語法研究的三個平面——從“淡化語法教學”說起[J].語文學習,1992,11:36-38.

      [11] 邵敬敏.關于語法研究中三個平面的理論思考——兼評有關的幾種理解模式[J].南京師大學報(社會科學版),1992,04:65-71.

      [12] 劉珣等.新實用漢語課本[M].北京:北京語言大學出版社,2010.

      [13] Daozhong Yao,Yuehua Liu,Integrated Chinese[M].Boston:Cheng &Tsui Company,1997.

      [14] Jianhua Bai,Chinese Grammar Made Easy A Practical and Effective Guide for Teachers[M].New Haven and London:Yale University Press,2009.

      [15] 盧福波,漢語語法教學理論與方法[M].北京:北京大學出版社,2010.

      [16] 魯健驥.狀態(tài)補語的句法、語義、語用分析在教學中的應用[J].語言教學與研究,1993,02:22-31.

      [17] 任玉華.“把”字句的三個平面分析及其在對外漢語教學中的應用[J].華東師范大學學報(哲學社會科學版),1998,06:82-85.

      [18] 盧福波.關于“太”字結構的教學與研究——談對外漢語語法教學三個平面的結合問題[J].世界漢語教學,2000,02:74-81.

      [19] 吳中偉,怎樣教語法——語法教學理論與實踐[M].上海:華東師范大學出版社,2010.

      [20] 陳珺,周小兵.比較句語法項目的選擇和排序[J],語言教學與研究,2005,02:22-33.

      猜你喜歡
      二語知識庫語料
      基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
      基于語料調查的“連……都(也)……”出現的語義背景分析
      《教學二語習得簡介》述評
      高速公路信息系統(tǒng)維護知識庫的建立和應用
      Ferris與Truscott二語寫作語法糾錯之爭
      國內二語寫作書面糾正性反饋研究述評
      華語電影作為真實語料在翻譯教學中的應用
      基于Drupal發(fā)布學者知識庫關聯數據的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      二語習得中母語正遷移的作用分析
      《苗防備覽》中的湘西語料
      于田县| 简阳市| 南昌市| 姚安县| 玉环县| 凤城市| 南充市| 黔东| 应城市| 塘沽区| 文化| 丹江口市| 楚雄市| 西畴县| 精河县| 上犹县| 安溪县| 南汇区| 平阴县| 巴楚县| 双流县| 濮阳市| 宜州市| 新化县| 会泽县| 墨玉县| 辽阳县| 蒲江县| 西丰县| 建宁县| 胶南市| 社会| 济阳县| 合山市| 康保县| 嘉兴市| 安西县| 巴林右旗| 宁武县| 乌什县| 科技|