才讓拉毛++張有誼
摘要:在英漢文方面,有很多學者在研究和探討關(guān)于情感詞的識別和分布,但是對于藏語文情感詞研究的課題和論文較少。本文以藏語文中小學教材中的情感詞作為研究對象,研究藏語文情感詞的分布規(guī)律、自動識別統(tǒng)計以及相關(guān)的語料庫、分詞和詞性標注。分析了中小學藏文教材的用詞量度,梳理了數(shù)據(jù),設(shè)計切分算法,用概率統(tǒng)計方法處理情感詞,得到統(tǒng)計結(jié)果。通過應用藏語言信息處理技術(shù)解決中小學藏語文教材中的情感詞匯的統(tǒng)計問題,擴大了藏語言信息處理技術(shù)的研究范圍,有助于提高藏語言信息處理水平。
關(guān)鍵詞:藏語情感詞;藏語言信息處理;藏文教材;概率統(tǒng)計方法
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)06-0184-01
1 概述
在文獻《現(xiàn)代漢語詞匯統(tǒng)計同問的初步研究》[1]中對漢語文和藏語文教材中的新生詞做了對比分析,指出漢語文教材規(guī)劃成熟,新生詞規(guī)劃有科學依據(jù)。但是,中小學藏語文教材中新生詞分布隨意不均勻,認知規(guī)律凸顯不夠,需要更好地提現(xiàn)從易到難的科學分布。針對中小學藏語文教材中新生詞的分布規(guī)律研究目前尚不多見,因此本文圍繞已有新聲詞中的情感詞進行統(tǒng)計分布研究,設(shè)計并實現(xiàn)中小學藏文教材中情感詞統(tǒng)計系統(tǒng),并分析情感詞在教材中的難易程度和分布規(guī)律。
本文的研究對中小學藏文教材的編排有一定的參考作用也助于學生對藏語文的認知,同時也是對藏文信息處理技術(shù)的應用與推廣。
2 情感詞的定義及研究方法
情感詞是指在文本中具有情感傾向性的詞語,它可以是名詞、動詞、形容詞、副詞以及一些習慣性用語或短語等。一般情況下,文本內(nèi)容表達的情感傾向主要通過情感詞來體現(xiàn),故它也是情感傾向性判斷的重要依據(jù)之一。情感詞通常具有明顯的感情色彩,比如表達心情的愉快(
基于語義的方法又主要有兩種方法。第一種方法是,先抽取出文本中的形容詞或者帶有明顯感情色彩的詞,稱為情感詞,然后對這些情感詞或者包含情感詞的短語逐一進行情感傾向判斷,得到它們的情感傾向值,最后將這些短語的情感傾向值求和來得到文本最終的情感傾向;第二種方法是,先建立一個情感傾向語義模式庫,包括情感詞字典等資源,然后將文本參照這個庫做匹配模式,計算得到一個情感傾向值,最后將這些模式的傾向值進行累加,最終得到整個文本的情感傾向。
3 教材中詞頻統(tǒng)計
藏語文小學教材共有課文274篇,第1冊為字母學習,在進行課文統(tǒng)計時,未計算在內(nèi);1-12冊詞種數(shù)9224條,97366詞次。初中教材6冊,初中共有課文126篇,藏語文初中教材共有詞種數(shù)12920條,191062詞次。本文在藏文教材中取出六萬多條詞條對情感詞進行統(tǒng)計分布。
4 情感詞的統(tǒng)計分布
1)小學教材
在小學階段根據(jù)教學大綱要求,將藏語文教材的情感詞匯分為3類,即形容詞、副詞和動詞,現(xiàn)統(tǒng)計分析小學情感詞的分布如圖1所示。
圖1分析:小學藏語文教材中形容詞最多,占總數(shù)的4.66%;動詞量最少,占詞性總數(shù)的1.62%。按情感詞性分類的情感次數(shù)排序為:形容詞>副詞>動詞。漢語文基礎(chǔ)教育新課標教材相關(guān)統(tǒng)計結(jié)果表明,小學藏文教材中情感詞(形容詞、副詞)數(shù)量多,而動詞數(shù)量卻相對較少。說明形容詞和副詞用詞豐富,數(shù)量多,在一定程度上體現(xiàn)了用詞量多特點。
2)初中教材
藏語文初中教材中,適應學生理解能力的提高,課文選材中大幅度選入本民族傳統(tǒng)語法知識和修辭知識。根據(jù)教學大綱要求,將藏語文教材的情感詞匯分為3類,即形容詞、副詞和動詞,又根據(jù)《青海民族大學詞性標注規(guī)范大集》將動詞分為四小類即:存在動詞、判斷動詞、及物動詞和不及物動詞來統(tǒng)計分析初中情感詞的分布如圖2所示。
圖2分析:初中藏語文教材中及物動詞最多,約為18998個,占詞性總數(shù)的33.76%;存在動詞量最少,約為2630個,占詞性總數(shù)的6.48%。按情感詞性分類的情感次數(shù)排序為:及物動詞>不及物動詞>形容詞>副詞>判斷動詞>存在動詞。中學階段要求掌握情感詞匯的分類方面的知識,為了集中反映這部分詞匯安排情況,統(tǒng)計中特別對初中階段內(nèi)容涉及情感詞予以統(tǒng)計。
5 結(jié)語
本文對中小學藏語文教材中的情感用詞情況,用概率統(tǒng)計方法進行了計量統(tǒng)計和分析。一方面為客觀評價小學、初中教材提供一個定量標準,另一方面也為中學階段的藏文制定量化詞匯教學目標提供依據(jù),為提高藏語文中學教材的編寫質(zhì)量奠定一定的基礎(chǔ)。
參考文獻:
[1] 常寶儒.現(xiàn)代漢語詞匯統(tǒng)計同問的初步研究[J].語言教學與研究,1985(1).
[2]蘇新春著.詞匯計量及實現(xiàn)[M].北京:商務(wù)印書館,2010.
[3] 于洪志,曹暉,李永宏,等.小學藏語文新課標教材用詞調(diào)查.中國 2009 語言生活狀況報告 下編.國家語言資源監(jiān)測與研究中心編,2009.
[4] 張金爽,高璐,李永宏,等.新舊小學藏語文教材量化對比分析——文章體裁、文學體裁及選材的統(tǒng)計研究[J].西北民族大學學報:自然科學版,2010(1).