冷毛措++張有誼
摘要: 在自然語言處理中, 詞類劃分屬于基礎(chǔ)研究, 其重要性不可忽視。本文以小學(xué)藏語文教材為語料,利用計算機(jī)對教材中藏語詞的頻次,數(shù)量等信息做出統(tǒng)計,進(jìn)而摸索出目前藏語文教材編輯中藏語詞性的分布規(guī)律,目的在給藏語詞的安排、重要程度等是否科學(xué)合理,即是否符合各個年齡段藏族學(xué)生對知識的接受狀況,提供重要的參考作用。
關(guān)鍵詞:藏文信息處理;語料庫分詞;標(biāo)注
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)06-0195-02
1 概述
藏文的詞性主要包括名詞、動詞、形容詞、數(shù)詞、量詞、代詞、副詞、介詞、連詞、助詞、嘆詞、擬聲詞等12種構(gòu)成,特別是動詞、名詞和虛詞占重要的地位。通過搜集和查閱相關(guān)的文獻(xiàn),目前針對藏語文教材中詞性的分布情況的研究還不多見,最近端智項杰在《中小學(xué)藏語文教材中詞匯統(tǒng)計及分布情況研究》碩士論文中,對詞匯的統(tǒng)計及分布做了一些工作,但其僅對中小學(xué)藏語文教材中詞匯的用詞狀況作了統(tǒng)計,分析了其用詞信息及在真實文本中使用的程度信息,沒有對藏語文教材中詞性的分布情況進(jìn)行研究。
本論文擬以小學(xué)藏語文教材中詞性作為研究對象,采用藏語言信息處理技術(shù)對其詞性的分布進(jìn)行統(tǒng)計與分析。
2. 藏文詞類信息的分類方法
我們根據(jù)藏語語料庫建設(shè)的實際需要,藏語傳統(tǒng)文法的八種格為:主格、業(yè)格、作格、為格、從格、屬格、于格和呼格,語料庫標(biāo)注時,根據(jù)其語法功能用介詞P標(biāo)記。本文遵循格桑居冕、格桑央京編著的《實用藏文文法教程》中的詞法分類方法,將藏文詞類分為13種,即名詞n、動詞v、數(shù)詞m、量詞q、副詞d、連詞c、介詞p、助詞u、語氣詞y、嘆詞e、代詞r、形容詞a、擬聲詞o、其中動詞存在三時一式(過去時、現(xiàn)在時、未來時和命令式)的形態(tài)變化,
3 藏語文課文體裁
選用的教材是五省區(qū)藏語文教材編寫委員會編著,青海民族出版社2009年改版的五省去寫作教材義務(wù)教育課程標(biāo)準(zhǔn)試驗教科書,共12冊作為語料,本套藏語文教材共有課文274篇,第1冊為字母學(xué)習(xí),在進(jìn)行課文統(tǒng)計時,未計算在內(nèi);藏語文教材第2冊、第3冊、第4冊中分別有10篇、4篇、4篇課文是生詞學(xué)習(xí),在課文體裁和篇幅統(tǒng)計時未列入課文數(shù)目統(tǒng)計,在用詞統(tǒng)計中計入。
課文體裁在一定程度上反映了整套教材的語言風(fēng)格和面貌,體現(xiàn)了教材編寫者的教育理念。各類體裁的分布及用詞情況,可以反映出教材各體裁的詞量分布情況。
4 語料處理
對于錄入的語料首先進(jìn)行分詞,在及其分詞的基礎(chǔ)上,對分詞軟件標(biāo)注的“未登錄”部分做人工修改,并人工校對錯誤分詞。藏文分詞盡量與藏語語感中的“詞”保持一致,既能獨立運用,使用穩(wěn)定且具有固定語義的最小單位這里所說的 “詞義”指詞語釋義,當(dāng)詞語為多義詞時,解釋標(biāo)注其常用詞義。
5 統(tǒng)計方法
語料采用人工和計算機(jī)軟件想結(jié)合的方法:詞語分詞才用及其字段分詞與人工干預(yù)相結(jié)合的方法進(jìn)行。分詞軟件采用自己編寫的 “藏文分詞與詞性標(biāo)注一體化軟件”;對分詞軟件標(biāo)注為“未登錄詞”的部分,做人工修正。藏文分詞盡量與藏語預(yù)感中的“詞”保持一致,既能獨立運用、使用穩(wěn)定且具有固定語義的最小單位。
5.1 小學(xué)藏文教材中詞性分布統(tǒng)計及分析
在小學(xué)階段根據(jù)教學(xué)大綱要求,將藏語文教材的文章體裁分為記敘文、說明文、議論文、散文、詩歌、小說、童話、其他(戲劇、格言、諺語、謎語)8類。
以系統(tǒng)統(tǒng)計的數(shù)據(jù)和科學(xué)調(diào)研為依據(jù)提出新的教材中新生詞的分布情況和新生詞的難易程度,使教材的新生詞更嚴(yán)謹(jǐn)更科學(xué)地進(jìn)入教材編輯,依此達(dá)到藏語文教學(xué)的嚴(yán)謹(jǐn)性,以便提升小學(xué)生對藏語文教育的興趣和小學(xué)教學(xué)中的藏語文教學(xué)成果,所以本文主要分析以下幾種詞性。如圖 1所示:
圖1顯示,除第1冊字母學(xué)習(xí)外總分析11冊,由于量詞、感嘆詞、時間詞的數(shù)量比較少,所以本論文中撤銷了那些詞性的分析。將各詞性在小學(xué)藏文教材中按比例排序為:名詞,動詞,助詞,代詞,動詞,形容詞,數(shù)詞,副詞,方位詞,名詞在小學(xué)藏文教材中均占優(yōu)勢,其中助詞、方位詞和數(shù)詞占的比例比較少,體現(xiàn)了基礎(chǔ)教育階段的詞匯學(xué)習(xí)以常用和名詞為主,課文個詞性平均分布在各冊,屬于典型的分散式教學(xué)。
6 結(jié)束語
通過本論文研究,一方面可以摸清小學(xué)藏語文教材中詞性分布狀況,其研究數(shù)據(jù)對小學(xué)藏語文教材的編纂有參考作用;另一方面將藏語自然語言處理理論與技術(shù)應(yīng)用于藏語文教材中詞性的分布研究,具有很強(qiáng)的針對性,可以填補(bǔ)藏語言信息處理在這一研究領(lǐng)域的空白。
參考文獻(xiàn):
[1] 毛爾蓋·桑木旦.藏文文法概論[M].青海民族出版社,2005.
[2] 李素建.漢語組塊計算的若干研究[D].中國科學(xué)院研究生院,2002.
[3] 趙德宇.漢語句法分析技術(shù)及其在機(jī)器人輔助教育智能接口中的應(yīng)用研究[D].天津師范大學(xué),2004.
[4] 韓雪林.現(xiàn)行中小學(xué)藏文教材中存在的問題及解決的辦法[J].甘肅省甘南藏族自治州教育局,1997(3).
[5] 趙小華.KNN詞匯統(tǒng)計及分布中特征詞權(quán)重算法的研究[D].太原理工大學(xué),2010.