艾孜爾古麗,艾孜海爾江,2 ,玉素甫·艾白都拉,祖力克爾江,2,米爾夏提
(1. 新疆師范大學(xué) 計算機科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2. 新疆師范大學(xué) 文學(xué)院,新疆 烏魯木齊 830054;3. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
維吾爾文初中數(shù)學(xué)教材詞干分析研究
艾孜爾古麗1,艾孜海爾江1,2,玉素甫·艾白都拉1,祖力克爾江1,2,米爾夏提3
(1. 新疆師范大學(xué) 計算機科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2. 新疆師范大學(xué) 文學(xué)院,新疆 烏魯木齊 830054;3. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
該文將初中數(shù)學(xué)維吾爾文教材作為研究對象,根據(jù)維吾爾語的特點和統(tǒng)計學(xué)原理理論,從計算語言學(xué)角度調(diào)查初中數(shù)學(xué)維吾爾文教材用詞干情況。該文主要研究維吾爾語詞干、教材概貌、數(shù)據(jù)處理技術(shù)相關(guān)概念及其算法及現(xiàn)代維吾爾語語料處理工具,獲取教材中詞干基本情況、新增詞干、初中數(shù)學(xué)教材高頻詞干,開展了初中數(shù)學(xué)維吾爾文教材詞干調(diào)查,為維吾爾語研究、維吾爾文數(shù)學(xué)教學(xué)與教材編纂等提供參考依據(jù),從而更加積極有效地促進維吾爾語語言本身研究及其信息處理的發(fā)展。
現(xiàn)代維吾爾語;詞干;分析;方法
詞干是語義最小單位。詞干提取是把一個詞的不同形式統(tǒng)一為一種具有代表性的標(biāo)準(zhǔn)形式(詞干),主要處理對象是語言中的詞,需要了解語言詞匯的結(jié)構(gòu),因而必須理解維吾爾語形態(tài)學(xué)[2]。語言形態(tài)學(xué)是一個關(guān)注詞匯內(nèi)在結(jié)構(gòu)和構(gòu)詞規(guī)則的語言領(lǐng)域,研究如何從比較小的意義單位( 語素——語素是語言中負(fù)荷意義的最小單元)構(gòu)成詞[2]。提取的詞干能夠減少詞的數(shù)量,縮減索引文件所占空間,降低重復(fù)率,從而提高效率。
本文利用現(xiàn)代維吾爾語語料預(yù)處理技術(shù)、現(xiàn)代維吾爾語多策略語料統(tǒng)計技術(shù)、現(xiàn)代維吾爾語多技術(shù)融合詞干提取技術(shù)、現(xiàn)代維吾爾語多特征詞性標(biāo)注技術(shù)、現(xiàn)代維吾爾語多維度數(shù)據(jù)分析技術(shù)等關(guān)鍵技術(shù),提取、分析維吾爾文初中數(shù)學(xué)教材中的詞干。
為了科學(xué)地調(diào)查教學(xué)教材用詞情況,本文利用信息處理技術(shù)手段處理維吾爾語語料,完成維吾爾語語料預(yù)處理、維吾爾語語料統(tǒng)計、統(tǒng)計數(shù)據(jù)的自動分析工作。
2.1 相關(guān)概念及其算法
(1) 詞次(頻次)。抽取一定數(shù)量的語料,計算不同詞語在語料中出現(xiàn)的次數(shù)。假設(shè)詞語作為調(diào)查對象,頻次是每一調(diào)查對象的頻次同其前調(diào)查對象頻次的累加和。頻次是一個具體的數(shù)字,它直觀地反映了某個詞語在語料中真實、原始的使用情況[3],算法如式(1)所示。
其中,Ai為調(diào)查對象i的累加頻次,ni為調(diào)查對象i的出現(xiàn)次數(shù)。
(2) 頻率。每一調(diào)查對象的詞次的累加和,與所有語料中調(diào)查對象總次數(shù)的比值,即[4]:
其中,Bi為調(diào)查對象i的累加頻率,ni為調(diào)查對象i的出現(xiàn)次數(shù),N為所有語料中調(diào)查對象出現(xiàn)的總次數(shù)。
(3) 文本數(shù)。如果把語料看成由若干個文本組成,一個詞在多少個文本里出現(xiàn)(不管出現(xiàn)次數(shù)),也就是該詞語出現(xiàn)的文本數(shù):
其中,Di為表示文本數(shù),i表示字母的累加數(shù),ni為表示第i個文本次數(shù)。
2.2 現(xiàn)代維吾爾語語料處理工具
(1) 維吾爾語語料預(yù)處理系統(tǒng)。本系統(tǒng)由語料格式調(diào)整模塊、語料代碼統(tǒng)一轉(zhuǎn)換模塊、語料調(diào)整、語料校對模塊四個模塊組成。維吾爾語語料預(yù)處理模塊把現(xiàn)代維吾爾語語料庫中非標(biāo)準(zhǔn)的語詞進行噪聲過濾后,再進行語料格式轉(zhuǎn)換、語料自動調(diào)整、非規(guī)范詞規(guī)范、語料自動校對等,保證每一個詞語的正字正確性,同時正確處理非維吾爾語詞語,確保獲取正確數(shù)據(jù)分析結(jié)果。
(2) 維吾爾語語料統(tǒng)計系統(tǒng)。本系統(tǒng)較為成熟,統(tǒng)計功能強,主要統(tǒng)計包括詞次、頻率、詞種、詞長和文本數(shù)等項目[5]。
(3) 維吾爾語詞干提取系統(tǒng)。提取詞干時利用基于詞尾切分技術(shù)以及詞典和人機交互結(jié)合的方法。在提取詞干過程中,通過現(xiàn)代維吾爾語詞干詞典維護模塊發(fā)現(xiàn)在提取詞干過程中出現(xiàn)的新詞干,并對機器詞典中新詞干進行補充,增加了機器學(xué)習(xí)功能[3]。
(4) 融合形態(tài)特征的最大熵維吾爾文詞性標(biāo)注系統(tǒng)。
① 現(xiàn)代維吾爾語詞性標(biāo)記集
現(xiàn)代維吾爾語是黏著性語言,語法、語義、語用三位一體構(gòu)詞結(jié)構(gòu),是三個范疇融合在一起的復(fù)雜語言[6]。
(今天的討論會艾買提參加了)。
(今天的討論會牛參加了)。
只有語法、語義特征相結(jié)合,才能正確地表達詞語的有關(guān)信息。《現(xiàn)代維吾爾語詞性標(biāo)記集》由新疆師范大學(xué)計算機應(yīng)用重點學(xué)科、國家語言資源監(jiān)測中心少數(shù)民族分中心維吾爾文基地提供。
② 現(xiàn)代維吾爾語詞性標(biāo)注模型
本文提出一種融合維吾爾文形態(tài)變形特征的最大熵維吾爾文詞性標(biāo)注模型。首先,根據(jù)維吾爾文構(gòu)詞特點,定義上下文特征模板,并從訓(xùn)練語料中提取大量特征集,再通過人工設(shè)置一些規(guī)則篩選模板。然后,訓(xùn)練最大熵概率模型參數(shù)。在最大熵概率模型特征的選擇上,根據(jù)維吾爾文的特點,選取詞內(nèi)部詞干和詞綴、詞前后信息及混合信息等形態(tài)信息作為特征,構(gòu)建標(biāo)注系統(tǒng)[4]。
最大熵原理的主要思想為: 將已知事實作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布[7]。該模型的形式是
其中,Zλ(x)為歸一化函數(shù);fi(x,y)∈(0,1)為特征函數(shù);λi是特征函數(shù)的權(quán)重,代表每個特征函數(shù)的重要性,每個λi對應(yīng)于一個特征函數(shù)[7]。
特征選擇依據(jù): 使用最大熵模型對維吾爾語名詞進行識別,是根據(jù)當(dāng)前詞的上下文特征確定的。本文的模型特征選擇依據(jù)維吾爾語名詞本身的構(gòu)詞特點[4]。
特征模板定義: 根據(jù)維吾爾語構(gòu)詞特點和統(tǒng)計結(jié)果,本文設(shè)計了詞內(nèi)部特征、前后依存詞特征[4]。
(5) 維吾爾語數(shù)據(jù)分析系統(tǒng): 本系統(tǒng)主要統(tǒng)計功能包括詞次、頻率、詞種、詞干種和文本數(shù)等項目的統(tǒng)計。
3.1 語料概貌
本文選取了由新疆維吾爾自治區(qū)課程教材研究所、中學(xué)數(shù)學(xué)課程教材研究開發(fā)中心與人民教育出版社聯(lián)合出版的九年義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)實驗教科書(數(shù)學(xué)維吾爾文版本)。電子語料和處理技術(shù)由國家語言資源監(jiān)測中心少數(shù)民族分中心維吾爾語研究基地和新疆師范大學(xué)計算機應(yīng)用重點學(xué)科提供,其中包括初中一年級到初中三年級,共六冊教材的生語料庫。對初中數(shù)學(xué)教材書中的各冊的圖片、公式、表格、定義、文本等進行統(tǒng)計,統(tǒng)計情況如表1所示。
表1 初中數(shù)學(xué)維吾爾文教材基本信息統(tǒng)計表
說明: 文本數(shù)指在教材中文本數(shù)量;定義數(shù)指在教材中出現(xiàn)的數(shù)學(xué)定義的數(shù)量;表格數(shù)指在教材中出現(xiàn)的表格數(shù)量;公式數(shù)指在教材中使用的數(shù)學(xué)公式數(shù)量;圖片數(shù)指在教材中使用的數(shù)學(xué)幾何圖片數(shù)量。
3.2 教材中詞干基本情況
首先構(gòu)建初中數(shù)學(xué)教材電子語料庫,然后用維吾爾語料預(yù)處理系統(tǒng)對初中數(shù)學(xué)教材電子語料庫進行預(yù)處理。預(yù)處理工作結(jié)束后使用維吾爾語語料統(tǒng)計系統(tǒng)對初中數(shù)學(xué)教材電子語料進行統(tǒng)計,統(tǒng)計內(nèi)容包括詞干的頻次、詞干長度、文本數(shù)等。經(jīng)維吾爾語數(shù)據(jù)分析系統(tǒng)對詞干進行統(tǒng)計分析,在初中維吾爾文初中數(shù)學(xué)教材六冊書中統(tǒng)計出總詞干頻次58 284次,總詞干種數(shù)6 682個。
現(xiàn)代維吾爾文初中數(shù)學(xué)教材中的詞干基本分布情況如表2所示。
表2 詞干每冊分布情況表
續(xù)表
從表2可見,對比同一年級上、下兩冊的詞次所占比例,上冊詞次數(shù)量所占的比率高于下冊,說明教材的編寫符合初中生認(rèn)知規(guī)律,也符合問題描述規(guī)律和有效提高詞匯利用率的要求。從詞干種數(shù)在各冊分布情況來看,每冊詞干種數(shù)分布比較均勻,新詞干的增加比較緩慢,與初中生學(xué)習(xí)數(shù)學(xué)知識的需求相吻合。表3中更能體現(xiàn)此特點。
表3 詞干學(xué)年分布情況表
本研究把第一、二學(xué)期合并為學(xué)年,初一叫作第一學(xué)年,初二叫作第二學(xué)年,初三叫作第三學(xué)年。在初中數(shù)學(xué)教材中每一學(xué)年詞次變化趨勢與詞干種數(shù)變化趨勢同步,具有年級增加詞干種數(shù)減小的趨勢。內(nèi)容組織安排符合初中生的認(rèn)知能力,與心理成熟能力相適應(yīng)。
從詞干在文本中分布角度考察,結(jié)果如表4所示。
表4 詞干在文本中分布情況表
文本數(shù)指該詞語或詞干出現(xiàn)的文本次數(shù)。在表4中可以看出,文本數(shù)為201~300的詞干種數(shù)是8個,占詞干種數(shù)比例為0.12%;文本數(shù)為101~200的詞干種數(shù)是41個,占詞干種數(shù)比例為0.61%。
3.3 新增詞干
新增詞干以第一學(xué)期教材為基礎(chǔ),第一學(xué)期與第二學(xué)期教材進行比較產(chǎn)生新詞干,前兩學(xué)期教材與第三學(xué)期教材比較產(chǎn)生的新詞干,以此類推產(chǎn)生的新詞干叫作新增詞干。本研究用維吾爾語數(shù)據(jù)分析系統(tǒng)對統(tǒng)計數(shù)據(jù)進行分析,獲得新增詞干,如表5 所示。
表5 新增詞干統(tǒng)計分析表
由表5可見,由于在七年級上冊教材里詞干種數(shù)為1 665,由于學(xué)生第一次接觸, 定義新增詞干種數(shù)為1 665,比例認(rèn)定為100%。圖1表示每冊詞干種數(shù)與每冊新增詞干變化關(guān)系。
圖1 每冊詞干種數(shù)與每冊新增詞干變化圖
從圖1可以看出,每學(xué)期的詞干種數(shù)變化不大,特別是七年級上、下冊詞干種數(shù)差距最小,相對穩(wěn)定。第三學(xué)期開始詞干種數(shù)開始平穩(wěn)減少,每學(xué)期新增詞干種數(shù)呈快速減少趨勢,說明數(shù)學(xué)教材是以學(xué)習(xí)數(shù)學(xué)知識為主、學(xué)習(xí)新詞干為輔的特點。這符合該教材強化學(xué)生數(shù)學(xué)功底和以培養(yǎng)思維能力為主的教學(xué)目標(biāo)要求。
3.4 初中數(shù)學(xué)教材高頻詞干
本文從數(shù)學(xué)教材中提取了《基礎(chǔ)教育數(shù)學(xué)常用詞1000條》,并給出了樣例, 前12個高頻詞干情況如表6所示。
表6 初中數(shù)學(xué)高頻詞干情況表
從表6可以看出,出現(xiàn)高頻詞干是數(shù)學(xué)用詞為主,生活用詞為輔。為解釋某一個具體的數(shù)學(xué)現(xiàn)象,一些普通詞干會有較高頻率。
本文利用信息處理技術(shù)手段處理維吾爾語語料,提取分析維吾爾文初中數(shù)學(xué)教材詞干,完成維吾爾語語料預(yù)處理、維吾爾語語料統(tǒng)計、統(tǒng)計數(shù)據(jù)的自動分析工作, 提出了基于多策 略的現(xiàn)代維吾爾語數(shù)據(jù)處理技術(shù),為科學(xué)調(diào)查維吾爾文數(shù)學(xué)教材用詞情況提供理論基礎(chǔ)和技術(shù)支撐。初中數(shù)學(xué)教材所使用的詞干在很大程度上與語文教材所使用的普通詞干的情況形成對比。該數(shù)學(xué)教材特色用詞干總量都不大,與承擔(dān)著語言文字學(xué)習(xí)任務(wù)的語文教材相比,詞干種數(shù)及總詞次較少,復(fù)現(xiàn)率較低。在教學(xué)過程中,數(shù)學(xué)課程教授學(xué)生自然科學(xué)知識的同時,在語言能力培養(yǎng)上不容低估,應(yīng)引起教材編纂者和教學(xué)工作者的重視。
[1] 哈密提.鐵木爾.現(xiàn)代維吾爾語語法[M]. 北京: 北京民族出版社,1987.
[2] 吳思竹,錢慶,胡鐵軍,等.詞干提取方法及工具的對比分析研究[J],《圖書情報工作》,2012,56(15):109-115+142.
[3] 艾孜爾古麗,努爾艾合買提,玉素甫·艾白都拉.現(xiàn)代維吾爾語常用詞統(tǒng)計關(guān)鍵技術(shù)研究[J],中文信息學(xué)報, 2014,28(5):192-197.
[4] 艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉. 基于形態(tài)分析的現(xiàn)代維吾爾語名詞詞干識別研究 [J],中文信息學(xué)報,2015,37(12):2318-2323.
[5] 艾孜爾古麗,阿里木·木拉提,蘇國平. 現(xiàn)代維吾爾語語言資源監(jiān)測中數(shù)據(jù)分析技術(shù)研究[J],計算機應(yīng)用與軟件,2013,30(04)36-39.
[6] 艾孜爾古麗,米爾夏提,玉素甫·艾白都拉.現(xiàn)代維吾爾語詞干詞類標(biāo)注標(biāo)記集驗證性研究 [J], 計算機工程與科學(xué),2015(6):45-48.
[7] 張貫虹,斯·勞格勞,烏達巴拉.融合形態(tài)特征的最大熵蒙古文詞性標(biāo)注模型[J],計算機研究與發(fā)展,2011,48(12):2385-2390.
[8] 魏順平,傅騫,何克抗.低年級小學(xué)生用字情況調(diào)查與分析——以廣東、北京兩地6所小學(xué)為例[J],語言文字應(yīng)用,2008(03):81-89.
艾孜爾古麗(1987—),博士,講師,主要研究領(lǐng)域為計算語言學(xué)、自然語言處理。
E-mail:Azragul2010@126.com
艾孜海爾江(1991—),碩士研究生,主要研究領(lǐng)域為計算語言學(xué)、自然語言處理。
E-mail: Azhar110@126.com
玉素甫·艾白都拉(1958—),通信作者,學(xué)士,教授,主要研究領(lǐng)域為計算語言學(xué)、自然語言處理。
E-mail:ysp2002@126.com
TheStudyofModernUyghurStemsinMathsTextbookofJuniorMiddleSchool
Azragul1, Azharjan1,2, Yusup Abaydula1, Zulkarjan1,2, Mirxat3
(1. School of Computer Science and Technology, Xinjiang Normal University, Urumqi, Xinjiang 830054, China;2. School of Liberal Arts, Xinjiang Normal University, Urumqi, Xinjiang 830054, China; 3. School of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046,China)
In this study, focused on the Uyghur mathematics textbooks in junior high school, the Uyghur stem are studied. This paper studies the basic stems in the textbooks, the new stems, and the high frequency stems. This provides reference materials for the Uighur language study, Uighur Mathematics Teaching and codification.
modern Uygur language;word stem;analysis;method
1003-0077(2017)05-0108-06
TP391
A
2015-08-16定稿日期2016-04-26
國家自然科學(xué)基金(61662081,61463048);自治區(qū)自然科學(xué)基金(2017D01A58);自治區(qū)青年科技創(chuàng)新人才培養(yǎng)工程(QN2016BS0365);國家社科基金(14AZD11);國家語委重點項目(ZD1135-28);新疆維吾爾自治區(qū)社會科學(xué)基金(2016CYY067);國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心項目(NMLR201602);新疆師范大學(xué)計算機應(yīng)用重點學(xué)科、新疆師范大學(xué)數(shù)據(jù)安全重點實驗室資助項目