哈薩克語IT領域術語識別研究與實現(xiàn)

2016-05-04 00:41:29木合亞提尼亞孜別克古力沙吾利塔里甫

中文信息學報 2016年3期

關鍵詞：哈薩克語術語語料

木合亞提·尼亞孜別克，古力沙吾利·塔里甫

(1. 新疆大學信息科學與工程學院,新疆多語種信息技術實驗室，新疆烏魯木齊 830046；2. 新疆醫(yī)科大學中醫(yī)學院，新疆烏魯木齊 830011)

哈薩克語IT領域術語識別研究與實現(xiàn)

木合亞提·尼亞孜別克1，古力沙吾利·塔里甫2

(1. 新疆大學信息科學與工程學院,新疆多語種信息技術實驗室，新疆烏魯木齊 830046；2. 新疆醫(yī)科大學中醫(yī)學院，新疆烏魯木齊 830011)

該文闡述了基于統(tǒng)計方法進行哈薩克語IT領域術語識別的研究,并在已有的訓練語料基礎之上,采用最大熵模型進行標注識別和結(jié)合人工方式對錯誤識別結(jié)果進行后處理的分析實驗，闡述了該平臺的研究和設計思路，系統(tǒng)的總體框架、基本結(jié)構(gòu)、功能模塊以及實現(xiàn)方法等相關的問題。實驗結(jié)果顯示該方法識別哈薩克語IT領域術語是有效的,封閉測試結(jié)果達到了82.6%。

哈薩克語；IT術語；術語管理平臺；最大熵模型

Research on Automatic Identification of IT Terms in Kazakh

引言

哈薩克語的術語像其他語言中的術語一樣是一種結(jié)構(gòu)緊密的固定或半固定的詞語或詞組，也是一種具有很強領域特征的詞語。隨著科技的發(fā)展和社會的進步，在科技、日常事物、社會現(xiàn)象、生活概念等領域都出現(xiàn)了新的術語，擴大了語言資源。中文各語言信息處理應用領域的不斷擴展，對于不同語言不同領域?qū)I(yè)術語的檢索需求也越來越迫切。研究以計算機作為工具的哈薩克語信息技術領域術語資源管理系統(tǒng)的構(gòu)建，一方面是哈薩克語自然語言信息處理、哈薩克語語言學的研究、機器翻譯、語料庫建設等民族語言信息化建設研究的基礎性前提[1]。另一方面對民族語言文字的發(fā)展、民族文化的傳承和發(fā)揚，對民族教育、科技、經(jīng)濟和社會的繁榮發(fā)展也具有重要的意義。對哈薩克語術語資源的研究可促進哈薩克語自然語言的不斷發(fā)展，也可以為其他少數(shù)民族語言處理的研究提供些良好的參考價值。概括起來，對哈薩克術語研究的意義表現(xiàn)在以下幾個方面。

(1) 對后繼進一步做哈薩克語的詞法分析和分詞研究提供資源基礎；

(2) 對實現(xiàn)哈薩克語的機器翻譯，搜索引擎等應用研究提供中介作用；

(3) 對將來可能實現(xiàn)的大型哈薩克語的樹庫建設及盡早實現(xiàn)中國語言文字信息處理都具有重要意義。

1 相關研究分析

1.1 研究現(xiàn)狀

目前，術語的抽取和檢索的研究領域中使用的方法主要有基于規(guī)則、基于統(tǒng)計、基于規(guī)則和基于統(tǒng)計相結(jié)合的混合策略技術?；谝?guī)則的方法是根據(jù)語言自身的特點，如詞綴、單詞、詞性等信息抽取術語。基于統(tǒng)計的方法是利用統(tǒng)計方法,根據(jù)單詞之間的搭配關系的頻率來預測構(gòu)成術語的單詞信息。常用的統(tǒng)計方法有多種，例如，最大熵方法、條件隨機場方法、互信息方法和隱馬爾科夫方法等。

在國外研究領域中，文獻[2]研究應用深層的上下文信息，在醫(yī)學領域進行術語抽取，該系統(tǒng)計算了術語上下文的不同部分的相對重要程度和術語與上下文的相似性。文獻[3]中Justeson 和 Katz使用基于規(guī)則的方法識別術語，這種方法在封閉測試情況下可得較高的準確率，但是規(guī)則集構(gòu)建的不完整導致低識別準確率，并且使用范圍有限。文獻[4]Patrick 和 Dekang同時利用互信息來識別術語。

在國內(nèi)研究領域里，劉豹，張桂平，蔡東風等應用基于統(tǒng)計和規(guī)則相結(jié)合的方法進行科技術語自動抽取研究，在實驗中分別比較規(guī)則、最大熵模型和條件隨機場模型的實驗，實驗結(jié)果得出基于統(tǒng)計的方法優(yōu)于基于規(guī)則的方法?；诮y(tǒng)計和規(guī)則相結(jié)合的科技術語自動抽取研究是中文信息處理領域的一個重要研究課題,在信息檢索、機器翻譯等領域,特別是在專利翻譯中有著廣泛應用[5]。岑詠華，韓哲，季培培[6]等使用隱馬爾科夫模型研究中文術語識別，他們通過對中文文本信息語法構(gòu)成尤其是詞性搭配的概率特征的分析，提出一種基于雙層隱馬爾科夫模型的中文泛術語識別和提取的思路和系統(tǒng)框架，并實現(xiàn)相關系統(tǒng)，基于訓練語料對多個領域的文本信息進行術語提取測試。文獻[7-8]使用最大熵模型的方法實現(xiàn)中文術語抽取，實驗結(jié)果令人滿意。文獻[9]在使用最大熵模型的方法識別哈薩克語動詞詞組抽取中獲得了較高的準確率。本文在文獻[9]的實驗中受到啟發(fā)，根據(jù)哈薩克語IT領域術語自身特點，認真閱讀和學習國內(nèi)外先進的術語識別技術，通過在少數(shù)的訓練語料基礎上，利用人工和統(tǒng)計相結(jié)合的方法，研究與實現(xiàn)了哈薩克語IT領域術語的自動識別。

1.2 研究難點

對哈薩克術語的定界存在很大難度，不能由純規(guī)則的方法來進行術語識別，否則很易生成哈薩克語術語的歧義。哈薩克語語言有多種歧義，需通過詞法分析、詞性標注、文字校對、短語識別和句法分析等消除。術語抽取中消除歧義是必要任務，同時也是句法分析中分析正確的難點[10]。

2 基于最大熵模型的IT領域術語識別系統(tǒng)的設計與分析

2.1 實驗語料

基于規(guī)則的方法來確定哈薩克語IT領域術語定界比較難，并且準確率不高。因此，使用統(tǒng)計的方法來識別哈薩克語術語是必要的，為了達到更好的準確率需要數(shù)量較大的訓練語料庫，由于目前沒有標注好的哈薩克語信息技術領域標準語料，需要人工標注。目前的實驗室環(huán)境缺少一個關于哈薩克語信息技術領域術語的統(tǒng)一標準，因此本文對從2010年新疆科技出版社出版發(fā)行的《漢哈英俄信息與計算技術名詞術語詞典》[11]中抽取和篩選出的2 646個哈薩克語信息技術術語進行了學習和分析，統(tǒng)計結(jié)果發(fā)現(xiàn)單詞型術語占18.37%，由兩個單詞組成的復雜術語占68.03%，三詞術語占10.88%，四、五、六詞術語分別占1.36%、0.52%、0.34%，七詞及以上的復雜術語占0.5%。

本文使用的語料來自“天山網(wǎng)”、“廣播網(wǎng)站”、“哈薩克軟件網(wǎng)”等網(wǎng)站的哈薩克文新聞和中小學“信息技術”教材的文本信息，用于本系統(tǒng)的訓練和測試語料。

2.2 最大熵模型中的任務描述

基于最大熵的哈薩克語IT領域術語抽取系統(tǒng)設計的目標就是建立一個完善的軟件系統(tǒng)，該系統(tǒng)能迅速準確地抽取中文文本中的術語及其準確定義，提高人們學習工作的效率。隨著人們的不斷使用、不斷反饋以及網(wǎng)絡的持續(xù)發(fā)展，該系統(tǒng)存儲的各領域信息越來越多，從文本中抽取的中文術語越來越接近該文本中術語的總數(shù)，返回術語定義也越來越迅速。系統(tǒng)還能基于用戶的反饋實現(xiàn)自學習，不斷進行自身的升級完善。

在本研究中，a表示上下文信息，如詞性、單詞、詞綴、TE標注等。b表示所有的術語標記集合的結(jié)果。可能構(gòu)成術語的集合為B,且b∈B；上下文信息集合是a,且a∈A[9]。

(1)

任務是在上下文a的條件下，構(gòu)造出一個模型，通過a和b的統(tǒng)計特征，當給定的上下文信息a時，能夠準確地估計出輸出b的條件概率p(b/a)。N個樣本信息集合S={(a1,b1),(a2,b2),…,(an,bn)}是觀察到的一個事件，事件空間A×B。特征是一個二值函數(shù)。即:f:A×B→{0,1}。

模型P的熵是:

(2)

最大熵模型:

(3)

式(3)中的C是滿足限制條件的概率分布集合。要求限制條件下H(P)的最大值，為每一個特征函數(shù)引入一個參數(shù)拉格朗日乘子λi，計算如式(4)、式(5)所示。

(4)

(5)

式(5)中Zλ(a)是歸一化因子，λi是特征參數(shù)，代表每個特征的重要性。參數(shù)值λi的估計方法是Darroch和Ratcliff的通用迭代算法(GIS)來實現(xiàn)[9,12-14]。最后計算出了每個特征對應的參數(shù)值來得到模型。

2.3 特征模板

哈薩克語與漢語、英語不同，哈語是以詞為單位，這方面像英語，但是哈薩克語具有粘著性和豐富的上下文信息，哈語詞的詞形變化要比英語豐富的多。根據(jù)哈薩克IT領域術語自身的特點，本文特征空間定義如表1。

表1 術語識別特征空間

為了選出最好的特征模板，本研究組在表1的基礎上構(gòu)造出了六個復合特征模板。每個信息函數(shù)在當前詞上下文取值，把各個函數(shù)值組合成特征前提，通過該詞的標記得到特征的動作，這樣就可以提取特征:

模板A: [RRPos，RRTE，RWord，RAffix，RPos，RTE，CPos，CTE，CWord，CAffix，LWord，LAffix，LPos，LTE] 觀察候選詞的左邊一個詞和右兩個詞對實驗結(jié)果的影響。

模板B: [RRPos，RRTE，RWord，RAffix，RPos，RTE，CPos，CTE，CWord,CAffix] 觀察候選詞的右邊兩個詞對實驗結(jié)果的影響。

模板C: [RWord，RAffix，RPos，RTE，CPos，CTE，CWord,CAffix， LWord，LAffix，LPos，LTE] 觀察候選詞的左邊和右邊各一個詞對實驗結(jié)果的影響。

模板D: [RRPos，RRTE，RWord，RAffix，RPos，RTE，CPos，CTE，CWord，CAffix,LLPos，LLTE，LWord，LAffix，LPos，LTE]觀察特征空間的所有單詞對實驗結(jié)果的影響。

模板F: [RWord，RAffix，RPos，RTE，CPos，CTE，CWord，CAffix,LLPos，LLTE，LWord，LAffix，LPos，LTE] 觀察候選詞的左邊兩個詞和右一個詞對實驗結(jié)果的影響。

模板E: [CPos，CTE，CWord,CAffix,LLPos，LLTE，LWord，LAffix，LPos，LTE]觀察候選詞的左邊兩個詞對實驗結(jié)果的影響。

語料中選擇語料對上述六種特征進行實驗，選擇不同特征對實驗結(jié)果的影響如圖1所示。

圖1 選取不同特征所得到的結(jié)果

從實驗結(jié)果可以得出:實驗結(jié)果選為D模板時最高，即觀察窗口中的所有單詞對實驗結(jié)果的影響最佳。術語識別的截圖如圖2所示。

圖2 術語識別系統(tǒng)的截圖

2.4 特征閾值選擇

在最大熵模型中，特征選擇是一個至關重要的問題。常見的特征選擇方法有兩種：頻度的選擇法和增量選擇法，具體思想就是如果該特征加入后能提高系統(tǒng)的效果，就保留，否則刪除該特征。本文使用基于頻數(shù)閾值的方法選擇特征，此方法的特征中閾值k的選定與任務和數(shù)據(jù)相關，可以由實驗來確定，其方法的訓練時間短。一般k值在2到3之間都可以找到較好的閾值[9-12]。本文中我們采用的方法是第一個基于頻數(shù)閾值的特征選擇: 僅保留那些出現(xiàn)頻數(shù)大于等于某一個閾值k的特征(本文中k>=2)。雖然該方法不能保證得到最小特征集，但它能獲得盡可能多的特征，實驗表明它具有良好的性能。

2.5 系統(tǒng)總體設計

哈薩克語術語識別系統(tǒng)由兩大模塊組成，分別為模型訓練和識別模塊，系統(tǒng)總體流程圖如圖3所示。

(1) 模型訓練

本文中使用的訓練語料是已經(jīng)標注好單詞的詞干、附加成分(詞綴)、詞性標注以及術語標注等信息的XML文本。在模型訓練模塊中，系統(tǒng)在訓練語料上進行特征提取，再通過基于頻數(shù)閾值的特征選擇，只保留那些出現(xiàn)頻數(shù)比較大的特征，頻數(shù)大于等于2的特征，建立特征集。將特征結(jié)果組織好后送到最大熵工具包進行訓練，計算權(quán)值，結(jié)果作為權(quán)值字典。

(2) 識別模塊

術語識別模塊中: 首先進行識別之前的預處理工作，讀入XML格式的哈薩克語待標文件，將語料組織成符合識別模塊接口標準的形式。然后通過訓練語料庫中提取的特征，用最大熵工具包計算出每一個特征對應的權(quán)值，生成特征權(quán)值字典，參數(shù)估計，對輸入的待標文件進行術語識別，將識別結(jié)果保存在外部文件。

圖3 系統(tǒng)總體流程圖

3 實驗數(shù)據(jù)

本文采用以下幾個判定指標: 術語識別準確率、召回率、錯誤率和漏召率。定義如下:

×100%；

(6)

(7)

漏召率(L)=1-召回率

(8)

錯誤率(E)=1-準確率

(9)

(10)

本系統(tǒng)用已經(jīng)標注好的不同規(guī)模的訓練語料，分別進行開放測試和封閉測試，測試結(jié)果如表2所示。

表2 術語識別測試結(jié)果

4 結(jié)語

本實驗使用最大熵模型的方法實現(xiàn)哈薩克語IT領域術語識別，在實驗中確定最大熵模型的特征模板和特征值，由此建立哈薩克語IT領域術語的最大熵模型。實驗結(jié)果顯示: 最大熵模型在哈薩克語IT領域術語識別研究方面獲得較好的成績。當然，一個研究工作總是解決某一個特定的問題，探索真理的路永遠是沒有盡頭，因此本研究也需要探索和開展以下幾個方面工作: 術語邊界識別方面進一步細化精化，使用不同的統(tǒng)計方法來識別術語，更深入的比較實驗結(jié)果，不斷的擴大訓練語料的規(guī)模，盡可能地減少數(shù)據(jù)稀疏問題，以獲得更好的成績。

[1] 木合亞提·尼亞孜別克，古利沙吾·塔里甫.信息技術術語哈譯問題探討[J]. 術語標準化與信息技術，2010 (4): 17-18.

[2] Diana Maynard,Sophia Ananiadou. Identifying Contextual Information for Multi-Word Term Extraction[C]//Proceedings of Terminology and Knowledge Engineering Conference. 2003.

[3] Justeson J S,Katz S M.Technical terminology: some linguistic properties and an algorithm for identification in text [J].Natural Language Engineering,1996,3(2): 259-289.

[4] Pantel P,Lin De-kang.A statistical corpus-based term extractor[C]//Proceedings of the Canadian Conference on AI 2001,2001: 36-46.

[5] 劉豹，張桂平，蔡東風．基于統(tǒng)計和規(guī)則相結(jié)合的科技術語自動抽取研究[J].計算機工程與應用，2008,44(23): 147-150.

[6] 岑詠華，韓哲，季培培．基于隱馬爾科夫模型的中文術語識別研究[J]．情報分析與研究，2008,12(1): 53-56．

[7] 張宜浩. 基于最大墑模型的中文實體關系自動抽取研究[D].昆明理工大學碩士學位論文,2010.

[8] 趙欣. 基于最大熵的中文術語抽取系統(tǒng)的設計與實現(xiàn)[D].西安電子科技大學碩士學位論文,2012.

[9] 古麗扎達·海沙. 哈薩克語基本動詞短語自動識別研究[D].新疆大學碩士學位論文,2012.

[10] 木合亞提·尼亞孜別克，古利沙吾·塔里甫.論在哈薩克語中規(guī)范使用信息學科詞匯[J]. 新疆大學學報，2012，37(2): 59-61.

[11] 哈那提·葉列杰夫,賽力克·孫哈泰.漢哈英俄信息與計算技術名詞術語詞典[Z].烏魯木齊: 新疆科技技術出版社,2010.

[12] Rob Koeling. Chunking with Maximum Entropy Models[C].Proceedings of the CoNLL-2000 and LLL-2000，Lisbon，Portugal.2000,109(15): 139-141.

[13] Adam L. Berger,Stephen A,Della Pietra，and Vincent J. A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistic.2002,22(1): 39-71．

[14] Darroch J N,Ratcliff D. Gneralized iterative scaling for log2 linear models[J].Annalysis of Mathematical Statistics.1999,43(5): 1471-1479．

Muheyat·Niyazbek1,Kunsaule·Talp2

(1. Department of Information Science and Engineering College,Xinjiang University,Xinjiang Laboratoryof Multi-language Information Technology,Urumqi,Xinjiang 830046,China;

2. College of Chinese Medicine of Xinjiang Medical University,Urumqi,Xinjiang 830011,China)

This paper reports a statistical method of identification of IT terms in Kazakh. It builds a maximum entropy model,and followed by a rule based post-processing. The experimental results reveals an accuracy of 82.6% in the close test.

Kazakh;IT terminology;terminology management platform;maximum entropy

木合亞提·尼亞孜別克(1967—)，學士，副教授，主要研究領域為自然語言與信息處理、計算機體系結(jié)構(gòu)、網(wǎng)絡技術。E?mail：muheyatn@126．com古力沙吾利·塔里甫(1969—)，碩士，副教授，主要研究領域為臨床醫(yī)學和傳統(tǒng)醫(yī)學。E?mail：18690174895@163．com

2014-05-30 定稿日期: 2014-10-12

新疆多語種信息技術實驗室開放課題資助(XJDX0905-2013-03)

1003-0077(2016)03-0068-06

TP391