信息檢索系統(tǒng)中藏文自動提示的研究與實現(xiàn)

2014-08-14 18:41:22武強邊巴旺堆

電腦知識與技術(shù) 2014年19期

武強+邊巴旺堆

武強，邊巴旺堆

（西藏大學(xué) 工學(xué)院，西藏拉薩 850000）

摘要：在當(dāng)今信息社會，信息檢索已經(jīng)成為人們?nèi)粘９ぷ鞯囊徊糠?。藏文作為一種古老的文字，也融入了當(dāng)今的信息時代，越來越多的網(wǎng)頁、電子郵件等電子文檔以藏文形式出現(xiàn)。該文主要探討了藏文的構(gòu)成、編碼、分詞及藏文相關(guān)提示詞的實現(xiàn)原理及方法，對具有重要影響的藏文分詞和排序進行了深入的分析，實現(xiàn)了在信息檢索系統(tǒng)中基于權(quán)重的藏文自動提示功能。通過測試分析，該功能能較好地分辨藏文和依據(jù)權(quán)重對藏文進行相關(guān)詞提示。

關(guān)鍵詞：藏文；分詞；信息檢索；相關(guān)詞提示；編碼；網(wǎng)頁

中圖分類號：H214 文獻標識碼：A 文章編號：1009-3044（2014）19-4378-03

Research and Implement of Tibetan Term Suggestion in Information Retrieval System

WU Qiang， BianBa Wangdui

（College of Engineering， Tibet University， Lhasa 850000， China）

Abstract： Information retrieval has become a part of people work in todays information society. As one ancient language， Tibetan has blended in with todays information age. There are more and more web pages， e-mails etc. in the form of Tibetan. The paper mainly discusses the structure， encoding， term segmentation of Tibetan and implementation mechanism and method of Tibetan term suggestion， and analyses deeply the Tibetan word segmentation and Tibetan sort， finally implements the function of Tibetan term suggestion based on the value of a Tibetan word in documents. From testing， the function can distinguish Tibetan word and get the Tibetan term suggestion based on value properly.

Key words： Tibetan； word segmentation； term suggestion； information retrieval； encoding； Web page

1 概述

目前，隨著互聯(lián)網(wǎng)和個人電腦的發(fā)展，信息量每天都以指數(shù)級增長，信息檢索[1]成了一種人們獲取日常信息的主要手段。藏文，作為一種古老的書寫文字，其歷史可以追溯到1400多年前。迄今為止，以藏文記載的古典著作浩如煙海，這些書籍在藏民族的傳承和發(fā)展上發(fā)揮著重要的作用。隨著信息時代的到來，以藏文形式記載的各種網(wǎng)頁、文檔也越來越多，利用檢索系統(tǒng)對藏文進行檢索，可以更快地獲取信息，同時也促進了藏文的發(fā)展。

相關(guān)詞的自動提示功能（Term Suggestion）在一些常用的網(wǎng)站上可以看到，比如搜索網(wǎng)站谷歌，百度，電子商務(wù)網(wǎng)站淘寶，易趣等。相關(guān)詞的自動提示功能優(yōu)化了搜索結(jié)果，通過系統(tǒng)來猜測檢索人需要的搜索詞語，為檢索人在信息檢索時提供了更多的便利和較準確的檢索結(jié)果。圖1顯示了百度搜索引擎上相關(guān)詞的提示功能。從該圖我們可以看到，相關(guān)詞的提示功能即提高了檢索書寫速度，又延長了檢索詞的長度，為進一步返回更準確的結(jié)果提供條件。

圖1 百度上漢語自動提示功能

2 藏文的構(gòu)成、編碼及分詞

2.1藏文的構(gòu)成

藏文字是一種拼音文字，可以被看做由基本字符且基本字符通過縱向疊加和橫向連接而成[2][3]。藏文字主要由現(xiàn)代藏文和一些梵音轉(zhuǎn)寫體和反寫體組成?，F(xiàn)代藏文是由三十個輔音字母和四個元音字母組成，它是藏文字的主要組成部分。加上梵音的轉(zhuǎn)寫體和反轉(zhuǎn)體，藏文共有四十一個輔音字母和十三個元音字母。圖2給出了一個藏文字的各組成構(gòu)件，藏文字看起來雖然復(fù)雜，但每一個藏文字并不是隨意構(gòu)成的，它有一套嚴格的構(gòu)字規(guī)則和文法體系，違犯了構(gòu)字體系，該字就不能被視為藏文，既不能拼讀，也不會有實際意義。

圖2 藏文字的組成構(gòu)件

2.2 藏文編碼

由于藏文信息處理技術(shù)的起步較晚，在發(fā)展的前期還沒有形成統(tǒng)一的編碼，各個公司在開發(fā)藏文軟件時都使用自己開發(fā)的編碼系統(tǒng)[4]，這必然導(dǎo)致各個藏文軟件的不兼容，容易形成亂碼。1997年，國際標準化組織通過了藏文國際編碼標準，藏文有了一個統(tǒng)一的編碼標準體系。信息檢索系統(tǒng)在對檢索詞進行檢索之前，首先要從互聯(lián)網(wǎng)或本地磁盤系統(tǒng)抓取要被檢索的網(wǎng)頁或文檔，然后對文檔進行分析和建立索引，最后文檔才被檢索。在這個過程中，識別被檢索的網(wǎng)頁或文檔的編碼是一項非常重要的工作，只有識別正確，返回的檢索結(jié)果才不會形成亂碼。在本系統(tǒng)的開發(fā)測試期間，我們的網(wǎng)頁和文檔主要采用藏文的國際編碼標準，即Unicode編碼。當(dāng)然，我們也可以對具有不同編碼的藏文網(wǎng)頁或文檔進行統(tǒng)一編碼，然后再進行文檔的分析及索引，這個過程主要涉及到藏文的編碼及轉(zhuǎn)換[5]，從文獻[5]可以看出，通過合適的途徑，我們可以把目前不同的藏文編碼統(tǒng)一為國際編碼。

2.3 藏文分詞

藏文詞語之間是用分隔符來劃分的，類似英文中的空格，橫向上又和中文有一定的相似，藏文分詞是進行藏文信息處理的一項基本工作，文獻[6]提出了基于格助詞和接續(xù)特征的藏文自動分詞方案，該方案參考藏文詞語的特點和漢語在分詞方面已經(jīng)做出的一些成績。在本系統(tǒng)的設(shè)計中，藏文分詞主要考慮在以下幾個方面：

1）藏文檢索詞本身應(yīng)具有實際意義

在信息檢索系統(tǒng)中，用戶想要得到的是滿足需要的實際內(nèi)容，所以輸入的檢索詞也必具有實際意義，這樣的檢索詞在語意和構(gòu)成上應(yīng)該符合藏文的相關(guān)規(guī)范。對這樣的檢索詞進行分析、建立索引應(yīng)該能滿足檢索系統(tǒng)的要求。

2）藏文詞典是實現(xiàn)相關(guān)詞提示的一個很好參考模型

在信息檢索系統(tǒng)中，詞典是進行詞句分析的一個參考模型。藏文詞典本身就具有良好的藏文分詞功能，且能幫助用戶糾正檢索詞輸入中的文法錯誤，結(jié)合藏文詞典和檢索詞，可以更好地滿足藏文分詞需要。

3）藏文詞語的權(quán)重是實現(xiàn)相關(guān)詞提示排序功能的重要指標

詞語的權(quán)重是實現(xiàn)相關(guān)詞提示的一項重要指標。在信息檢索的過程中，大家都關(guān)心的詞可以賦予更高的權(quán)重。在藏文相關(guān)詞提示系統(tǒng)中，依據(jù)藏文詞語的權(quán)重進行排序，權(quán)重高的排在前面，以此類推。

3 藏文自動提示功能的實現(xiàn)及測試

3.1 藏文相關(guān)詞提示的實現(xiàn)

在藏文相關(guān)詞提示的具體實現(xiàn)中，限于提示詞的數(shù)目，相關(guān)詞的提取和排序就變得非常重要。設(shè)計合理的相關(guān)詞提取和排序可以使用戶得到更好的體驗。

1）藏文詞典排序算法

藏文詞典排序算法按照現(xiàn)有藏文詞典的排序方法，即所有藏文詞語按照藏文基字的先后順序分組排列，每組中各個詞語按第一個音節(jié)為獨體字、有后綴（后加字和再后加字）、有元音、有下加字、有上加字（逐步從簡單到復(fù)雜）的順序排列，對于具有元音的詞語也與前者相同，即從基字加元音、有后綴、有下加字、有上加字的順序排列[7][8]。排序的一種實現(xiàn)方法是：首先，把所有的藏文詞語按照基本輔音字母分類成四十一個組，并保持國際編碼標準中輔音字母的先后順序；然后，在同一個組內(nèi)，根據(jù)該字所具有的構(gòu)件元素及構(gòu)件元素之間的優(yōu)先級來排列藏文詞語；其次，每一個構(gòu)件元素內(nèi)部的所有字符要有序；最后，整體藏文的優(yōu)先級最大者先排[9][10]。根據(jù)文獻[7]，藏文詞條大約常用的是1.4萬余條，那么，怎樣從這1.4萬余條詞語中選取數(shù)量有限的相關(guān)提示詞，選取的這些提示詞是否與用戶搜索的信息有關(guān)聯(lián)，這是藏文相關(guān)提示詞設(shè)計時要考慮的?？紤]到從詞典抽取出的一系列相關(guān)詞本身和用戶輸入的檢索詞的相關(guān)度并不是很大，所以在本系統(tǒng)的設(shè)計中我們只用藏文詞典來進行糾錯和藏文分詞。

2）基于查詢?nèi)罩镜牟卣Z相關(guān)詞的實現(xiàn)方法

用戶通過信息檢索系統(tǒng)輸入檢索詞時，檢索系統(tǒng)會自動記錄用戶的查詢詞和點擊的相關(guān)文檔，記錄的文件稱為查詢?nèi)罩綶11]。通過查詢?nèi)罩?，可以清楚地分析出用戶使用頻率最高的藏文查詢詞。通過信息檢索中的聚類技術(shù)[1]，對查詢詞進行聚類，這樣就可以得到相關(guān)度較高的一系列藏文相關(guān)詞了。當(dāng)用戶輸入檢索詞時，系統(tǒng)根據(jù)用戶輸入的檢索詞的相關(guān)字母，選取其中以同樣字母開頭的一些權(quán)重較高的詞組，利用權(quán)重的大小，進行排序，最后通過檢索系統(tǒng)用戶界面，以下拉列表的方式，返回給用戶一組相關(guān)提示詞。其實現(xiàn)框圖如圖3所示。

圖3 藏文相關(guān)詞提示的實現(xiàn)框圖

3.2 測試結(jié)果

本系統(tǒng)使用了940篇藏文文檔，為了說明測試結(jié)果，只選擇了其中的五個藏文詞語用于相關(guān)詞提示，詞語及權(quán)重如表1所示，本系統(tǒng)的搜索引擎采用開源Lucene系統(tǒng)。通過表 1可以看出，我們選取的藏文詞語的第一個字母是一樣的，也就是說，本系統(tǒng)的藏文聚類是按照藏文的實際書寫順序，而不是其具體實際語意。

表 1 藏文在不同文檔中的權(quán)重

圖4 顯示了輸入檢索詞后具體的實現(xiàn)界面，從該界面可以看出，系統(tǒng)會自動列舉權(quán)重比較高的5個藏文相關(guān)詞并根據(jù)權(quán)重進行排序，且這些相關(guān)詞具有確切的語意。用戶可以從中選取檢索的關(guān)鍵詞或繼續(xù)檢索以滿足自己的需要。

圖 4 信息檢索系統(tǒng)中藏文相關(guān)詞提示的實現(xiàn)界面

4 結(jié)束語

藏語作為一個民族語言，其信息處理技術(shù)起步較晚，但已經(jīng)有了很大的發(fā)展。鑒于藏文文體的復(fù)雜性，藏文在信息檢索方面的研究與國際上還存在著一定的差距，但隨著網(wǎng)絡(luò)的發(fā)展，更多的研究人員將投入到藏文信息化的領(lǐng)域上來，藏文在信息檢索方面將會有更進一步的發(fā)展。該文相關(guān)研究成果獲得西藏自治區(qū)自然科學(xué)基金項目《西藏實施電子政務(wù)平臺網(wǎng)絡(luò)信息安全及應(yīng)急預(yù)案研究》資助。

參考文獻：

[1] Christopher D.Manning，Prabhakar Raghavan，Hinrich Schutze.信息檢索導(dǎo)論[M].王斌，譯.北京：人民郵電出版社，2010.

[2] 江獲，董穎紅.藏文信息處理屬性統(tǒng)計研究[J].中文信息學(xué)報，1995，9（2）：37-44.

[3] 才智杰，才讓卓瑪.基于語料庫的藏文字屬性分析系統(tǒng)設(shè)計[J].計算機工程，2011，37（22）：270-272.

[4] 劉匯丹，芮建武，吳健.藏文網(wǎng)頁的編碼識別與轉(zhuǎn)換[C].中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文.北京：清華大學(xué)出版社，2006：573-580.

[5] http：//tools.ietf.org/html/rfc2781

[6] 陳玉忠，李保利，俞士汶，等.基于格助詞和接續(xù)特征的藏文自動分詞方案[J].語言文字應(yīng)用，2003，1：75-82.

[7] 東噶洛桑赤來.東噶藏學(xué)大辭典[M].北京：中國藏學(xué)出版社出版，2002.

[8] 格桑居冕，格桑央京.實用藏文文法教程[M].成都：四川民族出版社，2004.

[9] 邊巴旺堆.基于ISO/IEC10646藏文編碼字符集標準的藏文排序算法設(shè)計與實現(xiàn)[D].拉薩：西藏大學(xué)，2009.

[10] 黃鶴鳴，達飛鵬.基于排序的現(xiàn)代藏文音節(jié)判定[J].計算機應(yīng)用，2009，29（7）：2004-2008.

[11] 崔航，文繼榮，李敏強.基于用戶日志的查詢擴展統(tǒng)計模型[J].軟件學(xué)報，2003，14（9）：1593-1599.

2.3 藏文分詞

1）藏文檢索詞本身應(yīng)具有實際意義

2）藏文詞典是實現(xiàn)相關(guān)詞提示的一個很好參考模型

3）藏文詞語的權(quán)重是實現(xiàn)相關(guān)詞提示排序功能的重要指標

3 藏文自動提示功能的實現(xiàn)及測試

3.1 藏文相關(guān)詞提示的實現(xiàn)

1）藏文詞典排序算法

藏文詞典排序算法按照現(xiàn)有藏文詞典的排序方法，即所有藏文詞語按照藏文基字的先后順序分組排列，每組中各個詞語按第一個音節(jié)為獨體字、有后綴（后加字和再后加字）、有元音、有下加字、有上加字（逐步從簡單到復(fù)雜）的順序排列，對于具有元音的詞語也與前者相同，即從基字加元音、有后綴、有下加字、有上加字的順序排列[7][8]。排序的一種實現(xiàn)方法是：首先，把所有的藏文詞語按照基本輔音字母分類成四十一個組，并保持國際編碼標準中輔音字母的先后順序；然后，在同一個組內(nèi)，根據(jù)該字所具有的構(gòu)件元素及構(gòu)件元素之間的優(yōu)先級來排列藏文詞語；其次，每一個構(gòu)件元素內(nèi)部的所有字符要有序；最后，整體藏文的優(yōu)先級最大者先排[9][10]。根據(jù)文獻[7]，藏文詞條大約常用的是1.4萬余條，那么，怎樣從這1.4萬余條詞語中選取數(shù)量有限的相關(guān)提示詞，選取的這些提示詞是否與用戶搜索的信息有關(guān)聯(lián)，這是藏文相關(guān)提示詞設(shè)計時要考慮的。考慮到從詞典抽取出的一系列相關(guān)詞本身和用戶輸入的檢索詞的相關(guān)度并不是很大，所以在本系統(tǒng)的設(shè)計中我們只用藏文詞典來進行糾錯和藏文分詞。

2）基于查詢?nèi)罩镜牟卣Z相關(guān)詞的實現(xiàn)方法

圖3 藏文相關(guān)詞提示的實現(xiàn)框圖

3.2 測試結(jié)果

表 1 藏文在不同文檔中的權(quán)重

圖 4 信息檢索系統(tǒng)中藏文相關(guān)詞提示的實現(xiàn)界面

4 結(jié)束語

參考文獻：

[1] Christopher D.Manning，Prabhakar Raghavan，Hinrich Schutze.信息檢索導(dǎo)論[M].王斌，譯.北京：人民郵電出版社，2010.

[2] 江獲，董穎紅.藏文信息處理屬性統(tǒng)計研究[J].中文信息學(xué)報，1995，9（2）：37-44.

[3] 才智杰，才讓卓瑪.基于語料庫的藏文字屬性分析系統(tǒng)設(shè)計[J].計算機工程，2011，37（22）：270-272.

[5] http：//tools.ietf.org/html/rfc2781

[6] 陳玉忠，李保利，俞士汶，等.基于格助詞和接續(xù)特征的藏文自動分詞方案[J].語言文字應(yīng)用，2003，1：75-82.

[7] 東噶洛桑赤來.東噶藏學(xué)大辭典[M].北京：中國藏學(xué)出版社出版，2002.

[8] 格桑居冕，格桑央京.實用藏文文法教程[M].成都：四川民族出版社，2004.

[9] 邊巴旺堆.基于ISO/IEC10646藏文編碼字符集標準的藏文排序算法設(shè)計與實現(xiàn)[D].拉薩：西藏大學(xué)，2009.

[10] 黃鶴鳴，達飛鵬.基于排序的現(xiàn)代藏文音節(jié)判定[J].計算機應(yīng)用，2009，29（7）：2004-2008.

[11] 崔航，文繼榮，李敏強.基于用戶日志的查詢擴展統(tǒng)計模型[J].軟件學(xué)報，2003，14（9）：1593-1599.

2.3 藏文分詞

1）藏文檢索詞本身應(yīng)具有實際意義

2）藏文詞典是實現(xiàn)相關(guān)詞提示的一個很好參考模型

3）藏文詞語的權(quán)重是實現(xiàn)相關(guān)詞提示排序功能的重要指標

3 藏文自動提示功能的實現(xiàn)及測試

3.1 藏文相關(guān)詞提示的實現(xiàn)

1）藏文詞典排序算法

2）基于查詢?nèi)罩镜牟卣Z相關(guān)詞的實現(xiàn)方法

圖3 藏文相關(guān)詞提示的實現(xiàn)框圖

3.2 測試結(jié)果

表 1 藏文在不同文檔中的權(quán)重

圖 4 信息檢索系統(tǒng)中藏文相關(guān)詞提示的實現(xiàn)界面

4 結(jié)束語

參考文獻：

[1] Christopher D.Manning，Prabhakar Raghavan，Hinrich Schutze.信息檢索導(dǎo)論[M].王斌，譯.北京：人民郵電出版社，2010.

[2] 江獲，董穎紅.藏文信息處理屬性統(tǒng)計研究[J].中文信息學(xué)報，1995，9（2）：37-44.

[3] 才智杰，才讓卓瑪.基于語料庫的藏文字屬性分析系統(tǒng)設(shè)計[J].計算機工程，2011，37（22）：270-272.

[5] http：//tools.ietf.org/html/rfc2781

[6] 陳玉忠，李保利，俞士汶，等.基于格助詞和接續(xù)特征的藏文自動分詞方案[J].語言文字應(yīng)用，2003，1：75-82.

[7] 東噶洛桑赤來.東噶藏學(xué)大辭典[M].北京：中國藏學(xué)出版社出版，2002.

[8] 格桑居冕，格桑央京.實用藏文文法教程[M].成都：四川民族出版社，2004.

[9] 邊巴旺堆.基于ISO/IEC10646藏文編碼字符集標準的藏文排序算法設(shè)計與實現(xiàn)[D].拉薩：西藏大學(xué)，2009.

[10] 黃鶴鳴，達飛鵬.基于排序的現(xiàn)代藏文音節(jié)判定[J].計算機應(yīng)用，2009，29（7）：2004-2008.

[11] 崔航，文繼榮，李敏強.基于用戶日志的查詢擴展統(tǒng)計模型[J].軟件學(xué)報，2003，14（9）：1593-1599.