胥桂仙,向春丞,翁 彧,趙小兵,楊國勝
(1. 中央民族大學 信息工程學院,北京 100081; 2. 國家語言資源監(jiān)測與研究中心 少數(shù)民族語言分中心,北京 100081)
在一個多民族的國度,保護少數(shù)民族文化遺產是我們每個人的責任。自上世紀80年代開始,藏文走入了信息化時代。20多年來,我國的民族語言文字及現(xiàn)代科技工作者在藏文計算機信息處理方面做了大量的工作。才讓加等人對藏文語料進行分詞標注[1]并利用詞性特征建立分類語料庫[2],賈會強等人提出了基于規(guī)則的藏文文本分類方法[3]。藏文網頁文本分類不僅對于幫助人們快速、準確獲取所需信息及構建藏文語料庫具有積極的意義,而且對于推動和發(fā)展藏文信息檢索技術,保護少數(shù)民族語言文化也有重要作用。
文本分類的技術有很多。文獻[4]中設計了一種基于統(tǒng)計與基于規(guī)則相結合的混合分類器系統(tǒng),它需要一定規(guī)模的高質量語料庫作為訓練集。文獻[5]提出了一種基于統(tǒng)計的二元分詞文本分類方法,文獻[6]中利用粗糙集優(yōu)越的約簡理論對文本進行了分類,它們都需要借助分詞器對文本進行分詞。由于藏文訓練語料的收集需要大量人力、物力、財力,短期內不能完成,所以無法采用基于統(tǒng)計的文本分類算法,如:K近鄰法(KNN)、決策樹、支持向量機(SVM)[7]等經典分類方法。同時,基于規(guī)則的文本分類方法需要建設科學的、全面的藏文主題詞表,其工作量大,分類時人工干預的成分多。
為此,本文提出了一種簡單、快速且準確率理想的藏文網頁文本分類方法,該方法不需要事先對抽取的藏文網頁文本進行分詞等復雜操作,而是結合現(xiàn)有的網頁文本提取技術,利用正則表達式提取網頁日期、網頁欄目,并建立基于網頁欄目詞條的類別特征詞表來對藏文網頁文本進行分類。
我們構建了人文與社會科學類、自然科學類兩個大類,前者包括政治類、法律類、歷史類、社會類、經濟類、藝術類、文學類、軍事類、體育類、生活類、宗教類、文化宣傳類12個類別,后者包括數(shù)理類、生化類、環(huán)境類、農林類、醫(yī)藥衛(wèi)生類5個類別。類別命名參照了《國務院公文主題詞表》的第一層主題詞,類別的特征詞則來源于待分類網站的網頁欄目詞條。由于一個網站符合要求的欄目詞條是有限的,因此可以快速、準確地采集類別特征詞,建立類別特征詞表。例如有譯成中文后的藏文欄目詞組:“首頁—>專欄—>格爾薩傳”,那么僅可將詞條“格爾薩傳”加入預定義的“文學類”一類中。
為了實現(xiàn)類別特征詞表能被快速順序查找和動態(tài)擴充的功能,我們采用鏈表數(shù)組的方式來存儲類別特征詞表。定義用Tn來表示類別名稱,其中n表示類別個數(shù);tk表示其中的特征詞,其中k表示該類別中的第幾個特征詞。那么類別特征詞表的存儲結構如圖1所示。
圖1 類別特征詞表存儲結構圖
類別T1及其特征詞用一個鏈表來存儲,該類別擴充的特征詞加入鏈尾;n個類別鏈表由一個大小為n的數(shù)組管理。這樣建立和存儲的類別特征詞表,可以保證隨機順序匹配速度快,特征詞可以動態(tài)擴充,其個數(shù)及長度不限。
2.2.1 提取藏文網頁正文發(fā)表日期
提取藏文網頁正文發(fā)表日期以對該網頁文本命名,對后期分類語料的使用和處理很有意義,如我們可能會要求按類別和時間對藏文文本語料庫進行檢索。
藏文網頁文件的日期通常有如下兩種格式:
(1)
(2)
當然,某些網站的網頁日期信息不在
(1)
(2) \d{4}(.{10,13})\d{2}(.{5,8})\d{2}
上述提取日期的正則表達式可合并為:(\d{4}-\d{2}-\d{2})|(\d{4}(.{10,13}) \d{2}(.{5,8})\d{2})
2.2.2 提取藏文網頁文本內容
藏文網頁主題內容的抽取可以借鑒國內外研究較多的一些方法,如基于混合特征的網頁主題提取方法[8],依靠統(tǒng)計信息抽取網頁正文[9], 利用HTML與文本的密度比進行文本識別與抽取[10],利用DOM樹進行Web信息抽取等技術。本文利用了網頁分塊的信息提取方法[11],并結合正則表達式來抽取藏文網頁文本內容。
2.2.3 提取網頁欄目信息
對于含有欄目信息的藏文網頁,系統(tǒng)采用正則表達式提取,下面以中國藏族網通網站為例,如有網頁文檔片段:
用于提取欄目信息的正則表達式為:
(1) “”;
(2) “>(\W+)<”;
在提取時網頁時間、網頁正文文本及網頁欄目后,我們將網頁欄目按鏈接級數(shù)拆分為多級詞條?;跈谀康木W頁分類算法流程圖如圖2所示。
圖2 藏文網頁文本分類流程圖
獲取文本類別算法程序描述如下:
//將用“>>”連接的網頁欄目詞組進行拆分
eachColumn = fileColumn.split(">>");
//計算欄目詞條個數(shù)
columnLength = eachColumn.length();
//對詞條進行分級匹配
for i=0 to columnLength
//調用詞條在類別詞表中的匹配函數(shù)
resultCategory = match(eachColumn[i]);
if resultCategory == null
then
繼續(xù)匹配;
else 返回類別名稱;
我們將丟棄不能提取出日期、正文及欄目的網頁,并對能提取這些信息的網頁分為“欄目合法網頁”和“欄目非法網頁”兩類。其中前者定義為:欄目詞組中至少含有一個具有類別特征的詞條的網頁。欄目非法網頁即欄目不能給出類別信息。例如下面給出了一個“欄目非法網頁”的欄目詞組:
首頁 >>新聞 >>藏區(qū)新聞 >>西藏
類似這類欄目中不含具有類別特征的詞條,我們同樣作丟棄處理。
基于欄目的藏文網頁分類工具如圖3所示。
圖3 基于欄目的藏文網頁分類工具截圖
為了驗證該分類方法的有效性,我們采集了2010年的中國藏族網通的絕大部分網頁文件,文件格式為.htm,共1 842篇,作為該分類方法的實驗語料。
實驗結果統(tǒng)計如表1所示。(注:網頁數(shù)量為0的類別未給出)
分類結果統(tǒng)計表顯示該方法能成功分類1 842篇網頁文件中的623篇,絕大多數(shù)未能分類的藏文網頁均為“欄目非法網頁”。對于分類結果的準確率統(tǒng)計,我們采取了隨機采樣的統(tǒng)計方法,即在各實驗結果類別中隨機抽取一定百分比的文本進行人工驗證。統(tǒng)計結果表明,本文提出的藏文網頁文本分類方法能將“欄目合法網頁”完全正確地歸于預定義類別中,分類準確率可達97%。
表1 分類結果統(tǒng)計表
本文提出了一種基于欄目的藏文網頁自動分類方法。實驗表明,該方法能快速、準確地將大量藏文網頁文本進行自動分類。這將為今后的基于統(tǒng)計和基于規(guī)則的藏文文本分類、構建藏文語料庫提供高質量語料。
當然,該方法也有不足及需要進一步改進與優(yōu)化的地方,主要包括以下三個方面:
(1) 不同的藏文網站有不同的網頁欄目格式,制定統(tǒng)一的或者可擴充的欄目提取規(guī)則(集),才能保證該分類方法對其進行有效處理。
(2) 藏文網頁文本的正確提取直接關系到最終文本語料的質量。對于沒有欄目信息的藏文網頁,需要進一步研究分類方法。
(3) 類別特征詞表的存儲結構需要根據(jù)特征詞的數(shù)量作相應的優(yōu)化或變換,以實現(xiàn)欄目特征詞條的快速匹配,提高分類效率。
[1] 才讓加.藏語語料庫加工方法研究[J].計算機工程與應用,2011,47(6):138-139,146.
[2] 才讓加,吉太加.藏語語料庫的詞性分類方法研究[J]. 青海師范大學學報(哲學社會科學版),2005,(4):112-114.
[3] 賈會強,李永宏.藏文文本分類器的設計與實現(xiàn)[J].科技向導,2010,(4)下:30-31.
[4] 李渝勤,孫麗華.基于規(guī)則的自動分類在文本分類中的應用[J].中文信息學報,2004,18(4):9-14.
[5] 黃科,馬少平.基于統(tǒng)計分詞的中文網頁分類[J].中文信息學報,2002,16(6):25-31.
[6] 盧嬌麗,鄭家恒.基于粗糙集的文本分類方法研究[J].中文信息學報,2005,19(2):66-70.
[7] 許世明,武波,馬翠,等.一種基于預分類的高效SVM中文網頁分類器[J].計算機工程與應用,2010,46(1):125-128.
[8] 劉建,孫鵬,倪宏.面向分類的網頁主題特征提取[J].計算機應用研究,2010,27(9):3399-3402.
[9] 孫承杰,關毅.基于統(tǒng)計的網頁正文信息抽取方法的研究[J].中文信息學報,2004,18(5):17-22.
[10] 韓忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].計算機應用研究,2008,25(12): 3568-3571,3574.
[11] 黃玲,陳龍.基于網頁分塊的正文信息提取方法[J].計算機運用,2008,28:326-328.