胡 龍 茂
(安徽財貿(mào)職業(yè)學(xué)院,安徽 合肥 230601)
?
中文文本分類技術(shù)比較研究
胡 龍 茂
(安徽財貿(mào)職業(yè)學(xué)院,安徽 合肥 230601)
摘要:文本分類中特征選擇、權(quán)重計算及分類算法三個階段中都存在一些經(jīng)典方法,在實(shí)際的中文文本分類任務(wù)中,如何從各階段不同方法的組合中找到一個好的組合成為值得研究的問題。比較研究中文文本分類中各階段經(jīng)典方法的不同組合對分類效果的影響結(jié)果表明:采用CHI特征選擇方法、TFIDF權(quán)重計算方法及SVM分類方法的組合為最佳組合。
關(guān)鍵詞:文本分類;特征選擇;權(quán)重計算;分類算法
文本分類是在給定分類體系的情況下,根據(jù)文本的內(nèi)容或?qū)傩詫⑵浞值筋A(yù)先定義的—個或多個類別。文本分類在自然語言處理與理解、信息檢索、內(nèi)容信息過濾等領(lǐng)域都有著廣泛的應(yīng)用。中文文本分類主要包括文本分詞、特征選擇、權(quán)重計算及使用分類算法進(jìn)行分類四個步驟。國內(nèi)外學(xué)者對特征選擇、權(quán)重計算及分類算法展開了大量研究,在這三個階段中都提出了不少經(jīng)典的方法,這些方法的提出有效地提升了文本分類性能。
由于在各階段有不同的方法可供選擇,在實(shí)際的中文文本分類任務(wù)中,如何從各階段不同方法的組合中找到一個好的組合成為值得研究的問題。文獻(xiàn)[1-2]針對特征選擇與分類算法的不同組合進(jìn)行了比較研究,文獻(xiàn)[3]研究了特征選擇和權(quán)重計算方法的不同組合對分類效果的影響,都獲得了一些提高分類效果的有益組合。
上述研究雖然對不同階段的方法組合進(jìn)行了有益嘗試,但都只局限在相鄰兩階段的組合中,未能解決文本分類全過程的方法選擇問題。本文進(jìn)一步將特征選擇、權(quán)重計算及分類算法作為一個整體進(jìn)行研究,對這三個步驟中經(jīng)典方法的不同組合進(jìn)行比較測試,找出對文本分類比較有效的組合。
1中文分類關(guān)鍵技術(shù)
1.1特征選擇
雖然在文本分詞階段中已利用去除停用詞的方法刪除了大量與分類無關(guān)的特征詞,但剩下的特征集仍然是個高維的特征空間,其中有很多特征詞并不能很好地反映類別信息,甚至?xí)`導(dǎo)分類結(jié)果[4]。因此,為提高分類精度和效率,就需要從這個特征集中挑選對分類貢獻(xiàn)大的特征子集。目前常用的特征選擇方法有信息增益方法(IG)、互信息方法(MI)、卡方檢驗(yàn)方法(CHI)、文檔頻率方法(DF)等[4]。Yang[5]針對文本分類問題,在分析和比較了上述方法后,得出IG和CHI方法分類效果相對較好的結(jié)論。為此,本文在特征選擇階段,選擇IG和CHI作為測試對象。
1.1.1 信息增益 (Information Gain, IG)
信息增益衡量的是某個特征詞的出現(xiàn)與否對判斷一個文檔是否屬于某個類所提供的信息量。其計算公式如下[6],
(1)
1.1.2 卡方檢驗(yàn) (Chi-square,CHI)
CHI統(tǒng)計方法衡量的是特征t和文檔類別c之間的相關(guān)程度,并假設(shè)t和c之間符合具有一階自由度的χ2分布,其計算公式如下[6],
(2)
其中,A表示包含特征t且屬于類別ci的文檔頻數(shù),B表示包含特征t但不屬于類別ci的文檔頻數(shù),C表示屬于類別ci但不包含特征t的文檔頻數(shù),D表示既不屬于類別ci也不包含特征t的文檔頻數(shù),N表示訓(xùn)練集中的文檔總數(shù)。
可以看出,對于給定的語料集和類別ci,N,A+C和B+D對同一類別文檔中的所有特征詞來說都是一樣的,所以上式可以簡化為
(3)
特征t對于某個類別ci的CHI值越高,表明它與該類之間的相關(guān)性越大,此時特征t所包含的與該類相關(guān)的鑒別信息就越多。對于多類別而言,特征t的CHI值一般取與所有類的最大值。
(4)
1.2權(quán)重計算
權(quán)重計算是指為特征空間的文本向量的每一維確定合適的數(shù)字,以表達(dá)對應(yīng)特征在文本中的重要程度。常用的權(quán)重計算方法有布爾權(quán)重、詞頻權(quán)重和TFIDF權(quán)重。布爾權(quán)重以特征是否在文本中出現(xiàn)進(jìn)行加權(quán),效果略差于較精密的權(quán)重。為此,本文在權(quán)重計算階段,使用詞頻權(quán)重和TFIDF作為測試對象。
1.2.1 詞頻權(quán)重
使用特征在文檔中出現(xiàn)的頻度TF(termfrequency)進(jìn)行加權(quán),其基本思想是:特征在文檔中出現(xiàn)的次數(shù)越多,它就越重要[7]。特征ti在文檔dj中的詞頻權(quán)重wij如下,
wij=t fij=特征ti在文檔dj中出現(xiàn)的次數(shù)
(5)
1.2.2TFIDF權(quán)重
TFIDF使用特征在文檔中出現(xiàn)的頻度TF和逆文檔頻率IDF(inversedocumentfrequency)進(jìn)行加權(quán),其基本思想是:一是特征ti在文檔dj中出現(xiàn)次數(shù)越多,越重要;二是文檔集中含有特征ti的文檔數(shù)越大,越不重要[7]。TFIDF權(quán)重函數(shù)如下,
(6)
其中,tfij表示特征ti在文檔dj中出現(xiàn)的次數(shù),idfi表示特征ti的逆文檔頻率,N表示訓(xùn)練集的總文檔數(shù),ni表示特征ti出現(xiàn)的文檔頻數(shù),l為試驗(yàn)確定的參數(shù),通常取0.01。
為了消除文本長度對特征權(quán)重的影響,需要對權(quán)重向量進(jìn)行歸一化處理。通常采用余弦歸一化,以TFIDF權(quán)重為例,歸一化后的權(quán)重公式為
(7)
1.3分類算法
目前常見的文本分類算法有貝葉斯算法、k-近鄰算法及支持向量機(jī)算法。
1.3.1 貝葉斯分類算法(Bayes)
貝葉斯分類基于貝葉斯定理,根據(jù)訓(xùn)練集將文檔類別的先驗(yàn)概率轉(zhuǎn)化為后驗(yàn)概率[8]。文檔dj屬于類別ck的概率:
(8)
貝葉斯分類的依賴條件是文本的特征詞之間相互獨(dú)立,盡管在實(shí)際應(yīng)用中往往不能滿足這個條件,但使用時卻常常得到令人滿意的文本分類效果[1]。由于在貝葉斯分類中只需計算特征在類別中出現(xiàn)的次數(shù),無需計算特征的文檔頻率,由此在測試組合中,貝葉斯分類只采用詞頻權(quán)重。
1.3.2k-近鄰分類算法(k-NearestNeighbour,KNN)
KNN是一種基于實(shí)例的分類算法,也叫懶惰學(xué)習(xí)系統(tǒng)。這種方法無需進(jìn)行學(xué)習(xí),分類時需將待分類文本與所有的訓(xùn)練樣本進(jìn)行比較,找出最近的k個鄰居,然后在這個k個鄰居中,按照投票方式來決定屬于哪一類鄰居從而確定類別,一般采用多數(shù)表決進(jìn)行投票。通常采用余弦向量距離計算相似度。分類時由于需要與訓(xùn)練集中所有樣本進(jìn)行比對,因此效率比較低。在分類性能上,KNN是最好的分類器之一[5]。
1.3.3 支持向量機(jī)分類算法(SVM)
支持向量機(jī)是基于統(tǒng)計學(xué)習(xí)理論建立的一種分類器。它基于結(jié)構(gòu)風(fēng)險最小化的原則,具有較好的泛化能力。SVM是從線性可分情況下的最優(yōu)分類面出發(fā),其基本思想可用圖1的二維情況說明。
圖中,圓圈和方框代表兩類樣本,H是分類面,而H1和H2是平行于H,且過離H距離最近的兩類樣本的直線,它們之間的距離叫做分類間隔(margin),所謂最優(yōu)分類面就是要求分類面不但能將兩類正確分開,而且使分類間隔最大。位于H1和H2上的樣本稱為支持向量,它們決定了最優(yōu)分類面,這也是支持向量機(jī)名字的來源,其它的向量對于分類面的決定無關(guān)。分類時,待分類樣本點(diǎn)只需與支持向量進(jìn)行運(yùn)算即可決定所屬類別,分類速度很快。
當(dāng)訓(xùn)練樣本不是線性可分時,可以采用核函數(shù)的方法將樣本空間映射到更高維的空間來實(shí)現(xiàn)線性可分。當(dāng)樣本不可分時,可以采用松弛變量法以得到近似可分的分類面。
支持向量機(jī)對于小樣本和高維數(shù)據(jù)的學(xué)習(xí)有良好的推廣能力,特別適合文本文類[9]。
2實(shí)驗(yàn)及結(jié)果分析
實(shí)驗(yàn)采用Python開發(fā)環(huán)境。分詞系統(tǒng)采用的是北京理工大學(xué)張華平博士開發(fā)的NLPIR漢語分詞系統(tǒng)(又名ICTCLAS2013),該系統(tǒng)支持詞性標(biāo)注、命名實(shí)體識別、用戶詞典、新詞發(fā)現(xiàn)與關(guān)鍵詞提取等功能。支持向量機(jī)采用的是臺灣大學(xué)林智仁教授等人開發(fā)的libsvm,由于線性核函數(shù)簡單快速,且有著不錯的分類效果[7],所以這里也采用線性核函數(shù),其他參數(shù)取默認(rèn)值。
2.1數(shù)據(jù)集
論文試驗(yàn)語料庫來自復(fù)旦大學(xué)中文語料庫,該語料庫包含20個類別的9 804篇文檔,其中文檔數(shù)最多的經(jīng)濟(jì)類達(dá)到1 601篇,最少的通信類僅27篇,屬于不平衡語料庫。為保證語料的平衡性,實(shí)驗(yàn)中選擇文檔數(shù)較多的藝術(shù)、航空、計算機(jī)、環(huán)境、農(nóng)業(yè)、經(jīng)濟(jì)、政治、體育8個類別共8 588篇文檔,并從中隨機(jī)抽取80%作為訓(xùn)練集,其余20%作為測試集。
2.2性能評價
文本分類中普遍使用的性能評估指標(biāo)有召回率R(recall)、準(zhǔn)確率P(precision)及F1測試值。
(9)
(10)
(11)
綜合評價分類器的性能有兩種:宏平均和微平均。宏平均是指對各類別的評價指標(biāo)求算術(shù)平均數(shù)。微平均是先建立一個全局列聯(lián)表,然后根據(jù)這個全局列聯(lián)表計算。
在文本分類中,微平均確率Micro_P能較好地反映分類的效果[10]。這里用它來比較不同組合的分類效果。
2.3實(shí)驗(yàn)結(jié)果
分別選取各階段的經(jīng)典方法,在特征選擇階段選取IG和CHI,在權(quán)重計算階段選取詞頻權(quán)重和TFIDF權(quán)重,在分類算法階段選取貝葉斯分類、KNN分類和SVM分類,如前所述,對于貝葉斯分類只采用詞頻權(quán)重,由此共有2*2*2+2*1*1=10種組合。對于每種組合,均三次隨機(jī)抽取80%的訓(xùn)練集和20%的測試集進(jìn)行實(shí)驗(yàn),結(jié)果取三次實(shí)驗(yàn)的平均值。
圖2表示特征選擇和權(quán)重計算的不同組合在KNN上的微平均確率Micro_P表現(xiàn),圖3表示特征選擇和權(quán)重計算的不同組合在SVM上的微平均確率Micro_P表現(xiàn),圖4表示特征選擇和權(quán)重計算的不同組合在貝葉斯分類上的微平均確率Micro_P表現(xiàn)。
從KNN中的Micro_P曲線可以看出:CHI+TFIDF的組合表現(xiàn)最優(yōu),IG+次優(yōu)但不穩(wěn)定。從SVM中的Micro_P曲線可以看出:CHI+TFIDF組合略優(yōu)。從貝葉斯中的Micro_P曲線可以看出:CHI+TF組合最優(yōu)。
圖2KNN中特征選擇和權(quán)重計算組合的表現(xiàn) 圖3SVM中特征選擇和權(quán)重計算組合的表現(xiàn)
圖4貝葉斯中特征選擇和權(quán)重計算組合的表現(xiàn) 圖5CHI+TFIDF+SVM及IG+TFIDF+SVM組合分類時間
將圖2-4綜合起來看:隨著特征維數(shù)的增加,分類效果逐步提高并在2 500維左右時達(dá)到峰值,隨后分類效果基本保持平穩(wěn),需要指出的是貝葉斯分類算法在維數(shù)比較低的時候就表現(xiàn)得很好。在特征選擇階段,KNN分類器和SVM分類器中當(dāng)特征數(shù)少于150時,IG和CHI的表現(xiàn)都很差,當(dāng)特征數(shù)超過150后,IG的性能迅速提升,而CHI的性能提升不大,隨著特征數(shù)繼續(xù)增加到大于500后,CHI性能迅速提升,此后一直表現(xiàn)略好于IG且更穩(wěn)定,和文獻(xiàn)[3]的實(shí)驗(yàn)結(jié)果是類似的;而在Bayes分類器中,CHI的性能一直高于IG。在權(quán)重計算階段TFIDF表現(xiàn)最好。在分類算法上,SVM明顯占優(yōu)。在三個階段中,可以看出,當(dāng)特征數(shù)達(dá)到一定值后,分類算法對分類性能起決定性作用。就三個階段技術(shù)的10個組合而言, 分類算法為SVM的4個組合優(yōu)勢明顯,其中CHI+TFIDF+SVM組合及IG+TFIDF+SVM組合又略占優(yōu)勢。
圖5顯示了CHI+TFIDF+SVM組合及IG+TFIDF+SVM組合對于測試集中所有文檔進(jìn)行分類的總耗費(fèi)時間,從圖中可以看出:分類時間相對于特征數(shù)呈直線上升, CHI+TFIDF+SVM組合分類速度明顯快于IG+TFIDF+SVM組合。
由此,綜合文本分類效果及分類速度,CHI+TFIDF+SVM組合為最佳組合。
2.4結(jié)果分析
特征維數(shù)與分類效果的關(guān)系。KNN和SVM分類算法是通過計算向量的距離來進(jìn)行分類的,特征維度太小時,一部分文本因不含有這些特征詞而表示為空 ,導(dǎo)致分類器無法識別 ,誤分幾率增大,因而在特征維數(shù)很小時,分類效果都很差。隨著特征維數(shù)的增加,文本向量中非零值逐漸增加,文本的區(qū)分度逐漸變好,分類效果隨之提升。貝葉斯算法是概率生成模型,通過計算文本的各特征在類中出現(xiàn)的概率進(jìn)行分類,即使是選取比較少的對分類貢獻(xiàn)度大的特征,也能取得不錯的分類效果。
不同特征選擇方法對分類速度的影響。比較IG的計算公式(1)及CHI的計算公式(3)(4)可以看出,CHI的計算量比IG小,所以CHI+TFIDF+SVM組合分類速度明顯快于IG+TFIDF+SVM組合。
3結(jié)束語
本文考察了中文文本分類中特征選擇、權(quán)重計算及分類算法三個階段中經(jīng)典方法組合的分類性能。CHI+TFIDF+SVM組合為最佳組合,并簡要分析了原因。在實(shí)驗(yàn)中我們采用的是平衡語料集,在下一步研究工作中,將對研究者們考慮到語料的不平衡性所提出的諸多改進(jìn)方法進(jìn)行組合測試與分析,以期獲得最佳的文本分類性能。
參考文獻(xiàn):
[1]唐慧豐,譚松波,程學(xué)旗,等. 基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J].中文信息學(xué)報,2007,21(6):88-94,108.
[2]路永和,李焰鋒. 多因素影響的特征選擇方法[J]. 現(xiàn)代圖書情報技術(shù), 2013(05):34-39.
[3]夏火松,劉建,朱慧毅,等. 中文情感分類挖掘預(yù)處理關(guān)鍵技術(shù)比較研究[J].情報雜志, 2011,30(9):160-163.
[4]楊凱峰,張毅坤,李燕,等. 基于文檔頻率的特征選擇方法[J].計算機(jī)工程, 2010,36(17):33-35,38.
[5]Yang Y, Pedersen J O. A comparative study on feature selection in text categorization[J].In: Fisher D H, (eds.). Proceedings of the 14th International Conference on Machine Learning (ICML ’97), Nashville, US: Morgan Kaufmann Publishers, San Francisco, US, 1997:412-420.
[6]代六玲,黃河燕,陳肇雄,等. 中文文本分類中特征抽取方法的比較研究[J]. 中文信息學(xué)報, 2004,18(1):26-32.
[7]劉靖陽,陸洋. 一種有指導(dǎo)的文本特征加權(quán)改進(jìn)算法[J]. 計算機(jī)工程, 2012,38(8):128-130.
[8]王峻. 一種基于屬性相關(guān)性度量的樸素貝葉斯分類模型[J]. 安慶師范學(xué)院學(xué)報(自然科學(xué)版),2007,13(02):14-16.
[9] Joachims T. Text categorization with support vector machines: learning with many relevant Features[C].In Proceedings of the 10th European Conference on Machine Learning, Chemnitz, DE, 1998:137-142 .
[10]邱云飛,王威,劉大有, 等. 一種詞頻與方差相結(jié)合的特征加權(quán)方法[J]. 計算機(jī)應(yīng)用研究, 2012,29(6):2132-2134.
A Comparative Study on Chinese Text Categorization Techniques
HU Long-mao
(Anhui Finance and Trade Vocational College, Hefei 230601, China)
Abstract:Since there are some classic methods in feature selection, weight calculation and classification algorithms in text categorization, therefore, how to find a good combination becomes a problem worthy of study in the actual Chinese text categorization task. This paper is a comparative study of different combination of classical methods among three steps in Chinese text categorization. It is found that text classification obtained high performance, while using CHI feature selection technique, TFIDF weight calculation technique and SVM classify technique in the test, is an effective combination method.
Key words:text categorization, feature selection, weight calculation, classifier algorithms
文章編號:1007-4260(2015)02-0049-05
中圖分類號:TP18
文獻(xiàn)標(biāo)識碼:A
作者簡介:胡龍茂,男,安徽太湖人,碩士,安徽財貿(mào)職業(yè)學(xué)院講師,主要研究方向?yàn)閿?shù)據(jù)庫應(yīng)用、數(shù)據(jù)挖掘等。
收稿日期:2014-09-03