賈宏云 群諾 蘇慧婧 次仁羅增 巴桑卓瑪
摘要 利用SVM(支持向量機(jī))技術(shù)對(duì)復(fù)雜繁瑣的漢文文本資源進(jìn)行快速分類(lèi)已經(jīng)相當(dāng)?shù)某墒欤湓诓匚奈谋痉诸?lèi)中的應(yīng)用還處于研究階段,因此實(shí)驗(yàn)?zāi)康脑谟跍y(cè)試該方法是否在藏文文本分類(lèi)中具有良好的性能。主要過(guò)程包括:文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類(lèi)性能對(duì)比,最后與Logis tic回歸分類(lèi)器進(jìn)行同等條件下的實(shí)驗(yàn)對(duì)比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類(lèi)中具有良好的分類(lèi)效果。
【關(guān)鍵詞】藏文文本分類(lèi) 支持向量機(jī)Logis tic回歸
1 引言
由于文本記錄著時(shí)代變遷的痕跡,文本的數(shù)量在歷史的長(zhǎng)河中不斷增加,因人們?cè)诓殚喓蛯W(xué)習(xí)的過(guò)程中對(duì)相關(guān)文本的尋找顯得十分麻煩,所以文本分類(lèi)的有效性對(duì)上述問(wèn)題的解決具有重要作用。同時(shí)伴隨著科學(xué)技術(shù)的發(fā)展,人們開(kāi)始利用計(jì)算機(jī)的高效性進(jìn)行文本自動(dòng)分類(lèi),因此對(duì)分類(lèi)數(shù)學(xué)模型的選擇變得更為重要。
目前,機(jī)器學(xué)習(xí)算法已成為主流的方法,尤其在中文文本分類(lèi)算法的研究上已經(jīng)相當(dāng)成熟,特別是SVM算法利用最小結(jié)構(gòu)風(fēng)險(xiǎn)的原理使得分類(lèi)性能更加優(yōu)異,在武漢理工大學(xué)熊浩勇[1]的碩士畢業(yè)論文中已經(jīng)詳細(xì)描述,雖然其具有對(duì)模型參數(shù)的設(shè)置相當(dāng)復(fù)雜并且耗費(fèi)時(shí)間長(zhǎng)等不足之處,但所獲取的模型參數(shù)十分精確。由于SVM的核函數(shù)很多,因此不同結(jié)構(gòu)的文本使用的核函數(shù)具有差異性,藏文文本也存在這種情況。因此實(shí)驗(yàn)?zāi)康脑谟跍y(cè)試該方法是否在藏文文本分類(lèi)中具有良好的性能。主要過(guò)程包括:文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類(lèi)性能對(duì)比,最后與Logistic回歸分類(lèi)器進(jìn)行同等條件下的實(shí)驗(yàn)對(duì)比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類(lèi)中具有良好的分類(lèi)效果。
2 SVM模型分類(lèi)原理
SVM是一種二分類(lèi)模型,但可以在多分類(lèi)中進(jìn)行多次二分類(lèi),它的基本模型定義在樣本特征數(shù)據(jù)空間上的間隔最大的線性分類(lèi)器,有效的解決樣本特征數(shù)據(jù)在低維空間中非線性(線性也是非線性的特殊情況)的情況下,通過(guò)核函數(shù)把樣本數(shù)據(jù)映射到高維空間中,利用經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理找到線性超平面實(shí)現(xiàn)樣本分類(lèi)。由于藏文文本特征的高稀疏性和低維空間中樣本的不可分類(lèi)性,所以本文選擇一定的懲罰參數(shù)C和核函數(shù)來(lái)構(gòu)造SVM分類(lèi)器。
2.1 SVM分類(lèi)器構(gòu)建算法
2.1.1 確定目標(biāo)函數(shù)
3 文本語(yǔ)料的收集和預(yù)處理
本次基于SVM模型的藏文文本分類(lèi)實(shí)現(xiàn)的語(yǔ)料來(lái)源于對(duì)中國(guó)西藏新聞網(wǎng)(藏文版),人民網(wǎng)(藏文版),西藏日?qǐng)?bào)(藏文版)等網(wǎng)站相關(guān)文章信息的收集而成共77000篇,主要以剔除文本數(shù)據(jù)較小的文本并適當(dāng)組合形成新語(yǔ)料的方式進(jìn)行預(yù)處理,語(yǔ)料數(shù)據(jù)數(shù)據(jù)如表1。
4 建立向量空間模型
向量空間模型是對(duì)文本信息的組合,通常以特征項(xiàng)的權(quán)重作為向量空間元素,向量空間模型對(duì)分類(lèi)模型的運(yùn)算較為便捷。
4.1 特征項(xiàng)定義
特征項(xiàng)是文本的屬性包含著文本的信息,在藏文文本中字是其屬性的一個(gè)元素,字與字之間主要由音節(jié)點(diǎn)來(lái)分離,字可分為一個(gè)字符、多個(gè)字符,多個(gè)音節(jié)點(diǎn)之間又有一定的關(guān)聯(lián),為了統(tǒng)計(jì)的方便和對(duì)模型的測(cè)試,本次試驗(yàn)選擇一個(gè)音節(jié)點(diǎn)里包含的藏字作為特征項(xiàng),并且假設(shè)每個(gè)音節(jié)點(diǎn)之間的藏字相互獨(dú)立。
4.2 特征項(xiàng)權(quán)重設(shè)置與選擇
特征項(xiàng)的權(quán)重設(shè)置方法很多,通常以該特征項(xiàng)在樣本中出現(xiàn)的頻度作為其特征權(quán)重,首先統(tǒng)計(jì)出上述類(lèi)別文本中各個(gè)字出現(xiàn)頻率fn,使藏字特征數(shù)據(jù)化成Xl向量,對(duì)特征項(xiàng)進(jìn)行選擇時(shí),可以選擇相對(duì)高頻字與相對(duì)低頻字作為待選特征集,并利用信息增益算法對(duì)待選特征集降維,從待選特征集中選擇部分信息增益相對(duì)大的特征項(xiàng)作為待提取特征集。最后利用歐氏距離算法對(duì)待提取特征集中的特征進(jìn)行聚類(lèi),使待提取特征集中的特征形成特征簇,并加權(quán)平均特征簇內(nèi)特征,最終得到文本類(lèi)別分類(lèi)特征項(xiàng)。本次基于SVM模型的藏文文本分類(lèi)實(shí)現(xiàn)共分7個(gè)類(lèi)別,共使用36個(gè)特征構(gòu)成分類(lèi)特征項(xiàng)向量x=(融w,島,i函,孰;,孛w,R黽,甲;“坪】,q,釃,o{,iF,B‘,氙_E,為,q,目1“,8訇q,i,1S,R自一,9_‘,“1·7‘,wx,15一,掣,南,a;,91幣i,ic,ac,&),數(shù)據(jù)化特征向量Xl=(fl,f2,...f35,86),Xl∈Xn,n為樣本數(shù)量,類(lèi)別向量集合Y=(教育類(lèi):1,人文類(lèi):2,政務(wù)類(lèi):3,時(shí)政類(lèi):4,經(jīng)濟(jì)類(lèi):5,法律類(lèi):6,民生類(lèi):7)標(biāo)記所有樣本成X= (Xl∈Xn,Yl∈Y),構(gòu)成整個(gè)完整的樣本向量空間模型數(shù)據(jù)集。
5 實(shí)驗(yàn)結(jié)果與評(píng)價(jià)
實(shí)驗(yàn)前需要把所有文本進(jìn)行向量空間模型化,形成樣本數(shù)據(jù)集,本次實(shí)驗(yàn)由三部分內(nèi)容組成,分別是分類(lèi)模型對(duì)訓(xùn)練集樣本數(shù)據(jù)進(jìn)行訓(xùn)練獲取模型參數(shù)、對(duì)測(cè)試樣本數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè)、對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。
5.1 模型訓(xùn)練與參數(shù)獲取
通常分類(lèi)模型對(duì)訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練是獲取該模型參數(shù)的主要途徑,訓(xùn)練樣本數(shù)據(jù)越多,對(duì)模型參數(shù)的獲取就越精確,對(duì)訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練有效性對(duì)后續(xù)測(cè)試結(jié)果有著直接的影響,訓(xùn)練樣本集如表2。
5.1.1 獲取核函數(shù)參數(shù)
實(shí)驗(yàn)中,把線性函數(shù)、多項(xiàng)式函數(shù)、RBF函數(shù)和SIGMOID函數(shù)作為模型的核函數(shù),通過(guò)對(duì)訓(xùn)練樣本集構(gòu)成的訓(xùn)練樣本數(shù)據(jù)集進(jìn)行多次訓(xùn)練和10折交叉驗(yàn)證法進(jìn)行評(píng)估,獲得核函數(shù)參數(shù)如下:
5.2 模型測(cè)試
5.2.1 SVM模型下不同核函數(shù)實(shí)驗(yàn)對(duì)比
模型測(cè)試是對(duì)模型訓(xùn)練學(xué)習(xí)性能的一種檢測(cè),模型從訓(xùn)練數(shù)據(jù)集中獲取到參數(shù)后,在其它參數(shù)相同的條件下,分別對(duì)懲罰系數(shù)C取不同的值,并在表3測(cè)試樣本集構(gòu)成的測(cè)試樣本數(shù)據(jù)集下進(jìn)行測(cè)試,表4、表5‘-記號(hào)符表示當(dāng)前值為零。
5.2.2 SVM與Logistic回歸模型測(cè)試結(jié)果對(duì)比
Logistic回歸模型在以前的文本分類(lèi)實(shí)驗(yàn)中,分類(lèi)效果較好,因此本次實(shí)驗(yàn)選擇Logistic回歸模型與SVM模型對(duì)藏文文本分類(lèi)性能進(jìn)行對(duì)比,其中實(shí)驗(yàn)的平臺(tái)、語(yǔ)料、文本特征項(xiàng)、特征項(xiàng)權(quán)重以及測(cè)試和訓(xùn)練數(shù)據(jù)集完全相同。
5.3 實(shí)驗(yàn)結(jié)果評(píng)價(jià)
(1)從上述表4與表5實(shí)驗(yàn)數(shù)據(jù)可以看出,當(dāng)核函數(shù)選擇LINEAR和POLY時(shí)比選擇RBF和SIGMOID的分類(lèi)效果好,并且選擇核函數(shù)LINEAR和POLY自身分類(lèi)效果較好。
(2)設(shè)定不同的懲罰參數(shù)C對(duì)分類(lèi)效果具有一定影響,LINEAR和POLY變化趨勢(shì)相似。
(3)由選擇的特征向量中的值比較大,使特征向量?jī)?nèi)積和差值相對(duì)很大,因此RBF和SIGMOID的分類(lèi)效果不好。
(4)從表6測(cè)試結(jié)果可以看出,當(dāng)SVM核函數(shù)選擇為L(zhǎng)INEAR和POLY并且在上述參數(shù)下,從整體參考值上看SVM的藏文本分類(lèi)效果好于Logistic回歸文本分類(lèi)效果。
6 總結(jié)
本文采用基于SVM模型的藏文文本分類(lèi)實(shí)現(xiàn)過(guò)程中,為了降低模型的復(fù)雜度,對(duì)藏文文本特征提取時(shí),忽略詞與詞之間聯(lián)系,因此假定詞與詞之間的互信息為零。實(shí)驗(yàn)驗(yàn)證了SVM模型對(duì)藏文文本具有良好的效果,因此后期會(huì)繼續(xù)研究藏文文本結(jié)構(gòu)形式,增大特征信息量,提高分類(lèi)的效果。
參考文獻(xiàn)
[1]熊浩勇,基于SVM的中文文本分類(lèi)算法研究與實(shí)現(xiàn)[D].武漢理工大學(xué),2008.
[2]李航,統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[3]崔建明,劉建明,廖周宇.基于SVM算法的文本分類(lèi)技術(shù)研究[J].計(jì)算機(jī)仿真,2013.
[4]高定國(guó),珠杰,藏文信息處理的原理與應(yīng)用[M].成都:西南交通大學(xué)出版社,2015.
[5]楊玉珍,劉培玉,朱振方,邱燁,應(yīng)用特征項(xiàng)分布信息的信息增益改進(jìn)方法研究[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2009.
[6]楊杰明.文本分類(lèi)中文本表示模型和特征選擇算法研究[D].吉林大學(xué),2013.