王海林,張雅君
(山西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,太原 030006)
基于主題模型的短文本分類(lèi)研究
王海林,張雅君
(山西財(cái)經(jīng)大學(xué)信息管理學(xué)院,太原030006)
分本分類(lèi)作為文本挖掘的分支,得到了廣泛的關(guān)注和迅速的發(fā)展?;谥黝}模型,針對(duì)短文本分類(lèi)進(jìn)行研究,選取LDA和BTM主題模型和SVM、Bagging和AdaBoost分類(lèi)方法進(jìn)行短文本分類(lèi)實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。
主題模型;短文本分類(lèi);LDA;BTM
隨著信息技術(shù)的快速發(fā)展和網(wǎng)絡(luò)的廣泛使用,互聯(lián)網(wǎng)中產(chǎn)生的信息顯著增加。大量非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為網(wǎng)絡(luò)數(shù)據(jù)的主力軍,可以占到總數(shù)據(jù)量的90%[1],短文本更是在社交網(wǎng)站中隨處可見(jiàn)。主題模型作為特征選擇的一種方法,常用于文本分類(lèi)中。使用不同的分類(lèi)方法,對(duì)比LDA和BTM模型對(duì)于短文本特征選擇的效果。
2.1主題模型思想
主題模型是一種層次結(jié)構(gòu)的模型,用概率來(lái)表示各層之間的關(guān)系,常見(jiàn)的有 PLSA[2]、LDA[3]和 BTM[4]等,PLSA即潛在語(yǔ)義分析,是最早的主題模型,它使用條件概率描述單詞和潛在類(lèi)別間的關(guān)系,并使用最大期望的方法訓(xùn)練潛在類(lèi)別。
2.2 LDA模型
由于PLSA模型的不完備和容易出現(xiàn)過(guò)擬合等缺陷[4],Blei等人提出了LDA模型,用概率來(lái)表示文檔集合層、文檔層和詞語(yǔ)層之間的關(guān)系。
在LDA模型中:
(1)每篇文檔主題詞的個(gè)數(shù)N~Possion(ξ);
(2)文檔中先驗(yàn)概率θ~Dir(α);
(3)每篇文檔的第n個(gè)主題詞wn:
主題Zn~Multinomial(θ);
主題詞wn~Multinomial(wn|Zn,β)。
所以,LDA模型可以表示為:
其中P(φ|β),代表主題概率,P(w|φ)P(z|θ)代表主題詞概率,P(w|φ)P(z|θ)P(θ|φ)代表文檔概率。
參數(shù)估計(jì):
2.3 BTM模型
BTM是另一種三層貝葉斯結(jié)構(gòu)模型,與LDA不同的是它用“詞對(duì)”來(lái)代替詞,從而克服了短文本中詞少所帶來(lái)的困難。BTM和LDA均使用Gibbs抽樣方法進(jìn)行參數(shù)估計(jì)。LDA的Gibbs updating rules為:
BTM的Gibbs updating rules為:
BTM模型參數(shù)估計(jì):
3.1實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理
實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于SODA上海開(kāi)放數(shù)據(jù)創(chuàng)新應(yīng)用大賽公開(kāi)數(shù)據(jù),數(shù)據(jù)集名稱(chēng)為網(wǎng)格化管理數(shù)據(jù),該數(shù)據(jù)集用來(lái)統(tǒng)計(jì)城市居民對(duì)于市容市貌現(xiàn)象的反映,其中描述這個(gè)屬性是對(duì)反映內(nèi)容的簡(jiǎn)單敘述,平均字?jǐn)?shù)少于100,類(lèi)別是指反映現(xiàn)象所屬類(lèi)別。經(jīng)過(guò)對(duì)數(shù)據(jù)的篩選,最終有988條數(shù)據(jù),類(lèi)別為暴露垃圾、跨門(mén)營(yíng)業(yè)和占道無(wú)證經(jīng)營(yíng)。
3.2實(shí)驗(yàn)環(huán)境
分詞處理:中科院中文分詞系統(tǒng)ICTCLAS;
主題模型:Windows下的 JGibbs和 Ubuntu下的 BTM-master;
文本分類(lèi):Weka中的libsvm、Bagging和AdaBoost方法。
3.3實(shí)驗(yàn)及結(jié)果評(píng)價(jià)
選取 LDA和 BTM為主題模型,使用 libsvm、Bagging和 AdaBoost分類(lèi)方法,將它們兩兩組合,同樣的分類(lèi)方法設(shè)置相同的參數(shù),最終進(jìn)行6次實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。
以精確度 (Precision rate)、召回率 (Recall)和F值 (F-measure)為評(píng)價(jià)指標(biāo),BTM+libsvm最高,均為 0.967,LDA+ AdaBoost最低,分別為0.804、0.811和0.795。因此,對(duì)于短文本,BTM比LDA有更強(qiáng)的適用性,而對(duì)于分類(lèi),SVM更適合處理高維數(shù)據(jù)。
從實(shí)驗(yàn)結(jié)果可以看出,對(duì)于短文本的分類(lèi),使用BTM作為主題模型,SVM作為分類(lèi)方法,得到的效果最佳。當(dāng)然,由于數(shù)據(jù)集的局限性,實(shí)驗(yàn)結(jié)果具有一定的片面性,未來(lái)的工作可以進(jìn)一步選取多個(gè)實(shí)驗(yàn)數(shù)據(jù)集,以得到更普遍的結(jié)論。
主要參考文獻(xiàn)
[1]Limeng Cui,F(xiàn)an Meng,Yong Shi,etal.A Hierarchy Method Based on LDA and SVM for News Classification[C]//Proceedings of the 2014 IEEE International Conference on Data MiningWorkshop,2014:60-64.
[2]THofmann.Probabilistic L atent S emantic I ndexing[C]//Annual International SIGIRConference,1999.
[3]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research.2003(3):993-1022.
[4]董文.基于LDA和Word2Vec的推薦算法研究[D].北京:北京郵電大學(xué),2015.
10.3969/j.issn.1673-0194.2016.19.098
TP311
A
1673-0194(2016)19-0174-02
2016-08-25
王海林(1962-),男,山西大同人,山西財(cái)經(jīng)大學(xué)副教授,碩士研究生導(dǎo)師,主要研究方向:數(shù)據(jù)建模、大數(shù)據(jù)、分布式系統(tǒng)、數(shù)據(jù)可視化。