基于LDA模型和SVM的文本分類研究

2013-04-29 00:44:03李小三雷康

網(wǎng)友世界 2013年5期

關(guān)鍵詞：文本分類

李小三雷康

【摘要】LDA是生成式概率模型，從理論上說，具有其他模型無可比擬的建模優(yōu)點(diǎn)；SVM分類算法在文本分類上具有獨(dú)特的優(yōu)異性能，本文將前者良好的文本表示性能、降維效果與后者強(qiáng)大的分類能力結(jié)合起來。實(shí)驗(yàn)表明，該方法克服了傳統(tǒng)選擇方法帶來的分類性能受損問題，并且能夠在降低數(shù)據(jù)維度的條件下提高分類的正確率。

【關(guān)鍵詞】LDA模型；文本分類；SVM算法；主題分析；Gibbs抽樣

隱含狄利克雷分配（LDA）模型是近年來提出的一種表示文本主題能力的非監(jiān)督學(xué)習(xí)模型[1]。LDA對文檔建模，降低了計(jì)算的維度，簡化了問題的復(fù)雜性，同時(shí)也為模型的改進(jìn)提供了契機(jī)。每篇文檔是由若干個(gè)主題構(gòu)成，不同類別的文檔由概率各不相同的主題隨機(jī)混合構(gòu)成，同理，同一類別的文檔具有相似的主題概率分布，LDA是一個(gè)主題模型的例子，可以用圖的模型來表示[2]。本實(shí)驗(yàn)首先經(jīng)過一系列的文本預(yù)處理后，通過Gibbs抽樣生成文檔的LDA模型，然后結(jié)合分類性能出色的SVM算法，對降維后的文本數(shù)據(jù)進(jìn)行分類。

1.LDA模型

在文本分類中，分類方法的選擇與實(shí)現(xiàn)是分類系統(tǒng)的核心部分，如何選擇一個(gè)合適的分類模型是一個(gè)重要的問題[3]。目前的概率主題模型一般基于同樣的思想：文本是若干主題的隨機(jī)混合，不同的模型會進(jìn)一步做不同的統(tǒng)計(jì)假設(shè)，以不同的方式獲取模型參數(shù)。

1.1 模型概況

LDA是一種概率主題模型[4]，我們以P（z）代表主題z在一個(gè)特定文檔上的分布，P（w|z）代表主題z上單詞的概率分布。該模型將主題混合權(quán)重視為k維參數(shù)的潛在隨機(jī)變量，而非與訓(xùn)練數(shù)據(jù)直接聯(lián)系的個(gè)體參數(shù)集合，推理上采用Laplace近似、變分近似以及期望-擴(kuò)散[5]等方法獲取參數(shù)值。P（zi=j）表示在第j個(gè)主題抽取第i個(gè)單詞的概率。P（wi|zi=j）表示單詞wi在主題j下的概率。在一個(gè)文檔中單詞的分布概率如下：

T是主題總數(shù)。為了簡化模型，以φ（j）=

P（w|z=j）來表示主題j的多項(xiàng)式分布我們以θ（d）=P（z）來表示文檔d的主題多項(xiàng)式分布。在多項(xiàng)式分布p=（p1，…，pT）上的T維度的狄利克雷分布的被定義為：

1.2 支持向量機(jī)算法

支持向量機(jī)（Support Vector Machines，SVM）是二十世紀(jì)九十年代中期在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新型機(jī)器學(xué)習(xí)算法，采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則訓(xùn)練學(xué)習(xí)機(jī)器[6]。

2.文檔建模

我們通過一系列詞索引wi和文檔di來表現(xiàn)一系列的文檔。我們寫這個(gè)條件概率分布為P（zi=j|z-i，wi，di，.），zi=j代表詞i分配給主題j，z-i代表其它所有詞的主題分配，α和β代表超參數(shù)。條件分布公式如下：

和分別是W*T和D*T維的計(jì)數(shù)矩陣，表示詞w賦值給j的數(shù)目，包含了賦給文檔d中的一些詞的主題的數(shù)目，不包括當(dāng)前的實(shí)例i。

2.1 Gibbs抽樣過程

抽樣算法給了每一個(gè)詞的直接估計(jì)，然而許多模型例子需要估計(jì)主題-詞分布φ和文檔-主題分布θ，這可以通過下面的計(jì)數(shù)矩陣獲得。

2.2 LDA模型的矩陣表示法

LDA模型可以用矩陣分解的方式表達(dá)出來，通過矩陣分解，我們可以構(gòu)造出LDA的概率模型。LDA模型的矩陣表示法如下：

C代表文檔-詞組分布矩陣，φ代表主題-詞組矩陣，Θ代表文檔-主題模型，利用上面的矩陣模型，結(jié)合上面的公式，我們就可以構(gòu)造Gibbs抽樣的LDA概率主題模型。

3.基于LDA模型的文本分類

3.1 文本分類方法

基于LDA模型的文本分類方法使用LDA作為語料庫及文本建模。主要包括預(yù)處理，模型選擇，語料庫建模，分類方法，效果評估5個(gè)部分。文檔數(shù)據(jù)如下表。

3.2 試驗(yàn)結(jié)果分析

中文語料庫經(jīng)過分詞，去除停用詞后，采用LDA模型對整個(gè)文檔進(jìn)行主題建模，=50/T，=0.01，文檔集T取50，迭代500次。每個(gè)文本表示為包含50個(gè)主題的主題集上的多項(xiàng)式分布，得到文檔集的隱含主題-文本矩陣，在該矩陣上構(gòu)造SVM分類器。得到的主題-文本矩陣如下：

4.總結(jié)

本文利用LDA為所給的語料庫建立模型，由于LDA是完全的生成型，所以理論上有其他模型無可比擬的建模優(yōu)點(diǎn)。利用本方法能夠識別包含一系列詞組的文檔的隱含結(jié)構(gòu)，基于LDA模型的文本分類方法，采用Gibbs抽樣進(jìn)行參數(shù)推理和估計(jì)，采用SVM分類算法，對文檔集合進(jìn)行分類獲得了較好的分類效果，體現(xiàn)了本方法的有效性和優(yōu)越性。下一步的工作將要嘗試一些方法來提高大規(guī)模主題建模的速度。

參考文獻(xiàn)：

[1]Blei，David M.Ng，Andrew Y.Jordan，M.I.（January 2003）.Latent Dirichlet allocation[J].Journal of Machine Learning Research，3，993-1022.

[2]石晶，范猛，李萬龍.基于LDA模型的主題分析[J].自動(dòng)化學(xué)報(bào)，2009，35（12）：1586-1592.

[3]張華平.中文信息處理技術(shù)發(fā)展簡史[EB/OL].http：//www.nlp.org.cn，中國科學(xué)院計(jì)算技術(shù)研究所軟件實(shí)驗(yàn)室，2002.

[4]Steyvers M，Griffiths T.Probabilistic topic models.Hand-book of Latent Semantic Analysis[M].New Jersey：Springer，2007.

[5]Minka Thomas，Lafferty John.Expectation-propagation for the generative spect model[J].Proceedings of the Uncertainty in Artificial Intelligence.（UAI）Edmonton，Alberta，Canada，2002：352-359.

[6]Chih-Chung Chang and Chih-Jen Lin.LIBSVM：a library for support vector machines[J].ACM Transationson Intelligent Systems and Technology，Vol2.USA，ACM：2011.

作者簡介：

李小三（1987-），男，河南武陟人，長安大學(xué)2011級信號與信息處理專業(yè)研究生，研究方向：信息檢索技術(shù)。

雷康（1986—），男，陜西岐山人，長安大學(xué)2011級智能交通及信息系統(tǒng)工程專業(yè)研究生，研究方向：物聯(lián)網(wǎng)Zigbee技術(shù)。