• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LDA模型和SVM的文本分類研究

      2013-04-29 00:44:03李小三雷康
      網(wǎng)友世界 2013年5期
      關(guān)鍵詞:文本分類

      李小三 雷康

      【摘 要】LDA是生成式概率模型,從理論上說,具有其他模型無可比擬的建模優(yōu)點(diǎn);SVM分類算法在文本分類上具有獨(dú)特的優(yōu)異性能,本文將前者良好的文本表示性能、降維效果與后者強(qiáng)大的分類能力結(jié)合起來。實(shí)驗(yàn)表明,該方法克服了傳統(tǒng)選擇方法帶來的分類性能受損問題,并且能夠在降低數(shù)據(jù)維度的條件下提高分類的正確率。

      【關(guān)鍵詞】LDA模型;文本分類;SVM算法;主題分析;Gibbs抽樣

      隱含狄利克雷分配(LDA)模型是近年來提出的一種表示文本主題能力的非監(jiān)督學(xué)習(xí)模型[1]。LDA對文檔建模,降低了計(jì)算的維度,簡化了問題的復(fù)雜性,同時(shí)也為模型的改進(jìn)提供了契機(jī)。每篇文檔是由若干個(gè)主題構(gòu)成,不同類別的文檔由概率各不相同的主題隨機(jī)混合構(gòu)成,同理,同一類別的文檔具有相似的主題概率分布,LDA是一個(gè)主題模型的例子,可以用圖的模型來表示[2]。本實(shí)驗(yàn)首先經(jīng)過一系列的文本預(yù)處理后,通過Gibbs抽樣生成文檔的LDA模型,然后結(jié)合分類性能出色的SVM算法,對降維后的文本數(shù)據(jù)進(jìn)行分類。

      1.LDA模型

      在文本分類中,分類方法的選擇與實(shí)現(xiàn)是分類系統(tǒng)的核心部分,如何選擇一個(gè)合適的分類模型是一個(gè)重要的問題[3]。目前的概率主題模型一般基于同樣的思想:文本是若干主題的隨機(jī)混合,不同的模型會進(jìn)一步做不同的統(tǒng)計(jì)假設(shè),以不同的方式獲取模型參數(shù)。

      1.1 模型概況

      LDA是一種概率主題模型[4],我們以P(z)代表主題z在一個(gè)特定文檔上的分布,P(w|z)代表主題z上單詞的概率分布。該模型將主題混合權(quán)重視為k維參數(shù)的潛在隨機(jī)變量,而非與訓(xùn)練數(shù)據(jù)直接聯(lián)系的個(gè)體參數(shù)集合,推理上采用Laplace近似、變分近似以及期望-擴(kuò)散[5]等方法獲取參數(shù)值。P(zi=j)表示在第j個(gè)主題抽取第i個(gè)單詞的概率。P(wi|zi=j)表示單詞wi在主題j下的概率。在一個(gè)文檔中單詞的分布概率如下:

      T是主題總數(shù)。為了簡化模型,以φ(j)=

      P(w|z=j)來表示主題j的多項(xiàng)式分布我們以θ(d)=P(z)來表示文檔d的主題多項(xiàng)式分布。在多項(xiàng)式分布p=(p1,…,pT)上的T維度的狄利克雷分布的被定義為:

      1.2 支持向量機(jī)算法

      支持向量機(jī)(Support Vector Machines,SVM)是二十世紀(jì)九十年代中期在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新型機(jī)器學(xué)習(xí)算法,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則訓(xùn)練學(xué)習(xí)機(jī)器[6]。

      2.文檔建模

      我們通過一系列詞索引wi和文檔di來表現(xiàn)一系列的文檔。我們寫這個(gè)條件概率分布為P(zi=j|z-i,wi,di,.),zi=j代表詞i分配給主題j,z-i代表其它所有詞的主題分配,α和β代表超參數(shù)。條件分布公式如下:

      和分別是W*T和D*T維的計(jì)數(shù)矩陣,表示詞w賦值給j的數(shù)目,包含了賦給文檔d中的一些詞的主題的數(shù)目,不包括當(dāng)前的實(shí)例i。

      2.1 Gibbs抽樣過程

      抽樣算法給了每一個(gè)詞的直接估計(jì),然而許多模型例子需要估計(jì)主題-詞分布φ和文檔-主題分布θ,這可以通過下面的計(jì)數(shù)矩陣獲得。

      2.2 LDA模型的矩陣表示法

      LDA模型可以用矩陣分解的方式表達(dá)出來,通過矩陣分解,我們可以構(gòu)造出LDA的概率模型。LDA模型的矩陣表示法如下:

      C代表文檔-詞組分布矩陣,φ代表主題-詞組矩陣,Θ代表文檔-主題模型,利用上面的矩陣模型,結(jié)合上面的公式,我們就可以構(gòu)造Gibbs抽樣的LDA概率主題模型。

      3.基于LDA模型的文本分類

      3.1 文本分類方法

      基于LDA模型的文本分類方法使用LDA作為語料庫及文本建模。主要包括預(yù)處理,模型選擇,語料庫建模,分類方法,效果評估5個(gè)部分。文檔數(shù)據(jù)如下表。

      3.2 試驗(yàn)結(jié)果分析

      中文語料庫經(jīng)過分詞,去除停用詞后,采用LDA模型對整個(gè)文檔進(jìn)行主題建模,=50/T,=0.01,文檔集T取50,迭代500次。每個(gè)文本表示為包含50個(gè)主題的主題集上的多項(xiàng)式分布,得到文檔集的隱含主題-文本矩陣,在該矩陣上構(gòu)造SVM分類器。得到的主題-文本矩陣如下:

      4.總結(jié)

      本文利用LDA為所給的語料庫建立模型,由于LDA是完全的生成型,所以理論上有其他模型無可比擬的建模優(yōu)點(diǎn)。利用本方法能夠識別包含一系列詞組的文檔的隱含結(jié)構(gòu),基于LDA模型的文本分類方法,采用Gibbs抽樣進(jìn)行參數(shù)推理和估計(jì),采用SVM分類算法,對文檔集合進(jìn)行分類獲得了較好的分類效果,體現(xiàn)了本方法的有效性和優(yōu)越性。下一步的工作將要嘗試一些方法來提高大規(guī)模主題建模的速度。

      參考文獻(xiàn):

      [1]Blei,David M.Ng,Andrew Y.Jordan,M.I.(January 2003).Latent Dirichlet allocation[J].Journal of Machine Learning Research,3,993-1022.

      [2]石晶,范猛,李萬龍.基于LDA模型的主題分析[J].自動(dòng)化學(xué)報(bào),2009,35(12):1586-1592.

      [3]張華平.中文信息處理技術(shù)發(fā)展簡史[EB/OL].http://www.nlp.org.cn,中國科學(xué)院計(jì)算技術(shù)研究所軟件實(shí)驗(yàn)室,2002.

      [4]Steyvers M,Griffiths T.Probabilistic topic models.Hand-book of Latent Semantic Analysis[M].New Jersey:Springer,2007.

      [5]Minka Thomas,Lafferty John.Expectation-propagation for the generative spect model[J].Proceedings of the Uncertainty in Artificial Intelligence.(UAI)Edmonton,Alberta,Canada,2002:352-359.

      [6]Chih-Chung Chang and Chih-Jen Lin.LIBSVM:a library for support vector machines[J].ACM Transationson Intelligent Systems and Technology,Vol2.USA,ACM:2011.

      作者簡介:

      李小三(1987-),男,河南武陟人,長安大學(xué)2011級信號與信息處理專業(yè)研究生,研究方向:信息檢索技術(shù)。

      雷康(1986—),男,陜西岐山人,長安大學(xué)2011級智能交通及信息系統(tǒng)工程專業(yè)研究生,研究方向:物聯(lián)網(wǎng)Zigbee技術(shù)。

      猜你喜歡
      文本分類
      基于樸素貝葉斯的Web文本分類及其應(yīng)用
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      基于貝葉斯分類器的中文文本分類
      基于蟻群智能算法的研究文本分類
      基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
      基于K—means算法的文本分類技術(shù)研究
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      不同情境下中文文本分類模型的表現(xiàn)及選擇
      基于內(nèi)容的英語錄音教材標(biāo)注研究與應(yīng)用
      多核SVM文本分類研究
      軟件(2015年5期)2015-08-22 08:02:45
      交城县| 静宁县| 临夏县| 慈利县| 华宁县| 弥勒县| 罗定市| 沅陵县| 靖宇县| 雅江县| 巴里| 印江| 海南省| 长阳| 延吉市| 宁安市| 深水埗区| 洪江市| 桂平市| 务川| 长武县| 鄂尔多斯市| 改则县| 唐海县| 苗栗市| 科技| 莎车县| 清河县| 大连市| 东辽县| 邓州市| 济阳县| 黄浦区| 法库县| 无极县| 藁城市| 乐至县| 杨浦区| 玛曲县| 鹤峰县| 盱眙县|