• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于LDA模型的新聞話題分類研究

    2014-07-28 00:40:43談成訪汪材印
    電腦知識與技術(shù) 2014年16期
    關(guān)鍵詞:主題分類

    談成訪 汪材印

    摘要: 針對部分網(wǎng)站中新聞話題沒有分類或者分類不清等問題, 將LDA模型應(yīng)用到新聞話題的分類中。首先對新聞數(shù)據(jù)集進(jìn)行LDA主題建模,根據(jù)貝葉斯標(biāo)準(zhǔn)方法選擇最佳主題數(shù),采用Gibbs抽樣間接計(jì)算出模型參數(shù),得到數(shù)據(jù)集的主題概率分布;然后根據(jù)JS距離計(jì)算文檔之間的語義相似度,得到相似度矩陣;最后利用增量文本聚類算法對新聞文檔聚類,將新聞話題分成若干個(gè)不同結(jié)構(gòu)的子話題。實(shí)驗(yàn)結(jié)果顯示表明該方法能有效地實(shí)現(xiàn)對新聞話題的劃分。

    關(guān)鍵詞: LDA;文本聚類;新聞話題;分類;主題

    中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)16-3795-03

    Abstract: The LDA model is applied to the classification of news topic on the website because of its no classification or unclear classification. Firstly, news dataset is modeled by LDA modeling, the optimal number of topic is chosen according to Bias standard method, and get the topic probability distribution of dataset by using Gibbs sampling to calculate the model parameters; and then similarity matrix is obtained based on the semantic similarity between documents by computing JS distance; finally, the incremental clustering algorithm is used to cluster news document, and the topic is divided into a number of different structure of the sub topic. The experimental results show that this method can realize the division of news topic effectively.

    Key words: Latent Dirichlet Allocation; Text Clustering; News Topic; Classification; Topic

    1 概述

    隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,很多門戶網(wǎng)站提供了新聞專題報(bào)道欄目,尤其是當(dāng)某一熱點(diǎn)事件產(chǎn)生時(shí),與該熱點(diǎn)事件相關(guān)聯(lián)的新聞話題通常以專欄形式集中報(bào)道發(fā)布,以便于人們及時(shí)了解事件的發(fā)展動態(tài)。然而,目前一些網(wǎng)站新聞專題欄目,缺少對新聞話題進(jìn)行進(jìn)一步的分類或者分類不夠清晰,從而影響了人們對頁面的瀏覽興趣。因此,如何對新聞話題具體清晰地進(jìn)行分類具有重要的研究意義。

    本文將LDA模型融入新聞話題分類研究中,利用JS距離計(jì)算文檔間的語義相似度,在此基礎(chǔ)上進(jìn)行文檔聚類,實(shí)現(xiàn)對新聞話題的進(jìn)一步劃分。

    2 LDA模型

    LDA是Blei等[1]提出的一種統(tǒng)計(jì)主題模型,包含詞、主題和文檔三層結(jié)構(gòu)。其主要思想是文檔是由若干主題混合而成,每個(gè)主題又由一系列的詞匯混合而成[2]。 模型的建立如圖1所示。

    其中,[α]代表整個(gè)文檔集上主題的Dirichlet先驗(yàn)分布,[β]代表所有主題上詞語的Dirichlet先驗(yàn)分布,[N]代表詞語個(gè)數(shù),[M]代表整個(gè)文檔集中的文檔數(shù)量,[T]代表主題個(gè)數(shù)。

    假設(shè)文檔集[D]中有[M]個(gè)文檔,表示為[D={d1,d2,...,dm}],其中任意一個(gè)文檔[d]包含[N]個(gè)詞語,表示為[d={w1,w2,...,wn}],因此,一個(gè)文檔中詞語[wi]的概率分布計(jì)算公式如下:

    [p(wi)=j=1Tp(wi|zi=j)p(zi=j)] (1)

    其中,[zi]是潛在變量,[p(wi|zi=j)]表示詞語[wi]屬于第[j]個(gè)主題的概率,[p(zi=j)]表示文檔[d]中屬于第[j]個(gè)主題的概率。

    3 基于LDA模型的新聞話題分類方法

    基于LDA模型的新聞話題分類過程如圖2所示。

    3.1 文本預(yù)處理

    預(yù)處理在中文文本分類主要是指中文分詞、詞性標(biāo)注、去除停用詞等。首先對新聞文檔集進(jìn)行中文分詞,然后剔除虛詞、停用詞等與主題無關(guān)或者關(guān)聯(lián)非常小的詞,僅僅保留對主題影響較大的名詞和動詞。

    3.2 特征選擇和文本表示

    本文采用在中文分類中效果較好的MI方法抽取特征[3],單詞[wi]和類別[c]之間的互信息定義為:

    [MI(wi,c)=logp(wi?c)p(wi)p(c)] (2)

    其中,[p(wi?c)]表示表示[wi]和[c]同時(shí)出現(xiàn)的概率,[p(wi)]表示[wi]出現(xiàn)的概率,[p(c)]

    則表示[c]出現(xiàn)的概率。

    文本表示采用目前應(yīng)用較廣泛的向量空間模型(VSM) 來表示文本。

    [Mmi=(w1,w2,...,wn)] (3)

    其中[wi]表示第[i]個(gè)特征項(xiàng)的權(quán)重,根據(jù)著名的TF-IDF 公式計(jì)算權(quán)重:

    [Wi(d)=tfi(d)*log(N/ni+0.1)i=1n(tfi(d))2×log2(N/ni+0.1)] (4)

    其中, [tfi(d)] 表示第[i]個(gè)特征項(xiàng)在文檔[d]中的詞頻, [N]為訓(xùn)練文本的總數(shù), [ni]為訓(xùn)練文本集中出現(xiàn)[i]的文本數(shù), 分母為歸一化因子。endprint

    3.3 LDA主題建模

    3.3.1 模型選擇

    由于主題個(gè)數(shù)影響LDA模型對文檔集的擬合性能,因此需要確定主題個(gè)數(shù)的最佳值。該文采用貝葉斯統(tǒng)計(jì)中的標(biāo)準(zhǔn)方法來確定最佳主題個(gè)數(shù)。 在LDA 模型中,[α]和[β]分別是[θ]和[φ] 上的Dirichlet 先驗(yàn)分布,通過對[θ]和[φ]積分可以求取聯(lián)合概率[p(w,z)]的值,計(jì)算如下。

    根據(jù)公式(6)計(jì)算出使用不同主題數(shù)T對數(shù)據(jù)集建模的[p(w|T)]值。由[p(w|T)]值確定最佳主題數(shù)T。

    3.3.2 參數(shù)估計(jì)

    根據(jù)MCMC中的Gibbs抽樣算法進(jìn)行參數(shù)推理,通過對變量[z]進(jìn)行Gibbs抽樣間接計(jì)算出文本-主題概率分布和主題-詞概率分布,即[θ]和[?][4],計(jì)算公式如下:

    [θd=nmj+αnd?+Tα] (7)

    [?w=nwj+βn?j+Wβ] (8)

    其中,[nmj]表示是文檔[dm]中分配給主題[j]的詞數(shù),[nd?]表示文檔[dm]中所有分配了主題的詞數(shù),[nwj]表示詞匯[w]分配給主題[j]的頻數(shù),[n?j]表示分配給主題[j]的所有詞匯數(shù)。

    3.4 文本相似度計(jì)算

    通過LDA模型的構(gòu)建可以得到文本-主題概率分布和主題-詞概率分布,因此,計(jì)算兩個(gè)文檔的相似度可通過計(jì)算與之對應(yīng)的主題概率分布來實(shí)現(xiàn)。由于主題是詞向量的混合分布,因此,該文使用JS(Jensen-Shannon)距離來計(jì)算主題概率向量[p=(p1,p2,...,pk)]到[q=(q1,q2,...,qk)]的距離,具體的計(jì)算公式如下:

    [Djs(p,q)=12[DKL(p,p+q2)+DKL(q,p+q2)]] (9)

    其中[DKL(p,q)=j=1Tpjlnpjqj],p,q為主題概率分布。

    3.5 文本聚類

    增量文本聚類是話題檢測領(lǐng)域中常用的一種算法,該文采用該算法對新聞話題文檔集進(jìn)行主題聚類,其算法思想如下[5]:

    1) 預(yù)設(shè)一個(gè)聚類閾值[k];

    2) 計(jì)算每個(gè)文檔[di]與已識別子話題簇[Cjt]之間的相似度并找到最相似子話題簇,[Sim(di,CMt)=maxSim(di,Cjt)];

    3) 若[Sim(di,CMt)>k](預(yù)設(shè)的聚類閾值),則將該文檔[di]加入子話題簇[CMt]中;否則,以該微博文檔[di]作為種子話題創(chuàng)建新的子話題。

    4 實(shí)驗(yàn)與分析

    4.1 實(shí)驗(yàn)數(shù)據(jù)

    本文實(shí)驗(yàn)數(shù)據(jù)利用網(wǎng)頁爬蟲從新浪新聞爬取“馬航失聯(lián)航班”專題下的相關(guān)報(bào)道模塊,時(shí)間范圍從2014年3月8日到2014年3月15日的新聞報(bào)道共6,321篇。經(jīng)過分詞、剔除無用詞等預(yù)處理后,從中選取3800篇作為實(shí)驗(yàn)數(shù)據(jù)集。

    4.2 評估方法

    實(shí)驗(yàn)評估方法選擇傳統(tǒng)的評估標(biāo)準(zhǔn):正確率p、召回率r、F1值、宏平均正確率Macro-p、宏平均召回率Macro-r、宏平均率Macro-F1值。計(jì)算公式如下[6]:

    其中,[a]表示正確分到一個(gè)類別的文本數(shù)量,[b]表示分類結(jié)果中分類錯(cuò)誤的文本數(shù)量,[c]表示應(yīng)該被分到一個(gè)類別但沒有正確分類的文本數(shù)量,[k]表示文本的類別個(gè)數(shù)。

    4.3 實(shí)驗(yàn)結(jié)果分析

    首先使用前面介紹的最佳主題個(gè)數(shù)確定方法,根據(jù)[α=50/T],[β=0.01][7] (此為經(jīng)驗(yàn)值,這種取值在本實(shí)驗(yàn)數(shù)據(jù)集上有較好的效果)。[T]在各種不同的取值下分別運(yùn)行Gibbs抽樣算法,分析[logP(w|T)]的變化。實(shí)驗(yàn)結(jié)果如圖3所示。

    由圖3可知,當(dāng)[T]= 60 時(shí),[logP(w|T)]最小,此時(shí)模型對于文檔集的擬合性能最佳。因此,在實(shí)驗(yàn)中選擇主題個(gè)數(shù)[T]為60。

    本文將文本表示選擇VSM,采用MI提取特征詞,然后使用增量文本聚類算法分類,作為對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

    5 結(jié)論

    本文將LDA模型應(yīng)用到新聞話題分類中,利用LDA模型進(jìn)行主題建模和文本語義相似度計(jì)算,并使用增量文本聚類算法實(shí)現(xiàn)對新聞話題的分類,實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的向量空間模型相比,通過LDA建模,降低了數(shù)據(jù)稀疏性和特征空間高維性等問題,提高了分類的正確率。在今后的工作中,將進(jìn)一步研究提高LDA模型的建模和推斷時(shí)間,并將其拓展到更多的領(lǐng)域,如信息檢索、微博話題發(fā)現(xiàn)、情感分析等。

    參考文獻(xiàn):

    [1] Blei D M, Lafferty J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.

    [2] 談成訪,汪材印,張亞康. 基于LDA的中文微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 宿州學(xué)院學(xué)學(xué)報(bào),2014(4): 71-73.

    [3] Lv Nan,Luo Jun-yong,Liu Yao,et al.Topic three layer model based topic evolution analysis algorithm [J]. Computer Engineering, 2009, 35(23): 71-75.

    [4] QUAN X J, LIU G, et al.Short text similarity based on probabilistic topics [J]. Knowledge Information System, 2010, 25(3):473-491.

    [5] 趙愛華,劉培玉,鄭燕. 基于LDA的新聞話題子話題劃分方法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2013, 34(4):732-735.

    [6] Chengfang TAN. Short Text Classification Based on LDA and SVM [J]. International Journal of Applied Mathematics and Statistics (IJAMS), 2013, 51(22):205-214.

    [7] 姚全珠,宋志理,彭程. 基于LDA的文本分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,47(13):150-153.endprint

    3.3 LDA主題建模

    3.3.1 模型選擇

    由于主題個(gè)數(shù)影響LDA模型對文檔集的擬合性能,因此需要確定主題個(gè)數(shù)的最佳值。該文采用貝葉斯統(tǒng)計(jì)中的標(biāo)準(zhǔn)方法來確定最佳主題個(gè)數(shù)。 在LDA 模型中,[α]和[β]分別是[θ]和[φ] 上的Dirichlet 先驗(yàn)分布,通過對[θ]和[φ]積分可以求取聯(lián)合概率[p(w,z)]的值,計(jì)算如下。

    根據(jù)公式(6)計(jì)算出使用不同主題數(shù)T對數(shù)據(jù)集建模的[p(w|T)]值。由[p(w|T)]值確定最佳主題數(shù)T。

    3.3.2 參數(shù)估計(jì)

    根據(jù)MCMC中的Gibbs抽樣算法進(jìn)行參數(shù)推理,通過對變量[z]進(jìn)行Gibbs抽樣間接計(jì)算出文本-主題概率分布和主題-詞概率分布,即[θ]和[?][4],計(jì)算公式如下:

    [θd=nmj+αnd?+Tα] (7)

    [?w=nwj+βn?j+Wβ] (8)

    其中,[nmj]表示是文檔[dm]中分配給主題[j]的詞數(shù),[nd?]表示文檔[dm]中所有分配了主題的詞數(shù),[nwj]表示詞匯[w]分配給主題[j]的頻數(shù),[n?j]表示分配給主題[j]的所有詞匯數(shù)。

    3.4 文本相似度計(jì)算

    通過LDA模型的構(gòu)建可以得到文本-主題概率分布和主題-詞概率分布,因此,計(jì)算兩個(gè)文檔的相似度可通過計(jì)算與之對應(yīng)的主題概率分布來實(shí)現(xiàn)。由于主題是詞向量的混合分布,因此,該文使用JS(Jensen-Shannon)距離來計(jì)算主題概率向量[p=(p1,p2,...,pk)]到[q=(q1,q2,...,qk)]的距離,具體的計(jì)算公式如下:

    [Djs(p,q)=12[DKL(p,p+q2)+DKL(q,p+q2)]] (9)

    其中[DKL(p,q)=j=1Tpjlnpjqj],p,q為主題概率分布。

    3.5 文本聚類

    增量文本聚類是話題檢測領(lǐng)域中常用的一種算法,該文采用該算法對新聞話題文檔集進(jìn)行主題聚類,其算法思想如下[5]:

    1) 預(yù)設(shè)一個(gè)聚類閾值[k];

    2) 計(jì)算每個(gè)文檔[di]與已識別子話題簇[Cjt]之間的相似度并找到最相似子話題簇,[Sim(di,CMt)=maxSim(di,Cjt)];

    3) 若[Sim(di,CMt)>k](預(yù)設(shè)的聚類閾值),則將該文檔[di]加入子話題簇[CMt]中;否則,以該微博文檔[di]作為種子話題創(chuàng)建新的子話題。

    4 實(shí)驗(yàn)與分析

    4.1 實(shí)驗(yàn)數(shù)據(jù)

    本文實(shí)驗(yàn)數(shù)據(jù)利用網(wǎng)頁爬蟲從新浪新聞爬取“馬航失聯(lián)航班”專題下的相關(guān)報(bào)道模塊,時(shí)間范圍從2014年3月8日到2014年3月15日的新聞報(bào)道共6,321篇。經(jīng)過分詞、剔除無用詞等預(yù)處理后,從中選取3800篇作為實(shí)驗(yàn)數(shù)據(jù)集。

    4.2 評估方法

    實(shí)驗(yàn)評估方法選擇傳統(tǒng)的評估標(biāo)準(zhǔn):正確率p、召回率r、F1值、宏平均正確率Macro-p、宏平均召回率Macro-r、宏平均率Macro-F1值。計(jì)算公式如下[6]:

    其中,[a]表示正確分到一個(gè)類別的文本數(shù)量,[b]表示分類結(jié)果中分類錯(cuò)誤的文本數(shù)量,[c]表示應(yīng)該被分到一個(gè)類別但沒有正確分類的文本數(shù)量,[k]表示文本的類別個(gè)數(shù)。

    4.3 實(shí)驗(yàn)結(jié)果分析

    首先使用前面介紹的最佳主題個(gè)數(shù)確定方法,根據(jù)[α=50/T],[β=0.01][7] (此為經(jīng)驗(yàn)值,這種取值在本實(shí)驗(yàn)數(shù)據(jù)集上有較好的效果)。[T]在各種不同的取值下分別運(yùn)行Gibbs抽樣算法,分析[logP(w|T)]的變化。實(shí)驗(yàn)結(jié)果如圖3所示。

    由圖3可知,當(dāng)[T]= 60 時(shí),[logP(w|T)]最小,此時(shí)模型對于文檔集的擬合性能最佳。因此,在實(shí)驗(yàn)中選擇主題個(gè)數(shù)[T]為60。

    本文將文本表示選擇VSM,采用MI提取特征詞,然后使用增量文本聚類算法分類,作為對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

    5 結(jié)論

    本文將LDA模型應(yīng)用到新聞話題分類中,利用LDA模型進(jìn)行主題建模和文本語義相似度計(jì)算,并使用增量文本聚類算法實(shí)現(xiàn)對新聞話題的分類,實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的向量空間模型相比,通過LDA建模,降低了數(shù)據(jù)稀疏性和特征空間高維性等問題,提高了分類的正確率。在今后的工作中,將進(jìn)一步研究提高LDA模型的建模和推斷時(shí)間,并將其拓展到更多的領(lǐng)域,如信息檢索、微博話題發(fā)現(xiàn)、情感分析等。

    參考文獻(xiàn):

    [1] Blei D M, Lafferty J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.

    [2] 談成訪,汪材印,張亞康. 基于LDA的中文微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 宿州學(xué)院學(xué)學(xué)報(bào),2014(4): 71-73.

    [3] Lv Nan,Luo Jun-yong,Liu Yao,et al.Topic three layer model based topic evolution analysis algorithm [J]. Computer Engineering, 2009, 35(23): 71-75.

    [4] QUAN X J, LIU G, et al.Short text similarity based on probabilistic topics [J]. Knowledge Information System, 2010, 25(3):473-491.

    [5] 趙愛華,劉培玉,鄭燕. 基于LDA的新聞話題子話題劃分方法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2013, 34(4):732-735.

    [6] Chengfang TAN. Short Text Classification Based on LDA and SVM [J]. International Journal of Applied Mathematics and Statistics (IJAMS), 2013, 51(22):205-214.

    [7] 姚全珠,宋志理,彭程. 基于LDA的文本分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,47(13):150-153.endprint

    3.3 LDA主題建模

    3.3.1 模型選擇

    由于主題個(gè)數(shù)影響LDA模型對文檔集的擬合性能,因此需要確定主題個(gè)數(shù)的最佳值。該文采用貝葉斯統(tǒng)計(jì)中的標(biāo)準(zhǔn)方法來確定最佳主題個(gè)數(shù)。 在LDA 模型中,[α]和[β]分別是[θ]和[φ] 上的Dirichlet 先驗(yàn)分布,通過對[θ]和[φ]積分可以求取聯(lián)合概率[p(w,z)]的值,計(jì)算如下。

    根據(jù)公式(6)計(jì)算出使用不同主題數(shù)T對數(shù)據(jù)集建模的[p(w|T)]值。由[p(w|T)]值確定最佳主題數(shù)T。

    3.3.2 參數(shù)估計(jì)

    根據(jù)MCMC中的Gibbs抽樣算法進(jìn)行參數(shù)推理,通過對變量[z]進(jìn)行Gibbs抽樣間接計(jì)算出文本-主題概率分布和主題-詞概率分布,即[θ]和[?][4],計(jì)算公式如下:

    [θd=nmj+αnd?+Tα] (7)

    [?w=nwj+βn?j+Wβ] (8)

    其中,[nmj]表示是文檔[dm]中分配給主題[j]的詞數(shù),[nd?]表示文檔[dm]中所有分配了主題的詞數(shù),[nwj]表示詞匯[w]分配給主題[j]的頻數(shù),[n?j]表示分配給主題[j]的所有詞匯數(shù)。

    3.4 文本相似度計(jì)算

    通過LDA模型的構(gòu)建可以得到文本-主題概率分布和主題-詞概率分布,因此,計(jì)算兩個(gè)文檔的相似度可通過計(jì)算與之對應(yīng)的主題概率分布來實(shí)現(xiàn)。由于主題是詞向量的混合分布,因此,該文使用JS(Jensen-Shannon)距離來計(jì)算主題概率向量[p=(p1,p2,...,pk)]到[q=(q1,q2,...,qk)]的距離,具體的計(jì)算公式如下:

    [Djs(p,q)=12[DKL(p,p+q2)+DKL(q,p+q2)]] (9)

    其中[DKL(p,q)=j=1Tpjlnpjqj],p,q為主題概率分布。

    3.5 文本聚類

    增量文本聚類是話題檢測領(lǐng)域中常用的一種算法,該文采用該算法對新聞話題文檔集進(jìn)行主題聚類,其算法思想如下[5]:

    1) 預(yù)設(shè)一個(gè)聚類閾值[k];

    2) 計(jì)算每個(gè)文檔[di]與已識別子話題簇[Cjt]之間的相似度并找到最相似子話題簇,[Sim(di,CMt)=maxSim(di,Cjt)];

    3) 若[Sim(di,CMt)>k](預(yù)設(shè)的聚類閾值),則將該文檔[di]加入子話題簇[CMt]中;否則,以該微博文檔[di]作為種子話題創(chuàng)建新的子話題。

    4 實(shí)驗(yàn)與分析

    4.1 實(shí)驗(yàn)數(shù)據(jù)

    本文實(shí)驗(yàn)數(shù)據(jù)利用網(wǎng)頁爬蟲從新浪新聞爬取“馬航失聯(lián)航班”專題下的相關(guān)報(bào)道模塊,時(shí)間范圍從2014年3月8日到2014年3月15日的新聞報(bào)道共6,321篇。經(jīng)過分詞、剔除無用詞等預(yù)處理后,從中選取3800篇作為實(shí)驗(yàn)數(shù)據(jù)集。

    4.2 評估方法

    實(shí)驗(yàn)評估方法選擇傳統(tǒng)的評估標(biāo)準(zhǔn):正確率p、召回率r、F1值、宏平均正確率Macro-p、宏平均召回率Macro-r、宏平均率Macro-F1值。計(jì)算公式如下[6]:

    其中,[a]表示正確分到一個(gè)類別的文本數(shù)量,[b]表示分類結(jié)果中分類錯(cuò)誤的文本數(shù)量,[c]表示應(yīng)該被分到一個(gè)類別但沒有正確分類的文本數(shù)量,[k]表示文本的類別個(gè)數(shù)。

    4.3 實(shí)驗(yàn)結(jié)果分析

    首先使用前面介紹的最佳主題個(gè)數(shù)確定方法,根據(jù)[α=50/T],[β=0.01][7] (此為經(jīng)驗(yàn)值,這種取值在本實(shí)驗(yàn)數(shù)據(jù)集上有較好的效果)。[T]在各種不同的取值下分別運(yùn)行Gibbs抽樣算法,分析[logP(w|T)]的變化。實(shí)驗(yàn)結(jié)果如圖3所示。

    由圖3可知,當(dāng)[T]= 60 時(shí),[logP(w|T)]最小,此時(shí)模型對于文檔集的擬合性能最佳。因此,在實(shí)驗(yàn)中選擇主題個(gè)數(shù)[T]為60。

    本文將文本表示選擇VSM,采用MI提取特征詞,然后使用增量文本聚類算法分類,作為對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

    5 結(jié)論

    本文將LDA模型應(yīng)用到新聞話題分類中,利用LDA模型進(jìn)行主題建模和文本語義相似度計(jì)算,并使用增量文本聚類算法實(shí)現(xiàn)對新聞話題的分類,實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的向量空間模型相比,通過LDA建模,降低了數(shù)據(jù)稀疏性和特征空間高維性等問題,提高了分類的正確率。在今后的工作中,將進(jìn)一步研究提高LDA模型的建模和推斷時(shí)間,并將其拓展到更多的領(lǐng)域,如信息檢索、微博話題發(fā)現(xiàn)、情感分析等。

    參考文獻(xiàn):

    [1] Blei D M, Lafferty J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.

    [2] 談成訪,汪材印,張亞康. 基于LDA的中文微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 宿州學(xué)院學(xué)學(xué)報(bào),2014(4): 71-73.

    [3] Lv Nan,Luo Jun-yong,Liu Yao,et al.Topic three layer model based topic evolution analysis algorithm [J]. Computer Engineering, 2009, 35(23): 71-75.

    [4] QUAN X J, LIU G, et al.Short text similarity based on probabilistic topics [J]. Knowledge Information System, 2010, 25(3):473-491.

    [5] 趙愛華,劉培玉,鄭燕. 基于LDA的新聞話題子話題劃分方法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2013, 34(4):732-735.

    [6] Chengfang TAN. Short Text Classification Based on LDA and SVM [J]. International Journal of Applied Mathematics and Statistics (IJAMS), 2013, 51(22):205-214.

    [7] 姚全珠,宋志理,彭程. 基于LDA的文本分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,47(13):150-153.endprint

    猜你喜歡
    主題分類
    分類算一算
    垃圾分類的困惑你有嗎
    大眾健康(2021年6期)2021-06-08 19:30:06
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    淺談中國俠文化背景下的武俠電影
    戲劇之家(2016年20期)2016-11-09 22:48:30
    《風(fēng)雨哈佛路》的主題評析與文化解讀
    淺析古詩詞教學(xué)中意象教學(xué)的策略
    農(nóng)村幼兒園“幼小銜接”的“五步走”
    考試周刊(2016年79期)2016-10-13 23:40:56
    巖井俊二的青春片摭談
    亚洲成人精品中文字幕电影| av在线天堂中文字幕| 国产精华一区二区三区| 精品99又大又爽又粗少妇毛片| 欧洲精品卡2卡3卡4卡5卡区| 在线国产一区二区在线| 久久欧美精品欧美久久欧美| 麻豆国产97在线/欧美| 在线观看午夜福利视频| 高清毛片免费看| 国产伦在线观看视频一区| 国内精品美女久久久久久| 国产高清激情床上av| 综合色丁香网| 中出人妻视频一区二区| 国产精品99久久久久久久久| 国产三级在线视频| 观看美女的网站| 久久精品夜色国产| 成人永久免费在线观看视频| 日本五十路高清| 变态另类丝袜制服| 好男人在线观看高清免费视频| 欧美丝袜亚洲另类| 91精品国产九色| 国产v大片淫在线免费观看| 国产一级毛片在线| 级片在线观看| 99热精品在线国产| 午夜免费男女啪啪视频观看| 久久久久免费精品人妻一区二区| 波多野结衣巨乳人妻| 天堂av国产一区二区熟女人妻| 欧美另类亚洲清纯唯美| 国产色婷婷99| 人人妻人人看人人澡| 国产欧美日韩精品一区二区| 国产精品久久久久久久久免| 99在线视频只有这里精品首页| 亚洲欧洲国产日韩| 一进一出抽搐gif免费好疼| 成人亚洲欧美一区二区av| 日本免费一区二区三区高清不卡| 国内精品美女久久久久久| 边亲边吃奶的免费视频| 久久精品91蜜桃| 午夜福利在线在线| www日本黄色视频网| 国产真实伦视频高清在线观看| 亚洲欧美成人综合另类久久久 | 在线观看一区二区三区| 精品国产三级普通话版| 欧美性猛交黑人性爽| 色哟哟·www| 18禁在线无遮挡免费观看视频| 免费人成视频x8x8入口观看| av在线播放精品| 国产精品美女特级片免费视频播放器| 亚洲久久久久久中文字幕| 国产在线男女| 三级男女做爰猛烈吃奶摸视频| 黄色日韩在线| 日韩av不卡免费在线播放| 久久99热这里只有精品18| 一级毛片电影观看 | 夫妻性生交免费视频一级片| 成年女人看的毛片在线观看| 国产成人精品久久久久久| 亚洲成人久久性| 精品人妻视频免费看| 国产高清激情床上av| 国产男人的电影天堂91| 久久久久久国产a免费观看| 成人漫画全彩无遮挡| 免费人成视频x8x8入口观看| 久久久国产成人免费| 青春草国产在线视频 | 高清午夜精品一区二区三区 | 欧美成人a在线观看| 我要看日韩黄色一级片| 国内揄拍国产精品人妻在线| 国产国拍精品亚洲av在线观看| 久久中文看片网| 丰满乱子伦码专区| 亚洲四区av| 亚洲成a人片在线一区二区| 成人二区视频| 麻豆一二三区av精品| 国产精品乱码一区二三区的特点| 亚洲人成网站在线播放欧美日韩| 中文字幕av成人在线电影| 国产午夜精品久久久久久一区二区三区| 亚洲精品久久久久久婷婷小说 | 久久久久久久久久久免费av| 蜜臀久久99精品久久宅男| 亚洲成人中文字幕在线播放| 国产成人福利小说| 国产精品久久视频播放| 亚洲成a人片在线一区二区| 亚洲人成网站在线播| 乱码一卡2卡4卡精品| 亚洲av中文字字幕乱码综合| 亚洲成人av在线免费| 亚洲第一区二区三区不卡| 神马国产精品三级电影在线观看| 国产黄a三级三级三级人| 简卡轻食公司| 日韩在线高清观看一区二区三区| 日本色播在线视频| 日韩高清综合在线| 久久久欧美国产精品| 亚洲成人精品中文字幕电影| 插阴视频在线观看视频| 国产色婷婷99| 精华霜和精华液先用哪个| 日日摸夜夜添夜夜爱| 国产久久久一区二区三区| 中文亚洲av片在线观看爽| 国产一区亚洲一区在线观看| 麻豆av噜噜一区二区三区| 搞女人的毛片| 搡女人真爽免费视频火全软件| 一个人观看的视频www高清免费观看| 人妻久久中文字幕网| 免费av不卡在线播放| 国产精品,欧美在线| 亚洲一级一片aⅴ在线观看| 午夜精品在线福利| 啦啦啦观看免费观看视频高清| 黄色一级大片看看| 深夜a级毛片| 狂野欧美激情性xxxx在线观看| 久久久国产成人免费| 大又大粗又爽又黄少妇毛片口| 少妇高潮的动态图| 97人妻精品一区二区三区麻豆| 精品午夜福利在线看| a级毛片a级免费在线| 亚洲va在线va天堂va国产| 中文字幕精品亚洲无线码一区| 特大巨黑吊av在线直播| 日韩一区二区视频免费看| 高清午夜精品一区二区三区 | 中文字幕精品亚洲无线码一区| 晚上一个人看的免费电影| 国产探花在线观看一区二区| 熟妇人妻久久中文字幕3abv| 日本黄大片高清| 少妇丰满av| 色综合站精品国产| 日韩亚洲欧美综合| 国产av一区在线观看免费| 日本在线视频免费播放| 又爽又黄a免费视频| 欧美最黄视频在线播放免费| 白带黄色成豆腐渣| 全区人妻精品视频| 日本撒尿小便嘘嘘汇集6| 欧美xxxx性猛交bbbb| 成人二区视频| 亚洲国产精品国产精品| 熟妇人妻久久中文字幕3abv| 色综合色国产| 老司机影院成人| 老女人水多毛片| 免费av不卡在线播放| 自拍偷自拍亚洲精品老妇| 乱人视频在线观看| 六月丁香七月| 国产一级毛片在线| 欧美日本视频| 国产精品综合久久久久久久免费| 只有这里有精品99| 最近中文字幕高清免费大全6| 美女高潮的动态| 人妻制服诱惑在线中文字幕| 欧美日韩精品成人综合77777| a级毛片a级免费在线| 色视频www国产| 亚洲人成网站在线观看播放| 蜜臀久久99精品久久宅男| 中文字幕熟女人妻在线| 热99re8久久精品国产| 久久久久久久久久成人| 2022亚洲国产成人精品| 国产成年人精品一区二区| 免费看美女性在线毛片视频| 欧美3d第一页| 黄色一级大片看看| 三级男女做爰猛烈吃奶摸视频| 国产三级中文精品| 一级毛片电影观看 | 插逼视频在线观看| 欧美bdsm另类| 久久久精品94久久精品| 18禁裸乳无遮挡免费网站照片| 国产单亲对白刺激| 欧美潮喷喷水| 麻豆久久精品国产亚洲av| 久久亚洲精品不卡| 嫩草影院入口| 国产大屁股一区二区在线视频| 成人午夜精彩视频在线观看| 亚洲成人久久性| 五月玫瑰六月丁香| 国产成人aa在线观看| 啦啦啦观看免费观看视频高清| 黄色一级大片看看| 国产高清激情床上av| 六月丁香七月| 在线播放国产精品三级| av福利片在线观看| 免费不卡的大黄色大毛片视频在线观看 | 久久久色成人| 啦啦啦韩国在线观看视频| 欧美精品一区二区大全| 婷婷色综合大香蕉| 亚洲中文字幕日韩| 爱豆传媒免费全集在线观看| 男插女下体视频免费在线播放| 久久精品夜色国产| 99久久精品一区二区三区| 边亲边吃奶的免费视频| 亚洲国产欧美人成| 少妇熟女欧美另类| 久久鲁丝午夜福利片| 在线观看一区二区三区| 欧美xxxx黑人xx丫x性爽| 级片在线观看| 91久久精品电影网| 色哟哟·www| 国产麻豆成人av免费视频| 国产伦精品一区二区三区四那| 国产成人精品久久久久久| 亚洲国产欧美在线一区| 在现免费观看毛片| 欧美一级a爱片免费观看看| 黄色一级大片看看| 久久亚洲精品不卡| 国产成人a∨麻豆精品| 久久精品国产亚洲av天美| 夫妻性生交免费视频一级片| 久久精品国产亚洲av香蕉五月| 女人十人毛片免费观看3o分钟| 女人被狂操c到高潮| 日本黄色片子视频| 日本熟妇午夜| 欧美日韩精品成人综合77777| 色哟哟·www| 精品无人区乱码1区二区| 小蜜桃在线观看免费完整版高清| 1000部很黄的大片| 色综合站精品国产| 在线免费观看不下载黄p国产| 91精品一卡2卡3卡4卡| 男女啪啪激烈高潮av片| 国产成人精品婷婷| 给我免费播放毛片高清在线观看| 99热这里只有精品一区| 国产精品1区2区在线观看.| 色综合亚洲欧美另类图片| 性色avwww在线观看| 别揉我奶头 嗯啊视频| 在线观看免费视频日本深夜| 国产精品免费一区二区三区在线| 嫩草影院入口| 国产综合懂色| 久久精品91蜜桃| 变态另类丝袜制服| 亚洲最大成人手机在线| 成人一区二区视频在线观看| 国产爱豆传媒在线观看| 噜噜噜噜噜久久久久久91| 性欧美人与动物交配| 亚洲最大成人中文| 久久精品国产自在天天线| 日韩强制内射视频| 久久久国产成人精品二区| 成年版毛片免费区| 色综合亚洲欧美另类图片| 日本一二三区视频观看| 国产欧美日韩精品一区二区| 久久99精品国语久久久| 综合色丁香网| 亚洲国产精品久久男人天堂| 全区人妻精品视频| 国产亚洲91精品色在线| 国产精品嫩草影院av在线观看| 国产精品麻豆人妻色哟哟久久 | 色播亚洲综合网| 一本精品99久久精品77| 边亲边吃奶的免费视频| 欧美性猛交╳xxx乱大交人| 中出人妻视频一区二区| 久久久欧美国产精品| 国产精品久久久久久亚洲av鲁大| 九色成人免费人妻av| 青春草国产在线视频 | 亚洲欧美精品专区久久| 日韩av在线大香蕉| 麻豆精品久久久久久蜜桃| 久久鲁丝午夜福利片| 亚洲综合色惰| 99在线视频只有这里精品首页| 大又大粗又爽又黄少妇毛片口| 99久久久亚洲精品蜜臀av| 中文字幕熟女人妻在线| 成人性生交大片免费视频hd| 久久亚洲国产成人精品v| 久久精品久久久久久噜噜老黄 | 毛片女人毛片| 中国美白少妇内射xxxbb| 亚洲欧美成人综合另类久久久 | 午夜亚洲福利在线播放| 午夜福利成人在线免费观看| 日韩成人伦理影院| 久久久久久伊人网av| 亚洲欧美中文字幕日韩二区| 一个人看的www免费观看视频| 五月玫瑰六月丁香| 美女高潮的动态| 人妻夜夜爽99麻豆av| 69av精品久久久久久| 人人妻人人看人人澡| 免费电影在线观看免费观看| 久久精品国产99精品国产亚洲性色| av天堂中文字幕网| 少妇裸体淫交视频免费看高清| 亚洲第一电影网av| 国产av在哪里看| 18禁裸乳无遮挡免费网站照片| 天堂av国产一区二区熟女人妻| 看非洲黑人一级黄片| 亚洲最大成人手机在线| 大香蕉久久网| a级毛片a级免费在线| 日本一本二区三区精品| 色噜噜av男人的天堂激情| 男人和女人高潮做爰伦理| 久久精品国产亚洲av涩爱 | 国产一级毛片在线| 一区二区三区高清视频在线| 69av精品久久久久久| 国产伦精品一区二区三区四那| 热99在线观看视频| 99热全是精品| 久久久久久久久久久免费av| 黄色视频,在线免费观看| 老女人水多毛片| 婷婷色综合大香蕉| 可以在线观看的亚洲视频| 波多野结衣巨乳人妻| 99热只有精品国产| 男插女下体视频免费在线播放| 日本三级黄在线观看| 人人妻人人澡欧美一区二区| 国产精品久久久久久精品电影小说 | 久久热精品热| 嫩草影院入口| 国产午夜精品论理片| 九色成人免费人妻av| 日韩欧美国产在线观看| 国产精品无大码| 三级毛片av免费| 免费av不卡在线播放| 日本爱情动作片www.在线观看| 国产综合懂色| 精华霜和精华液先用哪个| 国产精品美女特级片免费视频播放器| 国产精品.久久久| 最近视频中文字幕2019在线8| 丝袜喷水一区| 99久久精品热视频| 精品日产1卡2卡| 91午夜精品亚洲一区二区三区| 夜夜爽天天搞| 伊人久久精品亚洲午夜| 男女边吃奶边做爰视频| 国产 一区 欧美 日韩| 久久欧美精品欧美久久欧美| 国产精品电影一区二区三区| 久久国产乱子免费精品| 国产老妇伦熟女老妇高清| 九草在线视频观看| 嫩草影院精品99| 久久久久久久亚洲中文字幕| 亚洲美女视频黄频| 如何舔出高潮| 日本五十路高清| 人妻少妇偷人精品九色| 国产老妇女一区| 两个人视频免费观看高清| 亚洲性久久影院| 99热只有精品国产| 精品日产1卡2卡| 亚洲成人精品中文字幕电影| 麻豆成人午夜福利视频| 小说图片视频综合网站| 有码 亚洲区| 午夜激情福利司机影院| 日本-黄色视频高清免费观看| 久久婷婷人人爽人人干人人爱| 狠狠狠狠99中文字幕| 99热精品在线国产| 日日撸夜夜添| 久久久国产成人精品二区| 欧美三级亚洲精品| 午夜亚洲福利在线播放| 男女那种视频在线观看| 国产 一区精品| 亚洲四区av| 天堂av国产一区二区熟女人妻| 男女下面进入的视频免费午夜| av女优亚洲男人天堂| 99视频精品全部免费 在线| 丝袜美腿在线中文| 赤兔流量卡办理| 国产伦精品一区二区三区视频9| 亚洲欧美中文字幕日韩二区| 欧美三级亚洲精品| 欧美xxxx黑人xx丫x性爽| 老熟妇乱子伦视频在线观看| 欧美性感艳星| 欧美高清成人免费视频www| 深夜精品福利| 中文在线观看免费www的网站| 亚洲精品成人久久久久久| 精品人妻熟女av久视频| 1000部很黄的大片| 午夜福利在线观看吧| 久久久久久久久久成人| 国产成人精品婷婷| 99热这里只有是精品50| 久久精品国产亚洲av香蕉五月| 久久久久性生活片| 我的老师免费观看完整版| 国产亚洲精品久久久com| 欧美区成人在线视频| 能在线免费看毛片的网站| 99久久九九国产精品国产免费| 黄色视频,在线免费观看| 国产精品电影一区二区三区| 国产精品人妻久久久影院| 国产乱人偷精品视频| 26uuu在线亚洲综合色| 女人被狂操c到高潮| 男女啪啪激烈高潮av片| 欧美激情在线99| 欧美日韩国产亚洲二区| 久久精品综合一区二区三区| 精品久久久久久久久久免费视频| 亚洲精品自拍成人| 午夜精品在线福利| 久久久久久久久久久免费av| а√天堂www在线а√下载| 欧美高清成人免费视频www| 国产国拍精品亚洲av在线观看| 国产精品美女特级片免费视频播放器| 久久久久网色| 久久鲁丝午夜福利片| 天美传媒精品一区二区| 日韩国内少妇激情av| 国产毛片a区久久久久| 国产老妇女一区| av在线天堂中文字幕| 国产在视频线在精品| 亚洲成人久久性| 岛国在线免费视频观看| av黄色大香蕉| av天堂在线播放| 高清毛片免费观看视频网站| 国产精品人妻久久久久久| 成人三级黄色视频| 一个人观看的视频www高清免费观看| 1024手机看黄色片| 国产精品野战在线观看| 欧美日本亚洲视频在线播放| 69人妻影院| 欧洲精品卡2卡3卡4卡5卡区| av天堂中文字幕网| 国产精品人妻久久久影院| 亚洲成人久久爱视频| 久久久久久久久久成人| 亚洲精品成人久久久久久| 午夜福利在线观看吧| 中文字幕久久专区| 亚洲av男天堂| 99热这里只有精品一区| 深夜a级毛片| 麻豆乱淫一区二区| 99久久久亚洲精品蜜臀av| 插阴视频在线观看视频| 少妇高潮的动态图| 日韩成人av中文字幕在线观看| 成人欧美大片| av又黄又爽大尺度在线免费看 | 丰满的人妻完整版| 如何舔出高潮| 五月伊人婷婷丁香| 婷婷色av中文字幕| 91aial.com中文字幕在线观看| 亚洲人与动物交配视频| 欧美又色又爽又黄视频| 国产麻豆成人av免费视频| 99国产极品粉嫩在线观看| 国产单亲对白刺激| 日韩欧美精品v在线| 国产单亲对白刺激| 美女大奶头视频| 成熟少妇高潮喷水视频| 国产不卡一卡二| 内地一区二区视频在线| 国内揄拍国产精品人妻在线| 内地一区二区视频在线| 久久久久久久久大av| 国内久久婷婷六月综合欲色啪| 亚洲中文字幕一区二区三区有码在线看| 精品免费久久久久久久清纯| 日韩国内少妇激情av| 精品久久久久久久久av| 级片在线观看| 国产精品久久视频播放| 国产精品一区二区在线观看99 | 国产av一区在线观看免费| 日韩制服骚丝袜av| 晚上一个人看的免费电影| 精品国产三级普通话版| 成年av动漫网址| 只有这里有精品99| 老司机福利观看| 一区福利在线观看| av黄色大香蕉| av又黄又爽大尺度在线免费看 | 国产精品蜜桃在线观看 | 天天躁日日操中文字幕| 欧美最新免费一区二区三区| 男女视频在线观看网站免费| 伊人久久精品亚洲午夜| 欧美在线一区亚洲| 一个人看的www免费观看视频| 国产精品人妻久久久影院| 一级毛片aaaaaa免费看小| 亚洲无线在线观看| 麻豆成人av视频| 欧美zozozo另类| 国产高清不卡午夜福利| 国产亚洲精品久久久com| 欧美精品一区二区大全| 夜夜夜夜夜久久久久| 亚洲成人中文字幕在线播放| 精品人妻一区二区三区麻豆| 亚州av有码| 免费一级毛片在线播放高清视频| 国产精品福利在线免费观看| 亚洲人成网站在线播| 日韩制服骚丝袜av| 国产又黄又爽又无遮挡在线| АⅤ资源中文在线天堂| 亚洲av中文字字幕乱码综合| 国产成人91sexporn| 最近最新中文字幕大全电影3| 日日撸夜夜添| 国产乱人偷精品视频| 日韩三级伦理在线观看| 午夜免费男女啪啪视频观看| 最近中文字幕高清免费大全6| 黄色一级大片看看| 97热精品久久久久久| 中文资源天堂在线| av在线播放精品| 国产高清不卡午夜福利| 欧美成人a在线观看| 女同久久另类99精品国产91| 一本一本综合久久| 久久久久久九九精品二区国产| 欧美成人一区二区免费高清观看| 久久久久久久久久久免费av| 国产成人a∨麻豆精品| 全区人妻精品视频| 99在线视频只有这里精品首页| 亚洲中文字幕一区二区三区有码在线看| 男插女下体视频免费在线播放| 国产黄片美女视频| 天天躁日日操中文字幕| 99视频精品全部免费 在线| 在现免费观看毛片| 波多野结衣高清无吗| 又爽又黄无遮挡网站| 久久这里只有精品中国| 亚洲国产精品久久男人天堂| 日韩三级伦理在线观看| 在线国产一区二区在线| 亚洲aⅴ乱码一区二区在线播放| 国产白丝娇喘喷水9色精品| 日韩亚洲欧美综合| 国产午夜精品久久久久久一区二区三区| 特大巨黑吊av在线直播| 国产成人91sexporn| 成人美女网站在线观看视频| 99热只有精品国产| 亚洲人成网站高清观看| 91麻豆精品激情在线观看国产| 久久久久性生活片| 久久欧美精品欧美久久欧美| 可以在线观看的亚洲视频| 国产女主播在线喷水免费视频网站 | 免费av毛片视频| 99久久成人亚洲精品观看| 美女国产视频在线观看| 国产高清三级在线| 国产精品一区二区三区四区久久| 乱码一卡2卡4卡精品| 99热网站在线观看| 又爽又黄a免费视频| 国产精品国产三级国产av玫瑰|