• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于LDA 的k話題增量訓(xùn)練算法

    2015-06-14 07:37:52謝志強(qiáng)
    關(guān)鍵詞:增量個(gè)數(shù)語料庫

    辛 宇,楊 靜,謝志強(qiáng)

    (1.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001;2.哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150080)

    0 引 言

    LDA(Latent dirichlet allocation,LDA)模型是近些年來話題提取的通用模型[1]。目前,話題模型相關(guān)的工作大多是對(duì)LDA 模型進(jìn)行修改,或者是將LDA 模型作為整個(gè)概率模型的一個(gè)部件。在LDA 模型中,假設(shè)每個(gè)文檔的主題概率分布服從Dirichlet分布,并沒有對(duì)不同主題之間相關(guān)性進(jìn)行刻畫。然而,在真實(shí)的語料中,不同主題之間存在相關(guān)性的現(xiàn)象很普遍[2]。

    在面向LDA 模型演化研究方面,2004 年,Blei 等[3]提 出 了 主 題 間 為 樹 結(jié) 構(gòu) 的 層 級(jí)(Hierarchical LDA)。在該模型中,樹中的每個(gè)節(jié)點(diǎn)代表一個(gè)主題,該模型還有一個(gè)特點(diǎn)是可以從語料中估計(jì)出主題的個(gè)數(shù),并與使用LDA 模型在不同主題數(shù)下重復(fù)實(shí)驗(yàn)得到的最佳主題個(gè)數(shù)一致。Blei等[4-5]于2006年又在層級(jí)LDA 的基礎(chǔ)上提出了相關(guān)主題模型(Correlated topic model,CTM),與LDA 不同的是,CTM 從對(duì)數(shù)正態(tài)分布中對(duì)主題概率分布進(jìn)行采樣。Li等[6]針對(duì)CTM 只考慮兩個(gè)主題間關(guān)系的不足,提出了PAM 模型(Pachinko allocation model,PAM),該模型的特點(diǎn)是把主題之間的關(guān)系表示成一個(gè)有向無環(huán)圖,其中葉子節(jié)點(diǎn)是單詞,可以看成是由所包含的子節(jié)點(diǎn)(主題或單詞)構(gòu)成。之后Mimno等[7]又在PAM 的基礎(chǔ)上提出了層級(jí)PAM 模型,該模型可以看成是把層級(jí)LDA 和PAM 結(jié)合起來,使得PAM 模型中的非葉子節(jié)點(diǎn)也具有單詞的概率分布。Wang等[8]向模型中添加了一個(gè)作為觀測(cè)值的時(shí)間隨機(jī)變量后得到了主題隨時(shí)間變化的主題模型(Topic over time,TOT),該模型認(rèn)為主題概率分布受到時(shí)間信息的影響,且時(shí)間變量服從beta分布。

    在面向上下文信息分析的話題提取方面,通常主題模型假設(shè)單詞序列中的單詞是可交換的,即單詞的順序和模型的訓(xùn)練結(jié)果無關(guān),在考慮當(dāng)前節(jié)點(diǎn)和其他節(jié)點(diǎn)的關(guān)系時(shí),就破壞了LDA 的可交 換 性 假 設(shè)。Griffiths 等[9]認(rèn) 為 可 以 通 過HMM 來捕捉句法結(jié)構(gòu)信息,通過LDA 來提示語義關(guān)系,并將兩者結(jié)合在一起提出了HMM-LDA模型。Wallach[10]認(rèn)為語料庫生成過程中,一個(gè)單詞除了依賴于其對(duì)應(yīng)的主題外還與前一個(gè)單詞有關(guān),提出超越詞袋(Beyond bag-of-words)的主題模型。張晨逸[11]等人提出利用MB-LDA 進(jìn)行微博主題挖掘,該模型在挖掘出微博主題的同時(shí)還可挖掘出聯(lián)系人關(guān)注的主題,并將LDA 模型推廣到了社交網(wǎng)絡(luò)中。韓曉暉[12]等人提出了一種基于LDA 的低質(zhì)量回貼檢測(cè)方法,利用檢測(cè)回貼質(zhì)量的二元分類性訓(xùn)練SVM 分類器,以區(qū)分出質(zhì)量回貼。

    在面向特定任務(wù)研究方面,Blei等[13]針對(duì)分類問題提出了有監(jiān)督LDA 模型(Supervised latent dirichlet allocation,sLDA),該模型將訓(xùn)練語料中的文檔類別標(biāo)記為觀測(cè)值加入LDA 模型,且類別標(biāo)號(hào)服從一個(gè)與文檔主題概率分布有關(guān)的正態(tài)線性分布。Steyvers等[14]提出作者主題模型(Author topic,AT),認(rèn)為每個(gè)作者有一個(gè)主題概率分布。McCallum 等[15]又在AT 模型的基礎(chǔ)上,提出了作者接受者主題模型(Author recipient topic,ART)以判定個(gè)人的社會(huì)角色。

    以上模型的話題個(gè)數(shù)k 均需預(yù)先給定,若要確定最優(yōu)話題個(gè)數(shù)k*?jiǎng)t需要循環(huán)探測(cè),其復(fù)雜度過高。文獻(xiàn)[5]和文獻(xiàn)[7]的實(shí)驗(yàn)表明,當(dāng)k 的個(gè)數(shù)超過某一數(shù)據(jù)時(shí),k*的選擇開始變得模糊,導(dǎo)致LDA 的最優(yōu)話題個(gè)數(shù)選擇方法復(fù)雜度高且結(jié)果不精確。因此,設(shè)計(jì)一種高效可行的最優(yōu)話題個(gè)數(shù)選擇方法是LDA 研究的關(guān)鍵問題。本文針對(duì)LDA 模型的最優(yōu)k 值選取問題,提出LDA 話題增量訓(xùn)練算法,并通過對(duì)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)分析驗(yàn)證了本文算法對(duì)最優(yōu)k值選取的有效性和可行性。

    1 LDA 模型分析

    LDA 模型是以單詞-話題-參數(shù)先驗(yàn)關(guān)系構(gòu)成的3層貝葉斯模型,三者之間的關(guān)系表達(dá)模型如圖1所示,其中M 為語料庫中的文檔個(gè)數(shù),N 為單詞表中的單詞個(gè)數(shù),zdn為文檔d中單詞n所屬話題的概率,θd為文檔d中話題zdn分布的先驗(yàn)參數(shù),α為語料庫中θ的全局先驗(yàn)參數(shù),β為k×N 單詞 -話題概率矩陣,其中k為話題個(gè)數(shù),βi,j =p(w =j(luò)|z=i)且βi,*=1。根據(jù)上述條件概率關(guān)系,文檔-單詞的數(shù)學(xué)模型可表示為:

    語料庫-單詞的數(shù)學(xué)模型可表示為:

    圖1 LDA“盤子”模型Fig.1 Plate model of LDA

    LDA 的生成模型可假設(shè)如下:

    (1)p(θ|α)~Dir(α)。其表達(dá)式為:

    (2)p(z|θ)~Multinomial(θ)。

    根據(jù)式(3)(4),式(2)可表示為:

    加入文檔內(nèi)部估計(jì)參數(shù)γ和φ,γ為β 的文檔樣本估計(jì)值,φ 為文檔內(nèi)部話題的后驗(yàn)概率,φi,j=p(z=j(luò)|w =i)。

    假設(shè)γ和φ 相互獨(dú)立。利用變量β和z 建立文檔內(nèi)部隱含參數(shù)的估計(jì)模型如下:變分推理以極大化單詞-話題分布的似然函數(shù)p(w|α,β)為目標(biāo),通過在似然函數(shù)中加入樣本估計(jì)參數(shù)γ 和φ,實(shí)現(xiàn)對(duì)全局參數(shù)α 和β 的優(yōu)化。為此,式(5)的似然函數(shù)表達(dá)式如下:

    2 LDA 變分推理過程

    2.1 建立變分似然函數(shù)表達(dá)式模型

    式中:Eq為利用估計(jì)參數(shù)γ 和φ 計(jì)算的期望,由于Dirichlet分布屬于一種指數(shù)分布族,根據(jù)文獻(xiàn)[1]可知:

    變分推理的優(yōu)化過程即尋找L(γ,φ;α,β)的極值過程。根據(jù)式(8)可得:

    根據(jù)式(9)可得:

    2.2 變分推理參數(shù)關(guān)系模型

    式(11)包 含 了(α,β,γ,φ)4 個(gè) 參 數(shù),其 中利用拉格朗日乘子法對(duì)(α,β,γ,φ)進(jìn)行優(yōu)化求值可得到如下結(jié)果:

    式(12)~(15)分別對(duì)(α,β,γ,φ)求零值導(dǎo)數(shù)可得到(α,β,γ,φ)的極值關(guān)系式如下:

    2.3 變分推理運(yùn)行過程

    根據(jù)式(16)~(19)變分推理的參數(shù)訓(xùn)練過程分為文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過程(訓(xùn)練γ,φ)和語料庫總體參數(shù)訓(xùn)練過程(訓(xùn)練α,β)。文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過程是語料庫總體參數(shù)過程的子過程。圖2為訓(xùn)練過程的盤子模型圖,其中黃色箭頭線表示文檔內(nèi)部參數(shù)訓(xùn)練過程,參數(shù)γ,φ 根據(jù)式(17)和(19)以α,β 為參數(shù)進(jìn)行循環(huán)迭代以優(yōu)化參數(shù)γ,φ;棕色箭頭表示語料庫總體參數(shù)訓(xùn)練過程,在語料庫內(nèi)所有文檔完成對(duì)參數(shù)γ,φ 的訓(xùn)練后,根據(jù)式(16)和(18)調(diào)整全局參數(shù)α,β;藍(lán)色箭頭表示LDA 模型的似然函數(shù)的計(jì)算過程。

    圖2 LDA變分推理過程Fig.2 Variational inference process of LDA

    3 變分推理優(yōu)化改進(jìn)策略

    LDA 話題提取存在兩方面問題需要改進(jìn):

    (1)由于LDA 算法在初始運(yùn)行時(shí)需要人為給定話題個(gè)數(shù)k(較小的整數(shù)),k與最佳話題個(gè)數(shù)k*的偏離度決定了LDA 話題發(fā)現(xiàn)的質(zhì)量,若k<k*會(huì)導(dǎo)致話題訓(xùn)練的欠擬合,若k>k*會(huì)導(dǎo)致話題訓(xùn)練的過擬合,如何選擇k值是LDA 話題發(fā)現(xiàn)尚未解決的問題。

    (2)LDA 在樣本的訓(xùn)練過程中缺少對(duì)β 中“模糊單詞”(即話題歸屬不確定的單詞)的處理,導(dǎo)致β 矩陣中各話題間的模糊化,并使得后續(xù)的訓(xùn)練結(jié)果出現(xiàn)相似的話題結(jié)果,影響話題分類的有效性。

    為說明以上兩方面問題,本文統(tǒng)計(jì)了CNN網(wǎng)站中的50組話題,建立了50個(gè)樣本話題,并在每組話題中選擇詞頻最高的5個(gè)名詞作為樣本話題詞匯,如表1所示。隨機(jī)選擇2~5組樣本話題構(gòu)成文檔,并以1000個(gè)隨機(jī)文檔為單位,建立40組語料庫。

    表1 CNN 50個(gè)話題的概率表Table 1 50-topics Probability Table of CNN

    3.1 likelihood值分析

    本文對(duì)40 組語料庫建立10~70 個(gè)話題的LDA 跟蹤運(yùn)算,所得的likelihood值如圖3所示,其中橫坐標(biāo)為話題個(gè)數(shù),縱坐標(biāo)為likelihood值。由于本文所建立的40組語料庫是50個(gè)話題的混合,因此理想狀態(tài)下50個(gè)話題的likelihood值應(yīng)為極值,且50個(gè)話題的各每組樣本likelihood值的偏差應(yīng)該較小。但圖3所示的結(jié)果說明LDA算法在話題個(gè)數(shù)大于40時(shí),出現(xiàn)likelihood值的模糊化,無法根據(jù)likelihood值判斷最優(yōu)話題個(gè)數(shù)k*。

    圖3 表1數(shù)據(jù)集likelihood值(話題個(gè)數(shù)為10~70)Fig.3 Likelihood of the datasets in table 1(the number of topics are 10~70)

    3.2 β矩陣分析

    本文對(duì)第1、8、15、22、29、36 組語料庫LDA訓(xùn)練后的β 值進(jìn)行分析,由于表1數(shù)據(jù)集中屬于同一話題的單詞編號(hào)鄰近,因此屬于同一話題的單詞在β 矩陣的位置鄰近,可將β 矩陣元素中的最大值進(jìn)行聚類以分析LDA 的分類效果。β矩陣的聚類輪廓圖如圖4所示,其中x 軸為話題號(hào),y軸為單詞號(hào)。由于表1數(shù)據(jù)集中各樣本話題單詞無重復(fù),因此理想狀態(tài)下β 矩陣聚類輪廓圖的每行每列僅有一個(gè)話題聚類簇,從圖4中可直觀看到語料庫中第1、8、15、22組數(shù)據(jù)的LDA 分析結(jié)果較差。

    另外,圖4中LDA 算法所挖掘出的編號(hào)相鄰的話題相似度較大,且有效識(shí)別個(gè)數(shù)最多為40(語料庫36)。為了提高LDA 的話題精度,降低話題間的相似度,本文提出LDA 話題增量訓(xùn)練算法,在提高話題分類精度的同時(shí)增量挖掘優(yōu)化話題個(gè)數(shù)k*。

    圖4 語料庫1,8,15,22的β矩陣分析結(jié)果Fig.4 βmatrix of corpus 1,8,15,22

    3.3 LDA話題增量訓(xùn)練算法

    變分推理的執(zhí)行過程中,以文檔內(nèi)部話題-單詞的后驗(yàn)概率φ 作為α 和β 訓(xùn)練的中間變量φi,j=p(z=j(luò)|w =i),若話題個(gè)數(shù)為k(k<k*,k*為最優(yōu)話題個(gè)數(shù)),必存在某一單詞的話題不確定度較高,即φi,*的熵值entropy(φi,*)較大,其中某一單詞wi的熵值表達(dá)式為:

    entropy(φi,*)是對(duì)單詞wi的不確定性度量,entropy(φi,*)越大則wi的不確定性越高,當(dāng)前的k個(gè)話題對(duì)wi的劃分越不合理。此時(shí),可提取entropy值較大的單詞重新組合為一個(gè)新的話題,并復(fù)用之前的迭代結(jié)果。由于話題的增加需要進(jìn)行一次語料庫總體參數(shù)訓(xùn)練(增加參數(shù)α 和β的維數(shù)),為此LDA 話題增量訓(xùn)練算法對(duì)參數(shù)α和β 的修改如下:

    (1)增加β矩陣的維數(shù)。引入熵的閾值參數(shù)σ,選擇entropy(φi,*)大于σ的wi構(gòu)成新的話題,并將新話題按熵值歸一化,加入β矩陣。

    (2)增加α 的維數(shù)。以新的β 和α 作為初始參數(shù)執(zhí)行新一次迭代。

    在LDA 的執(zhí)行過程中,迭代次數(shù)越高參數(shù)β和α 的訓(xùn)練越充分,為防止LDA 話題增量訓(xùn)練算法在β和α 尚未充分訓(xùn)練的條件下進(jìn)行φ 的熵值選擇,導(dǎo)致LDA 訓(xùn)練不充分而影響話題發(fā)現(xiàn)質(zhì)量,需要在LDA 迭代過程中加入迭代參數(shù)c,每進(jìn)行c次迭代時(shí)執(zhí)行一次LDA 話題增量訓(xùn)練算法。

    圖5為LDA 話題增量訓(xùn)練算法的參數(shù)訓(xùn)練過程,其中綠色箭頭為LDA 話題增量訓(xùn)練算法對(duì)α 和β 的增量訓(xùn)練過程。

    具體的算法描述如下:

    功能:利用LDA 話題增量訓(xùn)練算法對(duì)訓(xùn)練最優(yōu)話題個(gè)數(shù)k*

    輸入:初始話題個(gè)數(shù)k

    輸出:最優(yōu)話題個(gè)數(shù)k*及語料庫參數(shù)α和β

    4 實(shí)驗(yàn)分析

    4.1 CNN 數(shù)據(jù)集分析

    圖6為語料庫13的LDA 迭代跟蹤過程(語料庫13 共進(jìn)行57 次迭代),從中可以直觀發(fā)現(xiàn)LDA 算法對(duì)66~70 號(hào)單詞“makeup”話題的識(shí)別較差,其原因在于LDA 迭代過程中未能在β矩陣中提取“makeup”話題,使得“makeup”單詞的話題隸屬度相對(duì)模糊,影響了β 后序訓(xùn)練過程中對(duì)“makeup”話題的識(shí)別。

    本文利用大量模擬實(shí)驗(yàn)驗(yàn)證了LDA 話題增量訓(xùn)練算法參數(shù)的有效范圍分別為σ =(0 ~1.6),c=(3~12),并在4.3節(jié)分析了參數(shù)σ和c的最優(yōu)取值問題,圖7為利用本文LDA 話題增量訓(xùn)練算法(以10為初始k值,σ=0.3,c=5)對(duì)語料庫13的增量迭代過程,該圖直觀顯示了話題個(gè)數(shù)從10增量訓(xùn)練到50的過程中,話題間的獨(dú)立逐漸增強(qiáng),相比于圖6中LDA 話題增量訓(xùn)練算法更趨于理想狀態(tài)。

    圖6 語料庫13的LDA迭代跟蹤過程Fig.6 LDA iterative tracking process of corpus 13

    圖7 語料庫13的LDA跟蹤過程Fig.7 LDA tracking process of corpus 13

    圖8 為40 組語料庫在本文算法下的likelihood值(以10為初始值,σ=0.3,c=5),該圖顯示了本文算法的最佳話題發(fā)現(xiàn)個(gè)數(shù)集中在40~50之間。

    圖8 表1數(shù)據(jù)集LDA話題增量訓(xùn)練算法下的likelihood值Fig.8 Likelihood of the dataset in Table 1by the LDA topic increments training algorithm

    4.2 真實(shí)數(shù)據(jù)集對(duì)比

    在數(shù)據(jù)集的選擇方面,本文采用有明確文檔分類的數(shù)據(jù)集,以分析本文算法對(duì)話題個(gè)數(shù)選取的有效性,本文分別選取了自然語言處理中常用的3組數(shù)據(jù)集,各數(shù)據(jù)集的介紹如下:

    (1)所選擇的數(shù)據(jù)庫包括第36屆加拿大國會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada(AHPC)a卷(共40個(gè)議案)和b卷(共40個(gè)議案),總單詞量約為1 300 000個(gè)。將每個(gè)議案的章節(jié)作為LDA 分析的“文檔”,由于同一議案趨近于同一話題,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)均為40。

    (2)蘭卡斯特新聞書籍語料庫The Lancaster Newsbooks Corpus,本文算法取其中25 類(500本書)書籍為數(shù)據(jù)集,以每本書的摘要作LDA 分析的“文檔”,由于同一類書籍的新聞話題近似,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為25。

    (3)路透社經(jīng)典文檔分類語料庫Reuters 21578 Classic text categorization corpus(共50類),以每本書的摘要作LDA 分析的“文檔”,該數(shù)據(jù)集已將各文檔進(jìn)行了分類,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為50。

    本文算法對(duì)上述數(shù)據(jù)分別利用LDA 和LDA話題增量訓(xùn)練算法(σ=0.3,c=5)進(jìn)行40次實(shí)驗(yàn),其對(duì)比結(jié)果如圖9所示,其中藍(lán)色為LDA 算法的分析結(jié)果,紅色為本文算法的分析結(jié)果,從結(jié)果可直觀判斷本文算法的likelihood 高于LDA算法,驗(yàn)證了本文算法的話題分類合理性高于LDA 算法。在話題個(gè)數(shù)識(shí)別方面,各組數(shù)據(jù)的話題個(gè)數(shù)分別為40、45、23、55,接近于理想話題個(gè)數(shù)。

    圖9 4種語料庫likelihood對(duì)比圖Fig.9 Comparison chart of 4corpuses

    4.3 參數(shù)σ 和c 分析

    本文利用LDA 話題增量訓(xùn)練算法對(duì)第36屆加拿大國會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada(AHPC)a卷(共40個(gè)議案)作為數(shù)據(jù)集進(jìn)行200次迭代,每次迭代進(jìn)行15次實(shí)驗(yàn),其中參數(shù)分別為σ =(0.1∶0.1∶1.5),c=5,每次將話題個(gè)數(shù)收斂于38~42的結(jié)果判定為正確(共有1036次正確分類),其統(tǒng)計(jì)直方圖如圖10(a)所示。以AHPC數(shù)據(jù)集進(jìn)行200次迭代,每次迭代進(jìn)行8次實(shí)驗(yàn),其中參數(shù)分別為σ=0.3,c=(3∶1∶10),每次將話題個(gè)數(shù)收斂于38~42 的結(jié)果判定為正確(共有966 次正確分類),其統(tǒng)計(jì)直方圖如圖10(b)所示。通過圖10(a)與(b)的分析可知:當(dāng)σ>1.5時(shí)分類的趨于無效,且c 的 最 優(yōu) 取 值 區(qū) 間 為(3,10)。圖11 為AHPC的三維stem 圖,其中LDA 話題增量訓(xùn)練算法的最優(yōu)值為σ=0.45,c=6。

    圖10 AHPC數(shù)據(jù)集統(tǒng)計(jì)直方圖Fig.10 Histogram of AHPC dataset

    圖11 AHPC的三維stem 圖Fig.11 3Dstem figure of AHPC

    5 結(jié) 論

    本文利用LDA 話題增量訓(xùn)練算法,創(chuàng)新采用以單詞-話題概率熵值作為LDA 迭代過程中模糊單詞選擇標(biāo)準(zhǔn),將所選擇模糊單詞歸入新的話題優(yōu)化LDA 的迭代過程,以提高話題獨(dú)立性為手段提高各單詞的合理化分類;所提出的LDA話題增量訓(xùn)練算法可在實(shí)現(xiàn)LDA 話題分類優(yōu)化的同時(shí)對(duì)最優(yōu)話題個(gè)數(shù)k 進(jìn)行增量訓(xùn)練,最后通過實(shí)驗(yàn)對(duì)比驗(yàn)證了本文算法在話題分類合理度likelihood與k自動(dòng)選擇方面的優(yōu)越性,對(duì)深入研究話題分類模型具有一定的理論和實(shí)際意義。

    [1]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

    [2]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.Xu Ge,Wang Hou-feng.The development of topic models in natural language processing[J].Chinese Journal of Computers,2011,34(8):1423-1436.

    [3]Blei D M,Griffitchs T L,Jordan M I,et al.Hierarchical topic models and the nested Chinese restaurant process[C]∥Advances in Neural Information Processing Systems 16.Cambridge,MA:MIT Press,2004:17-24.

    [4]Blei D M,Lafferty J D.Correlated topic models[C]∥Advances in Neural Information Processing Systems 18.Cambridge,MA:MIT Press,2006.

    [5]Blei D,Lafferty J.A correlated topic model of science[J].Annals of Applied Statistics,2007,1(1):17-35.

    [6]Li W,McCallum A.Pachinko allocation:DAGstructured mixture models of topic correlations[C]∥Proceeding of the ICML.Pittsburgh,Pennsylvania,USA,2006:577-584.

    [7]Mimno D,Li W,McCallum A.Mixtures of hierarchical topics with pachinko allocation[C]∥Proceeding of the ICML.Corvllis,Oregon,USA,2007:633-640.

    [8]Wang X,McCallum A.Topics over time:a nonmarkov continuous-time model of topical trends[C]∥Proceeding of the Conference on Knowledge Discovery and Data Mining(KDD).Philadelphia,USA,2006:113-120.

    [9]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[C]∥Advances in Neural Information Processing Systems 18.Vancouver,Canada,2004.

    [10]Wallach H.Topic modeling:beyond bag-of-words[C]∥Proceeding of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,2006:977-984.

    [11]張晨逸,孫建伶,丁軼群.基于MB-LDA 模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.Zhang Chen-yi,Sun Jian-ling,Ding Yi-qun.Topic mining for microblog based on MB-LDA model[J].Journal of Computer Research and Development,2011,48(10):1795-1802.

    [12]韓曉暉,馬軍,邵海敏,等.一種基于LDA 的Web論壇低質(zhì)量回貼檢測(cè)方法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(9):1937-1946.Han Xiao-h(huán)ui,Ma Jun,Shao Hai-min,et al.An LDA based approach to detect the low-quality reply posts in web forums[J].Journal of Computer Research and Development,2012,49(9):1937-1946.

    [13]Blei D M,McAuliffe J.Supervised topic models[C]∥Advances in Neural Information Processing Systems(NIPS).Vancouver,Canada,2008.

    [14]Steyvers M,Smyth P,Rosen-Zvi M,et al.Probabilistic author-topic models for information discovery[C]∥Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Seattle,Washington,2004:306-315.

    [15]McCallum A,Corrada-Emmanuel A,Wang X.The author recipient-topic model for topic and role discovery in social networks:experiments with enron and academic email[R].Technical Report UM-CS-2004-096,2004.

    猜你喜歡
    增量個(gè)數(shù)語料庫
    提質(zhì)和增量之間的“辯證”
    怎樣數(shù)出小正方體的個(gè)數(shù)
    《語料庫翻譯文體學(xué)》評(píng)介
    “價(jià)增量減”型應(yīng)用題點(diǎn)撥
    等腰三角形個(gè)數(shù)探索
    怎樣數(shù)出小木塊的個(gè)數(shù)
    怎樣數(shù)出小正方體的個(gè)數(shù)
    把課文的優(yōu)美表達(dá)存進(jìn)語料庫
    基于均衡增量近鄰查詢的位置隱私保護(hù)方法
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    精品久久久久久久末码| 男人操女人黄网站| 精品一区二区三区四区五区乱码| 国产视频内射| 国产久久久一区二区三区| www.精华液| 高潮久久久久久久久久久不卡| 亚洲欧美精品综合一区二区三区| 亚洲国产看品久久| 91av网站免费观看| 91麻豆av在线| 国产精品乱码一区二三区的特点| 无遮挡黄片免费观看| 亚洲av电影在线进入| 别揉我奶头~嗯~啊~动态视频| 天堂影院成人在线观看| 日韩中文字幕欧美一区二区| 欧美黑人欧美精品刺激| 亚洲一卡2卡3卡4卡5卡精品中文| 波多野结衣巨乳人妻| 欧美亚洲日本最大视频资源| 深夜精品福利| 99精品久久久久人妻精品| 日本在线视频免费播放| 一边摸一边做爽爽视频免费| 他把我摸到了高潮在线观看| 一边摸一边抽搐一进一小说| 人妻久久中文字幕网| 啦啦啦韩国在线观看视频| 亚洲人成网站在线播放欧美日韩| 99精品欧美一区二区三区四区| 一边摸一边抽搐一进一小说| 久久国产精品男人的天堂亚洲| 91成年电影在线观看| 久久香蕉激情| 看黄色毛片网站| 91字幕亚洲| 国产黄a三级三级三级人| 99riav亚洲国产免费| 国产成人一区二区三区免费视频网站| 伦理电影免费视频| 中文亚洲av片在线观看爽| 亚洲中文字幕一区二区三区有码在线看 | 亚洲五月婷婷丁香| 欧美一级a爱片免费观看看 | 老汉色av国产亚洲站长工具| 黄色片一级片一级黄色片| 日日摸夜夜添夜夜添小说| 亚洲精品国产区一区二| 女生性感内裤真人,穿戴方法视频| 真人一进一出gif抽搐免费| 黑人欧美特级aaaaaa片| ponron亚洲| 国产欧美日韩精品亚洲av| 制服诱惑二区| 99国产精品99久久久久| 亚洲av成人不卡在线观看播放网| av在线天堂中文字幕| 国产视频内射| www日本在线高清视频| 亚洲国产精品999在线| 国产黄色小视频在线观看| 国产视频内射| 757午夜福利合集在线观看| 91成人精品电影| 国产成年人精品一区二区| 一本久久中文字幕| 久久 成人 亚洲| 亚洲国产欧美日韩在线播放| 国产精品自产拍在线观看55亚洲| 成熟少妇高潮喷水视频| 精品熟女少妇八av免费久了| 性色av乱码一区二区三区2| 国产区一区二久久| 老熟妇乱子伦视频在线观看| 国产免费av片在线观看野外av| 亚洲欧美一区二区三区黑人| 人妻久久中文字幕网| 免费无遮挡裸体视频| 一区福利在线观看| 大香蕉久久成人网| 国产成人av激情在线播放| 久久精品国产综合久久久| 三级毛片av免费| 19禁男女啪啪无遮挡网站| 长腿黑丝高跟| 免费高清在线观看日韩| 国产成人影院久久av| 三级毛片av免费| svipshipincom国产片| 国产精品野战在线观看| 国产精品一区二区精品视频观看| 每晚都被弄得嗷嗷叫到高潮| 久久精品夜夜夜夜夜久久蜜豆 | 免费在线观看影片大全网站| 搡老岳熟女国产| 美女高潮到喷水免费观看| 久久精品91无色码中文字幕| 欧美色欧美亚洲另类二区| 亚洲在线自拍视频| 白带黄色成豆腐渣| 婷婷精品国产亚洲av在线| 免费高清视频大片| 亚洲精品久久国产高清桃花| 三级毛片av免费| 亚洲在线自拍视频| 波多野结衣高清无吗| 俄罗斯特黄特色一大片| 伦理电影免费视频| 欧美又色又爽又黄视频| 夜夜爽天天搞| 一级毛片精品| avwww免费| av超薄肉色丝袜交足视频| 91大片在线观看| 黄色 视频免费看| 亚洲无线在线观看| 高清在线国产一区| 12—13女人毛片做爰片一| 亚洲无线在线观看| 精品日产1卡2卡| 日本成人三级电影网站| 视频区欧美日本亚洲| 97超级碰碰碰精品色视频在线观看| 国产成+人综合+亚洲专区| 午夜福利欧美成人| 后天国语完整版免费观看| 色综合婷婷激情| 色在线成人网| 色精品久久人妻99蜜桃| 看片在线看免费视频| 国产野战对白在线观看| 俺也久久电影网| 一级毛片女人18水好多| 一级a爱片免费观看的视频| 亚洲精华国产精华精| 日本一本二区三区精品| 波多野结衣高清无吗| 日日干狠狠操夜夜爽| 亚洲欧洲精品一区二区精品久久久| 在线观看免费视频日本深夜| 嫩草影院精品99| 一卡2卡三卡四卡精品乱码亚洲| 精品少妇一区二区三区视频日本电影| 午夜福利免费观看在线| 成人18禁在线播放| 午夜免费成人在线视频| 母亲3免费完整高清在线观看| xxx96com| 亚洲自拍偷在线| 国产精品 国内视频| 啦啦啦观看免费观看视频高清| 嫩草影视91久久| 亚洲欧美一区二区三区黑人| 国产成人av激情在线播放| 久久欧美精品欧美久久欧美| 精品久久久久久久末码| 亚洲欧洲精品一区二区精品久久久| 亚洲精品在线美女| 国产伦人伦偷精品视频| 精品第一国产精品| 村上凉子中文字幕在线| 这个男人来自地球电影免费观看| 日日爽夜夜爽网站| 一区二区日韩欧美中文字幕| 99久久精品国产亚洲精品| 成人永久免费在线观看视频| 国产精品免费一区二区三区在线| x7x7x7水蜜桃| 久久精品91蜜桃| 天天添夜夜摸| 人人澡人人妻人| 亚洲av成人不卡在线观看播放网| 国产精品 国内视频| 国产激情欧美一区二区| 搡老岳熟女国产| 日韩大码丰满熟妇| 色综合婷婷激情| 久久亚洲精品不卡| av片东京热男人的天堂| 国产午夜福利久久久久久| 亚洲av电影在线进入| 成人亚洲精品av一区二区| 国产午夜福利久久久久久| 欧美性猛交╳xxx乱大交人| 精品久久久久久成人av| 亚洲国产欧美日韩在线播放| 国产伦人伦偷精品视频| 天堂影院成人在线观看| 久久欧美精品欧美久久欧美| 国产精品 国内视频| 一级毛片精品| 亚洲第一青青草原| 国产区一区二久久| 一进一出抽搐gif免费好疼| 日本a在线网址| 久久热在线av| 男人舔女人下体高潮全视频| 真人一进一出gif抽搐免费| 老司机深夜福利视频在线观看| 国产精品免费一区二区三区在线| 成人三级做爰电影| 午夜福利在线在线| 精品久久久久久久末码| 熟妇人妻久久中文字幕3abv| 99在线人妻在线中文字幕| 久久久久国产一级毛片高清牌| 在线观看www视频免费| 极品教师在线免费播放| 亚洲欧美日韩高清在线视频| 欧美成狂野欧美在线观看| 国产激情欧美一区二区| 免费电影在线观看免费观看| 婷婷丁香在线五月| 亚洲三区欧美一区| 99国产精品一区二区蜜桃av| 欧美日本视频| 亚洲精品美女久久av网站| 特大巨黑吊av在线直播 | 久久这里只有精品19| 色婷婷久久久亚洲欧美| 精品国产美女av久久久久小说| 可以在线观看的亚洲视频| 午夜日韩欧美国产| 村上凉子中文字幕在线| 99久久国产精品久久久| 少妇熟女aⅴ在线视频| 国产成人系列免费观看| 99精品久久久久人妻精品| 美女国产高潮福利片在线看| 久久婷婷人人爽人人干人人爱| 久久天躁狠狠躁夜夜2o2o| 国产成人欧美在线观看| 国产激情偷乱视频一区二区| 欧美+亚洲+日韩+国产| 久久人妻福利社区极品人妻图片| 两人在一起打扑克的视频| 国产精品乱码一区二三区的特点| 一a级毛片在线观看| 狠狠狠狠99中文字幕| 成年免费大片在线观看| 亚洲专区字幕在线| 99精品欧美一区二区三区四区| 欧美一级毛片孕妇| 999久久久国产精品视频| 麻豆av在线久日| 女人爽到高潮嗷嗷叫在线视频| 亚洲成人国产一区在线观看| 午夜成年电影在线免费观看| 成人三级黄色视频| 欧美日韩福利视频一区二区| 日本黄色视频三级网站网址| 中亚洲国语对白在线视频| 香蕉久久夜色| or卡值多少钱| 91老司机精品| 少妇被粗大的猛进出69影院| 在线看三级毛片| 少妇 在线观看| 少妇裸体淫交视频免费看高清 | 亚洲专区字幕在线| 听说在线观看完整版免费高清| 91老司机精品| 亚洲,欧美精品.| 中出人妻视频一区二区| 亚洲真实伦在线观看| 一本久久中文字幕| 麻豆成人av在线观看| 国产精品精品国产色婷婷| 国产精品一区二区免费欧美| 亚洲国产精品999在线| 可以在线观看的亚洲视频| 熟女电影av网| av视频在线观看入口| 91老司机精品| 在线免费观看的www视频| 亚洲第一欧美日韩一区二区三区| av天堂在线播放| 麻豆国产av国片精品| 久热爱精品视频在线9| 国产精品爽爽va在线观看网站 | 啦啦啦免费观看视频1| 国产精品美女特级片免费视频播放器 | 欧美另类亚洲清纯唯美| 亚洲美女黄片视频| 99久久精品国产亚洲精品| 欧美日韩黄片免| 亚洲aⅴ乱码一区二区在线播放 | 亚洲国产看品久久| 性欧美人与动物交配| 老熟妇仑乱视频hdxx| 这个男人来自地球电影免费观看| 老熟妇乱子伦视频在线观看| 久久久精品欧美日韩精品| 怎么达到女性高潮| 亚洲精品久久成人aⅴ小说| xxxwww97欧美| 老司机靠b影院| 丝袜人妻中文字幕| 欧美日韩精品网址| 日本a在线网址| 韩国av一区二区三区四区| 亚洲av第一区精品v没综合| 色尼玛亚洲综合影院| 精品人妻1区二区| 欧美人与性动交α欧美精品济南到| 久热爱精品视频在线9| 欧美成人性av电影在线观看| 亚洲av成人av| 久久午夜综合久久蜜桃| 欧美午夜高清在线| 国产人伦9x9x在线观看| 国产免费av片在线观看野外av| 婷婷丁香在线五月| 亚洲国产精品999在线| 麻豆国产av国片精品| 久热爱精品视频在线9| 亚洲一码二码三码区别大吗| 久久精品亚洲精品国产色婷小说| a级毛片a级免费在线| 精品久久久久久久久久久久久 | 午夜精品久久久久久毛片777| 欧美不卡视频在线免费观看 | 成年免费大片在线观看| 午夜免费成人在线视频| 久9热在线精品视频| 麻豆成人av在线观看| 久久亚洲真实| 欧美日本视频| 亚洲熟妇中文字幕五十中出| 男女那种视频在线观看| 亚洲精品色激情综合| 亚洲av电影不卡..在线观看| 久久久国产欧美日韩av| 亚洲免费av在线视频| 伊人久久大香线蕉亚洲五| 给我免费播放毛片高清在线观看| 在线观看66精品国产| 男女视频在线观看网站免费 | 欧美在线黄色| 欧美黄色淫秽网站| 波多野结衣av一区二区av| 亚洲人成电影免费在线| 999久久久精品免费观看国产| 在线观看午夜福利视频| 国产1区2区3区精品| 国产成人系列免费观看| 777久久人妻少妇嫩草av网站| 欧美黑人精品巨大| 制服诱惑二区| 无限看片的www在线观看| 亚洲精品色激情综合| 精品欧美一区二区三区在线| 欧美三级亚洲精品| 久久久国产精品麻豆| 人妻久久中文字幕网| 亚洲一区二区三区色噜噜| 国产精品av久久久久免费| 精品日产1卡2卡| 精品国产超薄肉色丝袜足j| av在线天堂中文字幕| 久久国产精品人妻蜜桃| 久久精品人妻少妇| 91av网站免费观看| 国产成人一区二区三区免费视频网站| 日韩大尺度精品在线看网址| 大型黄色视频在线免费观看| 黑丝袜美女国产一区| 特大巨黑吊av在线直播 | 变态另类丝袜制服| 久久久久久亚洲精品国产蜜桃av| 国语自产精品视频在线第100页| 国产成年人精品一区二区| 久久久精品国产亚洲av高清涩受| 国产精品国产高清国产av| 黄色视频不卡| 91麻豆av在线| 亚洲精品中文字幕在线视频| 极品教师在线免费播放| 天堂影院成人在线观看| 午夜福利在线在线| 久久天躁狠狠躁夜夜2o2o| 麻豆一二三区av精品| av欧美777| 中文字幕精品亚洲无线码一区 | 国产高清激情床上av| bbb黄色大片| 手机成人av网站| 天天添夜夜摸| 九色国产91popny在线| 香蕉av资源在线| 欧美国产日韩亚洲一区| 久久亚洲精品不卡| 国产片内射在线| 久久天堂一区二区三区四区| 级片在线观看| 久久精品国产清高在天天线| 午夜免费鲁丝| 啦啦啦 在线观看视频| 国产又黄又爽又无遮挡在线| 丰满的人妻完整版| 精品第一国产精品| 99在线人妻在线中文字幕| 成年女人毛片免费观看观看9| 一二三四在线观看免费中文在| 中文字幕精品亚洲无线码一区 | 免费在线观看影片大全网站| 亚洲欧美一区二区三区黑人| 熟女少妇亚洲综合色aaa.| 白带黄色成豆腐渣| 一级a爱片免费观看的视频| 日韩大码丰满熟妇| 国产熟女xx| 1024香蕉在线观看| 夜夜夜夜夜久久久久| 老司机靠b影院| 午夜福利在线观看吧| 国产亚洲精品一区二区www| 变态另类丝袜制服| 国产人伦9x9x在线观看| 中文字幕人成人乱码亚洲影| 精品无人区乱码1区二区| 久久精品91蜜桃| 免费人成视频x8x8入口观看| 中文资源天堂在线| 在线天堂中文资源库| 最近最新中文字幕大全电影3 | 久久久久久久精品吃奶| 可以在线观看毛片的网站| 亚洲成人国产一区在线观看| 亚洲av电影不卡..在线观看| 午夜福利高清视频| 国产亚洲av嫩草精品影院| 少妇 在线观看| 久久久久久久精品吃奶| 国产伦一二天堂av在线观看| 琪琪午夜伦伦电影理论片6080| 黄色a级毛片大全视频| 国产在线观看jvid| 一卡2卡三卡四卡精品乱码亚洲| 少妇被粗大的猛进出69影院| 欧美最黄视频在线播放免费| 91av网站免费观看| 日本成人三级电影网站| av福利片在线| 国产在线观看jvid| 最近最新中文字幕大全电影3 | 国产单亲对白刺激| 久久久国产欧美日韩av| 19禁男女啪啪无遮挡网站| 欧美激情 高清一区二区三区| 久久中文字幕人妻熟女| 男女那种视频在线观看| 国产精品香港三级国产av潘金莲| 日韩一卡2卡3卡4卡2021年| 黄色 视频免费看| 在线观看免费日韩欧美大片| 精品福利观看| 啪啪无遮挡十八禁网站| 日韩精品中文字幕看吧| 日韩视频一区二区在线观看| 日日爽夜夜爽网站| 亚洲男人的天堂狠狠| 亚洲精品国产区一区二| 天堂√8在线中文| 长腿黑丝高跟| 91老司机精品| 久久婷婷人人爽人人干人人爱| 国产区一区二久久| 精品人妻1区二区| 黄色片一级片一级黄色片| 熟女电影av网| 国产精华一区二区三区| 久久香蕉精品热| 禁无遮挡网站| 老司机靠b影院| 久99久视频精品免费| 动漫黄色视频在线观看| 一边摸一边抽搐一进一小说| 国语自产精品视频在线第100页| 国产精品二区激情视频| 久久人妻av系列| 国产免费av片在线观看野外av| 亚洲免费av在线视频| 国产男靠女视频免费网站| 久久这里只有精品19| 午夜福利高清视频| 一进一出抽搐动态| 亚洲精品国产区一区二| 久久久久九九精品影院| 白带黄色成豆腐渣| 精品国产乱码久久久久久男人| 一级毛片精品| 亚洲男人天堂网一区| 国产久久久一区二区三区| 日本 av在线| 国产亚洲欧美精品永久| 国产真人三级小视频在线观看| 国产视频内射| 神马国产精品三级电影在线观看 | 久久精品国产亚洲av高清一级| 国产精品亚洲美女久久久| 少妇裸体淫交视频免费看高清 | 最近最新中文字幕大全电影3 | 久久天躁狠狠躁夜夜2o2o| 757午夜福利合集在线观看| 中文字幕另类日韩欧美亚洲嫩草| 精品久久久久久久人妻蜜臀av| 亚洲成av片中文字幕在线观看| 国产在线精品亚洲第一网站| 国产欧美日韩一区二区三| 国产高清videossex| 1024香蕉在线观看| 久久午夜综合久久蜜桃| 欧美午夜高清在线| 丰满人妻熟妇乱又伦精品不卡| 精品国产一区二区三区四区第35| 久久精品国产99精品国产亚洲性色| 人人妻人人澡欧美一区二区| 免费在线观看成人毛片| 国产野战对白在线观看| 夜夜夜夜夜久久久久| 欧美av亚洲av综合av国产av| 色综合欧美亚洲国产小说| 亚洲国产看品久久| 国产av一区在线观看免费| 男女下面进入的视频免费午夜 | 精品少妇一区二区三区视频日本电影| a在线观看视频网站| 日本成人三级电影网站| 一级片免费观看大全| 精品少妇一区二区三区视频日本电影| 这个男人来自地球电影免费观看| 中文亚洲av片在线观看爽| 精品久久久久久久末码| 在线观看66精品国产| 麻豆av在线久日| 在线观看免费视频日本深夜| 欧美成人一区二区免费高清观看 | 99精品久久久久人妻精品| 每晚都被弄得嗷嗷叫到高潮| 亚洲一卡2卡3卡4卡5卡精品中文| 91字幕亚洲| 黄色片一级片一级黄色片| 日韩精品青青久久久久久| 国产视频内射| www日本黄色视频网| www国产在线视频色| 国产真人三级小视频在线观看| 少妇的丰满在线观看| 久久久国产欧美日韩av| 成熟少妇高潮喷水视频| 国产高清激情床上av| 国产aⅴ精品一区二区三区波| 亚洲男人天堂网一区| 精品久久久久久久人妻蜜臀av| 亚洲无线在线观看| 日日摸夜夜添夜夜添小说| 免费高清视频大片| 精品第一国产精品| 黄色视频不卡| 制服人妻中文乱码| 十八禁网站免费在线| 国产精品永久免费网站| 最好的美女福利视频网| 欧美丝袜亚洲另类 | 国产av不卡久久| 真人做人爱边吃奶动态| 国产精品av久久久久免费| 窝窝影院91人妻| 日本精品一区二区三区蜜桃| 欧美一级a爱片免费观看看 | 18禁国产床啪视频网站| 久久国产精品人妻蜜桃| 亚洲av美国av| 91老司机精品| 国产蜜桃级精品一区二区三区| 日本三级黄在线观看| 亚洲美女黄片视频| 国产av一区在线观看免费| 一二三四社区在线视频社区8| 国产人伦9x9x在线观看| 美女高潮喷水抽搐中文字幕| 最新美女视频免费是黄的| 美女高潮到喷水免费观看| 亚洲av成人一区二区三| 久久人妻福利社区极品人妻图片| 亚洲专区字幕在线| 视频在线观看一区二区三区| 国产精品1区2区在线观看.| 又大又爽又粗| 99久久久亚洲精品蜜臀av| 成人手机av| 人人妻,人人澡人人爽秒播| 欧美色欧美亚洲另类二区| 精品国产美女av久久久久小说| 欧美一级a爱片免费观看看 | 成人免费观看视频高清| 精品卡一卡二卡四卡免费| 欧美日韩亚洲综合一区二区三区_| 亚洲自偷自拍图片 自拍| 欧美zozozo另类| 一边摸一边做爽爽视频免费| 欧美zozozo另类| 亚洲人成电影免费在线| ponron亚洲| 亚洲av成人不卡在线观看播放网| 美女 人体艺术 gogo| 久久欧美精品欧美久久欧美| 精品久久久久久成人av| 在线观看www视频免费| 亚洲一区高清亚洲精品| 亚洲真实伦在线观看| 精品久久久久久成人av| 国产私拍福利视频在线观看|