• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    抑制背景噪聲的LDA子話(huà)題挖掘算法*

    2017-06-21 15:07:18李靜遠(yuǎn)丘志杰劉悅程學(xué)旗任彥
    關(guān)鍵詞:語(yǔ)料文檔背景

    李靜遠(yuǎn) 丘志杰 劉悅 程學(xué)旗 任彥

    (1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所∥中國(guó)科學(xué)院 網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

    抑制背景噪聲的LDA子話(huà)題挖掘算法*

    李靜遠(yuǎn)1丘志杰1劉悅1程學(xué)旗1任彥2

    (1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所∥中國(guó)科學(xué)院 網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

    專(zhuān)題文章集合是一些擁有相似背景知識(shí)的文章集合.為了更好地從專(zhuān)題文章集合內(nèi)部的復(fù)雜信息關(guān)聯(lián)中高效挖掘子話(huà)題信息,文中提出了抑制背景噪聲的線(xiàn)性判別分析(LDA)子話(huà)題挖掘算法BLDA,通過(guò)預(yù)先抽取專(zhuān)題文檔集合的共同背景知識(shí)、在迭代過(guò)程中重設(shè)關(guān)鍵詞的產(chǎn)生等方式提高子話(huà)題抽取的準(zhǔn)確程度.在微信公眾賬號(hào)文章上的系列實(shí)驗(yàn)證明,BLDA算法針對(duì)有共同背景的專(zhuān)題文章集合的聚類(lèi)結(jié)果顯著優(yōu)于傳統(tǒng)的LDA算法,其中主題召回率提高了170%,Purity聚類(lèi)指標(biāo)提高了143%,NMI聚類(lèi)指標(biāo)提高了160%.

    子話(huà)題挖掘;線(xiàn)性判別分析;背景噪聲抑制

    話(huà)題的挖掘與分析一直是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究方向,在輿情分析等領(lǐng)域具有廣泛的應(yīng)用.由在線(xiàn)社交網(wǎng)絡(luò)的快速發(fā)展引發(fā)的網(wǎng)絡(luò)信息爆炸,使得普通用戶(hù)在快速生成的巨量信息面前顯得無(wú)所適從,因此當(dāng)前對(duì)在線(xiàn)社交網(wǎng)絡(luò)上的信息表示普遍出現(xiàn)了分類(lèi)化與精細(xì)化趨勢(shì),信息分布更加細(xì)致緊湊,如微博中的HashTag等標(biāo)簽機(jī)制,以及微信公眾賬號(hào)的相似公眾號(hào)專(zhuān)題文章集合機(jī)制等.對(duì)于這部分專(zhuān)題信息進(jìn)行更精細(xì)化的文章聚類(lèi)整理的應(yīng)用需求不斷地增大,對(duì)專(zhuān)題文章的進(jìn)一步子話(huà)題挖掘成為了目前工業(yè)界和學(xué)術(shù)界關(guān)心的熱點(diǎn)問(wèn)題.

    傳統(tǒng)的話(huà)題分析方法使用文本聚類(lèi)和主題模型等策略,這些策略具有普適性,但是對(duì)于分類(lèi)后的更加細(xì)致緊湊的專(zhuān)題文章的話(huà)題挖掘效果卻不盡如人意.最普遍的現(xiàn)象是,普通的話(huà)題挖掘方法對(duì)于具有相同背景的文章集合的辨識(shí)度不高,產(chǎn)生的話(huà)題結(jié)果區(qū)分度受限.當(dāng)前子話(huà)題分析的主流方法聚焦于找出專(zhuān)題內(nèi)部差異化的主題信息,這部分工作的主要內(nèi)容就是在某些擁有大的共同背景的文章中找出文章之間的差異性,每一個(gè)差異主題形成一個(gè)子話(huà)題,并找出每個(gè)子話(huà)題的代表關(guān)鍵詞.正是由于這些文章之間有一個(gè)公共的背景,所以子話(huà)題分析與話(huà)題分析的工作存在實(shí)質(zhì)上的區(qū)別,例如使用線(xiàn)性判別分析(LDA)主題模型(以下簡(jiǎn)稱(chēng)LDA主題模型)進(jìn)行子話(huà)題分析,由于所有的文章都存在一個(gè)相似的背景,所以使用LDA主題模型不能夠徹底地將信息進(jìn)行細(xì)致的分割,有些不同的子話(huà)題的文章有可能會(huì)因?yàn)橛泄餐谋尘爸R(shí),而使得他們的差異性被淹沒(méi),捕獲的主題信息和主題詞由于相似度過(guò)高而被納入同一個(gè)主題下.

    以某微信公眾賬號(hào)發(fā)布的文章集合為例,文中收集了報(bào)道領(lǐng)導(dǎo)人在2016年2月至3月間相關(guān)工作的3 487篇文章,它們中有與反腐廉政相關(guān)的,也有與臺(tái)灣問(wèn)題相關(guān)的,還有與食品安全相關(guān)的,也有與政府工作相關(guān)的等等.這些文章有很多的公共的背景知識(shí):直接使用GibbsLDA++工具進(jìn)行子話(huà)題分析的結(jié)果可以發(fā)現(xiàn),其中有很多挖掘出的主題關(guān)鍵詞詞組,它們之間的相似程度非常高,幾乎每一個(gè)主題中都包含了“中國(guó)”、“經(jīng)濟(jì)”、“發(fā)展”等字樣.若使用Jaccard- Distance來(lái)度量主題關(guān)鍵詞詞組的差異性,其平均主題差異性只有0.125 6.

    目前關(guān)于子話(huà)題、衍生話(huà)題的系統(tǒng)性研究工作還較少,相關(guān)的文獻(xiàn)亦較為不足.文中提出一種針對(duì)專(zhuān)題文章集合進(jìn)行子話(huà)題挖掘的算法BLDA,從語(yǔ)料組成結(jié)構(gòu)考慮并融入去除背景噪聲的思想,擴(kuò)展了LDA算法,該方法支持學(xué)習(xí)文章間的共同背景知識(shí),同時(shí)獲取到差異化的子話(huà)題信息.

    近年來(lái)國(guó)內(nèi)外都針對(duì)話(huà)題挖掘算法展開(kāi)了相關(guān)的研究,并取得了一定的進(jìn)展,其中熱點(diǎn)話(huà)題的挖掘算法可以歸結(jié)為兩類(lèi).第一類(lèi)是使用分類(lèi)和聚類(lèi)的算法進(jìn)行熱點(diǎn)話(huà)題挖掘.Yang等[1]提出了組平均聚類(lèi)算法以改進(jìn)層次聚類(lèi)算法,進(jìn)行回顧式話(huà)題發(fā)現(xiàn).Chaubet[2]研究了如何利用DBSCAN算法檢測(cè)比較流行的話(huà)題,最終的實(shí)驗(yàn)效果并未能夠達(dá)到預(yù)期的程度.Alex等[3]提出了Single- pass的聚類(lèi)算法,這種算法非常適合于在線(xiàn)的話(huà)題檢測(cè),在較低的算法時(shí)間復(fù)雜度上能夠給出可接受的話(huà)題挖掘結(jié)果.

    第二類(lèi)方法是傳統(tǒng)的話(huà)題模型,使用LDA模型[4]直接針對(duì)微博消息建立話(huà)題模型,從而抽取相關(guān)的話(huà)題信息.Ramage等[5]提出了一個(gè)半監(jiān)督的學(xué)習(xí)模型L- LDA,可以用來(lái)學(xué)習(xí)用戶(hù)的興趣分布.Asuncion等[6]在分布式算法基礎(chǔ)上提出了改進(jìn)的LDA以及層次化的狄里克雷過(guò)程(HDP),可以使用它來(lái)進(jìn)行話(huà)題分析.Blei等[7]提出了一個(gè)新的話(huà)題模型,這個(gè)模型是相關(guān)主題模型(CTM),它通過(guò)正態(tài)分布建模話(huà)題之間的相關(guān)性.Sankaranarayanan等[8]設(shè)計(jì)并且實(shí)現(xiàn)了一個(gè)面向新聞的話(huà)題挖掘系統(tǒng),稱(chēng)為T(mén)witterStand,可以用它來(lái)捕捉時(shí)下熱門(mén)的Twitter話(huà)題新聞.有人研究通過(guò)分析微博內(nèi)容自動(dòng)產(chǎn)生有關(guān)微博的內(nèi)容總結(jié),這也是話(huà)題挖掘的一種研究方法.譬如Sharifi等[9]采用單個(gè)句子來(lái)總結(jié)微博話(huà)題,幫助用戶(hù)快速地理解熱門(mén)話(huà)題.在此基礎(chǔ)上,Inouye[10]提出使用多個(gè)句子代表一個(gè)話(huà)題的方法,主要是為了克服單個(gè)句子對(duì)話(huà)題信息表達(dá)不夠的缺陷.

    李勁等[11]提出了基于特定領(lǐng)域的中文微博熱點(diǎn)話(huà)題挖掘系統(tǒng)(BTopicMiner),他們認(rèn)為為了解決微博信息固有數(shù)據(jù)稀疏性問(wèn)題,可以先使用文本聚類(lèi)的方法將內(nèi)容相關(guān)的微博消息合并為微博文檔;同時(shí)他們認(rèn)為微博之間的跟帖關(guān)系蘊(yùn)含了話(huà)題的關(guān)聯(lián)性,并以此為依據(jù),在傳統(tǒng)的LDA主題模型上進(jìn)行擴(kuò)展以建模微博之間的跟帖關(guān)系;最后利用互信息(MI)計(jì)算被抽取出的話(huà)題的話(huà)題詞匯用于熱點(diǎn)話(huà)題推薦.

    然而,以上研究沒(méi)有聚焦于已分類(lèi)的專(zhuān)題內(nèi)部的子話(huà)題的進(jìn)一步分析工作,亦即未關(guān)注背景相同文檔集合的進(jìn)一步細(xì)分.與筆者研究目標(biāo)最相近的工作為周學(xué)廣等[12]所提出的基于依存連接權(quán)vsm的子話(huà)題檢測(cè)跟蹤方法,其采用的領(lǐng)域詞典加權(quán)、時(shí)間閾值衰減等核心思路適合于在限定信息領(lǐng)域內(nèi)快速發(fā)現(xiàn)熱點(diǎn);但對(duì)于非限定領(lǐng)域的應(yīng)用場(chǎng)景,由于無(wú)法大規(guī)模構(gòu)建未知領(lǐng)域詞典,該方法無(wú)法應(yīng)用.文中提出了去背景噪聲的LDA子話(huà)題挖掘算法BLDA,引入背景計(jì)算模塊,可在無(wú)領(lǐng)域限定的情況下進(jìn)行差異化的子話(huà)題挖掘.

    1 BLDA算法

    1.1 融入去背景噪聲的Gibbs采樣過(guò)程

    LDA最初被應(yīng)用于文檔的主題模型的分析,LDA是一個(gè)產(chǎn)生式模型,筆者認(rèn)為每一篇文檔都是由多個(gè)主題構(gòu)成的,并且每個(gè)詞語(yǔ)的生成過(guò)程都是先生成主題然后再根據(jù)主題生成這個(gè)詞語(yǔ),假設(shè)一篇文檔有K個(gè)主題,那么一個(gè)詞語(yǔ)的生成過(guò)程可能就有K條路徑,首先隨機(jī)地在這K個(gè)主題中選取一個(gè)主題,然后根據(jù)這個(gè)主題的詞分布向量來(lái)生成這個(gè)詞語(yǔ).原始的LDA認(rèn)為文檔中的主題信息分布符合多項(xiàng)式分布,同時(shí)主題中的詞語(yǔ)分布也是符合多項(xiàng)式分布的,為了降低過(guò)擬合的可能性,LDA給這兩個(gè)分布都添加了一個(gè)符合Dirichlet分布的共軛先驗(yàn),此處M代表文檔的總數(shù),K代表主題的個(gè)數(shù).

    LDA的原始論文使用變分-EM算法估計(jì)未知參數(shù),之后有研究者使用Gibbs Sampling[13]策略實(shí)現(xiàn)了對(duì)LDA未知參數(shù)的估計(jì).Gibbs Sampling是馬爾科夫鏈蒙特卡洛方法(MCMC)中用來(lái)獲取一系列近似等于指定多維概率分布觀察樣本的算法.若w是可以觀察到的已知變量,α和β是經(jīng)驗(yàn)超參數(shù),其他的變量z、θ和φ都是未知的隱含變量,N代表文章中的單詞個(gè)數(shù),由此可以寫(xiě)出所有變量的聯(lián)合概率分布:

    p(wi,zi,θi,φ|α,β)=

    (1)

    其中,α產(chǎn)生主題分布θ,主題分布θ確定具體的主題,β產(chǎn)生詞語(yǔ)分布φ,詞語(yǔ)分布φ確定詞.因此聯(lián)合分布為:

    p(w,z|α,β)=p(w|z,β)p(z|α)

    (2)

    式(2)中的第1項(xiàng)因子代表根據(jù)主題和詞分布的先驗(yàn)參數(shù)去進(jìn)行詞語(yǔ)采樣,第2項(xiàng)因子代表根據(jù)主題的先驗(yàn)參數(shù)進(jìn)行主題采樣的過(guò)程.兩個(gè)因子可以獨(dú)立計(jì)算.

    第1項(xiàng)因子p(w|z,β)可以根據(jù)確定的主題z和先驗(yàn)分布β取樣得到的詞語(yǔ)分布φ產(chǎn)生,如式(3)所示:

    (3)

    (4)

    式中:t代表單詞的全局id;k代表主題下標(biāo);V代表詞匯表的大小.考慮到φ是由超參數(shù)為β的Dirichlet分布生成的,所以可以對(duì)φ進(jìn)行積分,然后得到真實(shí)分布:

    p(w|z,β)=∫p(w|z,φ)p(φ|β)dφ=

    其中,nz是主題為z的詞頻向量,每一項(xiàng)都代表該詞語(yǔ)的出現(xiàn)頻次.

    使用相同的方法可以得到第2項(xiàng)因子的計(jì)算公式:

    p(z|α)=∫p(z|θ)p(θ|α)dθ=

    其中:m代表文檔下標(biāo);nm代表第m篇文檔的主題分布向量,每一項(xiàng)代表該主題在文檔中出現(xiàn)的頻次.

    將兩個(gè)部分結(jié)合起來(lái)就可以得到p(z,w)的聯(lián)合分布概率:

    (7)

    有了聯(lián)合分布之后,就可以通過(guò)聯(lián)合分布來(lái)計(jì)算在給定可觀測(cè)變量w下隱變量z的條件分布p(z|w),如式(8)所示,αk代表超參數(shù)的第k項(xiàng),實(shí)現(xiàn)時(shí)依據(jù)經(jīng)驗(yàn)值設(shè)定,βt亦是如此.

    (8)

    從式(8)中可以對(duì)每個(gè)單詞的每個(gè)主題概率進(jìn)行計(jì)算,然后對(duì)這K個(gè)路徑采樣.以上步驟是GibbsSampling算法的關(guān)鍵,有了以上的采樣結(jié)果之后就可以計(jì)算最后面的文檔主題矩陣和主題單詞矩陣.

    去背景化的LDA與原始的LDA算法存在的一個(gè)重要的區(qū)別就是去背景化的LDA認(rèn)為一個(gè)詞語(yǔ)有可能來(lái)自背景語(yǔ)料也可能來(lái)自于差異化的主題模型中,背景語(yǔ)料詞語(yǔ)分布情況在主題模型的迭代過(guò)程中不會(huì)發(fā)生變化,背景語(yǔ)料的詞語(yǔ)分布情況可以提前通過(guò)對(duì)整體語(yǔ)料的統(tǒng)計(jì)而計(jì)算出來(lái),而差異化的主題模型的詞語(yǔ)的概率分布則需要在后面的更新迭代的過(guò)程中計(jì)算出來(lái).根據(jù)式(8)可以得到原始的LDA的一個(gè)詞語(yǔ)生成的過(guò)程,如圖1所示.這個(gè)圖中每一個(gè)詞語(yǔ)在采樣的過(guò)程中可以有K條路徑.圖中d代表文檔,z代表主題,不同的主題下標(biāo)1至K代表不同的主題,w代表生詞的詞語(yǔ).

    圖1 文檔-主題-詞的生成路徑

    但是去背景噪聲的LDA的采樣過(guò)程將發(fā)生變化,采樣的路徑中多了一條來(lái)自背景主題的可能路徑.具體的可以參考圖2.可以看出文檔d在對(duì)詞語(yǔ)進(jìn)行采樣的過(guò)程中,要先進(jìn)行一次擲骰子,可以考慮這個(gè)過(guò)程為一次伯努利實(shí)驗(yàn),根據(jù)擲骰子的結(jié)果判定這個(gè)詞語(yǔ)的主題采樣過(guò)程,并根據(jù)投擲骰子的結(jié)果進(jìn)行采樣策略的選擇.最后筆者可以對(duì)K+1條路徑直接進(jìn)行概率計(jì)算,然后進(jìn)行采樣.

    圖2 考慮背景噪聲的詞語(yǔ)生成過(guò)程

    1.2 BLDA算法

    表1 BLDA參數(shù)釋義

    背景模塊中的單詞分布向量f需要在BLDA算法開(kāi)始迭代之前進(jìn)行統(tǒng)計(jì),最簡(jiǎn)單的方法是直接統(tǒng)計(jì)所有單詞出現(xiàn)的個(gè)數(shù),維護(hù)一個(gè)V維的詞頻向量列表,然后加入平滑項(xiàng),最后歸一化.這部分知識(shí)只需要再統(tǒng)計(jì)一次,后面就不會(huì)再發(fā)生改變了.

    BLDA算法的關(guān)鍵就是認(rèn)定文檔的內(nèi)容有可能來(lái)自背景知識(shí),也可能來(lái)自差異化的話(huà)題之中.重新設(shè)定產(chǎn)生詞語(yǔ)的過(guò)程:

    (2)分別計(jì)算這個(gè)詞語(yǔ)來(lái)自背景語(yǔ)料的生成概率和這個(gè)詞語(yǔ)來(lái)各個(gè)自差異化的子話(huà)題之中的生成概率;

    (3)設(shè)定規(guī)則.如果這個(gè)詞語(yǔ)來(lái)自背景語(yǔ)料的生成概率超過(guò)某個(gè)閾值,那么直接認(rèn)為這個(gè)詞語(yǔ)來(lái)自背景語(yǔ)料,那么這個(gè)詞將在后續(xù)計(jì)算文檔的主題概率和主題的詞語(yǔ)概率的過(guò)程中被忽略.否則,如果背景語(yǔ)料生成這個(gè)詞的概率不超過(guò)某個(gè)閾值,就將背景生成路徑也加入采樣路徑.其中單詞各個(gè)主題的概率值和背景模塊概率值計(jì)算公式如式(9)和式(10)所示,歸一化計(jì)算公式如式(11)和式(12)所示,其中b表示背景模塊.

    p(zi=k|z,w)=

    (9)

    p(zi=b|z,w)=φt

    (10)

    (11)

    (12)

    2 實(shí)驗(yàn)結(jié)果與分析

    為了驗(yàn)證BLDA算法的有效性,使用BLDA算法學(xué)習(xí)專(zhuān)題文章集合的子話(huà)題信息,挖掘出能夠充分代表該子話(huà)題的主題信息.實(shí)際上就是要驗(yàn)證兩個(gè)方面的效果:BLDA算法的主題挖掘能力、以及BLDA算法的主題聚類(lèi)能力.實(shí)驗(yàn)數(shù)據(jù)取自于微信公眾賬號(hào)發(fā)表的文章,從2016年2月25日到2月28日的所有的包含政治家等相關(guān)詞匯的文章作為我們的訓(xùn)練語(yǔ)料,將實(shí)驗(yàn)數(shù)據(jù)人工標(biāo)注為20個(gè)類(lèi)別,總共包含3 487篇文檔.

    2.1 BLDA主題挖掘能力結(jié)果分析

    文中針對(duì)該語(yǔ)料將分別使用普通的LDA算法和BLDA算法運(yùn)行,觀察這兩種算法在上面標(biāo)注數(shù)據(jù)集合上的主題挖掘結(jié)果,并且提供客觀的評(píng)價(jià)指標(biāo),比較兩種算法針對(duì)專(zhuān)題文章的主題挖掘能力.

    BLDA算法抽取的主題關(guān)鍵詞的結(jié)果如表2所示,由于篇幅有限,這里只給出了前12個(gè)主題關(guān)鍵詞列表.筆者通過(guò)直接觀察BLDA算法抽取的主題關(guān)鍵詞詞組,發(fā)現(xiàn)不同的主題之間的關(guān)鍵詞關(guān)聯(lián)性很小,后面筆者會(huì)給出更加細(xì)致化的量化分析結(jié)果.

    表2 BLDA算法抽取的主題關(guān)鍵詞結(jié)果

    本實(shí)驗(yàn)的結(jié)果通過(guò)人工評(píng)判的方式對(duì)所抽取的主題關(guān)鍵詞進(jìn)行分析,評(píng)判的標(biāo)準(zhǔn)是主題召回率:每次試驗(yàn)時(shí)不同的模型都會(huì)分別給每個(gè)主題20個(gè)關(guān)鍵詞,當(dāng)作是該主題的代表,通過(guò)人工分析判定這20個(gè)關(guān)鍵詞能否代表一個(gè)主題信息,然后去評(píng)判能夠召回多少原始的主題信息.

    可見(jiàn),針對(duì)這批有相同背景的語(yǔ)料,BLDA的主題召回率比LDA的主題召回率平均提高了很多,并且隨著迭代次數(shù)的增加,BLDA的平均主題召回率也會(huì)相應(yīng)的提高,直到趨近收斂.從實(shí)驗(yàn)結(jié)果中也可以分析得出,背景化模塊對(duì)于主題發(fā)現(xiàn)有很大的幫助作用,算法的主題平均召回率相比于LDA的主題召回率提高了170%.

    第2個(gè)主題關(guān)鍵詞的評(píng)判標(biāo)準(zhǔn)是,不同主題關(guān)鍵詞詞組之間的差異化信息量,這個(gè)也是筆者使用去背景化思想的最主要目的.這個(gè)指標(biāo)比較不好測(cè)試,文中設(shè)定使用平均相似度s作為指標(biāo):

    (13)

    其中的關(guān)鍵詞詞組相似度信息的計(jì)算方法就是計(jì)算它們之間的同現(xiàn)詞的比例,這種相似度的統(tǒng)計(jì)就是Jaccard相似度[14].在參數(shù)設(shè)定與前一組實(shí)驗(yàn)一致的情況下,BLDA和LDA在300、400、500和600次迭代后的平均相似度依次分別為:0.125 439、0.121 930、0.113 158、0.124 561,以及0.772 220、0.759 357、0.714 327、0.637 719.可見(jiàn),BLDA抽取的關(guān)鍵詞詞組的平均相似度明顯低于LDA抽取的結(jié)果,平均相似度平均降低了495%,這主要是因?yàn)楸尘澳K的信息在最終的統(tǒng)計(jì)過(guò)程中被剔除,留下了差異化比較大的話(huà)題信息.

    2.2 BLDA聚類(lèi)能力結(jié)果分析

    從聚類(lèi)的結(jié)果來(lái)評(píng)判聚類(lèi)結(jié)果是聚類(lèi)的最直接的評(píng)價(jià)指標(biāo),Purity方法[15]是極為簡(jiǎn)單的一種聚類(lèi)評(píng)價(jià)方法,只需計(jì)算正確聚類(lèi)的文檔數(shù)占總文檔數(shù)的比例:

    (14)

    式中:Ω={ω1,ω2,…,ωk},是聚類(lèi)的集合,ωk表示第k個(gè)聚類(lèi)的集合;C={c1,c2,…,cJ},是文檔集合,cJ表示第J個(gè)文檔.

    Purity指標(biāo)的優(yōu)點(diǎn)是方便計(jì)算,它的值在0~1之間,完全錯(cuò)誤的聚類(lèi)方法值為0,完全正確的方法值為1.同時(shí),Purity方法的缺點(diǎn)也很明顯,它無(wú)法對(duì)退化的聚類(lèi)方法給出正確的評(píng)價(jià),設(shè)想如果聚類(lèi)算法把每篇文檔單獨(dú)聚成一類(lèi),那么算法認(rèn)為所有文檔都被正確分類(lèi),那么Purity值為1.

    另一方面,一種能在聚類(lèi)質(zhì)量和簇?cái)?shù)目之間維持均衡的指標(biāo)是NMI[15],它的定義如下:

    (15)

    式中,H函數(shù)代表概率分布的信息熵,I是互信息.

    (16)

    其中p(ωk∩cj)、p(ωk)和p(cj)分別是一篇文檔屬于ωk∩cj、ωk和cj的概率,而第2個(gè)等式是對(duì)前半部分進(jìn)行了最大似然估計(jì)(MLE)后的結(jié)果.這種評(píng)價(jià)指標(biāo)能夠綜合聚類(lèi)結(jié)果的類(lèi)別數(shù)和類(lèi)別質(zhì)量.LDA與BLDA算法在300、400、500、以及600次迭代后的NMI結(jié)果為:0.278 553、0.271 216、0.314 051、0.326 884,以及0.795 688、0.745 267、0.767 683、0.771 896.可見(jiàn),BLDA的聚類(lèi)結(jié)果指標(biāo)NMI平均提高了160.2%.

    NMI指標(biāo)的值越高說(shuō)明聚類(lèi)算法的效果越好,BLDA算法的NMI指標(biāo)遠(yuǎn)遠(yuǎn)地優(yōu)于LDA算法的NMI指標(biāo).LDA算法隨著迭代次數(shù)的增加,NMI指標(biāo)持續(xù)緩慢地提升,但是BLDA算法的NMI指標(biāo)卻沒(méi)有持續(xù)緩慢的提升,相反還出現(xiàn)了指標(biāo)值振蕩的情況,筆者猜測(cè)這有可能與背景模塊的引入有關(guān).

    與上面的評(píng)價(jià)指標(biāo)不同的另外一個(gè)評(píng)價(jià)指標(biāo)可以將聚類(lèi)看成是一系列的決策過(guò)程,即對(duì)文檔集上所有的N(N- 1)/2個(gè)文檔對(duì)進(jìn)行決策.當(dāng)且僅當(dāng)兩篇文檔相似時(shí),筆者將它們歸入同一簇中,TP決策將兩篇相似文檔歸入一個(gè)簇,而TN決策將兩篇不相似的文檔歸入兩個(gè)不同的簇,在此決策過(guò)程中會(huì)犯兩類(lèi)的錯(cuò)誤:FP決策會(huì)將兩篇不相似的文檔歸入同一個(gè)簇,而FN決策會(huì)將兩篇相似的文檔歸入不同簇.RI計(jì)算的是正確決策的比率:

    (17)

    上面提到的RI是最基本計(jì)算方法,其中FN和FP擁有相同的權(quán)重,有時(shí)候?qū)⑾嗨频奈臋n分開(kāi)比將不相似的文檔歸成一類(lèi)更嚴(yán)重.所以可以使用F值來(lái)度量聚類(lèi)的結(jié)果,并通過(guò)設(shè)定不同的γ來(lái)調(diào)整對(duì)FN的懲罰力度,P代表準(zhǔn)確率,R代表召回率.

    (18)

    文中取定調(diào)節(jié)因子為1的情況下,分別計(jì)算得到BLDA和LDA在300、400、500和600次迭代之后的F值(RI系統(tǒng)的一種變種):0.710 955、0.658 759、0.691 712、0.689 664,以及0.252 222、0.219 044、0.285 863、0.283 995.

    文中采用Purity準(zhǔn)確率、NMI和RI系數(shù)這3個(gè)指標(biāo)來(lái)驗(yàn)證BLDA算法,發(fā)現(xiàn)其在實(shí)際應(yīng)用中的聚類(lèi)結(jié)果比原始的LDA算法的聚類(lèi)結(jié)果更加合理.實(shí)驗(yàn)結(jié)果也定量地給出了BLDA算法的有效性證明和解釋.

    3 結(jié)論

    文中提出了一種抑制背景噪聲的LDA子話(huà)題挖掘算法BLDA,能夠通過(guò)預(yù)先抽取專(zhuān)題文檔集合的共同背景知識(shí),在迭代的過(guò)程中重設(shè)關(guān)鍵詞的產(chǎn)生方式提高子話(huà)題抽取的準(zhǔn)確程度.這一方法能夠分離不同子話(huà)題之間的關(guān)聯(lián)性,從而有效解決有共同背景知識(shí)的專(zhuān)題文章的集合的子話(huà)題挖掘難題.

    通過(guò)對(duì)微信公眾賬號(hào)專(zhuān)題文章集合的實(shí)驗(yàn)證明,BLDA算法對(duì)擁有公共背景知識(shí)的專(zhuān)題性文章具有很好的分析能力,使用BLDA算法能夠更加準(zhǔn)確地挖掘差異化的主題信息,BLDA算法的主題召回率相比于原始的LDA算法平均提高了170%,同時(shí)使用BLDA能夠得到更加有效的聚類(lèi)結(jié)果,BLDA算法的Purity指標(biāo)相比于LDA算法提高了143%,NMI指標(biāo)提高了160.2%.

    [1] YANG Y, PIERCE T, CARBONELL J G, et al. A study of retrospective and on-line event detection [C]∥Proceedings of the 21st SIGIR Conference on Research and Development in Information Retrieval. Melbourne:ACM,1998:28- 36.

    [2] CHAUBET J. Detecting trending topic on chatter [D]. Stockholm:Master of Science Thesis in Information and Communication Technology, Royal Institute of Technology, 2011.

    [3] ALEX N, HAMMER B, KLAWONN F, et al. Single pass clustering for large data sets [C]∥Proceedings of the 6th International Workshop on Self- Organizing Maps.Westfalen:Bielefeld University, 2007:1- 6.

    [4] BLEI D M, Ng A Y, Jordan M I. Latent dirichlet allocation [J]. Journal of Machine Learning Research,2003,2003(3):993- 1022.

    [5] RAMAGE D, DUMAIS S T, LIEBLING D J. Characterizing microblogs with topic models [C]∥Proceedings of International Conference on Weblogs and Social Media, ICWSM.Washington:Association for the Advancement of Artificial Intelligence,2010:130- 137.

    [6] ASUNCION A U, SMYTH P, WELLING M. Asynchronous distributed learning of topic models [C]∥Proceedings of the 22nd Annual Conference on Neural Information Processing Systems.Vancouver:DBLP, 2008:81- 88.

    [7] BLEI D M, LAFFERTY J D. A correlated topic model of science [J]. Annals of Applied Statistics,2007,1(1):17- 35.

    [8] SANKARANARAYANAN J, SAMET H, TEITLER B E, et al. TwitterStand:news in tweets [C]∥Proceedings of ACM Sigspatial International Symposium on Advances in Geographic Information Systems. Seattle, Washington:ACM,2009:42- 51.

    [9] SHARIFI B, HUTTON M A, KALITA J. Summarizing microblogs automatically [C]∥Proceedings of Human Language Technologies:the 2010 Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles:ACL,2010:685- 688.

    [10] INOUYE D.Multiple post microblog summarization [R]. Colorado:University of Colorado at Colorado Springs,2010.

    [11] 李勁, 張華, 吳浩雄,等. 基于特定領(lǐng)域的中文微博熱點(diǎn)話(huà)題挖掘系統(tǒng)BTopicMiner [J]. 計(jì)算機(jī)應(yīng)用, 2012,32(8):2346- 2349. LI Jin, ZHANG Hua, WU Hao-xiong, et al. BTopicMiner:domain-specific topic mining system for Chinese microblog [J]. Journal of Computer Applications, 2012, 32(8):2346- 2349.

    [12] 周學(xué)廣, 高飛, 孫艷. 基于依存連接權(quán)vsm的子話(huà)題檢測(cè)與跟蹤方法 [J]. 通信學(xué)報(bào),2013,34(8):1- 9. ZHOU Xue- guang, GAO Fei, SUN Yan. Sub- topic detection and tracking based on dependency connection weights for vector space model [J]. Journal of Communications,2013, 34(8):1- 9.

    [13] GELFAND A E. Gibbs sampling [J]. Journal of the American Statistical Association,2000,95(452):1300- 1304.

    [14] Jaccard index [OL]. (2016- 04-20)[2016-11- 05].en.wikipedia.org/wiki/Jaccard_index.

    [15] LUOLEICN. 聚類(lèi)的一些評(píng)價(jià)手段[OL].(2010- 03- 09)[2016-11- 05].blog.csdn.net/luoleicn/article/details/5350378.

    LDA Subtopic Detection Algorithm with Background Noise Restraint

    LIJing-yuan1QIUZhi-jie1LIUYue1CHENGXue-qi1RENYan2

    (1.Institute of Computing Technology∥Key Laboratory of Network Data Science and Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. National Computer Network Emergency Response Technical Team Coordination Center of China, Beijing 100029, China)

    Special article set is a collection of articles with common background knowledge. In order to more effectively detect the subtopics form special article set with complex information correlation, an LDA subtopic detection algorithm with background noise restraintnamed BLDA is proposed, which improves the precision of subtopic detection from article set by firstly extracting the common background knowledge and then reproducing the keywords in each iteration step. By a series of experiments on a set of WeChat documents from public accounts, it is proved that the detection results obtained by BLDA are much better than those obtained by LDA, with a topic recall rate increment of about 170%, a Purity index increment of 143% and a NMI index increment of 160%.

    subtopic mining; linear discriminant analysis; background noise restraint

    2016- 12- 07

    國(guó)家自然科學(xué)基金資助項(xiàng)目(61303244,61572473,61572469,61402442,61402022,61370132);國(guó)家242信息安全計(jì)劃項(xiàng)目(2015F114) Foundation items: Supported by the National Natural Science Foundation of China(61303244,61572473,61572469,61402442,61402022,61370132) and the National 242 Project of Information Security (2015F114)

    李靜遠(yuǎn)(1982-), 男, 高級(jí)工程師,主要從事在線(xiàn)社會(huì)網(wǎng)絡(luò)信息傳播與信息安全研究.E-mail:lijingyuan@ict.ac.cn

    1000- 565X(2017)03- 0054- 07

    TP 393.09

    10.3969/j.issn.1000-565X.2017.03.008

    猜你喜歡
    語(yǔ)料文檔背景
    “新四化”背景下汽車(chē)NVH的發(fā)展趨勢(shì)
    有人一聲不吭向你扔了個(gè)文檔
    《論持久戰(zhàn)》的寫(xiě)作背景
    基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    晚清外語(yǔ)翻譯人才培養(yǎng)的背景
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語(yǔ)料
    國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
    巴楚县| 彭山县| 隆尧县| 新余市| 阳朔县| 临武县| 揭阳市| 江孜县| 中西区| 都兰县| 新宾| 奎屯市| 鞍山市| 克东县| 清水河县| 霍林郭勒市| 潍坊市| 平顶山市| 漳州市| 七台河市| 乌兰察布市| 绥棱县| 西青区| 泾源县| 江口县| 四会市| 莆田市| 旅游| 象州县| 淮滨县| 开原市| 太保市| 濮阳县| 迁西县| 正安县| 固原市| 五河县| 彭阳县| 宝坻区| 屏南县| 武功县|