• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      BBS網(wǎng)絡(luò)輿情的在線自適應(yīng)話題演化模型

      2014-09-29 10:32:26楊春明石大文
      計算機工程 2014年7期
      關(guān)鍵詞:數(shù)量強度文本

      楊春明,張 暉,石大文

      (西南科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)

      1 概述

      電子公告欄(Bulletin Board System,BBS)的開放性與互動性使其成為了新聞、觀點、民生的集散地,在BBS上圍繞某一話題的報道、言論、觀點能在互聯(lián)網(wǎng)上迅速傳播,在短時間、大范圍內(nèi)形成強大的影響力。話題是指事件相關(guān)報道的集合[1],話題演化則表示了話題隨時間推移表現(xiàn)出的動態(tài)性、發(fā)展性和差異性。研究BBS中話題的發(fā)現(xiàn)與演化是網(wǎng)絡(luò)輿情[2]分析的重要內(nèi)容之一,有助于全面把握公眾對社會突發(fā)事件所表達出的具有較強影響力、帶有傾向性的言論和觀點,了解事件變化規(guī)律及發(fā)展趨勢,便于提前采取相應(yīng)的應(yīng)對措施。

      話題演化主要研究在時間維度上話題的變化情況,表現(xiàn)為話題在內(nèi)容上的延續(xù)性和強度的變化。近年來對新聞話題演化的研究較多[3],而對BBS話題演化研究較少,主要集中在熱點話題的檢測與預(yù)警上。BBS中的信息具有特征稀疏性、奇異性和動態(tài)性等特點,與新聞話題區(qū)別較大。特征稀疏性是指發(fā)表在BBS上的信息長短不一,存在大量的短文本,信息量少,以詞為維度的向量空間模型呈現(xiàn)出高維稀疏的特點;奇異性是指這些信息中廣泛存在用詞不規(guī)范、諧音詞、簡寫詞等;動態(tài)性表現(xiàn)在隨著時間的推移,文本信息流的數(shù)量在變化,會產(chǎn)生新話題,消亡舊話題,同時還需要實時處理新增文本流。

      針對BBS信息的以上特點,本文提出針對BBS內(nèi)容的自適應(yīng)在線話題演化模型。以歷史時間窗口中話題、詞分布的后驗作為當(dāng)前時間窗口中話題、詞分布的先驗,利用在線新話題檢測和消亡話題檢測方法自動適應(yīng)數(shù)據(jù)流中的話題數(shù)量。

      2 相關(guān)研究

      話題演化是話題檢測與跟蹤(Topic Detection and Tracking,TDT)的一項重要研究任務(wù),目的是研究話題在時間維度上的變化情況[4]。早期的TDT沒有充分利用語料的時間信息研究話題隨時間的演化,近年來,隨著統(tǒng)計話題模型潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)的興起,在模型中引入語料的時間信息研究話題在時間維度上的演化,成為機器學(xué)習(xí)和文本挖掘領(lǐng)域的研究熱點。

      LDA模型是一種具有文本話題表示能力的非監(jiān)督學(xué)習(xí)模型,通過潛在的話題變量將文檔與詞關(guān)聯(lián)起來,文檔在主題上的分布和主題在詞上的分布式都是條件獨立同分布。LDA將每篇文檔看成是所有話題的一個多項式分布,而文檔中的每個詞則先由文檔-話題多項式分布生成一個話題,再由話題-詞多項式分布生成[5]。該模型可以很好地模擬文本的生成過程,對文本的預(yù)測也有很好的效果。很多研究人員通過引入時間信息對LDA模型進行了擴展來研究話題演化,根據(jù)模型是否具有在線的處理能力,可以分為線下模型和在線模型2類。

      線下的話題演化模型主要對特定的語料進行建模分析,不能在線處理新到的文本,其主要方法有2種:

      (1)TOT(Topic Over Time)模型[6],將時間作為一個可觀測的連續(xù)變量來指導(dǎo)語料集合上的話題分布,話題的演化反映在時間上的分布強度。

      (2)后離散分析方法[7],該方法把時間看作一個離散的變量,首先不考慮時間的影響,在文本集上運行LDA模型,獲得模型的參數(shù),然后按照時間把文檔分配到對應(yīng)的時間窗口中,對于某個話題考慮它在每個時間窗口中的強度,從而發(fā)現(xiàn)熱話題和冷話題。

      類似的模型還有DTM(Dynamic Topic Model)模型、CTDTM(Continuous Time Dynamic Topic Model)模型、MTTM(Multi-Scale Topic Tomography)模型等。

      在線的話題演化模型需要實時分析新到文本,ILDA(Incremental Latent Dirichlet Allocation)模型根據(jù)文本到達時間進行增量建模,以每個時間窗口上話題個數(shù)的變化情況研究話題內(nèi)容的演化[8]。OLDA(Online Latent Dirichlet Allocation)模型利用歷史的數(shù)據(jù)作為模型的先驗分布,對時間間隔內(nèi)到達的數(shù)據(jù)流采用LDA模型,展現(xiàn)話題在內(nèi)容和強度上的演化[9]。文獻[10]提出一種基于LDA的在線話題演化挖掘模型,研究了不同時間窗口話題所含關(guān)鍵詞的聯(lián)系,以發(fā)現(xiàn)話題演化中的話題遺傳和話題變異。文獻[11]針對網(wǎng)絡(luò)輿情的特點,提出一種基于OLDA的話題演化方法,在BBS數(shù)據(jù)集上分析了不同時間窗口之間話題的關(guān)聯(lián)。

      上述研究多基于行文規(guī)范的新聞報道,BBS上的文本信息主要由轉(zhuǎn)載其他新聞網(wǎng)站的報道、網(wǎng)民原創(chuàng)內(nèi)容以及回復(fù)構(gòu)成,其表達上具有口語化、寫作不規(guī)范的特點。由于BBS的強交互性,使得同一帖子表達的話題具有外延性,可能涉及多個話題,如“我爸是李剛”事件中,很多帖子的內(nèi)容是描述李剛有幾套房、開什么檔次的汽車、岳父是副省長等。上述特點使得BBS中每一時刻都有新話題的產(chǎn)生與舊話題的消亡,話題的數(shù)量在不同時間窗口內(nèi)不一樣。而在LDA模型中,評估參數(shù)時都需要假設(shè)話題數(shù)量是固定的;在文獻[9]的OLDA模型中通過保留每一個時刻的話題分布來發(fā)現(xiàn)新的話題和評估話題的演化,只考慮到相鄰時刻的話題相似性,沒有考慮話題數(shù)量的變化。文獻[11]針對輿情信息的特點,主要分析了不同時間片話題間的關(guān)聯(lián),且話題的粒度較大。

      本文在上述2種方法的基礎(chǔ)上,利用時間片間話題的相似度監(jiān)測新話題的產(chǎn)生及舊話題的消亡,細化話題粒度,提出針對BBS上網(wǎng)絡(luò)輿情的自適應(yīng)在線話題演化模型,以解決不同時刻話題數(shù)量變化的問題。

      3 自適應(yīng)的在線話題演化模型分析

      3.1 BBS內(nèi)容話題演化建模

      話題的演化表達了話題隨著時間推移的變化過程,如BBS中一個帖子產(chǎn)生后,會引起很多為圍繞這一帖子的討論,隨著時間的推移,討論的熱度會降低,或者會起波動,最后直到淡化。這個演化過程可分為形成、高漲、波動、消亡等階段,反映了話題在內(nèi)容上的延續(xù)性和強度。

      在線的話題演化需要實時處理到達的文本數(shù)據(jù)流,根據(jù)話題演化分析的實際要求,將按時間序列到達的文本以一定的時間粒度劃分,時間窗口t內(nèi)到達的文本集為Dt={d1,d2,…,dn},di為其中的一個文本。話題是文本集在語義空間中的表現(xiàn),在LDA模型中,由一組關(guān)鍵詞的分布來表示一個話題,每個文本視為一組話題的混合分布。則時間窗口內(nèi)話題的分布可由文本di中詞w對于話題z的后驗概率表示,如下式所示:

      其中,z是一組話題向量,第k維即表示話題k。

      延續(xù)性表達了相鄰時間窗口間文本內(nèi)容的關(guān)聯(lián),強度表達的是某一時間窗口內(nèi)某個話題討論的熱度。歷史時間窗口中話題以及所含詞語的分布為當(dāng)前時間窗口的話題演化分析提供了先驗知識。不同時間窗口內(nèi)話題的分布體現(xiàn)了內(nèi)容的延續(xù)性,而強度則表現(xiàn)為話題所含詞語的分布,因此,可由時間窗口內(nèi)文本表達話題的相關(guān)性來表示,相關(guān)性越大,該話題的強度越大,反之越小。考慮話題k在時間窗口t中每個文檔所占的比重之和為該話題的強度,公式如下所示:

      其中,TS(K)t為時間窗口t中話題k的強度;|Dt|為時間窗口t中文檔的數(shù)量;為話題k在文檔d中的概率。

      3.2 自適應(yīng)的BBS話題演化模型

      假設(shè)每個時間窗口中文本集涉及的話題數(shù)為K,令t時刻文本d上的話題分布服從參數(shù)為θ(d)的多項分布,話題在詞匯集合上服從參數(shù)為φk的多項分布,同時令話題分布和詞分布的先驗服從Dirichlet分布,分別為θ:Dirichlet(α)和φ:Dirichlet(β)。

      使用Gibbs[12]抽樣方法估計當(dāng)前時間窗口中的參數(shù)θ(d)和φk,考慮到不同的歷史數(shù)據(jù)對當(dāng)前時間窗口話題分布的影響,以t–1時間窗口中話題分布和詞分布的后驗作為時間窗口t中話題分布和詞分布的先驗。時間窗口t上,參數(shù)θ(d)對應(yīng)話題k以及參數(shù)φk對應(yīng)詞w的估計公式如式(3)、式(4)所示:

      其中,λ為權(quán)重因子,離當(dāng)前時間窗口越近,影響越大,權(quán)重越大。

      上述模型中需要確定時間窗口中的話題數(shù)K,在強交互的BBS數(shù)據(jù)流中,話題的數(shù)量時刻發(fā)生變化,一個話題可以演化為多個話題。因此,需要考慮在每一個時刻話題數(shù)量的變化,既有新產(chǎn)生的話題,又有消亡的話題。新話題的產(chǎn)生是檢測上一時刻話題分布的評估值,利用話題檢測算法生成;話題消亡則通過考慮在ρ個時間間隔內(nèi)該話題的強度小于給定的閾值ε,即認為該話題已經(jīng)消亡。通過上述調(diào)整自動更新時間窗口內(nèi)話題的數(shù)量,形成一個話題在時間和內(nèi)容上的演化矩陣。

      3.3 時間窗口內(nèi)新話題的檢測

      時間窗口內(nèi)新話題的出現(xiàn)表現(xiàn)為當(dāng)前數(shù)據(jù)流中的一個異常值,該異常值由相鄰時間窗口中話題的相似性來衡量,如果相似性到一定閾值NTVt,則表明有新話題產(chǎn)生。話題間的相似性用KL(Kullback-Leibler)散度衡量,記作KLS(p||q)。KLS是KL散度的變形,是一個對稱的KL散度測度,定義為KL(p||q)和KL(q||p)的平均值,表達了2個話題p和q之間的相似性,計算公式如下:

      定義Kt維距離向量DV,其中DV(k)表示話題k在t–1時刻和t時刻的相似性。引入新話題發(fā)現(xiàn)自信水平測量(NTCL,t時刻話題達到自信水平的百分比)來確定NTVt,使小于NTVt值的距離占所有距離的百分比正好是NTCL。則t時刻的新話題檢測算法(NTDetect)如下:

      3.4 話題消亡檢測

      舊話題的消亡表現(xiàn)為話題的強度明顯地不同于數(shù)據(jù)流中的其他話題,但在t時刻話題的強弱不僅與時間窗口的大小有關(guān)而且與話題本身的發(fā)展有關(guān),如由其他突發(fā)事件而暫時降低了該話題的關(guān)注度。因此,考慮在連續(xù)σ個時間窗口內(nèi)話題強度都被標(biāo)記為消亡話題,則該話題標(biāo)記為真正消亡話題,并刪除該話題,話題的數(shù)量也相應(yīng)減少,否則取消消亡話題標(biāo)記。

      4 實驗及分析

      實驗中利用網(wǎng)絡(luò)爬蟲采集了天涯虛擬社區(qū)上2011年3月-4月發(fā)布的正文大于20個字符且回復(fù)數(shù)小于20000的帖子,共計25495條,保留了URL、發(fā)表時間、發(fā)表作者、標(biāo)題、正文內(nèi)容、回復(fù)等信息。實驗前對數(shù)據(jù)集進行了分詞、去停用詞和向量化等預(yù)處理,分詞時使用ICTCLA分詞器,添加20000用戶詞典,主要來源搜狗輸入法詞庫;去除了副詞、助動詞以及BBS上的無意義詞,如:“回復(fù)”、“發(fā)表時間”、“轉(zhuǎn)載”、“頂一下”等;向量化帖子內(nèi)容的詞頻,使每一個詞都對應(yīng)詞表中的一個維度。

      實驗時以周為單位,將數(shù)據(jù)集劃分為8個時間窗口,設(shè)置話題參數(shù)K=30,α=0.3,β=0.01,λ=0.4,σ=2,NTCL=90%,OTCL=95%,迭代500次,抽取出的話題涉及大學(xué)教育、自然災(zāi)害、食品安全、工資收入、醫(yī)療問題、土地拆遷、房價等。從時間窗口2開始,有新話題的產(chǎn)生,從第3個時間窗口開始有消亡話題,其數(shù)量在動態(tài)變化。話題數(shù)量由初始的30動態(tài)變化為最終的34,驗證了模型中每個時間窗口中話題數(shù)量動態(tài)變化的假設(shè),如圖1所示。

      圖1 時間窗口中的話題數(shù)量變化

      進一步分析話題在內(nèi)容上的演化趨勢,選擇一個已有話題21和新產(chǎn)生話題32在不同時間窗口中出現(xiàn)概率最大的10個詞語展示,如表1所示,令ω為時間窗口。從每個時間窗口占主導(dǎo)地位的關(guān)鍵詞變化情況可以看出,話題21由食品安全開始演化為雙匯的瘦肉精事件,在第2個時間窗口產(chǎn)生了關(guān)于日本地震的新話題,并由開始的地震報道演化為救援,反映了該時間段中發(fā)生的一些重大突發(fā)事件。

      表1 話題內(nèi)容在時間窗口中的關(guān)鍵詞

      話題演化的趨勢也表現(xiàn)為話題在每個時間窗口的強度上,如圖2所示。話題21和32在8個時間窗口上的強度變化趨勢與其在內(nèi)容上的演化一致。隨著時間的推移,強度逐漸減弱,其中話題21在消亡,有新的話題將要產(chǎn)生。實驗進一步采用OLDA模型,使用相同的參數(shù)在數(shù)據(jù)集上與本文的模型進行對比分析,由于OLDA模型的話題數(shù)固定,只能對比話題在時間窗口上的關(guān)鍵詞。同樣以食品安全和日本地震的話題為例,OLDA模型在8個時間窗口上的關(guān)鍵詞如表2所示。

      圖2 話題在強度上的演化

      表2 OLDA模型話題演化關(guān)鍵詞

      OLDA模型僅考慮了時間窗口上話題內(nèi)部關(guān)鍵詞間的關(guān)聯(lián),但時間窗口間的話題關(guān)聯(lián)不強,具有一定跳躍性,話題在時間上的演化過程不明顯。根據(jù)計算的KL散度,也驗證了上述情況,如圖3所示。其中,1#2表示時間窗口1與時間窗口2;2#3表示時間窗口2與時間窗口3;以此類推。

      圖3 話題21時間窗口間KL散度比較

      以上實驗表明,本文模型能直觀地表達出話題在時間維度上內(nèi)容和強度的演化,且能檢測新產(chǎn)生的話題和消亡的話題,對話題數(shù)量進行動態(tài)更新,最終趨向一個真實值,彌補了OLDA模型的不足。同時也表明模型能夠較好地捕獲正在發(fā)生的熱點事件,分析它們在時間和內(nèi)容上的演化,表明該方法在真實的網(wǎng)絡(luò)數(shù)據(jù)上也能夠獲得較好的結(jié)果。

      5 結(jié)束語

      BBS的強交互性使得話題數(shù)量在演化過程中動態(tài)變化,對傳統(tǒng)話題演化模型要事先確定話題數(shù)量的問題。為此,本文提出了自適應(yīng)的在線話題演化模型。模型將按時間序列到達文本以一定時間粒度劃分為多個時間窗口,在每個時間窗口內(nèi)應(yīng)用LDA模型獲取話題分布,歷史時間窗口中話題以及所含詞語的分布為當(dāng)前時間窗口的話題演化分析提供了先驗知識。不同時間窗口內(nèi)的話題強度表現(xiàn)為詞的分布,以此提出了在線新話題檢測和消亡話題檢測方法來自動適應(yīng)數(shù)據(jù)流中的話題數(shù)量。在天涯社區(qū)數(shù)據(jù)集上的實驗結(jié)果表明,該模型能較好地反映出不同時間窗口內(nèi)話題數(shù)量的變化,并能分析在時間和內(nèi)容上的演化,及時發(fā)現(xiàn)一些正在發(fā)生的熱點事件,在一定程度上彌補了傳統(tǒng)話題演化模型的不足。本文只對BBS帖子的內(nèi)容進行了分析,今后將研究帖子之間的鏈接、作者、回帖者等信息在網(wǎng)絡(luò)輿情演化中的作用。

      [1]洪 宇,張 宇,劉 挺,等.話題檢測與跟蹤的評測及研究綜述[J].中文信息學(xué)報,2007,21(6):71-87.

      [2]曾潤喜.網(wǎng)絡(luò)輿情信息資源共享研究[J].情報雜志,2009,28(8):187-191.

      [3]趙旭劍.中文新聞話題動態(tài)演化及其關(guān)鍵技術(shù)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2012.

      [4]單 斌,李 芳.基于LDA話題演化研究方法綜述[J].中文信息學(xué)報,2010,24(6):43-49.

      [5]Blei D M.Probabilistic Topic Models[J].Communications of the ACM,2012,55(4):77-84.

      [6]Wang Xuerui,Mccallum A.Topics over Time:A Non-Markov Continuous-time Model of Topical Trends[C]//Proc.of the 12th International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2006:424-433.

      [7]Canini K R,Shi L,Griffiths T L.Online Inference of Topics with Latent Dirichlet Allocation[C]//Proc.of the 12th International Conference on Artificial Intelligence and Statistics.New York,USA:ACM Press,2009:937-946.

      [8]Iwata T,Yamada T,Sakurai Y,et al.Online Multiscale Dynamic Topic Models[C]//Proc.of the 16th International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2010:663-672.

      [9]Alsumait L,Barbará D,Domeniconi C.On-line LDA:Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking[C]//Proc.of International Conference on Data Mining.Pisa,Italy:IEEE Press,2008:3-12.

      [10]崔 凱,周 斌,賈 焰,等.一種基于LDA的在線主題演化挖掘模型[J].計算機科學(xué),2010,37(11):156-159.

      [11]胡艷麗,白 亮,張維明.網(wǎng)絡(luò)輿情中一種基于OLDA的在線話題演化方法[J].國防科學(xué)技術(shù)大學(xué)學(xué)報,2012,34(1):150-154.

      [12]Kozumi H,Kobayashi G.Gibbs Sampling Methods for Bayesian Quantile Regression[J]. Journalof Statistical Computation and Simulation,2011,81(11):1565-1578.

      猜你喜歡
      數(shù)量強度文本
      低強度自密實混凝土在房建中的應(yīng)用
      在808DA上文本顯示的改善
      統(tǒng)一數(shù)量再比較
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      Vortex Rossby Waves in Asymmetric Basic Flow of Typhoons
      地埋管絕熱措施下的換熱強度
      頭發(fā)的數(shù)量
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      我國博物館數(shù)量達4510家
      基于DEFORM-3D的300M超高強度鋼切削性能的比較
      红河县| 明水县| 瓮安县| 土默特右旗| 武冈市| 昌乐县| 赤水市| 巩留县| 南华县| 海晏县| 斗六市| 长阳| 台中县| 阜新| 玉树县| 安宁市| 安多县| 江津市| 广州市| 咸宁市| 武城县| 开封市| 兴化市| 四平市| 化隆| 长泰县| 山西省| 贡嘎县| 治县。| 信丰县| 克拉玛依市| 道孚县| 旌德县| 栾城县| 龙川县| 蛟河市| 安康市| 兴和县| 崇州市| 女性| 南乐县|