杜 慧,郭 巖,范意興,張 瑾,余智華,程學(xué)旗
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100190)
基于因果模型的主題熱度計(jì)算與預(yù)測(cè)方法
杜 慧1,2,郭 巖1,范意興1,2,張 瑾1,余智華1,程學(xué)旗1
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100190)
網(wǎng)絡(luò)是目前最重要的信息傳播渠道,其自由性和豐富性使得信息迅速傳播。挖掘網(wǎng)絡(luò)中的熱點(diǎn)主題對(duì)政府政策的制定、企業(yè)經(jīng)營(yíng)決策的調(diào)整可以提供強(qiáng)有力的支持,并能夠滿足網(wǎng)民對(duì)熱點(diǎn)主題的關(guān)注需求。主題數(shù)量的龐大使得主題熱度值的計(jì)算尤為重要,該文分析熱度的形成原因,基于因果模型并采用面板數(shù)據(jù),給出一種較為客觀可行的主題熱度計(jì)算模型。該模型使用易于獲取的數(shù)據(jù)進(jìn)行計(jì)算,給出較為客觀的熱度度量,進(jìn)而便于不同主題、不同日期間的熱度對(duì)比。在此基礎(chǔ)上,通過(guò)對(duì)熱度變化規(guī)律的考察,提出一種基于多峰高斯曲線擬合熱度變化進(jìn)行主題熱度預(yù)測(cè)的思路。
主題熱度;因果模型;面板數(shù)據(jù);熱度預(yù)測(cè);多峰高斯曲線
互聯(lián)網(wǎng)快速發(fā)展使其已成為信息獲取的最重要的渠道。政府部門(mén)通過(guò)官方網(wǎng)站發(fā)布政策法規(guī),企業(yè)網(wǎng)站提供企業(yè)及其產(chǎn)品信息,網(wǎng)絡(luò)媒體實(shí)時(shí)更新新聞資訊。更重要的是,網(wǎng)民可以在互聯(lián)網(wǎng)中自由地發(fā)表言論?;ヂ?lián)網(wǎng)的自由性和龐大的信息量使得其難以人工整理歸類,話題發(fā)現(xiàn)與跟蹤技術(shù)[1]在大量的信息中發(fā)現(xiàn)重要消息,旨在自動(dòng)發(fā)現(xiàn)聚類主題。研究者應(yīng)用不同的聚類算法于話題的檢測(cè)問(wèn)題中,如Single-Pass聚類[2]、增量K-means聚類[3]、層次聚類[4]等。話題發(fā)現(xiàn)將互聯(lián)網(wǎng)中出現(xiàn)的海量自由信息實(shí)現(xiàn)了主題的歸類,為后期的處理提供了可能性。聚類后的主題數(shù)量仍非常龐大,用戶只想獲知真正的熱點(diǎn);政府企業(yè)需要掌握熱點(diǎn)信息以便更好地運(yùn)營(yíng);熱點(diǎn)信息的推送功能對(duì)各大新聞、社交網(wǎng)站等提高服務(wù)質(zhì)量尤為重要;主題熱度也可以為搜索引擎對(duì)新聞搜索結(jié)果的排序問(wèn)題提供一定的支持。僅靠人工對(duì)聚類后的主題進(jìn)行熱度評(píng)定在效率上是無(wú)法滿足需求的,迅速合理地計(jì)算主題熱度具有重要意義。同時(shí)熱度的未來(lái)變化對(duì)政府、企業(yè)決策的制定和調(diào)整也發(fā)揮著重要的作用,熱度的預(yù)測(cè)問(wèn)題也成為了當(dāng)前研究熱點(diǎn)之一[5-6]。
本文對(duì)主題熱度進(jìn)行研究,分析影響主題熱度形成的因素,基于因果模型[7]提出一種較為客觀可行的計(jì)算模型,并在此基礎(chǔ)上根據(jù)主題熱度的波浪式發(fā)展規(guī)律使用多峰高斯曲線進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明該方法能夠在允許的誤差范圍內(nèi)較為合理地衡量主題熱度,并預(yù)測(cè)熱度的未來(lái)變化。
新聞主題熱度的研究中認(rèn)為熱度受到媒體關(guān)注度、用戶關(guān)注度的影響。Mao[8]使用新聞文章、來(lái)源網(wǎng)站和主題之間相互增強(qiáng)的關(guān)系,從媒體關(guān)注度的角度研究。羅亞平[9]定義熱度為二者的加權(quán)和,使用相關(guān)報(bào)道數(shù)量量化一定時(shí)間內(nèi)站點(diǎn)上主題的媒體關(guān)注度,使用用戶的瀏覽行為量化用戶關(guān)注度。Wang[10]基于衰退理論[11]刻畫(huà)主題的生命周期,根據(jù)文章數(shù)計(jì)算媒體關(guān)注度,利用搜索引擎提供的用戶瀏覽行為計(jì)算用戶關(guān)注度。Li[12]增加了熱度的另外一個(gè)特征: 時(shí)效性,利用線性回歸來(lái)計(jì)算主題熱度值。
一般認(rèn)為點(diǎn)擊量大的主題的熱度較高,有研究者直接將點(diǎn)擊數(shù)作為主題熱度值。在此基礎(chǔ)上,文獻(xiàn)[5]利用相似主題的熱度變化預(yù)測(cè)新主題的熱度,文獻(xiàn)[13]基于小波多分辨尺度分析理論對(duì)主題熱度進(jìn)行預(yù)測(cè)。點(diǎn)擊量體現(xiàn)了網(wǎng)民對(duì)主題的閱讀量,廣泛被網(wǎng)民關(guān)注的主題的熱度也相應(yīng)較高,但僅以點(diǎn)擊量來(lái)衡量熱度是不合理的。文獻(xiàn)[14]利用主題的點(diǎn)擊、回復(fù)和博文轉(zhuǎn)載數(shù)量加權(quán)得到熱度值,并利用馬爾可夫鏈來(lái)預(yù)測(cè)熱度趨勢(shì)。
主題熱度的定量計(jì)算雖有不少成果,但缺乏統(tǒng)一的衡量標(biāo)準(zhǔn),大多是在給定的數(shù)據(jù)(語(yǔ)料)、網(wǎng)站或者時(shí)間段內(nèi)計(jì)算相對(duì)熱度,不同日期的熱度間的可比性較弱[5-6,9,13],或者為熱度及熱度變化趨勢(shì)的預(yù)測(cè)而設(shè)計(jì)[6,14],對(duì)熱度的衡量不夠細(xì)致。熱點(diǎn)主題的出現(xiàn)和分布是不均勻的,往往節(jié)假日期間出現(xiàn)的主題受到的關(guān)注較少,且可能一段時(shí)間內(nèi)沒(méi)有熱點(diǎn)主題出現(xiàn)。因此,一個(gè)合理的主題熱度的度量模型不僅需要實(shí)現(xiàn)同一時(shí)間內(nèi)主題熱度間的對(duì)比,還要能夠刻畫(huà)熱度隨時(shí)間的變化。本文分析熱度的形成原因,結(jié)合已有的熱度研究,使用因果模型[7],并采用面板數(shù)據(jù)[7],給出一種較為客觀可行的主題熱度計(jì)算模型。該模型計(jì)算所需數(shù)據(jù)易于獲取,計(jì)算方法簡(jiǎn)便高效。同時(shí)根據(jù)主題熱度的波浪式變化規(guī)律,本文采用多峰高斯函數(shù)模擬熱度變化進(jìn)行熱度預(yù)測(cè)。
3.1 基于因果模型的熱度計(jì)算
影響主題熱度的因素很多,并且有的影響因素難以獲取或量化。例如,參與主題的用戶的身份特征對(duì)主題熱度有影響,但不是所有的網(wǎng)站都提供用戶信息,且不同網(wǎng)站的用戶之間難以量化對(duì)比。考慮到計(jì)算的可操作性,本文選取影響熱度的因素有主題的點(diǎn)擊量、評(píng)論量、文章數(shù)量和來(lái)源數(shù)量,相應(yīng)的因果模型如圖1所示。一般認(rèn)為新聞通道中對(duì)主題的報(bào)道量較為重要,論壇通道的特色是大量的用戶評(píng)論,而對(duì)博客通道來(lái)講因素間的重要性相差不大。不同通道間的量級(jí)不同,主題熱度分通道按天計(jì)算。
圖1 主題熱度計(jì)算的因果模型
熱度難以量化的原因在于其范圍的不確定性,本文指定熱度值范圍[0-5]。其中,5表示主題極熱,受到全民甚至世界范圍的關(guān)注;4表示非常熱,眾多人士普遍關(guān)注;3是比較熱;2是熱度程度一般;1為不熱,受到的關(guān)注很少。例如,“蘆山地震”發(fā)生當(dāng)天受到了世界的關(guān)注,熱度為5;而同一天“復(fù)旦大學(xué)投毒”事件的熱度略低為4。熱度的影響因素點(diǎn)擊量、評(píng)論量、文章數(shù)量和來(lái)源數(shù)量都是無(wú)范圍的數(shù)值,計(jì)算熱度前需要對(duì)它們進(jìn)行量化,使用形如Sigmoid函數(shù):
(1)
分別量化得到0-5的范圍內(nèi)主題的點(diǎn)擊熱度hclick、評(píng)論熱度hreply、流量熱度hdoc和來(lái)源廣度hsource。主題熱度H的計(jì)算公式如式(2)所示。
(2)
其中,w1、w2、w3、w4為權(quán)重,和為1。
3.2 結(jié)合面板數(shù)據(jù)的熱度計(jì)算因果模型
面板數(shù)據(jù)是在不同時(shí)刻對(duì)樣本進(jìn)行重復(fù)觀測(cè)的結(jié)果,本文中指不同日期主題熱度及其影響因素?cái)?shù)據(jù)。3.1節(jié)中的計(jì)算模型僅考慮當(dāng)天的影響因素,那么因素值間的大小關(guān)系也就決定了主題熱度間的高低。但實(shí)際并非如此,表1中的“點(diǎn)擊量”、“回復(fù)量”、“文章數(shù)”、“來(lái)源網(wǎng)站數(shù)量”是采集到的2013年4月8日新聞通道中主題“朝鮮危機(jī)”和“中國(guó)夢(mèng)”的相關(guān)基礎(chǔ)數(shù)據(jù)。從基礎(chǔ)數(shù)據(jù)上看,“中國(guó)夢(mèng)”與“朝鮮危機(jī)”的熱度差不多甚至更高一些。但是專家通過(guò)主觀分析,并參考了新浪熱點(diǎn)新聞排行榜、百度新聞熱搜詞榜單等第三方資料,給出的熱度排名是: “中國(guó)夢(mèng)”低于“朝鮮危機(jī)”(表1)。這個(gè)評(píng)價(jià)是合理的,因?yàn)榍耙惶彀l(fā)生的“朝鮮建議俄駐朝大使館撤離”事件和當(dāng)天發(fā)生的“韓媒曝朝鮮正準(zhǔn)備第四次核試驗(yàn)”事件,使得當(dāng)天“朝鮮危機(jī)”的熱度明顯高于“中國(guó)夢(mèng)”。
人們對(duì)主題熱度的感知是一個(gè)連續(xù)的過(guò)程,對(duì)熱度的判斷會(huì)受到以往經(jīng)驗(yàn)的影響,即熱度高的主題易于在未來(lái)得到較高的熱度評(píng)價(jià)。鑒于此,模型引入面板數(shù)據(jù),將前一天(t-1)主題的熱度作為影響當(dāng)日(t)主題熱度的一個(gè)因素,更新后得到熱度計(jì)算的穩(wěn)定得分因果模型如圖2所示,熱度計(jì)算公式更新為式(3):
式中,WT為流域中下游年徑流變化的總量;WH為人為活動(dòng)對(duì)流域中下游年徑流變化的影響量;WC為氣候變化對(duì)流域上游年徑流變化的影響量;WN為背景值,W入河為流域入河徑流量;W山口為流域水文站的實(shí)測(cè)年徑流深;WHN為流域水文站的模擬值或預(yù)測(cè)值;ηH為人為活動(dòng)對(duì)流域中下游徑流變化影響的百分比;ηC為氣候變化對(duì)流域中下游徑流變化影響的百分比。
(3)
其中,w1+w2+w3+w4=1,0 圖2 采用面板數(shù)據(jù)的主題熱度計(jì)算因果模型 表1 主題數(shù)據(jù) 3.3 采用高斯多峰擬合的熱度預(yù)測(cè) 熱度預(yù)測(cè)旨在挖掘熱度的未來(lái)變化情況,為決策的制定和調(diào)整提供支持。文獻(xiàn)[6]中使用高斯函數(shù)模擬帖子回復(fù)數(shù)增長(zhǎng)到高峰再衰減的過(guò)程。類似地,主題熱度的發(fā)展也總是經(jīng)歷產(chǎn)生、增長(zhǎng)、高峰、衰退的過(guò)程, 高斯函數(shù)對(duì)主題熱度的模擬具有一定的合理性。然而,主題與帖子不同: 帖子具有時(shí)效性,用戶一般不會(huì)去關(guān)注很久以前的帖子;主題卻會(huì)由于新出現(xiàn)的消息或進(jìn)展帶來(lái)下一輪的再發(fā)展循環(huán),呈現(xiàn)出波浪式變化的軌跡。 圖3 主題“國(guó)五條”的熱度變化曲線 圖3是主題“國(guó)五條”自2013年3月8日起50天的熱度變化,包括專家對(duì)該主題每天的熱度標(biāo)注值和采用面板數(shù)據(jù)因果模型計(jì)算的結(jié)果,圖中清晰地看到熱度呈現(xiàn)出波浪式的變化軌跡。多峰高斯函數(shù)系由多個(gè)單峰鐘形高斯函數(shù)疊加而成,具有波浪式的函數(shù)圖像,因此我們采用多峰高斯函數(shù)系擬合主題的熱度變化并進(jìn)行熱度預(yù)測(cè)。使用多峰高斯函數(shù)系如式(4)所示。 (4) 使用近兩個(gè)月內(nèi)出現(xiàn)的主題進(jìn)行實(shí)驗(yàn),全網(wǎng)采集新聞通道主題的點(diǎn)擊量、評(píng)論量、文章數(shù)量和來(lái)源數(shù)量,由于很多新聞網(wǎng)站不提供新聞的點(diǎn)擊量,實(shí)驗(yàn)不再考慮點(diǎn)擊熱度。專家根據(jù)對(duì)熱點(diǎn)新聞的理解并結(jié)合百度新聞熱搜詞導(dǎo)航、新浪熱點(diǎn)新聞排行等第三方資料,按照本文對(duì)熱度指定的范圍對(duì)主題按天進(jìn)行熱度標(biāo)注。將數(shù)據(jù)集隨機(jī)平均分為訓(xùn)練集和測(cè)試集,利用訓(xùn)練集訓(xùn)練得到模型參數(shù),使用測(cè)試集來(lái)檢驗(yàn)?zāi)P偷男Ч?/p> 4.1 熱度實(shí)驗(yàn) 已有的研究多是采用人工指定或者層次分析方法得到權(quán)重,沒(méi)有進(jìn)一步評(píng)價(jià)計(jì)算方法的效果。目前并沒(méi)有關(guān)于主題熱度的標(biāo)準(zhǔn)數(shù)據(jù)集,為了對(duì)本文模型進(jìn)行驗(yàn)證,我們將本文方法: 因果模型和結(jié)合面板數(shù)據(jù)的因果模型(簡(jiǎn)記: 面板數(shù)據(jù))與專家打分法進(jìn)行熱度計(jì)算效果的對(duì)比,專家打分實(shí)驗(yàn)采用層次分析法得到權(quán)重。使用平均絕對(duì)偏差(MAD,MeanAbsoluteDifference),如式(5)所示。 (5) 基于層次分析法的專家打分表(表2),計(jì)算得到的權(quán)重見(jiàn)表3,本文模型訓(xùn)練得到的權(quán)重參數(shù)也在表3中列出。從表3中看出,新聞通道中主題的流量熱度對(duì)熱度起到了關(guān)鍵性的作用, 這與直觀感覺(jué)是相符的。熱度計(jì)算的MAD在表3中最后一列,因果模型的MAD較專家打分法低一些,但是仍然較大。這是因?yàn)闊岫缺旧硎且粋€(gè)不確定的概念,難以得到精確的結(jié)果。使用面板數(shù)據(jù)將主題前一天熱度的影響引進(jìn)后,MAD進(jìn)一步降低達(dá)到0.36,計(jì)算效果有了提升。給定不同的偏差閾值p,三組熱度計(jì)算的準(zhǔn)確性對(duì)比如圖4所示,隨著允許偏差p的提升,準(zhǔn)確率逐步提高,因果模型的計(jì)算準(zhǔn)確率明顯高于專家打分法,面板數(shù)據(jù)的效果更好一些,在允許偏差p為0.5時(shí)準(zhǔn)確率達(dá)到75%,允許偏差p為 0.6時(shí)達(dá)到81%。 表2 新聞通道、評(píng)論熱度、流量熱度和來(lái)源廣度關(guān)于主題熱度的兩兩重要程度對(duì)比專家打分表 表3 權(quán)重參數(shù)和平均絕對(duì)偏差對(duì)比表 圖4 主題熱度計(jì)算的準(zhǔn)確率對(duì)比圖 我們選取主題“復(fù)旦大學(xué)投毒”從2013年4月15日起12日內(nèi)的熱度變化情況,將三組實(shí)驗(yàn)計(jì)算的熱度值與專家標(biāo)注的熱度進(jìn)行比較(圖5)。對(duì)于該主題,僅考慮截面數(shù)據(jù)的因果模型的效果比專家打分略優(yōu),結(jié)合面板數(shù)據(jù)的計(jì)算結(jié)果與實(shí)際熱度(專家標(biāo)注)的擬合效果最佳。第十天面板數(shù)據(jù)的計(jì)算結(jié)果的偏差較大,但是此時(shí)的熱度值比較低,而我們關(guān)注的是熱點(diǎn)主題,此時(shí)只要傳播一個(gè)該主題熱度較低的信號(hào)就可以了。 圖5 主題“復(fù)旦大學(xué)投毒”熱度計(jì)算結(jié)果比較 4.2 預(yù)測(cè)實(shí)驗(yàn) 對(duì)主題熱度變化擬合的效果決定了預(yù)測(cè)的準(zhǔn)確性,我們將采用多峰高斯函數(shù)對(duì)未來(lái)熱度進(jìn)行預(yù)測(cè),并與單峰擬合的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。多峰高斯函數(shù)的關(guān)鍵在于確定波峰的數(shù)量,最簡(jiǎn)單的方式是人工指定,通過(guò)歷史熱度數(shù)據(jù)來(lái)確定更為合理。3.3節(jié)中以主題“國(guó)五條”的熱度變化來(lái)說(shuō)明熱度的波浪式發(fā)展軌跡,圖6是對(duì)該主題使用單峰和多峰高斯擬合的結(jié)果,可以看出多峰擬合的效果遠(yuǎn)優(yōu)于單峰擬合,單峰是多峰波峰數(shù)量為1的特例。但是圖中前十天的擬合效果并不好,這是因?yàn)閿M合選取的時(shí)間段太長(zhǎng),擬合效果無(wú)法兼顧所有,擬合最優(yōu)的部分往往處于真正的峰值附近。因此在實(shí)際預(yù)測(cè)時(shí)可適當(dāng)?shù)乜s短擬合天數(shù),局部求解再組合。 圖6 主題“國(guó)五條”熱度變化曲線與單峰、多峰高斯擬合對(duì)比 我們使用主題t-1天的熱度數(shù)據(jù)預(yù)測(cè)第t天的熱度,主題“禽流感”的熱度預(yù)測(cè)值與誤差(預(yù)測(cè)值與實(shí)際值的差距)隨日期的變化情況如圖7所示。預(yù)測(cè)實(shí)際是從第四天開(kāi)始的,由于數(shù)據(jù)量太小,第四天的預(yù)測(cè)效果很差。剛開(kāi)始由于數(shù)據(jù)量小限制了多峰擬合的效果,導(dǎo)致預(yù)測(cè)效果略低于單峰預(yù)測(cè),從第九天開(kāi)始,多峰預(yù)測(cè)效果開(kāi)始提高,預(yù)測(cè)誤差基本小于1,能夠滿足實(shí)際預(yù)測(cè)的需求。 圖7 主題“禽流感”的熱度預(yù)測(cè)及預(yù)測(cè)誤差變化圖 本文針對(duì)主題熱度的研究多是限定在一個(gè)或多個(gè)網(wǎng)站的某一時(shí)間段內(nèi)計(jì)算相對(duì)熱度的狀況,結(jié)合已有研究成果,并采用面板數(shù)據(jù)的因果模型對(duì)主題熱度計(jì)算問(wèn)題做了進(jìn)一步嘗試。文章提出一整套包括熱度標(biāo)注和計(jì)算的模型,并在此基礎(chǔ)上提出高斯多峰擬合預(yù)測(cè)熱度的方法。該模型需要的數(shù)據(jù)易于獲取,實(shí)驗(yàn)使用涵蓋了主流網(wǎng)站的數(shù)據(jù)集,從而保證了計(jì)算的合理性和可行性。雖然目前模型計(jì)算的準(zhǔn)確率還不是特別高,但是熱度本身是一個(gè)不確定的概念,較已有的研究成果也有了一定的提升,在偏差允許的范圍內(nèi)具有實(shí)用性。在未來(lái)研究中,將進(jìn)一步挖掘影響熱度的因素和因素作用的方式,提高熱度計(jì)算與預(yù)測(cè)的準(zhǔn)確性。 [1] Allan J, Carbonell J, Doddington G, et al. Topic detection and tracking pilot study: Final report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, 1998:194-218. [2] 賈自艷,何清,張俊海等.一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J].計(jì)算機(jī)研究與發(fā)展, 2004, 41(7): 1273-1280. [3] J P Yamron, S Knecht, P van Mulbregt. Dragon’s Tracking and Detection Systems for the TDT2000 Evaluation[C]//Proceedings of Topic Detection and Tracking workshop. Washington, USA, 2000:75-80. [4] Dai X, Chen Q, Wang X, et al. Online topic detection and tracking of financial news based on hierarchical clustering [C]//Proceedings of the 2010 International Conference on Machine Learning and Cybernetics. 2010: 3341-3346. [5] 聶恩倫,陳黎,王亞強(qiáng)等. 基于K近鄰的新話題熱度預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué), 2012,39(6A):258-260. [6] 盧珺珈,張宏莉,張玥. 基于BBS 的熱點(diǎn)話題發(fā)現(xiàn)與態(tài)勢(shì)預(yù)測(cè)技術(shù)的研究[J].智能計(jì)算機(jī)與應(yīng)用, 2012,2(2):2-5. [7] (美)貝里等著,吳曉剛主編. 因果關(guān)系模型[M]. 格致出版社, 2011. [8] Mao X, Chen W. A method for ranking news sources, topics and articles[C]//Proceeding of ICCET 2010, IEEE (2010), 2010, 4:170-174. [9] 羅亞平. 基于用戶瀏覽行為的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)模型研究[D]. 北京郵電大學(xué)碩士學(xué)位論文, 2008. [10] Wang C, Zhang M, Ru L, et al. Automatic Online News Topic Ranking Using Media Focus and User Attention Based on Aging Theory[C]//Proceeding of CIKM 2008, ACM (2008), 2008: 1033-1042. [11] Chen C, Chen Y T, Sun Y, et al. Life Cycle Modeling of News Events Using Aging Theory[C]//Proceeding of ECML 2003, Springer (2003): 47-59. [12] Li H. A Linear Regression Based News Topic Hotness Calculation Approach[J]. Journal of Computational Information Systems, 2012, 8(20): 8637-8644. [13] 張虹,趙兵,鐘華.基于小波多尺度的網(wǎng)絡(luò)論壇話題熱度趨勢(shì)預(yù)測(cè)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(4):76-79. [14] 劉勘,李晶,劉萍.基于馬爾可夫鏈的輿情熱度趨勢(shì)分析[J].計(jì)算機(jī)工程與應(yīng)用, 2011,47(36):170-173. Calculation and Prediction of Topic Popularity Based on Causal Model DU Hui1,2, GUO Yan1, FAN Yixing1,2, ZHANG Jin1, YU Zhihua1, CHENG Xueqi1 (1. CAS Key Lab of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100190, China) Internet, with its freedom and richness, has become the most important channel of information dissemination. Hot topic mining benefits both policy making for government and business strategy adjustment for company. This paper presents an objective method to calculate topic popularity based on causal model by analyzing its influence factors. Data required by the algorithm is easy to obtain and considering panel data makes our algorithm more effective. Then we use multi-Gaussian curve to fit the movement of topic popularity which is useful for popularity prediction. topic popularity; causal model; panel data; popularity prediction; multi-gaussian curve 杜慧(1986—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、文本傾向性分析。E?mail:duhui@software.ict.a(chǎn)c.cn郭巖(1974—),博士,高級(jí)工程師,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)信息處理。E?mail:guoy@ict.a(chǎn)c.cn范意興(1990—),博士研究生,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:fanyixing@software.ict.a(chǎn)c.cn 1003-0077(2016)02-0050-06 2013-09-04 定稿日期: 2013-11-06 國(guó)家973計(jì)劃(2012CB316303,2013CB329602);國(guó)家863計(jì)劃(2014AA015204);國(guó)家自然科學(xué)基金(61232010,61425016,61572473,61572467) TP391 A4 實(shí)驗(yàn)分析
5 結(jié)論