劉培玉,侯秀艷+,朱振方,劉 芳,蔡肖紅
1.山東師范大學信息科學與工程學院,濟南2500142.山東省分布式計算機軟件新技術(shù)重點實驗室,濟南2500143.山東交通學院信息科學與電氣工程學院,濟南250357
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(04)-0573-09
?
基于熱度聯(lián)合排序的微博熱點話題發(fā)現(xiàn)*
劉培玉1,2,侯秀艷1,2+,朱振方3,劉芳1,2,蔡肖紅1,2
1.山東師范大學信息科學與工程學院,濟南250014
2.山東省分布式計算機軟件新技術(shù)重點實驗室,濟南250014
3.山東交通學院信息科學與電氣工程學院,濟南250357
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(04)-0573-09
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel: +86-10-89056056
* The National Natural Science Foundation of China under Grant No. 61373148 (國家自然科學基金); the National Social Science Foundation of China under Grant No. 12BXW040 (國家社科基金); the Outstanding Young Scientist Award Fund of Shandong Province under Grant No. BS2013DX033 (山東省優(yōu)秀中青年科學家獎勵基金); the Natural Science Foundation of Shandong Province under Grant No. ZR2012FM038 (山東省自然科學基金); the Humanity and Social Science Foundation of the Ministry of Education of China under Grant No. 14YJC860042 (教育部人文社科基金); the Social Science Planning Project of Shandong Province under Grant No. 12BXWJ01 (山東省社科規(guī)劃項目).
Received 2015-08,Accepted 2015-10.
CNKI網(wǎng)絡(luò)優(yōu)先出版: 2015-10-28, http://www.cnki.net/kcms/detail/11.5602.TP.20151028.1509.006.html
摘要:微博熱點話題發(fā)現(xiàn)對于輿情分析和觀點挖掘具有重要作用,提出了一種基于熱度聯(lián)合排序的微博熱點話題發(fā)現(xiàn)方法,并構(gòu)建統(tǒng)一的模型框架將微博文本和熱點主題詞之間的各種關(guān)系進行了有機融合;考慮微博用戶的權(quán)威性以及主題詞的時間段相關(guān)特性,對微博文本和主題詞的熱度進行了聯(lián)合排序并互相增強;使用主題詞組合支持度作為閾值對熱度序列中的主題詞進行聚類以表征熱點話題。實驗表明,所提方法對于熱點主題詞的抽取以及熱點話題發(fā)現(xiàn)具有較高準確性,可以及時有效地發(fā)現(xiàn)特定時間段內(nèi)的微博熱點話題。
關(guān)鍵詞:熱點話題;主題詞;微博文本;聯(lián)合排序;熱度序列
隨著微博平臺的蓬勃發(fā)展,微博已成為人們互動交流、抒發(fā)情感、表達訴求的實時性工具,同時也是熱點話題產(chǎn)生和傳播的重要場所。微博熱點話題的發(fā)現(xiàn)有助于政府及時了解網(wǎng)絡(luò)輿情,以便正確疏導社情民意;有助于商家及時得到顧客反饋,以便調(diào)整市場策略。然而,微博數(shù)據(jù)呈現(xiàn)實時性、大規(guī)模性、短文本以及富含噪音數(shù)據(jù)等特性,為話題事件的分析和挖掘帶來了新的挑戰(zhàn)[1]。
近年來,國內(nèi)外針對微博話題和事件的檢測開展了大量研究。Popescu等人[2]利用監(jiān)督機器學習的方法發(fā)現(xiàn)Twitter中的熱點爭議事件。Becker等人[3]根據(jù)特定時段內(nèi)話題被檢測到的次數(shù),提出基于時序和社會關(guān)系評價的Twitter話題發(fā)現(xiàn)方法。另外,為了避免微博短文本,數(shù)據(jù)稀疏,用詞不規(guī)范,噪聲數(shù)據(jù)等因素的影響,許多研究構(gòu)建用于話題發(fā)現(xiàn)的新穎模型。李勁等人[4]對潛在狄利克雷分配(latent Dirichlet allocation,LDA)話題模型進行擴展,建模微博之間的跟帖關(guān)系,挖掘特定領(lǐng)域的中文微博熱點話題。路榮等人[5]利用隱主題模型和文本聚類方法發(fā)現(xiàn)微博中的新聞話題,有效地解決了短文本的數(shù)據(jù)稀疏性問題。Ritter等人[6]提出一種方法抽取開放領(lǐng)域事件,并利用潛在變分模型來發(fā)現(xiàn)Twitter中的重要事件類別。Hong等人[7]利用稀疏編碼技術(shù)和統(tǒng)計話題模型構(gòu)建了稀疏產(chǎn)生式模型,以此發(fā)現(xiàn)微博中的地理位置話題。也有學者認為熱點話題的產(chǎn)生會引起用戶情感的波動,從而將情感分析融入話題檢測。楊亮等人[8]提出情感分布語言模型(emotion distribution language model,ELM)來發(fā)現(xiàn)微博中的熱點事件。時達明[9]通過計算評論與話題的相關(guān)度,對相關(guān)的評論內(nèi)容進行情感分析,并進行Blog熱點話題的發(fā)現(xiàn)。
微博文本和主題詞對于熱點話題發(fā)現(xiàn)的作用是相輔相成的。當一個熱點話題出現(xiàn)時,與該話題密切相關(guān)的熱點主題詞大量涌現(xiàn),與該話題密切相關(guān)的微博也大量涌現(xiàn),并且這些熱點主題詞在這些微博文本中占有比較大的權(quán)重。因此,從兩個方面判斷一條微博反映一個熱點話題的程度:第一,在特定時間段中,與該微博文本內(nèi)容相似的微博數(shù)量多少;第二,在特定時間段中,該微博中包含熱點主題詞的數(shù)量多少。同樣從兩個方面判斷一個主題詞是不是熱點主題詞:第一,在特定時間段中,該主題詞與其他熱點主題詞的共現(xiàn)情況;第二,在特定時間段中,包含該主題詞的微博數(shù)量多少。其中特定時間段即為熱點話題發(fā)生和存在的階段。
因此,本文綜合考慮了微博文本特征和主題詞特征,挖掘特定時間段內(nèi)的微博文本之間的基于特征向量的內(nèi)容相似度關(guān)系、主題詞之間的共現(xiàn)關(guān)系以及主題詞在微博文本中的權(quán)重關(guān)系,構(gòu)建統(tǒng)一的關(guān)系模型框架;同時將微博文本本身的權(quán)威性以及主題詞的時間段相關(guān)特性融合到該關(guān)系模型,運用聯(lián)合排序算法得出特定時間段內(nèi)的微博文本熱度序列和主題詞熱度序列;基于主題詞的熱度序列及主題詞共現(xiàn)次數(shù)提出主題詞組合支持度,將其作為閾值對主題詞進行凝聚式層次聚類以表示熱點話題。
隨著熱點話題的發(fā)生,在特定的時間段內(nèi),主題詞會在數(shù)量龐大的微博文本中突然大量集中涌現(xiàn)。主題詞具有代表性、簡潔性、時效性、信息量大、相關(guān)詞語關(guān)聯(lián)度高等特點,能夠最大程度地以最小的信息量涵蓋熱點話題的主題和內(nèi)涵[10]。通常用幾個相關(guān)主題詞就能夠表示一個熱點話題。
雖然依靠詞典可以快速地對傳統(tǒng)主題詞進行提取,但是對于隨熱點話題的發(fā)生而在短時間內(nèi)層出不窮的新詞提取效果不佳,而這些新詞往往包含重要信息,很可能是當前的熱點。為了全面提取主題詞,通過對微博主題詞的特點進行研究發(fā)現(xiàn),微博主題詞具有突然大量涌現(xiàn),存續(xù)周期較短的特點,并且與某一特定時間段強相關(guān),而在特點時間段之前或之后的時期里出現(xiàn)頻率不高甚至很低。鑒于此,參照文獻[11]中的領(lǐng)域相關(guān)性度量概念構(gòu)建時間段相關(guān)性度量(TR)進行熱點主題詞的提取。如式(1)所示。
本文建立圖Gww來描述Tn時間段內(nèi)主題詞之間的關(guān)系,圖中的節(jié)點表示Vw中的主題詞。如果Tn時間段內(nèi)主題詞wi和wj在同一條微博共同出現(xiàn)過,則wi和wj之間生成一條邊,邊的權(quán)重用式(4)計算。
其中,c(wi,wj)表示Tn時間段內(nèi)同時包含主題詞wi和wj的微博文本數(shù);c(wi)和c(wj)分別表示Tn時間段內(nèi)wi和wj各自出現(xiàn)的微博數(shù);N表示Tn時間段內(nèi)的微博文本總數(shù)。
本文建立圖Gdw來描述Tn時間段內(nèi)微博文本集合Vd和熱點主題詞集合Vw之間的關(guān)系,圖中的每個節(jié)點表示Vd中的一個微博文本或Vw中的一個主題詞。如果主題詞wj出現(xiàn)在微博文本di中,則在wj和di之間生成一條邊。邊的權(quán)重wei(di,wj)用主題詞wj在微博文本di中的權(quán)重來計算:
如果一個微博文本能夠反映該時間段內(nèi)的熱點話題,那么一定存在大量的與之內(nèi)容相似的微博文本,而且這些文本中一定包含大量的能夠反映當前熱點話題的主題詞;如果一個主題詞是能夠反映當前熱點話題的主題詞之一,那么一定存在大量的與之共同出現(xiàn)能夠聯(lián)合反映熱點話題的主題詞,并且這些主題詞分布在熱點微博文本中?;谠摾碚摽梢钥闯?,對于特定時間段內(nèi)的熱點話題挖掘,微博文本和主題詞起著相輔相成的作用,利用微博文本和主題詞之間的相互依存關(guān)系可以更全面有效地發(fā)現(xiàn)熱點話題。
由此,參照文獻[13]用于抽取評價詞和評價對象的聯(lián)合排序算法,利用上面構(gòu)建的3個矩陣,設(shè)計微博文本和主題詞的熱度聯(lián)合排序算法,對3個子圖所描述的各種關(guān)系進行擬合,將它們?nèi)诤系浇y(tǒng)一的框架中使關(guān)系相互增強,并且在該框架中融入微博文本權(quán)威性和主題詞時間段相關(guān)特性,最終產(chǎn)生微博文本和主題詞的熱度序列。如式(6)所示。
其中,Hd是時間段Tn內(nèi)所有微博文本的熱度序列,熱度值越大的微博文本能夠反映該時間段熱點話題的能力越大。Hw是時間段Tn內(nèi)所有主題詞的熱度序列,熱度值越大的主題詞能夠反映該時間段熱點話題的能力也越大。Id表示微博文本的本身權(quán)威性,用發(fā)布該微博文本的用戶是否屬于VIP用戶來衡量,如果用戶是VIP用戶,則Id對應的條目為1,反之為0。利用主題詞wi歸一化的時間段相關(guān)性度量來表示Iw中的每個條目。λ和μ為擬合參數(shù),λ∈[0,1],μ∈[0,1],且λ+μ<1。算法運行直至收斂或迭代次數(shù)達到50次。
經(jīng)過上面的工作,得到Tn時間段內(nèi)所有微博文本的熱度序列和Tn時間段內(nèi)所有主題詞的熱度序列,微博文本熱度序列里所包含的眾多微博文本用于詳細描述熱點話題,主題詞熱度序列里數(shù)量有限的熱點主題詞用于概括話題。下面對熱點主題詞進行簡單聚類以概括表示熱點話題。
同理,n個詞w1,w2,…,wn的組合支持度為:
算法1熱點話題聚類算法
輸入:Tn時間段內(nèi)主題詞及其熱度序列Hw。
輸出:主題詞類簇集。
步驟1將熱度序列中的每個主題詞作為一個類簇。
步驟2計算各個類簇之間的組合支持度,即類簇內(nèi)所有主題詞的組合支持度,將組合支持度最大的兩個類簇進行合并。
步驟3重復步驟2,直至達到組合支持度的最小閾值minSupport或者類簇內(nèi)主題詞達到5個。
步驟4刪除少于3個主題詞的類簇,剩余的每個類簇即可表示一個熱點話題。
6.1實驗數(shù)據(jù)及評價標準
本文采用的實驗數(shù)據(jù)來自新浪微博2014年7月21日—2014年7月26日共158 430條微博,利用爬蟲工具抽取其中的微博文本信息和用戶類型信息。為了消除噪聲數(shù)據(jù),過濾掉無用信息,首先對微博數(shù)據(jù)進行預處理,去除以下內(nèi)容:粉絲數(shù)接近0的用戶所發(fā)布的微博,微博中的“@用戶”字段,“#話題名?!辈糠?,URL鏈接。然后,采用中科院ICTCLAS分詞系統(tǒng)對微博文本數(shù)據(jù)進行分詞并且標注詞性,根據(jù)哈工大的停用詞表(1 208個)過濾掉停用詞和分詞。人工標注這段時間內(nèi)的主要熱點話題有:北京T3航站樓發(fā)生爆炸,北京被重摔女童已死亡嫌犯被刑拘,奶粉沖兌液態(tài)奶,快餐店食用冰塊比馬桶水臟,氣功大師王林變蛇等,這些話題都是人工高度概括的。對于每個熱點話題,人工挑選能夠概括表達該熱點話題的幾個熱點主題詞,考慮到不同詞性的詞對主題表達的貢獻程度不同,其中對主題表達和辨識作用最大的是動詞和名詞[14],因此只挑選這兩種詞性,忽略其他詞性的詞。
本文采用信息檢索領(lǐng)域常用的準確率(Precision)、召回率(Recall)和F值(F-measure)作為實驗評價指標,具體的計算公式如下:
將人工挑選的熱點主題詞與本文方法識別出的主題詞進行對比,并對人工主觀性概括出來的熱點話題與本文方法聚類產(chǎn)生的熱點話題進行比較。實驗中用以上指標評價熱點主題詞的提取效果和熱點話題的檢測結(jié)果。其中,System.correct表示正確識別的熱點主題詞數(shù)或熱點話題數(shù);System.output表示能夠識別到的熱點主題詞數(shù)或熱點話題數(shù);Human. labeled表示人工標注的該時間段內(nèi)的熱點主題詞總數(shù)或所有話題數(shù)。
6.2參數(shù)設(shè)置
首先,研究參數(shù)μ和λ的不同取值對熱點主題詞提取結(jié)果的影響。所謂熱點主題詞提取結(jié)果,是指最終聚成的主題詞簇中的主題詞與人工挑選的主題詞相對比的結(jié)果。參數(shù)μ表示考慮微博用戶的自身權(quán)威性和主題詞的時間段相關(guān)性時對熱點主題詞提取結(jié)果的貢獻大??;λ表示考慮微博文本之間的相似度關(guān)系或主題詞之間的共現(xiàn)關(guān)系時對熱點主題詞提取結(jié)果的貢獻大??;1-λ-μ則表示考慮微博文本和主題詞之間的重要性關(guān)系時對熱點主題詞提取結(jié)果的貢獻大小。
Fig.1 Influence of μ on hot topic keywords extraction圖1 參數(shù)μ對熱點主題詞提取結(jié)果的影響
圖1中,λ取固定值0.5,μ值從0到0.9變化,可以看出,當μ值取0.1時,準確率、召回率和F值最高。這說明考慮微博用戶自身權(quán)威性和主題詞的時間段相關(guān)性對熱點主題詞提取是有一定作用的。但是隨著μ值增加,性能曲線趨于下降,當μ值超過0.5后,下降速度變得更快。這說明如果過多地考慮微博用戶的本身權(quán)威性和主題詞的時間段相關(guān)性,而沒有充分考慮或忽視微博文本之間的相似度關(guān)系、主題詞之間的共現(xiàn)關(guān)系、微博文本和主題詞之間的重要性關(guān)系,熱點主題詞的提取效果會適得其反。
圖2中,μ取固定值0.1,λ值從0到0.9變化,可以看出,隨著λ值增大,準確率、召回率和F值上升,當λ值取0.5時,實驗結(jié)果達到最優(yōu)。這說明微博文本之間的相似度關(guān)系、主題詞之間的共現(xiàn)關(guān)系、微博文本和主題詞之間的權(quán)重關(guān)系對熱點主題詞提取都有重要作用,同時考慮這3種關(guān)系有利于提高熱點主題詞的提取效果。
Fig.2 Influence of λon hot topic keywords extraction圖2 參數(shù)λ對熱點主題詞提取結(jié)果的影響
其次,考慮閾值minSupport對熱點話題檢測結(jié)果的影響。閾值minSupport影響熱點主題詞的聚類效果,從而影響熱點話題的檢測效果。當μ設(shè)置為0.1,λ設(shè)置為0.5時,閾值minSupport取不同值,熱點話題的檢測效果如表1所示。
從表1可以看出,當閾值minSupport取30時,準確率、召回率、F值分別取得最優(yōu)值。隨著聚類閾值minSupport的增大,召回率變化很小,而準確率持續(xù)降低,這是因為過大的閾值minSupport會將不屬于同一話題的主題詞聚成一個類簇,導致熱點話題識別錯誤的發(fā)生,降低了熱點話題檢測的準確率。若閾值minSupport取值過小,導致無法將描述同一熱點話題的主題詞聚成一類,造成熱點主題詞識別不全,降低了召回率。因此閾值minSupport取30時熱點話題檢測效果最佳,準確率達到58.34%,召回率達到76.21%,F(xiàn)值達到66.09%。
取閾值minSupport為30時,對2014年7月21日—2014年7月26日期間的微博進行熱點話題檢測,得到12個能夠正確表示熱點話題的主題詞類簇。如表2所示。
Table 1 Influence of minSupport on hot topic detection表1 閾值minSupport對熱點話題檢測結(jié)果的影響
6.3實驗對比
選擇文獻[10]和文獻[15]提出的方法作為兩種Baseline方法,并且與本文方法進行微博熱點話題發(fā)現(xiàn)結(jié)果對比。文獻[10]提出的網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)方法(記為Baseline1),主要思想是通過主題詞表和識別有意義串優(yōu)化主題詞候選集,采用多特征融合計算主題詞權(quán)重,然后進行詞聚類表示熱點話題。本文將之用于微博熱點話題識別。文獻[15]提出基于速度增長的微博熱點話題發(fā)現(xiàn)(記為Baseline2),主要通過詞頻和詞的增長速度、用戶增長速度、微博增長速度等來選取熱點主題詞,同樣進行詞聚類。本文方法與兩種Baseline方法在熱點話題檢測的準確率、召回率、F值方面的對比結(jié)果如圖3所示。
由圖3可以看出,與Baseline1相比,本文方法的召回率和F值略低。分析可能的原因是微博語料過少,導致選取的主題詞數(shù)量不足,另外微博噪音太多,選取主題詞質(zhì)量不夠高。而Baseline1方法是通過采集搜狗、百度等網(wǎng)站的熱門搜索詞,并利用有意義串進行新詞識別,主題詞選取效果較好。但是本文方法省去了人工構(gòu)建詞典和有意義串的繁瑣工作。
與Baseline2方法相比,本文無論是準確率、召回率還是F值都較大提高。分析原因有以下兩點:
(1)在提取熱點主題詞方面,Baseline方法只是簡單將窗口內(nèi)增長速度大于閾值的詞作為主題詞。本文首先考慮詞的時間段相關(guān)性及微博用戶類型,將時間段相關(guān)性較大的主題詞與該時間段內(nèi)的微博文本進行熱度聯(lián)合排序,其中融合了微博文本之間的內(nèi)容相似度關(guān)系、主題詞之間的共現(xiàn)關(guān)系以及主題詞在微博文本中的權(quán)重關(guān)系。最終得到的主題詞熱度序列里熱點主題詞具有較高的可信度和準確率。
Table 2 Correct topic keywords clusters to express hot topics表2 正確表示熱點話題的主題詞類簇
Fig.3 Comparison of micro-blog hot topic detection methods圖3 微博熱點話題發(fā)現(xiàn)結(jié)果對比
(2)在話題聚類方面,Baseline方法將相似度大于閾值的主題詞聚類,算法過于簡單,只是在相似度計算方法上有所創(chuàng)新。本文首先提出主題詞之間組合支持度的概念,以主題詞熱度序列為基礎(chǔ),恰當?shù)剡x擇初始類簇,同時由于熱度序列里主題詞數(shù)量有限,聚類算法時間復雜度較低,聚類精度較高。
本文通過研究發(fā)現(xiàn),微博文本和熱點主題詞對于微博熱點話題的發(fā)現(xiàn)起著相輔相成的作用,于是構(gòu)建關(guān)系模型框架將特定時間段內(nèi)的微博文本及主題詞之間的各種關(guān)系進行有機融合,進行熱度聯(lián)合排序,并對熱度序列中的主題詞進行有效聚類以表征熱點話題。實驗表明,本文方法對于熱點主題詞提取及微博熱點話題發(fā)現(xiàn)具有一定可行性。
文中人為地選取時間段相關(guān)性大的主題詞作為初始熱點主題詞加入關(guān)系模型,具體選取的數(shù)量或閾值是否應該根據(jù)時間段的長短來決定有待進一步研究。另外,熱點話題識別的準確率還有很大的提升空間,主題詞聚類算法需要進一步優(yōu)化,這些都是后續(xù)工作研究重點。
References:
[1] Ding Zhaoyun, Jia Yan, Zhou Bin. Survey of data mining for microblogs[J]. Journal of Computer Research and Development, 2014, 51(4): 691-706.
[2] Popescu A M, Pennacchiotti M. Detecting controversial events from Twitter[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management, Toronto, Canada, Oct 25-29, 2010. New York, USA:ACM, 2010: 1827-1836.
[3] Becker H, Naaman M, Gravano L. Beyond trending topics: real-world event identification on Twitter[C]//Proceedings of the 5th International AAAI Conference on Weblogs and Social Media, Barcelona, Spain, Jul 17-21, 2011. Menlo Park, USA:AAAI, 2011: 438-441.
[4] Li Jin, Zhang Hua, Wu Haoxiong, et al. BTopicMiner: domainspecific topic mining system for Chinese microblog[J]. Journal of Computer Applications, 2012, 32(8): 2346-2349.
[5] Lu Rong, Xiang Liang, Liu Mingrong, et al. Extracting news topics from microblogs based on hidden topics analysis and text clustering[C]//Proceedings of the 6th China Conference on Information Retrieval. Beijing: Chinese Information Processing Society of China, 2010: 291-298.
[6] Ritter A, Mausam B, Etzioni O, et al. Open domain event extraction from Twitter[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Beijing, China, Aug 12-16, 2012. New York, USA:ACM, 2012: 1104-1112.
[7] Hong L,Amr A, Gurumurthy S, et al. Discovering geographical topics in the Twitter stream[C]//Proceedings of the 12th International Conference on World Wide Web, Lyon, France, Apr 16-20, 2012. New York, USA:ACM, 2012: 769-778.
[8] Yang Liang, Lin Yuan, Lin Hongfei. Micro-blog hot events detection based on emotion distribution[J]. Journal of Chinese Information Processing, 2012, 26(1): 84-90.
[9] Shi Daming. Blog hot post discovery and author reputation degree research[D]. Dalian: Dalian University of Technology, 2007.
[10] Li Hengxun, Zhang Huaping, Qin Peng, et al. Keywords based hot topic detection on Internet[C]//The 5th China Conference on Information Retrieval. Beijing: Chinese Information Processing Society of China, 2009: 134-143.
[11] Zhen Hai, Chang Kuiyu, Kim Jung-Jae, et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(3): 623-634.
[12] Wu Qiong, Tan Songbo, Xu Hongbo, et al. Cross-domain opinion analysis based on random-walk model[J]. Journal of Computer Research and Development, 2010, 47(12): 2123-2131.
[13] Liu Kang, Xu Liheng, Zhao Jun. Extracting opinion targets and opinion words from online reviews with graph co-ranking [C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, USA, Jun 23-25, 2014. Stroudsburg, USA:ACL, 2014: 314-324.
[14] Zheng Feiran, Miao Duoqian, Zhang Zhifei, et al. News topic detection approach on Chinese microblog[J]. Computer Science, 2012, 39(1):138-141.
[15] Xue Suzhi, Lu Ran, Ren Yuanyuan. Hot topics found on microblog based on speed growth[J]. Application Research of Computers, 2013, 30(9): 2598-2601.
附中文參考文獻:
[1]丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機研究與發(fā)展, 2014, 51(4): 691-706.
[4]李勁,張華,吳浩雄,等.基于特定領(lǐng)域的中文微博熱點話題挖掘系統(tǒng)BTopicMiner[J].計算機應用, 2012, 32(8): 2346-2349.
[5]路榮,項亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[C]//第六屆全國信息檢索學術(shù)會議論文集.北京:中國中文信息學會, 2010: 291-298.
[8]楊亮,林原,林鴻飛.基于情感分布的微博熱點事件發(fā)現(xiàn)[J].中文信息學報, 2012, 26(1): 84-90.
[9]時達明. Blog熱點話題發(fā)現(xiàn)及其作者聲譽度研究[D].大連:大連理工大學, 2007.
[10]李恒訓,張華平,秦鵬,等.基于話題詞的網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)[C]//第五屆全國信息檢索學術(shù)會議論文集.北京:中國中文信息學會, 2009: 134-143.
[12]吳瓊,譚松波,許洪波,等.基于隨機游走模型的跨領(lǐng)域傾向性分析研究[J].計算機研究與發(fā)展, 2010, 47(12): 2123-2131.
[14]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測方法[J].計算機科學, 2012, 39(1): 138-141.
[15]薛素芝,魯燃,任圓圓.基于速度增長的微博熱點話題發(fā)現(xiàn)[J].計算機應用研究, 2013, 30(9): 2598-2601.
LIU Peiyu was born in 1960. He received the M.S. degree in computer application from East China Normal University in 1986. Now he is a professor and Ph.D. supervisor at Shandong Normal University, and the senior member of CCF. His research interests include network information security and natural language processing, etc.
劉培玉(1960—),男,山東臨朐人,1986年于華東師范大學獲得碩士學位,現(xiàn)為山東師范大學教授、博士生導師,CCF高級會員,主要研究領(lǐng)域為網(wǎng)絡(luò)信息安全,自然語言處理等。發(fā)表學術(shù)論文60余篇,主編教材8部,主持或參加縱向課題11項。
HOU Xiuyan was born 1990. She is an M.S. candidate at Shandong Normal University, and the student member of CCF. Her research interests include natural language processing and Chinese opinion analysis, etc.
侯秀艷(1990—),女,山東文登人,山東師范大學碩士研究生,CCF學生會員,主要研究領(lǐng)域為自然語言處理,中文傾向性分析等。
ZHU Zhenfang was born in 1980. He received the Ph.D. degree from Shandong Normal University. He is a lecturer at Shandong Traffic Institute. His research interests include information security and information filtering, etc.
朱振方(1980—),男,山東臨沂人,博士,山東交通學院講師,主要研究領(lǐng)域為信息安全,信息過濾等。
LIU Fang was born in 1990. She is an M.S. candidate at Shandong Normal University, and the student member of CCF. Her research interest is computer security.
劉芳(1990—),女,山東臨沂人,山東師范大學碩士研究生,CCF學生會員,主要研究領(lǐng)域為計算機安全。
CAI Xiaohong was born in 1988. She is an M.S. candidate at Shandong Normal University, and the student member of CCF. Her research interests include natural language processing and Chinese opinion analysis, etc.
蔡肖紅(1988—),女,山東泰安人,山東師范大學碩士研究生,CCF學生會員,主要研究領(lǐng)域為自然語言處理,中文傾向性分析等。
Micro-Blog Hot Topic Detection Based on Heat Co-ranking?
LIU Peiyu1,2, HOU Xiuyan1,2+, ZHU Zhenfang3, LIU Fang1,2, CAI Xiaohong1,2
1. School of Information Science&Engineering, Shandong Normal University, Jinan 250014, China
2. Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology, Jinan 250014, China
3. College of Information Science and Electrical Engineering, Shandong Traffic Institute, Jinan 250357, China
+ Corresponding author: E-mail: alicehouhxy@163.com
LIU Peiyu, HOU Xiuyan, ZHU Zhenfang, et al. Micro-blog hot topic detection based on heat co-ranking. Journal of Frontiers of Computer Science and Technology, 2016, 10(4): 573-581.
Abstract:Micro-blog hot topic detection plays an important role in public opinion analysis and opinion mining. In order to reduce the impact of data sparsity on topic detection, this paper proposes an approach for micro-blog hot topic detection based on heat co-ranking, builds a unified model framework to organically integrate all relationships between micro-blog texts and topic keywords. The authority of micro-blog user and the time-related characteristics of topic keywords are simultaneously considered, and the heat of micro-blog texts and topic keywords gets mutual reinforcement and co-ranking. Topic keywords in hot sequence are clustered by using the combination support confidencebook=574,ebook=128as a threshold. The experimental results show that the proposed method has high accuracy for hot keywords extraction and hot topic detection, can effectively discover micro-blog hot topics in a specific period.
Key words:hot topic; topic keywords; micro-blog text; co-ranking; heat sequence
文獻標志碼:A
中圖分類號:TP391
doi:10.3778/j.issn.1673-9418.1509078