林麗娜,魏德志,2
(1.集美大學 誠毅學院,福建 廈門 361021; 2.福州大學 經(jīng)濟與管理學院,福建 福州 350108)
?
一種基于時間序列網(wǎng)絡輿情熱點事件發(fā)現(xiàn)模型
林麗娜1,魏德志1,2
(1.集美大學 誠毅學院,福建 廈門 361021; 2.福州大學 經(jīng)濟與管理學院,福建 福州 350108)
在大數(shù)據(jù)背景下,互聯(lián)網(wǎng)每天都能產(chǎn)生大量的輿情信息,如何從大量的輿情信息中及時發(fā)現(xiàn)熱點事件,有利于政府及時監(jiān)控相關熱點事件的發(fā)展趨勢,對網(wǎng)民進行輿論導向的引導,減少輿情信息對社會的不良影響,保護網(wǎng)民的權(quán)益,促進社會的穩(wěn)定.本文針對目前網(wǎng)絡輿情熱點事件發(fā)現(xiàn)模型存在的一些問題,提出了一個基于時間序列的排序模型用于發(fā)現(xiàn)熱點事件,該模型采用影響熱點事件的相關因素作為評價指標,并且指標的相關數(shù)據(jù)全部為客觀數(shù)據(jù),有利于模型評價的客觀性.為了求解該模型,首先采用熵權(quán)法確定模型中指標的權(quán)重,然后提出將TOPSIS法和灰色關聯(lián)法以相對貼近度的形式結(jié)合起來進行計算,以判斷方案的優(yōu)劣,最后通過實驗驗證,和其他熱點事件發(fā)現(xiàn)算法進行對比,最終得出該方法具有比較好的客觀性和準確性.
網(wǎng)絡輿情;時間序列;排序模型;大數(shù)據(jù)
在互聯(lián)網(wǎng)的新時代,無論是重大事件或國際活動,可以形成在網(wǎng)絡上的輿論在很短的時間,甚至有輿論的巨大力量.面對幾億網(wǎng)民和幾百萬的媒體網(wǎng)站,每天都能產(chǎn)生海量的網(wǎng)絡輿情信息,這些信息符合大數(shù)據(jù)的四個特點:大量、高速、多樣、價值.如何準確快速從海量輿情信息中發(fā)現(xiàn)熱點事件已經(jīng)成為科研工作的研究熱點.對網(wǎng)絡輿情熱度目前的研究主要是基于兩個方面:一方面主要是基于數(shù)據(jù)挖掘技術,主要采用的是聚類算法[1~5],另一方面主要是基于內(nèi)容的輿情熱度分析方法[6],通過對網(wǎng)絡內(nèi)容[7]、網(wǎng)絡結(jié)構(gòu)及網(wǎng)絡應用[8~11]、網(wǎng)絡技術監(jiān)控和模型計算[12~15]的分析來獲取輿情信息,進而推到輿情熱度變化趨勢.
以上研究主要集中在網(wǎng)絡輿情熱點事件的發(fā)現(xiàn),取得了比較好的效果.但是在大數(shù)據(jù)背景下,每天產(chǎn)生的熱點新聞數(shù)量比較多的,不同媒體網(wǎng)站對熱點新聞的排序也是不一樣,主要在于針對熱點事件的因素考慮得不夠全面.如何全面考慮和熱點事件相關的因素比如新聞數(shù)量、新聞點擊率、網(wǎng)友評論等指標在目前的研究中還比較有限.本文提出基于時間序列的熱度排序模型,綜合考慮和熱點事件相關因素,全面客觀的分析影響熱點事件的因素,找出相關熱點事件,有利于政府及時調(diào)控輿論走向,使輿論朝健康正確的方向發(fā)展將有一定的現(xiàn)實意義.
根據(jù)上述存在的問題,提出一個基于時間序列的熱點事件排序數(shù)學模型,主要指標包括:新聞瀏覽數(shù)量L、新聞回復數(shù)量R、新聞發(fā)布數(shù)量S、參與發(fā)布媒體數(shù)量M、新聞分享數(shù)P,這些客觀指標數(shù)據(jù)的獲取可以根據(jù)新聞采集軟件獲取.排序決策矩陣A如公式(1)所示,n代表排序的事件數(shù).
(1)
各項指標的具體計算如下:假設按照時間間隔t進行統(tǒng)計,統(tǒng)計的網(wǎng)站媒體數(shù)量為n,需要統(tǒng)計的時間為k個間隔t.
以上基于時間序列模型可以根據(jù)用戶要求指定任意時間間隔進行統(tǒng)計(可以是1天或者n天),統(tǒng)計覆蓋范圍可以是整個網(wǎng)絡,也可以是單一網(wǎng)站(n=1),該模型具有較廣泛的適用性,統(tǒng)計指標也比較全面.
基于時間序列的熱點事件排序數(shù)學模型的指標有5個,每個指標的屬性權(quán)重的確定對整個數(shù)學模型最終排序的結(jié)果影響非常大,為了更好確定屬性權(quán)重,本文考慮采用熵權(quán)法來確定指標的權(quán)重,熵權(quán)法是一種根據(jù)排序數(shù)據(jù)來確定權(quán)重的客觀方法,不會受人為因素影響,比較適合本模型的計算機自動求解.
熵權(quán)法求解排序矩陣指標屬性客觀權(quán)重的具體步驟如下.
1)將矩陣A的指標屬性H列歸一化得
2)計算指標屬性熵值
TOPSIS法是一種多屬性決策方法從幾何學的角度,從屬性的角度來評估各種選項,類似于維空間的多點分析,根據(jù)點和理想點的位置來確定方案的貼近度.灰色關聯(lián)分析的對象是一種時間序列圖,和灰色關聯(lián)度為標準,從直接反映幾何中曲線的相似程度的幾何,兩個時間序列曲線形狀接近,他們的灰色關聯(lián)度較大的.
灰色關聯(lián)法是從序列點的形狀相似性反映了方案與理想方案的接近程度,TOPSIS法從空間點的位置上的距離來反映方案與理想方案的接近程度.把TOPSIS法結(jié)合灰色關聯(lián)法形成一種新的方法GR-TOPSIS,綜合考慮了決策方案位置的接近和形狀相似,充分利用兩種方法的優(yōu)點,該方法能夠更好的解決排序方案的優(yōu)劣.
具體算法步驟如下.
1)對原始決策矩陣X=(xij)m×n規(guī)范化處理
得到規(guī)范化矩陣:Y=(yij)m×n
2)計算加權(quán)規(guī)范化決策矩陣Z=(zij)m×n,其中zij=ωjyij.
3)確定加權(quán)規(guī)范化矩陣的正理想解Z+和負理想解Z-
4)計算各方案到正負理想解的距離
5)計算各個方案和正負理想解之間的灰色關聯(lián)系數(shù)矩陣R+和R-
ε∈(0,1)為分辨系數(shù),一般取值0.5.
6)具有同正負理想解的灰色關聯(lián)度r+和r-的計算公式;
8)計算各方案的相對貼近度
考慮到實驗數(shù)據(jù)采集的復雜度,本文采用網(wǎng)絡礦工對新浪、網(wǎng)易、搜狐三個網(wǎng)站媒體進行采集,時間為2016年3月10日,采集的時間周期為一周,即k=1,t=7 d,采集新聞數(shù)量為熱點前10相關新聞,經(jīng)過整理并根據(jù)本文5個指標的數(shù)據(jù)進行統(tǒng)計,統(tǒng)計得出10個網(wǎng)絡熱點事件,具體如表1.
表1 3~10日網(wǎng)絡熱點事件列表
根據(jù)表1統(tǒng)計的數(shù)據(jù)可以得到排序決策矩陣A1.
表2 不同方法的排序結(jié)果
三種方法最終都能得到自己的排序方案,但是灰度關聯(lián)的方法和TOPSIS的方法在結(jié)果上存在較大的不同,主要原因是兩種方法在排序時考慮的因素不一樣,灰色關聯(lián)法主要是考慮了序列點的形狀相似性,TOPSIS法考慮了空間點的位置上的距離,GR-TOPSIS方法結(jié)合了兩者的優(yōu)點能夠更好和準確地得到較好的排序方案.比如E1事件江西35歲女縣長直升副廳級領導事件是目前網(wǎng)絡最為熱點的輿情事件,但是如果使用灰度關聯(lián)方法就無法表現(xiàn)出來該事件的熱度,比如E3原鐵道部副部長炮轟發(fā)改委事件和E6深圳一小區(qū)市值抵中國第五大機場,E5延遲退休方案今年推出和E9購房首付貸違法,TOPSIS方法和灰度關聯(lián)方法存在較大不同,采用GR-TOPSIS方法可以綜合考慮兩種方法,更好表示排序方案的客觀性和準確性.
在大數(shù)據(jù)背景下,每天都能產(chǎn)生海量的網(wǎng)絡輿情事件,本文對網(wǎng)絡輿情事件的熱度排序方法進行了有效的探討,基于時間序列綜合考慮網(wǎng)絡新聞的5個指標,更客觀的反應網(wǎng)絡輿情事件熱度的全面性.該熱點事件發(fā)現(xiàn)模型有利于政府相關管理部門及時發(fā)現(xiàn)輿情的相關熱點信息,對不良輿情信息進行有效監(jiān)控,維護廣大網(wǎng)民的權(quán)益,保護社會的穩(wěn)定.
[1] 馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J].計算機工程與應用,2014,50(1):96-100.
[2] 王 巍,楊 武,齊海鳳.基于多中心模型的網(wǎng)絡熱點話題發(fā)現(xiàn)算法[J].南京理工大學學報(自然科學版),2009,33(4):422-426
[3] 王 林,戴冠中.基于復雜網(wǎng)絡社區(qū)結(jié)構(gòu)的論壇熱點主題發(fā)現(xiàn)[J].計算機工程,2008,34(11):214-216
[4] 張壽華,叢 帥,尚開雨,等.網(wǎng)絡輿情追蹤中熱點關鍵詞的提取[J].河北大學學報(自然科學版),2012,32(3):311-315
[5] 陳 翰,韓永峰,李弼程.基于突發(fā)事件熱度的站點地圖構(gòu)建算法[J].計算機應用研究,2012,29(8):2943-2947
[6] 楊 震,段立娟,賴英旭.基于字符串相似性聚類的網(wǎng)絡短文本輿情熱點發(fā)現(xiàn)技術[J].北京工業(yè)大學學報,2010,36(5):669-673
[7] 劉星星,何婷婷,龔海軍,等.網(wǎng)絡熱點事件發(fā)現(xiàn)系統(tǒng)的設計[J].中文信息學報,2008,22(6):80-85
[8] 閆力君,趙玉芳.極小化加權(quán)總完工時間的可拒絕單機排序問題[J].沈陽師范大學學報(自然科學版),2015,33(1):33-37
[9] 謝曉娟,石新宇.網(wǎng)絡輿情與網(wǎng)絡話語權(quán)[J]. 沈陽師范大學學報(社會科學版),2014,31(4):10-12
[10] 曹依霏,孟 韜.虛擬社區(qū)網(wǎng)絡傳播機制分析[J]. 沈陽師范大學學報(社會科學版),2014,31(5):168-170
[11] ZHAO J C,GUO J X.The research of network public opinion hotspots technologies for internet web[J].Applied Mechanics and Materials,2013,24(1):2500-2503
[12] XUREN W,BEI S,SHUO Y.Research of Internet public opinion based on data mining[C]//Proceedings of 2011 International Conference on Computer Science and Network Technology,2011,4(2):2414-2418
[13] ZHANG S,SHANG K,Cong S,etal.WIPOMTS:An internet public opinion monitoring system[C]//Information Computing and Applications.Springer Berlin Heidelberg,2012,5(2):1-8
[14] WANG Y M,LUO Y,Zhongsheng Hua,On the extent analysis method for fuzzy AHP and its applications[J].European Journal of Operational Research,2008,186(2):735-747
[15] Ying-Ming WANG,Kwai-Sang CHIN.Fuzzy analytic hierarchy process:A logarithmic fuzzy preference programming methodology[J].International Journal of Approximate Reasoning,2011,52(4):541-553
Sort Model about Hotspots Public Opinion Event Based on Time-series in the Context of Large Data
LIN Lina1, WEI Dezhi1,2
(1.Jimei University, Chengyi College, Xiamen 361021;2.School of Economics and Management, Fuzhou University, Fuzhou 350108, China)
A lot of public opinion information were produced on the Internet every day in the context of big date. How to find a hot spot in time from a lot of public opinion information is in order to monitor the development trend of the relevant hot events,and it is in order to reduce the adverse effects of public opinion information about society. It can also help to protect the rights and interests of the Internet users, and promote the stability of social. According to the the some problems of the models which were found the hotspot events of the public opinion, a sort model based on time serial was proposed to solve the sort of hotspots public opinion event. Firstly, the weight of indicators was determined by the combination of entropy method and fuzzy AHP. Then, a method was proposed by the combination of TOPSIS method and gray correlation method in the form of relative nearness to determine the merits of the program. Finally, with the experimental verification, the method has better objectivity and accuracy by the comparison of TOPSIS method and gray correlation method.
internet public opinion;time series;sort model;big data
2016-08-17
國家自然科學基金(71271056);福建省教育廳項目資助的課題(C13001,JA14368).
林麗娜(1984-),女,福建莆田人,碩士,集美大學講師,主要從事網(wǎng)絡安全、網(wǎng)絡輿情研究.
1672-2027(2016)03-0052-05
G354;TP393
A