夏一雪 袁野 張文才 蘭月新
〔摘 要〕[目的/意義]通過對網(wǎng)絡輿情數(shù)據(jù)的動態(tài)監(jiān)測和異常感知,及時預警輿情異常,為政府掌握輿情決策的先動優(yōu)勢提供理論模型和可行思路。[方法/過程]分析大數(shù)據(jù)環(huán)境下激增、波動等網(wǎng)絡輿情數(shù)據(jù)異?,F(xiàn)象,明確輿情趨勢預測、動態(tài)感知異常等異常數(shù)據(jù)監(jiān)測機理?;诖?,首先運用Gompertz模型進行輿情趨勢區(qū)間預測,其次定義偏離度進行數(shù)據(jù)異常評級,并確定預警等級,實現(xiàn)異常數(shù)據(jù)的及時捕捉和快速預警。[結論/結果]通過實例驗證,證明了模型可行性,可以為政府輿情引導程度提供度量依據(jù),也為編制智能化的輿情監(jiān)測軟件提供算法支持。
〔關鍵詞〕大數(shù)據(jù);網(wǎng)絡輿情;異常數(shù)據(jù);監(jiān)測;預測
DOI:10.3969/j.issn.1008-0821.2018.06.012
〔中圖分類號〕C912.6 〔文獻標識碼〕A 〔文章編號〕1008-0821(2018)06-0080-06
〔Abstract〕[Purpose/Significance]Through dynamic monitoring and abnormal perception of network public opinion data,it made early warning of abnormal network public opinion and provided theoretical models and practicable methods for grasping the preemptive advantage of network public opinion decision.[Method/Process]It analysed the abnormal phenomena of network public opinion data such as skyrocketing data and trend fluctuation under big data environment,made clear the monitoring mechanism of abnormal data,such as trend prediction,dynamic perception of abnormal data,etc.On this basis,the first step was using Gompertz model to predict the trend of network public opinion theoretical interval.Secondly,the deviation degree was defined for data anomaly rating,and the early warning level was determined to realize the timely capture and rapid early warning of abnormal data.[Result/Conclusion]The feasibility of the model was proved by an example,which could provide the measurement basis for the guidance degree of network public opinion,and also provided the algorithm support for compiling intelligent monitoring software of network public opinion.
〔Key words〕big data;network public opinion;abnormal data;monitoring;prediction
1 現(xiàn)狀分析
根據(jù)第41次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2017年12月,我國手機網(wǎng)民規(guī)模達7.53億,網(wǎng)民中使用手機上網(wǎng)人群的占比由2016年的96.1%提升至97.5%[1]。隨著移動寬帶互聯(lián)網(wǎng)的普及,熱點輿情以及由其引發(fā)的輿情反轉、衍生輿情等各類網(wǎng)絡輿情事件層出不窮,上海外灘踩踏事故(2014)、南海仲裁(2016)、魏則西事件(2016)等輿情信息數(shù)量激增,哈爾濱天價魚(2016)、李文星事件(2017)、杭州保姆縱火(2017)等輿情的急速反轉和劇烈波動,都蘊含著大量的網(wǎng)絡輿情數(shù)據(jù)異常變化情況,加之受網(wǎng)絡水軍、網(wǎng)絡推手、輿論戰(zhàn)等影響,導致網(wǎng)絡輿情異?,F(xiàn)象頻出。在輿情監(jiān)測過程中,相較于常態(tài)輿情監(jiān)測,異常數(shù)據(jù)監(jiān)測的決策支持價值更加突出,特別是在數(shù)據(jù)異常變化初期,及時監(jiān)測并提前預警,有助于政府掌握輿情決策的先動優(yōu)勢。分析網(wǎng)絡輿情數(shù)據(jù)異?,F(xiàn)象,開展異常數(shù)據(jù)監(jiān)測研究,是極具理論與實踐價值的研究課題。
目前在網(wǎng)絡輿情監(jiān)測理論與方法領域,國內學術界研究成果可以分為以下4個方面:一是監(jiān)測指標體系的構建,包括運用數(shù)據(jù)立方體、三角模糊數(shù)、層次分析法等方法構建監(jiān)測指標體系[2-3];二是監(jiān)測分析系統(tǒng)的架構,包括目標定位、評判依據(jù)與運行保障等,主要基于多Agent、基于地理空間大數(shù)據(jù)等架構監(jiān)測分析系統(tǒng)[4-5];三是基于監(jiān)測的預警評估研究,主要運用事件演變動力學建模、語義隸屬度模糊推理、直覺模糊推理等開展預警評估[6-7];四是運用人工智能、大數(shù)據(jù)、云計算等對監(jiān)測方法和模式進行創(chuàng)新[8-9]。相關研究的關鍵詞共現(xiàn)網(wǎng)絡如圖1所示。
綜合而言,已有研究主要針對網(wǎng)絡輿情進行常態(tài)監(jiān)測,也有學者研究負面輿情監(jiān)測、異常行為識別等問題[10-11],但主要基于統(tǒng)計學理論,進行內容關鍵詞監(jiān)測,在異常數(shù)據(jù)感知的動態(tài)性、前瞻性等方面仍需進一步深入研究。由此,本文首先描述網(wǎng)絡輿情的正常傳播規(guī)律,基于規(guī)律進行預測,通過分析監(jiān)測數(shù)據(jù)與預測數(shù)據(jù)的偏離度來度量網(wǎng)絡輿情的數(shù)據(jù)異常,在大數(shù)據(jù)環(huán)境下,這一監(jiān)測思路可以更敏銳捕捉到異常數(shù)據(jù)及其前兆數(shù)據(jù),并快速預警,提前響應,為政府掌握輿情決策的先動優(yōu)勢提供理論基礎。
2 大數(shù)據(jù)環(huán)境下網(wǎng)絡輿情異常監(jiān)測問題
2.1 大數(shù)據(jù)環(huán)境下網(wǎng)絡輿情數(shù)據(jù)異?,F(xiàn)象
大數(shù)據(jù)環(huán)境下,網(wǎng)絡輿情演化滿足信息生命周期理論,即輿情演化經(jīng)歷潛伏期、擴散期、消退期等階段,在沒有外部力量干擾時,輿情演化過程中信息數(shù)量的變化滿足一定的變化規(guī)律。然而,近些年,在網(wǎng)絡水軍、網(wǎng)絡推手、輿論戰(zhàn)等外部因素干擾下,以及輿情信息異化影響下,輿情演化周期內信息數(shù)量短時間激增或急速衰減時有發(fā)生,輿情演化周期外的衍生輿情或者輿情反轉等層出不窮。以Baidu搜索指數(shù)為例,魏則西事件搜索量在1天內激增了20余萬,南海仲裁輿情則在1天內激增了300余萬,大量輿情異常數(shù)據(jù)中蘊含著有價值的網(wǎng)絡情報,需要快速監(jiān)測異常并通過深度研判感知網(wǎng)絡民意。通過案例分析,輿情異常主要包括數(shù)量激增異常、衰減異常、波動異常等現(xiàn)象(見圖2),其中激增異常、波動異常是最常見的兩種異常現(xiàn)象。
大數(shù)據(jù)環(huán)境下,輿情異常破壞了其正常的演化趨勢,輿情數(shù)據(jù)量激增或者波動導致實際輿情演化趨勢偏離了理論演化趨勢,通過對偏離程度的分析研判,可以挖掘蘊含于數(shù)據(jù)之中的輿情異常。面對網(wǎng)絡輿情數(shù)據(jù)異常,依托大數(shù)據(jù)通過對輿情數(shù)據(jù)構建監(jiān)測模型,快速感知輿情異常,可以占據(jù)治理先動優(yōu)勢,是輔助政府智慧決策、感知民意的重要內容(見圖3)。
2.2 大數(shù)據(jù)環(huán)境下網(wǎng)絡輿情數(shù)據(jù)異常監(jiān)測機理
面對網(wǎng)絡輿情異?,F(xiàn)象,快速監(jiān)測異常的實質就是快速度量偏離程度。解決這一問題的關鍵有兩個:第一,輿情事件發(fā)生后,根據(jù)監(jiān)測數(shù)據(jù)構建預測模型,預測未來演化趨勢,把握輿情原始演化態(tài)勢,以圖4為例,自輿情開始后,經(jīng)歷少段時間后達到t時刻,應構建輿情演化模型,并根據(jù)t時刻之前的數(shù)據(jù)預測t時刻之后的演化趨勢,即圖中虛線所示。第二,當新的監(jiān)測數(shù)據(jù)出現(xiàn)后,需要通過預測值和新數(shù)據(jù)構建異常感知模型,研判新數(shù)據(jù)是否為異常數(shù)據(jù),并隨著新數(shù)據(jù)的不斷融入,通過數(shù)據(jù)動態(tài)研判,實現(xiàn)動態(tài)感知過程,以圖4為例,通過t+1時刻預測值和真實值建立模型,研判該點的異常程度,當其為異常數(shù)據(jù)時,則確定異常等級并進行異常預警,反之,將其融入預測模型用于完善預測趨勢,并動態(tài)重復這個過程。大數(shù)據(jù)的核心是預測,基于預測開展異常監(jiān)測可以縮短監(jiān)測異常的時間,應用預測模型和異常感知模型可以編制軟件,實現(xiàn)輿情異常感知的智能化。大數(shù)據(jù)環(huán)境下,解決以上兩個關鍵問題需要經(jīng)過搜集、整理輿情監(jiān)測數(shù)據(jù)、輿情趨勢預測建模、輿情異常感知建模、異常數(shù)據(jù)預警、決策等核心環(huán)節(jié)。
3 面向大數(shù)據(jù)的網(wǎng)絡輿情異常數(shù)據(jù)監(jiān)測研究
大數(shù)據(jù)環(huán)境下,網(wǎng)絡輿情異常數(shù)據(jù)監(jiān)測是一個復雜的過程?;诖?,本文將這個過程分為預測建模、異常感知建模和異常數(shù)據(jù)過濾等3個步驟:第一,在輿情監(jiān)測數(shù)據(jù)基礎上構建建模變量,選擇Gompertz模型作為基礎模型開展區(qū)間預測;第二,異常感知建模在動態(tài)輸入輿情監(jiān)測數(shù)據(jù)后,構建異常感知模型;第三,開展異常程度評級研究,對正常波動數(shù)據(jù)和異常數(shù)據(jù)進行區(qū)分并動態(tài)更新,具體內容見網(wǎng)絡輿情異常數(shù)據(jù)監(jiān)測過程示意圖(見圖5)。
3.1 網(wǎng)絡輿情數(shù)據(jù)預測模型研究
大數(shù)據(jù)的核心是預測,預測的關鍵是建模。網(wǎng)絡輿情傳播符合信息生命周期理論,一般要經(jīng)歷發(fā)酵、擴散、平息的演化過程,這一點與生態(tài)科學中描述生物生長的萌芽、增長、消亡的生長過程演化機理相似,所以,可以借鑒描述生長過程的生長曲線來研究網(wǎng)絡輿情演化過程。生態(tài)科學中,生長曲線有很多,例如Logistic模型、Gompertz模型、Usher模型、廣義Logistic模型、Smith模型、Hallam模型、崔-Lawson模型等[12],考慮到大數(shù)據(jù)環(huán)境下網(wǎng)絡輿情擴散周期短、數(shù)量多的特性,本文選擇Gompertz模型作為基礎模型來刻畫網(wǎng)絡輿情演化過程,并據(jù)此開展預測研究。根據(jù)網(wǎng)絡輿情定義,假設網(wǎng)絡輿情信息量為單調遞增函數(shù)x(t),則Gompertz模型為:
3.1.1 確定模型參數(shù)
獲取原始網(wǎng)絡輿情監(jiān)測數(shù)據(jù)后,需要將其進行累加成為建模變量。假設由網(wǎng)絡輿情監(jiān)測數(shù)據(jù)得到的信息量數(shù)據(jù)為X={x0,x1,x2,x3,…,xn-1}。通過MATALAB擬合數(shù)據(jù)驗證Gompertz模型用于預測的方法要求數(shù)據(jù)量大且為完整的一個輿情演化周期數(shù)據(jù),然而在實際工作中,網(wǎng)絡話題剛剛發(fā)生后往往數(shù)據(jù)量很少,所以很難通過MATLAB軟件擬合數(shù)據(jù)得出預測曲線?;诖?,本文研究在少量數(shù)據(jù)情況下的網(wǎng)絡輿情數(shù)據(jù)的預測方法。
3.1.2 網(wǎng)絡輿情趨勢區(qū)間預測
3.2 網(wǎng)絡輿情異常數(shù)據(jù)感知和評級
大數(shù)據(jù)環(huán)境下,網(wǎng)絡輿情在傳播過程中,有時會出現(xiàn)小幅度波動,引發(fā)這種波動有兩種情況:第一種為正常的波動現(xiàn)象;第二種是異常波動的前兆?;诖耍疚亩x正常區(qū)間(A)、觀察區(qū)間(B)、異常區(qū)間(C)來感知網(wǎng)絡輿情異常數(shù)據(jù),其中正常區(qū)間(A)為前文的預測區(qū)間,即正常區(qū)間為:
其中j=n,n+1,n+2,…。如果預測數(shù)據(jù)j落入正常區(qū)間(A),則將其列為正常數(shù)據(jù),并將其融入預測建模數(shù)據(jù),更新模型參數(shù),并更新預測未來數(shù)據(jù);如果預測數(shù)據(jù)j落入觀察區(qū)間(B),則將其視為觀察數(shù)據(jù),如果后續(xù)數(shù)據(jù)持續(xù)落入觀察區(qū)域(B),則說明這是輿情異常的前兆數(shù)據(jù),在計算偏離度P(j)之后,確定評估等級同時繼續(xù)使用原來的模型開展預測;如果預測數(shù)據(jù)j落入異常區(qū)間(C),則將其視為異常數(shù)據(jù),在計算偏離度P(j)之后,確定異常評估等級,然后繼續(xù)使用原來的模型開展預測。其中異常評估等級需要結合實際情況根據(jù)大量案例數(shù)據(jù)通過計算預測區(qū)間閾值和觀察閾值后獲得。
限于篇幅,本文根據(jù)偏離度P(j)的絕對值將網(wǎng)絡輿情異常評估等級分為輕度級、中度級、高度級、嚴重級4個等級,并分別用藍、黃、橙、紅4個顏色加以區(qū)分(見表1),進而確定不同評估級別的預案,為輿情治理決策提供理論支持。
4 應用與驗證研究
4.1 數(shù)據(jù)來源
通過清博輿情監(jiān)測軟件(http://yuqing.gsdata.cn)獲取2017年6月至7月間的“京津冀大暴雨”事件網(wǎng)絡輿情統(tǒng)計數(shù)據(jù),其中微輿情(微信和微博信息量之和)信息量占據(jù)60.27%,數(shù)據(jù)采集時段為2017年6月21日0點至2017年7月7日23點(詳細數(shù)據(jù)見圖8)?;诖?,本文選取微輿情信息量開展應用與驗證研究。
4.2 確定預測模型參數(shù)和區(qū)間預測范圍
將京津冀大暴雨輿情統(tǒng)計數(shù)據(jù)進行初始化,其中6月21日為輿情起點,即為t=0時刻,然后應用t=0至t=5的數(shù)據(jù)作為基礎歷史數(shù)據(jù)開展數(shù)據(jù)建模,用t=6到t=16作為驗證數(shù)據(jù)。將t=0至t=5的輿情監(jiān)測數(shù)據(jù)進行累加后得到建模變量數(shù)據(jù),應用回歸分析獲得Gompertz模型為:
其中回歸分析的可決系數(shù)為0.9960,絕對相對誤差為3.54%,擬合效果好,可以用于預測未來趨勢。在開展預測的同時,取波動閾值α=3.54%,觀察閾值k=2,確定觀察區(qū)間、正常區(qū)間的上、下限(見圖9)。
4.3 結果分析
依次對t=6到t=16開展異常監(jiān)測感知測試,驗證模型合理性,計算結果見表2。觀察結果發(fā)現(xiàn):t=6、t=7、t=8時刻對應的偏離度較小,異常評估結果為正常,所以將新數(shù)據(jù)依次融入建模數(shù)據(jù),重置參數(shù)開展持續(xù)預測;t=9時,異常評估結果為觀察,所以暫停更新數(shù)據(jù),持續(xù)觀察;t=10以后,異常評估結果均為異常,且預警等級由橙色變?yōu)槌掷m(xù)紅色。
對比模型計算結果與實際輿情監(jiān)測數(shù)據(jù)(見圖10),圖中正常區(qū)間、觀察區(qū)間范圍是由t=0至t=8的數(shù)據(jù)經(jīng)過建模得到。觀察發(fā)現(xiàn):實際輿情監(jiān)測數(shù)據(jù)(未累加)曲線上,t=2到t=8曲線持續(xù)單調遞減,輿情熱度逐步回落,但t=9時,有微微向上波動的趨勢,這一點被模型及時捕捉到,將其列為觀察數(shù)據(jù),而在峰值t=12來臨之前,連續(xù)在t=10、t=11處及時進行輿情異常紅色預警,模型計算結果和輿情實際演化結果基本吻合。為進一步提升輿情異常感知的及時性,應將監(jiān)測數(shù)據(jù)由按天統(tǒng)計變?yōu)榘葱r統(tǒng)計,以第一個紅色異常點t=10為例,按天預警則只能在當天晚上24點以后進行,而應用按小時統(tǒng)計數(shù)據(jù)之后,可以將預警時間提前4~5個小時,這段時間在治理網(wǎng)絡輿情時是極為重要的。如果將本文構建的預測模型和異常監(jiān)測機理編制成監(jiān)測軟件,隨著動態(tài)融入新數(shù)據(jù),將實現(xiàn)監(jiān)測智能化并節(jié)省人力資源,為輔助網(wǎng)絡輿情治理決策提供及時的輿情異常等情報信息。
5 總結與展望
隨著新媒體的發(fā)展,網(wǎng)絡輿情態(tài)勢呈現(xiàn)出數(shù)量多、產生速度快、信息類型多、蘊含大量民意等大數(shù)據(jù)特征。但網(wǎng)絡輿情受網(wǎng)絡水軍、網(wǎng)絡推手等主體的諸多干擾,以及信息異化等信息層面的影響,導致輿情異?,F(xiàn)象時有發(fā)生。
面對網(wǎng)絡輿情異?,F(xiàn)象,如何智慧應急、科學治理,是政府輿情決策的重要內容,也是更深入把握網(wǎng)絡輿情演化時、度、效的必經(jīng)之路?;诖耍疚幕趧討B(tài)預測模型嘗試解決輿情異常的感知問題,通過理論研究和實證研究證明了模型的可行性,為輿情引導程度提供度量依據(jù),也為編制智能化的輿情監(jiān)測軟件提供算法支持。然而限于篇幅,本文僅僅解決了部分機理性、宏觀性的異常監(jiān)測問題,而對于輿論戰(zhàn)、網(wǎng)絡謠言、多個輿情競爭等復雜環(huán)境下的異常監(jiān)測以及預測還有待進一步研究。
參考文獻
[1]中國互聯(lián)網(wǎng)絡信息中心.第41次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201801/t20180131_70190.htm,2018-02-06.
[2]宋余超,陳福集.基于數(shù)據(jù)立方體的網(wǎng)絡輿情監(jiān)測指標體系構建[J].情報科學,2016,34(6):31-36.
[3]蘭月新,董希琳,陳成鑫.地方政府應對網(wǎng)絡輿情能力評估和危機預警研究[J].現(xiàn)代情報,2012,32(5):8-12.
[4]于衛(wèi)紅.基于多Agent的高校網(wǎng)絡輿情監(jiān)測與分析系統(tǒng)[J].現(xiàn)代情報,2017,37(10):53-57.
[5]楊宗亮,張玉茜,李建飛.一種基于地理空間大數(shù)據(jù)的網(wǎng)絡輿情監(jiān)測軟件架構[J].測繪通報,2017,(3):96-100.
[6]徐勇.網(wǎng)絡輿情事件演變的動力學建模及預警監(jiān)測[J].現(xiàn)代情報,2016,36(4):14-19,56.
[7]張艷豐,李賀,彭麗徽,等.基于語義隸屬度模糊推理的網(wǎng)絡輿情監(jiān)測預警實證研究[J].情報理論與實踐,2017,40(9):82-89.
[8]鄢睿.人工智能視域下網(wǎng)絡輿情監(jiān)測的變革之道[J].傳媒,2017,(20):51-53.
[9]儲節(jié)旺,朱玲玲.基于大數(shù)據(jù)分析的突發(fā)事件網(wǎng)絡輿情預警研究[J].情報理論與實踐,2017,40(8):61-66.
[10]孫飛顯,程世輝,倪天林,等.基于新浪微博的負面網(wǎng)絡輿情監(jiān)測研究——針對政府的負面網(wǎng)絡輿情研究系列之一[J].情報雜志,2015,34(4):81-84,115.
[11]曹樹金,鄭凌,陳憶金.網(wǎng)絡輿情突發(fā)異常識別及關鍵算法研究[J].圖書情報知識,2012,(1):43-51.
[12]Fred Brauer,Carlos Castillo-Chavez.生物數(shù)學——種群生物學與傳染病中的數(shù)學模型[M].金成桴,譯.北京:清華大學出版社,2013.
(責任編輯:孫國雷)