李藍汐
摘 要:文章分別運用BP神經(jīng)網(wǎng)絡模型和分形插值模型對水污染微博數(shù)量的年變化過程和一次事件的變化過程進行預測研究,分析和比較兩種方法的適用性。研究表明,BP神經(jīng)網(wǎng)絡模型預測全年輿情變化的精度高于分形插值模型,而分形插值模型預測一次輿情過程的精度高于BP神經(jīng)網(wǎng)絡模型,在微博輿情預測上各有優(yōu)劣。分形插值模型的輿情預測結果具有預測誤差率較小、預測結果偏低和預測后一個時間點數(shù)值的準確率比預測長期輿情規(guī)律要準確的特性,適用于預測突發(fā)隨機事件的輿情。
關鍵詞:輿情;微博;預測;BP神經(jīng)網(wǎng)絡;分形插值
1 研究背景
預測是指在對預測對象的過去和現(xiàn)在進行相應調查和分析之后,找出對象發(fā)展變化的實質,根據(jù)找出的實質來預測對象將來的發(fā)展變化情況[1]。預測分析是在對事物未來科學分析的基礎上,對事物發(fā)展和變化的規(guī)律性的調查和研究[2]。
輿情預測的研究可以分為兩大類:一類是以數(shù)理統(tǒng)計和微積分等傳統(tǒng)的數(shù)學物理方法為基礎的預測模型,如:微分方程模型、時間序列模型、參數(shù)回歸模型;另一類是基于智能機器學習算法的預測模型,如:灰色理論模型、支持向量機模型、神經(jīng)網(wǎng)絡模型、馬爾科夫模型,這些方法各有優(yōu)缺點。
1986年Barnsley 基于自相似性原理和迭代函數(shù)系理論提出了分形插值方法,適合于具有分形特征的曲線、曲面或非平穩(wěn)數(shù)據(jù)的擬合,為函數(shù)逼近理論和計算機圖形學提供了新思想、新工具,已廣泛應用于自然科學、社會科學和工程技術的眾多領域。
本文以水污染網(wǎng)絡輿情(微博數(shù)量)為研究對象,運用分形插值模型和BP神經(jīng)網(wǎng)絡模型對水污染微博數(shù)量的年變化過程和一次事件的變化過程進行預測研究,分析比較兩種方法的適用性。
2 水污染微博輿情預測方法與功能
2.1 水污染微博輿情預測方法概述
考慮到水污染微博輿情既有日常的話題討論,又有水污染事件發(fā)生時的微博輿情突然增大到減少的過程,因此選擇具有學習訓練能力的BP神經(jīng)網(wǎng)絡模型和具有擬合非線性、不光滑、非平穩(wěn)過程的分形插值模型。
BP神經(jīng)網(wǎng)絡模型通過數(shù)據(jù)訓練,即確定兩組數(shù)組:一組為輸入數(shù)組,一組為輸出數(shù)組。當輸入某一數(shù)組后,對數(shù)據(jù)進行反復迭代使輸出的結果與既定輸出數(shù)組值接近,以確定各神經(jīng)節(jié)點的權重,并根據(jù)該神經(jīng)神經(jīng)網(wǎng)絡模型預測未來的數(shù)據(jù)。如以2015年的水污染微博輿情時間分布變化為輸入數(shù)組,2016年的水污染微博輿情時間分布變化為輸出數(shù)組,反復進行迭代以確定神經(jīng)節(jié)點的權重。確定權重后可根據(jù)該神經(jīng)網(wǎng)絡模型,預測其他時間段的微博輿情時間變化分布。其優(yōu)勢體現(xiàn)在方法成熟,非線性擬合能力良好,目前BP神經(jīng)網(wǎng)絡是輿情預測技術中最為常見的技術,已有現(xiàn)有研究證明,BP神經(jīng)網(wǎng)絡模型與其他的時間序列模型、微分方程模型相比具有更好的穩(wěn)定性和優(yōu)越性。
分形插值是分形幾何理論及其應用研究中的一個重要內(nèi)容,它能很好地刻畫現(xiàn)實中存在的復雜的曲線或曲面[3]。由于分形插值函數(shù)具有很強的靈活性和穩(wěn)定性[4],只要適當調整其參數(shù),所形成的插值曲線的維數(shù)就能取到1和2之間的任意值,因此它既可以擬合光滑曲線和平穩(wěn)數(shù)據(jù),更是在不光滑曲線和非平穩(wěn)數(shù)據(jù)的擬合中顯示出獨特的優(yōu)勢。此外,利用分形插值的外延特性,即可以根據(jù)過去的規(guī)律預測未來時間點的數(shù)值。
3 水污染微博輿情時間變化預測的比較
微博作為網(wǎng)民高活躍度、信息高透明化的平臺,對日常輿情和突發(fā)輿情反應敏感,本文以2015年1月1日至2017年12月31日微博平臺上涉及的“水污染”輿情的微博數(shù)量隨時間變化作為研究對象,分別采用BP神經(jīng)網(wǎng)絡模型和分形插值方法進行實驗和預測研究。
為了比較兩種預測模型對水污染微博輿情時間變化的預測精度,分別對1年和一次事件(10天左右)的預測結果進行比較分析。
3.1 一年微博輿情過程預測比較
采用BP神經(jīng)網(wǎng)絡模型和分形插值模型對2017年每日微博數(shù)預測與實際值比較如圖1所示。仍采用計算值與實際值之差的絕對值作為誤差,對累計誤差平均值進行統(tǒng)計,得BP神經(jīng)網(wǎng)絡模型的累積平均誤差為49,分形插值模型的累積平均誤差為52。由此可見,對于一年這樣長時間的水污染微博輿情預測,BP神經(jīng)網(wǎng)絡模型經(jīng)過2015和2016年兩年的數(shù)據(jù)訓練,其預測值與實際值的累積平均誤差小于分形插值模型;但從圖形上看,BP神經(jīng)網(wǎng)絡模型對峰值的預測能力不如分形插值模型,不過由于分形插值法預測的微博峰值與實際峰值之間存在著相位差,因此統(tǒng)計的累積誤差還是比BP神經(jīng)網(wǎng)絡模型大。
3.2 一次微博輿情過程預測比較
一次微博輿情從開始增加-到達峰值-然后下降的整個發(fā)展過程也是十分關心的問題。從2017年微博數(shù)變化可以看出,單日微博數(shù)超過500條的有4次,即2017年1月6日、6月3日、8月 15日和9月7日,下面分別針對其中3個高微博數(shù)輿情過程,比較兩種模型的預測結果,預測時所用方法和參數(shù)均與一年微博輿情過程預測相同。
3.2.1 事件一
2017年1月1日至13日是由柴靜霧霾調查引發(fā)的一次水污染話題微博突然增加的過程,在13天里共有微博2077條,每日平均約159.8條,單日最少微博數(shù)49條,單日最多538條(1月6日)(見圖2)。從BP神經(jīng)網(wǎng)絡模型和分形插值模型的預測結果(見圖3)看,兩個模型預測的峰值都比實際發(fā)生時間滯后1天,且都沒有達到實際的峰值,相對而言,分形插值模型預測的峰值比BP神經(jīng)網(wǎng)絡模型要高一點;分形插值模型預測的日最小微博數(shù)也與實際值更接近,但分形插值模型預測的日平均微博數(shù)不如BP神經(jīng)網(wǎng)絡模型與實際值接近;BP神經(jīng)網(wǎng)絡模型和分形插值模型預測的總微博數(shù)均較實際值小10%和20%。具體特征值比較如表1所示。
3.2.2 事件二
2017年6月1日至9日是由兒童飲用水引發(fā)的關于水污染話題微博突增的過程,9天內(nèi)共有微博1 550條,每日平均約172.2條,單日最少微博48條,單日最多687條(6月3日)。從BP神經(jīng)網(wǎng)絡模型和分形插值模型預測的結果看,分形插值模型預測的峰值比實際發(fā)生時間滯后1天、峰值達到實際的58%、日最少微博數(shù)也與實際值相同;BP神經(jīng)網(wǎng)絡模型沒有預測出峰值,日均微博數(shù)與分形插值模型預測值接近,但都小于實際值。BP神經(jīng)網(wǎng)絡模型和分形插值模型預測的總微博數(shù)較實際值分別小36.8%和32%。具體特征值比較如表2所示。
3.2.3 事件三
2017年8月12日至20日是由雄安新區(qū)治理水污染政策發(fā)布引發(fā)的關于水污染話題微博突增的過程,9天里共有微博2376條,每日平均約264條,單日最少微博105條,單日最多947條(8月15日)。從BP神經(jīng)網(wǎng)絡模型和分形插值模型預測的結果看,BP神經(jīng)網(wǎng)絡模型和分形插值模型預測的峰值均比實際發(fā)生時間滯后1天,兩者預測的峰值分別是實際峰值的32%和62.3%;分形插值模型預測的日最小微博數(shù)小于實際值、但大于BP神經(jīng)網(wǎng)絡模型的預測值;BP神經(jīng)網(wǎng)絡模型預測的日均微博數(shù)與實際值接近,分形插值模型預測的日均微博數(shù)比實際值大34%;BP神經(jīng)網(wǎng)絡模型和分形插值模型預測的總微博數(shù)較實際值分別小26.3%和14.5%。具體特征值比較如表3所示。
3.3 水污染微博輿情時空變化預測結果分析討論與啟示
3.3.1 分形插值模型預測結果的原因分析
(1)預測誤差率較小。分形插值模型因為有參數(shù)的隨機性,因而在預測不確定事件中顯示出一定的優(yōu)勢,因此預測準確性較高。
(2)預測結果偏低。筆者認為原因在于預測過程中對于預測點yN+1采用了以步長ε=0.01從0到1進行逐步搜索方法,找到最小均方差對應的yB。因此在預測累計微博數(shù)的時候就會出現(xiàn)低于實際值的情況。
(3)預測后一個時間點數(shù)值的準確率比預測長期輿情規(guī)律要準確。由于分形插值模型的外延性特征,適用于預測后一個未知時間點的數(shù)值,但預測后若干個時間點結果精度較低。若將較長的輿情序列分成多個部分進行預測,分形插值模型的參數(shù)將有所變化,會有效提高預測結果的準確度。
3.3.2 BP神經(jīng)網(wǎng)絡模型與分形插值模型的預測結果差異及原因分析
在水污染輿情變化預測過程中,其預測結果上BP神經(jīng)網(wǎng)絡模型預測長時間輿情更為準確,分形插值模型預測一次微博突增的事件更為準確。
對于長時間(一年)的水污染輿情預測,BP神經(jīng)網(wǎng)絡模型的累積平均誤差小于分形插值模型;對于一次微博數(shù)突增的事件過程,分形插值模型在每日最多微博數(shù)、微博總數(shù)和日均微博數(shù)上的平均誤差小于BP神經(jīng)網(wǎng)絡模型。
上述預測結果差異的根本原因在于BP神經(jīng)網(wǎng)絡模型和分形插值模型的原理不同。BP神經(jīng)網(wǎng)絡模型是一種以數(shù)據(jù)樣本進行訓練為基礎的基于智能機器算法的預測模型,而分形插值模型預測是根據(jù)分形理論所特有的隨機性和不確定性進行預測的模型,基于傳統(tǒng)統(tǒng)計學理論。
4 結語
本文基于微博平臺,對水污染輿情進行分析并設計水污染輿情預測的實驗方案對水污染微博輿情進行預測。得到以下結論:
(1)水污染微博輿情根據(jù)時空變化特征分為一般水污染微博輿情和水污染突發(fā)事件微博輿情,以一般水污染微博輿情數(shù)量較少、波動較小,水污染突發(fā)事件微博輿情迅猛增長、波動大為特征。
(2)本文運用BP神經(jīng)網(wǎng)絡模型和分形插值模型對水污染微博輿情時間分布進行預測。根據(jù)2015年1月1日至2016年12月31日水污染微博輿情時間分布,建立上述兩種模型預測2017年全年時間分布,并與2017年全年實測微博輿情分布情況進行比較。由于分形模型預測是基于分形理論所特有的隨機性和不確定性,在預測不確定事件中顯示出一定的優(yōu)勢。通過兩種方法的對比可知,對于全年輿情,BP神經(jīng)網(wǎng)絡模型所預測的2017年微博數(shù)比分形插值模型預測的精度要高一些;對于一次微博數(shù)量徒增的峰值預測,而分形插值模型的預測結果比BP神經(jīng)網(wǎng)絡模型更接近實際峰值,分形插值模型預測的每日最少微博數(shù)、最多微博數(shù)和平均誤差比BP神經(jīng)網(wǎng)絡模型更接近實際值,日平均微博數(shù)不如BP神經(jīng)網(wǎng)絡模型的接近實際值。此外,由于分形插值理論的特性,該理論在更適用于連續(xù)的非線性曲線的預測中,因此對于大量的連續(xù)時間區(qū)間內(nèi)的輿情,分形插值理論的預測方法可以得到更加連貫的預測結果。通過BP神經(jīng)網(wǎng)絡模型和分形插值模型對水污染微博輿情時間分布的預測實驗顯示出兩種模型由于其理論不同,在微博輿情預測上各有優(yōu)勢。
[參考文獻]
[1]GLYNN C J. The spiral of silence: public opinion--our social skin. by Elisabeth Noelle-Neumann University of Chicago Press[J]. Social Forces,1986(3):828-829.
[2]張華. 基于優(yōu)化BP神經(jīng)網(wǎng)絡的微博輿情預測模型研究[D].武漢:華中師范大學,2014.
[3]BARNSLEY M F. Fractal functions and interpolation[J].Constructive Approximation,1986(2):303-329.
[4]WANG H Y, YU J S. Fractal interpolation functions with variable parameters and their analytical properties[J].Journal of Approximation Theory,2013(175):1-18.
(編輯 姚 鑫)
Comparison and analysis of microblog public opinion prediction of water pollution based on type interpolation model and BP neural network model
Li Lanxi
( Business School, Hohai University , Nanjing 210000, China)
Abstract:This paper takes the quantitative characteristics of micro blog public opinion of water pollution as the research object, obtains micro blog data related to water pollution through crawler tools, uses BP neural network model and fractal interpolation model respectively to predict the annual change process of water pollution micro blog number and the change process of an event, analyzes and compares the applicability of the two methods. The research shows that the accuracy of BP neural network model is higher than that of fractal interpolation model, while the accuracy of fractal interpolation model is higher than that of BP neural network model. There are advantages and disadvantages in microblog public opinion prediction. The results of the model are low and the error rate is small, and the accuracy rate of the last time point is more accurate than that of the long-term public opinion, so it is suitable to predict the public opinion of the unexpected random events.
Key words:public opinion; microblog; prediction; BP neural network; fractal interpolation