王少帥 宋禮鵬
(中北大學大數(shù)據(jù)學院 太原 030051)
(1019844335@qq.com)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,社交網(wǎng)站逐漸發(fā)展成為人們主要交流工具之一.蠕蟲病毒作為一種通過網(wǎng)絡傳播的計算機病毒,可借助社交網(wǎng)站使得其在短時間內快速蔓延,給互聯(lián)網(wǎng)帶來嚴重威脅.通過對目標局域網(wǎng)內社交網(wǎng)站訪問量分析建模,預測未來各個時段的社交網(wǎng)站訪問量,并結合其他信息在不同時段加以不同的干預手段,從而有效地預防或者抑制蠕蟲病毒的傳播.
網(wǎng)絡流量預測作為一個經(jīng)典的時間序列預測問題,一直為國內外研究者所研究.按照建模方法可將其劃分為以ARMA(auto-regressive and moving average model)[1]、ARIMA(autoregressive integrated moving average model)[2-3]、指數(shù)平滑法[4]等為代表的線性時間序列模型和以GBDT(gradient boosting decision tree)、神經(jīng)網(wǎng)絡、SVM(support vector machine)[5-8]等為代表的非線性建模方法兩大類.網(wǎng)絡流量變化的混沌特性,決定了網(wǎng)絡流量時間序列的非線性,這導致了線性時間序列模型預測往往難以達到預期的預測效果.而傳統(tǒng)的非線性網(wǎng)絡流量預測模型又存在預測結果不穩(wěn)定,易發(fā)生“過擬合”的現(xiàn)象.針對這個問題,李振剛[9]首次將高斯過程回歸模型引入網(wǎng)絡流量預測,提高了網(wǎng)絡流量預測精度.
本文針對局域網(wǎng)中網(wǎng)絡流量的社交網(wǎng)站訪問量進行分析與預測.局域網(wǎng)中社交網(wǎng)站訪問量相對于總體網(wǎng)絡流量而言,其序列變化的不確定性更大,因而比傳統(tǒng)網(wǎng)絡流量更加難以預測.Sudheer等人[10]將離散小波變換(DWT)應用于電網(wǎng)的短期負荷預測中,將短期負荷時間序列分解成穩(wěn)定部分(周期分量)與不確定性部分(殘余分量),并分別使用針對性模型進行預測.本文將該方法引入局域網(wǎng)社交網(wǎng)站訪問量的預測中,并針對周期分量使用高斯過程回歸模型(GPR)[11-13]進行預測,同時對殘余分量使用加權近鄰模型(WNN)[14]進行預測,提出一種基于DWT的高斯過程回歸與WNN組合預測模型.
為驗證模型預測效果,本文采用均方根誤差RMSE(root mean square error)作為評價指標,并與其他模型進行對比.
高斯過程回歸是基于貝葉斯網(wǎng)絡的一種機器學習算法,它既具有貝葉斯網(wǎng)絡的推理能力,同時還具備SVM處理小樣本、非線性、高維度的問題的自適應能力.它直接從函數(shù)空間角度出發(fā),定義一個高斯過程來描述函數(shù)分布,并在函數(shù)空間進行貝葉斯推理.
由于觀測通常是帶噪聲的,因而可假設模型為
其中函數(shù)f(X)被假設給予一個高斯過程先驗,即
其中K為協(xié)方差函數(shù).
對于新測試輸入x*,根據(jù)高斯過程的性質及測試數(shù)據(jù)與訓練數(shù)據(jù)來源于同一分布的特點,可以得到觀測值y(訓練樣本輸入)和預測值y*(測試樣本輸出)的聯(lián)合先驗分布
由式(3),結合貝葉斯估計原理和聯(lián)合正態(tài)分布的條件概率性質,可得預測值y*(測試樣本輸出)的后驗分布:
即可求得預測值y*的分布函數(shù).與cov(y*)的表達式如下:
加權近鄰模型(WNN)是基于K-最近鄰算法的改進[14].其主要思想是將時間序列按其周期分段后,可得到矩陣
其中,L n為最近周期.進一步利用計算得到L n與其他周期的距離,并按降序排序得到距離的集合q={q1,q2,…,qk},其中q1表示最遠距離,qk表示最近距離.
最終預測未來L n+1的預測公式為
局域網(wǎng)內社交網(wǎng)站訪問量變化的不確定性,給其預測帶來了極大的困難.針對這個問題,本文嘗試使用離散小波變換(DWT)將時間序列分解成周期分量(低頻部分)與殘余分量(高頻部分),并分別使用多時間粒度特征的高斯過程回歸模型(GPR)和加權近鄰模型(WNN)進行針對性預測.即使用離散小波變換(DWT)將時間序列的穩(wěn)定部分和不確定性部分分解出來,并進行針對性預測,進而減小由于時間序列不確定性對預測帶來的影響,提高了預測精度.具體過程如圖1所示:
圖1 組合預測模型流程圖
由圖1可知,模型預測步驟可分為3步,下面將分別描述.
時間序列從結構上看,可拆分成2部分:一部分是周期分量,該分量包含原始序列的總體變化規(guī)律;另一部分是殘余分量,該分量體現(xiàn)了原始序列的細節(jié)性變化規(guī)律.
本文嘗試使用DWT對時間序列進行拆分,采用的小波為daubechies的8個系數(shù)的最小不對稱小波.DWT可設置分解的層數(shù)level來決定對時間序列數(shù)據(jù)分解程度.若層數(shù)level設置過低,會導致DWT不能完全將時間序列中的不確定性部分分解出來;若層數(shù)level設置過高,則會導致DWT將時間序列中的一部分周期分量誤認為是不確定性的,進而歸為殘余分量.本文通過設置level=3,得到網(wǎng)絡流量時間序列的低頻部分,根據(jù)低頻部分進行重構,得到周期分量Xa,該分量序列反映原序列的大致趨勢和走向.進一步,通過原始序列X減去周期分量Xa得到殘余分量Xd,即Xd=X-Xa,殘余分量序列包含原始序列細節(jié)性變化.
針對反映原始序列總體變化規(guī)律的周期分量Xa,考慮到傳統(tǒng)網(wǎng)絡流量預測模型,往往只考慮單個時間粒度的信息對未來預測結果的影響,并未充分利用多個時間粒度的信息進行預測.本文從多時間粒度的角度出發(fā),通過選取不同的時間步長統(tǒng)計出不同的網(wǎng)絡流量時間序列,并取前N天的網(wǎng)絡流量時間序列充當特征,構成多時間粒度特征,同時結合高斯過程回歸模型,對其進行預測.
針對反映原始序列細節(jié)性變化規(guī)律的殘余分量,可認為原始時間序列的不確定性部分均被分解到該分量內,從而采用更加簡單的WNN進行預測.
使用多時間粒度特征的高斯過程回歸模型對周期分量Xa進行預測,得到預測結果Ya,代表未來時間序列的總體變化規(guī)律.使用WNN對殘余分量Xd進行預測,得到預測結果Yd,代表未來時間序列的細節(jié)波動.將2個結果相加,得最終預測結果,即Y=Ya+Yb.
為驗證本模型的預測效果,我們收集并統(tǒng)計得出中北大學局域網(wǎng)內包括QQ空間、QQ郵箱、豆瓣網(wǎng)、人人網(wǎng)、騰訊微博、新浪微博6個社交網(wǎng)站的訪問量充當仿真數(shù)據(jù).由于各大社交網(wǎng)站1天24 h內除8:00—22:00(包括8:00和22:00)有較高的訪問量之外,其他時間訪問量均接近0.因此我們以未來1天的8:00—22:00(包括8:00和22:00)的訪問量為預測目標,使用本模型進行預測,并與指數(shù)平滑法、支持向量機(SVM)的預測結果進行對比,如圖2所示:
圖2 社交網(wǎng)站訪問量預測對比圖
由圖2可直觀觀察到,本模型的預測結果更接近真實值.為進一步驗證模型預測效果,本文采用均方根誤差RMSE作為評價指標,計算公式如式(9)所示:
其中,n為數(shù)據(jù)集的數(shù)目,Xt為真實值,X^t為預測值.通過式(9)計算,得到各大社交網(wǎng)站預測的均方根誤差RMSE如表1所示.其中,總均方根誤差是首先將QQ空間、QQ郵箱、豆瓣網(wǎng)、人人網(wǎng)、騰訊微博以及新浪微博的預測結果合并,再通過式(9)計算而得.
表1 均方根誤差RMSE對比表
由表1可知,本模型在QQ空間、QQ郵箱、豆瓣網(wǎng)、人人網(wǎng)、騰訊微博和新浪微博的數(shù)據(jù)集上,其均方根誤差RMSE均低于其他2個模型,其總均方根誤差更是遠低于其他2個模型.
社交網(wǎng)站訪問量時間序列的混沌性,決定了社交網(wǎng)站訪問量變化的不確定性,導致其訪問量預測成為一個難題.本文從時間序列可分解的角度出發(fā),利用離散小波變換(DWT),將該時間序列分解成反映序列總體變化規(guī)律的周期分量與體現(xiàn)了序列細節(jié)性變化規(guī)律的殘余分量2部分.針對周期分量,本文構造出多時間粒度特征并結合高斯過程回歸模型(GPR)進行預測;針對殘余分量,本文使用更為簡單的近鄰加權模型(WNN)進行預測,然后將結果合并得到最終預測結果.為驗證模型優(yōu)劣,我們將收集得到的中北大學局域網(wǎng)內QQ空間、QQ郵箱、豆瓣網(wǎng)、人人網(wǎng)、騰訊微博和新浪微博這6個數(shù)據(jù)集分別進行仿真實驗,并使用均方根誤差RMSE作為評價指標,將本模型、支持向量機(SVM)和指數(shù)平滑這3個模型進行對比,結果表明,本模型預測結果最優(yōu).
本文對網(wǎng)絡流量中的局域網(wǎng)內社交網(wǎng)站訪問量進行分析與預測,并基于離散小波變換(DWT)將時間序列進行分解,同時結合高斯過程回歸模型(GPR)和近鄰加權模型(WNN)進行組合預測,預測精度相對其他模型有了進一步提升,對局域網(wǎng)內網(wǎng)絡安全的分析與預防具有重要參考價值.
[1]何書元.應用時間序列分析[M].北京:北京大學出版社,2003:87-89
[2]Box G E P,Jenkins G M,Reinsel G C.Time Series Analysis Forecasting and Control[M].3rd ed.New York:Prentice-Hall,2007:25-271
[3]Schoukens J,Pintelon R.Identigication of Linear Systems:A Practical Guideline to Accurate Modeling[M].Oxford:Pergamon,1991:68-70
[4]Szmit M,Szmit A.Use of holt-winters method in the analysis of network traffic:Case study[J].Communications in Computer&Information Science,2011,160:224-231
[5]Liao Q,Yao J,Yuan S.SVM approach for predicting LogP[J].Plant Foods for Human Nutrition,2006,10(3):301-309
[6]Kachoosangi F T.How reliable are ANN,ANFIS,and SVM techniques for predicting longitudinal dispersion coefficient in natural rivers[J].Journal of Hydraulic Engineering,2016,142(1):1-8
[7]Hossain M M,Miah M S.Evaluation of different SVM kernels for predicting customer churn[C]//Proc of Int Conf on Computer&Information Technology.Piscataway,NJ:IEEE,2016:1-4
[8]Che N,Murphree D H,Upadhyaya S,et al.Multitask LS-SVM for predicting bleeding and re-operation due to bleeding[C]//Proc of IEEE Int Conf on Healthcare Informatics.Piscataway,NJ:IEEE,2017:56-65
[9]李振剛.基于高斯過程回歸的網(wǎng)絡流量預測模型[J].計算機應用,2014,34(5):1251-1254
[10]Sudheer G,Suseelatha A.Short term load forecasting using wavelet transform combined with Holt-Winters and weighted nearest neighbor models[J].International Journal of Electrical Power&Energy Systems,2015,64(64):340-346
[11]Seeger M.Gaussian processes for machine learning[J].International Journal of Neural Systems,2004,14(2):69-106
[12]何志昆,劉光斌,趙曦晶,等.高斯過程回歸方法綜述[J].控制與決策,2013,28(8):1121-1129
[13]He Zhikun,Liu Guangbin,Zhao Xijing,et al.Temperature model for FOG zero-bias using Gaussian process regression[G]//AISC 180:Intelligence Computation and Evolutionary Computation.Berlin:Springer,2013:37-45
[14]Lora A T,Santos J M R,Exposito A G,et al.Electricity market price forecasting based on weighted nearest neighbors techniques[J].IEEE Trans on Power Systems,2007,22(3):1294-1301