段華瓊, 唐賓徽
(四川大學(xué) 錦城學(xué)院, 成都 610036)
基于線性多尺度模型的計算機網(wǎng)絡(luò)數(shù)據(jù)流量預(yù)測*
段華瓊, 唐賓徽
(四川大學(xué) 錦城學(xué)院, 成都 610036)
為了解決網(wǎng)絡(luò)安全監(jiān)控問題,提出了一種用于預(yù)測網(wǎng)絡(luò)流量的算法.通過多個不同尺度的線性模型進行網(wǎng)絡(luò)數(shù)據(jù)的組合預(yù)測,每個尺度的線性模型由經(jīng)過濾波器濾波后的部分原始數(shù)據(jù)估計得到,最終的預(yù)測流量數(shù)據(jù)由多個尺度線性模型的平均預(yù)測值得到.選擇的線性模型為自回歸滑動平均模型,且尺度較小的線性模型對應(yīng)自回歸滑動平均模型的階數(shù)較高.結(jié)果表明,本算法的預(yù)測精度高,整體預(yù)測誤差的均值在10-3量級.
網(wǎng)絡(luò)流量; 線性; 多尺度; 自回歸滑動平均模型; 預(yù)測; 誤差
計算機網(wǎng)絡(luò)技術(shù)的發(fā)展極大地促進了信息現(xiàn)代化的進程,但網(wǎng)絡(luò)技術(shù)快速發(fā)展也伴隨著各種各樣的問題,例如存在計算機病毒網(wǎng)絡(luò)傳輸、黑客攻擊、網(wǎng)絡(luò)信息安全等隱患[1-4].網(wǎng)絡(luò)監(jiān)控以及信息安全顯得越來越重要,網(wǎng)絡(luò)監(jiān)控的重點是在網(wǎng)絡(luò)上傳輸?shù)母鞣N數(shù)據(jù),然而數(shù)據(jù)本身可能涉及公民的個人隱私以及其他企業(yè)機密,無差異的監(jiān)控和查看不僅在時效上不能保證,同時受到法律制約和社會輿論的質(zhì)疑.網(wǎng)絡(luò)數(shù)據(jù)的傳輸一般伴隨著信息的交換,常見的信息交換具有自身規(guī)律,雖然可能短時在局部網(wǎng)絡(luò)傳送大量信息,但一般不會引起數(shù)據(jù)量過大堵塞網(wǎng)絡(luò)通道的情況.通過對網(wǎng)絡(luò)數(shù)據(jù)流量的監(jiān)控及預(yù)測,分析監(jiān)控數(shù)據(jù)和預(yù)測數(shù)據(jù)之間的差異,可以更好地把握網(wǎng)絡(luò)信息傳輸規(guī)律,有效輔助網(wǎng)絡(luò)監(jiān)控,識別異常網(wǎng)絡(luò)數(shù)據(jù)信息,從而維持良好的網(wǎng)絡(luò)安全和秩序[2,5].
網(wǎng)絡(luò)流量數(shù)據(jù)預(yù)測,將預(yù)測數(shù)值和監(jiān)控數(shù)值以及歷史數(shù)據(jù)進行分析比對,能更有效地判斷網(wǎng)絡(luò)安全潛在隱患.一般的網(wǎng)絡(luò)流量預(yù)測方法主要包括線性預(yù)測、基于自回歸滑動平均(autoregressive moving average ARMA)模型、多元線性回歸以及廣義線性回歸等,這些方法的特點是將網(wǎng)絡(luò)流量數(shù)據(jù)理解為一個平穩(wěn)的隨機過程,通過對過往數(shù)據(jù)建模來分析網(wǎng)絡(luò)流量的變化規(guī)律.
上述方法的特點是運算簡單,且取得了良好的預(yù)測效果,但將網(wǎng)絡(luò)數(shù)據(jù)簡單理解為平穩(wěn)隨機過程,這種假設(shè)過于簡化.網(wǎng)絡(luò)數(shù)據(jù)行為具有分形以及非平穩(wěn)特點,不少研究者從這點出發(fā),引入了小波多尺度分析以及固態(tài)模函數(shù)分解(empirical mode decomposition,EMD)分析等新的信號分析手段,將原始信號在特定的尺度上建立起ARMA模型,使得分解后的網(wǎng)絡(luò)流量信號具有平穩(wěn)或近似平穩(wěn)的特點,從而提高模型預(yù)測的準確性.另一些研究者則是基于神經(jīng)網(wǎng)絡(luò)、支持向量機及模糊決策等理論,通過非線性擬合近似的方法來分析網(wǎng)絡(luò)流量的變化規(guī)律.這些方法對解決網(wǎng)絡(luò)流量預(yù)測提供了較好的參考,然而通過小波分析或EMD方法在特定尺度上分析網(wǎng)絡(luò)流量可能丟失其他尺度上的信息,通過神經(jīng)網(wǎng)絡(luò)等方法來分析則存在“過擬合問題”,即模型對于擬合使用數(shù)據(jù)的解釋能力較強,但外展能力差,這是因為神經(jīng)網(wǎng)絡(luò)這類方法通常會將部分噪聲也認為是信號進行擬合,從而使得模型過度解釋當前觀測數(shù)據(jù)[6-10].
本文提出一種基于多尺度計算機網(wǎng)絡(luò)數(shù)據(jù)流量的預(yù)測算法,所述算法在傳統(tǒng)的ARMA模型基礎(chǔ)上,采用組合預(yù)測的方法,疊加平均多個不同預(yù)測值,能夠更準確地預(yù)測網(wǎng)絡(luò)流量數(shù)據(jù).
多尺度分析思想成型于小波分析,其將信號分解在不同的尺度上,從而對應(yīng)了不同的頻帶范圍.本文所描述的多尺度和小波分析中的多尺度具有不同的含義,本文的多尺度主要是利用不同點長的低通濾波器,每一個點長即表示一個尺度,對應(yīng)了一個特定通帶和阻帶的低通濾波器,所述尺度下通帶內(nèi)的信號被認為表征網(wǎng)絡(luò)數(shù)據(jù)特點.這樣一系列濾波器可將原始網(wǎng)絡(luò)流量信號濾波,得到不同通帶信號的濾波信號,每一組信號內(nèi)的信息量不同.
多尺度低通濾波器組成可表示為
WL={wi,i=1,2,…,L}
(1)
式中,wi為獨立窗低通濾波器.
一般的低通濾波器包括矩形窗、三角窗、漢明窗、漢寧窗、凱瑟、布萊克曼窗和高斯窗等,本文以漢明窗為例進行研究分析,圖1為不同尺度漢明窗的時域和頻域展示,其表達式為
圖1 不同時間尺度的漢明窗時域和頻域波形
圖1中,藍色、深綠色以及紅色線條分別表示了窗長為12點、22點及32點的漢明窗時域波形和頻域響應(yīng).可以看出隨著窗體點數(shù)的增加,其時域增長,頻域的通帶減小,不同的窗長對應(yīng)了不同的時間尺度,可以從原始信號中篩選出不同信號和噪聲比濾波信號.
常規(guī)分析時間序列的線性預(yù)測模型主要是基于自回歸滑動平均模型,這類模型將時間序列看作一個平穩(wěn)遍歷隨機過程,序列之間在時間上存在一定聯(lián)系的,未來的數(shù)據(jù)點可以由過去時間點數(shù)值和過去時間的輸入計算得到,一般數(shù)學(xué)描述為ARMA(p,q)=yt=
c+φ1yt-1+φ2yt-2+…+φpyt-p+
εt+θ1εt-1+θ2εt-2+…+θqεt-q
(2)
式中:c為常數(shù);φ(L)為多項式格林函數(shù);θ(L)為過往輸入的格林函數(shù).L為引入的延遲算子,Liyt=yt-i,則一個p階的ARMA模型可由多項式格林函數(shù)φ(L)表示為φ(L)=(1-φ1L-φ2L2-…-φpLp),類似可以將模型用過往輸入的格林函數(shù)表示為θ(L)=(1+θ1L+θ2L2+…+θqLq).對于信號y在時刻t的條件期望估計,可以將ARMA(p,q)模型簡化表達為
φ(L)yt=c+θ(L)εt
(3)
將式(3)兩側(cè)同除以φ(L)可以得到
(4)
式中:μ為信號的極點分布;Ψ(L)為零點分布.圖2展示了一個典型ARMA(2,2)模型的時域和頻域信號波形.
圖2 ARMA(2,2)模型的波形和頻譜
ARMA模型建模的信號一般均存在一個特定的頻譜區(qū)域,通過建模可較好地分析和理解信號本身的結(jié)構(gòu)特點,而直接從時域波形上觀察通常難以看出這種規(guī)律.
本文結(jié)合多尺度低通濾波處理原始得到的網(wǎng)絡(luò)數(shù)據(jù),在不同的時間尺度上建立ARMA模型,通過每個尺度上的ARMA模型來預(yù)測一個未來的數(shù)據(jù)點,最后將各尺度上的預(yù)測數(shù)值進行平均,得到應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)預(yù)測值,具體步驟如下:
1) 獲取一個N點的歷史網(wǎng)絡(luò)流量數(shù)據(jù)fN(t);
(5)
本文所處理數(shù)據(jù)來自貝爾實驗室所采集的流量數(shù)據(jù)[11]與DataMarket網(wǎng)站上所采集的時間序列數(shù)據(jù)[12],選取數(shù)據(jù)集合里10 000個數(shù)據(jù)點作為ARMA預(yù)測模型的訓(xùn)練數(shù)據(jù),再取連續(xù)的10 000點信號作為測試算法性能的預(yù)測數(shù)據(jù),通過比較預(yù)測數(shù)據(jù)和真實數(shù)據(jù)之間的誤差,證明算法的預(yù)測能力.本文采用漢明窗作為多尺度低通濾波器,主要考慮其設(shè)計簡便,且具有良好的旁瓣抑制效果.在處理濾波前,對原始數(shù)據(jù)進行標準化,M取6,得到6個不同尺度的濾波信號,得到各自的預(yù)測值,最后平均計算得到預(yù)測數(shù)據(jù).
圖3直觀反映出了6個不同尺度漢明窗的頻譜特性,其中藍色、深綠色、紅色、淺藍色、紫色、淺綠色線分別表示窗長為4點、8點,16點,32點,64點,128點的漢明窗時域波形和頻域響應(yīng).由圖3可以看出尺度越大,信號的通帶越小,即選擇用來估計ARMA模型的信號能量相對越小,更能估計出信號的基本變化趨勢.反之,低尺度的信號其通帶更大,能夠得到更多的信號波動特征,但相對也包含了更多可能的噪聲,通過6個不同的濾波器對用來建模的10 000點信號進行濾波,得到對應(yīng)的6個不同濾波信號.
圖4為原始的訓(xùn)練建模數(shù)據(jù)時域波形,圖5給出了經(jīng)過6個不同尺度濾波信號的時域波形,每個尺度的濾波信號均代表了對原始信號信息的一種評估.可以看出尺度越大的濾波信號,其越接近信號基本的變化趨勢和特點,反應(yīng)了更加明顯的低頻特點;相反高頻信號在低尺度中更多地保留下來.經(jīng)過對濾波信號建立的ARMA模型可更清晰地看出這點,低尺度濾波信號的ARMA模型中保留了更多的極點和零點.圖6為6個濾波信號所對應(yīng)的ARMA模型,從圖6中可看出,其功率譜具有更多的局部極值點,且在局部有更多的抖動發(fā)生.通過ARMA模型進行數(shù)值預(yù)測,可以將信號在不同尺度和能量關(guān)系下的特點分別表達出來,進一步通過平均計算能得到準確度較高的預(yù)測數(shù)據(jù).
圖3 6個尺度的漢明窗時域和頻域波形
圖4 訓(xùn)練建模數(shù)據(jù)
圖5 6個濾波信號的時域波形
通過本算法進行了10 000個測試點的數(shù)據(jù)預(yù)測,圖7中給出了預(yù)測數(shù)據(jù)與測試數(shù)據(jù)之間的預(yù)測誤差,取值是對獲取的網(wǎng)絡(luò)流量數(shù)據(jù)進行標準化后得到的無量綱的數(shù)據(jù).可以看出,預(yù)測信號準確地表征了測試數(shù)據(jù).圖7中預(yù)測誤差整體均值在10-3量級,最大誤差為0.031,算法整體準確地預(yù)測出了網(wǎng)絡(luò)流量數(shù)據(jù).
本文將原始觀測得到的網(wǎng)絡(luò)流量信號通過一系列不同時間尺度的平滑濾波器濾波,從而得到一系列的低通濾波信號組,每一個濾波后的信號組表征了一種信號和噪聲的比例關(guān)系,然后對每一個濾波信號組采用ARMA模型建模,得到一個對應(yīng)的預(yù)測模型,最終預(yù)測值通過所有組預(yù)測模型的預(yù)測值疊加平均計算得到.高精度組合預(yù)測網(wǎng)絡(luò)流量數(shù)據(jù)能夠?qū)W(wǎng)絡(luò)信息監(jiān)管和網(wǎng)絡(luò)安全提供有力保障.算法下一步將開發(fā)出自適應(yīng)的權(quán)重取代目前的平均權(quán)重,用來組合多個尺度的預(yù)測數(shù)據(jù),從而得到更精確的流量預(yù)測數(shù)據(jù).
圖6 6個濾波信號對應(yīng)的ARMA模型
圖7 測試數(shù)據(jù)、算法預(yù)測數(shù)據(jù)以及預(yù)測誤差
[1]鄒柏賢,劉強.基于ARMA模型的網(wǎng)絡(luò)流量預(yù)測 [J].計算機研究與發(fā)展,2002,39(12):1645-1652.
(ZOU Bo-xian,LIU Qiang.Network traffic prediction based on ARMA model [J].Computer Research and Development,2002,39(12):1645-1652.)
[2]田海梅,黃楠.基于ACO-LSSVM的網(wǎng)絡(luò)流量預(yù)測 [J].計算機工程與應(yīng)用,2014,50(1):91-95.
(TIAN Hai-mei,HUANG Nan.Network traffic prediction based on ACO-LSSVM [J].Computer Engineering and Applications,2014,50(1):91-95.)
[3]雷建軍,夏英,趙闊.能量有效的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)收集協(xié)議 [J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2014,26(5):582-586.
(LEI Jian-jun,XIA Ying,ZHAO Kuo.Energy efficient data collection protocol for wireless sensor networks [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2014,26(5):582-586.)
[4]王雪松,趙躍龍.遺傳算法優(yōu)化小波神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測 [J].計算機系統(tǒng)應(yīng)用,2015,24(1):180-184.
(WANG Xue-song,ZHAO Yue-long.Network traffic prediction based on genetic algorithm optimized wavelet neural network [J].Application of Computer System,2015,24(1):180-184.)
[5]李媛,武巖巖,王思琪.基于混沌時間序列的Elman神經(jīng)網(wǎng)絡(luò)工業(yè)用電預(yù)測 [J].沈陽工業(yè)大學(xué)學(xué)報,2016,38(2):196-200.
(LI Yuan,WU Yan-yan,WANG Si-qi.Electric power prediction based on Elman neural network based on chaotic time series [J].Journal of Shenyang University of Technology,2016,38(2):196-200.)
[6]Wei D Z,Chen F J,ZhengX X.A forecast method of network public opinion based on chaos theory and improved radial basis function neural network [J].Acta Physica Sinica,2015,64(11):26-34.
[7]Li R G,Zhang H L,F(xiàn)an W H,et al.Chaotic time series prediction of Hermite orthogonal basis neural networks based on improved teaching optimization algorithm [J].Acta Physica Sinica,2015,64(20):59-66.
[8]李浩磊.基于遺傳算法優(yōu)化小波神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測模型研究 [D].西安:西安電子科技大學(xué),2013.
(LI Hao-lei.Research on network traffic prediction model based on genetic algorithm to optimize wavelet neural network [D].Xi’an:Xi’an University of Electronic Science and Technology,2013.)
[9]沈?qū)W利,邢寒蕊.改進的基于時變FARIMA模型和小波變換的網(wǎng)絡(luò)流量預(yù)測算法 [J].激光雜志,2014(9):96-99.
(SHEN Xue-li,XING Han-rui.An improved traffic flow prediction algorithm based on time-varying ARMA model and wavelet transform [J].Acta Lasera Sinica,2014(9):96-99.)
[10]高美靜,趙勇,談愛玲.基于遺傳小波神經(jīng)網(wǎng)絡(luò)的多傳感器信息融合技術(shù)的研究 [J].儀器儀表學(xué)報,2007,28(11):2013-2017.
(GAO Mei-jing,ZHAO Yong,TAN Ai-ling.Study on genetic wavelet neural network based multi-sensor information fusion technique [J].Chinese Journal of Scientific Instrument, 2007,28(11):2013-2017.)
[11]LBL.The internet traffic archive [EB/OL].(2012-03-12)[2015-12-12].http://ita.ee.lbl.gov/html/contrib.
[12]Datamarket.Datamarket data base [EB/OL].(2013-07-13)[2016-03-02].http://datamarket.com/data/list/?q-time+series.
(責任編輯:景 勇 英文審校:尹淑英)
Prediction of data flow in computer network based on linear multi-scale model
DUAN Hua-qiong, TANG Bin-hui
(Jincheng College, Sichuan University, Chengdu 610036, China)
In order to solve the supervisory and control problems of network safety, an algorithm for the prediction of network flow data was proposed. The combined prediction of network data was carried out based on multiple linear models with different scales. The linear models with each scale were obtained through estimating the partial original data after filtering with a filter. The final predicted flow data were obtained from the average predicted values with multi-scale linear models. The selected linear models were the autoregressive moving average models. The linear model with a lower scale corresponds to a relative autoregressive moving average model with a higher order. The results show that the proposed algorithm has high predicted accuracy, and the mean value of entire prediction error is in the level of 10-3.
network flow; linearity; multi-scale; autoregressive moving average model; prediction; error
2016-10-12.
四川省教育廳資助項目(LYC16-47).
段華瓊(1980-),女,四川資中人,講師,碩士,主要從事系統(tǒng)集成技術(shù)和云計算等方面的研究.
10.7688/j.issn.1000-1646.2017.03.15
TP 391.4
A
1000-1646(2017)03-0322-06
*本文已于2017-03-28 17∶08在中國知網(wǎng)優(yōu)先數(shù)字出版. 網(wǎng)絡(luò)出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20170328.1708.024.html