陳艷君,陳婷婷
(南昌大學(xué)科學(xué)技術(shù)學(xué)院,江西南昌330029)
網(wǎng)絡(luò)技術(shù)得到了飛速的發(fā)展,大眾普及程度也在逐漸提升,網(wǎng)絡(luò)業(yè)務(wù)種類也隨之增多,成為了人們必不可少的工具[1]。根據(jù)調(diào)查研究可知,Internet已經(jīng)是現(xiàn)今全世界范圍內(nèi)最大的資源共享平臺,滲透到了經(jīng)濟(jì)、政治、教育、軍事等多個領(lǐng)域,成為了現(xiàn)今整個社會的基礎(chǔ)設(shè)施。隨著網(wǎng)絡(luò)的不斷發(fā)展,用戶經(jīng)歷了由網(wǎng)頁時代→網(wǎng)游時代→網(wǎng)商時代的變化,其對網(wǎng)絡(luò)安全性與性能的需求也在提升[2]。由于網(wǎng)絡(luò)環(huán)境復(fù)雜程度的增加,如何有效的管理網(wǎng)絡(luò)成為現(xiàn)今制約網(wǎng)絡(luò)發(fā)展的關(guān)鍵問題之一。
網(wǎng)絡(luò)發(fā)展為人類帶來便捷的同時,也產(chǎn)生了新的危機(jī),網(wǎng)絡(luò)攻擊事件越來越頻繁,安全漏洞修補速度遠(yuǎn)遠(yuǎn)跟不上網(wǎng)絡(luò)攻擊方法的更新速度,極大的威脅著網(wǎng)絡(luò)的穩(wěn)定運行,也降低了網(wǎng)絡(luò)的性能,為網(wǎng)絡(luò)管理帶來嚴(yán)峻的挑戰(zhàn)。在網(wǎng)絡(luò)遭受到攻擊過程中,攻擊初期網(wǎng)絡(luò)數(shù)據(jù)會產(chǎn)生一定的偏差,后期則會導(dǎo)致網(wǎng)絡(luò)信息泄露,嚴(yán)重情況還會導(dǎo)致局域網(wǎng)絡(luò)癱瘓。由此可見,若是可以及時的發(fā)現(xiàn)并提取網(wǎng)絡(luò)偏差數(shù)據(jù),即可為網(wǎng)絡(luò)防御提供充足的時間以及原始數(shù)據(jù)支撐,為網(wǎng)絡(luò)管理質(zhì)量的提升提供了一個新的方向。相關(guān)學(xué)者也對此進(jìn)行研究。邵光遠(yuǎn),劉凱[3]提出了一種基于統(tǒng)一計算設(shè)備架構(gòu)(CUDA)的GS流和IP數(shù)據(jù)的提取方法,從任務(wù)劃分,降低耦合度,負(fù)載均衡的角度進(jìn)行了設(shè)計和優(yōu)化,基于CUDA的解決方案獲得了極大的性能提升,在GTX 1050Ti平臺上達(dá)到了20~22倍的加速比,但是提取覆蓋率較低;金海波,馬海強(qiáng)[4]提出一種基于統(tǒng)計深度方法的函數(shù)曲線特征分段提取算法.利用數(shù)據(jù)平滑技術(shù)對離散觀測的數(shù)據(jù)進(jìn)行平滑化處理,同時引入函數(shù)型數(shù)據(jù)的一階和二階導(dǎo)函數(shù);然后,分段計算函數(shù)本身及其低階導(dǎo)函數(shù)的馬氏積分深度值,在此基礎(chǔ)上構(gòu)造函數(shù)曲線特征向量,給出三種選擇調(diào)節(jié)參數(shù)的搜索方案,并進(jìn)行分類研究,所提算法能有效提取函數(shù)曲線特征,提高分類的準(zhǔn)確性,但是提取用時較長。
就現(xiàn)有研究成果來看,現(xiàn)有網(wǎng)絡(luò)偏差數(shù)據(jù)提取方法在網(wǎng)絡(luò)吞吐量達(dá)到10000Mbps以上后,有偏差數(shù)據(jù)提取覆蓋率較低、時間消耗較多的缺陷,無法滿足目前網(wǎng)絡(luò)性能的需求,故提出基于智能計算的網(wǎng)絡(luò)偏差數(shù)據(jù)提取數(shù)學(xué)仿真研究。智能計算指的是一種經(jīng)驗化的計算機(jī)思考性程序,主要功能為輔助人類解決復(fù)雜問題,其包含多種智能計算算法,例如遺傳算法、進(jìn)化算法、人工魚群算法等[4]。此研究依據(jù)網(wǎng)絡(luò)偏差數(shù)據(jù)提取需要,選擇適當(dāng)?shù)闹悄苡嬎闼惴ǎ源藖砀纳莆墨I(xiàn)[3]方法的局限性,為網(wǎng)絡(luò)管理提供保障。
網(wǎng)絡(luò)由大量的節(jié)點構(gòu)成,并且具備著數(shù)據(jù)量龐大的特征,若想快速的、精確的提取網(wǎng)絡(luò)偏差數(shù)據(jù),首要的任務(wù)就是實時的檢測網(wǎng)絡(luò)偏差數(shù)據(jù)。由于常規(guī)算法存在著空間復(fù)雜度高的問題,容易導(dǎo)致偏差數(shù)據(jù)檢測的缺失,故此研究基于信息熵對網(wǎng)絡(luò)偏差數(shù)據(jù)進(jìn)行檢測[5]。
基于信息熵的網(wǎng)絡(luò)偏差數(shù)據(jù)檢測程序如圖1所示。
圖1 基于信息熵的網(wǎng)絡(luò)偏差數(shù)據(jù)檢測流程圖
如圖1所示,隨著采集時間的不斷變化,改變網(wǎng)絡(luò)節(jié)點所獲取數(shù)據(jù)的形式[6]。常規(guī)情況下,時間t處采集的數(shù)據(jù)與歷史數(shù)據(jù)與后繼數(shù)據(jù)存在著時間相關(guān)性,故此研究設(shè)置時間間隔為ΔT,則網(wǎng)絡(luò)數(shù)據(jù)時間序列可表示為
X(T)=[…,x(t-ΔT),x(t),x(t+ΔT),…]
(1)
以式(1)為基礎(chǔ),計算網(wǎng)絡(luò)數(shù)據(jù)信息熵序列,反映窗口內(nèi)數(shù)據(jù)序列的分布特征。設(shè)置滑動窗口規(guī)格為W,窗口內(nèi)數(shù)據(jù)序列記為Xj(t),其信息熵記為hj。設(shè)定數(shù)據(jù)序列Xj(t)取值范圍為R={x1,x2,x3,…},其信息熵計算公式為
(2)
式(2)中,pi表示的是每個網(wǎng)絡(luò)數(shù)據(jù)采樣概率;count(xi)表示的是數(shù)據(jù)xi在窗口內(nèi)數(shù)據(jù)序列Xj(t)中出現(xiàn)的次數(shù)。
隨著窗口[7]的持續(xù)滑動,按照順序計算窗口內(nèi)數(shù)據(jù)的信息熵,得到數(shù)據(jù)信息熵時間序列為H(t)={h1,h2,h3,…,hj,…}。
聯(lián)合偏差概率計算公式為
P=1-(1-c1p1)(1-c2p2)
(3)
式(3)中,P表示的是聯(lián)合偏差概率;c1與c2表示的是權(quán)重系數(shù);p1與p2表示的是數(shù)據(jù)偏差概率與信息熵偏差概率[8]。
數(shù)據(jù)與信息熵偏差概率由窗口內(nèi)不與某一數(shù)據(jù)點相鄰的數(shù)量與窗口規(guī)格大小的比值計算而得[9]。而窗口內(nèi)不與某一數(shù)據(jù)點相鄰的數(shù)量由數(shù)據(jù)之間距離與閾值比較確定,確定規(guī)則如下述公式所示
(4)
式(4)中,D表示的是數(shù)據(jù)之間距離;σ表示的是設(shè)置閾值;n表示的是窗口內(nèi)不與某一數(shù)據(jù)點相鄰的數(shù)量。
通過調(diào)節(jié)權(quán)重系數(shù)c1與c2,可以控制數(shù)據(jù)偏差概率與信息熵偏差概率在偏差數(shù)據(jù)檢測中的權(quán)重比例,以此來提升網(wǎng)絡(luò)偏差數(shù)據(jù)的靈活度。
聯(lián)合偏差概率需要滿足下述公式
(5)
式(5)中,Ee(p)表示的是節(jié)點在窗口內(nèi)偏差概率的數(shù)學(xué)期望,穩(wěn)定環(huán)境下為常數(shù);En(p)表示的是網(wǎng)絡(luò)穩(wěn)定工作時偏差概率的數(shù)學(xué)期望;σp表示的是聯(lián)合偏差概率閾值。
以上述獲得的網(wǎng)絡(luò)偏差數(shù)據(jù)檢測結(jié)果為基礎(chǔ),采用遺傳算法對其進(jìn)行更新與平滑處理,并通過平方差函數(shù)值最小機(jī)制更新偏差數(shù)據(jù)的中心點,計算偏差數(shù)據(jù)的功率譜密度函數(shù),將其作為網(wǎng)絡(luò)偏差數(shù)據(jù)特征,從而獲取網(wǎng)絡(luò)偏差數(shù)據(jù)特征響應(yīng)函數(shù)[10]。
假設(shè)網(wǎng)絡(luò)數(shù)據(jù)集合X中每個數(shù)據(jù)均是ρ維矢量,采集時間t處的網(wǎng)絡(luò)數(shù)據(jù)變量記為δ。當(dāng)?δ=1時,表明網(wǎng)絡(luò)數(shù)據(jù)為正常數(shù)據(jù);當(dāng)?δ=-1時,表明網(wǎng)絡(luò)數(shù)據(jù)為偏差數(shù)據(jù)。則網(wǎng)絡(luò)偏差數(shù)據(jù)的頻域模型為
(6)
則每一類別網(wǎng)絡(luò)偏差數(shù)據(jù)樣本屬于該類別的隸屬均值為
(7)
式(7)中,Kζ表示的是第ζ類別的網(wǎng)絡(luò)偏差數(shù)據(jù)樣本總數(shù)量。
(8)
(9)
將式(9)估計結(jié)果代入至式(8)即完成了網(wǎng)絡(luò)偏差數(shù)據(jù)特征模型的構(gòu)建,為后續(xù)偏差數(shù)據(jù)快速提取打下堅實的基礎(chǔ)。
設(shè)置網(wǎng)絡(luò)偏差數(shù)據(jù)訓(xùn)練集為L,樣本類別中已知類別為φm,利用遺傳算法對偏差數(shù)據(jù)進(jìn)行特征優(yōu)選。定義網(wǎng)絡(luò)偏差數(shù)據(jù)融合濾波器函數(shù)表達(dá)式為
(10)
式(10)中,αt(i)表示的是網(wǎng)絡(luò)偏差數(shù)據(jù)的檢測節(jié)點信道偏差;bj(ot+1)表示的是方差為1,均值為0的高斯函數(shù);Sd(f)表示的是多普勒功率譜。
遺傳算法偏差數(shù)據(jù)特征優(yōu)選主要通過迭代查詢形式,其表達(dá)式為
pri(t)=p(t)*qi(t)+H(f)
(11)
式(11)中,pn(t)表示的是迭代查詢散布形式;p(t)表示的是時間t處的網(wǎng)絡(luò)偏差數(shù)據(jù)特征集合;qi(t)表示的是p(t)提取過程中的變異參數(shù)。
則網(wǎng)絡(luò)偏差數(shù)據(jù)特征響應(yīng)函數(shù)表達(dá)式為
Sri(t)=Sd(t)*q′i(t)+pri(t)
(12)
式(12)中,q′i(t)表示的是網(wǎng)絡(luò)偏差數(shù)據(jù)的信道響應(yīng)函數(shù)。
通過上述過程獲得了網(wǎng)絡(luò)偏差數(shù)據(jù)特征響應(yīng)函數(shù),為后續(xù)網(wǎng)絡(luò)偏差數(shù)據(jù)的快速提取提供精確的依據(jù)。
以上述確定的網(wǎng)絡(luò)偏差數(shù)據(jù)特征響應(yīng)函數(shù)為偏差數(shù)據(jù)判定依據(jù),結(jié)合網(wǎng)絡(luò)偏差數(shù)據(jù)的距離與密度,改善現(xiàn)有方法的缺陷,基于智能計算算法實現(xiàn)網(wǎng)絡(luò)偏差數(shù)據(jù)的提取[11]。
常規(guī)情況下,對于網(wǎng)絡(luò)偏差數(shù)據(jù)樣本點,包含兩個參數(shù),即為網(wǎng)絡(luò)偏差數(shù)據(jù)距離Φi與密度ρi。其中,網(wǎng)絡(luò)偏差數(shù)據(jù)距離計算公式為
Φi=min(dij)
(13)
式(13)中,dij表示的是網(wǎng)絡(luò)偏差數(shù)據(jù)樣本點i與j之間的距離。
網(wǎng)絡(luò)偏差數(shù)據(jù)密度由截斷距離來決定,常規(guī)情況下,截斷距離的選取原理為:將全部偏差數(shù)據(jù)樣本點之間的距離依據(jù)從大到小的順序排列,計算前3%距離數(shù)值的平均數(shù)值,將其作為截斷距離。則網(wǎng)絡(luò)偏差數(shù)據(jù)密度計算公式為
(14)
式(14)中,dc表示的是截斷距離。
上述過程獲得的截斷距離未考慮到網(wǎng)絡(luò)偏差數(shù)據(jù)的局部特征,故需要對截斷距離進(jìn)行一定的修正。在網(wǎng)絡(luò)偏差數(shù)據(jù)集合中,計算某一偏差數(shù)據(jù)樣本點i與其它樣本點之間的歐式距離[12],記為d(i,j),依據(jù)降序排列,則偏差數(shù)據(jù)樣本點i的κ個最鄰近表示為
N(i)=d(i,j)≤d(i,Nκ(i))
(15)
式(15)中,Nκ(i)表示的是第κ個相鄰近距離的偏差數(shù)據(jù)樣本。
則偏差數(shù)據(jù)局部密度計算公式為
(16)
式(16)中,κ由網(wǎng)絡(luò)偏差數(shù)據(jù)樣本數(shù)量的百分比決定。以式(16)計算結(jié)果為基礎(chǔ),計算精確的網(wǎng)絡(luò)偏差數(shù)據(jù)歐式距離為
(17)
式(17)中,N表示的是網(wǎng)絡(luò)偏差數(shù)據(jù)樣本數(shù)量。
為了驗證提出方法與文獻(xiàn)[3]方法、文獻(xiàn)[4]方法之間的性能差異,采用數(shù)學(xué)仿真軟件——CSDN軟件設(shè)計仿真,具體實驗過程如下所示。
數(shù)學(xué)仿真指的是以近似數(shù)學(xué)方程式為基礎(chǔ)的仿真方法,實質(zhì)上就是采用數(shù)學(xué)公式來表示被仿真對象。數(shù)學(xué)仿真基本步驟如下所示:
步驟一:依據(jù)實驗?zāi)康臉?gòu)建系統(tǒng)的數(shù)學(xué)模型;
步驟二:依據(jù)構(gòu)建數(shù)學(xué)模型的特點選擇適當(dāng)?shù)挠嬎銠C(jī)作為仿真工具;
步驟三:將數(shù)學(xué)模型轉(zhuǎn)換成選擇計算機(jī)能夠接受的形式,也將其稱為仿真模型,同時將轉(zhuǎn)換后數(shù)學(xué)模型輸入至計算機(jī)中;
步驟四:構(gòu)建計算機(jī)輸入數(shù)學(xué)模型,同時記錄各個狀態(tài)量的變化情況;
步驟五:輸出實驗結(jié)果,同時形成實驗報告。
依據(jù)網(wǎng)絡(luò)偏差數(shù)據(jù)提取的需求,選擇CSDN軟件作為數(shù)學(xué)仿真工具,以此來進(jìn)行網(wǎng)絡(luò)偏差數(shù)據(jù)提取實驗。選取計算機(jī)配置如表1所示。
表1 計算機(jī)配置表
實驗所用網(wǎng)絡(luò)數(shù)據(jù)來源于英特爾伯克利研究所,其數(shù)據(jù)集合由35個傳感器節(jié)點構(gòu)成的網(wǎng)絡(luò)采集所得,其網(wǎng)絡(luò)部署結(jié)構(gòu)如圖2所示。
圖2 網(wǎng)絡(luò)部署結(jié)構(gòu)圖
將偏差數(shù)據(jù)注入實驗網(wǎng)絡(luò)中,為了提升實驗的客觀性,對實驗網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行隨機(jī)打亂,提高后續(xù)實驗進(jìn)行的公正性。
另外,設(shè)置滑動窗口規(guī)格為1000,窗口滑動設(shè)置為持續(xù)滑動形式。在時間t處滑動窗口內(nèi)包含100個網(wǎng)絡(luò)數(shù)據(jù)。
為了顯示偏差數(shù)據(jù)注入后網(wǎng)絡(luò)節(jié)點的變化,給出某一時刻的滑動窗口內(nèi)網(wǎng)絡(luò)數(shù)據(jù)信息熵變化情況示意圖,如圖3所示。
圖3 網(wǎng)絡(luò)數(shù)據(jù)信息熵變化示意圖
依據(jù)上述選取的數(shù)據(jù)仿真軟件,準(zhǔn)備的實驗數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)偏差數(shù)據(jù)提取實驗。自變量選擇網(wǎng)絡(luò)吞吐量,其區(qū)間為10000-50000Mbps,通過偏差數(shù)據(jù)提取覆蓋率與時間消耗數(shù)據(jù)反映方法性能。
通過實驗得到偏差數(shù)據(jù)提取覆蓋率數(shù)據(jù)如表2所示。
表2 偏差數(shù)據(jù)提取覆蓋率數(shù)據(jù)對比結(jié)果
通過實驗得到偏差數(shù)據(jù)提取時間消耗數(shù)據(jù)如表3所示。
表3 偏差數(shù)據(jù)提取時間消耗數(shù)據(jù)對比結(jié)果
如表2、表3數(shù)據(jù)顯示,在網(wǎng)絡(luò)吞吐量10000-50000Mbps背景下,與文獻(xiàn)[3]方法、文獻(xiàn)[4]方法相比較,提出方法的偏差數(shù)據(jù)提取覆蓋率更大,時間消耗更少,充分表明提出方法具備更好的網(wǎng)絡(luò)偏差數(shù)據(jù)提取效果。
此研究引入智能計算技術(shù),并依據(jù)網(wǎng)絡(luò)偏差數(shù)據(jù)提取需求,選擇了適當(dāng)?shù)闹悄苡嬎闼惴āz傳算法,提出了全新的網(wǎng)絡(luò)偏差數(shù)據(jù)提取方法,采用數(shù)據(jù)仿真形式驗證了提出方法的性能,發(fā)現(xiàn)提出方法極大的提升了偏差數(shù)據(jù)提取覆蓋率,降低了時間消耗,可以為網(wǎng)絡(luò)管理提供更加有力的支撐。