余文芳++敖云濤
摘 要:隨著網(wǎng)絡(luò)用戶規(guī)模的大幅度增加,網(wǎng)絡(luò)用戶使用計算機的水平參差不齊,導(dǎo)致網(wǎng)絡(luò)安全事故頻頻發(fā)生,提升網(wǎng)絡(luò)安全態(tài)勢感知已經(jīng)成為研究的重點。本文提出了一種基于RF-SVM的網(wǎng)絡(luò)安全態(tài)勢感知算法,該算法引入回歸思想,在網(wǎng)絡(luò)入侵感知過程,充分地參考歷史網(wǎng)絡(luò)攻擊數(shù)據(jù),預(yù)測未來網(wǎng)絡(luò)數(shù)據(jù)流中潛在的威脅,實驗證明該算法能夠有效地提升網(wǎng)絡(luò)安全感知的準確度,降低預(yù)測誤差。
關(guān)鍵詞:SVM;回歸預(yù)測;網(wǎng)絡(luò)安全態(tài)勢
1 引言
隨著網(wǎng)絡(luò)的普及和發(fā)展,網(wǎng)絡(luò)用戶呈現(xiàn)規(guī)?;仙?,不同的網(wǎng)絡(luò)用戶使用計算機的水平各不相同,參差不齊,導(dǎo)致網(wǎng)絡(luò)受到的潛在威脅更加嚴重,網(wǎng)絡(luò)安全態(tài)勢感知已經(jīng)成為亟需解決的問題之一。目前,經(jīng)過許多計算機學者的研究,已經(jīng)誕生了許多較好的網(wǎng)絡(luò)安全態(tài)勢感知算法,比如日志審計與性能修正算法、基于DS證據(jù)理論、基于混雜模型、基于神經(jīng)網(wǎng)絡(luò)、多維數(shù)據(jù)流挖掘算法、Markov博弈模型等,已經(jīng)在網(wǎng)絡(luò)態(tài)勢感知過程中得到了較好的驗證,并且取得了良好的效果。同時,也建立了許多的網(wǎng)絡(luò)安全態(tài)勢評估模型,如層次化網(wǎng)絡(luò)安全威脅態(tài)勢量化評估方法、信息融合評估模型、復(fù)雜網(wǎng)絡(luò)評估模型等,促使網(wǎng)絡(luò)安全態(tài)勢預(yù)測更加客觀和準確。
SVM算法進行網(wǎng)絡(luò)安全態(tài)勢評估時,無法充分地參考歷史數(shù)據(jù),僅能依據(jù)當前的數(shù)據(jù)判斷網(wǎng)絡(luò)安全態(tài)勢,準確率較低。為了解決這個問題,本文引入了回歸預(yù)測的思想,該思想可以記憶歷史數(shù)據(jù),充分地考慮過去的網(wǎng)絡(luò)攻擊事件,結(jié)合3當前的數(shù)據(jù)流,判斷網(wǎng)絡(luò)安全態(tài)勢,能夠大幅度提升網(wǎng)絡(luò)安全態(tài)勢預(yù)測的準確度。實驗結(jié)果證明該方法運行效率較高,運行結(jié)果與實際值相比,誤差較低,精確性較高。
2 RF-SVM算法設(shè)計
2.1 RF-SVM理論
支持向量機是一種數(shù)據(jù)挖掘技術(shù),其可以從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式,挖掘數(shù)據(jù)隱藏的信息,將相關(guān)的信息提供給系統(tǒng),便于系統(tǒng)識別系統(tǒng)數(shù)據(jù)的時間序列或者發(fā)展趨勢。支持向量機在線性可分的標準下,其可以在解空間中尋找最佳的分類平面;在線性不可分的情況下,其可以通過引入部分變量,采取非線性映射的方法,有效的將處于低緯輸入空間的樣本映射到高緯空間中,這樣就可以將解空間變?yōu)榫€性可分的情況,在高維解空間中尋找最優(yōu)解。同時,支撐向量機使用結(jié)構(gòu)風險最小化的基本原理,可以在向量的解空間中尋找最優(yōu)解,滿足求解的需要。
為了能夠更加有效地預(yù)測網(wǎng)絡(luò)安全態(tài)勢,本文引入了回歸預(yù)測的思想,提出了RF-SVM算法,其基本原理如下:
假設(shè)給定樣本集(x,y)服從概率分布P(x,y),設(shè)定回歸函數(shù)如公式(1):
同時引入結(jié)構(gòu)風險函數(shù)(2):
公式(2)中, 表示描述函數(shù),C為常數(shù),f()表示復(fù)雜度的項,公式(2)可以平衡經(jīng)驗風險和模型復(fù)雜度,以便能夠取得一個折中的平衡。
在上述公式中可以引入不敏感損失函數(shù)ε的項,其可以具體定義為公式(3):
公式(3)表示不懲罰偏差小于ε的項,能夠大幅度增加回歸函數(shù)的魯棒性。
公式(4)體現(xiàn)了引入回歸預(yù)測思想的支持向量機的核心思想,其既可以控制訓(xùn)練誤差,又可以控制模型復(fù)雜度,以便能夠獲取一個小的期望風險,提高模型的泛化能力。其最小代價泛化函數(shù)為公式(5):
公式(5)中, 表示引入的松散變量,以便能夠利用拉格朗日函數(shù)和對偶原理,以便得到函數(shù)(6):
公式(6)中, 表示拉格朗日算子,求解可以得到:
不為零的樣本即為支持向量,因此,最優(yōu)分類面的權(quán)系數(shù)向量是支持向量的線性組合。b可由約束條件 求解,由此求得的最優(yōu)分類函數(shù)是:
其中sgn()為符號函數(shù)。
2.2 算法設(shè)計及參數(shù)設(shè)置
RF-SVM設(shè)計過程中,關(guān)鍵問題包括兩個,首選需要選擇一個合適的核函數(shù)和參數(shù),其次是訓(xùn)練得到算法的模型。
RF-SVM回歸模型的控制方法包括三種,分別是容量控制因子C、損失函數(shù)和核函數(shù),這些方法均可以實現(xiàn)RF-SVM回歸模型得到有效的控制和實現(xiàn)回歸。為了能夠更加有效的驗證本文算法的有效性,RF-SVM算法采用Vapnik的ε不敏感損失函數(shù)實施控制,并且同時采用高斯徑向基函數(shù)作為核函數(shù),設(shè)置ε=0.008,不限定控制因子C的取值,在模型訓(xùn)練的過程中,可以設(shè)置高斯徑向基函數(shù)σ=0.2完成算法訓(xùn)練。
為了能夠更好地預(yù)測網(wǎng)絡(luò)攻擊態(tài)勢的指標,RF-SVM算法實現(xiàn)包括兩個模塊,攻擊態(tài)勢預(yù)測訓(xùn)練模塊和預(yù)測模塊。每一個模塊的功能如下所所述。
2.2.1 RF-SVM訓(xùn)練模塊
算法執(zhí)行過程中,RF-SVM訓(xùn)練模塊由總控模塊、數(shù)據(jù)庫讀取模塊、態(tài)勢評估模塊和訓(xùn)練模塊四部分集成,完成攻擊態(tài)勢預(yù)測訓(xùn)練學習功能,具體執(zhí)行步驟包括以下幾個方面:
⑴設(shè)置輸入訓(xùn)練數(shù)據(jù)時間序列化條件,確定時間序列,統(tǒng)計時間序列的取值范圍;
⑵調(diào)用數(shù)據(jù)庫讀取控制函數(shù)和網(wǎng)絡(luò)攻擊態(tài)勢評估函數(shù),完成統(tǒng)計時間序列的工作,并且評估各項數(shù)據(jù)的攻擊態(tài)勢,并且將按照時間序列分類,將每一類的評估值存入變量LIST中;
⑶將LIST數(shù)據(jù)傳入到預(yù)測模型訓(xùn)練模塊,生成一個預(yù)測模型。該訓(xùn)練模型根據(jù)24小時的歷史數(shù)據(jù)預(yù)測未來1h的攻擊態(tài)勢,以此前30天的數(shù)據(jù)為基礎(chǔ),設(shè)計一個30組的時間序列,每個時間序列包括24項,每一項的取值為1h的網(wǎng)絡(luò)攻擊態(tài)勢評估指標。
2.2.2 RF-SVM預(yù)測模塊
RF-SVM預(yù)測模塊的功能是根據(jù)近期一段時間內(nèi)網(wǎng)絡(luò)攻擊歷史數(shù)據(jù),使用RF-SVM算法預(yù)測網(wǎng)絡(luò)攻擊態(tài)勢,RF-SVM預(yù)測模塊以訓(xùn)練模塊為基礎(chǔ)。預(yù)測模塊包括以下執(zhí)行步驟:
⑴根據(jù)輸入條件確定訓(xùn)練數(shù)據(jù)的時間序列,設(shè)定時間序列的統(tǒng)計時間范圍;
⑵完成統(tǒng)計時間序列的工作;
⑶調(diào)用攻擊態(tài)勢預(yù)測模塊,根據(jù)(2)統(tǒng)計的時間序列和訓(xùn)練模塊生成的模型,預(yù)測網(wǎng)絡(luò)攻擊態(tài)勢;
3 實驗環(huán)境及結(jié)果分析
3.1 實驗環(huán)境及數(shù)據(jù)
為了能夠評估RF-SVM算法的有效性,構(gòu)建了一個功能強大的入侵檢測系統(tǒng),該系統(tǒng)擁有兩臺FTP服務(wù)器和一臺Web服務(wù)器,20臺計算機終端和6臺模擬攻擊計算機,2014年1月1日——2014年3月10日,選擇收集7萬條日志報警信息、10萬條網(wǎng)絡(luò)報警信息、8萬條設(shè)備報警信息、5萬條代理報警信息等共計30萬條入侵攻擊報警信息,按照網(wǎng)絡(luò)態(tài)勢的分級標準,將其分類,分別是4萬條一級報警信息、8萬條二級報警信息、8萬條三級報警信息、10萬條四級報警信息。
由于不同的時間段內(nèi),網(wǎng)絡(luò)的攻擊數(shù)據(jù)集非常大,為了避免訓(xùn)練數(shù)據(jù)集時算法產(chǎn)生較大的誤差,針對計算得到的網(wǎng)絡(luò)攻擊態(tài)勢值實施歸一化處理。
歸一化處理公式如(5)所示:
公式(9)中的x表示當前網(wǎng)絡(luò)態(tài)勢值, 表示歸一化后的網(wǎng)絡(luò)態(tài)勢值,xmax和xmin表示網(wǎng)絡(luò)最大態(tài)勢值和網(wǎng)絡(luò)最小態(tài)勢值。
將2014年1月1日——2014年2月28日的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,完成RF-SVM算法的學習和訓(xùn)練;將2014年3月1日——2014年3月10日的入侵攻擊數(shù)據(jù)作為驗證數(shù)據(jù),以便驗證算法的準確性和可靠性,具體數(shù)據(jù)如表1所示。
3.2 實驗結(jié)果分析
使用RF-SVM算法對2014年3月1日——2014年3月10日的入侵攻擊數(shù)據(jù)進行預(yù)測,預(yù)測結(jié)果如表1所示。另外,為了更好地驗證RF-SVM算法的有效性,本文同時與SVM算法預(yù)測的結(jié)果進行比較,RF-SVM算法能夠很好地提高網(wǎng)絡(luò)攻擊態(tài)勢的預(yù)測準確度,降低預(yù)測誤差,如圖1所示。
4 總結(jié)與展望
本文分析了SVM算法實施網(wǎng)絡(luò)態(tài)勢感知過程中存在的不足,即其僅能獨立地分析當前網(wǎng)絡(luò)中的數(shù)據(jù)流,無法記憶歷史數(shù)據(jù)流,導(dǎo)致網(wǎng)絡(luò)安全態(tài)勢感知準確度較低。因此,經(jīng)過努力,本文引入了回歸預(yù)測的思想,提出了RF-SVM算法,該算法能夠充分考慮網(wǎng)絡(luò)歷史攻擊事件及當前網(wǎng)絡(luò)數(shù)據(jù),預(yù)測網(wǎng)絡(luò)安全態(tài)勢,實驗證明該算法能夠降低網(wǎng)絡(luò)安全態(tài)勢感知誤差,提升準確度。RF-SVM算法未來工作的重點包括改進核函數(shù),優(yōu)化設(shè)置參數(shù),以便實現(xiàn)自動預(yù)測網(wǎng)絡(luò)安全態(tài)勢。
[參考文獻]
[1]龔正虎,卓瑩.網(wǎng)絡(luò)態(tài)勢感知研究[J].軟件學報.2010,21(07):1605-1619.
[2]韋勇,連一峰.基于日志審計與性能修正算法的網(wǎng)絡(luò)安全態(tài)勢評估模型[J].計算機學報.2009,32(4):763-772.
[3]石波,謝小權(quán).基于DS證據(jù)理論的網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法研究[J].計算機工程與設(shè)計.2013,34(3):821-825.
[4]李聞,戴英俠,連一峰,馮萍慧.基于混雜模型的上下文相關(guān)主機入侵檢測系統(tǒng)[J].軟件學報.2009(01).
[5]仲兆滿,李存華,管燕.基于神經(jīng)網(wǎng)絡(luò)的實時入侵檢測系統(tǒng)的研究和實現(xiàn)[J].計算機工程與應(yīng)用.2007(30).
[6]毛國君,宗東軍.基于多維數(shù)據(jù)流挖掘技術(shù)的入侵檢測模型與算法[J]. 計算機研究與發(fā)展.2009(04).
⑶調(diào)用攻擊態(tài)勢預(yù)測模塊,根據(jù)(2)統(tǒng)計的時間序列和訓(xùn)練模塊生成的模型,預(yù)測網(wǎng)絡(luò)攻擊態(tài)勢;
3 實驗環(huán)境及結(jié)果分析
3.1 實驗環(huán)境及數(shù)據(jù)
為了能夠評估RF-SVM算法的有效性,構(gòu)建了一個功能強大的入侵檢測系統(tǒng),該系統(tǒng)擁有兩臺FTP服務(wù)器和一臺Web服務(wù)器,20臺計算機終端和6臺模擬攻擊計算機,2014年1月1日——2014年3月10日,選擇收集7萬條日志報警信息、10萬條網(wǎng)絡(luò)報警信息、8萬條設(shè)備報警信息、5萬條代理報警信息等共計30萬條入侵攻擊報警信息,按照網(wǎng)絡(luò)態(tài)勢的分級標準,將其分類,分別是4萬條一級報警信息、8萬條二級報警信息、8萬條三級報警信息、10萬條四級報警信息。
由于不同的時間段內(nèi),網(wǎng)絡(luò)的攻擊數(shù)據(jù)集非常大,為了避免訓(xùn)練數(shù)據(jù)集時算法產(chǎn)生較大的誤差,針對計算得到的網(wǎng)絡(luò)攻擊態(tài)勢值實施歸一化處理。
歸一化處理公式如(5)所示:
公式(9)中的x表示當前網(wǎng)絡(luò)態(tài)勢值, 表示歸一化后的網(wǎng)絡(luò)態(tài)勢值,xmax和xmin表示網(wǎng)絡(luò)最大態(tài)勢值和網(wǎng)絡(luò)最小態(tài)勢值。
將2014年1月1日——2014年2月28日的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,完成RF-SVM算法的學習和訓(xùn)練;將2014年3月1日——2014年3月10日的入侵攻擊數(shù)據(jù)作為驗證數(shù)據(jù),以便驗證算法的準確性和可靠性,具體數(shù)據(jù)如表1所示。
3.2 實驗結(jié)果分析
使用RF-SVM算法對2014年3月1日——2014年3月10日的入侵攻擊數(shù)據(jù)進行預(yù)測,預(yù)測結(jié)果如表1所示。另外,為了更好地驗證RF-SVM算法的有效性,本文同時與SVM算法預(yù)測的結(jié)果進行比較,RF-SVM算法能夠很好地提高網(wǎng)絡(luò)攻擊態(tài)勢的預(yù)測準確度,降低預(yù)測誤差,如圖1所示。
4 總結(jié)與展望
本文分析了SVM算法實施網(wǎng)絡(luò)態(tài)勢感知過程中存在的不足,即其僅能獨立地分析當前網(wǎng)絡(luò)中的數(shù)據(jù)流,無法記憶歷史數(shù)據(jù)流,導(dǎo)致網(wǎng)絡(luò)安全態(tài)勢感知準確度較低。因此,經(jīng)過努力,本文引入了回歸預(yù)測的思想,提出了RF-SVM算法,該算法能夠充分考慮網(wǎng)絡(luò)歷史攻擊事件及當前網(wǎng)絡(luò)數(shù)據(jù),預(yù)測網(wǎng)絡(luò)安全態(tài)勢,實驗證明該算法能夠降低網(wǎng)絡(luò)安全態(tài)勢感知誤差,提升準確度。RF-SVM算法未來工作的重點包括改進核函數(shù),優(yōu)化設(shè)置參數(shù),以便實現(xiàn)自動預(yù)測網(wǎng)絡(luò)安全態(tài)勢。
[參考文獻]
[1]龔正虎,卓瑩.網(wǎng)絡(luò)態(tài)勢感知研究[J].軟件學報.2010,21(07):1605-1619.
[2]韋勇,連一峰.基于日志審計與性能修正算法的網(wǎng)絡(luò)安全態(tài)勢評估模型[J].計算機學報.2009,32(4):763-772.
[3]石波,謝小權(quán).基于DS證據(jù)理論的網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法研究[J].計算機工程與設(shè)計.2013,34(3):821-825.
[4]李聞,戴英俠,連一峰,馮萍慧.基于混雜模型的上下文相關(guān)主機入侵檢測系統(tǒng)[J].軟件學報.2009(01).
[5]仲兆滿,李存華,管燕.基于神經(jīng)網(wǎng)絡(luò)的實時入侵檢測系統(tǒng)的研究和實現(xiàn)[J].計算機工程與應(yīng)用.2007(30).
[6]毛國君,宗東軍.基于多維數(shù)據(jù)流挖掘技術(shù)的入侵檢測模型與算法[J]. 計算機研究與發(fā)展.2009(04).
⑶調(diào)用攻擊態(tài)勢預(yù)測模塊,根據(jù)(2)統(tǒng)計的時間序列和訓(xùn)練模塊生成的模型,預(yù)測網(wǎng)絡(luò)攻擊態(tài)勢;
3 實驗環(huán)境及結(jié)果分析
3.1 實驗環(huán)境及數(shù)據(jù)
為了能夠評估RF-SVM算法的有效性,構(gòu)建了一個功能強大的入侵檢測系統(tǒng),該系統(tǒng)擁有兩臺FTP服務(wù)器和一臺Web服務(wù)器,20臺計算機終端和6臺模擬攻擊計算機,2014年1月1日——2014年3月10日,選擇收集7萬條日志報警信息、10萬條網(wǎng)絡(luò)報警信息、8萬條設(shè)備報警信息、5萬條代理報警信息等共計30萬條入侵攻擊報警信息,按照網(wǎng)絡(luò)態(tài)勢的分級標準,將其分類,分別是4萬條一級報警信息、8萬條二級報警信息、8萬條三級報警信息、10萬條四級報警信息。
由于不同的時間段內(nèi),網(wǎng)絡(luò)的攻擊數(shù)據(jù)集非常大,為了避免訓(xùn)練數(shù)據(jù)集時算法產(chǎn)生較大的誤差,針對計算得到的網(wǎng)絡(luò)攻擊態(tài)勢值實施歸一化處理。
歸一化處理公式如(5)所示:
公式(9)中的x表示當前網(wǎng)絡(luò)態(tài)勢值, 表示歸一化后的網(wǎng)絡(luò)態(tài)勢值,xmax和xmin表示網(wǎng)絡(luò)最大態(tài)勢值和網(wǎng)絡(luò)最小態(tài)勢值。
將2014年1月1日——2014年2月28日的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,完成RF-SVM算法的學習和訓(xùn)練;將2014年3月1日——2014年3月10日的入侵攻擊數(shù)據(jù)作為驗證數(shù)據(jù),以便驗證算法的準確性和可靠性,具體數(shù)據(jù)如表1所示。
3.2 實驗結(jié)果分析
使用RF-SVM算法對2014年3月1日——2014年3月10日的入侵攻擊數(shù)據(jù)進行預(yù)測,預(yù)測結(jié)果如表1所示。另外,為了更好地驗證RF-SVM算法的有效性,本文同時與SVM算法預(yù)測的結(jié)果進行比較,RF-SVM算法能夠很好地提高網(wǎng)絡(luò)攻擊態(tài)勢的預(yù)測準確度,降低預(yù)測誤差,如圖1所示。
4 總結(jié)與展望
本文分析了SVM算法實施網(wǎng)絡(luò)態(tài)勢感知過程中存在的不足,即其僅能獨立地分析當前網(wǎng)絡(luò)中的數(shù)據(jù)流,無法記憶歷史數(shù)據(jù)流,導(dǎo)致網(wǎng)絡(luò)安全態(tài)勢感知準確度較低。因此,經(jīng)過努力,本文引入了回歸預(yù)測的思想,提出了RF-SVM算法,該算法能夠充分考慮網(wǎng)絡(luò)歷史攻擊事件及當前網(wǎng)絡(luò)數(shù)據(jù),預(yù)測網(wǎng)絡(luò)安全態(tài)勢,實驗證明該算法能夠降低網(wǎng)絡(luò)安全態(tài)勢感知誤差,提升準確度。RF-SVM算法未來工作的重點包括改進核函數(shù),優(yōu)化設(shè)置參數(shù),以便實現(xiàn)自動預(yù)測網(wǎng)絡(luò)安全態(tài)勢。
[參考文獻]
[1]龔正虎,卓瑩.網(wǎng)絡(luò)態(tài)勢感知研究[J].軟件學報.2010,21(07):1605-1619.
[2]韋勇,連一峰.基于日志審計與性能修正算法的網(wǎng)絡(luò)安全態(tài)勢評估模型[J].計算機學報.2009,32(4):763-772.
[3]石波,謝小權(quán).基于DS證據(jù)理論的網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法研究[J].計算機工程與設(shè)計.2013,34(3):821-825.
[4]李聞,戴英俠,連一峰,馮萍慧.基于混雜模型的上下文相關(guān)主機入侵檢測系統(tǒng)[J].軟件學報.2009(01).
[5]仲兆滿,李存華,管燕.基于神經(jīng)網(wǎng)絡(luò)的實時入侵檢測系統(tǒng)的研究和實現(xiàn)[J].計算機工程與應(yīng)用.2007(30).
[6]毛國君,宗東軍.基于多維數(shù)據(jù)流挖掘技術(shù)的入侵檢測模型與算法[J]. 計算機研究與發(fā)展.2009(04).