馮洛銀
摘要
網(wǎng)絡(luò)入侵檢測系統(tǒng)是一種主動防御系統(tǒng),現(xiàn)在信息安全領(lǐng)域都缺少不了網(wǎng)絡(luò)入侵系統(tǒng)。針對傳統(tǒng)入侵檢測對不平衡樣本分類能力的不足,提出了一種加權(quán)極限學(xué)習(xí)機的分類算法,給予兩類不平衡數(shù)量的樣本不同的分類權(quán)值,從而克服分類平面受到樣本不平衡而產(chǎn)生的偏移。實驗結(jié)果表明,本文的算法在計算速度上、分類精度、以及Recall、Fmeasures、以及Gmeas等指標(biāo)上都要優(yōu)于傳統(tǒng)的SVM、RBF、ELM等算法。
【關(guān)鍵詞】網(wǎng)絡(luò)入侵檢測系統(tǒng) 主動防御系統(tǒng)極限學(xué)習(xí)機
1 引言
網(wǎng)絡(luò)入侵檢測系統(tǒng)是一種主動防御系統(tǒng),現(xiàn)在信息安全領(lǐng)域都缺少不了網(wǎng)絡(luò)入侵系統(tǒng)。在網(wǎng)絡(luò)入侵系統(tǒng)中,采集到的網(wǎng)絡(luò)狀態(tài)實際上是可以分為正常和異常兩種狀態(tài),所以網(wǎng)上入侵系統(tǒng)可以轉(zhuǎn)為為一個二分類的模式識別問題。在當(dāng)前基于模式識別的網(wǎng)絡(luò)入侵系統(tǒng)已經(jīng)取得了很多的研究。
傳統(tǒng)的基于模式識別的網(wǎng)絡(luò)入侵系統(tǒng)往往采用神經(jīng)網(wǎng)絡(luò)或者支持向量機。
神經(jīng)網(wǎng)絡(luò)主要是基于梯度下降法的BP神經(jīng)網(wǎng)絡(luò)等,該算法有如下缺點:
(1)它需要設(shè)置合適的訓(xùn)練步長和收斂誤差,或者就會存在欠擬合和過擬合的問題,導(dǎo)致識別精度不高。
(2)它需要不斷的迭代完成求解,對于大規(guī)模的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù),它訓(xùn)練速度慢,訓(xùn)練代價高。
而支持向量機同樣存在如下幾點問題:
(1)它需要設(shè)置合適的核參數(shù)才能完成最佳性能,這個參數(shù)往往需要大規(guī)模的交叉驗證獲得,代價較高。
(2)SVM需要求解一個龐大的二次規(guī)劃問題,訓(xùn)練速度很慢,在數(shù)據(jù)龐大時對計算設(shè)備要求較高。
針對上述問題,本文提出了采用極限學(xué)習(xí)機的網(wǎng)絡(luò)入侵檢測方法。但是網(wǎng)絡(luò)入侵檢測問題是一個不平很分類問題,往往正常訓(xùn)練樣本數(shù)量遠(yuǎn)大于異常訓(xùn)練樣本,采用傳統(tǒng)的極限學(xué)習(xí)機算法會導(dǎo)致異常樣本分類精度偏低。針對這個問題,本文提出了改進的加權(quán)極限學(xué)習(xí)機算法用于克服不平很樣本分類問題。
2 極限學(xué)習(xí)機
黃等在論文中提取前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)的輸入權(quán)值無需迭代求解,只需要求得輸出權(quán)值的最小二乘解即可完成網(wǎng)絡(luò)的訓(xùn)練。于是極限學(xué)習(xí)機的求解方程,可以構(gòu)造如下的計算公式。
上述可以用公式表達成下式
其中是訓(xùn)練樣本xi對應(yīng)的網(wǎng)絡(luò)輸出和真實值之間的誤差。
上面的正則極限學(xué)習(xí)機對于所有樣本給予了一個固定的正則化參數(shù),本文考慮另外一種情況,對于不平衡樣本和有噪聲的樣本,我們應(yīng)該針對不同的樣本有一個不同的權(quán)值:
用同樣的方法求解,同樣可以定義lagrange函數(shù)求解上面的問題:
最終可以求解得出:
其中W=diag[s1,s2…sN]為樣本的權(quán)值矩陣。
3 不平衡分類的指標(biāo)
以往的研究中大多假設(shè)各類樣本分布均衡,因此常使用“分類準(zhǔn)確率“或“錯誤率”作為分類器性能的評估指標(biāo)。但是對于不平衡數(shù)據(jù)集,當(dāng)兩類樣本分布嚴(yán)重不均衡時,即使少數(shù)類全部錯分,仍然可能會出現(xiàn)分類準(zhǔn)確率較高的情況,因此用分類準(zhǔn)確率作為不平衡數(shù)據(jù)集分類器的性能的指標(biāo)并不準(zhǔn)確?;诖藛栴},學(xué)者們提出了一些對于不平衡數(shù)據(jù)集分類性能估的方法,分別是:基于混淆陣的精確度(Precision)、召回率(Recall)、正確率(ACC)、F-Recall、G-means等。
混淆矩陣(Confusion Matrix)如表1所示,其中TP(Ture Positives)表示正類樣本判別為正類的個數(shù),TN(Ture Negatives)表示負(fù)類樣本被判別為負(fù)類的個數(shù),F(xiàn)N(FalseNegatives)表示判決錯誤的負(fù)類樣本數(shù)目,F(xiàn)P(False Positives)表示判決錯誤的正類樣本數(shù)目。
可以定義二分類的混淆矩陣如表1所示。
利用混淆矩陣可以定義“正類分類準(zhǔn)確率”和“負(fù)類分類準(zhǔn)確率”的公式:
幾何平均準(zhǔn)則(G-means)是通過不平衡數(shù)據(jù)集的均衡程度來體現(xiàn)算法的分類性能,因此被廣泛用于評價不平衡數(shù)據(jù)集分類算法的性能。
由上述定義可以看出,ACC+(ACC-)越小,G-means就會越小,同時也說明少數(shù)類樣本被錯分越多,錯分代價越大。
事實上在大多數(shù)應(yīng)用中,我們更關(guān)注分類器對少數(shù)類樣本的分類性能。F-measure就是評價不平衡分類問題中少數(shù)類別分類性能的指標(biāo)。
4 實驗與分析
本文實驗所選取的數(shù)據(jù)來源于KDDCUP99數(shù)據(jù)集,kddc包含4種大攻擊類別、22種小攻擊類別的數(shù)據(jù)集,以及正常數(shù)據(jù)。
我們把攻擊數(shù)據(jù)進行合并作為一個大類,把正常數(shù)據(jù)作為另外一個類別,使得KDDCUP99數(shù)據(jù)成為一個二分類的過程,其中正常數(shù)據(jù)25000條,異常數(shù)據(jù)10000條,不平衡比例為2.5:1,其分類是一個典型的不平衡分類的過程。我們提取其中的80%的樣本數(shù)據(jù)作為訓(xùn)練,剩下的20%的數(shù)據(jù)作為測試數(shù)據(jù)進行測試。
給出了RBF神經(jīng)網(wǎng)絡(luò)、支持向量機(SVM)、普通的極限學(xué)習(xí)機(ELM)、隨機森林算法和本文提出的WELM算法進行的性能指標(biāo)對比,實驗結(jié)果如表2所示。
從表2可以看出,在不平衡入侵?jǐn)?shù)據(jù)的分類問題上,本文提出的算法在各個指標(biāo)上都要優(yōu)越于普通的極限學(xué)習(xí)機算法及其其他經(jīng)典算法。同時本文的算法取得了第二的訓(xùn)練速度,和最快的ELM算法訓(xùn)練速度相近,且速度遠(yuǎn)快于其他的算法。
5 結(jié)論
針對傳統(tǒng)入侵檢測對不平衡樣本分類能力的不足,提出了一種加權(quán)極限學(xué)習(xí)機的分類算法,給予兩類不平衡數(shù)量的樣本不同的分類權(quán)值,從而克服分類平面受到樣本不平衡而產(chǎn)生的偏移。實驗結(jié)果表明,本文的算法在計算速度上、分類精度、以及Recall、Fmeasures、以及Gmeas等指標(biāo)上都要優(yōu)于傳統(tǒng)的SVM、RBF、ELM等算法。
參考文獻
[1]李叢,閆仁武,朱長水,高廣銀.融合FAST特征選擇與ABQGSA-SVM的網(wǎng)絡(luò)入侵檢測[J].計算機應(yīng)用研究,2017,34(07):2172-2179.
[2]井小沛,汪厚祥,聶凱.基于修正核函數(shù)SVM的網(wǎng)絡(luò)入侵檢測[J].系統(tǒng)工程與電子技術(shù),2012,34(05):1036-1040.
[3]高海華,楊輝華,王行愚.基于PCA和KPCA特征抽取的SVM網(wǎng)絡(luò)入侵檢測方法[J].華東理工大學(xué)學(xué)報(自然科學(xué)版),2006(03):321-326.
[4]包潘晴,楊明福.基于KPCA和SVM的網(wǎng)絡(luò)入侵檢測[J].計算機應(yīng)用與軟件,2006(02):125-127.
[5]Guang-Bin Huang,Qin-Yu Zhu and Chee-KheongSiew.Extreme Learning Machine:Theory and Applications[J].Neurocomput ing,2006,70(1-3):489-501.
[6]Peng Y,Wang S,Long X,et al.Discriminative graph regularizedextreme learning machine and itsapplication to face recognition[J].Neurocomputing,2015,149(PA):340-353.
[7]Sun Z L,Choi T M,Au K F,et al.Salesforecasting using extreme learningmachine with applications in fashionretailing[J].Decision SupportSystems,2009,46(01):411-419.