張寶華
Application of HG AR-PNN Classifier in Network Intrusion Detection
摘要:人工神經(jīng)網(wǎng)絡(luò)(ANN)大大提高了入侵檢測系統(tǒng)的檢測性能,但對于出現(xiàn)次數(shù)較少的攻擊,ANN并不能提供令人滿意的穩(wěn)定性和檢測率。提出了一種基于超圖Helly性質(zhì)和算術(shù)取余概率神經(jīng)網(wǎng)絡(luò)(HG AR-PNN)的入侵檢測新方法。該方法利用超圖的Helly性質(zhì)選取最優(yōu)特征子集,再對最優(yōu)特征子集進(jìn)行歸一化算術(shù)取余,然后實(shí)現(xiàn)概率神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)集的訓(xùn)練。最后,使用KDDCUP99數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并對HG AR-PNN算法的性能進(jìn)行評價。實(shí)驗(yàn)結(jié)果表明,對于不常出現(xiàn)的攻擊,HG AR-PNN分類器同樣有著較好的穩(wěn)定性和較高的分類精度。
Abstract: The learning model which is based on artificial neural network (ANN) can greatly improve the performance of intrusion detection system, but to the less frequent attacks, the ANN can not provide stability and satisfactory detection rate. A new intrusion detection method based on hypergraph Helly property and arithmetic residue probability neural network (HG AR-PNN) is proposed. This method uses hypergraph Helly property to select the best feature subset, and then normalize the optimal feature subset with arithmetic residue, after that, uses the PNN for training the data set. Finally, experiments are carried out using KDDCUP '99 data set, and the performance of HG AR-PNN algorithm is evaluated. The experimental results show that HG AR-PNN classifier has better stability and higher classification accuracy for less frequent attacks.
關(guān)鍵詞:入侵檢測;分類器;概率神經(jīng)網(wǎng)絡(luò);超圖
Key words: intrusion detection;classifier;PNN;hypergraph
中圖分類號:TN915.08 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-4311(2018)15-0248-05
0 引言
隨著計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)安全漏洞也發(fā)生著巨大的變化。由于新漏洞的復(fù)雜性,傳統(tǒng)的安全機(jī)制(如用戶身份驗(yàn)證、加密等)已經(jīng)無法阻止惡意用戶對網(wǎng)絡(luò)系統(tǒng)的入侵。在這種情況下,入侵檢測系統(tǒng)就成為了網(wǎng)絡(luò)安全系統(tǒng)中抵御入侵攻擊和異常活動的第二道防線。入侵就是試圖破壞計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的保密性、完整性和可用性的行為,而入侵檢測就是監(jiān)測計(jì)算機(jī)系統(tǒng)或網(wǎng)絡(luò)中發(fā)生的事件,分析它們是否有入侵的跡象。一般來說,IDS可分為誤用入侵檢測和異常入侵檢測兩種,誤用入侵檢測的性能取決于新的入侵模式的不斷更新,而異常入侵檢測取決于決策[1]。
由于網(wǎng)絡(luò)數(shù)據(jù)流量的龐大,現(xiàn)有的入侵檢測系統(tǒng)都以基于統(tǒng)計(jì)規(guī)則的專家系統(tǒng)和機(jī)器學(xué)習(xí)等為發(fā)展方向。在各種機(jī)器學(xué)習(xí)方法中,人工神經(jīng)網(wǎng)絡(luò)(ANN)能夠成功地應(yīng)用于IDS,并且能夠獲得較好的分類效果[2]。
現(xiàn)有基于人工神經(jīng)網(wǎng)絡(luò)的入侵檢測系統(tǒng)的缺點(diǎn)主要有:①由于數(shù)據(jù)集的不平衡性,系統(tǒng)對不頻繁發(fā)生的入侵行為檢測率低。②神經(jīng)網(wǎng)絡(luò)在高維數(shù)據(jù)集中會產(chǎn)生局部極小值。為了克服這些問題,本文提出了基于超圖和算術(shù)取余概率神經(jīng)網(wǎng)絡(luò)(HG AR-PNN)的新方法,該方法在增強(qiáng)了結(jié)構(gòu)穩(wěn)定性的同時,也提高了IDS的檢測率。
1 相關(guān)工作
1.1 概率神經(jīng)網(wǎng)絡(luò)
概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Networks,PNN)是由D. F. Specht在1990年提出的。主要思想是用貝葉斯決策規(guī)則,即錯誤分類的期望風(fēng)險最小,在多維輸入空間內(nèi)分離決策空間。它是一種基于統(tǒng)計(jì)原理的人工神經(jīng)網(wǎng)絡(luò),它是以Parzen窗口函數(shù)為激活函數(shù)的一種前饋網(wǎng)絡(luò)模型[3]。PNN吸收了徑向基神經(jīng)網(wǎng)絡(luò)與經(jīng)典的概率密度估計(jì)原理的優(yōu)點(diǎn),與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)相比,在模式分類方面尤其具有較為顯著的優(yōu)勢。
由貝葉斯決策理論:
其中,xT是訓(xùn)練輸入樣本,x是未知分類的樣本,σ是平滑因子。
③求和層。
每個節(jié)點(diǎn)用(4)式計(jì)算樣本層輸入的總和值
其中C是類的總數(shù)。
④輸出層。
輸出層中的節(jié)點(diǎn)通過貝葉斯策略決定每個輸入樣本x的類,訓(xùn)練中需要選擇的主要因素是平滑因子σ。
1.3 超圖
超圖是傳統(tǒng)圖形理論的推廣,通過超圖可以將真實(shí)世界的實(shí)體之間的高階關(guān)系用直觀的方式表達(dá)出來。從數(shù)學(xué)上講,超圖可以定義為H={X,E},其中,X={x1,x2,…,xn}為非空有限的頂點(diǎn)集合,E={E1,E2,…,En}為X的非空子集,稱為超邊[4]。下面給出了有關(guān)超圖和Helly性質(zhì)的基本定理。
定理1 對于一個給定的超圖H={X,E},超邊集合E?哿X,它是H的相交子集,其中E不為空且E中的超邊兩兩相交。
定理2 (Helly性質(zhì))給定一個超圖H,它的超邊為E1,E2,…,En,兩兩相交的超邊可以分為以下兩個情況:
①兩兩相交的超邊,有共有的相交點(diǎn),如圖2所示。兩兩相交的超邊{E1,E2,E3},頂點(diǎn)x3為共有相交點(diǎn),即E1∩E2∩E3=x3,則H具備Helly性質(zhì)。
②兩兩相交的超邊,沒有共有的相交點(diǎn),如圖3所示。因?yàn)樵趦蓛上嘟坏某厈E1,E2,E3}中沒有共有的相交點(diǎn),即E1∩E2∩E3=?準(zhǔn),則H不具備Helly性質(zhì)。
2 基于超圖和算數(shù)取余的概率神經(jīng)網(wǎng)絡(luò)分類器
本節(jié)討論基于超圖和算術(shù)取余的PNN算法在入侵檢測中的應(yīng)用。圖4描述了HG AR-PNN分類器的工作流程。
2.1 基于超圖的特征選擇技術(shù)
特征選擇技術(shù)的主要目標(biāo)是減少特征的數(shù)量,在去除數(shù)據(jù)冗余的同時,提高分類精度。許多模式識別問題使用文本、光譜、拓?fù)?、幾何和統(tǒng)計(jì)特征來訓(xùn)練學(xué)習(xí)模型[5]。在數(shù)據(jù)集數(shù)據(jù)不平衡的情況下,冗余數(shù)據(jù)特征的存在,增加了學(xué)習(xí)模型的泛化錯誤。為了克服這個困難,本文使用超圖來識別最小時間復(fù)雜度下的最優(yōu)特征子集。本文提出的基于超圖的特征選擇算法分為兩個部分:①超圖的表示;②Helly性質(zhì)的應(yīng)用。
算法1:基于超圖Helly性質(zhì)的特征選擇算法。
輸入:
f={f1,f2,…,fm}//所給數(shù)據(jù)集的m個特征
s={s1,s2,…,sn}//所給數(shù)據(jù)集的n個樣本
c={c1,c2,…,ck}//所給數(shù)據(jù)集的k個類
輸出:
fs最優(yōu)特征子集
算法:HG(f,s,c,fs)://利用歐式空間構(gòu)建超邊
//利用Helly性質(zhì)選取最優(yōu)特征子集
在初始階段,通過對各樣本的拓?fù)浜蛶缀侮P(guān)系得到超圖的邊,超圖中的超邊和頂點(diǎn),分別對應(yīng)數(shù)據(jù)集中的樣本和特征。本文用基于歐氏空間度量的最小距離算法來構(gòu)建每個類的邊。
接下來,以遞歸的方式將超圖的Helly性質(zhì)應(yīng)用于相交的邊,而不相交的邊所包含的特征將被忽視掉。由于超圖Helly性質(zhì)的應(yīng)用,最優(yōu)特征子集所產(chǎn)生的時間復(fù)雜度是最小的。
2.2 基于算術(shù)取余概率神經(jīng)網(wǎng)絡(luò)的分類器
一般來說,學(xué)習(xí)模型的工作效率取決于它能否對未知行為進(jìn)行高精度的分類。人工神經(jīng)網(wǎng)絡(luò)作為一種學(xué)習(xí)模型,它在許多數(shù)據(jù)分析應(yīng)用中發(fā)揮著重要作用。人工神經(jīng)網(wǎng)絡(luò)在不斷改進(jìn)中得到進(jìn)化,如前饋神經(jīng)網(wǎng)絡(luò)、徑向基神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等,它們在提高了檢測效率的同時也減少了訓(xùn)練時間,其中概率神經(jīng)網(wǎng)絡(luò)PNN將基于核的計(jì)算和RBF網(wǎng)絡(luò)集成到統(tǒng)一的框架中,由于沒有數(shù)據(jù)的交互,它能夠快速的訓(xùn)練學(xué)習(xí)。在分類過程中,PNN將概率密度函數(shù)值和貝葉斯策略下最小期望風(fēng)險值疊加。PNN在訓(xùn)練數(shù)據(jù)集上對已標(biāo)記數(shù)據(jù)的概率值進(jìn)行訓(xùn)練操作,而在測試數(shù)據(jù)集上基于未知樣本對每個類的最高估計(jì)概率對其進(jìn)行分類操作,然而對已標(biāo)記數(shù)據(jù)的核函數(shù)計(jì)算是高度計(jì)算密集型的。
對于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)分類器的不足,本文提出了一種基于算術(shù)取余的PNN分類器,算術(shù)取余的思想來源于群論中關(guān)于乘法模和加法模的兩個基本定理,即n個數(shù)1,2,…,n的模相加或是相乘,而這些在除法中得到的余數(shù)顯示了數(shù)字的物理特征。據(jù)觀察,利用算術(shù)取余進(jìn)行樣本訓(xùn)練,明顯改善了PNN的分類性能。因此為更大程度地加強(qiáng)PNN性能,首先利用基于超圖的特征選擇技術(shù)獲得最優(yōu)特征子集,再運(yùn)用算術(shù)取余PNN訓(xùn)練數(shù)據(jù)集。
算法2:基于超圖和算數(shù)取余的概率神經(jīng)網(wǎng)絡(luò)算法。
輸入:
類的總數(shù)Tclass
訓(xùn)練集樣本數(shù)Strain
特征向量fs
平滑因子σ
輸出:
測試樣本分類結(jié)果Classify
HG AR-PNN分類器算法過程如下:①初始化L,Sum,Classify和ε。②在原始數(shù)據(jù)集中,隨機(jī)選擇若干樣本作為訓(xùn)練樣本集和測試樣本集,并根據(jù)算法1,在訓(xùn)練樣本集中得到最優(yōu)特征子集。③接下來,測試數(shù)據(jù)集中樣本特征向量與訓(xùn)練數(shù)據(jù)集中每個類的樣本特征向量的乘積為P,再對P應(yīng)用平滑因子σ和指數(shù)因子exp進(jìn)行計(jì)算,然后再將P值求和。④最后,在決策層,P值最大者即為該測試樣本的分類結(jié)果。
3 實(shí)驗(yàn)結(jié)果及討論
3.1 基準(zhǔn)數(shù)據(jù)集
KDDCUP99數(shù)據(jù)集是一個被用來作為實(shí)驗(yàn)驗(yàn)證的標(biāo)準(zhǔn)的不均衡網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)集。它由500萬個網(wǎng)絡(luò)連接記錄組成,每個記錄都有42個屬性,其中41個屬性為基礎(chǔ)屬性,如表1所示,剩下的一個屬性為決策屬性,即標(biāo)記該條記錄是正?;蚴枪纛愋汀3苏?shù)據(jù)外,KDDCUP99數(shù)據(jù)集共有22種類型的攻擊,它們分為四大類:DOS,U2R,R2L,Probe,如表2所示。KDDCUP99數(shù)據(jù)集的各類樣本分布是不均衡的,如DOS攻擊是大量的,而U2R,R2L,Probe則相對較少[6][7]。正是該數(shù)據(jù)集的不均衡性,使它更適于本文所討論的問題。
3.2 實(shí)驗(yàn)過程
本文在i5處理器,Windows 7操作系統(tǒng)下,運(yùn)行MATLAB6.5實(shí)施算法HG AR-PNN。實(shí)驗(yàn)分為三個階段:①數(shù)據(jù)預(yù)處理;②訓(xùn)練樣本集和測試樣本集的準(zhǔn)備;③結(jié)果評價。
在初始階段,由于KDDCUP99數(shù)據(jù)集是十分龐大的,因此,我們隨機(jī)從中選取訓(xùn)練樣本和測試樣本。本文選取的訓(xùn)練樣本數(shù)和測試樣本數(shù)如表3所示。
在接下來的階段,我們先對樣本中的字符型屬性轉(zhuǎn)化為整數(shù)型屬性,再將每個樣本的41條基礎(chǔ)屬性做歸一化處理,即。最后,將HG AR-PNN的分類性能與已有的分類器(如隨機(jī)森林、貝葉斯、MLPNN、BPNN等)進(jìn)行比較,評價標(biāo)準(zhǔn)如下:
TP:表示實(shí)際上是攻擊,且被分類器正確識別為攻擊的樣本數(shù)。
TN:表示實(shí)際上是正常,且被分類器正確識別為正常的樣本數(shù)。
FP:表示實(shí)際上是攻擊,而被分類器錯誤識別為正常的樣本數(shù)。
FN:表示實(shí)際上是正常,而被分類器錯誤識別為攻擊的樣本數(shù)。
檢測率:
誤警率:
準(zhǔn)確率:
除了這些評價標(biāo)準(zhǔn)外,穩(wěn)定性也被認(rèn)為是評價IDS性能的重要標(biāo)準(zhǔn)之一[8],HG AR-PNN分類器的穩(wěn)定性是通過訓(xùn)練成功的樣本比例決定的。
穩(wěn)定性=
3.3 實(shí)驗(yàn)結(jié)果及討論
本文對基于超圖的特征選擇技術(shù)得到的特征向量歸一化算數(shù)取余處理,并用處理后的特征向量訓(xùn)練PNN分類器,最后,將HG AR-PNN與現(xiàn)有分類器的分類性能進(jìn)行了比較,如表4所示。
從實(shí)驗(yàn)結(jié)果分析,對于常見樣本來說,HG AR-PNN的性能與現(xiàn)有的其他分類器是類似的,如正常樣本、DOS、Probe等。而對于出現(xiàn)不頻繁的攻擊,如U2R、R2L等,HG AR-PNN的檢測率和準(zhǔn)確率都高于其他分類器,而誤警率也明顯偏低。HG AR-PNN不僅能夠更好地辨別特征之間的差異,還能為小樣本數(shù)據(jù)提供良好的分類性能。綜上所述,超圖的Helly性質(zhì)和對最優(yōu)特征子集進(jìn)行算數(shù)取余能夠提高PNN的分類性能,且對高維不平衡數(shù)據(jù)集依然有著良好的分類效果。
另外,HG AR-PNN在訓(xùn)練時間和穩(wěn)定性方面也優(yōu)于其他分類器,從表可知,HG AR-PNN的穩(wěn)定性高于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)分類器,雖然HG AR-PNN的訓(xùn)練時間比一些分類器的訓(xùn)練時間要長,但在現(xiàn)有的神經(jīng)網(wǎng)絡(luò)分類器中卻是訓(xùn)練時間最少的。因此,本文提出的HG AR-PNN分類器在保證良好的分類精度的前提下,有效地降低了時間復(fù)雜度和空間復(fù)雜度。
4 結(jié)論
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)信息安全成為一個極具挑戰(zhàn)性的研究領(lǐng)域。IDS作為網(wǎng)絡(luò)防御的一個重要角色,它對網(wǎng)絡(luò)中流量進(jìn)行實(shí)時監(jiān)視,以識別各種網(wǎng)絡(luò)安全漏洞。隨著機(jī)器學(xué)習(xí)技術(shù)的出現(xiàn),智能化和魯棒性IDS的研究不斷發(fā)展,而學(xué)習(xí)模型的性能取決于數(shù)據(jù)集的性質(zhì)和學(xué)習(xí)體系結(jié)構(gòu)的穩(wěn)定性。本文提出了基于超圖Helly性質(zhì)和算數(shù)取余概率神經(jīng)網(wǎng)絡(luò)的入侵檢測分類器模型。實(shí)驗(yàn)表明,HG AR-PNN相比現(xiàn)有分類器的優(yōu)勢在于它擁有較高的穩(wěn)定性,且對小樣本攻擊數(shù)據(jù)依然有較高的檢測率、準(zhǔn)確率和較低的誤警率。
參考文獻(xiàn):
[1]曹元大.入侵檢測技術(shù)[M].北京:人民郵電出版社,2007.
[2]郭春.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2014.
[3]沈夏炯,王龍,韓道軍.人工蜂群優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)在入侵檢測中的應(yīng)用[J].計(jì)算機(jī)工程,2016(02).
[4]王超杰.超圖理論算法研究及其在圖像分類中的應(yīng)用[D].廈門:廈門大學(xué),2014.
[5]SH Kang,KJ Kim.A feature selection approach to find optimal feature subsets for the network intrusion detection system[J].Cluster Computing,2016,19(1):1-9.
[6]呂銀均.基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)研究與實(shí)現(xiàn)[D].杭州:浙江工業(yè)大學(xué),2014.
[7]王翔,胡學(xué)鋼.高維小樣本分類問題中特征選擇研究綜述[J].計(jì)算機(jī)應(yīng)用,2017(09).
[8]MAM Hasan,M Nasser,B Pal,S Ahmad.Support Vector Machine and Random Forest Modeling for Intrusion Detection System (IDS)[J].Journal of Intelligent Learning Systems & Applications,2014,6(1):45-52.