燕昺昊,韓國棟
?
基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)和改進(jìn)SMOTE算法的組合式入侵檢測模型
燕昺昊,韓國棟
(國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
已有入侵檢測模型普遍只針對網(wǎng)絡(luò)入侵行為的靜態(tài)特征進(jìn)行分析檢測,造成檢測率低及誤報率高等缺陷,且無法有效應(yīng)用低頻攻擊。為此提出一種新的基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN)和區(qū)域自適應(yīng)合成過采樣算法(RA-SMOTE)的組合式入侵檢測模型(DRRS)。首先,RA-SMOTE對數(shù)據(jù)集中低頻攻擊樣本進(jìn)行自適應(yīng)區(qū)域劃分,實現(xiàn)差別樣本增量,從數(shù)據(jù)層面提升低頻攻擊樣本數(shù)量;其次,利用DRNN特有的層間反饋單元,完成多階段分類特征的時序積累學(xué)習(xí),同時多隱層網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)對原始數(shù)據(jù)分布的最優(yōu)非線性擬合;最后,使用訓(xùn)練好的DRRS模型完成入侵檢測。實驗結(jié)果表明,相比已有入侵檢測模型,DRRS在改善整體檢測效果的同時顯著提高了低頻攻擊檢測率,且對未知新型攻擊具有一定檢出率,適用于實際網(wǎng)絡(luò)環(huán)境。
網(wǎng)絡(luò)安全;深度學(xué)習(xí);入侵檢測;循環(huán)神經(jīng)網(wǎng)絡(luò);過采樣算法
隨著互聯(lián)網(wǎng)應(yīng)用不斷向移動端擴展,網(wǎng)絡(luò)智能技術(shù)已服務(wù)于各行各業(yè)。但同時針對網(wǎng)絡(luò)發(fā)動的攻擊愈加頻繁,據(jù)國家互聯(lián)網(wǎng)應(yīng)急中心[1]統(tǒng)計,僅2017年7月,我國境內(nèi)便發(fā)生3 000余起針對銀行、民航以及通信等重點服務(wù)領(lǐng)域的漏洞攻擊事件,網(wǎng)絡(luò)安全的重要性愈發(fā)凸顯。入侵檢測技術(shù)作為網(wǎng)絡(luò)主動防御技術(shù)之一,其性能優(yōu)劣直接決定受保護(hù)設(shè)備及領(lǐng)域的安全程度。
入侵檢測技術(shù)根據(jù)其檢測方式的差異,可分為誤用檢測和異常檢測。誤用檢測通過維護(hù)特定的規(guī)則庫,基于特征匹配實現(xiàn)對已知攻擊行為的檢測,檢測速度快且準(zhǔn)確度高,但其檢測性能依賴于規(guī)則庫大小及更新頻率,且無法檢測未知攻擊。異常檢測則通過對網(wǎng)絡(luò)數(shù)據(jù)記錄進(jìn)行分析,建立系統(tǒng)正常行為模型,將任何偏離模型正常值的異常行為標(biāo)記為攻擊行為。異常檢測優(yōu)點在于可檢測出未知攻擊,但存在誤報率較高等缺陷。隨著人工智能技術(shù)的興起,基于機器學(xué)習(xí)的入侵檢測技術(shù),如神經(jīng)網(wǎng)絡(luò)[2]、支持向量機(SVM, support vector machine)[3]、仿生算法[4]等,成為領(lǐng)域研究熱點。機器學(xué)習(xí)模型將檢測問題轉(zhuǎn)化為分類問題,通過大量原始數(shù)據(jù)樣本訓(xùn)練,自適應(yīng)學(xué)習(xí)正常行為與異常行為之間的差異,避免復(fù)雜的人工干預(yù)及領(lǐng)域?qū)<抑R,有效增強了入侵處理實時性。但傳統(tǒng)的機器學(xué)習(xí)模型仍存在以下問題。
1) 低頻攻擊檢測困難。機器學(xué)習(xí)模型通常以最大化整體分類精確度為目標(biāo),低頻攻擊由于實際樣本數(shù)量稀少,分類特征難以捕捉,故對模型無法形成有效訓(xùn)練,導(dǎo)致低頻攻擊檢測難度大且檢測率低。
2) 模型擬合能力差。傳統(tǒng)機器學(xué)習(xí)模型結(jié)構(gòu)簡單,特征提取及學(xué)習(xí)能力有限,僅對小批量數(shù)據(jù)具有良好的擬合效果,當(dāng)面臨大規(guī)模數(shù)據(jù)集時無法對數(shù)據(jù)分布形成有效的非線性映射。
3) 動態(tài)特性不足。已有機器學(xué)習(xí)模型普遍忽視入侵事件之間的關(guān)聯(lián)性,即假定入侵行為之間具有獨立不相關(guān)性并據(jù)此進(jìn)行建模,造成模型缺乏必要的動態(tài)特性,檢測率偏低,同時對于未知攻擊無法形成有效檢測[5]。
針對存在問題,文獻(xiàn)[6]將合成過采樣算法(SMOTE, synthetic minority oversampling technique algorithm)與最近鄰聚類算法(CCNN, cluster center and nearest neighbor)結(jié)合進(jìn)行入侵檢測,同時引入特征選擇機制,從數(shù)據(jù)層面提高了低頻樣本檢測率。文獻(xiàn)[7]則從算法層面出發(fā),提出了一種新的基于支持向量機和遺傳規(guī)劃(GP, genetic programming)的組合式GPSVM分類器,同樣對低頻樣本取得不錯的檢測效果。文獻(xiàn)[8-9]分別利用基于深度學(xué)習(xí)理論的自編碼網(wǎng)絡(luò)(AEN, auto encoder network)和深度神經(jīng)網(wǎng)絡(luò)(DNN, deep neural network)中多隱層結(jié)構(gòu),有效實現(xiàn)了輸入特征提取與模型非線性映射,提高檢測速率的同時對未知攻擊具有一定檢出效果。但上述解決方法并未考慮入侵行為之間存在時序維度上的關(guān)聯(lián)性。文獻(xiàn)[10]采用基于樣本序列分析的層次化隱馬爾可夫模型(LHMM, layered hidden markov model),根據(jù)輸入不同,該模型更新狀態(tài)概率分布值并計算轉(zhuǎn)移概率,實現(xiàn)時序狀態(tài)預(yù)測并最終完成入侵檢測。但模型更新過程需要對每一項輸入計算其多個概率分布值,且需要特定算法來實現(xiàn)特征維度縮減,復(fù)雜度較高。
為解決上述問題,本文提出一種基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN, deep recurrent neural network)和區(qū)域自適應(yīng)合成過采樣算法(RA-SMOTE, region adaptive SMOTE)的組合式入侵檢測模型DRRS。首先,利用RA-SMOTE算法對已有非平衡數(shù)據(jù)集中低頻樣本實現(xiàn)增量處理與時序注入。其次,在新數(shù)據(jù)集上對DRNN網(wǎng)絡(luò)進(jìn)行時序權(quán)重訓(xùn)練,直到網(wǎng)絡(luò)穩(wěn)定且誤差達(dá)到預(yù)定要求。最后,使用訓(xùn)練好的DRNN完成入侵檢測,同時將檢測出的低頻攻擊樣本返回低頻樣本處理單元進(jìn)行再處理,輸入網(wǎng)絡(luò)進(jìn)行權(quán)值再調(diào)優(yōu),增強模型穩(wěn)定性與頑健性。
與已有方法相比,本文所提模型優(yōu)勢如下。首先,RA-SMOTE算法解決了低頻攻擊檢測率較低的問題,且其特有的自適應(yīng)性可以更高效地合成新樣本,加速后續(xù)模型訓(xùn)練過程;其次,DRNN特有的時序循環(huán)結(jié)構(gòu)可充分挖掘并利用樣本之間的時序相關(guān)性實現(xiàn)入侵檢測,同時多隱層網(wǎng)絡(luò)結(jié)構(gòu)提升模型數(shù)據(jù)刻畫能力,提升模型檢測性能。仿真結(jié)果驗證了模型有效性,適用于實際網(wǎng)絡(luò)。
DRRS入侵檢測模型主要由低頻樣本處理單元和時序?qū)W習(xí)單元組成,其中,低頻樣本處理單元基于改進(jìn)后的區(qū)域自適應(yīng)合成過采樣算法(RA-SMOTE)實現(xiàn),完成對低頻樣本的過采樣增量處理;時序?qū)W習(xí)單元基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN)實現(xiàn),完成對輸入樣本的時序積累建模與異常檢測。
盡管當(dāng)前網(wǎng)絡(luò)攻擊常有發(fā)生且出現(xiàn)日益增長的趨勢,但相比網(wǎng)絡(luò)中存在的海量正常數(shù)據(jù),其數(shù)量依然微乎其微。因此,由于攻擊數(shù)據(jù)流或行為樣本與正常數(shù)據(jù)流量相比處于低頻范疇,導(dǎo)致其分類特征難以捕捉與記錄,從而進(jìn)一步造成機器學(xué)習(xí)模型無法對攻擊樣本建立準(zhǔn)確的檢測模型并實現(xiàn)有效的訓(xùn)練;另外,大多數(shù)機器學(xué)習(xí)模型及算法以最大化樣本整體分類準(zhǔn)確率為目的,致使低頻攻擊樣本在訓(xùn)練及分類過程中被忽視,進(jìn)而導(dǎo)致訓(xùn)練完成的模型具有明顯的分類偏向性,在實際應(yīng)用中產(chǎn)生錯誤檢測結(jié)果。本文基于已有的非平衡數(shù)據(jù)處理方式進(jìn)行改進(jìn),提出新的區(qū)域自適應(yīng)合成過采樣算法,主要分為低頻樣本增量與新樣本時序關(guān)系處理2個步驟。
2.1.1 低頻樣本增量
根據(jù)處理層面不同,低頻樣本處理方法可分為算法層面和數(shù)據(jù)層面。算法層面方法主要通過為分類決策函數(shù)添加調(diào)控系數(shù)或懲罰因子,使低頻樣本具有更高分類權(quán)值,提高檢測率。相比算法層面,數(shù)據(jù)層面處理方法復(fù)雜度更低,應(yīng)用更為廣泛。數(shù)據(jù)層面方法主要包括過采樣方式和減采樣方式,但傳統(tǒng)的過采樣方式只是對已有數(shù)據(jù)樣本的簡單重復(fù)復(fù)制,造成特征多樣性不足;而減采樣通過對高頻樣本抽樣,易損失樣本內(nèi)在特性。
針對上述問題,文獻(xiàn)[11]提出SMOTE算法,通過在已知低頻樣本與其最近鄰之間隨機線性插值,實現(xiàn)樣本增量的同時有效解決特征不足的問題。但SMOTE算法并未考慮樣本分布邊緣化及離群點處理等問題,同時對所有低頻樣本采用統(tǒng)一增量方法,造成部分計算資源浪費且分類效果較差。為此,本文提出了改進(jìn)的RA-SMOTE算法。首先,設(shè)置低頻樣本最近鄰半徑,半徑大小用最近鄰樣本個數(shù)表示。其次,根據(jù)半徑內(nèi)所包含的高頻樣本數(shù)量的差異,將低頻攻擊樣本劃分為不同區(qū)域集合,包括離群點域(IPR, independence point region)、安全點域(SPR, safety point region)和危險點域(DPR, danger point region)。區(qū)域不同表示分類難度不同,因此對不同區(qū)域內(nèi)低頻樣本采用不同的樣本增量方式,在保證分類準(zhǔn)確度的前提下,減少了樣本增加數(shù)量,從而降低后續(xù)DRNN訓(xùn)練量及訓(xùn)練時間。RA-SMOTE算法樣本增量過程偽代碼如下所示。
算法 RA-SMOTE算法樣本增量過程
13) End If
14) End If
15) End For
2.1.2 新樣本時序關(guān)系處理
DRNN中訓(xùn)練樣本需根據(jù)時序特征串行輸入,使網(wǎng)絡(luò)可以學(xué)習(xí)并記憶樣本間時序連接關(guān)系。而RA-SMOTE算法生成新樣本為隨機模擬樣本,樣本間不存在特定時序關(guān)系。因此,為使新樣本適用于DRNN,需要對新樣本進(jìn)行時序添加。首先進(jìn)行如下定義。
因此時序添加過程表示為
2.2.1 深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)是指區(qū)別于傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)三層架構(gòu)的、具有多隱層的人工神經(jīng)網(wǎng)絡(luò)(ANN, artificial neural network)。對于人工神經(jīng)網(wǎng)絡(luò)的研究最早可追溯至20世紀(jì)40年代,但由于硬件水平受限且無法克服多層結(jié)構(gòu)帶來的大數(shù)據(jù)量與高維參數(shù)訓(xùn)練等問題,ANN一直處于淺層階段。2006年,Hinton等[12]在《Science》上發(fā)表著作,重新掀起了DNN研究浪潮。文章指出,DNN特有的多隱層架構(gòu)具有出眾的非線性學(xué)習(xí)能力與特征表達(dá)能力,可有效提高神經(jīng)網(wǎng)絡(luò)分類結(jié)果。同時Hinton等提出分層預(yù)訓(xùn)練與微調(diào)機制,很好地解決了DNN訓(xùn)練缺陷。
DNN通常包括輸入層、輸出層及三層以上隱層,如圖1所示。DNN中各節(jié)點表示網(wǎng)絡(luò)激活函數(shù),連接權(quán)值表示信息傳遞激勵強度。各層神經(jīng)元之間為全連接或稀疏連接狀態(tài),并在學(xué)習(xí)過程中不斷調(diào)整連接權(quán)值使網(wǎng)絡(luò)收斂,存儲數(shù)據(jù)分布特征。輸入層完成預(yù)處理數(shù)據(jù)的讀取,多隱層架構(gòu)實現(xiàn)對輸入向量的逐層特征提取與樣本學(xué)習(xí),輸出層則根據(jù)需求完成回歸或分類任務(wù)。
2.2.2 深度循環(huán)神經(jīng)網(wǎng)絡(luò)
雖然DNN在分類與特征提取方面突破淺層網(wǎng)絡(luò)限制,擁有極強的非線性模擬能力,但主流DNN架構(gòu)并未考慮分類樣本之間存在的時序連接關(guān)系,造成部分關(guān)聯(lián)信息損失。近年來,結(jié)合深度學(xué)習(xí)理論的循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN)在圖像目標(biāo)提取[13]、語音識別[14]、機器翻譯[15]中都取得不錯效果。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, recurrent neural network)思想起源于Jordan等[16]提出的連接序列機,通過在神經(jīng)網(wǎng)絡(luò)中引入自反饋神經(jīng)元,使網(wǎng)絡(luò)對輸入數(shù)據(jù)產(chǎn)生記憶功能,充分挖掘樣本之間存在的相關(guān)性特征。文獻(xiàn)[17]曾捕獲3年內(nèi)某城市主干網(wǎng)絡(luò)中入侵事件并進(jìn)行統(tǒng)計,發(fā)現(xiàn)不同入侵行為具有明顯的時間分布特性,且同一入侵行為也具有持續(xù)性等特點,如拒絕服務(wù)攻擊(DoS, denial of service),攻擊者在短時間內(nèi)反復(fù)高頻地發(fā)送服務(wù)請求,占用大量網(wǎng)絡(luò)帶寬資源,造成用戶合法請求無法完成。針對此類攻擊,利用已有事件與當(dāng)前事件之間時序相關(guān)性進(jìn)行入侵檢測及預(yù)測至關(guān)重要。
(2)
一般無初始值情況下
圖2 RNN結(jié)構(gòu)示意
輸出層為全連接層,利用Softmax函數(shù)實現(xiàn)特征向量到類別概率分布的轉(zhuǎn)化,為偏置向量。
此時
本文使用實時循環(huán)學(xué)習(xí)(RTRL,real-time recurrent learning)算法對DRNN連接權(quán)重進(jìn)行調(diào)優(yōu)。RTRL通過梯度信息前向傳播,保證模型學(xué)習(xí)與調(diào)優(yōu)過程同步進(jìn)行,同時避免了傳統(tǒng)反向梯度傳播算法在深層網(wǎng)絡(luò)訓(xùn)練時面臨的梯度消失和梯度爆炸問題。
圖3 DRNN結(jié)構(gòu)示意
DRNN損失函數(shù)為所有時刻損失函數(shù)之和。
式(11)更新為
本文實驗流程如圖4所示,首先對實驗所用入侵檢測標(biāo)準(zhǔn)NSL-KDD數(shù)據(jù)集(見3.1節(jié))進(jìn)行數(shù)據(jù)預(yù)處理(見3.2節(jié)),包括特征數(shù)值化和歸一化兩項過程。同時為簡化實驗過程,對原始數(shù)據(jù)及進(jìn)行隨機獨立抽樣組成多個新數(shù)據(jù)集,并分為訓(xùn)練集和測試集。其次,對訓(xùn)練集完成低頻樣本增量與時序注入過程,形成新的訓(xùn)練數(shù)據(jù)集并使用新數(shù)據(jù)集對時序網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練調(diào)優(yōu),獲取最優(yōu)參數(shù)網(wǎng)絡(luò)模型。測試集則用于驗證最終實驗結(jié)果有效性。實驗中對每個數(shù)據(jù)集上進(jìn)行多次獨立重復(fù)實驗,且測試集之間交叉驗證,以保證結(jié)果無偏性,最終實驗結(jié)果取每個數(shù)據(jù)集上檢測結(jié)果之和的平均值。
圖4 DRRS入侵檢測實驗流程
本文實驗基于入侵檢測標(biāo)準(zhǔn)NSL-KDD[18]數(shù)據(jù)集仿真實現(xiàn)。NSL-KDD數(shù)據(jù)集改進(jìn)于KDD 99數(shù)據(jù)集,KDD 99數(shù)據(jù)集模擬了美國空軍局域網(wǎng)環(huán)境,但其中包含過多冗余數(shù)據(jù),增加計算負(fù)擔(dān)的同時會對分類結(jié)果造成誤導(dǎo),因此NSL-KDD數(shù)據(jù)集更適用于仿真實驗。
NSL-KDD訓(xùn)練集和測試集分別包含125 973和22 543條連接記錄,其中主要包括4種類型的攻擊:拒絕服務(wù)攻擊,端口漏洞掃描攻擊(Probing)、遠(yuǎn)程控制攻擊(R2L, remote to local)、越權(quán)訪問攻擊(U2R, user to root),具體分布如表1所示。4種攻擊類別具體又可分為37種不同攻擊,訓(xùn)練集包含21種,測試集包含37種,其中有16種新型攻擊未出現(xiàn)在訓(xùn)練集中。
表1 NSL-KDD數(shù)據(jù)類型分布
NSL-KDD數(shù)據(jù)集中每一條連接記錄都由41種分類特征組成,其中包括3種符號型特征,10種0-1型特征,15種百分比型特征和13種十進(jìn)制型特征。通過分析數(shù)據(jù)集,發(fā)現(xiàn)特征Num_ outbound_cmds數(shù)值全部為0,故將此特征移除,因此可用特征共40種。數(shù)據(jù)預(yù)處理過程分為兩步:特征數(shù)值化和數(shù)值歸一化,具體過程如下所示。
1) 特征數(shù)值化
特征數(shù)值化主要針對Protocol_type、Service和Flag這3種符號型特征,本文將其映射為二進(jìn)制值。以Protocol_type特征為例,其包括TCP、UDP、ICMP 這3種協(xié)議類型,可分別映射為(0,0,1),(0,1,0),(1,0,0)。同理,Service和Flag分別包括70種和11種符號,因此數(shù)值化完成后數(shù)據(jù)集特征維度增加至121維。除此以外,攻擊類別標(biāo)簽同樣需要數(shù)值化,方法同理,不再贅述。
2) 數(shù)值歸一化
為簡化實驗過程,對訓(xùn)練集和測試集隨機獨立抽樣組成多個新數(shù)據(jù)集,如表2所示,并保留抽取樣本在原數(shù)據(jù)集上時序排列關(guān)系。由于原始訓(xùn)練集中U2R樣本數(shù)量稀少,全部保留到新數(shù)據(jù)集中不進(jìn)行抽樣。每個新數(shù)據(jù)集上進(jìn)行多次獨立重復(fù)試驗,且測試集之間交叉驗證,以保證結(jié)果無偏性,最終實驗結(jié)果取每個數(shù)據(jù)集結(jié)果之和的平均值。
表2 實驗數(shù)據(jù)集
本文實驗使用計算機硬件配置為Inter Core i7-7700四核處理器,8 GB內(nèi)存,256 GB固態(tài)硬盤。操作系統(tǒng)為64位Windows 10系統(tǒng)。其中,RA-SMOTE算法基于R語言編程實現(xiàn),DRNN基于Google開源深度學(xué)習(xí)框架TensorFlow實現(xiàn),編程語言為python。
DRRS模型主要的參數(shù)變量包括RA-SMOTE算法中最近鄰半徑和樣本合成過采樣率,DRNN結(jié)構(gòu)層數(shù)和隱層單元數(shù),RTRL算法中權(quán)重更新學(xué)習(xí)率等。變量參數(shù)值如表3所示,具體參數(shù)選擇過程見4.1節(jié)。
表3 實驗變量參數(shù)值
實驗所用評價指標(biāo)基于混淆矩陣表示,包括正確率(ACC, accuracy rate),精確率(PRE, precision),虛警率(FAR,false alarm rate),具體定義如式(16)~式(18)所示。TP(true positive)表示分類正確的正類樣本數(shù),F(xiàn)P(false positive)表示分類錯誤的正類樣本數(shù),TN(true negative)表示分類正確的負(fù)類樣本數(shù),F(xiàn)N(false negative)表示分類錯誤的負(fù)類樣本數(shù)。
實驗仿真驗證過程分為2個部分:4.1節(jié)采用控制變量法對DRRS模型算法最優(yōu)參數(shù)進(jìn)行測定,探究RA-SMOTE算法最近鄰半徑、采樣率、DRNN層數(shù)及隱層神經(jīng)元數(shù)對模型最終檢測結(jié)果的影響,并選出最優(yōu)參數(shù),構(gòu)建最優(yōu)參數(shù)模型;4.2節(jié)則采用4.1節(jié)測定的最優(yōu)參數(shù)構(gòu)建DRRS模型,并在整體正確率、虛警率、訓(xùn)練及測試時間等方面與已有入侵檢測法進(jìn)行對比實驗,驗證本文模型有效性。
1) RA-SMOTE算法最近鄰半徑的影響
RA-SMOTE算法樣本增量過程需要對每個低頻攻擊樣本劃定最近鄰半徑,根據(jù)半徑內(nèi)高頻樣本數(shù)量差異,選擇不同增量方式。因此最近鄰半徑的大小將影響樣本區(qū)域劃分,進(jìn)而改變樣本增量方式。半徑過大,高頻樣本比例升高,可能導(dǎo)致原本屬于SPR區(qū)域集合內(nèi)的低頻樣本被劃分為DPR區(qū)域集合,從而合成不必要的新樣本,造成虛警率上升;反之,半徑過小將導(dǎo)致DPR區(qū)域集合內(nèi)低頻樣本點劃分為SPR區(qū)域集合,無法有效合成新樣本。
實驗中對最近鄰半徑取值在[0,100]范圍內(nèi)的模型檢測正確率及虛警率進(jìn)行統(tǒng)計,結(jié)果如圖5所示,可知當(dāng)最近鄰半徑取值范圍在[50,60]內(nèi)時,檢測正確率達(dá)到平穩(wěn),此后不再顯著增加,且最近鄰半徑大于60時,虛警率逐漸增加,因此綜合考慮,取最近鄰半徑55為最優(yōu)值。
圖5 最近鄰半徑對模型性能指標(biāo)的影響
2) RA-SMOTE算法采樣率的影響
模型檢測結(jié)果同樣受到RA-SMOTE算法采樣率的影響:采樣率過低將導(dǎo)致新生成樣本數(shù)量不足,影響后續(xù)DRNN對樣本特征的學(xué)習(xí);采樣率過高則造成樣本數(shù)量上的浪費。圖6為檢測率百分比在[100,1 000]范圍內(nèi)取100整數(shù)倍時的模型檢測正確率及虛警率。由實驗結(jié)果可知,當(dāng)采樣率為600%時,正確率及虛警率處于綜合最佳狀態(tài)。百分比繼續(xù)升高,正確率與虛警率無明顯改善,表明此時新生成的樣本屬于過量樣本。
3) DRNN層數(shù)及隱層單元數(shù)的影響
DRNN模型層數(shù)及隱層單元數(shù)對模型檢測正確率等指標(biāo)具有重要影響。已有研究表明,深層網(wǎng)絡(luò)結(jié)構(gòu)模型層數(shù)及隱層單元數(shù)越多,模型對于數(shù)據(jù)的非線性擬合能力越強。同時深層結(jié)構(gòu)更有利于實現(xiàn)原始高維分類特征向其低維表示的抽象轉(zhuǎn)化,加速后續(xù)分類過程。但模型層數(shù)及隱層單元數(shù)過多,將導(dǎo)致訓(xùn)練時間急劇增加,網(wǎng)絡(luò)連接權(quán)重調(diào)優(yōu)過程復(fù)雜度升高,模型難以收斂。因此如何在模型結(jié)構(gòu)與復(fù)雜度之間找到平衡點至關(guān)重要。
實驗通過對已有文獻(xiàn)中深層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行統(tǒng)計,選擇其中5種不同模型結(jié)構(gòu)進(jìn)行實驗,獲取最優(yōu)結(jié)構(gòu)。模型結(jié)構(gòu)分別為RNN2(121-5,二層),RNN3(121-60-5,三層),RNN4(121-90-45-5,四層),RNN5(121-100-65-35-5,五層),RNN6(121-110-80-55-30-5,六層)。實驗結(jié)果如圖7和圖8所示,由圖可知模型層數(shù)到達(dá)五層時檢測正確率已達(dá)99%以上,且繼續(xù)增加層數(shù)正確率無明顯提升,而此時模型訓(xùn)練時間和測試時間隨著層數(shù)增加,增長率不斷升高,呈非線性增長趨勢,因此[121-100-65-35-5]五層結(jié)構(gòu)適用于本文DRRS入侵檢測模型。
圖6 采樣率對模型性能指標(biāo)的影響
圖7 RNN結(jié)構(gòu)對模型性能指標(biāo)的影響
圖8 RNN結(jié)構(gòu)對模型訓(xùn)練測試時間的影響
在4.1節(jié)最優(yōu)參數(shù)選擇實驗的基礎(chǔ)上,采用選擇出的最優(yōu)參數(shù)建立檢測模型并與已有入侵檢測算法在PRE、FAR等參數(shù)方面進(jìn)行實驗對比,驗證本文所提出的DRRS模型的有效性。
1) 表4為RA-SMOTE算法有效性的對比驗證實驗。分別在對原始數(shù)據(jù)集不采用過采樣算法、采用SMOTE算法和采用RA-SMOTE算法的基礎(chǔ)上訓(xùn)練DRNN模型并進(jìn)行驗證。從表中可以看出,對于Normal、DoS和Probing這3類高頻樣本集合,3種DRNN模型在檢測精確率與虛警率指標(biāo)上并無過大差異。然而對于R2L和U2L低頻樣本集合,過采樣算法的使用對檢測精確度的提升和虛警率的抑制都起到了明顯的效果。雖然相比于單獨DRNN模型,SMOTE算法和RA-SMOTE算法時間消耗分別增長了20.90%和9.33%,但由此換來的性能改善是值得的。更進(jìn)一步地,RA-SMOTE算法比SMOTE算法對模型訓(xùn)練時間的影響縮短了9.29%,表明RA-SMOTE算法以更高效的方式合成了訓(xùn)練所需的新樣本。
表4 過采樣算法實驗性能對比
2) 本文選擇已有文獻(xiàn)中提出的6種入侵檢測模型與DRRS進(jìn)行對比實驗[3,5,7-10],檢測指標(biāo)包括整體正確率與虛警率,結(jié)果如圖9和圖10所示。由結(jié)果可知,在整體檢測正確率方面,DRRS模型實驗結(jié)果優(yōu)于其他檢測模型,說明DRRS模型充分挖掘出了樣本集數(shù)據(jù)之間存在的時序關(guān)系,并對其進(jìn)行了有效的學(xué)習(xí)訓(xùn)練,從而提高了模型整體檢測正確率。在整體虛警率指標(biāo)上,DRRS模型同樣獲得了不錯的效果,僅略高于文獻(xiàn)[3]中提出的CHI-SVM模型。
圖9 不同檢測模型整體正確率對比
圖10 不同檢測模型整體虛警率對比
3) 不同入侵檢測模型在5種樣本類型上的單項檢測精確度對比結(jié)果如表5所示。對于Normal、DoS和Probing這3類高頻樣本,DRRS模型檢測精確度與已有模型基本持平,表明本文模型對于高頻樣本檢測精確度已達(dá)到平均標(biāo)準(zhǔn),滿足預(yù)期要求。對于R2L和U2L兩類低頻攻擊樣本,DRRS模型檢測精確度優(yōu)勢明顯,除U2L檢測精確度略低于CHI-SVM模型外,均高于其余模型精確度。
表5 不同檢測模型單項檢測精確度對比
綜合上述各項實驗結(jié)果,說明本文提出的DRRS模型不僅可以有效處理低頻攻擊樣本檢測率低的問題,且RA-SMOTE算法以更小的時間代價實現(xiàn)了樣本增量過程。同時DRRS模型在整體檢測正確率及虛警率等指標(biāo)上均取得不錯的效果,對于測試數(shù)據(jù)集中存在的未知攻擊樣本同樣具有檢出能力。
傳統(tǒng)入侵檢測模型無法有效處理低頻攻擊樣本,且模型構(gòu)建過程未考慮樣本間時序關(guān)系。本文提出了一種新的基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)和區(qū)域自適應(yīng)合成過采樣算法的組合式入侵檢測模型DRRS。首先,DRRS利用RA-SMOTE算法自適應(yīng)的對低頻樣本實現(xiàn)樣本增量及時序注入過程,以更少的時間消耗改善了原始數(shù)據(jù)集中數(shù)據(jù)非平衡分布狀況。然后,利用DRNN模型特有的內(nèi)部循環(huán)結(jié)構(gòu),完成對新樣本集的時序積累學(xué)習(xí)與檢測。在NSL-KDD數(shù)據(jù)集上,實驗結(jié)果表明本文提出的DRRS模型有效解決了上述問題,且各項指標(biāo)均優(yōu)于已有入侵檢測模型,對于模型復(fù)雜度需求較低的輕量級入侵檢測模型具有很好的實用性,適用于實際網(wǎng)絡(luò)環(huán)境,為入侵檢測問題提出了新的研究思路。
[1] 國家互聯(lián)網(wǎng)應(yīng)急中心. 2017年7月我國互聯(lián)網(wǎng)安全威脅報告[R]. 2017.
National Internet Emergency Center. The report of China’s Internet security threat in July[R]. 2017.
[2] LEI Y, LIU J, YIN H. Intrusion detection techniques based on improved intuitionist fuzzy neural networks[J]. Applied Mechanics & Materials, 2014, 713-715(1): 2507-2510.
[3] THASEEN I S, KUMAR C A. Intrusion detection model using fusion of chi-square feature selection and multi class SVM[J]. Journal of King Saud University-Computer and Information Sciences, 2016, 29(4):462-472.
[4] DASTANPOUR A, IBRAHIM S, MASHINCHI R. Comparison of genetic algorithm optimization on artificial neural network and support vector machine in intrusion detection system[C]//IEEE International Conference on Open Systems, 2014: 72-77.
[5] ABDLHAMED M, KIFAYAT K, SHI Q. Intrusion prediction systems[J]. Information Fusion for Cyber-Security Analytics, 2017, 69(1): 155-174.
[6] PARSAEI M, ROSTAMI S, JAVIDAN R. A hybrid data mining approach for intrusion detection on imbalanced NSL-KDD dataset[J]. International Journal of Advanced Computer Science and Applications, 2016, 7(6): 20-25.
[7] POZI M, SULAIMAN M, MUSTAPHA N. Improving anomalous rare sttack detection rate for intrusion detection system using support vector machine and genetic programming[J]. Neural Processing Letters, 2016, 44(2): 279-290.
[8] 高妮, 高嶺, 賀毅岳. 基于自編碼網(wǎng)絡(luò)特征降維的輕量級入侵檢測模型[J]. 電子學(xué)報, 2017, 45(3):730-739.
GAO N, GAO L, HE Y Y. A lightweight intrusion detection model based on autoencoder network with feature reduction[J]. Acta Electronica Sinica, 2017, 45(3): 730-739.
[9] DIRO A, CHILAMKURTI N. Distributed attack detection scheme using deep learning approach for Internet of Things[J]. Future Generation Computer Systems, 2018, 82(1):761-768.
[10] CHINCHORE R, SAMBARE S. Intrusion detection system by layered approach and hidden Markov model[J]. International Journal of Computer Application, 2015, 5(2):7-14.
[11] CHAWLA NV, BOWYER KW, HALL LO, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1):321-357.
[12] HINTON G, SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(28): 504-507.
[13] 徐彬, 陳渤, 劉宏偉. 基于注意循環(huán)神經(jīng)網(wǎng)絡(luò)模型的雷達(dá)高分辨率距離像目標(biāo)識別[J]. 電子與信息學(xué)報, 2016, 38(12): 2988-2995.
XU B, CHEN B, LIU H W. Attention-based recurrent neural network model for radar high-resolution range prfile target recognition[J]//Journal of Electronics & Information Technology, 2016, 38(12): 2988-2995.
[14] THANDA A, VENKATESAN S M. Audio visual speech recognition using deep recurrent neural networks[C]. IAPR Workshop on Multimodal Pattern Recognition of Social Signals in Human-Computer Interaction, 2016: 98-109.
[15] GUAMAN F, JOTY S, MARQUEZ L, et al. Machine translation evaluation with neural networks[J]. Computer Speech & Language, 2017, 45(1): 180-200.
[16] JORDAN MI. Attractor dynamics and parallelism in connectionist sequential machine[C]//Eighth Conference of the Cognitive Science Society, 1986:531-546.
[17] SONG J, TAKAKURA H, OKABE Y. Statistical analysis of honeypot data and building of Kyoto 2006+ dataset for NIDS evaluation[C]//The Workshop on Building Analysis Datasets & Gathering Experience Returns for Security. 2011:29-36.
[18] TAVALLAEE M, BAGHERI E, LU W. A detailed analysis of the KDD CUP 99 data set[C]//IEEE International Conference on Computational Intelligence for Security and Defense Applications. 2009:53-58.
Combinatorial intrusion detection model based on deep recurrent neural network and improved SMOTE algorithm
YAN Binghao, HAN Guodong
National Digital Switching System Engineering and Technological Research Center, Zhengzhou 450002, China
Existing intrusion detection models generally only analyze the static characteristics of network intrusion actions, resulting in low detection rate and high false positive rate, and cannot effectively detect low-frequency attacks. Therefore, a novel combinatorial intrusion detection model (DRRS) based on deep recurrent neural network (DRNN) and region adaptive synthetic minority oversampling technique algorithm (RA-SMOTE) was proposed. Firstly, RA-SMOTE divided the low frequency attack samples into different regions adaptively and improved the number of low-frequency attack samples with different methods from the data level. Secondly, the multi-stage classification features were learned by using the level feedback units in DRNN, at the same time, the multi-layer network structure achieved the optimal non-linear fitting of the original data distribution. Finally, the intrusion detection was completed by trained DRRS. The empirical results show that compared with the traditional intrusion detection models, DRRS significantly improves the detection rate of low-frequency attacks and overall detection efficiency. Besides, DRRS has a certain detection rate for unknown new attacks. So DRRS model is effective and suitable for the actual network environment.
network security, deep learning, intrusion detection, DRNN, oversampling algorithm
TP393.08
A
10.11959/j.issn.2096-109x.2018056
燕昺昊(1994-),男,山西呂梁人,國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心碩士生,主要研究方向為機器學(xué)習(xí)、入侵檢測、網(wǎng)絡(luò)安全。
韓國棟(1964-),男,山東萊西人,博士,國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心副教授、碩士生導(dǎo)師,主要研究方向為寬帶信息處理、信息安全、芯片設(shè)計技術(shù)。
2018-06-13;
2018-07-05
燕昺昊,ndscybh@qq.com
國家科技重大專項基金資助項目(No.2016ZX01012101);國家自然科學(xué)基金資助項目(No.61572520);國家自然科學(xué)基金創(chuàng)新群體資助項目(No.61521003)
The National Science Technology Major Project of China (No.2016ZX01012101),The National Natural Science Foundation Project of China (No.61572520),The National Natural Science Foundation Innovation Group Project of China (No.61521003)