武洋名, 宗學(xué)軍*, 何戡
(1.沈陽化工大學(xué)信息工程學(xué)院, 沈陽 110142; 2.遼寧省工業(yè)信息安全重點(diǎn)實(shí)驗(yàn)室, 沈陽 110142)
工業(yè)入侵檢測系統(tǒng)(industrial intrusion detection system,IDS)作為一項(xiàng)工業(yè)控制系統(tǒng)(industrial control system,ICS)的安全保護(hù)關(guān)鍵技術(shù)成了研發(fā)熱門。現(xiàn)如今,工業(yè)控制系統(tǒng)的網(wǎng)絡(luò)安全關(guān)系到智能移動(dòng)、智能電網(wǎng)、水處理、軍事、冶金等各個(gè)行業(yè)。例如,在2021年美國輸油管道公司遭到勒索軟件攻擊導(dǎo)致其被迫關(guān)閉關(guān)管道運(yùn)營數(shù)天極大影響美國東南海岸燃油供給;2017年12月工控惡意軟件“TRITON”導(dǎo)致工廠停運(yùn)數(shù)周、污水處理廠遭非法入侵導(dǎo)致污水直接排入大自然等安全事件頻頻發(fā)生,工控系統(tǒng)面臨的安全問題日益嚴(yán)峻[1]。
近期人工智能技術(shù)在各個(gè)領(lǐng)域得到了廣泛應(yīng)用,大量研究人員對(duì)深度學(xué)習(xí)算法在工業(yè)入侵檢測領(lǐng)域中的應(yīng)用展開了研究。尚文利等[2]提出長短期記憶神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)檢測模型。柳毅等[3]提出了堆稀疏自編碼的lightGBM二叉樹的入侵檢測算法。商富博等[4]提出了一種將網(wǎng)絡(luò)流量數(shù)據(jù)轉(zhuǎn)化為圖像數(shù)據(jù)后使用DSCNN-BiLSTM的方法進(jìn)行驗(yàn)證。
隨著大數(shù)據(jù)時(shí)代的到來,現(xiàn)有的深度學(xué)習(xí)算法難以解決大量數(shù)據(jù)的多分類問題。并且大量高維度數(shù)據(jù)不斷涌入導(dǎo)致了數(shù)據(jù)樣本分布不均衡等問題,增加了工業(yè)入侵檢測的難度。多數(shù)研究中所應(yīng)用的KD99數(shù)據(jù)集相對(duì)落后,針對(duì)當(dāng)今工控網(wǎng)絡(luò)不具備良好的泛化性。
綜上,面向提高入侵檢測的效率、降低漏報(bào)率、誤報(bào)比并解決數(shù)據(jù)分布不均衡等問題為研究目的,現(xiàn)以工業(yè)復(fù)雜環(huán)境數(shù)據(jù)集為研究對(duì)象,提出一種基于WGAN-GP數(shù)據(jù)增強(qiáng)并使用深度信念網(wǎng)絡(luò)與極限學(xué)習(xí)機(jī)相結(jié)合的深度學(xué)習(xí)入侵檢測方法。在模型的訓(xùn)練中,將數(shù)據(jù)進(jìn)行清洗并預(yù)處理,并送入WGAN-GP數(shù)據(jù)增強(qiáng)模塊進(jìn)行數(shù)據(jù)增強(qiáng),避免了數(shù)據(jù)集數(shù)據(jù)分布不均衡而帶來的誤差。將數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)送入DBN-ELM混合網(wǎng)絡(luò)模型中,利用深度信念網(wǎng)絡(luò)(deep belief network,DBN)自動(dòng)特征提取的功能提取特征,將提取好的特征訓(xùn)練頂層的極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)完成樣本分類[5]。同時(shí)分別采用網(wǎng)絡(luò)數(shù)據(jù)集驗(yàn)證方法有效性、工業(yè)數(shù)據(jù)集驗(yàn)證方法在工業(yè)復(fù)雜數(shù)據(jù)環(huán)境的適應(yīng)性,進(jìn)一步提高入侵檢測系統(tǒng)性能,使檢測結(jié)果具有實(shí)際意義。
入侵檢測的性能與訓(xùn)練數(shù)據(jù)的質(zhì)量之間存在著很大的關(guān)聯(lián)性,從網(wǎng)絡(luò)中收集到的原生流量存在大量噪聲數(shù)據(jù),不能直接用于工業(yè)入侵檢測的研究中,因此首先需要對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理。
原生數(shù)據(jù)樣本含有n個(gè)連續(xù)型特征以及1個(gè)數(shù)據(jù)標(biāo)簽,采用one-hot編碼器將連續(xù)性特征數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)。然后再進(jìn)行歸一化處理,經(jīng)歸一化處理后的連續(xù)性特征數(shù)據(jù)可直接用于訓(xùn)練和測試,歸一化公式為
(1)
式(1)中:x為需處理的樣本特征值;xmin、xmax為該特征的最小值和最大值;x*為標(biāo)準(zhǔn)化后的樣本特征值。
從網(wǎng)絡(luò)中收集到的原生入侵檢測數(shù)據(jù)的列順序隨意性較大并且特征間的相關(guān)性不強(qiáng),正常網(wǎng)絡(luò)流量數(shù)據(jù)的數(shù)量遠(yuǎn)多于非正常的攻擊流量數(shù)據(jù),嚴(yán)重的數(shù)據(jù)不平衡問題對(duì)入侵檢測模型的訓(xùn)練產(chǎn)生很大的負(fù)面影響。進(jìn)一步提升網(wǎng)絡(luò)的穩(wěn)定性與收斂速度,本文提出一種基于WGAN-GP的數(shù)據(jù)增強(qiáng)算法,通過對(duì)每一個(gè)樣本施加獨(dú)立的梯度懲罰(gradient penalty,GP),滿足了Lipschitz限制,使得神經(jīng)元在反向傳播過程中,權(quán)重可以更均勻地分布,有效提高了入侵檢測模型對(duì)少數(shù)類樣本的檢測能力[6]。生成對(duì)抗網(wǎng)絡(luò)由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)構(gòu)成,生成網(wǎng)絡(luò)將隨機(jī)噪聲數(shù)據(jù)Z輸入網(wǎng)絡(luò)中,噪聲數(shù)據(jù)會(huì)通過生成模型網(wǎng)絡(luò)。G(Z)會(huì)生成虛假數(shù)據(jù)Xf,然后將真實(shí)數(shù)據(jù)與生成器產(chǎn)生的虛假數(shù)據(jù)一同傳入判別器D中,其中輸入噪聲產(chǎn)生的數(shù)據(jù)為
h1=f1([Z]w1+b1)
(2)
h2=f1(h1w2+b2)
(3)
h3=f1(h2w3+b3)
(4)
Xf=f1(h3w4+b4)
(5)
將真實(shí)數(shù)據(jù)Xr與生成器產(chǎn)生的虛假數(shù)據(jù)Xf一同傳入判別器D中,輸入真實(shí)數(shù)據(jù)時(shí),有
h1=f1(Xrw1+b1)
(6)
h2=f1(h1w2+b2)
(7)
yr=h1w3+b3
(8)
輸入虛假數(shù)據(jù)時(shí),有
h1=f1(Xfw1+b1)
(9)
h2=f1(h1w2+b2)
(10)
yf=h1w3+b3
(11)
式中:h1、h2、h3分別為各階段噪聲數(shù)據(jù)的輸出向量;f1為ReLU激活函數(shù);w1、w2、w3、w4分別為權(quán)重矩陣;b1、b2、b3、b4分別為偏執(zhí)向量。輸出層的激活函數(shù)采用sigmoid函數(shù)。判別模型的目標(biāo)函數(shù)為
Ez~Pθ(z)ln[1-D(Z)]
(12)
式(12)中:V(D,G)為一個(gè)步長時(shí)訓(xùn)練生成器與判別器的函數(shù)變量;X為真實(shí)數(shù)據(jù);EX~Pdata(X)為真實(shí)數(shù)據(jù)分布;Pθ(z)為判別器的噪聲分布;Pdata(X)為真實(shí)數(shù)據(jù)分布;D(Z)為判別映射函數(shù),生成器和判別器之間構(gòu)成了一個(gè)動(dòng)態(tài)的博弈過程,生成器對(duì)損失函數(shù)不斷優(yōu)化,提高生成的虛假數(shù)據(jù)的能力使生成數(shù)據(jù)的分布不斷靠近真是數(shù)據(jù)的分布,判別器通過對(duì)損失函數(shù)的優(yōu)化不斷提高判別真假數(shù)據(jù)的能力[7]。其中生成器與判別器的損失函數(shù)分別為
LG=EZ~Pg(Z){-lnD[G(Z)]}
(13)
LD=EX~PdatalnD(x)-
EZ~Pg(Z)ln{1-D[G(Z)]}
(14)
式中:E為數(shù)學(xué)期望;Pg(X)為數(shù)據(jù)的真實(shí)分布;Z~Pg(Z)為符合正太分布的噪聲數(shù)據(jù)。
通過WGAN-GP網(wǎng)絡(luò)的不斷訓(xùn)練,生成器得到的數(shù)據(jù)更加貼近于真實(shí)數(shù)據(jù),而最終判別器卻無法識(shí)別出輸入數(shù)據(jù)是來源于實(shí)際數(shù)據(jù)還是生成數(shù)據(jù),從而實(shí)現(xiàn)了納什均衡,從而形成了一種良好的生成模式[8]。
RBM是一類隨機(jī)神經(jīng)網(wǎng)絡(luò)模型,包含可見層和隱藏層兩層神經(jīng)元,神經(jīng)元之間層內(nèi)之間沒有連接,層間全連接。由于在學(xué)習(xí)過程中不使用數(shù)據(jù)類,RBM模型能夠?qū)崟r(shí)檢測攻擊,具有較高的精度和適應(yīng)性[9],其結(jié)構(gòu)如圖1所示。
w0為層間傳遞的權(quán)重圖2 DBN結(jié)構(gòu)圖Fig.2 DBN structure diagram
圖1 RBM結(jié)構(gòu)圖Fig.1 RBM structure diagram
受限制玻爾茲曼機(jī)基于能量模型,其中網(wǎng)絡(luò)的能量函數(shù)定義為
(15)
式(15)中:θ={wij,dj,ci}為網(wǎng)絡(luò)參數(shù)且均為實(shí)數(shù);(v,h)為在RBM中可見層v和隱藏層h的一個(gè)概率分布集合;vj為訓(xùn)練集在可見層單元第j個(gè)變量;wij為可見層神經(jīng)元i到隱藏層神經(jīng)元j的連接權(quán)值;dj為可見層中第j個(gè)神經(jīng)元的偏置向量;ci為隱藏層中第i個(gè)神經(jīng)元的偏置向量;其聯(lián)合概率分布為
(16)
式(16)中:s為配分函數(shù),參數(shù)滿足:{W∈RNv×Nh,b∈RNv,c∈RNh},其中W為可見層單元與隱藏層之間的連接權(quán)重;b、c分別為可見層與隱藏層中的各項(xiàng)偏置向量;R為層間權(quán)重矩陣實(shí)數(shù)集合;Nv為可見層神經(jīng)元;Nh為隱藏層神經(jīng)元;Nv×Nh為可見層神經(jīng)元和隱藏層神經(jīng)元矩陣。
DBN是一個(gè)多層網(wǎng)絡(luò)結(jié)構(gòu),其下層為s型信念網(wǎng)絡(luò),上層為RBM,其網(wǎng)絡(luò)框架如圖2所示。DBN訓(xùn)練主要包括兩個(gè)階段:預(yù)練習(xí)和微調(diào)。首先使用RBM對(duì)每一層對(duì)未標(biāo)記的樣本數(shù)據(jù)進(jìn)行無監(jiān)督訓(xùn)練,同時(shí)通過對(duì)比散度算法(contrastive divergence, CD)調(diào)整RBM中的參數(shù)。在每個(gè)RBM層的訓(xùn)練結(jié)束后,從RBM層的訓(xùn)練中獲得的參數(shù)被發(fā)送到下一個(gè)RBM層進(jìn)行訓(xùn)練,直到所有RBM層完成訓(xùn)練[10]。預(yù)訓(xùn)練結(jié)束后,DBN通過神經(jīng)網(wǎng)絡(luò)層反向傳播(back propagation, BP)調(diào)整各層節(jié)點(diǎn)的參數(shù),從而實(shí)現(xiàn)整個(gè)DBN網(wǎng)絡(luò)節(jié)點(diǎn)權(quán)值的全局微調(diào)。
深度信念網(wǎng)絡(luò)訓(xùn)練過程中會(huì)隨著隱藏層的層數(shù)增加,分類精度會(huì)更準(zhǔn)確??梢妼由窠?jīng)元可以表示為v={v1,v2,…,vn},隱藏層神經(jīng)元可以表示為h={h1,h2,…,hn}其可見層與隱藏層的能量函數(shù)為
(17)
式(17)中:wji為可見層單元j與隱藏層單元i的連接權(quán)值,隱藏層輸出結(jié)點(diǎn)為
(18)
(19)
(20)
互相關(guān)系數(shù)表示為
(21)
(22)
式中:∑為相互關(guān)系數(shù)。
其中分母為常數(shù)僅需要分析分子,互相關(guān)系數(shù)∑隨著隱藏層層數(shù)的增加而減少ρ<1,ρk<ρk+1,互相關(guān)系數(shù)∑達(dá)到穩(wěn)定時(shí),即為訓(xùn)練效果最佳的隱藏層層數(shù)所需要的隱藏層層數(shù)[11]。
ELM是一種單層前饋神經(jīng)網(wǎng)絡(luò),包含輸入層、隱藏層和輸出層,可以對(duì)神經(jīng)元權(quán)重W,偏執(zhí)向量b隨機(jī)設(shè)置固定值并得到相應(yīng)輸出值[12],其具體結(jié)構(gòu)如圖3所示。
β為輸出權(quán)重;I為樣本總數(shù);k、 j、m為層間參數(shù)圖3 ELM結(jié)構(gòu)圖Fig.3 ELM structure diagram
對(duì)于一個(gè)有L個(gè)隱藏層節(jié)點(diǎn)的單隱藏層神經(jīng)網(wǎng)絡(luò)可表示為
(23)
式(23)中:g(x)為激活函數(shù);Wi為輸入權(quán)重;βi為輸出權(quán)重;bi為第i個(gè)隱藏層單元的偏置向量。單隱層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)是使得輸出的誤差最小,可以表示為
(24)
即存在βi、Wi和bi使得
(25)
βi、Wi、bi、T確定后,整個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練從而可以轉(zhuǎn)化為求解線性系統(tǒng),可以表示矩陣為
Hβ=T
(26)
式(26)中:H為隱藏結(jié)點(diǎn)輸出;β為輸出權(quán)重;T為期望輸出。
在工業(yè)控制系統(tǒng)中,大量的數(shù)據(jù)流量在分類時(shí)會(huì)多次迭代,會(huì)導(dǎo)致訓(xùn)練時(shí)間長,精度低等問題。DBN通過RBM層層堆疊展現(xiàn)其具有強(qiáng)大的自動(dòng)提取特征的能力,ELM可以通過隨機(jī)生成輸入層和隱藏層的連接權(quán)值并在訓(xùn)練時(shí)無需調(diào)整即可獲得唯一最優(yōu)解,展現(xiàn)了其不僅具有快速學(xué)習(xí)的能力還具備泛化能力好的特點(diǎn)。為了得到更好的分類效果,使模型的分類精度更高,就需要加大物理內(nèi)存來提高效率,故提出DBN與ELM相結(jié)合的算法[13],其具體結(jié)構(gòu)如圖4所示。
圖4 DBN-ELM混合模型結(jié)構(gòu)圖Fig.4 DBN-ELM hybrid model structure diagram
設(shè)置一個(gè)DBN含有n個(gè)隱藏層,通過貪婪訓(xùn)練得到n-1個(gè)玻爾茲曼機(jī),從輸入層到隱藏層1,直到訓(xùn)練到第n-1層隱藏層。將該過程作為DBN部分,第n層隱藏層最為ELM的隱藏層并且與ELM的第n-1層隱藏層和輸入層構(gòu)成完整的ELM。其中從隱藏層到輸出層的權(quán)重和偏執(zhí)都是由ELM確定的[14]。該復(fù)合型網(wǎng)絡(luò)可表示為
(27)
式(27)中:wi、bi為第n-1層隱藏層到第n層隱藏層的權(quán)重和偏執(zhí)向量;g(x)為激活函數(shù);βi為第n層隱藏層到輸出層的輸出權(quán)重。其誤差函數(shù)表示為
(28)
(29)
(30)
式中:N、M分別為第n層、第n-1層隱藏層神經(jīng)元的個(gè)數(shù)。
H(w1,w2,…,wN,b1,b2,…,bN,H(n-1,1),H(n-1,2),…,H(n-1,m))=
(31)
式(31)中:Hn為第n-1層隱藏層到第n層隱藏層的輸出,同時(shí)將DBN的訓(xùn)練問題轉(zhuǎn)化為求解線性系統(tǒng)問題。
Hnβ=T
(32)
(33)
(34)
使用加拿大網(wǎng)絡(luò)安全研究所公布的 CICIDS2017數(shù)據(jù)集[15]進(jìn)行入侵檢測實(shí)驗(yàn)測試,并使用密西西比州立大學(xué)的天然氣管道的數(shù)據(jù)集[16]進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證本實(shí)驗(yàn)所提出模型在工業(yè)環(huán)境中的適用性。
其中CICIDS2017數(shù)據(jù)集利用CICFlowMeter軟件共提取84個(gè)特征屬性和1個(gè)數(shù)據(jù)標(biāo)簽,該數(shù)據(jù)集的攻擊流量細(xì)分成14種攻擊類型包含暴力FTP、暴力SSH、DoS、SQL注入攻擊、XSS攻擊、Heartbleed、Web攻擊、滲透、僵尸網(wǎng)絡(luò)和DDoS等攻擊類型。該數(shù)據(jù)集樣本分布不均衡,其基本信息如表1所示。
密西西比州立大學(xué)天然氣管道數(shù)據(jù)集含有26個(gè)特征屬性,7種攻擊類型。相比于CICIDS2017數(shù)據(jù)集,密西西比州立大學(xué)天然氣管道的數(shù)據(jù)集是從工業(yè)控制系統(tǒng)中采集到數(shù)據(jù),更能體現(xiàn)到本文提出的算法在工控環(huán)境中的實(shí)用性。該數(shù)據(jù)集基本信息如表2所示。
表1 CICIDS2017數(shù)據(jù)集
表2 密西西比州立大學(xué)天然氣管道數(shù)據(jù)集基本信息
采用準(zhǔn)確率(ACC)、各個(gè)類別的精確率(P)、召回率(R)和綜合評(píng)價(jià)指標(biāo)F1值(F1-score)作為實(shí)驗(yàn)部分的評(píng)價(jià)指標(biāo),相關(guān)公式為
(35)
(36)
(37)
(38)
(39)
(40)
式中:TP為正確識(shí)別的攻擊類別數(shù)目;FN為漏報(bào);FP為誤報(bào);TN為正確識(shí)別的正常類別數(shù)目。
使用python3.7、pandas0.18.1、tensorflow 2.0進(jìn)行數(shù)據(jù)處理和算法編寫。利用sklearn0.18.2庫中的模型結(jié)構(gòu)進(jìn)行部分算法的實(shí)現(xiàn)。根據(jù)上文提到的表1看出數(shù)據(jù)集樣本分布不均衡,根據(jù)表1可以得出原始數(shù)據(jù)樣本存在著分布不均衡的問題,在訓(xùn)練過程中模型很大程度會(huì)偏向多數(shù)類,忽略少數(shù)類,導(dǎo)致模型的訓(xùn)練效果差,因此提出WGAN-GP數(shù)據(jù)增強(qiáng),對(duì)少量樣本過采樣,對(duì)多量樣本欠采樣并根據(jù)多次實(shí)驗(yàn)驗(yàn)證,將WGAN-GP中參數(shù)設(shè)置為:隨機(jī)初始化降噪維度Noise_dim=128,1次迭代輸入模型樣本數(shù)目Batch_size=1 024,全部樣本訓(xùn)練次數(shù)epochs=200,保留神經(jīng)元概率keep_prob=0.8,隱藏層采用ReLU激活函數(shù),輸出層采用sigmoid激活函數(shù),生成器和判別器網(wǎng)絡(luò)均使用Adam優(yōu)化器,初始化學(xué)習(xí)率init_lr=0.000 5,采用Wasserstein距離來衡量訓(xùn)練效果,訓(xùn)練過程中生成器與判別器得損失函數(shù)曲線如圖5所示。
圖5 損失函數(shù)曲線圖Fig.5 Loss function graph
首先,選取數(shù)據(jù)集樣本中30%數(shù)據(jù)作為訓(xùn)練樣本集,用來訓(xùn)練預(yù)設(shè)的DBN-ELM模型。由CICIDS2017數(shù)據(jù)集中共81個(gè)特征,其中攻擊樣本中將DoS GoledenEye、DoS Hulk、DoS Slowhttptest、DoS slowloris歸結(jié)為1類,Web Attack Brute Force、Web Attack Sql Injection、Web Attack XSS歸結(jié)為一類,DBN-ELM網(wǎng)絡(luò)參數(shù)中輸入神經(jīng)元數(shù)設(shè)置為81,輸出神經(jīng)元設(shè)置為8,根據(jù)圖6看出相關(guān)系數(shù)趨勢在隱藏層達(dá)到4層是趨勢趨近穩(wěn)定狀態(tài),故將RBM層數(shù)設(shè)置為4層使得模型訓(xùn)練的精度更準(zhǔn)確,其余網(wǎng)絡(luò)參數(shù)設(shè)計(jì)如表3所示。
圖6 相關(guān)系數(shù)趨勢圖Fig.6 Correlation coefficient trend graph
表3 DBN-ELM的網(wǎng)絡(luò)參數(shù)設(shè)計(jì)表
3.5.1 數(shù)據(jù)增強(qiáng)前后實(shí)驗(yàn)結(jié)果對(duì)比
使用DBN-ELM混合網(wǎng)絡(luò)模型分別在有無WGAN-GP數(shù)據(jù)增強(qiáng)的情況下進(jìn)行測試,訓(xùn)練結(jié)果如表4所示。
由表4可以看出,DBN-ELM混合網(wǎng)絡(luò)模型經(jīng)過WGAN-GP數(shù)據(jù)增強(qiáng)后訓(xùn)練集精度增加了0.53%,測試集精度增加了0.89%,誤報(bào)率降低了0.509%,漏報(bào)率降低了0.036%。由此可見WGAN-GP數(shù)據(jù)增強(qiáng)對(duì)處理數(shù)據(jù)集樣本分布不均衡有著顯著的效果。有無WGAN-GP數(shù)據(jù)增強(qiáng)的模型中F1對(duì)比如圖7所示。
表4 數(shù)據(jù)增強(qiáng)前后實(shí)驗(yàn)結(jié)果對(duì)比表
圖7 不同機(jī)器學(xué)習(xí)算法F1對(duì)照?qǐng)DFig.7 F1 value comparison chart of different machine learning algorithms
3.5.2 多種入侵檢測算法比較
入侵檢測模型中,常用的機(jī)器學(xué)習(xí)算法及深度學(xué)習(xí)算法有:支持向量機(jī)(support vector machine, SVM)、隨機(jī)森林(random forest, RF)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)、DBN。使用以上算法并建立入侵檢測模型,將epoch次數(shù)設(shè)置為200,在CICIDS2017數(shù)據(jù)集驗(yàn)證,其檢測結(jié)果如表5所示。
表5 檢測結(jié)果對(duì)比
從表5可以看出檢測效果最好的是深度信念網(wǎng)絡(luò),其訓(xùn)練集精度達(dá)到96.78%,測試集精度達(dá)到96.89%。傳統(tǒng)機(jī)器學(xué)習(xí)算法相對(duì)本文提出的混合神經(jīng)網(wǎng)絡(luò)算法檢測精度稍顯不足。其中在DBN-ELM混合網(wǎng)絡(luò)模型在融入ELM相比傳統(tǒng)DBN檢測精度提高了2.11%,測試集精度提高了1.84%。在WGAN-GP數(shù)據(jù)增強(qiáng)后,DBN-ELM混合網(wǎng)絡(luò)模型的檢測精度達(dá)到99.68%,測試集精度達(dá)到99.65%,相比于未經(jīng)過數(shù)據(jù)增強(qiáng)的DBN-ELM混合網(wǎng)絡(luò)。訓(xùn)練集精度提高了0.53%,測試集精度提高了0.85%。由此可以得出WGAN-GP數(shù)據(jù)增強(qiáng)在處理數(shù)據(jù)不平衡上有著顯著的效果的結(jié)論,同時(shí)也可以提高入侵檢測系統(tǒng)的性能。
實(shí)驗(yàn)驗(yàn)證采用密西西比州立大學(xué)天然氣管道數(shù)據(jù)集(表2)相比于CICIDS2017數(shù)據(jù)集該數(shù)據(jù)集更具有對(duì)工業(yè)背景的代表性,并且該數(shù)據(jù)集同樣也存在數(shù)據(jù)樣本分布不均衡的問題。依照本文提出的模型算法,首先對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析及預(yù)處理,將預(yù)處理完成的數(shù)據(jù)樣本使用WANG-GP進(jìn)行數(shù)據(jù)增強(qiáng),將增強(qiáng)后的數(shù)據(jù)先后依次送到DBN、ELM模塊,最后得到分類結(jié)果。有無WGAN-GP數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集對(duì)比如表6所示。
使用DBN-ELM混合網(wǎng)絡(luò)分別在有無WGAN-GP數(shù)據(jù)增強(qiáng)進(jìn)行實(shí)驗(yàn),結(jié)果對(duì)比如表7所示。
表6 有無WGAN-GP數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集對(duì)比表
表7 DBN-ELM混合網(wǎng)絡(luò)有無WGAN-GP數(shù)據(jù)增強(qiáng) 實(shí)驗(yàn)結(jié)果
通過表7可以得到如下結(jié)論:DBN-ELM混合網(wǎng)絡(luò)模型經(jīng)過WGAN-GP數(shù)據(jù)增強(qiáng)后訓(xùn)練集精度增加了1.45%,測試集精度增加了1.9%,誤報(bào)率降低了0.531%,漏報(bào)率降低了0.03%。WGAN-GP能夠有效提高訓(xùn)練集、測試集訓(xùn)練精度并降低誤報(bào)率、漏報(bào)比,經(jīng)過在工業(yè)數(shù)據(jù)集中的驗(yàn)證,本文研究中采用的基WGAN-GP-DBN-ELM的入侵檢測方法可以較好地適用于工控環(huán)境。
采用了一種基于WGAN-GP數(shù)據(jù)增強(qiáng)的DBN-ELM混合網(wǎng)絡(luò)模型入侵檢測模型。該方法采用的WGAN-GP數(shù)據(jù)增強(qiáng)方法可以有效解決數(shù)據(jù)集樣本數(shù)據(jù)分布不平衡的問題,在此基礎(chǔ)之上使用DBN-ELM混合網(wǎng)絡(luò)模型,引入DBN模型自動(dòng)提出特征的能力并采用ELM代替?zhèn)鹘y(tǒng)的分類器,使模型的收斂效率更佳。使用CICIDS2017數(shù)據(jù)集進(jìn)行測試實(shí)驗(yàn),測試了模型的性能。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的機(jī)器學(xué)習(xí)算法以及常用深度學(xué)習(xí)算法,所提出模型在訓(xùn)練精度方面有了顯著的提高,具備訓(xùn)練速度快、準(zhǔn)確度高等優(yōu)點(diǎn),并且對(duì)數(shù)據(jù)集中攻擊樣本的精確率與F1均有所提高。同時(shí),采用密西西比州立大學(xué)數(shù)據(jù)集作驗(yàn)證,實(shí)驗(yàn)結(jié)果充分驗(yàn)證了本文模型可以較好地適用在工業(yè)控制網(wǎng)絡(luò)環(huán)境中的入侵檢測并且具有有效性、泛化性好等優(yōu)點(diǎn),為工業(yè)入侵檢測的研究提供了一種新的研究思路。