基于數(shù)據(jù)增強(qiáng)的DBN-ELM入侵檢測方法

2023-01-14 10:10:54武洋名宗學(xué)軍何戡

科學(xué)技術(shù)與工程 2022年34期

武洋名，宗學(xué)軍*，何戡

(1.沈陽化工大學(xué)信息工程學(xué)院，沈陽 110142； 2.遼寧省工業(yè)信息安全重點(diǎn)實(shí)驗(yàn)室，沈陽 110142)

工業(yè)入侵檢測系統(tǒng)(industrial intrusion detection system，IDS)作為一項(xiàng)工業(yè)控制系統(tǒng)(industrial control system，ICS)的安全保護(hù)關(guān)鍵技術(shù)成了研發(fā)熱門。現(xiàn)如今，工業(yè)控制系統(tǒng)的網(wǎng)絡(luò)安全關(guān)系到智能移動(dòng)、智能電網(wǎng)、水處理、軍事、冶金等各個(gè)行業(yè)。例如，在2021年美國輸油管道公司遭到勒索軟件攻擊導(dǎo)致其被迫關(guān)閉關(guān)管道運(yùn)營數(shù)天極大影響美國東南海岸燃油供給；2017年12月工控惡意軟件“TRITON”導(dǎo)致工廠停運(yùn)數(shù)周、污水處理廠遭非法入侵導(dǎo)致污水直接排入大自然等安全事件頻頻發(fā)生，工控系統(tǒng)面臨的安全問題日益嚴(yán)峻[1]。

近期人工智能技術(shù)在各個(gè)領(lǐng)域得到了廣泛應(yīng)用，大量研究人員對(duì)深度學(xué)習(xí)算法在工業(yè)入侵檢測領(lǐng)域中的應(yīng)用展開了研究。尚文利等[2]提出長短期記憶神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)檢測模型。柳毅等[3]提出了堆稀疏自編碼的lightGBM二叉樹的入侵檢測算法。商富博等[4]提出了一種將網(wǎng)絡(luò)流量數(shù)據(jù)轉(zhuǎn)化為圖像數(shù)據(jù)后使用DSCNN-BiLSTM的方法進(jìn)行驗(yàn)證。

隨著大數(shù)據(jù)時(shí)代的到來，現(xiàn)有的深度學(xué)習(xí)算法難以解決大量數(shù)據(jù)的多分類問題。并且大量高維度數(shù)據(jù)不斷涌入導(dǎo)致了數(shù)據(jù)樣本分布不均衡等問題，增加了工業(yè)入侵檢測的難度。多數(shù)研究中所應(yīng)用的KD99數(shù)據(jù)集相對(duì)落后，針對(duì)當(dāng)今工控網(wǎng)絡(luò)不具備良好的泛化性。

綜上，面向提高入侵檢測的效率、降低漏報(bào)率、誤報(bào)比并解決數(shù)據(jù)分布不均衡等問題為研究目的，現(xiàn)以工業(yè)復(fù)雜環(huán)境數(shù)據(jù)集為研究對(duì)象，提出一種基于WGAN-GP數(shù)據(jù)增強(qiáng)并使用深度信念網(wǎng)絡(luò)與極限學(xué)習(xí)機(jī)相結(jié)合的深度學(xué)習(xí)入侵檢測方法。在模型的訓(xùn)練中，將數(shù)據(jù)進(jìn)行清洗并預(yù)處理，并送入WGAN-GP數(shù)據(jù)增強(qiáng)模塊進(jìn)行數(shù)據(jù)增強(qiáng)，避免了數(shù)據(jù)集數(shù)據(jù)分布不均衡而帶來的誤差。將數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)送入DBN-ELM混合網(wǎng)絡(luò)模型中，利用深度信念網(wǎng)絡(luò)(deep belief network，DBN)自動(dòng)特征提取的功能提取特征，將提取好的特征訓(xùn)練頂層的極限學(xué)習(xí)機(jī)(extreme learning machine， ELM)完成樣本分類[5]。同時(shí)分別采用網(wǎng)絡(luò)數(shù)據(jù)集驗(yàn)證方法有效性、工業(yè)數(shù)據(jù)集驗(yàn)證方法在工業(yè)復(fù)雜數(shù)據(jù)環(huán)境的適應(yīng)性，進(jìn)一步提高入侵檢測系統(tǒng)性能，使檢測結(jié)果具有實(shí)際意義。

1 數(shù)據(jù)分析及處理

1.1 數(shù)據(jù)預(yù)處理

入侵檢測的性能與訓(xùn)練數(shù)據(jù)的質(zhì)量之間存在著很大的關(guān)聯(lián)性，從網(wǎng)絡(luò)中收集到的原生流量存在大量噪聲數(shù)據(jù)，不能直接用于工業(yè)入侵檢測的研究中，因此首先需要對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理。

原生數(shù)據(jù)樣本含有n個(gè)連續(xù)型特征以及1個(gè)數(shù)據(jù)標(biāo)簽，采用one-hot編碼器將連續(xù)性特征數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)。然后再進(jìn)行歸一化處理，經(jīng)歸一化處理后的連續(xù)性特征數(shù)據(jù)可直接用于訓(xùn)練和測試，歸一化公式為

(1)

式(1)中：x為需處理的樣本特征值；xmin、xmax為該特征的最小值和最大值；x*為標(biāo)準(zhǔn)化后的樣本特征值。

1.2 WGAN-GP數(shù)據(jù)增強(qiáng)

從網(wǎng)絡(luò)中收集到的原生入侵檢測數(shù)據(jù)的列順序隨意性較大并且特征間的相關(guān)性不強(qiáng)，正常網(wǎng)絡(luò)流量數(shù)據(jù)的數(shù)量遠(yuǎn)多于非正常的攻擊流量數(shù)據(jù)，嚴(yán)重的數(shù)據(jù)不平衡問題對(duì)入侵檢測模型的訓(xùn)練產(chǎn)生很大的負(fù)面影響。進(jìn)一步提升網(wǎng)絡(luò)的穩(wěn)定性與收斂速度，本文提出一種基于WGAN-GP的數(shù)據(jù)增強(qiáng)算法，通過對(duì)每一個(gè)樣本施加獨(dú)立的梯度懲罰(gradient penalty，GP)，滿足了Lipschitz限制，使得神經(jīng)元在反向傳播過程中，權(quán)重可以更均勻地分布，有效提高了入侵檢測模型對(duì)少數(shù)類樣本的檢測能力[6]。生成對(duì)抗網(wǎng)絡(luò)由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)構(gòu)成，生成網(wǎng)絡(luò)將隨機(jī)噪聲數(shù)據(jù)Z輸入網(wǎng)絡(luò)中，噪聲數(shù)據(jù)會(huì)通過生成模型網(wǎng)絡(luò)。G(Z)會(huì)生成虛假數(shù)據(jù)Xf，然后將真實(shí)數(shù)據(jù)與生成器產(chǎn)生的虛假數(shù)據(jù)一同傳入判別器D中，其中輸入噪聲產(chǎn)生的數(shù)據(jù)為

h1=f1([Z]w1+b1)

(2)

h2=f1(h1w2+b2)

(3)

h3=f1(h2w3+b3)

(4)

Xf=f1(h3w4+b4)

(5)

將真實(shí)數(shù)據(jù)Xr與生成器產(chǎn)生的虛假數(shù)據(jù)Xf一同傳入判別器D中，輸入真實(shí)數(shù)據(jù)時(shí)，有

h1=f1(Xrw1+b1)

(6)

h2=f1(h1w2+b2)

(7)

yr=h1w3+b3

(8)

輸入虛假數(shù)據(jù)時(shí)，有

h1=f1(Xfw1+b1)

(9)

h2=f1(h1w2+b2)

(10)

yf=h1w3+b3

(11)

式中：h1、h2、h3分別為各階段噪聲數(shù)據(jù)的輸出向量；f1為ReLU激活函數(shù)；w1、w2、w3、w4分別為權(quán)重矩陣;b1、b2、b3、b4分別為偏執(zhí)向量。輸出層的激活函數(shù)采用sigmoid函數(shù)。判別模型的目標(biāo)函數(shù)為

Ez～Pθ(z)ln[1-D(Z)]

(12)

式(12)中：V(D,G)為一個(gè)步長時(shí)訓(xùn)練生成器與判別器的函數(shù)變量；X為真實(shí)數(shù)據(jù)；EX～Pdata(X)為真實(shí)數(shù)據(jù)分布；Pθ(z)為判別器的噪聲分布；Pdata(X)為真實(shí)數(shù)據(jù)分布；D(Z)為判別映射函數(shù)，生成器和判別器之間構(gòu)成了一個(gè)動(dòng)態(tài)的博弈過程，生成器對(duì)損失函數(shù)不斷優(yōu)化，提高生成的虛假數(shù)據(jù)的能力使生成數(shù)據(jù)的分布不斷靠近真是數(shù)據(jù)的分布，判別器通過對(duì)損失函數(shù)的優(yōu)化不斷提高判別真假數(shù)據(jù)的能力[7]。其中生成器與判別器的損失函數(shù)分別為

LG=EZ～Pg(Z){-lnD[G(Z)]}

(13)

LD=EX～PdatalnD(x)-

EZ～Pg(Z)ln{1-D[G(Z)]}

(14)

式中：E為數(shù)學(xué)期望；Pg(X)為數(shù)據(jù)的真實(shí)分布；Z～Pg(Z)為符合正太分布的噪聲數(shù)據(jù)。

通過WGAN-GP網(wǎng)絡(luò)的不斷訓(xùn)練,生成器得到的數(shù)據(jù)更加貼近于真實(shí)數(shù)據(jù),而最終判別器卻無法識(shí)別出輸入數(shù)據(jù)是來源于實(shí)際數(shù)據(jù)還是生成數(shù)據(jù),從而實(shí)現(xiàn)了納什均衡,從而形成了一種良好的生成模式[8]。

2 基于WGAN-GP數(shù)據(jù)增強(qiáng)和DBN-ELM模型的入侵檢測算法

2.1 受限制玻爾茲曼機(jī)(restricted boltzmann machines, RBM)

RBM是一類隨機(jī)神經(jīng)網(wǎng)絡(luò)模型，包含可見層和隱藏層兩層神經(jīng)元，神經(jīng)元之間層內(nèi)之間沒有連接，層間全連接。由于在學(xué)習(xí)過程中不使用數(shù)據(jù)類，RBM模型能夠?qū)崟r(shí)檢測攻擊，具有較高的精度和適應(yīng)性[9]，其結(jié)構(gòu)如圖1所示。

w0為層間傳遞的權(quán)重圖2 DBN結(jié)構(gòu)圖Fig.2 DBN structure diagram

圖1 RBM結(jié)構(gòu)圖Fig.1 RBM structure diagram

受限制玻爾茲曼機(jī)基于能量模型，其中網(wǎng)絡(luò)的能量函數(shù)定義為

(15)

式(15)中：θ={wij,dj,ci}為網(wǎng)絡(luò)參數(shù)且均為實(shí)數(shù)；(v,h)為在RBM中可見層v和隱藏層h的一個(gè)概率分布集合；vj為訓(xùn)練集在可見層單元第j個(gè)變量;wij為可見層神經(jīng)元i到隱藏層神經(jīng)元j的連接權(quán)值；dj為可見層中第j個(gè)神經(jīng)元的偏置向量；ci為隱藏層中第i個(gè)神經(jīng)元的偏置向量；其聯(lián)合概率分布為

(16)

式(16)中：s為配分函數(shù)，參數(shù)滿足：{W∈RNv×Nh,b∈RNv,c∈RNh}，其中W為可見層單元與隱藏層之間的連接權(quán)重；b、c分別為可見層與隱藏層中的各項(xiàng)偏置向量；R為層間權(quán)重矩陣實(shí)數(shù)集合；Nv為可見層神經(jīng)元；Nh為隱藏層神經(jīng)元；Nv×Nh為可見層神經(jīng)元和隱藏層神經(jīng)元矩陣。

2.2 DBN

DBN是一個(gè)多層網(wǎng)絡(luò)結(jié)構(gòu)，其下層為s型信念網(wǎng)絡(luò)，上層為RBM，其網(wǎng)絡(luò)框架如圖2所示。DBN訓(xùn)練主要包括兩個(gè)階段：預(yù)練習(xí)和微調(diào)。首先使用RBM對(duì)每一層對(duì)未標(biāo)記的樣本數(shù)據(jù)進(jìn)行無監(jiān)督訓(xùn)練，同時(shí)通過對(duì)比散度算法(contrastive divergence, CD)調(diào)整RBM中的參數(shù)。在每個(gè)RBM層的訓(xùn)練結(jié)束后，從RBM層的訓(xùn)練中獲得的參數(shù)被發(fā)送到下一個(gè)RBM層進(jìn)行訓(xùn)練，直到所有RBM層完成訓(xùn)練[10]。預(yù)訓(xùn)練結(jié)束后，DBN通過神經(jīng)網(wǎng)絡(luò)層反向傳播(back propagation, BP)調(diào)整各層節(jié)點(diǎn)的參數(shù)，從而實(shí)現(xiàn)整個(gè)DBN網(wǎng)絡(luò)節(jié)點(diǎn)權(quán)值的全局微調(diào)。

深度信念網(wǎng)絡(luò)訓(xùn)練過程中會(huì)隨著隱藏層的層數(shù)增加，分類精度會(huì)更準(zhǔn)確?？梢妼由窠?jīng)元可以表示為v={v1,v2,…,vn}，隱藏層神經(jīng)元可以表示為h={h1,h2,…,hn}其可見層與隱藏層的能量函數(shù)為

(17)

式(17)中：wji為可見層單元j與隱藏層單元i的連接權(quán)值，隱藏層輸出結(jié)點(diǎn)為

(18)

(19)

(20)

互相關(guān)系數(shù)表示為

(21)

(22)

式中：∑為相互關(guān)系數(shù)。

其中分母為常數(shù)僅需要分析分子，互相關(guān)系數(shù)∑隨著隱藏層層數(shù)的增加而減少ρ<1，ρk<ρk+1，互相關(guān)系數(shù)∑達(dá)到穩(wěn)定時(shí)，即為訓(xùn)練效果最佳的隱藏層層數(shù)所需要的隱藏層層數(shù)[11]。

2.3 ELM

ELM是一種單層前饋神經(jīng)網(wǎng)絡(luò)，包含輸入層、隱藏層和輸出層，可以對(duì)神經(jīng)元權(quán)重W，偏執(zhí)向量b隨機(jī)設(shè)置固定值并得到相應(yīng)輸出值[12]，其具體結(jié)構(gòu)如圖3所示。

β為輸出權(quán)重；I為樣本總數(shù)；k、 j、m為層間參數(shù)圖3 ELM結(jié)構(gòu)圖Fig.3 ELM structure diagram

對(duì)于一個(gè)有L個(gè)隱藏層節(jié)點(diǎn)的單隱藏層神經(jīng)網(wǎng)絡(luò)可表示為

(23)

式(23)中：g(x)為激活函數(shù)；Wi為輸入權(quán)重；βi為輸出權(quán)重；bi為第i個(gè)隱藏層單元的偏置向量。單隱層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)是使得輸出的誤差最小，可以表示為

(24)

即存在βi、Wi和bi使得

(25)

βi、Wi、bi、T確定后，整個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練從而可以轉(zhuǎn)化為求解線性系統(tǒng)，可以表示矩陣為

Hβ=T

(26)

式(26)中：H為隱藏結(jié)點(diǎn)輸出；β為輸出權(quán)重;T為期望輸出。

2.4 DBN-ELM模型混合網(wǎng)絡(luò)模型

在工業(yè)控制系統(tǒng)中，大量的數(shù)據(jù)流量在分類時(shí)會(huì)多次迭代，會(huì)導(dǎo)致訓(xùn)練時(shí)間長，精度低等問題。DBN通過RBM層層堆疊展現(xiàn)其具有強(qiáng)大的自動(dòng)提取特征的能力，ELM可以通過隨機(jī)生成輸入層和隱藏層的連接權(quán)值并在訓(xùn)練時(shí)無需調(diào)整即可獲得唯一最優(yōu)解，展現(xiàn)了其不僅具有快速學(xué)習(xí)的能力還具備泛化能力好的特點(diǎn)。為了得到更好的分類效果，使模型的分類精度更高，就需要加大物理內(nèi)存來提高效率，故提出DBN與ELM相結(jié)合的算法[13]，其具體結(jié)構(gòu)如圖4所示。

圖4 DBN-ELM混合模型結(jié)構(gòu)圖Fig.4 DBN-ELM hybrid model structure diagram

設(shè)置一個(gè)DBN含有n個(gè)隱藏層，通過貪婪訓(xùn)練得到n-1個(gè)玻爾茲曼機(jī)，從輸入層到隱藏層1，直到訓(xùn)練到第n-1層隱藏層。將該過程作為DBN部分，第n層隱藏層最為ELM的隱藏層并且與ELM的第n-1層隱藏層和輸入層構(gòu)成完整的ELM。其中從隱藏層到輸出層的權(quán)重和偏執(zhí)都是由ELM確定的[14]。該復(fù)合型網(wǎng)絡(luò)可表示為

(27)

式(27)中：wi、bi為第n-1層隱藏層到第n層隱藏層的權(quán)重和偏執(zhí)向量；g(x)為激活函數(shù)；βi為第n層隱藏層到輸出層的輸出權(quán)重。其誤差函數(shù)表示為

(28)

(29)

(30)

式中：N、M分別為第n層、第n-1層隱藏層神經(jīng)元的個(gè)數(shù)。

H(w1,w2,…,wN,b1,b2,…,bN,H(n-1,1),H(n-1,2),…,H(n-1,m))=

(31)

式(31)中：Hn為第n-1層隱藏層到第n層隱藏層的輸出，同時(shí)將DBN的訓(xùn)練問題轉(zhuǎn)化為求解線性系統(tǒng)問題。

Hnβ=T

(32)

(33)

(34)

3 實(shí)驗(yàn)與結(jié)果

3.1 數(shù)據(jù)集描述

使用加拿大網(wǎng)絡(luò)安全研究所公布的 CICIDS2017數(shù)據(jù)集[15]進(jìn)行入侵檢測實(shí)驗(yàn)測試，并使用密西西比州立大學(xué)的天然氣管道的數(shù)據(jù)集[16]進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證本實(shí)驗(yàn)所提出模型在工業(yè)環(huán)境中的適用性。

其中CICIDS2017數(shù)據(jù)集利用CICFlowMeter軟件共提取84個(gè)特征屬性和1個(gè)數(shù)據(jù)標(biāo)簽，該數(shù)據(jù)集的攻擊流量細(xì)分成14種攻擊類型包含暴力FTP、暴力SSH、DoS、SQL注入攻擊、XSS攻擊、Heartbleed、Web攻擊、滲透、僵尸網(wǎng)絡(luò)和DDoS等攻擊類型。該數(shù)據(jù)集樣本分布不均衡，其基本信息如表1所示。

密西西比州立大學(xué)天然氣管道數(shù)據(jù)集含有26個(gè)特征屬性，7種攻擊類型。相比于CICIDS2017數(shù)據(jù)集，密西西比州立大學(xué)天然氣管道的數(shù)據(jù)集是從工業(yè)控制系統(tǒng)中采集到數(shù)據(jù)，更能體現(xiàn)到本文提出的算法在工控環(huán)境中的實(shí)用性。該數(shù)據(jù)集基本信息如表2所示。

表1 CICIDS2017數(shù)據(jù)集

表2 密西西比州立大學(xué)天然氣管道數(shù)據(jù)集基本信息

3.2 模型評(píng)判標(biāo)準(zhǔn)

采用準(zhǔn)確率(ACC)、各個(gè)類別的精確率(P)、召回率(R)和綜合評(píng)價(jià)指標(biāo)F1值(F1-score)作為實(shí)驗(yàn)部分的評(píng)價(jià)指標(biāo)，相關(guān)公式為

(35)

(36)

(37)

(38)

(39)

(40)

式中：TP為正確識(shí)別的攻擊類別數(shù)目；FN為漏報(bào)；FP為誤報(bào)；TN為正確識(shí)別的正常類別數(shù)目。

3.3 WGAN-GP數(shù)據(jù)增強(qiáng)的實(shí)現(xiàn)

使用python3.7、pandas0.18.1、tensorflow 2.0進(jìn)行數(shù)據(jù)處理和算法編寫。利用sklearn0.18.2庫中的模型結(jié)構(gòu)進(jìn)行部分算法的實(shí)現(xiàn)。根據(jù)上文提到的表1看出數(shù)據(jù)集樣本分布不均衡，根據(jù)表1可以得出原始數(shù)據(jù)樣本存在著分布不均衡的問題，在訓(xùn)練過程中模型很大程度會(huì)偏向多數(shù)類，忽略少數(shù)類，導(dǎo)致模型的訓(xùn)練效果差，因此提出WGAN-GP數(shù)據(jù)增強(qiáng)，對(duì)少量樣本過采樣，對(duì)多量樣本欠采樣并根據(jù)多次實(shí)驗(yàn)驗(yàn)證，將WGAN-GP中參數(shù)設(shè)置為：隨機(jī)初始化降噪維度Noise_dim=128，1次迭代輸入模型樣本數(shù)目Batch_size=1 024，全部樣本訓(xùn)練次數(shù)epochs=200,保留神經(jīng)元概率keep_prob=0.8，隱藏層采用ReLU激活函數(shù)，輸出層采用sigmoid激活函數(shù)，生成器和判別器網(wǎng)絡(luò)均使用Adam優(yōu)化器，初始化學(xué)習(xí)率init_lr=0.000 5，采用Wasserstein距離來衡量訓(xùn)練效果,訓(xùn)練過程中生成器與判別器得損失函數(shù)曲線如圖5所示。

圖5 損失函數(shù)曲線圖Fig.5 Loss function graph

3.4 DBN-ELM的網(wǎng)絡(luò)參數(shù)及深度分析

首先，選取數(shù)據(jù)集樣本中30%數(shù)據(jù)作為訓(xùn)練樣本集，用來訓(xùn)練預(yù)設(shè)的DBN-ELM模型。由CICIDS2017數(shù)據(jù)集中共81個(gè)特征，其中攻擊樣本中將DoS GoledenEye、DoS Hulk、DoS Slowhttptest、DoS slowloris歸結(jié)為1類，Web Attack Brute Force、Web Attack Sql Injection、Web Attack XSS歸結(jié)為一類，DBN-ELM網(wǎng)絡(luò)參數(shù)中輸入神經(jīng)元數(shù)設(shè)置為81，輸出神經(jīng)元設(shè)置為8，根據(jù)圖6看出相關(guān)系數(shù)趨勢在隱藏層達(dá)到4層是趨勢趨近穩(wěn)定狀態(tài)，故將RBM層數(shù)設(shè)置為4層使得模型訓(xùn)練的精度更準(zhǔn)確，其余網(wǎng)絡(luò)參數(shù)設(shè)計(jì)如表3所示。

圖6 相關(guān)系數(shù)趨勢圖Fig.6 Correlation coefficient trend graph

表3 DBN-ELM的網(wǎng)絡(luò)參數(shù)設(shè)計(jì)表

3.5 基于WGAN-GP-DBN-ELM入侵檢測模型實(shí)現(xiàn)

3.5.1 數(shù)據(jù)增強(qiáng)前后實(shí)驗(yàn)結(jié)果對(duì)比

使用DBN-ELM混合網(wǎng)絡(luò)模型分別在有無WGAN-GP數(shù)據(jù)增強(qiáng)的情況下進(jìn)行測試，訓(xùn)練結(jié)果如表4所示。

由表4可以看出，DBN-ELM混合網(wǎng)絡(luò)模型經(jīng)過WGAN-GP數(shù)據(jù)增強(qiáng)后訓(xùn)練集精度增加了0.53%，測試集精度增加了0.89%，誤報(bào)率降低了0.509%，漏報(bào)率降低了0.036%。由此可見WGAN-GP數(shù)據(jù)增強(qiáng)對(duì)處理數(shù)據(jù)集樣本分布不均衡有著顯著的效果。有無WGAN-GP數(shù)據(jù)增強(qiáng)的模型中F1對(duì)比如圖7所示。

表4 數(shù)據(jù)增強(qiáng)前后實(shí)驗(yàn)結(jié)果對(duì)比表

圖7 不同機(jī)器學(xué)習(xí)算法F1對(duì)照?qǐng)DFig.7 F1 value comparison chart of different machine learning algorithms

3.5.2 多種入侵檢測算法比較

入侵檢測模型中，常用的機(jī)器學(xué)習(xí)算法及深度學(xué)習(xí)算法有：支持向量機(jī)(support vector machine, SVM)、隨機(jī)森林(random forest, RF)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)、DBN。使用以上算法并建立入侵檢測模型,將epoch次數(shù)設(shè)置為200，在CICIDS2017數(shù)據(jù)集驗(yàn)證，其檢測結(jié)果如表5所示。

表5 檢測結(jié)果對(duì)比

從表5可以看出檢測效果最好的是深度信念網(wǎng)絡(luò)，其訓(xùn)練集精度達(dá)到96.78%，測試集精度達(dá)到96.89%。傳統(tǒng)機(jī)器學(xué)習(xí)算法相對(duì)本文提出的混合神經(jīng)網(wǎng)絡(luò)算法檢測精度稍顯不足。其中在DBN-ELM混合網(wǎng)絡(luò)模型在融入ELM相比傳統(tǒng)DBN檢測精度提高了2.11%，測試集精度提高了1.84%。在WGAN-GP數(shù)據(jù)增強(qiáng)后，DBN-ELM混合網(wǎng)絡(luò)模型的檢測精度達(dá)到99.68%，測試集精度達(dá)到99.65%，相比于未經(jīng)過數(shù)據(jù)增強(qiáng)的DBN-ELM混合網(wǎng)絡(luò)。訓(xùn)練集精度提高了0.53%，測試集精度提高了0.85%。由此可以得出WGAN-GP數(shù)據(jù)增強(qiáng)在處理數(shù)據(jù)不平衡上有著顯著的效果的結(jié)論，同時(shí)也可以提高入侵檢測系統(tǒng)的性能。

3.6 入侵檢測模型在工控網(wǎng)絡(luò)環(huán)境下得驗(yàn)證

實(shí)驗(yàn)驗(yàn)證采用密西西比州立大學(xué)天然氣管道數(shù)據(jù)集(表2)相比于CICIDS2017數(shù)據(jù)集該數(shù)據(jù)集更具有對(duì)工業(yè)背景的代表性，并且該數(shù)據(jù)集同樣也存在數(shù)據(jù)樣本分布不均衡的問題。依照本文提出的模型算法，首先對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析及預(yù)處理，將預(yù)處理完成的數(shù)據(jù)樣本使用WANG-GP進(jìn)行數(shù)據(jù)增強(qiáng)，將增強(qiáng)后的數(shù)據(jù)先后依次送到DBN、ELM模塊，最后得到分類結(jié)果。有無WGAN-GP數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集對(duì)比如表6所示。

使用DBN-ELM混合網(wǎng)絡(luò)分別在有無WGAN-GP數(shù)據(jù)增強(qiáng)進(jìn)行實(shí)驗(yàn)，結(jié)果對(duì)比如表7所示。

表6 有無WGAN-GP數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集對(duì)比表

表7 DBN-ELM混合網(wǎng)絡(luò)有無WGAN-GP數(shù)據(jù)增強(qiáng) 實(shí)驗(yàn)結(jié)果

通過表7可以得到如下結(jié)論：DBN-ELM混合網(wǎng)絡(luò)模型經(jīng)過WGAN-GP數(shù)據(jù)增強(qiáng)后訓(xùn)練集精度增加了1.45%，測試集精度增加了1.9%，誤報(bào)率降低了0.531%，漏報(bào)率降低了0.03%。WGAN-GP能夠有效提高訓(xùn)練集、測試集訓(xùn)練精度并降低誤報(bào)率、漏報(bào)比，經(jīng)過在工業(yè)數(shù)據(jù)集中的驗(yàn)證，本文研究中采用的基WGAN-GP-DBN-ELM的入侵檢測方法可以較好地適用于工控環(huán)境。

4 結(jié)論

采用了一種基于WGAN-GP數(shù)據(jù)增強(qiáng)的DBN-ELM混合網(wǎng)絡(luò)模型入侵檢測模型。該方法采用的WGAN-GP數(shù)據(jù)增強(qiáng)方法可以有效解決數(shù)據(jù)集樣本數(shù)據(jù)分布不平衡的問題，在此基礎(chǔ)之上使用DBN-ELM混合網(wǎng)絡(luò)模型，引入DBN模型自動(dòng)提出特征的能力并采用ELM代替?zhèn)鹘y(tǒng)的分類器，使模型的收斂效率更佳。使用CICIDS2017數(shù)據(jù)集進(jìn)行測試實(shí)驗(yàn)，測試了模型的性能。實(shí)驗(yàn)結(jié)果表明，相比于傳統(tǒng)的機(jī)器學(xué)習(xí)算法以及常用深度學(xué)習(xí)算法，所提出模型在訓(xùn)練精度方面有了顯著的提高，具備訓(xùn)練速度快、準(zhǔn)確度高等優(yōu)點(diǎn)，并且對(duì)數(shù)據(jù)集中攻擊樣本的精確率與F1均有所提高。同時(shí)，采用密西西比州立大學(xué)數(shù)據(jù)集作驗(yàn)證，實(shí)驗(yàn)結(jié)果充分驗(yàn)證了本文模型可以較好地適用在工業(yè)控制網(wǎng)絡(luò)環(huán)境中的入侵檢測并且具有有效性、泛化性好等優(yōu)點(diǎn)，為工業(yè)入侵檢測的研究提供了一種新的研究思路。