• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于LSTM的卷積神經(jīng)網(wǎng)絡(luò)異常流量檢測(cè)方法

    2021-07-24 09:29:58陳解元
    關(guān)鍵詞:特征提取數(shù)據(jù)包準(zhǔn)確率

    陳解元

    (國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心,北京100032)

    0 引言

    信息技術(shù)的廣泛應(yīng)用和網(wǎng)絡(luò)空間的興起發(fā)展,極大促進(jìn)了經(jīng)濟(jì)社會(huì)繁榮進(jìn)步,同時(shí)也帶來(lái)新的安全風(fēng)險(xiǎn)和挑戰(zhàn)。網(wǎng)絡(luò)安全威脅逐步從信息竊聽、篡改、傳播病毒等方式上升為更新穎的高強(qiáng)度DDoS攻擊、0day漏洞利用、APT攻擊等形式,造成的大規(guī)模數(shù)據(jù)泄露和網(wǎng)絡(luò)黑產(chǎn)行業(yè)大規(guī)模增長(zhǎng)嚴(yán)重危害信息系統(tǒng)運(yùn)營(yíng)者權(quán)益和用戶個(gè)人隱私[1]。網(wǎng)絡(luò)空間中信息傳輸與交互均以流量為載體,通過(guò)異常流量檢測(cè),及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)異常情況和攻擊行為,對(duì)于強(qiáng)化網(wǎng)絡(luò)安全應(yīng)急響應(yīng)能力,維護(hù)網(wǎng)絡(luò)空間安全具有重要意義[2]。

    入侵檢測(cè)[3]作為一種主動(dòng)安全防護(hù)技術(shù),從網(wǎng)絡(luò)系統(tǒng)中的關(guān)鍵節(jié)點(diǎn)收集信息,即時(shí)監(jiān)視并分析網(wǎng)絡(luò)中是否有違反安全策略的行為。入侵檢測(cè)系統(tǒng)(IDS)[4]按照信息來(lái)源的差異分為兩類:基于主機(jī)IDS和基于網(wǎng)絡(luò)IDS,其中主機(jī)IDS[5]數(shù)據(jù)來(lái)源主要為防火墻、主機(jī)、網(wǎng)絡(luò)設(shè)備等產(chǎn)生的日志,但隨著大數(shù)據(jù)和云計(jì)算技術(shù)的發(fā)展,海量安全事件給設(shè)備和安全運(yùn)維人員帶來(lái)了“感知”上的巨大壓力。基于網(wǎng)絡(luò)的入侵檢測(cè)系統(tǒng)[6]數(shù)據(jù)來(lái)源是網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)包和網(wǎng)絡(luò)設(shè)備的告警日志,在發(fā)現(xiàn)蠕蟲病毒攻擊、DDoS攻擊、未知行為攻擊等方面的有效性逐步得到驗(yàn)證,異常流量檢測(cè)技術(shù)也受到越來(lái)越多的關(guān)注。

    迄今為止,國(guó)內(nèi)外學(xué)者已提出了多種異常流量檢測(cè)方法,目前主流的研究方向是基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法。其中,段詠程等[7]提出了一種基于隨機(jī)森林網(wǎng)絡(luò)安全態(tài)勢(shì)要素提取方法;BIERSACK E等[8]提出了SVM算法,尋找出一個(gè)超平面將樣本點(diǎn)與原點(diǎn)分離,用于異常檢測(cè);王輝[9]等在原有的樸素貝葉斯模型基礎(chǔ)上引入屬性加值算法,通過(guò)對(duì)分類參數(shù)的調(diào)控來(lái)優(yōu)化分類精確度;文獻(xiàn)[10]提出一種KNN算法,將入侵檢測(cè)問(wèn)題簡(jiǎn)化為二進(jìn)制問(wèn)題以減少數(shù)據(jù)集不均衡帶來(lái)的影響,從而提高檢測(cè)率。傳統(tǒng)機(jī)器學(xué)習(xí)算法性能依賴流量特征選取,而深度學(xué)習(xí)算法通過(guò)表征學(xué)習(xí),逐層提取抽象特征,在原始流量異常檢測(cè)方面優(yōu)勢(shì)明顯。文獻(xiàn)[11]提出一種混合聚類神經(jīng)網(wǎng)絡(luò)模型,通過(guò)聚類分析剔除孤立樣本后挑選具有代表性的樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò);文獻(xiàn)[12]提出一種多層網(wǎng)絡(luò)結(jié)構(gòu)CNN算法,利用不同尺度卷積核對(duì)大量高維無(wú)標(biāo)簽原始數(shù)據(jù)進(jìn)行不同層次特征提取。上述方法雖然有較高的檢測(cè)率,但這些研究并沒(méi)有充分考慮異常流量的結(jié)構(gòu)化特征,如源目IP間會(huì)話的時(shí)空特征、DoS攻擊流量間時(shí)間特征等,造成有效特征遺漏。

    針對(duì)以上問(wèn)題,本文提出一種基于深度學(xué)習(xí)的異常流量檢測(cè)方法,利用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)的混合算法提取網(wǎng)絡(luò)流量數(shù)據(jù)的時(shí)空特征,以提高入侵檢測(cè)的準(zhǔn)確率。并在CIC-IDS2017數(shù)據(jù)集上對(duì)算法進(jìn)行驗(yàn)證測(cè)試。

    1 基于LSTM的卷積神經(jīng)網(wǎng)絡(luò)異常流量檢測(cè)算法

    卷積神經(jīng)網(wǎng)絡(luò)的基本思路是通過(guò)提取圖像中相鄰像素之間相似的表達(dá)和特征,對(duì)輸入向量進(jìn)行卷積操作,以提取局部特征作為下一層的輸入,通過(guò)逐層提取與組合,轉(zhuǎn)化為抽象且全面的信息,是深度學(xué)習(xí)的代表算法之一。本文構(gòu)建的異常流量檢測(cè)算法,使用CNN和LSTM的組合在時(shí)間和空間上學(xué)習(xí)和分類流包,保留特征序列的順序性特點(diǎn),以層次化的時(shí)空特征更準(zhǔn)確地識(shí)別流量特征。CNN部分由輸入層+卷積層1+池化層1+卷積層2+池化層2+全連接層組成,向LSTM部分輸出一個(gè)高維包向量。LSTM部分由LSTM層1+LSTM層2+全連接層和輸出層組成。整體過(guò)程將高維包向量處理成一個(gè)表示屬于每個(gè)分類概率的向量,最終由Softmax層輸出最終結(jié)果。算法流程如圖1所示。

    圖1 整體算法流程圖

    1.1 數(shù)據(jù)預(yù)處理

    數(shù)據(jù)預(yù)處理階段的目標(biāo)是將pcap格式的網(wǎng)絡(luò)流量數(shù)據(jù)轉(zhuǎn)化為卷積神經(jīng)網(wǎng)絡(luò)可運(yùn)算的二維灰度圖像,過(guò)程主要包括數(shù)據(jù)歸一化、符號(hào)數(shù)據(jù)轉(zhuǎn)換兩個(gè)步驟。本文以會(huì)話(Session)為基本研究單元,其包含一組雙方通信的數(shù)據(jù)包(Package)。

    數(shù)據(jù)歸一化階段首先將訓(xùn)練數(shù)據(jù)集提供的數(shù)據(jù)按攻擊類型切分,使用pkt2flow工具按照攻擊源IP和目的IP分割成相應(yīng)的數(shù)據(jù)包,與源目互換后的數(shù)據(jù)包組合成時(shí)間序列的會(huì)話組。將按照會(huì)話分類的pcap文件切分為q個(gè)數(shù)據(jù)包后,每個(gè)數(shù)據(jù)包取前x個(gè)字節(jié)。

    符號(hào)數(shù)據(jù)轉(zhuǎn)換階段,以CIC-IDS2017數(shù)據(jù)集為例,官方已經(jīng)為流量數(shù)據(jù)進(jìn)行了特征提取,共產(chǎn)生Flow ID、Source IP、Source Port等80余條特征,以及正?;蚬纛愋蜆?biāo)簽。通過(guò)獨(dú)熱編碼(One-Hot Encoding),將每一組特征取值表示為y維向量,如此轉(zhuǎn)化為q個(gè)x×y大小的二維圖像。在時(shí)序特征提取階段,每次輸入的單元數(shù)量必須為固定值n。

    其中,切分?jǐn)?shù)據(jù)包長(zhǎng)度x和會(huì)話中數(shù)據(jù)包的數(shù)量n對(duì)算法效率和準(zhǔn)確度影響較大,根據(jù)多次實(shí)驗(yàn)對(duì)比,取最佳數(shù)據(jù)包長(zhǎng)度x=100,數(shù)據(jù)包數(shù)量n=8,該取值在多個(gè)測(cè)試數(shù)據(jù)集中具有普遍適用性。

    1.2 數(shù)據(jù)包空間特征提取

    基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)由卷積(convolution)、激活(activation)和池化(pooling)三種結(jié)構(gòu)組成。卷積層1使用帶有小卷積核的卷積層來(lái)提取輸入向量的局部特征,如協(xié)議類型和IP信息,在池化層1上可以得到準(zhǔn)確的特征結(jié)果。在卷積層2使用較大的卷積核來(lái)分析兩個(gè)相隔較遠(yuǎn)的部分之間的關(guān)系,如數(shù)據(jù)包中有效載荷的信息。

    在卷積層中,使用不同的卷積核分別在前一層的特征圖上滑動(dòng),掃描特征圖上的值進(jìn)行內(nèi)積求和,再通過(guò)激活函數(shù)計(jì)算非線性映射,從而得出當(dāng)前層的特征矩陣,公式表示為:

    式(2)為卷積層激活函數(shù),其中k為特征圖中通道數(shù)量,A為Z向量通過(guò)激活函數(shù)的輸出向量。

    式(3)表示池化函數(shù),其中p為預(yù)先指定的參數(shù)。在卷積層進(jìn)行特征提取后,輸出的特征圖會(huì)被傳遞至池化層進(jìn)行特征選擇和信息過(guò)濾,將特征圖中單個(gè)點(diǎn)的結(jié)果替換為其相鄰區(qū)域的特征圖統(tǒng)計(jì)量,保留有效特征的同時(shí)實(shí)現(xiàn)特征圖降維,避免過(guò)擬合現(xiàn)象。

    經(jīng)過(guò)兩次卷積和池化操作,整個(gè)流量圖像被提取到一個(gè)較小的特征塊中,代表整個(gè)數(shù)據(jù)包的特征信息,該特征塊作為時(shí)序特征提取部分的輸入層。

    1.3 數(shù)據(jù)包時(shí)序特征提取

    長(zhǎng)短期記憶模型是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型,用于處理具有長(zhǎng)期依賴關(guān)系的時(shí)間序列數(shù)據(jù)。和傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)一樣,模型結(jié)構(gòu)分為三層,分別為輸入層、輸出層和隱藏層。輸入層和輸出層不再保持一一對(duì)應(yīng)關(guān)系[13],并將循環(huán)神經(jīng)網(wǎng)絡(luò)中的每個(gè)隱藏單位換成了具有記憶功能的門控單元,每個(gè)門包含一個(gè)Sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)乘法操作,Sigmoid層輸出特征通過(guò)量。本文LSTM部分由兩個(gè)LSTM層、全連接層、Softmax層組成。

    令x t和h t分別表示輸入和輸出,Ct表示LSTM的節(jié)點(diǎn)。第一步是確定模型將從一組單元中丟棄哪些信息,遺忘門公式:

    遺忘門讀取h t-1和x t,向Ct-1輸出0~1之間的狀態(tài)值,其中1表示完全保留,0表示完全丟棄。W和b分別為權(quán)值和偏置量。

    式(5)決定哪些信息需要更新,由式(6)生成一個(gè)向量作為更新的替代項(xiàng),將這兩部分組合起來(lái),通過(guò)式(7)對(duì)C t的狀態(tài)值進(jìn)行刷新。

    式(8)決定單元格狀態(tài)C t的哪些部分被導(dǎo)出,通過(guò)式(9)中tanh函數(shù)獲得-1~1之間的對(duì)應(yīng)值,輸出最終結(jié)果。

    2 實(shí)驗(yàn)結(jié)果與分析

    2.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

    本文實(shí)驗(yàn)搭建的軟硬件環(huán)境為:Kali Linux 2019操作系統(tǒng),基于Python3.6的TensorFlow和Keras軟件框架;Xeon Siliver 4210@2.2 GHz CPU,64 GB內(nèi)存,NVIDIA Tesla P100顯卡。

    為了驗(yàn)證本文算法在原始網(wǎng)絡(luò)流量數(shù)據(jù)上的通用性,數(shù)據(jù)集選用CIC-IDS2017,該數(shù)據(jù)集來(lái)自加拿大網(wǎng)絡(luò)安全研究所,包含了基于HTTP、HTTPS、FTP、SSH等網(wǎng)絡(luò)協(xié)議在內(nèi)的真實(shí)網(wǎng)絡(luò)數(shù)據(jù)流量51 GB,其中攻擊流量包括FTP-Patator、SSH-Patator、DoS、Heartbleed、Web攻擊、滲透、僵尸網(wǎng)絡(luò)和DDoS 8種類型,并對(duì)流量數(shù)據(jù)進(jìn)行了特征提取,共生成80余條特征,最后以標(biāo)簽的形式表明正常流量或攻擊類型。數(shù)據(jù)類型如表1所示。

    表1 CIC-IDS2017數(shù)據(jù)集分布

    2.2 實(shí)驗(yàn)結(jié)果及分析

    根據(jù)CIC-IDS2017數(shù)據(jù)集分類后各樣本數(shù)據(jù)量及噪聲率,從中選取了7類樣本進(jìn)行模型訓(xùn)練、驗(yàn)證和測(cè)試,其中各類流量的攻擊行為標(biāo)簽分布如表2所示。

    表2 各流量類型分布

    參照機(jī)器學(xué)習(xí)和其他異常流量檢測(cè)算法評(píng)價(jià)參數(shù),選擇準(zhǔn)確率(Accuracy,ACC)、檢測(cè)率(Detection Rate,DR)、誤 警 率(False Alarm Rate,F(xiàn)AR)、分 類 器精度得分(F1-score)評(píng)價(jià)本算法,并與CNN算法和CNN1D(一維卷積神經(jīng)網(wǎng)絡(luò))+LSTM算法進(jìn)行對(duì)比。指標(biāo)公式為:

    其中,TP表示歸類正確的目標(biāo)樣本數(shù)量,TN為歸類正確的其他樣本數(shù)量,F(xiàn)P為識(shí)別錯(cuò)誤的目標(biāo)樣本數(shù)量,F(xiàn)N為被遺漏識(shí)別的目標(biāo)樣本數(shù)量。

    訓(xùn)練過(guò)程如圖2所示,在使用相同訓(xùn)練數(shù)據(jù)情況下,本文方法對(duì)比CNN和CNN1D+LSTM方法有更快的收斂速度,在較少迭代次數(shù)情況下準(zhǔn)確率明顯優(yōu)于其他方法,在多次迭代情況下準(zhǔn)確率能保持相近或略高于CNN1D+LSTM方法,在訓(xùn)練集上的最終準(zhǔn)確率達(dá)到98.8%。

    圖2 本文算法與其他算法訓(xùn)練過(guò)程對(duì)比

    從表3三種算法評(píng)價(jià)指標(biāo)對(duì)比結(jié)果可以看出,與單獨(dú)的CNN算法[14]相比,本文算法有效地提高了FTP-Pataor、DoS和Infiltration攻擊流量的識(shí)別準(zhǔn)確率。除DoS流量識(shí)別外,本文算法準(zhǔn)確率較CNN和CNN1D+LSTM方法均存在明顯優(yōu)勢(shì),此外,本文算法的一個(gè)重要優(yōu)勢(shì)是在獲得高檢測(cè)率的同時(shí),保持了極低的誤警率,能夠更準(zhǔn)確地對(duì)網(wǎng)絡(luò)流量進(jìn)行分類。

    表3 卷積神經(jīng)網(wǎng)絡(luò)算法對(duì)比

    在相同的CIC-IDS2017數(shù)據(jù)集上,橫向選取了Random Forest、SVM、DNN、Bi-LSTM等5類機(jī)器學(xué)習(xí)算法作對(duì)比[15],表4的實(shí)驗(yàn)結(jié)果表明,本文提出的CNN+LSTM算法在準(zhǔn)確率、檢測(cè)率、誤警率指標(biāo)方面均優(yōu)于其他算法。

    表4 機(jī)器學(xué)習(xí)算法橫向?qū)Ρ?/p>

    3 結(jié)論

    針對(duì)傳統(tǒng)入侵檢測(cè)系統(tǒng)側(cè)重于告警日志,在大規(guī)模復(fù)雜網(wǎng)絡(luò)環(huán)境下檢測(cè)精度低、系統(tǒng)開銷大的問(wèn)題,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的混合算法,從網(wǎng)絡(luò)流量中提取特征,分析流量中隱含的網(wǎng)絡(luò)攻擊。在CNN提取單個(gè)數(shù)據(jù)包空間特征的基礎(chǔ)上,充分發(fā)掘攻擊數(shù)據(jù)包之間的結(jié)構(gòu)特點(diǎn),通過(guò)LSTM算法提取數(shù)據(jù)流的時(shí)間特征并進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明,本文算法總體準(zhǔn)確率達(dá)到98.8%,對(duì)絕大多數(shù)攻擊類型的識(shí)別準(zhǔn)確率超過(guò)99.5%,與單獨(dú)使用CNN算法及橫向機(jī)器學(xué)習(xí)算法相比,本文算法在絕大多數(shù)情況下獲得了更高的準(zhǔn)確率,同時(shí)保持了極低的誤警率,有效提高了基于流量的入侵檢測(cè)算法準(zhǔn)確度。但受限于卷積神經(jīng)網(wǎng)絡(luò)算法存在權(quán)值、閾值較多的特點(diǎn),參數(shù)選擇不恰當(dāng)易陷入局部極小值。在未來(lái)的工作中,將進(jìn)一步優(yōu)化算法參數(shù),優(yōu)化樣本量差異較大情況下檢測(cè)準(zhǔn)確率,減少訓(xùn)練開銷。

    猜你喜歡
    特征提取數(shù)據(jù)包準(zhǔn)確率
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    SmartSniff
    高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
    Bagging RCSP腦電特征提取算法
    基于MED和循環(huán)域解調(diào)的多故障特征提取
    基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
    視覺(jué)注意的數(shù)據(jù)包優(yōu)先級(jí)排序策略研究
    禹城市| 崇义县| 建瓯市| 西乡县| 城步| 晴隆县| 陇南市| 泰来县| 罗田县| 彭州市| 重庆市| 云龙县| 兴仁县| 南城县| 淄博市| 宜阳县| 永安市| 宿州市| 木兰县| 吉安市| 绩溪县| 淅川县| 龙井市| 凤翔县| 普格县| 陆良县| 河南省| 于都县| 和政县| 江门市| 仪征市| 兴城市| 泸溪县| 太白县| 唐河县| 东乡县| 陈巴尔虎旗| 汤阴县| 台州市| 蕉岭县| 晋宁县|