• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于非對稱卷積自編碼器和支持向量機的入侵檢測模型

      2018-12-25 03:55:50王佳林劉吉強趙迪王盈地相迎宵陳彤童恩棟牛溫佳
      網(wǎng)絡與信息安全學報 2018年11期
      關鍵詞:非對稱編碼器準確率

      王佳林,劉吉強,趙迪,王盈地,相迎宵,陳彤,童恩棟,牛溫佳

      ?

      基于非對稱卷積自編碼器和支持向量機的入侵檢測模型

      王佳林,劉吉強,趙迪,王盈地,相迎宵,陳彤,童恩棟,牛溫佳

      (北京交通大學智能交通數(shù)據(jù)安全與隱私保護北京市重點實驗室,北京 100044)

      網(wǎng)絡入侵檢測系統(tǒng)在防護網(wǎng)絡安全中占據(jù)重要地位,隨著科技不斷發(fā)展,目前的入侵技術沒有考慮到檢測技術的可擴展性、可持續(xù)性以及訓練時間長短,無法應對現(xiàn)代復雜多變的網(wǎng)絡異常流量。針對這些問題,提出了一種新的深度學習方法,使用無監(jiān)督的非對稱卷積自編碼器,對數(shù)據(jù)進行特征學習。另外,提出了一種新的基于非對稱卷積自編碼器和多類支持向量機相結合的方法。在KDD99數(shù)據(jù)集上進行了實驗,實驗結果表明,該方法取得了良好的結果,與其他方法相比顯著減少了訓練時間,進一步提高了網(wǎng)絡入侵檢測技術。

      入侵檢測技術;卷積自編碼器;支持向量機;網(wǎng)絡安全

      1 引言

      隨著科技水平不斷發(fā)展,網(wǎng)絡空間安全的防護技術也在不斷提升,但仍然面臨著許多新的入侵威脅。根據(jù)賽門鐵克2018《互聯(lián)網(wǎng)安全威脅報告》[1]指出,2018年網(wǎng)絡中惡意入侵的發(fā)生率增長了200%,針對物聯(lián)網(wǎng)攻擊的增長率更是達到600%,嚴重威脅著人民的權益,因此防護網(wǎng)絡空間安全在網(wǎng)絡空間中占據(jù)重要位置。但網(wǎng)絡空間安全面對現(xiàn)代網(wǎng)絡的復雜變化存在許多新的挑戰(zhàn)。例如,第一,現(xiàn)代物聯(lián)網(wǎng)以及云服務的不斷普及,使網(wǎng)絡數(shù)據(jù)量急劇增長,并且這種情況將繼續(xù)持續(xù)下去;第二,對于大量的網(wǎng)絡入侵流量,在有限帶寬的影響下,人們對于入侵檢測的要求不僅僅停留在較高的準確率方面,更是對檢測的效率提出了新的要求;第三,在現(xiàn)代網(wǎng)絡流量中增加了很多新的協(xié)議,這給網(wǎng)絡安全檢測系統(tǒng)增加了很多檢測難度和復雜性。因此,需要不斷調(diào)整網(wǎng)絡防護措施來適應不斷變化的網(wǎng)絡狀況。

      現(xiàn)存的防護網(wǎng)絡安全的措施主要有放置在網(wǎng)關處的防火墻,它可以靜態(tài)地監(jiān)視入侵活動。為了動態(tài)地防護網(wǎng)絡安全,入侵檢測系統(tǒng)(IDS)被用作第二道防線,它可以主動地防護計算機中的日志以及系統(tǒng)文件等,并且通過分析日志信息、文件的變動得出攻擊的跡象,檢測出計算機中的正?;蛘弋惓A髁?,甚至是一些未知的新的攻擊[2]。IDS又可以分為基于主機的入侵檢測系統(tǒng)和基于網(wǎng)絡的入侵檢測系統(tǒng)。基于主機的入侵檢測系統(tǒng)使用由單個計算機系統(tǒng)收集的信息,而基于網(wǎng)絡的入侵檢測系統(tǒng)收集原始網(wǎng)絡數(shù)據(jù)分組作為網(wǎng)絡數(shù)據(jù)源并分析入侵標志[3],IDS在防護網(wǎng)絡空間安全中占據(jù)重要地位。

      近年來,機器學習和深度學習的方法引起了廣泛關注。許多研究人員使用它們對網(wǎng)絡入侵檢測系統(tǒng)進行了研究,并且在準確率方面取得了不錯的成績。目前,基于網(wǎng)絡的入侵檢測系統(tǒng)最大的挑戰(zhàn)是提高它的泛化性能和效率。但是,由于很難獲得可靠的訓練數(shù)據(jù)、訓練數(shù)據(jù)的壽命以及高錯誤率等,大多數(shù)已有的入侵檢測系統(tǒng)仍然停留在基于已有標簽的檢測[4],無法追趕現(xiàn)在層出不窮的異常流量,這種方式高度依賴于數(shù)據(jù)的可用性,需要人類專家對數(shù)據(jù)進行過濾,依靠人類專家的指導,這是一個十分耗費時間和成本的過程,還可能限制計算機的能力。并且這種方式的檢測系統(tǒng)基本達到了飽和的狀態(tài),如果一直依賴這種方式應對現(xiàn)在日新月異的網(wǎng)絡異常流量,將會出現(xiàn)高錯誤率以及無效檢測的狀況[7]。因此,應該及時調(diào)整檢測方式,提出一種能夠被廣泛接受的方式,來打破現(xiàn)代網(wǎng)絡流量變化的約束。

      近年來,一些淺層的近鄰(KNN,-nearest neighbor)算法[8]、SVM算法等被應用在入侵檢測領域[9],并且展現(xiàn)出了良好的性能。但這樣的淺層學習算法也有一定的局限性,對數(shù)據(jù)樣本的限制以及復雜函數(shù)的表示能力有一定的限制,針對復雜問題,它們的泛化能力受到一定約束。為了克服淺層學習的問題,一些研究者已經(jīng)證明,分層的深度學習算法和淺層分類器相比較,能夠更好地對網(wǎng)絡數(shù)據(jù)進行學習以及分類[10]。

      為了解決上述問題,本文提出了一種新的無監(jiān)督的基于非對稱卷積自編碼器(NCAE)和支持向量機(SVM)的入侵檢測方法,結合了深層學習和淺層分類器對數(shù)據(jù)進行分析和識別,適應現(xiàn)代網(wǎng)絡流量的變化,使用KDD99數(shù)據(jù)集進行實驗,實驗結果表明,該方法有效提高了入侵檢測技術的效率和檢測能力。

      本文的主要貢獻總結如下。

      1) 使用無監(jiān)督特征學習的新的非對稱卷積自編碼器(NCAE)技術,NCAE方法與典型的自動編碼器方法不同,它提供了非對稱數(shù)據(jù)降維,解決了卷積神經(jīng)網(wǎng)絡和自編碼器的缺陷。因此,與深度信念網(wǎng)絡(DBN)以及棧式自編碼器(SAE)等領先方法相比,本文所提技術能夠改進分類結果。

      2) 利用深度的NCAE和SVM相結合的分類算法。通過結合兩者的深度和淺層學習技術,開發(fā)各自的優(yōu)勢,減少分析開銷,能夠更好或至少匹配類似研究的結果,同時顯著減少訓練時間。

      2 相關工作

      目前深度學習被應用在很多領域,如醫(yī)療[11]、自動駕駛[12]、圖像識別[13]以及自然語言處理[14]等,并且都展現(xiàn)出了良好的效果。在入侵檢測領域,也有很多研究人員使用深度學習算法對入侵檢測進行了研究。

      Zhao等在文獻[15]中提出了一項深度學習應用的最新研究。他們將傳統(tǒng)的機器學習方法與4種常見的深度學習方法(自動編碼器、受限玻爾茲曼機、卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡)進行了實驗比較。他們的研究得出結論,深度學習方法比傳統(tǒng)方法更準確。Dong等[16]對傳統(tǒng)的NIDS技術和深度學習方法的NIDS進行了比較并得出結論,基于深度學習的方法可以提高在各種樣本數(shù)量和異常流量類型下的入侵檢測準確率。同時,他們使用了合成少數(shù)過采樣技術(SMOTE),證明了用過采樣的方法可以克服與不平衡數(shù)據(jù)集相關的問題。

      本文還對入侵檢測算法中一些先進的深度學習算法進行了調(diào)研。Kim等[4]提出了一種利用深度神經(jīng)網(wǎng)絡(DNN)提高入侵檢測技術的方法,使用了100個隱藏單元,對數(shù)據(jù)進行歸一化預處理,采用ADAM優(yōu)化器對模型進行優(yōu)化。該方法在KDD CUP 99數(shù)據(jù)集上進行測試,準確率達到了99%。同時,作者表示循環(huán)神經(jīng)網(wǎng)絡以及長短期記憶模型都是未來網(wǎng)絡防御的需要。

      Wang等[5]提出了一個基于層次時空特征的入侵檢測系統(tǒng)(HAST-IDS),首先利用深層卷積神經(jīng)網(wǎng)絡(CNN)學習淺層特征,使用長短期記憶網(wǎng)絡學習深層特征,整個過程是一個高效的自動化過程,減少了入侵檢測系統(tǒng)的誤報率。該方法應用在標準數(shù)據(jù)集DARPA1998和ISCX2012進行評估,證明該方法在特征學習方面效果顯著。

      Jia等[6]使用卷積神經(jīng)網(wǎng)絡構造入侵檢測系統(tǒng),將輸入數(shù)據(jù)映射為二維灰度圖像進行處理。在測試階段,使用10個測試數(shù)據(jù)集對模型進行性能測試,實驗結果與其他入侵檢測系統(tǒng)進行比較,基于卷積神經(jīng)網(wǎng)絡的模型具有較高的檢測率和精度,作者證明了卷積神經(jīng)網(wǎng)絡在入侵檢測中的可行性。

      深度學習方法在入侵檢測領域取得了良好的效果,一些研究者已經(jīng)證明分層的深度學習算法和淺層分類器相結合能夠更好地對網(wǎng)絡數(shù)據(jù)進行學習以及分類。Shone等[7]提出了一種深度學習方法用于入侵檢測,使用一種非對稱的棧式自編碼器對數(shù)據(jù)進行特征學習,隨機森林對數(shù)據(jù)進行分類。他們使用KDD99和NSL-KDD數(shù)據(jù)集進行實驗,準確率分別達到了97.75%和85.42%,還分別對模型五分類和十三分類進行了實驗。作者表明深度神經(jīng)網(wǎng)絡和淺層分類器結合表現(xiàn)出的效果更好,更能適應現(xiàn)代網(wǎng)絡的變化。

      綜上所述,盡管一些IDS已經(jīng)取得了不錯的成績,但針對不同方向仍有很多改進的地方,包括監(jiān)督學習對于數(shù)據(jù)的需求、需要消耗大量人力和成本、大量數(shù)據(jù)訓練時間的優(yōu)化,以及對不平衡數(shù)據(jù)中小樣本的檢測準確率低、檢測模型的頑健性和可解釋性等。大多數(shù)的研究人員仍然從已有標簽數(shù)據(jù)出發(fā)研究問題,本文希望利用無監(jiān)督的卷積自編碼器的方式對數(shù)據(jù)進行處理,從提高入侵檢測系統(tǒng)對現(xiàn)代網(wǎng)絡流量的適應性以及檢測效率的角度出發(fā),進一步提高入侵檢測的性能。

      3 方法介紹

      3.1 自編碼器

      自編碼器是深度學習流行的算法之一,它是一種無監(jiān)督的學習方式,和主成分分析的方法比較相近,但能夠提供比主成分分析更強大的性能,已經(jīng)被廣泛應用在各個領域進行降維或者特征學習,如醫(yī)療[17]、汽車駕駛[18]等。數(shù)據(jù)經(jīng)過訓練之后自編碼器能嘗試將輸入盡可能地復制到輸出。自編碼器中有輸入層、隱藏層、輸出層、組成深層的神經(jīng)網(wǎng)絡模型,其中,每個層級之間有連接,但每個層中的單元之間沒有連接。隱藏層的維度通常比輸入層維度小,輸出層的維度通常和輸入層的維度相同,構建出輸入與輸出之間復雜的非線性關系。自編碼器主要由2部分組成:一個由函數(shù)()表示的編碼器和一個由()表示生成重構的解碼器。自編碼器不是簡單地對數(shù)據(jù)進行復制(()),這樣的輸出是毫無意義的,需要對自編碼器加一些約束,使它只能對數(shù)據(jù)進行近似的復制,它會自動優(yōu)先選取重要的特征進行學習,因此適用于數(shù)據(jù)中的特征學習。將輸出數(shù)據(jù)與輸入數(shù)據(jù)進行對比,得到的誤差進行反向傳播計算,調(diào)整參數(shù),優(yōu)化模型。一個典型的自編碼器如圖1所示。

      圖1 自編碼器

      隱藏層的作用是將高維數(shù)據(jù)轉換為低維版本,這個階段就是編碼階段,得到的數(shù)據(jù)是自動編碼器獲得的最顯著特征,而不是原始數(shù)據(jù)本身。

      自動編碼器的目標函數(shù)是

      其中,是一個非線性的假設,和參數(shù)分別表示權重和偏差。在整個過程中,它試圖將學到的輸入數(shù)據(jù)盡可能地與輸入數(shù)據(jù)保持相似,它們之間的誤差進行反向傳遞,其中,重構誤差的函數(shù)為

      其中,為重構誤差函數(shù),表示(())與之間的誤差,是一個編碼函數(shù),是一個解碼函數(shù)。

      3.2 卷積自編碼器

      卷積自編碼器是在自編碼器的基礎上建立起來的,它在自編碼器的基礎上添加了卷積操作。結合了卷積神經(jīng)網(wǎng)絡和自編碼器的優(yōu)點,解決了卷積神經(jīng)網(wǎng)絡對權重的敏感程度以及對大規(guī)模標記數(shù)據(jù)的依賴。同時也解決了深度信念網(wǎng)絡和自編碼器這種完全連接網(wǎng)絡的一些缺陷,如相鄰層之間的完全連接單元具有大量的訓練參數(shù)。通過卷積核能夠有效地將數(shù)據(jù)中的最優(yōu)特征提取出來,使用深度訓練的方式構造出深度的模型結構,輸出高維數(shù)據(jù)的低維版本。使用多個隱藏層實現(xiàn)深度,每增加一個隱藏層表示更加復雜的特征,可以降低計算的成本、所需的訓練數(shù)據(jù)量以及提供更大程度的精度。每一個隱藏層的輸出作為更高階層的輸入,所以通常第一層用來學習輸入數(shù)據(jù),輸出第一階特征;第二層用來學習和第一階特征相關的第二階特征,以此類推,它的訓練過程和自編碼器相似。假設的模型有個卷積核,每個卷積核都由參數(shù)ωb組成,使用h表示卷積層,則卷積層表示為

      其中,符號*為卷積操作,為激活函數(shù)。將得到的h進行重構特征,可以得到如下表達式

      4 提出的方法

      4.1 非對稱的卷積自編碼器

      提高入侵檢測效率是現(xiàn)代入侵檢測技術的關鍵。因此筆者的目標是建立一個快速高效的入侵檢測系統(tǒng)。本文介紹一種新的網(wǎng)絡入侵檢測系統(tǒng),它是非對稱的卷積自編碼器。從根本上說,它是由編碼器?譯碼器(對稱)到只有編碼器的過程(非對稱),主要是因為在特征進行學習的過程中,特征輸出映射數(shù)目減小,神經(jīng)網(wǎng)絡結構會篩選出最優(yōu)特征優(yōu)先輸出,從而模型結構學習到每一層的最優(yōu)特征。并且,如果有正確的學習結構,可以減少計算和時間開銷,提高模型的準確率和效率。非對稱的卷積自編碼器可以作為分層的特征提取器,它可以很好地縮放來適應高維數(shù)據(jù)的輸入,不用擔心高維數(shù)據(jù)的輸入。它的主要訓練過程和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡訓練過程相似。圖2展示了均衡卷積網(wǎng)絡和非均衡卷積網(wǎng)絡的區(qū)別。其中,代表維度縮減的隱藏層,代表編碼階段,代表解碼階段。

      NCAE的輸入向量假設為∈Rl,第一層隱藏層學習輸入層的數(shù)據(jù)映射為i∈Rl,其中,l表示向量的維度。它的編碼函數(shù)可以確定為

      其中,當=0時,0,表示激活函數(shù),這里使用sigmoid激活函數(shù),代表隱藏層的個數(shù)。Sigmoid激活函數(shù)可以表示為

      輸出數(shù)據(jù)可以表示為

      模型在訓練時進行反向傳播,調(diào)整誤差,非對稱的自編碼器的重構誤差可以表示為

      其中,代表訓練樣本,模型通過最小化重構誤差來調(diào)節(jié)參數(shù),從而達到最佳水平。

      4.2 基于NCAE-NSVM的入侵檢測模型

      4.1節(jié)詳細介紹了非對稱的卷積自編碼器,但使用單純的非對稱卷積自編碼器相比淺層的分類器(如KNN[8]以及SVM[9]算法),它的準確率并沒有很大提升。因此將深度學習和淺層學習算法相結合,能夠提升分類檢測的準確率。SVM算法是目前最流行的機器學習算法之一,是基于統(tǒng)計學習方法中比傳統(tǒng)方法更高效的一種方法。相比傳統(tǒng)的其他分類方法,SVM對小樣本數(shù)據(jù)、高維數(shù)據(jù)展現(xiàn)出了良好的效果。然而,隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)維度越來越大,數(shù)據(jù)量越來越多,使用SVM分類需要的時間較長,并且存在較高的錯誤率和低真正率。鑒于上述原因,本文開發(fā)了一種新的基于NCAE-NSVM的算法來提高分類檢測的準確率。圖3中展示了模型的主要架構,它是一個多層的無監(jiān)督的深度神經(jīng)網(wǎng)絡,主要分為3個步驟。第一步,預處理階段,將數(shù)據(jù)的稀疏特征進行合并,數(shù)值化,歸一化數(shù)據(jù)。第二步,特征提取階段,使用4.1節(jié)中提出的非對稱卷積自編碼器對數(shù)據(jù)進行特征提取。第三步,分類階段,將提取的最優(yōu)特征輸入基于二叉樹構建的多類SVM中進行逐層分類。

      由于現(xiàn)存的數(shù)據(jù)以及模型中存在一些無法避免的問題:1) 對于帶標簽的數(shù)據(jù)資源十分稀缺;2) 在很多深度學習網(wǎng)絡中,誤差函數(shù)是一個高度非凸的函數(shù),具有很多局部極值;3) 在深度神經(jīng)網(wǎng)絡中易出現(xiàn)梯度彌散問題。因此,使用無監(jiān)督的非對稱卷積自編碼器進行特征提取可以有效解決以上問題。

      支持向量機是一種高效的二分類機器學習算法,相比傳統(tǒng)的其他分類方法,SVM對小樣本數(shù)據(jù)、高維數(shù)據(jù)展現(xiàn)出了良好的效果。但大多數(shù)分類案例都是多分類的。如果使用SVM直接對數(shù)據(jù)進行多分類,則訓練時間通常很長。在本文中,提取的特征被輸入基于二叉樹構造的多類SVM分類器中。用它來檢測分類數(shù)據(jù),需要用到–1個SVM分類器,因此,本文實現(xiàn)了4個SVM檢測5種類型。其中的核函數(shù)是高斯核函數(shù),用來解決非線性樣本的分類問題。在這個過程中,SVM只輸出+1和1。多類SVM的分類步驟如下所示。

      1) 將得到的特征輸入SVM1中,SVM1首先判斷數(shù)據(jù)是正常類型還是攻擊類型,如果是攻擊類型,SVM輸出為1,并且將攻擊類型的數(shù)據(jù)輸入SVM2中,否則SVM的輸出為+1。

      2) SVM2接收到SVM1的輸出數(shù)據(jù)之后,判斷得到的數(shù)據(jù)是DoS還是Probe、U2R、R2L中的某個類型,如果是Probe、U2R、R2L中的某個類型,SVM輸出為?1,并將這類數(shù)據(jù)輸入SVM3中,否則SVM輸出為+1。

      3) SVM3接收到SVM2的輸出數(shù)據(jù)之后,判斷得到的數(shù)據(jù)是Probe還是U2R、R2L中的某個攻擊類型,如果是U2R、R2L中的攻擊類型,SVM輸出為1,并將該類數(shù)據(jù)輸入SVM4中進行分類,否則SVM輸出為+1。

      4) SVM4接收到SVM3的輸出數(shù)據(jù)之后,判斷得到的數(shù)據(jù)是否是U2R還是R2L,如果是U2R,則SVM輸出為+1,否則SVM輸出為1。

      模型中隱藏層的個數(shù)、每一層的輸出特征映射維數(shù)以及SVM中的參數(shù)(核函數(shù)以及懲罰因子)都是由十折交叉驗證得到的最優(yōu)參數(shù),模型的準確度主要取決于模型的結構以及參數(shù),因此,對模型進行參數(shù)的調(diào)節(jié)必不可少。

      4.3 模型復雜度以及時效性

      圖3 NCAE-NSVM模型架構

      5 實驗

      5.1 實驗設計

      本文的實驗流程如圖4所示,首先將KDD 99數(shù)據(jù)集數(shù)值化特征其中的字符型數(shù)據(jù),對數(shù)據(jù)進行歸一化操作。將獲得的標準數(shù)據(jù)集輸入卷積自編碼器中進行特征提取,使用多類SVM分類器進行訓練和測試。根據(jù)初步實驗結果分析模型的不足,得到優(yōu)化后的模型。在結果評價方面使用Accuracy、漏報率、誤報率等作為評價標準,最后將本文的結果和其他模型的結果進行對比,展示不同機器學習算法的效果。

      圖4 實驗流程

      5.2 實驗數(shù)據(jù)

      本文中使用的KDD99數(shù)據(jù)集是美國空軍9周收集的網(wǎng)絡連接和系統(tǒng)審計數(shù)據(jù),通過模擬各種用戶類型、各種網(wǎng)絡流量和攻擊方法,以模擬真實的網(wǎng)絡環(huán)境[19]。它的訓練數(shù)據(jù)包括490萬單個連接數(shù)據(jù),測試數(shù)據(jù)包含200萬個網(wǎng)絡連接數(shù)據(jù)。本文僅使用數(shù)據(jù)集的10%進行訓練,訓練數(shù)據(jù)共有494 021條記錄。這個數(shù)據(jù)集有5種類型:Normal、DoS、R2L、U2R、Probe。攻擊類型共39種,其中,22種類型的攻擊出現(xiàn)在訓練集中,另外17種未知類型出現(xiàn)在測試集中。表1展示了數(shù)據(jù)的詳細信息。其中,在訓練集中Normal類型有97 278條記錄,Probe類型有4 107條記錄,DoS有391 458條記錄,U2R有52條記錄,R2L有1126條記錄。在測試集中Normal類型有60 593條記錄,Probe有4 166條記錄,DoS有229 853條記錄,U2R有228條記錄,R2L有16 189條記錄。

      5.3 數(shù)據(jù)預處理

      KDD99數(shù)據(jù)集中每一條連接由41個特征組成,特征中含有很多非數(shù)值型的數(shù)據(jù)以及無用的特征,本文先對數(shù)據(jù)集進行預處理,將它們有效地轉換成可以被模型接受的特征。預處理部分主要可以分為兩步:數(shù)值化特征以及歸一化。

      表1 KDD99數(shù)據(jù)集數(shù)量

      1) 數(shù)值化特征?;谏窠?jīng)網(wǎng)絡的訓練需要使用數(shù)值型的特征。因此在預處理階段需要把非數(shù)值型的特征轉換為數(shù)值型的特征。在KDD 99數(shù)據(jù)集中有3種協(xié)議類型,70種服務符號取值和11種標簽符號取值都是非數(shù)值型的,本文采用One-hot編碼方式為它們建立相應的數(shù)值映射(如TCP=[0,0,1],UDP=[0,1,0],ICMP=[1,0,0])轉換為數(shù)值特征。

      2) 歸一化。因為 KDD99數(shù)據(jù)中存在一些離散或連續(xù)的數(shù)值,它們的范圍不同,使數(shù)據(jù)在各維度之間不存在可比性,規(guī)范化方法使用以下方法映射[0, 1]之間的數(shù)字屬性。

      其中,是數(shù)據(jù)中某一維度的值,min是該維度的最小值,max是該維度的最大值,X是最后得到的歸一化之后的數(shù)據(jù)。

      5.4 實驗環(huán)境及參數(shù)

      該模型的實驗是在硬件環(huán)境Intel(R) Core i77700HQ CPU @2.80 GHz,8 GB RAM,1 TB硬盤上以及Windows10操作系統(tǒng)上進行的,使用編程語言Python 3.5實現(xiàn)了所提出的入侵檢測模型。仿真環(huán)境配置如表2所示。

      在模型中主要的參數(shù)變量包含卷積自編碼器中每層輸出的特征映射、學習率、步長以及支持向量機的核函數(shù)的參數(shù)和懲罰因子。參數(shù)的具體數(shù)值如表2所示。

      表2 實驗變量參數(shù)

      5.5 評估指標

      本文使用幾個評估指標來評估模型的性能:準確率()、精確率()、召回率()、誤報率(A)和漏報率(R)。準確率、誤報率和漏報率用來評估整體的性能,精確率和召回率用來評估模型之間的比較?;煜仃嚾绫?所示,它們的定義如下所示。

      表3 混淆矩陣

      TP: 1類被正確預測為1類。

      TN: 0類被正確預測為0類。

      FP: 0類被錯誤預測為1類。

      FN: 1類被錯誤預測為0類。

      準確率是指分類器分類正確的樣本個數(shù)與樣本總數(shù)之比,計算公式如下。

      漏報率是分類器錯誤預測的樣本與實際類別為0的所有樣本的比率,公式如下。

      誤報率的定義為

      召回率是指預測類別為1的類型被分類為1,其計算公式如下。

      精確率是指預測為1的樣本中被預測正確的概率,其計算公式如下。

      5.6 仿真實驗及結果分析

      實驗1 模型層數(shù)對檢測結果的影響

      深度神經(jīng)網(wǎng)絡中模型的層數(shù)對模型的檢測程度都有重要影響。本文分析了非對稱卷積自編碼器的層數(shù)對結果的影響。它們的檢測指標是準確率、誤報率和漏報率。如表4所示,本文設計了6種不同的非對稱卷積自編碼器隱藏層層數(shù),分別為5、6、7、8、9、10層,從上到下網(wǎng)絡的層數(shù)逐漸增多,數(shù)據(jù)的檢測結果一定程度上受到隱藏層個數(shù)的影響,隨著隱藏層個數(shù)的提升,準確率也在提升,誤報率、漏報率在減少,主要是因為隱藏層的個數(shù)越多,模型對數(shù)據(jù)的非線性擬合能力越強,越有利于高維數(shù)據(jù)向低維數(shù)據(jù)轉換,可以提高模型檢測的準確率以及分類速度。但是隱藏層的個數(shù)有最優(yōu)值,在9層結構中神經(jīng)網(wǎng)絡的檢測結果達到最優(yōu),準確率達到了97.71%,高于其他模型結構,誤報率為3.11%,漏報率7.22%,均優(yōu)于其他模型。因此,本文選擇9層模型結構作為入侵檢測系統(tǒng)中卷積自編碼器的結構。這也說明神經(jīng)網(wǎng)絡的深度并不是越深越好,如果層數(shù)過多,反而會降低準確率,提高誤報率以及漏報率,使參數(shù)調(diào)節(jié)復雜度變高。

      表4 非對稱自編碼器結構對檢測結果的影響

      實驗2 迭代次數(shù)對性能的影響

      模型的迭代次數(shù)決定了模型是否完全將數(shù)據(jù)中的特征進行學習,這是一個黑盒的過程,因此需要通過實驗不斷調(diào)整合適的參數(shù)。從圖5可以看出模型迭代次數(shù)對檢測損失值的影響。當?shù)螖?shù)在10以內(nèi)時,漏報率和誤報率較高,主要是因為神經(jīng)網(wǎng)絡還沒有學到所有的數(shù)據(jù)特征;當?shù)螖?shù)在10~20之間時,模型基本能夠?qū)W習到數(shù)據(jù)的所有特征,并且準確率保持在一個較高水平,誤報率和漏報率保持較低水平;當?shù)螖?shù)達到20以上時,準確率有所下降,誤報率上升,出現(xiàn)了過擬合現(xiàn)象。因此,對于數(shù)據(jù)集的訓練迭代次數(shù)應該保持在10~20之間,在這樣的迭代次數(shù)下,模型能夠?qū)W習到數(shù)據(jù)中的全部特征,并且保證模型不過擬合。

      圖5 迭代次數(shù)與損失值的關系

      實驗3 與其他模型的性能比較

      圖6 不同算法之間的測試時間比較

      綜上所述,本文所提出的NCAE-NSVM算法結合了卷積神經(jīng)網(wǎng)絡和自編碼器的優(yōu)點,并且解決了卷積神經(jīng)網(wǎng)絡對權重的敏感程度以及對大規(guī)模標記數(shù)據(jù)的依賴。同時也解決了深度信念網(wǎng)絡和自編碼器這種完全連接網(wǎng)絡的一些缺陷,如相鄰層之間的完全連接單元具有大量的訓練參數(shù)。通過實驗證明,該方法擺脫了對已標記數(shù)據(jù)的依賴,不僅在準確率方面取得了不錯的成績,在訓練時間上也有明顯提升,在現(xiàn)代網(wǎng)絡空間安全中的入侵檢測系統(tǒng)中具有一定的優(yōu)勢以及時效性,且在數(shù)據(jù)集中的小樣本檢測率方面還有一定程度的提升。

      表5 非對稱自編碼器結構對檢測結果的影響

      6 結束語

      本文對入侵檢測領域中的深度學習算法進行了廣泛調(diào)查,現(xiàn)代網(wǎng)絡流量數(shù)量增多,并且出現(xiàn)了很多新的協(xié)議,現(xiàn)有的入侵檢測系統(tǒng)大多基于已有標記的數(shù)據(jù)進行檢測,無法識別出網(wǎng)絡流量中新的攻擊類型,對于未來的可擴展性顯現(xiàn)出一定的局限性,并且檢測效率相對較低,需要專家操作對數(shù)據(jù)進行標記和預處理,嚴重威脅了網(wǎng)絡空間安全。基于以上原因,提出了一種新的網(wǎng)絡入侵檢測系統(tǒng)NCAE-NSVM,該模型同時彌補了卷積神經(jīng)網(wǎng)絡和自編碼器的缺點:卷積神經(jīng)網(wǎng)絡對權重過于敏感以及極度依賴大規(guī)模標記數(shù)據(jù)進行訓練;自編碼相鄰層之間參數(shù)過多;使用非對稱的卷積自編碼器的數(shù)據(jù)進行特征提取,多類SVM對數(shù)據(jù)進行分類。經(jīng)過實驗驗證,模型的整體準確率達到97.91%,同時顯著減少了訓練的時間。本文的主要貢獻在于提出了模型的完整思路以及實驗設計,實現(xiàn)了大規(guī)模入侵檢測樣本的特征提取與分類檢測的模型,最終經(jīng)過實驗驗證取得了良好的效果。未來筆者將繼續(xù)在這一方面進行深入研究,后續(xù)的工作需要提高樣本的數(shù)量并且嘗試使用本文的模型測試其他數(shù)據(jù)集,在短訓練時間內(nèi),進一步提升數(shù)據(jù)中小樣本的分類情況,使入侵檢測技術得到進一步提升。

      [1] 賽門鐵克. 互聯(lián)網(wǎng)安全威脅報告[R]. 2018.

      Symantec. Internet security threat report[R]. 2018.

      [2] LIAO H J, LIN C H R., LIN Y C, et al. Intrusion detection system: a comprehensive review[J]. J Netw Comput Appl, 2013, 36(1): 16-24.

      [3] CHOWDHURY M M U, XIN C, LI J, et al. A few-shot deep learning approach for improved intru-sion detection[C]//IEEE Uemcon. 2017.

      [4] KIM J, SHIN N, JO S Y, et al. Method of intrusion detection using deep neural network[C]//2017 IEEE International Conference on Big Data and Smart Computing (BigComp). 2017: 313–316.

      [5] WANG W, SHENG Y, WANG J, et al. HAST-IDS: learning hierarchical spatial-temporal features using deep neural networks to improve Intrusion detection[J]. IEEE Access, 2018, 6(99):1792-1806.

      [6] JIA F, KONG L Z. Intrusion detection algorithm based on convolutional neural network[J]. Beijing Transaction of Beijing Institute of Technology, 2017, 37(12):1271-1275.

      [7] SHONE N, NGOC T N, PHAI V D, et al. A deep learning approach to network intrusion detection[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2018, 2(1):41-50.

      [8] DAVE D, VASHISHTHA S. Efficient intrusion detection with KNN classification and DS theory[C]//All India Seminar on Biomedical Engineering 2012 (AISOBE 2012). Springer, 2013:173-188.

      [9] ABUROMMAN A A, REAZ M B I. A novel SVM-kNN-PSO ensemble method for intrusion detection system[J]. Applied Soft Computing, 2016, 38: 360-372.

      [10] HOU S, SAAS A, CHEN L, et al. Deep4MalDroid: a deep learning framework for android malware detection based on Linux kernel system call graphs[C]//2016 IEEE/WIC/ACM International Conference on Web Intelligence Workshops (WIW). 2016: 104-111.

      [11] SHEN D, WU G, SUK H I. Deep learning in medical image analysis[J]. Annual Review of Biomedical Engineering, 2017, 19(1): 221-248.

      [12] LIU H, TANIGUCHI T, TANAKA Y, et al. Essential feature extraction of driving behavior using a deep learning method[C]//Intelligent Vehicles Symposium. 2015:1054-1060.

      [13] GRM K, ?TRUC V, ARTIGES A, et al. Strengths and weaknesses of deep learning models for face recognition against image degradations[J]. Iet Biometrics, 2018, 7(1):81-89.

      [14] GARDNER M, GRUS J, NEUMANN M, et al. AllenNLP: a deep semantic natural language processing platform[J]. Computer Science Bibliography, 2018.

      [15] ZHAO R, YAN R, CHEN Z, Deep learning and its applications to machine health monitoring: a survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 14(8):1-14.

      [16] DONG B, WANG X, Comparison deep learning method to traditional methods using for network intrusion detection[C]//2016 8th IEEE International Conference on Communication Software and Networks (ICCSN). 2016: 581-585.

      [17] XU J, XIANG L, LIU Q, et al. Stacked sparse autoencoder (SSAE) for nuclei detection on breast cancer histopathology images[C]//IEEE International Symposium on Biomedical Imaging. 2014:119-130.

      [18] DONG W, YUAN T, YANG K, et al. Autoencoder regularized network for driving style representation learning[J]. arXiv: 1701.01272, 2017.

      [19] TAVALLAEE M, BAGHERI E, LU W, et al. A detailed analysis of the KDD CUP 99 data set[C]//IEEE International Conference on Computational Intelligence for Security & Defense Applications. 2009:1-6.

      [20] THASEEN I S, KUMAR C A. Intrusion detection model using fusion of chi-square feature selection and multi class SVM[J]. Journal of King Saud University - Computer and Information Sciences, 2016, 29(4).

      [21] ALRAWASHDEH K, PURDY C. Toward an online anomaly intrusion detection system basedon deep learning[C]//15th IEEE International Conference on Machine Learning and Applications (ICMLA). 2016: 195-200.

      Intrusion detection model based on non-symmetric convolution auto-encode and support vector machine

      WANG Jialin, LIU Jiqiang, ZHAO Di, WANG Yingdi, XIANG Yingxiao, CHEN Tong, TONG Endong, NIU Wenjia

      Beijing Key Laboratory of Security and Privacy in Intelligent Transportation, Beijing Jiaotong University, Beijing 100044, China

      Network intrusion detection system plays an important role in protecting network security. With the continuous development of science and technology, the current intrusion technology cannot cope with the modern complex and volatile network abnormal traffic, without taking into account the scalability, sustainability and training time of the detection technology. Aiming at these problems, a new deep learning method was proposed, which used unsupervised non-symmetric convolutional auto-encoder to learn the characteristics of the data. In addition, a new method based on the combination of non-symmetric convolutional auto-encoder and multi-class support vector machine was proposed. Experiments on the data set of KDD99 show that the method achieves good results, significantly reduces training time compared with other methods, and further improves the network intrusion detection technology.

      intrusion detection technology, convolutional auto-encoder, support vector machine, network security

      TP18

      A

      10.11959/j.issn.2096-109x.2018086

      王佳林(1994-),女,山西太原人,北京交通大學碩士生,主要研究方向為信息安全和人工智能安全。

      劉吉強(1973-),男,山東海陽人,博士,北京交通大學教授、博士生導師,主要研究方向為隱私保護、可信計算、安全協(xié)議設計與分析。

      趙迪(1995-),女,河北承德人,北京交通大學碩士生,主要研究方向為信息安全和人工智能安全。

      王盈地(1995-),女,河北石家莊人,北京交通大學碩士生,主要研究方向為信息安全。

      相迎宵(1994-),女,山西運城人,北京交通大學碩士生,主要研究方向為信息安全和人工智能安全。

      陳彤(1993-),女,天津人,北京交通大學博士生,主要研究方向為信息安全和人工智能安全。

      童恩棟(1986-),男,山東聊城人,博士,北京交通大學講師,主要研究方向為智能信息處理、網(wǎng)絡空間安全。

      牛溫佳(1982-),男,寧夏銀川人,博士,北京交通大學教授、博士生導師,主要研究方向為人工智能安全。

      2018-09-07;

      2018-10-24

      牛溫佳,niuwj@bjtu.edu.cn

      中央高?;A研究基金資助項目(No.2017RC016, No.2018JBZ103);國家自然科學基金資助項目(No.61672092);信息保障科技實驗室基金資助項目(No.614200103011711);北京優(yōu)秀人才培養(yǎng)基金資助項目(No.BMK2017B02-2);國家留學基金委資助項目(No.201807095014)

      The Fundamental Research Funds for the Central Universities (No.2017RC016, No.2018JBZ103), The National Natural Science Foundation of China (No.61672092), Science and Technology on Information Assurance Laboratory (No.614200103011711), Beijing Excellent Talent Training Project(No.BMK2017B02-2), China Scholarship Council (No.201807095014)

      猜你喜歡
      非對稱編碼器準確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
      非對稱Orlicz差體
      基于FPGA的同步機軸角編碼器
      高速公路車牌識別標識站準確率驗證法
      基于PRBS檢測的8B/IOB編碼器設計
      點數(shù)不超過20的旗傳遞非對稱2-設計
      JESD204B接口協(xié)議中的8B10B編碼器設計
      電子器件(2015年5期)2015-12-29 08:42:24
      非對稱負載下矩陣變換器改進型PI重復控制
      電測與儀表(2015年4期)2015-04-12 00:43:04
      巫山县| 古蔺县| 喜德县| 京山县| 获嘉县| 光泽县| 红桥区| 察哈| 阿拉善右旗| 甘南县| 碌曲县| 乐业县| 彰化县| 龙州县| 高碑店市| 汶上县| 漠河县| 龙陵县| 顺义区| 微山县| 额敏县| 鄢陵县| 正镶白旗| 新干县| 德江县| 抚远县| 海晏县| 十堰市| 威远县| 翁源县| 当雄县| 姚安县| 根河市| 德江县| 正镶白旗| 青铜峡市| 通化市| 平山县| 咸阳市| 象州县| 和林格尔县|