• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于半監(jiān)督學習的工控網(wǎng)絡入侵檢測方法

      2018-01-29 01:42:16張松清劉智國
      關(guān)鍵詞:網(wǎng)絡流量工控樣本

      張松清,劉智國

      (中國電子信息產(chǎn)業(yè)集團有限公司第六研究所,北京 100083)

      0 引言

      當前,工控網(wǎng)絡重要性日益凸顯。隨著計算機和網(wǎng)絡技術(shù)的發(fā)展,工業(yè)控制廣泛采用開放的工業(yè)通信協(xié)議、網(wǎng)絡設(shè)施和通用軟硬件,甚至與互聯(lián)網(wǎng)和企業(yè)管理信息系統(tǒng)交換數(shù)據(jù),針對工控網(wǎng)絡的攻擊也快速增多。工控領(lǐng)域的網(wǎng)絡威脅極大地危害工業(yè)控制的正常運行,使得工業(yè)控制系統(tǒng)的脆弱性開始逐漸顯現(xiàn),針對工業(yè)控制系統(tǒng)的攻擊行為快速增長[1]。2010年爆發(fā)的“震網(wǎng)”病毒、2012年的“火焰”超級病毒以及2014年的Havex 病毒等專門針對工業(yè)控制系統(tǒng)的病毒給用戶造成了巨大的損失,同時也威脅到了國家安全。分析此后2015年發(fā)生的烏克蘭電力遭受攻擊事件,可以看出攻擊的成本在降低,而攻擊所帶來的影響在進一步加重。2017年5月WannaCry勒索病毒席卷全球,影響到近百個國家上千家企業(yè)及公共組織。

      工業(yè)控制系統(tǒng)是為了完成各種實時控制功能而設(shè)計的,當初并沒有考慮到安全防護方面的問題,通過網(wǎng)絡互聯(lián)使它們在網(wǎng)絡空間中暴露,無疑將給它們所控制的重要系統(tǒng)、關(guān)鍵基礎(chǔ)設(shè)施等帶來巨大的安全風險和隱患。為了避免工控安全事件的發(fā)生,有效地對網(wǎng)絡攻擊進行檢測及提前預防顯得至關(guān)重要。

      目前已經(jīng)有許多基于規(guī)則匹配的網(wǎng)絡入侵檢測方法[2],這類方法對已知的病毒、木馬等威脅的檢測效果明顯。目前基于智能學習的網(wǎng)絡入侵檢測研究已成為趨勢,包括支持向量機(SVM)、樸素貝葉斯網(wǎng)絡、神經(jīng)網(wǎng)絡等。這些方法對有監(jiān)督分類問題效果明顯,而工控網(wǎng)絡流量數(shù)據(jù)已有大量標記好的異常流量數(shù)據(jù)以及大量的無標注流量,有監(jiān)督分類方法并不適合解決這一問題。本文提出一種基于半監(jiān)督機器學習的工控網(wǎng)絡入侵檢測方法,該方法的運用能夠提高未知威脅的檢測能力。

      1 入侵檢測技術(shù)

      1.1 概述

      入侵檢測技術(shù)是一種主動的保障信息安全的技術(shù),可以有效彌補防火墻等傳統(tǒng)安全防護技術(shù)被動防御的缺陷,因此針對復雜的工控系統(tǒng)網(wǎng)絡攻擊,入侵檢測技術(shù)是有效發(fā)現(xiàn)和防御入侵的防護手段。

      入侵檢測技術(shù)包括特征檢測和異常檢測。特征檢測有較高的檢測準確率,存在的問題是無法檢測未知的攻擊;異常檢測有較強的通用性,可以對未知攻擊進行檢測,有比較廣闊的應用前景,其主要缺陷是誤檢率較高。

      1.2 機器學習方法

      機器學習是人工智能的核心。當前,已有大量基于機器學習的入侵檢測技術(shù)的研究,包括基于聚類分析、數(shù)據(jù)挖掘、行為統(tǒng)計、神經(jīng)網(wǎng)絡等技術(shù)的入侵檢測方法[3-4],然而這些技術(shù)存在處理速度慢、模型難以建立、誤報率高、純凈訓練數(shù)據(jù)難以獲取等不足,無法滿足工控系統(tǒng)較高的實時性和可用性要求。

      研究基于機器學習的入侵檢測技術(shù)對建立智能化的高效入侵檢測模型,提高工控網(wǎng)絡異常行為檢測精度意義重大。本文針對工控系統(tǒng)網(wǎng)絡數(shù)據(jù)的特點,提出一種基于半監(jiān)督機器學習[5-8]的入侵檢測方法,該方法可以提高網(wǎng)絡攻擊流量的檢測準確率。

      2 基于半監(jiān)督學習的入侵檢測方法

      2.1 技術(shù)架構(gòu)

      該入侵檢測技術(shù)由四個主要的功能模塊組成,分別是網(wǎng)絡數(shù)據(jù)獲取、特征提取、模型訓練以及網(wǎng)絡流量檢測,各主要模塊之間相對獨立,總體架構(gòu)如圖1所示。

      圖1 系統(tǒng)總體架構(gòu)圖

      2.2 模塊設(shè)計

      2.2.1網(wǎng)絡數(shù)據(jù)獲取

      使用機器學習訓練模型時,需要利用正負樣本數(shù)據(jù)集。對于工控系統(tǒng)網(wǎng)絡入侵檢測,正樣本數(shù)據(jù)就是入侵的異常網(wǎng)絡流量,負樣本為正常網(wǎng)絡流量。

      對于正樣本數(shù)據(jù),即入侵的異常網(wǎng)絡數(shù)據(jù),目前已有一些機構(gòu)進行了標記,例如KDD99(MIT Lincoln實驗室提供的1998 DARPA入侵檢測評估數(shù)據(jù)集)以及密西西比州立大學關(guān)鍵基礎(chǔ)設(shè)施保護中心于2014年提出的用于工控系統(tǒng)入侵檢測評估的數(shù)據(jù)集等。但很少有對正常流量的標記,在實際網(wǎng)絡數(shù)據(jù)中,標記樣本需要人工完成,耗時耗力,而未標記樣本既容易獲取也非常充裕。

      2.2.2特征提取

      在某個時間周期內(nèi)對網(wǎng)絡流量進行捕獲,這些網(wǎng)絡流量由多次的TCP網(wǎng)絡連接數(shù)據(jù)組成,每一次完整的TCP連接作為一次記錄,對每次記錄進行分析,統(tǒng)一處理。特征提取方式參考KDD99數(shù)據(jù)集的提取方式,共計41個特征,如表1所示。

      表1 網(wǎng)絡數(shù)據(jù)特征提取

      這些特征中有的是數(shù)值型,有的是字符型,但是本文中的技術(shù)只能處理數(shù)值型的向量,因此,在模型訓練之前需要先將輸入數(shù)據(jù)作數(shù)值化處理以及正規(guī)化處理。例如,協(xié)議類型(TCP、UDP以及ICMP)可以用1、2和3表示;每條記錄是否是攻擊流量用1和-1表示,1代表正常流量,而-1表示攻擊流量。

      2.2.3模型訓練

      針對獲取到的網(wǎng)絡流量數(shù)據(jù)特點,該技術(shù)采用半監(jiān)督分類的方式來訓練模型。該方法結(jié)合了Rocchio以及LIBLINEAR[9]兩種技術(shù)。

      (1)

      其中,α和β是調(diào)整訓練樣本相關(guān)與不相關(guān)性的影響參數(shù)。在分類中,對于每個測試集網(wǎng)絡流量數(shù)據(jù)td,使用余弦相似性的方法來計算td與每個原型向量的相似性,td與哪個原型向量更相似,就把該原型向量的類型賦給td。

      LIBLINEAR是由LIN C J博士設(shè)計和開發(fā)的,它是為線性分類問題而設(shè)計的。使用LIBLINEAR時,可以容易地處理百萬到千萬級別的數(shù)據(jù),這是因為LIBLINEAR本身就是設(shè)計用于解決較大規(guī)模樣本的模型訓練。

      模型訓練的思路是先使用Rocchio技術(shù)從大量的未標記網(wǎng)絡數(shù)據(jù)中挑選出可信賴的正常網(wǎng)絡數(shù)據(jù),然后再使用LIBLINEAR技術(shù)訓練模型。該算法如圖2所示。

      圖2 半監(jiān)督分類方法流程圖

      本文設(shè)計了一種使用Rocchio技術(shù)來從未標記網(wǎng)絡數(shù)據(jù)(記為U)中提取可靠的負樣例數(shù)據(jù)(記為RN)的方法,其中正樣例數(shù)據(jù)記為P,算法的偽代碼如公式2所示。

      1. 將未標記網(wǎng)絡流量數(shù)據(jù)U賦值成負類,正樣本網(wǎng)絡流量數(shù)據(jù)P賦值成正類

      (2)

      4. forU中的每條網(wǎng)絡流量d′ do

      6. RN←RN∪{d′}

      在基于正樣本的學習方法中,未標記數(shù)據(jù)集U中的負樣本數(shù)據(jù)通常包含多種類型,在向量空間中,占有很大區(qū)域,而正樣本數(shù)據(jù)通常是同一類型的,覆蓋一個小得多的區(qū)域,如圖3所示。Rocchio是線性分類器,假設(shè)真的有一個決策面S能夠區(qū)分正負樣本,那么,由于Rocchio中的向量疊加原理,正原型向量會比負原型向量更接近決策面S,這種方式識別出的負樣本數(shù)據(jù)純度很高。

      圖3 Rocchio分類效果圖

      Rocchio學習到的模型通常比LIBLINEAR弱,而噪聲對LIBLINEAR技術(shù)影響較大。為了更好地分類,本文提出將Rocchio與LIBLINEAR結(jié)合。使用Rocchio從U中提取出RN后,再使用P和RN來運行LIBLINEAR,最后生成一個分類效果較好的模型。

      2.2.4網(wǎng)絡入侵檢測

      通過機器學習算法獲得了檢測異常網(wǎng)絡流量的模型后,可以用來對未知網(wǎng)絡流量數(shù)據(jù)進行檢測。流量檢測流程如圖4所示。先對待檢測數(shù)據(jù)使用相同的特征提取過程,然后利用訓練好的模型進行檢測,從而識別出正常網(wǎng)絡流量和異常網(wǎng)絡流量。

      圖4 網(wǎng)絡流量檢測流程圖

      3 驗證與分析

      3.1 實驗結(jié)果

      本文采用KDD99數(shù)據(jù)集進行實驗,KDD99訓練數(shù)據(jù)集包括494 021條記錄,測試集包括311 029條記錄。訓練數(shù)據(jù)集中有22種攻擊類型,測試集中增加了14種新的攻擊類型。在測試檢測算法時,使用指標precision和recall進行評估,其定義為:

      (3)

      (4)

      檢測的結(jié)果precision和recall值越高,效果越好,但實際上這兩者并沒有必然的關(guān)系。在實際應用中,兩者也是相互制約的,因此,需要新的指標將二者結(jié)合,其中一個重要的指標就是F-measure。公式如下:

      (5)

      如果precision和recall同等重要,β值設(shè)為1,這樣得到的結(jié)果稱為F1。如果β比1大,recall比precision更重要;如果β比1小,precision比recall更重要。在網(wǎng)絡入侵檢測的研究中,recall(不遺漏任何異常流量)比precision(沒有把正常流量識別成異常流量)是更重要的。沒有檢測出異常流量可能會導致網(wǎng)絡入侵,或者對系統(tǒng)安全留下了隱患。因此,本文同時選取F1、F2及F3進行評估。

      實驗中從KDD99的訓練集中隨機選取10 000條異常網(wǎng)絡數(shù)據(jù)作為訓練集的正樣本數(shù)據(jù)集,然后使用Rocchio方法從KDD99訓練集中的剩余樣本中識別出10 000條正常數(shù)據(jù)作為負樣本數(shù)據(jù),再使用LIBLINEAR進行模型訓練。實驗的測試集為從KDD99測試集中隨機選取的6 000個樣本,其中正樣本數(shù)據(jù)1 550個。實驗結(jié)果如表2所示。

      表2 實驗結(jié)果

      表1中的檢測結(jié)果依賴于各個環(huán)節(jié)的處理,技術(shù)實現(xiàn)時盡可能對各個部分進行了優(yōu)化。

      3.2 實驗對比及影響因素分析

      在本文的的半監(jiān)督分類方法中,只有正樣本數(shù)據(jù),沒有負樣本數(shù)據(jù)。有一種方法可以只利用一種類型的數(shù)據(jù)進行模型訓練,例如one-class SVM,實驗發(fā)現(xiàn)使用one-class SVM方法,只用異常網(wǎng)絡流量數(shù)據(jù)訓練模型時,檢測結(jié)果并不好,precision和recall值不足0.6。另外,Liu Bing等人實現(xiàn)了一種半監(jiān)督分類工具,并且提供二進制文件下載[10]。該分類工具中包含S-EM和Roc-SVM兩種方法,實驗發(fā)現(xiàn),S-EM檢測結(jié)果中絕大多數(shù)測試集數(shù)據(jù)被識別成正樣本數(shù)據(jù),而Roc-SVM則剛好相反,對于本實驗來說,效果并不理想。

      本文中技術(shù)實現(xiàn)時包含很多環(huán)節(jié),許多因素會對檢測結(jié)果產(chǎn)生影響。其中一個因素是特征提取環(huán)節(jié),選取不同特征對模型訓練會有很大影響;另外一個影響因素是測試數(shù)據(jù)的選取,算法對網(wǎng)絡異常流量檢測具有通用性,但是針對不同的數(shù)據(jù)集,還需對算法的處理細節(jié)進行調(diào)整。

      4 結(jié)論

      工控系統(tǒng)的應用已經(jīng)變得普及,工控網(wǎng)絡也逐漸與互聯(lián)網(wǎng)開始融合,使得工業(yè)控制系統(tǒng)的脆弱性正在逐漸顯現(xiàn)。本文針對工控網(wǎng)絡數(shù)據(jù)特點,結(jié)合多種機器學習算法,設(shè)計了一種基于半監(jiān)督機器學習的入侵檢測技術(shù),使用該技術(shù)可以有效地檢測出工控系統(tǒng)網(wǎng)絡中的異常流量,從而及時發(fā)現(xiàn)和防御入侵攻擊。未來的網(wǎng)絡攻擊變種會更具欺騙性,關(guān)于準確性這一問題還需要進行更具創(chuàng)新性的研究和更多細致完善的工作。

      [1] 劉廣生, 張松清. 智能電網(wǎng)信息安全威脅及對策分析[J]. 微型機與應用, 2017,36(5):8-10.

      [2] 程冬梅, 嚴彪, 文輝,等. 基于規(guī)則匹配的分布式工控入侵檢測系統(tǒng)設(shè)計與實現(xiàn)[J]. 信息網(wǎng)絡安全, 2017(7):45-51.

      [3] 羅耀鋒. 面向工業(yè)控制系統(tǒng)的入侵檢測方法的研究與設(shè)計[D]. 杭州:浙江大學, 2013.

      [4] 楊安, 孫利民, 王小山, 等. 工業(yè)控制系統(tǒng)入侵檢測技術(shù)綜述[J]. 計算機研究與發(fā)展, 2016, 53(9):2039-2054.

      [5] 劉建偉, 劉媛, 羅雄麟. 半監(jiān)督學習方法[J]. 計算機學報, 2015,38(8):1592-1617.

      [6] 牛罡, 羅愛寶, 商琳. 半監(jiān)督文本分類綜述[J]. 計算機科學與探索, 2011, 5(4):313-323.

      [7] 杜芳華. 基于半監(jiān)督學習的文本分類算法研究[D]. 北京:北京工業(yè)大學, 2014.

      [8] 譚建平, 劉波, 肖燕珊. 基于半監(jiān)督的SVM遷移學習文本分類算法[J]. 無線互聯(lián)科技, 2016(4): 71-75.

      [9] Fan Rongen, Chang Kaiwei, HSIEH C J, et al. LIBLINEAR: a library for large iinear classification[J]. Journal of Machine Learning Research, 2010, 9(12):1871-1874.

      [10] Liu Bing, Li Xiaoli. LPU: learning from positive and unlabeled examples[EB/OL].(2003-07-10) https://www.cs.uic.edu/~liub/LPU/LPU-download.html.

      猜你喜歡
      網(wǎng)絡流量工控樣本
      基于多元高斯分布的網(wǎng)絡流量異常識別方法
      基于神經(jīng)網(wǎng)絡的P2P流量識別方法
      用樣本估計總體復習點撥
      推動醫(yī)改的“直銷樣本”
      AVB網(wǎng)絡流量整形幀模型端到端延遲計算
      工控速派 一個工控技術(shù)服務的江湖
      工控速浱 一個工控技術(shù)服務的江湖
      隨機微分方程的樣本Lyapunov二次型估計
      熱點追蹤 工控安全低調(diào)而不失重要
      基于攻擊圖的工控系統(tǒng)脆弱性量化方法
      自動化學報(2016年5期)2016-04-16 03:38:47
      和静县| 蓝田县| 巧家县| 个旧市| 神木县| 崇左市| 木里| 宝丰县| 泗洪县| 昌都县| 黄梅县| 旌德县| 外汇| 长泰县| 偏关县| 宝鸡市| 任丘市| 田东县| 佛山市| 长海县| 富顺县| 赞皇县| 黎川县| 黑水县| 卢龙县| 双峰县| 分宜县| 新巴尔虎左旗| 墨脱县| 包头市| 汝阳县| 平顶山市| 石棉县| 临泽县| 新蔡县| 衡南县| 封开县| 保靖县| 隆德县| 江安县| 天柱县|