王展鵬,吳紅光,馬蓓嬌,周夢甜,張曼雨,周馳航
(中國電子科技集團有限公司第二十六研究所,浙江 嘉興314033)
隨著物聯(lián)網技術的快速發(fā)展,中國制造2025、德國工業(yè)4.0等戰(zhàn)略的提出,工業(yè)物聯(lián)網進入了迅猛發(fā)展的階段。賽迪顧問數據預測,到2020年,工業(yè)物聯(lián)網在中國物聯(lián)網產業(yè)整體中占比將達到25%,規(guī)模突破4500億元。在快速發(fā)展的同時,工業(yè)物聯(lián)網也面臨著不斷攀升的網絡安全威脅[1]。
入侵檢測系統(tǒng) (IDS,Intrusion Detection System)是信息安全防護的重要組成部分之一,能夠幫助系統(tǒng)快速發(fā)現(xiàn)攻擊,檢測到入侵行為。入侵檢測系統(tǒng)在傳統(tǒng)互聯(lián)網中有著廣泛的應用,工業(yè)物聯(lián)網融合了互聯(lián)網和工控網絡,針對性的應用入侵檢測技術能夠帶來良好的安全防護效益[2]。本文采用數種機器學習的入侵檢測技術,針對工業(yè)物聯(lián)網安全防護進行討論。
工業(yè)物聯(lián)網是工業(yè)網絡、物聯(lián)網、工業(yè)4.0等的融合產物。隨著工業(yè)發(fā)展與信息化的高度融合,通過使用物聯(lián)網技術、工業(yè)以太網讓更多環(huán)節(jié)接入網絡,使工業(yè)企業(yè)內部各層互連互通,從而提高運營效率和產品競爭力[3]。工業(yè)物聯(lián)網可以深入到生產過程的每一個環(huán)節(jié),設備將帶有數據終端的功能,全方位的采集底層的生產數據,通過工業(yè)大數據的分析和挖掘,可以有效提高生產效率,優(yōu)化運營配置。
工業(yè)物聯(lián)網和物聯(lián)網一樣分為感知層、網絡層和應用層[4]。感知層是工業(yè)物聯(lián)網的基礎,通過傳感器、RFID、無線傳感網絡等實現(xiàn)底層數據的采集和發(fā)送,包括無線網絡、傳感網絡(未接入互聯(lián)網)。感知層可能遭受的安全威脅是信息竊取、劫持甚至發(fā)動物理攻擊。黑客通過劫持感知層的節(jié)點,可以長期潛伏在感知層收集工業(yè)生產數據、竊取商業(yè)機密。感知層的電子設備由于數量眾多,也可以被劫持作為拒絕服務攻擊的武器[5]。同樣,如果劫持其中的網絡設備,就可以廣播海量惡意的干擾信息,造成網絡的堵塞阻斷。由于感知層會接入網絡層,黑客通過感知層作為跳板,對網絡層進一步發(fā)起攻擊,常見的有入侵滲透、非法訪問、拒絕服務攻擊等。感知層建立在大量物理電子設備基礎上,包括傳感器、電子標簽、可編程邏輯控制器等。黑客可以抹除電子標簽造成設備識別失效[6],也可以強制控制器中斷操作,有可能造成現(xiàn)場人身安全傷害。
工業(yè)物聯(lián)網的網絡層建立在互聯(lián)網和感知層的結合上,該層的任務是可靠高效的接收感知層的數據,提供給應用層進行處理,同時將應用層的操作下達到感知層。網絡層的安全防護可以大量借鑒傳統(tǒng)互聯(lián)網的經驗,重點關注數據的完整性和機密性。工業(yè)安全網關和入侵檢測技術可以提供有效的安全保障。
工業(yè)物聯(lián)網的應用層是體現(xiàn)信息化帶來收益的環(huán)節(jié)。通過工業(yè)大數據、數據挖掘等技術找到企業(yè)生產經營中能夠改善的環(huán)節(jié),快速準確地抓取有價值的信息,提供更多更智慧的決策支持。應用層需要處理大量的數據,黑客可以攻擊數據處理的過程,也可以悄悄竊取已經處理好的有價值的內容。工業(yè)物聯(lián)網的安全防護必須全面考慮二個層級的整個過程。
從檢測方法類型上,入侵檢測可分為誤用檢測和異常檢測,異常檢測通過判斷當前行為與正常行為的背離度,超過背離度預期的行為將被判定為異常行為?;跈C器學習的入侵檢測即是屬于異常檢測。入侵檢測技術能夠檢測和報告攻擊者的入侵行為,是網絡安全防護中的先鋒偵察員。
機器學習在數據挖掘、模式識別、人工智能等方面具有的充分優(yōu)勢,同樣可以使用在入侵檢測的應用中。機器學習包含的眾多算法,也有各自的優(yōu)缺點和應用領域。羅耀峰(2013)[7]提出的基于工控協(xié)議的數據模型,使用支持向量機進行分類。Zhou(2015)等[8]利用了智能馬爾科夫模型,提取過程自動化多模型數據特征,通過統(tǒng)計學習的方法得到較好的入侵檢測效果。Stefanidis(2016)[9]等提出了基于隱馬爾可夫模型(HMM)的入侵檢測方法。本文使用了6種機器學習的入侵檢測方法,并進行對比研究。
工業(yè)物聯(lián)網的入侵攻擊可以分為4種:偵聽、中斷、修改、偽裝。下表1進行詳細的闡釋。
表1 4種入侵攻擊行為
本文使用2015年密西西比州立大學SCADA實驗室提供的工業(yè)網絡數據,分別采取了偵聽數據、響應注入、命令注入、拒絕服務攻擊等多種網絡攻擊手段[10]。各攻擊的參數數值做了隨機化處理,以提高跟真實網絡攻擊的擬真度。所有通信數據通過記錄器收集。數據樣本類別被詳細分為8種,1種無攻擊樣本和7種攻擊樣本,如下表2所示。
表2 攻擊類別表
數據集中各類攻擊數量分布如下圖1所示:
圖1 數據集中各類攻擊數量分布圖
入侵檢測常用的機器學習算法有決策樹、貝葉斯、基于規(guī)則的分類器、回歸分析、神經網絡等。通過數據集的訓練集進行機器學習,測試集進行入侵檢測性能驗證[11]。
(1)決策樹
決策樹是一種預測模型,有3個組成部分,分別是決策結點、分支和葉結點。其中決策結點描述了一次測試決策,不同的測試結果通往不同的分支,分支的末端作為可能的分類結果。
1)C4.5決策樹算法
C4.5是改進ID3算法的經典的決策樹算法,其使用基于信息增益率(Gain Ratio)和信息增益結合的方法來作為屬性選擇度量。期望分支結點所包含的樣本盡可能的屬于同一類別,即樣本“純度”越來越高。通常用來衡量樣本純度的指標是信息熵(Information Entropy),若當前樣本集D中的第k類樣本所占比為pk(k=1,2,...,|y|),則D的信息熵為:
Ent(D)的值越小,也就代表D的純度越高。實際上,信息增益有選取的偏好,趨向于取值數目更多的屬性,為了消除這個不利影響,C4.5算法增加了信息增益率作為評價準則之一。增益率定義為:
IV(a)是分裂信息:
然而信息增益率卻存在趨向于取值數目更少的屬性的偏好,所以先從所有屬性中選出信息增益較高的屬性,再從中選擇信息增益率最高的屬性,作為最優(yōu)劃分屬性。
2)REP Tree快速決策樹算法
REP Tree(快速決策樹)只對數值型屬性值排序一次 (C4.5算法需要為每個數據子集進行排序),對于缺失值的處理方法和C4.5一樣,讓相應的樣本走不同的路徑,再把結果進行加權。不一樣的是REP Tree增加了和Random Tree相似的Backfit函數,改變已經生成的分裂節(jié)點和子節(jié)點的分布,來達到消除過擬合的作用[12]。
(2)回歸分析
回歸分析方法可以進行異常分類。數理統(tǒng)計中的回歸分析,可以確定多個變量之間相互依賴的定量關系。Simple Logistic是邏輯回歸分析的一種,使用簡單回歸函數的LogitBoost作為基本學習器,用來擬合Logistic模型。
(3)貝葉斯
貝葉斯是一種在已知先驗概率和類條件概率的前提下的分類方法,貝葉斯分類在理論上有充分的論證。
1)Naive Bayes
Naive Bayes是樸素貝葉斯分類器,其假定每一種屬性的值對給定類的影響是相互獨立的,這在現(xiàn)實中往往不能滿足,但還是可以在實際應用中得到較高的精度和效率。工業(yè)物聯(lián)網數據同樣不是相互獨立的,但是仍可以適用。在給定的訓練數據集{(X1,y1),(X2,y2),(X3,y3),…,(Xm,ym)},其中 m 是訓練樣本的個數,本文使用了66%訓練集(181254),33%測試集(93374)的分類算法使用策略,所以m=181254,每個樣本包含了n個特征,通過上文特征選取,n=18,即 Xi=(xi1,xi2,...,xin)。類標記集合為{y1,y2,…,yk}。根據貝葉斯定理,求各類別后驗概率的公式為:
由于樸素貝葉斯將各個特征之間假設為互相獨立,則上式(4)可以寫成
選取式(6)取值最大時類別yi作為判定結果。
2)Bayesian Network
Bayesian Network是貝葉斯網絡,模擬人類推理過程中對因果關系的估計過程。其網絡拓撲使用有向無環(huán)圖模型(Directed Acyclic Graphical,DAG)來刻畫屬性之間的依賴關系。
(4)神經網絡
神經網絡是經典的機器學習方法,在本文的分類預測情形下,Multilayer Perceptron多層感知器(MLP)分類器是一種前饋神經網絡,采用反向傳播學習模型(BP算法)進行訓練。多層感知器由至少二層節(jié)點組成,除了輸入節(jié)點外,每個節(jié)點都采取非線性函數的神經元[13]。
將預處理完成,符合分類算法使用條件的數據,使用各算法進行分類,其結果顯示見下表3。正確率 CCI Rate (Correctly Classified Instances Rate)表述的是分類正確的測試樣本占總測試樣本的比率。正確率可以直觀觀察每個算法對所有類別的總體分辨能力[14]。
表3 各分類算法正確率
從上表可知決策樹分類算法總體的效果最好,正確率最高的算法C4.5(97.895%),第二高的REP Tree(97.497%)都屬于決策樹算法。但并不能僅僅通過正確率這一個屬性來判別分類結果的優(yōu)秀與否,下表4列出了對7種攻擊和正常行為的辨識能力,用檢測率表示。檢測率也叫做查全率或真陽率 TPR (True Positive Rate)或者召回率(Recall Rate),反映了被正確判定類別的樣本占該類別樣本總數的比重。
表4 各分類算法檢測率(查全率)
通過上表可以發(fā)現(xiàn)查全率排前二的依然是C4.5算法和REP Tree算法。由于工業(yè)物聯(lián)網實際使用中,入侵攻擊造成損失可能十分巨大,所以要盡量檢測出每一次攻擊,對漏警率(Missing Alarm Rate,MAR)要求更嚴格,要求盡量小。表5所示為C4.5算法和REP Tree算法的漏警率和虛警率。
表5 C4.5和REP Tree的漏警率和虛警率表
C4.5算法的漏警率比REP Tree算法低0.2%,而且虛警率FAR(False Alarm Rate)也低0.7%。在對漏警率要求嚴格的工業(yè)物聯(lián)網場景,C4.5算法更加優(yōu)秀。通過統(tǒng)計數據的對比分析,決策樹C4.5算法是最適合該數據集的機器學習算法,擁有99.4%的高檢測率和1.1%的低虛警率,同時檢測時間很短。Turnipseed(2015)[10]同樣使用該數據集,其使用PART算法的檢測率達94.14%,性能不及本文使用的C4.5算法。
本文分析了工業(yè)物聯(lián)網在感知層、網絡層、應用層上分別面臨的安全威脅。使用了6種機器學習的入侵檢測算法對數據集進行測試。通過實驗結果表明屬于決策樹的C4.5算法擁有99.4%的高檢測率、1.1%的低虛警率且計算迅速,適合用于工業(yè)物聯(lián)網的入侵檢測。入侵檢測技術能夠快速發(fā)現(xiàn)工業(yè)物聯(lián)網的入侵行為,及時報警,但是確定入侵節(jié)點和途徑較為困難。入侵定位是下一步需要解決的研究方向。