唐錄潔+李懷穎
摘要:以大數(shù)據(jù)處理方式來做流量異常檢測這一問題出發(fā),通過近五年來的科研文獻調查研究大數(shù)據(jù)給流量異常檢測帶來的變化。包含基于大數(shù)據(jù)的網(wǎng)絡異常流量檢測架構,針對海量流量數(shù)據(jù)異常檢測的有效算法,基于大數(shù)據(jù)網(wǎng)絡異常流量檢測仿真實驗平臺和數(shù)據(jù)集。
關鍵詞:大數(shù)據(jù);異常流量檢測;分類;聚類
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)27-0019-03
Abstract:The author examines the variation in traffic anomaly detection caused by big data through referring to scientific literature over the five years, which is founded upon the issue of traffic anomaly detection via big data. The study includes the framework of network traffic anomaly detection with the foundation of big data, the efficient algorithm targeted at the anomaly detection of plenty of traffic data, the simulated experimental platform on the fundamental elements of traffic anomaly detection via big data and the data set.
Key words: big data; anomaly traffic detection; classification; clustering
1 概述
2017年5月的“比特幣病毒”攻擊事件,6月順豐及阿里的物流數(shù)據(jù)之爭成為了當月的熱點事件,這兩起事件引起了人們對“安全”和“數(shù)據(jù)”關注。2012年Gartner稱信息安全問題將演變成大數(shù)據(jù)分析的問題,海量安全數(shù)據(jù)應該被有效地關聯(lián)、分析和挖掘。如果我們把大數(shù)據(jù)這個詞作為一種新的計算理論、方法、技術和應用的綜合體來看,那么我們探討大數(shù)據(jù)與信息安全之間的關系,就有兩種方向:其一,就是如何用大數(shù)據(jù)來解決安全問題(這正是本文需要研究的主題);其二,就是如何保障大數(shù)據(jù)的安全[1]。
網(wǎng)絡異常檢測一直是網(wǎng)絡安全領域內最為活躍的研究分支之一,包括對流量突變、設備失效、越權資源訪問、可疑主機等的檢測,其本質原理是探尋表征目標對象屬性、狀態(tài)與變化的特征,然后構建檢測模型,對違背策略或偏離正常行為模式的行為進行判定。近幾年,大數(shù)據(jù)技術越來越多的應用到網(wǎng)絡異常檢測中,尤其是基于大數(shù)據(jù)的網(wǎng)絡用戶行為分析技術的應用,極大提高了當前網(wǎng)絡異常檢測的準確率。
2 基于大數(shù)據(jù)的網(wǎng)絡異常流量檢測架構
大數(shù)據(jù)具備“4V”的特點:Volume(大量)、Variety(多樣)、Velocity(高速)和Value(低價值密度),能夠實現(xiàn)大容量、低成本、高效率的分析能力,也可以滿足數(shù)據(jù)處理分析要求,將大數(shù)據(jù)分析應用于信息安全范疇能有效地識別各種攻擊行為或安全事件。大數(shù)據(jù)處理的普遍流程至少包含采集、導入/預處理、統(tǒng)計/分析和挖掘四個方面的步驟。而將大數(shù)據(jù)分析技術引入到信息安全分析中,就是散亂的安全數(shù)據(jù)融合起來,經(jīng)過高效的采集、存儲、檢索和分析,運用多階段、多層面的關聯(lián)分析以及異常行為分類預測模型,提升安全防御的主動性,更加有效的發(fā)現(xiàn)APT攻擊、數(shù)據(jù)泄露、DDoS攻擊、騷擾詐騙、垃圾信息等。并且,大數(shù)據(jù)分析觸及的數(shù)據(jù)范圍更廣,主要涉及應用場景本身產(chǎn)生的數(shù)據(jù)、經(jīng)過某種活動或內容“創(chuàng)立”出來的數(shù)據(jù)、相干背景數(shù)據(jù)以及上下文關聯(lián)數(shù)據(jù)等[2]。傳統(tǒng)信息安全分析主要基于流量和日志兩大類數(shù)據(jù),并與資產(chǎn)、業(yè)務行為、外部情報等進行關聯(lián)分析?;诹髁康陌踩治鰬弥饕◥阂獯a檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應用主要包括安全審計、主機入侵檢測等[3]。
網(wǎng)絡系統(tǒng)安全的要素主要包含完整性、可鑒別性、防抵賴性和可審計性,目前通常采用加密、認證及入侵檢測等方法來保證網(wǎng)絡安全。其中,入侵檢測系統(tǒng)(Intrusion Detection System,IDS)是保證主機和網(wǎng)絡安全的重要手段,通過監(jiān)控主機設備和網(wǎng)絡的使用情況,對非法操作進行識別并告警。入侵檢測作為一種有效的方式被用來增強網(wǎng)絡的安全性。
網(wǎng)絡異常流量檢測是指以網(wǎng)絡流數(shù)據(jù)為輸入,通過統(tǒng)計分析、數(shù)據(jù)挖掘和機器學習等方法,發(fā)現(xiàn)異常的網(wǎng)絡數(shù)據(jù)分組和異常網(wǎng)絡交互等信息。
綜合大數(shù)據(jù)分析處理技術及網(wǎng)絡異常流量檢測思想,一個完整的大數(shù)據(jù)異常檢測平臺可分為4層:數(shù)據(jù)采集層、存儲管理層、入侵行為分析挖掘層和展示及配置管理層,其框架如圖1所示[4]。數(shù)據(jù)采集層主要具備完整數(shù)據(jù)采集能力,囊括與網(wǎng)絡行為相關的各類日志、網(wǎng)絡流量以及情境數(shù)據(jù)和外部支持數(shù)據(jù)的采集。存儲管理層可以支持異構數(shù)據(jù)存儲,可以通過緩存應付突發(fā)的數(shù)據(jù),具備彈性擴展能力。入侵行為分析挖掘層可以支持靈活的特征提取、基于特征的統(tǒng)計分析和模型訓練以及對檢測結果的事后取證溯源和驗證能力。展示及配置管理層支持大數(shù)據(jù)平臺集群配置管理和數(shù)據(jù)的交互式可視化分析。
3 異常流量檢測算法
近年隨著大數(shù)據(jù)的發(fā)展基于機器學習和數(shù)據(jù)挖掘方法得到了深入的研究。文獻[5]將基于機器學習和數(shù)據(jù)挖掘的異常檢測算法分為分類、統(tǒng)計、信息理論和聚類四類來進行研究。其分類如圖2所示
基于分類的網(wǎng)絡異常檢測包含:支持向量機(Support Vector Machine, SVM)、貝葉斯網(wǎng)絡(Bayesian Network)、神經(jīng)網(wǎng)絡(Neural Network)、基于規(guī)則(Rule-Based)的?;诮y(tǒng)計的異常檢測包含:混合模型、信號處理技術和主成分分析(Principal Component Analysis, PCA)?;谛畔⒗碚撝饕玫叫畔㈧睾土髁繑?shù)據(jù)的相關性分析算法?;诰垲愃惴ǚ譃槌R?guī)聚類和協(xié)同聚類,基于聚類的異常流檢測主要代表是基于 K-Means 算法的異常流檢測。endprint
由于大數(shù)據(jù)具有屬性稀疏、超高維、高噪聲、數(shù)據(jù)漂移、關系復雜等特點,針對傳統(tǒng)分類或統(tǒng)計算法建模時間長,耗時久,算法難以理解等問題,針對海量的流量數(shù)據(jù)通常都會先采用一些新的基于分類或特征提取的方法對海量數(shù)據(jù)作降維預處理,然后用一些復合的分類方法進行異常檢測。文獻[6]描述了一個在PCA方法上的新的以距離為基礎的降維方法,文獻[7]提出了一種新的基于PCA擴展異常檢測方法,主要針對使用K-L散度的幾點改進。文獻[8]提出一種基于正交投影的降維分類方法,通過投影方式將多維分類問題轉化為多個二維投影面組合問題, 建立投影面的密度模型進行分類。相比于常用的支持向量機(Support Vector Machine,SVM)、邏輯回歸(Logistic Regression, LR)、k最近鄰(K-Nearest Neighbor,KNN)等分類算法, 基于正交投影降維的分類方法能夠在不丟失分類準確度的同時, 擁有較高的模型訓練效率與分類效率. 其算法易于實現(xiàn),可用于海量流量數(shù)據(jù)異常檢測。文獻[9] 提出一種基于深度信念網(wǎng)絡的多類支持向量機入侵檢測方法(DBN-MSVM)。該方法先利用深度信念網(wǎng)絡對大量高維、非線性的無標簽原始數(shù)據(jù)進行特征降維,從而獲得原始數(shù)據(jù)的最優(yōu)低維表示;然后,利用二叉樹構造多類支持向量機分類器,并對獲得的最優(yōu)低維表示進行網(wǎng)絡攻擊行為識別。該方法可縮短支持向量機分類器的訓練時間和測試時間,提高了海量入侵數(shù)據(jù)的分類準確率。文獻[10] 提出一種基于偏最小二乘(PLS) 法和核向量機(CVM) 的組合式異常入侵檢測方法. 它先采用PLS算法提取網(wǎng)絡數(shù)據(jù)的主成分,構建特征集;然后, 利用CVM構建特征集的異常入侵檢測模型, 進而完成異常入侵檢測與判定。文獻[11] 提出了一種基于熵和改進的 SVM 多分類器的異常流量檢測方法。該方法用熵值對網(wǎng)絡流量的各個屬性進行量化,將異常流量檢測問題抽象為對不同類型流量的分類問題,并對傳統(tǒng)的一對其余 SVM 多分類器進行改進。使用改進 SVM 多分類器對熵值量化后的流量進行分類判決,根據(jù)分類結果捕獲異常。文獻[12]以歷史流量曲線存儲為基礎,針對歷史流量曲線的數(shù)據(jù)挖掘,為進一步挖掘流量規(guī)律、利用流量曲線更加深入地識別網(wǎng)絡事件、具體及量化地評估網(wǎng)絡情況提供了可能性。該文獻以歷史流量曲線為對象,利用徑向基函數(shù)神經(jīng)網(wǎng)絡(Radial Basis Function Network,RBF網(wǎng)絡),根據(jù)具體觀測的流量曲線,有針對性地建立歷史流量曲線模型,并建立在歷史樣本曲線、觀測曲線、曲線模型三者間距離的基礎上,同時給出觀測曲線與曲線模型間的量化偏離度評估方法。文獻[13] 介紹了基于k-nearest neighbor(k-NN)的累積距離的異常檢測方法,以及使用此檢測方法的異常流量實時檢測系統(tǒng)的實現(xiàn)。
聚類的方法也是基于大數(shù)據(jù)的機器學習和數(shù)據(jù)挖掘異常檢測用得比較多的方法,文獻[14]針對傳統(tǒng)基于聚類分析的網(wǎng)絡流量異常檢測方法準確性較低的問題,提出了一種基于改進k-means聚類的流量異常檢測方法.通過對各類流量特征數(shù)據(jù)的預處理,使k-means算法能適用于枚舉型數(shù)據(jù)檢測,進而給出一種基于數(shù)值分布分析法的高維數(shù)據(jù)特征篩選方法,有效解決了維數(shù)過高導致的距離失效問題,并運用二分法優(yōu)化K個聚簇的劃分,減少了初始聚類中心選擇對k-means算法結果的影響,進一步提高了算法的檢測率。
另外,基于異常的檢測在思想上和離群檢測問題非常相似。因此,最近幾年很多研究者提出,異常檢測的問題可以在很大程度上采用離群檢測方法解決。文獻[15] 利用自適應檢測方法檢測大網(wǎng)絡流量數(shù)據(jù)中的異常A—SPOT自適應流投影孤立點檢測器。文獻[16]作了Hadoop云平臺下基于離群點挖掘的入侵檢測技術研究。文獻[17]提出了一種稱為異常數(shù)據(jù)的鄰域離群因子測定(NOF)異常檢測。
由于目前網(wǎng)絡環(huán)境中數(shù)據(jù)維數(shù)高,數(shù)據(jù)量大等特點使得離群點挖掘非常有優(yōu)勢。離群挖掘應用到異常檢測中可以有效提高檢測效率,并改善檢測的漏報率和誤報率。此方法也受到越來越多研究異常檢測的學者青睞,我們下一步會在此方法上進行異常檢測研究實踐。
4 基于大數(shù)據(jù)的網(wǎng)絡異常流量檢測研究仿真平臺及數(shù)據(jù)集
由于是研究將大數(shù)據(jù)的技術方法用于流量異常檢測,所以部分研究使用分布式系統(tǒng)來做海量數(shù)據(jù)的處理,目前針對大數(shù)據(jù)的處理,主流的框架有Hadoop分布式處理架構、Spark并行計算框架和Storm實時數(shù)據(jù)處理框架。還有一些研究者主要是采用帶有強大科學計算算法開源庫的Python和Matlab開發(fā)工具作為仿真實驗環(huán)境。
入侵檢測領域中能夠作為基準的公開數(shù)據(jù)集少之又少。一方面,最現(xiàn)實的網(wǎng)絡流量是那些在自然環(huán)境下收集的流量,例如從一個網(wǎng)絡服務提供商或一個公司網(wǎng)絡中收集的流量[18]。文獻[3] 在啟明星辰信息安全技術有限公司內網(wǎng)搭建了測試環(huán)境,通過真實數(shù)據(jù)進行檢驗。文獻[11]也是采用了存儲的歷史流量曲線。然而這些流量包含了能夠反映人身份隱私在內的敏感信息,因此它們幾乎不可能顯示的還有部分研究者是采用實際的NetFlow數(shù)據(jù)集。然而這些流量包含了能夠反映人身份隱私在內的敏感信息,因此它們幾乎不可能被公開。另一方面,人工流量(即在人工干預下產(chǎn)生的流量)雖然能夠避免隱私問題,但是通常需要領域專家耗費大量的精力和時間才能使它們具有現(xiàn)實性。這導致高質量的人工流量也很難獲取?;谝陨显?,入侵檢測領域中著名的流,盡管其已經(jīng)生成了較長的時間,卻仍然被眾多國內外學者選用以測試其所提出的性能。所以,來源于流的數(shù)據(jù)集,到目前為止仍然是網(wǎng)絡入侵檢測領域中應用最為廣泛的一個基準數(shù)據(jù)集,KDD 1999。大部分研究者在進行仿真實驗時都采用了此數(shù)據(jù)集,另外也有一部分研究者采用美國的Abilene網(wǎng)絡數(shù)據(jù)和kyoto2006+數(shù)據(jù)集。
雖然云平臺在處理海量數(shù)據(jù)有天生的優(yōu)勢,但由于我們所在工作環(huán)境不能獲取到較高維度及高質量的網(wǎng)絡流量進行測試,所以下一步工作還是會選擇采用帶有豐富科學計算算法開源庫的Python作為仿真環(huán)境,使用KDD1999數(shù)據(jù)集進行實踐研究。endprint
5 總結
近年來很多學者對基于大數(shù)據(jù)的異常流量檢測作了很多研究,得到比較成熟的檢測架構和有效的檢測算法,而且以大數(shù)據(jù)為基礎的機器學習和數(shù)據(jù)挖掘方法可以讓系統(tǒng)自適應學習、持續(xù)自動更新、更加綜合全面考慮問題。但是大規(guī)模流量數(shù)據(jù)可以建模,一旦入侵者利用模型,將惡意流量控制在模型預報的曲線周圍,也可以隱藏入侵流量的目的。 而且信息安全領域中的很多問題,由于數(shù)據(jù)較難定義、提取,目前仍難以以大數(shù)據(jù)的方式解決。但筆者認為,隨著安全威脅走向多樣化,攻擊手法不斷提升,攻擊痕跡逐步隱蔽,大數(shù)據(jù)技術解決方式會成為信息安全產(chǎn)業(yè)的重要途徑。
參考文獻:
[1] 潘柱廷. 安全大數(shù)據(jù)的“7個V”——大數(shù)據(jù)基礎問題與信息安全的交叉探究[J]. 中國信息安全, 2013(9):74-77.
[2] 張濱. 大數(shù)據(jù)分析技術在安全領域的應用[J]. 電信工程技術與標準化, 2015, 28(12):1-5.
[3] 王雪琴. 軟件技術在工程領域的應用優(yōu)勢分析[J]. 電子技術與軟件工程, 2014(9):97-98.
[4] 周亮. 面向大數(shù)據(jù)的網(wǎng)絡安全分析方法[D]. 南京郵電大學, 2016.
[5] Ahmed M, Mahmood A N, Hu J. A survey of network anomaly detection techniques[J]. Journal of Network & Computer Applications, 2016(60):19-31.
[6] Huang T, Sethu H, Kandasamy N. A New Approach to Dimensionality Reduction for Anomaly Detection in Data Traffic[J]. IEEE Transactions on Network & Service Management,2016,13(3):651-665.
[7] Callegari C, Gazzarrini L, Giordano S, et al. A Novel PCA-Based Network Anomaly Detection[C]// IEEE International Conference on Communications. IEEE, 2016:1-5.
[8] 滕少華,盧東略,霍穎翔,等.基于正交投影的降維分類方法研究[J/OL].廣東工業(yè)大學學報, 2017 (03). http://www.cnki.net/kcms/detail/44.1428.T.20170502.1011.002.html
[9] 高妮, 賀毅岳,高嶺. 海量數(shù)據(jù)環(huán)境下用于入侵檢測的深度學習方法[J/OL]. [2017-03-21]. http://www.arocmag.com/article/02-2018-03-004.html.
[10] 吳麗云, 李生林, 甘旭升,等. 基于PLS特征提取的網(wǎng)絡異常入侵檢測CVM模型[J]. 控制與決策, 2017, 32(4):755-758.
[11] 朱佳佳, 陳佳. 基于熵和SVM多分類器的異常流量檢測方法[J]. 計算機技術與發(fā)展, 2016, 26(3):31-35.
[12] 啟明星辰.大數(shù)據(jù)下的流量異常檢測策略[EB/OL] .[ 2014-01-07].http://www.venustech.com.cn/NewsInfo/531/25570.Html
[13] 宋若寧. 海量數(shù)據(jù)環(huán)境下的網(wǎng)絡流量異常檢測的研究[D]. 北京郵電大學, 2015.
[14] 李洪成, 吳曉平, 姜洪海. 基于改進聚類分析的網(wǎng)絡流量異常檢測方法[J]. 網(wǎng)絡與信息安全學報, 2015, 1(1):66-71.
[15] Zhang J, Li H, Gao Q, et al. Detecting anomalies from big network traffic data using an adaptive detection approach[J]. Information Sciences, 2015, 318(C):91-110.
[16] 歐陽根平. Hadoop云平臺下基于離群點挖掘的入侵檢測技術研究[D]. 電子科技大學, 2015.
[17] Jabez J, Muthukumar B. Intrusion Detection System (IDS):Anomaly Detection Using Outlier Detection Approach ☆[J]. Procedia Computer Science, 2015, 48(3):338-346.
[18] 郭春. 基于數(shù)據(jù)挖掘的網(wǎng)絡入侵檢測關鍵技術研究[D]. 北京郵電大學, 2014.
[19] Lee Y J, Yeh Y R, Wang Y C F. Anomaly Detection via Online Oversampling Principal Component Analysis[J]. IEEE Transactions on Knowledge & Data Engineering, 2013, 25(7):1460-1470.
[20] 倪謝俊. 基于數(shù)據(jù)挖掘的異常流量檢測技術[D]. 華東師范大學, 2016.endprint