許慶帥 孔貴琴 王學良 江南機電設計研究所
關鍵字:日志采集 分布式存儲 數(shù)據融合 攻擊樹推理
網絡安全態(tài)勢感知是實現(xiàn)網絡安全防御的前提,網絡安全態(tài)勢感知就是通過獲取網絡安全態(tài)勢要素,根據獲取的網絡安全要素識別出網絡攻擊行為。文獻[1]介紹了網絡日志類型及分類采集方式,提出了采用文件型日志采集和基于syslog 協(xié)議的日志采集兩種方法。文獻[2]介紹了基于Hadoop 的分布式存儲存儲架構,用于解決海量數(shù)據的存儲問題。文獻[3]介紹了多種融合算法,提出了一種決策級融合模型,該決策模型通過持續(xù)跟蹤網絡動態(tài)變化,實時選擇合適的融合算法,以對網絡狀態(tài)精確檢測。
根據系統(tǒng)網絡拓撲結構,在充分分析多種網絡攻擊手段的基礎上,研究基于多源日志的安全信息獲取、融合、分析、預警防御及效能評估的網絡安全感知及防御系統(tǒng)技術。具體研究方案如下圖所示:
圖1 網絡安全態(tài)勢感知及防御技術研究思路
基于多源日志的態(tài)勢感知要素獲取技術主要研究日志采集技術、數(shù)據預處理技術、海量日志數(shù)據存儲技術。
a)日志采集技術
下圖是某系統(tǒng)網絡拓撲結構圖,本系統(tǒng)采用文件型日志采集(操作系統(tǒng))和基于syslog 協(xié)議的日志采集(網絡設備)兩種方法。對于采集到的海量日志數(shù)據,考慮采用基于Hadoop 的分布式存儲方式進行存儲,而Hadoop 架構在Linux 系統(tǒng)中運行狀態(tài)良好,并且網絡攻防系統(tǒng)也是在Linux下搭建的,因此,主機操作系統(tǒng)安裝Linux 操作系統(tǒng)。配置一臺高性能的計算作為網絡安全監(jiān)控中心,其他兩臺較低性能的計算機作為靶標計算機,網絡安全監(jiān)控中心和靶標計算機組成內網,網絡攻擊計算機組成外網,在內網和外網之間連接路由器、防火墻和入侵檢測設備。各設備利用日志采集器采集并預處理日志給日志服務器。日志服務器將預處理的日志數(shù)據通過網絡協(xié)議傳輸給網絡監(jiān)控中心。在采集器采集的過程中,加入日志完整性檢測模塊,對采集到的日志數(shù)據進行完整性和真實性檢測。
圖2 系統(tǒng)網絡拓撲結構示意圖
b)日志數(shù)據預處理技術
數(shù)據預處理主要分為以下幾個步驟:數(shù)據清洗、數(shù)據約簡、數(shù)據合并、數(shù)據規(guī)范化。
1)數(shù)據清洗:填補缺失數(shù)據、過濾重復數(shù)據。
2)數(shù)據約簡:數(shù)據約簡技術可以得到數(shù)據集的屬性歸約表示,屬性減少,但仍接近于保持原數(shù)據的完整性。比較常用的數(shù)據簡約方法,本系統(tǒng)采用基于粗糙集理論的數(shù)據約簡方法,具體如下:
①根據已有的網絡安全規(guī)則集對采集的日志信息進行初始化分類,得到決策表S={V,C ∪D,v,f}。其中,V 為采集到的日志的集合,C ∪D 為初始化關鍵屬性集,v 為屬性C ∪D 指定的屬性值,f 為屬性和屬性值的對應關系。
②針對V 中的某個個體R,建立關于R 的目標函數(shù)。
f(R)=1-card(R)/card(V), card(R)=card(C)
f(R)=(1-card(R)/card(V))β, card(R)≠card(C)
其 中,card(R)為 個 體R 所 包 含 的 屬 性 個 數(shù),如 果card(R)=card(C),則個體R 存在的概率增強,如果card(R)≠card(C),β<1,個體R 存在的概率減弱。
③基于步驟二的優(yōu)選準則,采用遺傳算法或神經網絡等尋優(yōu)算法,優(yōu)選出具有代表性的個體R,組成必要集D,D 包含C 的所有屬性,作為數(shù)據分類的輸入。
3)數(shù)據合并
數(shù)據合并是對重復的日志數(shù)據進行合并。數(shù)據合并的原則如下:
①對于數(shù)據約簡后的個體Ri 和Rj,如果Ri 包含的所有屬性都在Rj 包含的屬性集中能夠找到,則可以將個體Ri 刪除;
②如果個體Ri 和Rj 所包含的關鍵屬性相同,則可以將個體Ri 刪除。
4)數(shù)據規(guī)范化
數(shù)據規(guī)范化就是將不同數(shù)據格式的日志進行格式統(tǒng)一化處理,以使交給網絡監(jiān)控中心日志數(shù)據具有統(tǒng)一的格式。
XML 是一種采用文本標記描述數(shù)據的語言,具有靈活、開放、跨平臺、跨語種等的特點,因而被廣泛用于信息的表達和交換。網絡設備和安全設備對數(shù)據合并處理后,在發(fā)往網絡監(jiān)控設備之前,首先將數(shù)據格式轉換為XML文檔格式,然后按照syslog 協(xié)議將各設備生成的XML文檔傳輸?shù)骄W絡監(jiān)控中心。
c)基于Hadoop 的分布式存儲方法
網絡攻防平臺中每個計算機上安裝HDFS 文件系統(tǒng),用于實現(xiàn)基于Hadoop 的分布式存儲架構。對每個計算機利用OpenStack 開發(fā)平臺分配一個中等配置虛擬機和多個低等配置虛擬機。支持數(shù)據的寫入和讀出。
信息融合包括數(shù)據層融合、特征層融合和決策層融合。表1 為信息融合級別對比情況。
表1 信息融合級別對比
在不同網絡設備、安全設備和主機上對采集的日志數(shù)據進行預處理即為日志信息的數(shù)據級融合。
網絡監(jiān)控中心對于收到的不同設備的日志數(shù)據進行特征級融合。在進行特征級融合之前,首先進行重復日志數(shù)據的合并。
由于日志屬性是對某一網絡行為的特點進行定性描述,不需要用精確的數(shù)量表示。因此,采用基于粗糙集理論的方法對關鍵日志屬性進行定性描述,建立日志屬性和網絡狀態(tài)的輸入輸出關系。日志數(shù)據特征級融合過程如下:
①首先對經過數(shù)據合并后的每條日志進行屬性提??;
②將日志屬性離散化,建立決策表;
③將日志數(shù)據的屬性做為輸入,將網絡狀態(tài)作為輸出,采用數(shù)據挖掘技術(包括決策樹、遺傳算法、神經網絡、機器學習、關聯(lián)規(guī)則、貝葉斯網絡等),建立網絡狀態(tài)與日志數(shù)據屬性的對應關系。
網絡安全態(tài)勢評估需要對網絡的安全性,包括正常,危險及危險程度實時識別并顯示。本文設計網絡安全評估過程如下:
①設網絡中有N 個節(jié)點,根據網絡節(jié)點被訪問的頻率和節(jié)點與其他節(jié)點的聯(lián)系緊密度,確定節(jié)點的重要程度為
②根據節(jié)點日志信息的屬性,推測網絡節(jié)點是否受到攻擊和攻擊的威脅程度,以此分配網絡節(jié)點安全威脅權重為
在檢測某個網絡節(jié)點的網絡安全威脅程度時,首先將檢測時間內按時間間隔T 劃分多個時間段,檢測各個時間段內記錄日志中出現(xiàn)某類屬性的次數(shù)統(tǒng)計在檢測時間內的平均值標準差利用準則對網絡安全威脅程度進行判斷,判斷標準如下:
本方案根據系統(tǒng)網絡拓撲結構,對網絡安全態(tài)勢感知及防御系統(tǒng)進行總體設計,并對網絡安全要素的獲取、數(shù)據融合、安全評估進行了研究,明確了研究思路和研究方法。