◆王 進 姜新超 孫佳偉
(戰(zhàn)略支援部隊信息工程大學教研保障中心 河南 450001)
計算機網(wǎng)絡(luò)和操作系統(tǒng)漏洞越來越頻繁地暴露于人們的眼前,不僅給人們造成了無法彌補的財產(chǎn)損失,更嚴重威脅到國家的整體信息安全。及時了解網(wǎng)絡(luò)的現(xiàn)狀,預(yù)測其趨勢,成為保障網(wǎng)絡(luò)服務(wù)安全的首要任務(wù),綜合監(jiān)測和分析網(wǎng)絡(luò)安全形勢是防范網(wǎng)絡(luò)安全事件的關(guān)鍵,建立合理的高性能數(shù)據(jù)倉庫,能使決策者在數(shù)據(jù)量極大、數(shù)據(jù)來源相當復(fù)雜的情況下從網(wǎng)絡(luò)中提取到關(guān)鍵信息,對當前網(wǎng)絡(luò)狀況進行正確的判斷和預(yù)測至關(guān)重要。
對網(wǎng)絡(luò)安全態(tài)勢的評估,需要抽取網(wǎng)絡(luò)事件,提取其中相關(guān)的部分,判斷其能否反映當前網(wǎng)絡(luò)狀況,多次提取得到一個概率值。評估出來的結(jié)果能幫助網(wǎng)絡(luò)管理者更好地對網(wǎng)絡(luò)進行掌控,更為簡單、直觀地看出網(wǎng)絡(luò)當前存在的問題,方便決策者解決網(wǎng)絡(luò)問題,國內(nèi)研究存在的主要問題是:
(1)態(tài)勢感知系統(tǒng)模型標準不一;
(2)數(shù)據(jù)源單一,態(tài)勢感知并不能達到完全精確,以致預(yù)測不能完全準確;
(3)面對海量網(wǎng)絡(luò)數(shù)據(jù)時,將其快速分類處理的能力明顯不足;
(4)在衡量大規(guī)格的網(wǎng)絡(luò)安全態(tài)勢時,沒有一個全面且標準的指標;
(5)歷史數(shù)據(jù)存在不可用網(wǎng)絡(luò)來分析和比較優(yōu)點和缺點的情況,不能提供最好的來源對未來趨勢進行分析預(yù)測。
態(tài)勢評估是有層次性的,大致可以分為三級,通過數(shù)據(jù)融合完成態(tài)勢覺察,可以提出態(tài)勢元素,根據(jù)態(tài)勢元素進行理解然后預(yù)測敵方意圖,如圖1所示。
圖1 網(wǎng)絡(luò)安全態(tài)勢評估過程模型
一級態(tài)勢覺察,使用分類采集技術(shù),采集不同格式的數(shù)據(jù),將其按照規(guī)律融合后提取出關(guān)鍵的態(tài)勢元素,并把它分類,以便下一階段理解。
二級態(tài)勢理解,根據(jù)一級得出的態(tài)勢分類,發(fā)現(xiàn)網(wǎng)絡(luò)當前態(tài)勢的特點,結(jié)合以往經(jīng)驗,推斷出當前態(tài)勢狀況,了解敵方的意圖,洞悉其入侵計劃。
三級態(tài)勢預(yù)測,在確定未來的網(wǎng)絡(luò)安全狀況預(yù)測的情況下準確地了解結(jié)果的情況可以在多個級別,由一個或多個,從一個單一的實體行為演變到頂端的趨勢預(yù)測的全局趨勢。
就目前的網(wǎng)絡(luò)態(tài)勢感知研究來說,數(shù)據(jù)倉庫將作為優(yōu)于傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)分析平臺,其特點如下:
(1)面向主題。數(shù)據(jù)是以一個系統(tǒng)的研究對象為處理的主題,其所有的數(shù)據(jù)都是圍繞著一個或多個主題組織展開的。例如在網(wǎng)絡(luò)安全系統(tǒng)中,這樣的主體可能包括網(wǎng)絡(luò)流量、網(wǎng)絡(luò)病毒、關(guān)鍵網(wǎng)元等等。
(2)集成性。由于一般的信息系統(tǒng)表示方式存在著編碼、命名解析、度量屬性這些不一致的數(shù)據(jù)可能對數(shù)據(jù)挖掘結(jié)果產(chǎn)生影響。
(3)隨時間變化性:數(shù)據(jù)倉庫中的數(shù)據(jù)要定時更新,將還有作用的歷史數(shù)據(jù)予以保存,在不斷地抽取、轉(zhuǎn)換后,徹底失去使用效力的數(shù)據(jù)將被刪除。
(4)穩(wěn)定性。傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)處理形式是操作型,面向?qū)ο笫鞘挛?,只是針對具體的常規(guī)業(yè)務(wù)操作。這點不同于數(shù)據(jù)倉庫,數(shù)據(jù)倉庫能幫助決策者分析數(shù)據(jù),是一個分析型數(shù)據(jù)處理系統(tǒng),針對主題,提取分析數(shù)據(jù),再重新組織,最后建立決策支持系統(tǒng),傳統(tǒng)數(shù)據(jù)庫與數(shù)據(jù)倉庫的比較。
現(xiàn)實世界的概念模型是抽象對象的客觀過程的結(jié)果,數(shù)據(jù)倉庫的分析對象,都是現(xiàn)實世界中客觀存在的事物,經(jīng)過逐步地抽象處理,最終在數(shù)據(jù)倉庫中被恰當?shù)孛枋龀鰜怼?/p>
(1)主題域的確定。分析主體可以確定主體范圍的界限,在確定主題領(lǐng)域之后,也要對其進行分析,以進一步確定將主題裝入數(shù)據(jù)倉庫的過程。網(wǎng)絡(luò)安全態(tài)勢感知系統(tǒng)可以再進行劃分成三類分析,三類分析還可以各分為兩項主題分析,如圖2所示。
圖2 網(wǎng)絡(luò)安全態(tài)勢主題劃分圖
(2)建立概念模型。建立數(shù)據(jù)模型最常見的方法繪圖法具有簡明直觀的優(yōu)點,在傳統(tǒng)的圖中引入真正的事實實體、維度實體和引用實體。
事實實體:用于在一系列相互關(guān)聯(lián)的事實是現(xiàn)實的,它是中央數(shù)據(jù)倉庫的體系結(jié)構(gòu)、數(shù)據(jù)倉庫中的相應(yīng)的事實表,為用戶提供一定數(shù)量的點數(shù)據(jù)分析。
維度實體:用于細化描述實體的各項屬性,是事實實體更加詳細的屬性,主要作用是進行篩選查詢結(jié)果。
引用實體:對應(yīng)于某一特定個體或?qū)ο蟮默F(xiàn)實,在交易數(shù)據(jù)查詢時提供詳細的、準確的數(shù)據(jù)。
(3)數(shù)據(jù)倉庫設(shè)計。設(shè)計傳統(tǒng)的關(guān)系型數(shù)據(jù)庫系統(tǒng)需要經(jīng)常注意規(guī)范性數(shù)據(jù)庫之間的關(guān)系,關(guān)系劃分一個明確的規(guī)范系統(tǒng),實現(xiàn)快速響應(yīng)和更好的存儲。數(shù)據(jù)倉庫的作用是支持實現(xiàn)決策,這就需要頻繁的查詢操作,這些操作往往細小繁雜,為了提高數(shù)據(jù)倉庫的運行效率,要結(jié)合實際情況來設(shè)計一個合理的數(shù)據(jù)倉庫。
在對數(shù)據(jù)倉庫系統(tǒng)初始研究和分析的基礎(chǔ)上創(chuàng)建一個邏輯數(shù)據(jù)模型,為數(shù)據(jù)倉庫系統(tǒng)構(gòu)架提供較為規(guī)范的基礎(chǔ)構(gòu)造。邏輯模型構(gòu)架包括以下個四個基本階段:
(1)確定數(shù)據(jù)粒度。合理地選擇數(shù)據(jù)倉庫的粒度,得以滿足最終用戶的分析需求,還可以提高數(shù)據(jù)倉庫的儲存量及運行效率。因此,在設(shè)計數(shù)據(jù)倉庫時要滿足分析需要注意粒度的大小,還要考慮提高存儲容量和查詢數(shù)據(jù)倉庫的效率。根據(jù)原則,選擇相對合適的數(shù)據(jù)粒度。
(2)維度表設(shè)計。數(shù)據(jù)倉庫維度表是每個角度數(shù)據(jù)分析和用戶代表維度的表,維度表包含事實表記錄中的詳細信息,如時間維通??梢詫r間劃分為年、月、日等數(shù)個層次,從而方便在特定分析時,可以將不同時間段的數(shù)據(jù)匯總,做出不同層次的對比分析。
(3)事實表設(shè)計。事實表是一個數(shù)據(jù)倉庫的體系結(jié)構(gòu),在表的中心,事實表和維度表與其中包含的數(shù)字密鑰和措施相關(guān)。
(4)確定邏輯模型。在確定了模型粒度、維度表、事實表之后,鏈接維表和事實表確定邏輯模型。
設(shè)計物理數(shù)據(jù)模型,充分考慮實際的數(shù)據(jù)存儲格式,在邏輯模型的基礎(chǔ)上,對數(shù)據(jù)倉庫的物理模型進行物理模型的確定,以確定事實和維度表的存儲結(jié)構(gòu)。
(1)建立不同的表空間。表空間在數(shù)據(jù)庫與表中,存儲在數(shù)據(jù)庫中,表空間中的數(shù)據(jù)庫文件屬于物理層,它被存儲在一個單獨的單元,同一個源、類似的類型,在同一區(qū)域使用一致的數(shù)據(jù),使不同的數(shù)據(jù)分布在不同的表空間里,這有利于統(tǒng)一存儲和優(yōu)化。
(2)設(shè)置索引。索引作為數(shù)據(jù)庫中最常用的、工作效率高的查詢方式,主要用于數(shù)據(jù)量巨大、訪問頻繁數(shù)據(jù)表的情況,可以設(shè)置多個索引以提高其處理訪問數(shù)據(jù)的速度,滿足各樣查詢要求。
(3)對數(shù)據(jù)表進行分區(qū)。為了加快讀寫和查詢速度,系統(tǒng)對流量相關(guān)的表和索引進行再分區(qū),增強數(shù)據(jù)表的可用性,改善查詢能力,方便維護數(shù)據(jù),可以按時間將不同時段寫入的數(shù)據(jù)聚合匯集到不同的時間分區(qū)中,按數(shù)據(jù)處理的關(guān)鍵字段不同建立分區(qū)鍵,辨別數(shù)據(jù)存儲的位置,這樣在處理同一時期或分區(qū)鍵的數(shù)據(jù)時,可以訪問只滿足分區(qū)條件的數(shù)據(jù),當與索引設(shè)置配合使用時,應(yīng)根據(jù)分區(qū)號篩選出相應(yīng)的周期內(nèi)的數(shù)據(jù)。
網(wǎng)絡(luò)態(tài)勢感知的來源數(shù)據(jù)量海量,所以需要進行兩次ETL過程:第一次ETL過程中所進行的工作是粗略地刪選最初的日志、流量、網(wǎng)絡(luò)報警等操作型數(shù)據(jù),表結(jié)構(gòu)基本與原始數(shù)據(jù)來源構(gòu)成的表結(jié)構(gòu)相同,主要目的是要屏蔽數(shù)據(jù)源對數(shù)據(jù)平臺建立的復(fù)雜性,為下一步建設(shè)分析性數(shù)據(jù)倉庫做準備;再進行第二次ETL過程,以主題為導向的方式來重新整合數(shù)據(jù),轉(zhuǎn)換、收集和全面的數(shù)據(jù)倉庫來分析數(shù)據(jù)存儲。
網(wǎng)絡(luò)安全態(tài)勢感知主要是針對當前網(wǎng)絡(luò)安全現(xiàn)狀,運用新的技術(shù)評估和預(yù)測網(wǎng)絡(luò),面對各種新興的入侵工具,網(wǎng)絡(luò)安全態(tài)勢感知系統(tǒng)對于保障系統(tǒng)安全具有重要的實際意義,本文在網(wǎng)絡(luò)安全態(tài)勢感知的基礎(chǔ)上,引進了數(shù)據(jù)倉庫的概念,重點分析了如何構(gòu)建網(wǎng)絡(luò)安全態(tài)勢感知數(shù)據(jù)倉庫系統(tǒng),要想建立完善的網(wǎng)絡(luò)安全感知的數(shù)據(jù)倉儲,還要對數(shù)據(jù)倉庫的 ETL(抽取、轉(zhuǎn)換和裝載)處理系統(tǒng)和 OLAP(聯(lián)機分析處理)分析系統(tǒng),進行分析設(shè)計,使用和維護數(shù)據(jù)倉庫,使得網(wǎng)絡(luò)管理員能從不同的角度綜合分析去找出網(wǎng)絡(luò)中潛在的各種風險和發(fā)生各種風險的原因,進一步落實有針對性的網(wǎng)絡(luò)安全措施。