賈 焰,韓偉紅,王 偉
(國防科學(xué)技術(shù)大學(xué)計算機(jī)學(xué)院,長沙,湖南 410073)
網(wǎng)絡(luò)空間中網(wǎng)絡(luò)安全事件頻發(fā),影響巨大,例如伊朗的“震網(wǎng)”事件和“烏克蘭停電事件”等。網(wǎng)絡(luò)空間種各行各業(yè)各部門,如政務(wù)、金融、電商、銀行、交通等,從各自的目標(biāo)和需求角度出發(fā),已部署了防火墻、入侵檢測和防病毒等安全產(chǎn)品。目前,各安全產(chǎn)品針對網(wǎng)絡(luò)攻擊紛紛報警,但用戶還是缺乏宏觀的網(wǎng)絡(luò)態(tài)勢全局視圖,因為網(wǎng)絡(luò)攻擊是跟資產(chǎn)漏洞相關(guān)的,資源消耗性攻擊還跟系統(tǒng)狀態(tài)相關(guān),復(fù)雜的網(wǎng)絡(luò)攻擊還是跨系統(tǒng)、跨管理域的,因此需要多通道數(shù)據(jù)綜合分析,才能對網(wǎng)絡(luò)事件進(jìn)行準(zhǔn)確發(fā)現(xiàn)。大規(guī)模網(wǎng)絡(luò)安全態(tài)勢分析是面向網(wǎng)絡(luò)空間安全的需求,基于大數(shù)據(jù)采集和存儲管理技術(shù),采用數(shù)據(jù)分析、挖掘和智能推演等方法,發(fā)現(xiàn)安全事件、評估其危害,并預(yù)測其發(fā)展,并對整個全局網(wǎng)絡(luò)安全態(tài)勢進(jìn)行從微觀到宏觀的多層次、多粒度的全局掌握,給出全局視圖,為網(wǎng)絡(luò)空間安全提供決策支持。
圍繞大規(guī)模網(wǎng)絡(luò)安全態(tài)勢分析與預(yù)測系統(tǒng)的研究,從公開文獻(xiàn)來看,美國、日本、歐盟和中國等均已建立了國家級網(wǎng)絡(luò)安全事件監(jiān)控系統(tǒng)。美國研制了全球預(yù)警信息系統(tǒng)GEWIS(Global Early Warning Information System) [1],愛因斯坦計劃(國家網(wǎng)絡(luò)安全保護(hù)系統(tǒng)NCPS,The National Cybersecurity Protection System,俗稱“愛因斯坦計劃”)[2], 是美國國家《全面的國家網(wǎng)絡(luò)安全行動(CNCI)》的重要組成部分,是由美國國土安全部負(fù)責(zé)設(shè)計和運(yùn)行,提供全局、局部乃至操作層面的網(wǎng)絡(luò)事件監(jiān)測、分析、預(yù)警和態(tài)勢感知。日本研制了互聯(lián)網(wǎng)掃描數(shù)據(jù)獲取系統(tǒng)ISDAS(Internet Scan Data Acquisition System) [3]。歐盟龍蝦計劃(Lobster)[4],屬于歐洲基礎(chǔ)設(shè)施先導(dǎo)性實驗計劃,通過部署于一些學(xué)校、研究性組織、以及部分電信運(yùn)營商的傳感器獲取相關(guān)信息,實施精確的互聯(lián)網(wǎng)通信流量監(jiān)測,利用深度包檢查和深度流檢查的手段來識別0day蠕蟲傳播、識別動態(tài)端口應(yīng)用,并對互聯(lián)網(wǎng)服務(wù)進(jìn)行度量等等。歐盟袋熊計劃(WOMBAT)[5],全稱為《世界范圍惡意行為與攻擊威脅觀測臺工程》,是歐盟資助的一個利用密罐、爬蟲、外部數(shù)據(jù)源等技術(shù)手段,采集、分析網(wǎng)絡(luò)中當(dāng)前存在的和新出現(xiàn)的威脅(尤指惡意代碼)的計劃。中國研制了863-917網(wǎng)絡(luò)安全監(jiān)測平臺,對國家骨干網(wǎng)的網(wǎng)絡(luò)安全態(tài)勢進(jìn)行分析。上述系統(tǒng)均自成體系,實現(xiàn)了面向特定問題領(lǐng)域的監(jiān)測預(yù)警。
網(wǎng)絡(luò)安全態(tài)勢分析技術(shù)的發(fā)展經(jīng)過了三個階段:第一階段,主要聚焦基于特征的安全事件檢測研究,以美國2003年推出愛因斯坦計劃為代表;第二階段,主要聚焦面向復(fù)雜安全事件的關(guān)聯(lián)分析、威脅量化評估研究,以美國2009年的愛因斯坦計劃2為代表;第三階段,主要聚焦面向復(fù)雜攻擊的智能分析、基于指標(biāo)體系的量化評估和發(fā)展趨勢預(yù)測研究,以2013年美國愛因斯坦計劃3為代表。
大規(guī)模網(wǎng)絡(luò)安全態(tài)勢分析面臨的主要挑戰(zhàn)包括:1)針對網(wǎng)絡(luò)空間的安全攻擊種類繁多,目前至少有5萬余種,且不斷演化和涌現(xiàn),如何對其進(jìn)行實時準(zhǔn)確的研判? 2)網(wǎng)絡(luò)系統(tǒng)安全涉及的因素眾多,攻擊、漏洞、資產(chǎn)、網(wǎng)絡(luò)等,且關(guān)聯(lián)復(fù)雜,如何實時、量化、可理解地給出其威脅及安全態(tài)勢?3)網(wǎng)絡(luò)攻擊事件瞬間爆發(fā),危害極大,如何對其進(jìn)行事先預(yù)測,以便采取相關(guān)預(yù)防手段?
針對上述挑戰(zhàn)問題,我們設(shè)計實現(xiàn)了大規(guī)模網(wǎng)絡(luò)安全態(tài)勢分析系統(tǒng)YHSAS,其體系結(jié)構(gòu)如下圖所示。
圖1 YHSAS系統(tǒng)體系架構(gòu)
主要功能包括1)安全信息采集:可對全網(wǎng)全數(shù)據(jù)類型采集,包括文件、包、流、會話、內(nèi)存信息、注冊表信息、地址信息、協(xié)議信息、服務(wù)信息、載荷傳輸信息等進(jìn)行采集,支持10PB數(shù)據(jù)存儲規(guī)模,可集成187類網(wǎng)絡(luò)安全設(shè)備; 2)安全攻擊檢測:可檢測網(wǎng)絡(luò)掃描攻擊、口令攻擊、木馬攻擊、緩沖區(qū)溢出攻擊、篡改信息攻擊、偽造信息攻擊、拒絕服務(wù)攻擊、電子郵件攻擊等常規(guī)攻擊和APT攻擊,覆蓋率為92.3%; 3)態(tài)勢量化計算:可量化的安全指標(biāo)體系,能夠描述目前國家互聯(lián)網(wǎng)的宏觀整體安全態(tài)勢; 4)安全態(tài)勢分析:可對網(wǎng)絡(luò)安全事件進(jìn)行深入分析和發(fā)現(xiàn),對當(dāng)前的網(wǎng)絡(luò)安全態(tài)勢進(jìn)行計算及多模式多維度的可視化輸出;5)安全態(tài)勢預(yù)測:可以準(zhǔn)確預(yù)測將來某一時段內(nèi)的安全趨勢,計算的預(yù)測模塊能夠?qū)δ抉R攻擊傳播、DDoS攻擊、病毒態(tài)勢、僵尸網(wǎng)絡(luò)、APT攻擊進(jìn)行預(yù)測,預(yù)測的符合度良好。
大規(guī)模網(wǎng)絡(luò)安全態(tài)勢分析系統(tǒng)關(guān)鍵技術(shù)主要包括:網(wǎng)絡(luò)空間安全大數(shù)據(jù)實時分析計算平臺技術(shù)、面向網(wǎng)絡(luò)安全全要素信息采集與高維向量空間分析技術(shù)、支持超大規(guī)模網(wǎng)絡(luò)安全知識表示和管理的知識圖譜技術(shù)、多層次多粒度多維度的網(wǎng)絡(luò)安全指標(biāo)體系構(gòu)建方法以及基于自適應(yīng)預(yù)測模型的多模式、多粒度網(wǎng)絡(luò)安全事件預(yù)測技術(shù)。
網(wǎng)絡(luò)空間安全數(shù)據(jù)是典型的大數(shù)據(jù),阻礙大數(shù)據(jù)實時計算和分析的核心問題是磁盤I/O瓶頸(目前磁盤I/O速度是內(nèi)存I/O速度的1/120)。針對這一挑戰(zhàn),YHSAS采用了基于“分布式數(shù)據(jù)處理中間件+已有數(shù)據(jù)管理技術(shù)”的體系架構(gòu),并在此基礎(chǔ)上插接內(nèi)存計算、“劃分-規(guī)約”計算和流計算的數(shù)據(jù)分析加速模塊,支持大數(shù)據(jù)在線計算和分析,且具有高可擴(kuò)展和在線插拔等特性,如圖2所示。第三方測試表明,該平臺支持PB級網(wǎng)絡(luò)安全數(shù)據(jù)在線復(fù)雜分析。
圖2 網(wǎng)絡(luò)空間安全大數(shù)據(jù)分析計算平臺
該分析計算平臺主要包括以下幾個組成部分:
(1)基于分布式對象的內(nèi)存數(shù)據(jù)庫模型StarOTM技術(shù)
基于分布式對象的內(nèi)存數(shù)據(jù)庫模型StarOTM支持分布式對象的狀態(tài)加載、原子性和一致性保持、以及持久存儲等技術(shù);實現(xiàn)了內(nèi)存數(shù)據(jù)管理和處理系統(tǒng),大大減少磁盤I/O,實現(xiàn)了PB級大數(shù)據(jù)在線分析;該平臺在國際開源社區(qū)OW2中開源,產(chǎn)生了巨大的國際影響。
(2)面向復(fù)雜網(wǎng)絡(luò)安全狀態(tài)分析的“劃分-規(guī)約”迭代遞歸計算模型
采用支持大數(shù)據(jù)復(fù)雜分析的“劃分-規(guī)約”迭代遞歸計算模型,該模型將復(fù)雜分析計算逐級分解成分布的簡單計算并執(zhí)行,再將結(jié)果逐級歸并。該技術(shù)將單盤的讀寫并行化為多盤的讀寫,打破了磁盤讀寫瓶頸。該模型早于Google提出的MapReduce模型?;谠摷夹g(shù)開發(fā)的系統(tǒng)在處理數(shù)據(jù)量、吞吐率等方面均滿足YHSAS系統(tǒng)性能要求。
(3)在線流大數(shù)據(jù)復(fù)雜分析技術(shù)
設(shè)計實現(xiàn)了一組在線數(shù)據(jù)流復(fù)雜分析計算算法,包括基于滑動窗口的分布式流增量排序查詢算法(如表1所示),基于Bloom-filter的分布式增量突發(fā)流檢測算法(如表2所示),基于物化流立方的流數(shù)據(jù)實時分析的支撐模型等;流計算無需讀寫磁盤,打破了磁盤I/O的瓶頸。
表1 分布式流增量排序查詢算法
表2 分布式流突發(fā)事件檢測算法
針對傳統(tǒng)的安全設(shè)備和產(chǎn)品通常根據(jù)自己局部目標(biāo)進(jìn)行數(shù)據(jù)采集,缺乏對全局、以及未知和復(fù)雜安全事件分析支撐的問題,YHSAS提出了面向網(wǎng)絡(luò)安全的全要素信息采集模型,再通過對該多維度、多層次的高維向量全信息進(jìn)行安全特征的提煉和分析,大幅提高了對復(fù)雜安全事件的準(zhǔn)確和實時檢測的支撐能力。
(1)多層次、多維度的網(wǎng)絡(luò)安全信息全要素采集模型
針對傳統(tǒng)安全設(shè)備缺乏對全局、未知和復(fù)雜安全事件分析支撐的問題,YHSAS采用基于多層次多維度的全要素采集模型,如表3所示。通過主動獲取與被動接收相結(jié)合的方式,從協(xié)議層、行為層、敏感行為層、攻擊層、廣譜內(nèi)容層和精確內(nèi)容層六個層次,對文件、包、流、會話、協(xié)議和網(wǎng)絡(luò)對象等十三個維度的對象進(jìn)行細(xì)粒度的全信息采集與提取,得到反映安全對象全信息的高維空間向量。
表3 全要素采集模型
(2) 向高維向量空間的安全事件特征信息分析方法
針對全要素信息采集導(dǎo)致的高維向量空間超大計算復(fù)雜度的問題,YHSAS提出了基于高維向量空間的網(wǎng)絡(luò)安全事件特征信息提煉方法,如表4所示。該方法首先在流上對海量數(shù)據(jù)樣本進(jìn)行聚類,再根據(jù)所產(chǎn)生類別的特征進(jìn)行篩取,一方面可聚焦后續(xù)分析的范圍,減小計算復(fù)雜度,另一方面可通過聚類發(fā)現(xiàn)可疑新的事件類別;其次面向產(chǎn)生的類別信息,通過已訓(xùn)練的特征識別神經(jīng)網(wǎng)絡(luò)識別其特征信息,以此構(gòu)建網(wǎng)絡(luò)安全事件信息特征向量空間,為下一步的事件研判奠定基礎(chǔ)。
表4 高維向量空間聚類與特征訓(xùn)練的采集信息分析方法
(3)基于輕量構(gòu)件技術(shù)的網(wǎng)絡(luò)安全信息采集探針自動部署技術(shù)
針對網(wǎng)絡(luò)系統(tǒng)的超異構(gòu)復(fù)雜性和在線演化性,以及數(shù)據(jù)采集探針的巨規(guī)模特性,YHSAS提出了一種基于輕載構(gòu)件技術(shù)的數(shù)據(jù)采集探針的在線插拔技術(shù)。該技術(shù)首先對各類數(shù)據(jù)采集探針進(jìn)行構(gòu)件化封裝,并通過構(gòu)件化應(yīng)用服務(wù)器技術(shù)進(jìn)行集成,實現(xiàn)了探針的在線插拔;其次通過基于正則表達(dá)式的配置文件對目標(biāo)數(shù)據(jù)進(jìn)行抽取和集成,并支持配置文件的自動生成和數(shù)據(jù)模式的自動轉(zhuǎn)換。本技術(shù)能夠高效集成網(wǎng)絡(luò)安全設(shè)備和數(shù)據(jù),YHSAS系統(tǒng)支持187種網(wǎng)絡(luò)安全設(shè)備,并且在性能上是秒級實時的。
針對網(wǎng)絡(luò)安全知識的大規(guī)模、在線演化和時空相關(guān)等特性,YHSAS采用網(wǎng)絡(luò)安全知識表示和管理的超知識圖譜模型,突破了多模態(tài)知識圖譜的自動/半自動的構(gòu)建方法,以及在線演化和快速匹配等核心關(guān)鍵技術(shù),構(gòu)建了一個大規(guī)模網(wǎng)絡(luò)安全知識圖譜,突破了網(wǎng)絡(luò)安全事件的準(zhǔn)確、實時檢測技術(shù),在標(biāo)準(zhǔn)測試集上該系統(tǒng)去重率為99.8%,誤報率0.01%,漏報率0.2%。
(1)支持大規(guī)模網(wǎng)絡(luò)安全知識表示和管理的超知識圖譜模型
針對網(wǎng)絡(luò)空間安全知識巨規(guī)模、高演化和實時利用的問題,YHSAS采用超知識圖譜知識表示模型。在傳統(tǒng)知識圖譜三元組的基礎(chǔ)上,添加了屬性和規(guī)則,針對網(wǎng)絡(luò)空間安全知識巨規(guī)模、高演化和實時利用的問題,提出了五元組
(2)基于多模態(tài)信息的超知識圖譜的自動構(gòu)建方法
針對網(wǎng)絡(luò)安全知識圖譜知識獲取的瓶頸,YHSAS提出了基于多模態(tài)的網(wǎng)安大數(shù)據(jù),通過實體詞識別、關(guān)系抽取、實體鏈接構(gòu)建大規(guī)模網(wǎng)安知識圖譜的方法?;诰浞ㄒ蕾囈?guī)則識別自由文本中的其他候選實體詞,以及基于模式推理識別表格數(shù)據(jù)中的其他候選實體詞,獲得擴(kuò)充實體集E’。關(guān)系抽取方面,首先從網(wǎng)安大數(shù)據(jù)中查找出現(xiàn)過G中知識的原始數(shù)據(jù)片段,采用LSTM深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,獲得t的分類器Ct;然后,對原始數(shù)據(jù)中出現(xiàn)E’的數(shù)據(jù)片段采用Ct進(jìn)行計算,獲得E’中各實體詞間可能存在的關(guān)系類型。實體鏈接方面,根據(jù)知識的屬性和關(guān)系構(gòu)建實體基因,根據(jù)實體基因與上下文特征的相似度,實現(xiàn)數(shù)據(jù)上下文中所提及實體詞與G中已知實體的鏈接,對無法鏈接的實體詞,視為新實體加入到G中,實現(xiàn)消歧融合與知識擴(kuò)充。
W估計參數(shù)= σ訓(xùn)練函數(shù)(Y已知關(guān)系/ (tanh降維( [V句子向量,P實體詞位置]T))
y關(guān)系類型= softmax (W估計參數(shù)×(tanh降維( [V句子向量,P實體詞位置]T))
(3)基于張量分解與路徑排序相結(jié)合的知識自動推理算法
針對網(wǎng)絡(luò)空間安全知識巨規(guī)模、高演化、時空屬性和實時利用的問題,YHSAS采用網(wǎng)絡(luò)安全超知識圖譜的演化方法,基于張量分解的思路提出了面向邊和屬性的知識自動推理算法,即根據(jù)本節(jié)點(diǎn)和相鄰節(jié)點(diǎn)的屬性值預(yù)測為止屬性的值,并基于可達(dá)路徑排序的方法,根據(jù)兩點(diǎn)之間所有可達(dá)路徑,預(yù)測兩個節(jié)點(diǎn)之間可能的新的可達(dá)邊。在網(wǎng)絡(luò)安全知識圖譜的演化過程中,采用候選實體識別、實體間關(guān)系類型分類、實體確定技術(shù),自動從網(wǎng)絡(luò)安全漏洞庫及利用方法中演化推理?;谧詣友莼评硭惴?,可以快速對為網(wǎng)絡(luò)安全檢測到的數(shù)據(jù)流進(jìn)行研判,突破了安全事件的實時、準(zhǔn)確研判難題。
V預(yù)測屬性值=∑λi*f(kj節(jié)點(diǎn)Vi值)+∑σt*
∑λi*fij(ki相鄰節(jié)點(diǎn)Vi值)
S(l,f)預(yù)測邊值=∑P路徑(vl點(diǎn),vi點(diǎn);l長度(π)≤n)·ωπ權(quán)重
(4)基于容忍度K的增量式子圖匹配的網(wǎng)絡(luò)安全事件檢測技術(shù)
基于子圖匹配和活動模式向結(jié)合的方法,YHSAS提出了基于容忍度K的增量式快速攻擊子圖匹配研判算法,實現(xiàn)了僵尸網(wǎng)絡(luò)和慢速DDoS的檢測。在實驗數(shù)據(jù)集上,提出基于動態(tài)時間彎曲距離相似性度量方法,對僵尸網(wǎng)絡(luò)遷移檢測的準(zhǔn)確率達(dá)到92%;基于僵尸網(wǎng)絡(luò)惡意行為目標(biāo)和時間關(guān)聯(lián)分析的僵尸網(wǎng)絡(luò)協(xié)同檢測方法結(jié)果為:在時間跨度為2個月、僵尸主機(jī)IP數(shù)大于40時,檢測方法漏報率為0。針對隱蔽性強(qiáng)的慢速DDoS攻擊檢測存在檢測困難和效率低下的特點(diǎn),提出了基于流量與服務(wù)協(xié)作檢測的慢速DDoS攻擊檢測方法。為評測本方法的有效性,網(wǎng)絡(luò)模擬實驗對檢測系統(tǒng)進(jìn)行了檢驗,實驗結(jié)果正確檢測率為99.7%,漏警率為0.4%,虛警率為0.3%,檢測系統(tǒng)性能良好。
針對影響大規(guī)模網(wǎng)絡(luò)安全態(tài)勢分析的因素多種多樣,其重要性也不盡相同的特點(diǎn),給出建立了多層次、多粒度和多維度的網(wǎng)絡(luò)安全指標(biāo)體系的構(gòu)建方法,及其指數(shù)的可配置、實時計算和在線演化的方法,準(zhǔn)確描述和量化大規(guī)模網(wǎng)絡(luò)從宏觀到微觀的網(wǎng)絡(luò)安全態(tài)勢。
(1)基于主從分析的R聚類與因子分析相結(jié)合網(wǎng)安指標(biāo)提取方法
YHSAS采用主從分析的R聚類與因子分析相結(jié)合網(wǎng)安指標(biāo)提取方法,首先通過主成分分析法確定影響網(wǎng)絡(luò)態(tài)勢的主要因素和合理層級;其次利用德爾菲法確定網(wǎng)絡(luò)安全態(tài)勢指標(biāo)體系的層數(shù),再通過R聚類將同一個層中的指標(biāo)分類,使得不同的類代表網(wǎng)絡(luò)態(tài)勢評估的不同方面;最后通過因子分析法篩選出各個類別中因子載荷大的指標(biāo),使得少數(shù)的指標(biāo)可以反應(yīng)整個網(wǎng)絡(luò)的安全態(tài)勢。建立的網(wǎng)絡(luò)安全態(tài)勢指標(biāo)體系標(biāo)準(zhǔn),僅用了16%的指標(biāo),反應(yīng)了99%的原始信息,可有效、客觀地衡量網(wǎng)絡(luò)安全態(tài)勢。
(2)多模式的網(wǎng)絡(luò)安全指標(biāo)體系計算模型
通過分析不同網(wǎng)絡(luò)安全因素的特點(diǎn),根據(jù)不同的網(wǎng)絡(luò)安全指標(biāo)特性,給出了包括極值法、統(tǒng)計標(biāo)準(zhǔn)化法、反余切函數(shù)法、中間變量法和對數(shù)法等不同的網(wǎng)絡(luò)安全指數(shù)量化方法;對量化以后的網(wǎng)絡(luò)安全指標(biāo),采用聚集算法將各個子指數(shù)聚集計算成上一級指數(shù),形成層次式的網(wǎng)絡(luò)安全指標(biāo)體系。主要計算模型包括:加權(quán)平均法,具有直觀易理解的特點(diǎn);最大值法,通過刻畫局部最嚴(yán)重的程度,取其中一項的最大值作為聚集后的指數(shù)結(jié)果;調(diào)和三角模法,能夠同時體現(xiàn)全局性和局部性的特點(diǎn)。
(3)基于深度學(xué)習(xí)的網(wǎng)絡(luò)安全指標(biāo)體系自演化技術(shù)
針對網(wǎng)絡(luò)安全攻擊不斷創(chuàng)新和演化,已有的指標(biāo)體系需要適應(yīng)性變化問題,采用了基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全指標(biāo)體系自學(xué)習(xí)、自演化技術(shù)。該技術(shù)首先構(gòu)建了指標(biāo)體系評測方法,從正確性、穩(wěn)定性和冗余性三個角度衡量指標(biāo)體系與實際的符合度,從而指導(dǎo)深度學(xué)習(xí)算法對網(wǎng)絡(luò)安全指標(biāo)體系的量化方法和聚集算子,以及其中的各項參數(shù)的權(quán)重進(jìn)行反饋調(diào)整,測試表明基于該方法指標(biāo)體系與實際的符合率超過了90%。
針對當(dāng)前技術(shù)對網(wǎng)絡(luò)安全發(fā)展的趨勢難以預(yù)測的問題,YHSAS提出了基于自適應(yīng)預(yù)測模型的多模式、多粒度的網(wǎng)絡(luò)安全態(tài)勢預(yù)測技術(shù),包括:多種預(yù)測方式有機(jī)結(jié)合的網(wǎng)絡(luò)安全態(tài)勢預(yù)測技術(shù),基于特征事件序列頻繁情節(jié)的預(yù)測技術(shù),基于小波分解及ARMA模型的預(yù)測技術(shù),基于改進(jìn)型支持向量回歸預(yù)測的多維熵值異常檢測方法,實現(xiàn)了網(wǎng)絡(luò)安全態(tài)勢的準(zhǔn)確預(yù)測。
(1)支持多種預(yù)測方式的網(wǎng)絡(luò)安全態(tài)勢預(yù)測框架
針對影響網(wǎng)絡(luò)安全態(tài)勢演化的因素多,只采用單一的預(yù)測技術(shù)難以預(yù)測的問題,YHSAS采用了多種預(yù)測方法相結(jié)合的網(wǎng)絡(luò)安全態(tài)勢預(yù)測系統(tǒng)架構(gòu)。將時序數(shù)據(jù)預(yù)測的相關(guān)技術(shù)應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,根據(jù)不同網(wǎng)絡(luò)安全數(shù)據(jù)的特征和應(yīng)用要求合理的選擇預(yù)測模型,并利用歷史安全事件數(shù)據(jù)進(jìn)行建模,進(jìn)而根據(jù)多種不同的預(yù)測模型對不同安全數(shù)據(jù)源進(jìn)行多個粒度的預(yù)測。對于短期預(yù)測主要考慮近期歷史數(shù)據(jù)的發(fā)展規(guī)律進(jìn)行建模預(yù)測,對于中期和長期預(yù)測主要考慮歷史安全事件在一段較長時間內(nèi)所體現(xiàn)出的季節(jié)性因素和總體長期趨勢。測試證明,系統(tǒng)支持短期、中期、長期等多種時間粒度的預(yù)測,支持木馬、蠕蟲、僵尸網(wǎng)絡(luò)等主要網(wǎng)絡(luò)安全事件的預(yù)測,且預(yù)測效果理想。
(2)基于特征事件頻繁情節(jié)的時序數(shù)據(jù)預(yù)測技術(shù)
針對僵尸網(wǎng)絡(luò)、蠕蟲等具有長時間傳播特性的網(wǎng)絡(luò)安全事件往往具有自相似性的特點(diǎn),YHSAS提出了一種新的時間序列數(shù)據(jù)預(yù)測問題的解決思路:首先通過對時間序列數(shù)據(jù)的分段和對時序子段特征的離散事件化將時間序列數(shù)據(jù)轉(zhuǎn)換為事件序列,再引入事件序列處理領(lǐng)域中頻繁情節(jié)的相關(guān)概念和方法提取預(yù)測所需的知識,進(jìn)而利用這些知識對時間序列數(shù)據(jù)未來的發(fā)展進(jìn)行預(yù)測。所提方法的具體預(yù)測過程可分為知識提取和預(yù)測兩個階段:在預(yù)測階段,使用提取出的頻繁情節(jié)前綴事件匹配近期時間序列數(shù)據(jù)形成的特征事件序列,繼而利用選定的頻繁情節(jié)后綴事件預(yù)測未來時序子段上的特征事件。實際使用證明基于特征時間頻繁情節(jié)的預(yù)測使得僵尸網(wǎng)絡(luò)、蠕蟲的長期多步預(yù)測場景下的預(yù)測精度提高了15%左右。
(3)基于改進(jìn)型支持向量回歸模型的多維熵值異常檢測方法
針對大規(guī)模網(wǎng)絡(luò)中流量數(shù)據(jù)中的噪音、擾動因素的特點(diǎn),YHSAS提出了將支持向量回歸模型(LSSVM)應(yīng)用于網(wǎng)絡(luò)流量數(shù)據(jù)各維度上熵值的預(yù)測的方法,可以很好地屏蔽網(wǎng)絡(luò)中流量數(shù)據(jù)中的噪音、擾動因素,并及時發(fā)現(xiàn)流量熵值異常。主要技術(shù)突破包括:快速多維熵值計算,通過多個維度上的熵值突變進(jìn)行關(guān)聯(lián)增加檢測精度,對大規(guī)模網(wǎng)絡(luò)上異常檢測需要對海量流量數(shù)據(jù)進(jìn)行實時處理;遺傳算法改進(jìn)支持向量回歸,采用自適應(yīng)交叉與變異算子,交叉與變異針對種群中所有個體進(jìn)行,提高了算法的搜索能力,且只保留適應(yīng)度大的個體,確保進(jìn)化方向,加速收斂速度避免變異使交叉所產(chǎn)生的優(yōu)良個體發(fā)生退化。測試證明,對DDoS攻擊、蠕蟲能可能引起流量異常的攻擊行為的早期檢測與預(yù)警具有很好的效果。
大規(guī)模網(wǎng)絡(luò)安全態(tài)勢分析系統(tǒng)YHSAS面向國家骨干網(wǎng)絡(luò)安全以及大型網(wǎng)絡(luò)運(yùn)營商、大型企事業(yè)單位等大規(guī)模網(wǎng)絡(luò)環(huán)境,對能夠引起網(wǎng)絡(luò)態(tài)勢發(fā)生變化的安全要素進(jìn)行獲取、理解、顯示以及預(yù)測未來的發(fā)展趨勢。本文對YHSAS系統(tǒng)的關(guān)鍵技術(shù)進(jìn)行深入研究,包括:網(wǎng)絡(luò)空間安全大數(shù)據(jù)實時分析計算平臺技術(shù)、面向網(wǎng)絡(luò)安全全要素信息采集與高維向量空間分析技術(shù)、支持超大規(guī)模網(wǎng)絡(luò)安全知識表示和管理的知識圖譜技術(shù)、多層次多粒度多維度的網(wǎng)絡(luò)安全指標(biāo)體系構(gòu)建方法、基于自適應(yīng)預(yù)測模型的多模式、多粒度網(wǎng)絡(luò)安全事件預(yù)測技術(shù)等。性能測試顯示,YHSAS系統(tǒng)在態(tài)勢分析和預(yù)測方面均具有較高的實時性和精度,滿足了大規(guī)模網(wǎng)絡(luò)安全態(tài)勢分析與預(yù)測的需求。
大規(guī)模網(wǎng)絡(luò)安全態(tài)勢分析系統(tǒng)還面臨很多新的挑戰(zhàn),在大規(guī)模網(wǎng)絡(luò)安全事件預(yù)測的準(zhǔn)確性方面,由于影響安全事件發(fā)生的因素太多,新的攻擊手段是未知的,實際攻擊過程中又存在因各種目的而活動的網(wǎng)絡(luò)黑客人為操作等情況, 導(dǎo)致對重大網(wǎng)絡(luò)攻擊事件的發(fā)生和發(fā)展趨勢的準(zhǔn)確預(yù)測難度大。作為本領(lǐng)域公認(rèn)的世界性難題之一,是有待進(jìn)一步研究的方向。
[1] GEWIS(Global Early Warning Information System) , http://www.acronymfinder.com/Global-Early-Warning-Information-System-%28GEWIS%29.html.
[2] https://www.dhs.gov/national-cybersecurity-protection-system-ncps.
[3] JPCERT/CC, ISDAS(Internet Scan Data Acquisition System), http://www.jpcert.or.jp/isdas/.
[4] http://www.ist-lobster.org/downloads/index.html.
[5] S Zanero , D, Ph .WOMBAT: towards a Worldwide Observatory of Malicious Behaviors and Attack Threats.