林榆堅(jiān),梁寧波
(北京安賽創(chuàng)想科技有限公司,北京 100083)
以信息技術(shù)為代表的新一輪科技和產(chǎn)業(yè)革命給世界各國主權(quán)、安全、發(fā)展利益帶來了許多新的挑戰(zhàn)。近年來,國家級(jí)網(wǎng)絡(luò)武器及其相關(guān)工具和技術(shù)的擴(kuò)散,給各國關(guān)鍵基礎(chǔ)設(shè)施造成了極大挑戰(zhàn)。當(dāng)前,全球互聯(lián)網(wǎng)治理體系變革進(jìn)入關(guān)鍵時(shí)期,構(gòu)建網(wǎng)絡(luò)空間命運(yùn)共同體日益成為國際社會(huì)的廣泛共識(shí)。
全球網(wǎng)絡(luò)攻擊事件統(tǒng)計(jì)(如圖1所示)顯示,未知威脅攻擊、Account Hijacking賬戶劫持攻擊、Targeted Attack針對(duì)性攻擊、DDoS攻擊,攻擊比例上呈逐年上升趨勢(shì)。國計(jì)民生的基礎(chǔ)設(shè)施系統(tǒng)是攻擊的重點(diǎn)領(lǐng)域,其中涉及金融、能源、交通等,其目標(biāo)性、隱蔽性極強(qiáng),傳統(tǒng)的消缺補(bǔ)漏、靜態(tài)防御、“封、堵、查、殺”在這些攻擊面前捉襟見肘。
圖1 全球網(wǎng)絡(luò)攻擊事件統(tǒng)計(jì)
美國中情局對(duì)其黑客武器庫的失控,如同一把寶劍懸著以劃“域”而治。固守邊界防御思路治理下的各國關(guān)鍵基礎(chǔ)設(shè)施上空,大范圍安全事件隨時(shí)可能發(fā)生。2017年,WannaCry勒索病毒是一個(gè)典型的安全事件,短短4日,席卷150多個(gè)國家,造成80億美元損失,涉及金融、能源、醫(yī)療等眾多行業(yè)[1]。如何避免突擊式的補(bǔ)救,成為當(dāng)下急需解決的問題。
改變以往的邊界防御思路,從數(shù)據(jù)安全保護(hù)角度出發(fā),通過對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行動(dòng)態(tài)評(píng)估,分析出業(yè)務(wù)數(shù)據(jù)的價(jià)值,從而根據(jù)不同價(jià)值等級(jí)進(jìn)行動(dòng)態(tài)的策略規(guī)則防護(hù)。
動(dòng)態(tài)防御,很早就是網(wǎng)絡(luò)安全領(lǐng)域追訴的目標(biāo),經(jīng)歷了從設(shè)備聯(lián)動(dòng)布防到現(xiàn)在對(duì)人工智能的關(guān)注。在當(dāng)下網(wǎng)絡(luò)安全環(huán)境中,利用IPS、FW等設(shè)備的動(dòng)態(tài)關(guān)聯(lián),已經(jīng)不能滿足動(dòng)態(tài)的需要。人工智能以其高效數(shù)據(jù)處理和分析的速度、準(zhǔn)確性等優(yōu)勢(shì),受到了人們的青睞。其中,數(shù)據(jù)和算法是保障高信度和高效度分析結(jié)果的核心。脫離全面有效數(shù)據(jù)的喂養(yǎng),準(zhǔn)確分析將無從談起;離開有效算法和算法集間的交叉驗(yàn)證,就會(huì)走向信度和效度極度脆弱的一面。
構(gòu)建真正意義上的“以未知對(duì)未知”的動(dòng)態(tài)防御,數(shù)據(jù)和算法是核心。獲取全面的具有代表性的數(shù)據(jù),才能避免人工智能魯棒性的出現(xiàn),才能提供更加準(zhǔn)確可靠的分析結(jié)果。算法決定檢測(cè)準(zhǔn)確度的上限。只有對(duì)算法的優(yōu)缺點(diǎn)進(jìn)行驗(yàn)證、分析,才能在實(shí)戰(zhàn)中做好算法集的動(dòng)態(tài)調(diào)配。
“以未知對(duì)未知”,是在人工智能的技術(shù)前提下,基于Netflow和sFlow兩種協(xié)議字段融合,克服單一網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)局限性弊端,降低網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)量和運(yùn)行主機(jī)的CPU負(fù)載率,結(jié)合算法集對(duì)流動(dòng)變化的數(shù)據(jù)自適應(yīng),通過關(guān)鍵因素的風(fēng)險(xiǎn)區(qū)間和概率分布,對(duì)未來結(jié)果做出精準(zhǔn)判斷,產(chǎn)出不斷進(jìn)化的防御規(guī)則,以應(yīng)對(duì)新時(shí)代網(wǎng)絡(luò)安全的需求。
“以未知對(duì)未知”防御體系設(shè)計(jì)(如圖2所示)共分三個(gè)部分。第一部分是未知數(shù)據(jù)的采集、梳理、融合、范化、精煉,形成標(biāo)準(zhǔn)的數(shù)據(jù)格式;第二部分是自適應(yīng)算法集,包含支持向量機(jī)算法、Apriori與FP-Growth算法、隱式馬爾科夫算法、樸素貝葉斯算法等,每個(gè)算法單獨(dú)并行運(yùn)算,威脅驗(yàn)證后,提交給態(tài)勢(shì)數(shù)據(jù)庫;第三部分,態(tài)勢(shì)數(shù)據(jù)庫一方面將威脅情報(bào)梳理呈現(xiàn),另一方面根據(jù)網(wǎng)絡(luò)狀況進(jìn)行資源管理策略調(diào)整,影響安全防御系統(tǒng)策略變更。
圖2 “未知對(duì)未知”防御架構(gòu)
采集具有代表性的原始數(shù)據(jù),是“未知對(duì)未知”防御的重要基礎(chǔ)。
由于網(wǎng)絡(luò)流量中包含了源/目的地址、源/目的端口、協(xié)議類型等豐富的網(wǎng)絡(luò)信息,能夠?qū)崟r(shí)反映當(dāng)前網(wǎng)絡(luò)中出現(xiàn)的安全信息和行為描述。因此,網(wǎng)絡(luò)流量為在網(wǎng)絡(luò)異常檢測(cè)方面最具有代表性的元數(shù)據(jù)。由于其他安全設(shè)備和網(wǎng)絡(luò)設(shè)備品牌各異,采集數(shù)據(jù)的協(xié)議也不盡相同。這些設(shè)備采集的和二次加工的數(shù)據(jù)暫且納入第三方信息管理平臺(tái),為威脅驗(yàn)證提供參考。
近幾年,應(yīng)用比較廣泛的網(wǎng)絡(luò)流技術(shù)主要包括NetFlow(Ciso公司)、J-Flow(Juniper公司)、sFlow(HP,InMon,F(xiàn)oundry Networks公司)和NetStream(華為公司)。其中,J-Flow和NetStream這2種網(wǎng)絡(luò)流的原理和內(nèi)容基本與NetFlow相類似,故可以認(rèn)為目前應(yīng)用的常見網(wǎng)絡(luò)流主要以NetFlow和sFlow為主[2]。
2.1.1 基于NetFlow的流量采集方法
NetFlow是由Cisco創(chuàng)造的一種流量輪廓監(jiān)控技術(shù),簡(jiǎn)單來說就是一種數(shù)據(jù)交換方式。NetFlow提供網(wǎng)絡(luò)流量的會(huì)話級(jí)視圖,記錄下每個(gè)TCP/IP事務(wù)的信息,易于管理和易讀。
NetFlow利用標(biāo)準(zhǔn)的交換模式處理數(shù)據(jù)流的第1個(gè)IP包數(shù)據(jù)生成NetFlow緩存,隨后同樣的數(shù)據(jù)基于緩存信息在同1個(gè)數(shù)據(jù)流中進(jìn)行傳輸,不再匹配相關(guān)的訪問控制等策略。NetFlow緩存同時(shí)包含了隨后數(shù)據(jù)流的統(tǒng)計(jì)信息。NetFlow有2個(gè)核心的組件:NetFlow緩存,存儲(chǔ)IP流信息;NetFlow的數(shù)據(jù)導(dǎo)出或傳輸機(jī)制,將數(shù)據(jù)發(fā)送到網(wǎng)絡(luò)管理采集器。
利用NetFlow技術(shù)可以檢測(cè)網(wǎng)絡(luò)上IP Flow信息,包括(5W1H):
who:源IP地址;
when:開始時(shí)間、結(jié)束時(shí)間;
where:從哪——From(源IP,源端口);到哪——To(目的IP,目的端口);
what:協(xié)議類型,目標(biāo)IP,目標(biāo)端口;
how:流量大小,流量包數(shù);
why:基線,閾值,特征。
這些數(shù)據(jù)可以形成標(biāo)準(zhǔn)的七元組。用七元組來區(qū)分每一個(gè)Flow是其重要的特點(diǎn)。七元組主要包括,源IP地址、源端口號(hào)、目的IP地址、目的端口號(hào)、協(xié)議類、服務(wù)種類和輸入接口。
2.1.2 基于sFlow的流量采集方法
sFlow(RFC 3176)是基于標(biāo)準(zhǔn)的最新網(wǎng)絡(luò)導(dǎo)出協(xié)議[3]。sFlow已經(jīng)成為一項(xiàng)線速運(yùn)行的“永遠(yuǎn)在線”技術(shù),可以將sFlow技術(shù)嵌入到網(wǎng)絡(luò)路由器和交換機(jī)ASIC芯片中。與使用鏡像端口、探針和旁路監(jiān)測(cè)技術(shù)的傳統(tǒng)網(wǎng)絡(luò)監(jiān)視解決方案相比,sFlow能夠明顯降低實(shí)施費(fèi)用,同時(shí)可以使面向每一個(gè)端口的全企業(yè)網(wǎng)絡(luò)監(jiān)視解決方案成為可能。
sFlow系統(tǒng)的基本原理為:分布在網(wǎng)絡(luò)不同位置的sFlow代理把sFlow數(shù)據(jù)報(bào)源源不斷地傳送給中央sFlow采集器,采集器對(duì)sFlow數(shù)據(jù)報(bào)進(jìn)行分析并生成豐富、實(shí)時(shí)、全網(wǎng)范圍的傳輸流視圖。
sFlow是一種純數(shù)據(jù)包采樣技術(shù),即每一個(gè)被采樣的X包的長度被記錄下來,而大部分的包則被丟棄,只留下樣本被傳送給采集器。由于這項(xiàng)技術(shù)是基于樣本的,如果沒有復(fù)雜的算法來嘗試推測(cè)準(zhǔn)確的會(huì)話字節(jié)量,那么幾乎不可能獲得每臺(tái)主機(jī)流量100%的準(zhǔn)確值。使用這項(xiàng)技術(shù)時(shí),交換機(jī)每隔100個(gè)數(shù)據(jù)包(可配置)對(duì)每個(gè)接口采一次樣,然后將它傳送給采集器。sFlow的規(guī)格也支持1∶1的采樣率,即對(duì)每一個(gè)數(shù)據(jù)包都進(jìn)行“采樣”。對(duì)數(shù)據(jù)包最大采樣頻率的限制取決于具體的芯片廠商和sFlow的實(shí)現(xiàn)情況。
2.1.3 雙流量數(shù)據(jù)采集
因HTTP會(huì)話雙向性的特點(diǎn),需采取網(wǎng)絡(luò)雙向流量分析,主要針對(duì)request請(qǐng)求和服務(wù)器的response響應(yīng)進(jìn)行實(shí)時(shí)分析,并且自動(dòng)關(guān)聯(lián)分析磁盤陣列中全流量鏡像歷史數(shù)據(jù),發(fā)現(xiàn)更深層次的攻擊事件。
如圖3所示,系統(tǒng)在用戶發(fā)出請(qǐng)求和服務(wù)器給予響應(yīng)的過程中,會(huì)對(duì)兩者的HTTP請(qǐng)求包和響應(yīng)包數(shù)據(jù)進(jìn)行分析,判斷是否存在漏洞或者攻擊事件。如果有漏洞或者攻擊事件,則會(huì)記錄并交由其他模塊繼續(xù)處理。
圖3 雙向流檢測(cè)流程
通過不同層次的監(jiān)控(內(nèi)核級(jí)、應(yīng)用層級(jí)主要包括進(jìn)程操作、文件操作、注冊(cè)表操作、網(wǎng)絡(luò)訪問、網(wǎng)絡(luò)數(shù)據(jù)URL等)發(fā)現(xiàn)更全面的監(jiān)控樣本,結(jié)合智能關(guān)聯(lián)分析形成有效的安全檢測(cè)體系,以挖掘更全面的惡意行為。
2.1.4 數(shù)據(jù)融合
NetFlow和sFlow兩種協(xié)議都屬于網(wǎng)絡(luò)流協(xié)議,但是存在一些差異。sFlow通過采樣的形式來獲取網(wǎng)絡(luò)流數(shù)據(jù),基本包含了網(wǎng)絡(luò)中的所有信息,且具有“永遠(yuǎn)在線”的特點(diǎn)。由于協(xié)議本身的設(shè)置,使得sFlow在獲取網(wǎng)絡(luò)流數(shù)據(jù)過程中雖然CPU負(fù)載率低,但是獲取的數(shù)據(jù)存在一些誤差,尤其在網(wǎng)絡(luò)流量較小時(shí),難以滿足小規(guī)模網(wǎng)絡(luò)的要求。而NetFlow通過連續(xù)采集的方式來獲取網(wǎng)絡(luò)流數(shù)據(jù),使得數(shù)據(jù)中不包括網(wǎng)絡(luò)中的一些部分重要信息(如:MAC地址、接口速率等),導(dǎo)致無法對(duì)上述重要信息進(jìn)行研究分析。此外,由于通過連續(xù)采集的方式來獲取數(shù)據(jù),使得其CPU負(fù)載率較高,尤其當(dāng)網(wǎng)絡(luò)流量較大時(shí),難以有效滿足大規(guī)模網(wǎng)絡(luò)的要求[4]。
將NetFlow和sFlow數(shù)據(jù)融合,相互彌補(bǔ)各自的不足、性能上的差異,是推動(dòng)采集數(shù)據(jù)全面性的必經(jīng)之路。融合不是簡(jiǎn)單的結(jié)合,而是在兩個(gè)協(xié)議功能、性能優(yōu)缺點(diǎn)分析的基礎(chǔ)上,對(duì)兩個(gè)協(xié)議字段進(jìn)行融合。
算法決定上限,也是說算法決定了智能安全功能展現(xiàn)的上限閾值。本文通過算法集研究實(shí)踐,分析不同算法特性來應(yīng)對(duì)不同威脅的攻擊。具體地,主要對(duì)支持向量機(jī)算法、Apriori與FP-growth算法、隱式馬爾科夫算法和樸素貝葉斯算法等進(jìn)行分析研究。
2.2.1 支持向量機(jī)算法
支持向量機(jī)是一種二分類模型,基本模型是定義在特征空間上的間隔最大的線性分類器[5]。間隔最大使它有別于感知機(jī)(感知機(jī)利用誤分類最小的策略,求得分離超平面,解有無窮多個(gè);線性可分支持向量機(jī)利用間隔最大化求解最優(yōu)分離超平面,解是唯一的);支持向量機(jī)還包括核技巧(將數(shù)據(jù)有時(shí)是非線性數(shù)據(jù),從一個(gè)低維空間映射到一個(gè)高維空間,可以將一個(gè)在低維空間中的非線性問題轉(zhuǎn)換為高維空間下的線性問題來求解),使其成為實(shí)質(zhì)上的非線性分類器。支持向量機(jī)的學(xué)習(xí)策略是間隔最大化,以形式化為一個(gè)求解凸二次規(guī)劃的問題,也等價(jià)于正則化的合頁函數(shù)的最小化問題。
支持向量機(jī)學(xué)習(xí)算法模型分類。
(1)線性可分支持向量機(jī)。當(dāng)訓(xùn)練集線性可分時(shí),通過硬間隔最大化,學(xué)習(xí)一個(gè)線性的分類器,即線性可分支持向量機(jī),又稱為硬間隔支持向量機(jī)。
(2)線性近似可分支持向量機(jī)。當(dāng)訓(xùn)練集近似線性可分時(shí),通過軟間隔最大化,也學(xué)習(xí)一個(gè)線性的分類器,即線性支持向量機(jī),又稱為軟間隔支持向量機(jī)。
(3)非線性支持向量機(jī)。當(dāng)訓(xùn)練集線性不可分時(shí),通過核技巧和軟間隔最大化,學(xué)習(xí)非線性支持向量機(jī)。
SVM學(xué)習(xí)問題可以表示為凸優(yōu)化問題,因此可以利用已知的有效算法發(fā)現(xiàn)目標(biāo)函數(shù)的全局最小值。而其他分類方法(如基于規(guī)則的分類器和人工神經(jīng)網(wǎng)絡(luò))都采用一種基于貪心學(xué)習(xí)的策略來搜索假設(shè)空間,一般只能獲得局部最優(yōu)解。
2.2.2 Apriori與FP-gowth算法
Apriori和FP-growth算法是比較有代表性的關(guān)聯(lián)規(guī)則算法。它們是無監(jiān)督算法,可以自動(dòng)從數(shù)據(jù)中挖掘出潛在的關(guān)聯(lián)關(guān)系。這一算法對(duì)挖掘潛在威脅很有幫助,如對(duì)圖2中自適應(yīng)算法集及資源管理調(diào)整生成未知策略幫助很大。
Apriori算法是一種同時(shí)滿足最小支持度閾值和最小置信度閾值的關(guān)聯(lián)規(guī)則挖掘算法。使用頻繁項(xiàng)集的先驗(yàn)知識(shí),通過逐層搜索迭代的方式探索項(xiàng)度集。
FP-growth算法基于Apriori算法構(gòu)建,但采用了高級(jí)的數(shù)據(jù)結(jié)構(gòu)減少掃描次數(shù),加快了算法速度。FP-growth算法只需要對(duì)數(shù)據(jù)庫進(jìn)行兩次掃描,而Apr-iori算法對(duì)每個(gè)潛在的頻繁項(xiàng)集都會(huì)掃描數(shù)據(jù)集判定給定模式是否頻繁,因此FP-growth算法比Apr-iori算法快。
在自適應(yīng)算法集,采用Apriori和FP-growth算法對(duì)NetFlow和sFlow兩個(gè)協(xié)議的融合數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。
2.2.3 隱式鏈馬爾科夫算法
隱馬爾可夫模型(Hidden Markov Model,HMM)是統(tǒng)計(jì)模型,用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過程。難點(diǎn)是從可觀察的參數(shù)中確定該過程的隱含參數(shù),然后利用參數(shù)做進(jìn)一步分析,如模式識(shí)別。被建模的系統(tǒng)被認(rèn)為是一個(gè)馬爾可夫過程與未觀測(cè)到的(隱藏的)的狀態(tài)的統(tǒng)計(jì),即馬爾可夫模型。
和HMM相關(guān)的算法主要分為三類,分別解決三種問題:
(1)已知隱含狀態(tài)數(shù)量、轉(zhuǎn)換率,根據(jù)可見狀態(tài)鏈得出隱含狀態(tài)鏈;
(2)已知隱含狀態(tài)數(shù)量、轉(zhuǎn)換率,根據(jù)可見狀態(tài)鏈得出結(jié)果概率;
(3)已知隱含狀態(tài)數(shù)量,通過多次觀測(cè)可見狀態(tài)鏈,反推出轉(zhuǎn)換率。
2.2.4 樸素貝葉斯算法
在所有的機(jī)器學(xué)習(xí)分類算法中,樸素貝葉斯和其他絕大多數(shù)的分類算法不同。對(duì)于大多數(shù)的分類算法,如決策樹、KNN、邏輯回歸、支持向量機(jī)等,都是判別方法,也就是直接學(xué)習(xí)特征輸出Y和特征X之間的關(guān)系,要么是決策函數(shù)Y=f(X),要么是條件分布P(Y |X )。但是,樸素貝葉斯卻是生成方法,直接找出特征輸出Y和特征X的聯(lián)合分布P(X , Y ),然后利用:
得出:
貝葉斯學(xué)派的思想可以概括為先驗(yàn)概率+數(shù)據(jù)=后驗(yàn)概率。也就是說,實(shí)際問題中需要得到的后驗(yàn)概率,可以通過先驗(yàn)概率和數(shù)據(jù)綜合得到。一般來說,先驗(yàn)概率是對(duì)數(shù)據(jù)所在領(lǐng)域的歷史經(jīng)驗(yàn),但是這個(gè)經(jīng)驗(yàn)常常難以量化或者模型化。于是,貝葉斯學(xué)派大膽假設(shè)先驗(yàn)分布的模型,如正態(tài)分布、beta分布等。這個(gè)假設(shè)一般沒有特定的依據(jù),雖然難以從嚴(yán)密的數(shù)學(xué)邏輯中推出貝葉斯學(xué)派的邏輯,但是在很多實(shí)際應(yīng)用中,貝葉斯理論應(yīng)用效果良好,如垃圾郵件分類和文本分類。
在整個(gè)“以未知對(duì)未知”防御思路中,未知數(shù)據(jù)、算法集、未知規(guī)則是其核心。這個(gè)思路是改變傳統(tǒng)以特征庫匹配防御的思路,推出了新的動(dòng)態(tài)防御思路。
未知數(shù)據(jù)是網(wǎng)絡(luò)空間中網(wǎng)絡(luò)設(shè)備、安全設(shè)備二次加工數(shù)據(jù)以及NetFlow和sFlow兩個(gè)協(xié)議融合的網(wǎng)絡(luò)流量數(shù)據(jù),需對(duì)這些數(shù)據(jù)進(jìn)行處理提煉。
自適應(yīng)算法集是在對(duì)機(jī)器學(xué)習(xí)智能算法理解的基礎(chǔ)上進(jìn)行建模識(shí)別,并檢測(cè)網(wǎng)絡(luò)威脅。檢測(cè)流程:(1)智能算法集依據(jù)客戶網(wǎng)絡(luò)環(huán)境數(shù)據(jù)及相關(guān)信息生成威脅識(shí)別模型;(2)威脅識(shí)別模型適配運(yùn)行;(3)識(shí)別威脅分類;(4)識(shí)別威脅驗(yàn)證(真實(shí)性、可觸發(fā)性驗(yàn)證)優(yōu)化算法模型;(5)結(jié)合已有策略進(jìn)行調(diào)整。
本文通過加密流量檢測(cè)和DGA域名檢測(cè)兩個(gè)實(shí)驗(yàn),驗(yàn)證“以未知對(duì)未知”理論的實(shí)踐效果。
數(shù)據(jù)加密通保證了網(wǎng)絡(luò)交易和聊天的私密性,防止了攻擊者(中間人攻擊)窺探或篡改用戶的網(wǎng)絡(luò)通信數(shù)據(jù)。但是,也被攻擊者利用普通的TLS或SSL流量來試圖掩蓋他們的惡意命令、遠(yuǎn)程控制行為以及數(shù)據(jù)竊取活動(dòng)。
為了防止惡意軟件通過加密流量竊取用戶的隱私,傳統(tǒng)做法是通過設(shè)置代理并解密通信數(shù)據(jù)來檢查所有的SSL和TLS流量。
如果是在惡意活動(dòng)中,那么上述這種“可行方法”就是常說的中間人(MitM)攻擊。但是,即便是出于安全防御端的角度來看,這種方法仍然會(huì)被視為一種侵犯用戶隱私的行為。因?yàn)楫?dāng)用戶需要向銀行或加密郵件服務(wù)發(fā)送加密通信信息時(shí),這種方法就會(huì)破壞加密信任鏈,導(dǎo)致用戶隱私受到侵害。此外,這種方法的計(jì)算量非常高,高到足以造成網(wǎng)絡(luò)性能的大幅下降,更不用說管理額外的SSL證書(流量被檢查之后需要重新簽名)所帶來的性能負(fù)擔(dān)。以犧牲隱私權(quán)和網(wǎng)絡(luò)性能為代價(jià)來換取安全性的方法是不值得的。
為此,從側(cè)面來尋找答案。通過分析NetFlow和sFlow發(fā)現(xiàn),流量中包含大量的有價(jià)值信息,可以表示網(wǎng)絡(luò)上的兩臺(tái)設(shè)備正在交互,以及通信時(shí)長和發(fā)送的字節(jié)數(shù)等,但受語境限制,有些數(shù)據(jù)出現(xiàn)不完整現(xiàn)象。分析加密隧道協(xié)議發(fā)現(xiàn),TLS數(shù)據(jù)流中未加密的元數(shù)據(jù)包含攻擊者無法隱藏的數(shù)據(jù)指紋,而且即使數(shù)據(jù)經(jīng)過加密也無法隱藏這種指紋。在不進(jìn)行任何解密的情況下,對(duì)海量數(shù)據(jù)進(jìn)行篩選和歸類,通過“最具描述性的特征”來識(shí)別可以惡意流量和正常流量。
通過未知算法檢測(cè)加密流量,發(fā)現(xiàn)了隱藏惡意文件和指紋,基于NetFlow,檢測(cè)準(zhǔn)確率為67%。配合SPL、DNS、TLS元數(shù)據(jù)以及HTTP等信息,檢測(cè)的準(zhǔn)確率將高達(dá)99%。而傳統(tǒng)邊界類防護(hù)設(shè)備無法檢測(cè)加密流量。
DGA(域名生成算法)是一種利用隨機(jī)字符生成C&C域名,從而逃避域名黑名單檢測(cè)的技術(shù)手段。例如,一個(gè)由Cryptolocker創(chuàng)建的DGA生成域xeogrhxquuubt.com,如果進(jìn)程嘗試其他建立連接,那么機(jī)器就可能感染Cryptolocker勒索病毒。域名黑名單通常用于檢測(cè)和阻斷這些域的連接,但對(duì)不斷更新的DGA算法并不奏效。
檢測(cè)DGA域名的流程:(1)從DGA文件中提起域名數(shù)據(jù);(2)特征提?。孩僭糇帜?jìng)€(gè)數(shù)統(tǒng)計(jì);②去重后的字母數(shù)字個(gè)數(shù)與域名長度的比例;③平均jarccard系數(shù);④HMM系數(shù);(3)模型驗(yàn)證。
根據(jù)DGA的特性,采取不同算法對(duì)其進(jìn)行驗(yàn)證。
為了更準(zhǔn)確地評(píng)估不同算法檢測(cè)的準(zhǔn)確率,采用準(zhǔn)確率、召回率、F值評(píng)測(cè)進(jìn)行評(píng)估。正確率是提取的正確數(shù)據(jù)條數(shù)/提取出的數(shù)據(jù)條數(shù);召回率是提取的正確信息條數(shù)/樣本中的信息條數(shù);F值是正確率*召回率*2/(正確率+召回率)?;谔幚砗玫臉颖?,對(duì)傳統(tǒng)檢測(cè)技術(shù)和大數(shù)據(jù)關(guān)聯(lián)分析技術(shù)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示。
表1 DGA檢測(cè)的正確率、召回率及F值預(yù)測(cè)結(jié)果/(%)
將“以未知對(duì)未知”的實(shí)踐嘗試應(yīng)用到網(wǎng)絡(luò)空間中,將為動(dòng)態(tài)化、自主化識(shí)別惡意軟件和攻擊行為提供保障。