楊美蘭 張大鵬 宋世延 羅 悅
(1.國防信息學(xué)院研究生管理大隊 武漢 430010)(2.92493部隊 葫蘆島 125000)(3.海軍工程大學(xué)電子工程學(xué)院 武漢 430033)(4.解放軍161醫(yī)院 武漢 430010)
現(xiàn)階段網(wǎng)絡(luò)安全問題愈發(fā)嚴(yán)重,一方面是由于互聯(lián)網(wǎng)的應(yīng)用范圍越來越廣泛,規(guī)模越來越龐大,另一方面由于系統(tǒng)脆弱性不斷發(fā)現(xiàn),簡單易用的攻擊工具越來越普及,使得網(wǎng)絡(luò)安全事件層出不窮[1~3]。網(wǎng)絡(luò)安全態(tài)勢評估技術(shù)能夠從整體上動態(tài)反映網(wǎng)絡(luò)安全狀況,并對其發(fā)展趨勢進行預(yù)測和預(yù)警,為增強網(wǎng)絡(luò)安全性提供可靠的參照依據(jù)。因此,網(wǎng)絡(luò)安全態(tài)勢評估模型及關(guān)鍵技術(shù)已成為目前網(wǎng)絡(luò)安全領(lǐng)域的研究熱點[4]。為了應(yīng)對未來出現(xiàn)的網(wǎng)絡(luò)戰(zhàn)爭,需加強對軍內(nèi)網(wǎng)絡(luò)安全防護措施。傳統(tǒng)的網(wǎng)絡(luò)安全防護大多是從防御角度對網(wǎng)絡(luò)資源進行保護,而網(wǎng)絡(luò)安全態(tài)勢評估技術(shù)則是一種主動的網(wǎng)絡(luò)防護技術(shù)。目前在該領(lǐng)域的研究還處于起步階段,大多數(shù)的研究還停留在理論上。
網(wǎng)絡(luò)在不同時刻的安全態(tài)勢彼此相關(guān),安全態(tài)勢變化有一定的內(nèi)部規(guī)律,這種規(guī)律可以預(yù)測網(wǎng)絡(luò)在將來時刻的安全態(tài)勢[5],從而可以有預(yù)見性地指導(dǎo)管理員進行安全策略的配置,實現(xiàn)動態(tài)的安全管理,預(yù)防大規(guī)模安全事件的發(fā)生。本文采用的預(yù)測方法是基于時間序列分析的方法,時間序列分析是利用態(tài)勢評估得到的結(jié)果,通過曲線擬合和參數(shù)估計,建立相應(yīng)的模型進行預(yù)測,具體實施時采用HHGA-RBF模型。
軍用網(wǎng)絡(luò)安全態(tài)勢評估技術(shù)研究和系統(tǒng)開發(fā)[6],對于提高軍用網(wǎng)絡(luò)的安全防護能力,進一步保證軍用網(wǎng)絡(luò)資源不被非法獲取和破壞具有重要意義。通過系統(tǒng)的實現(xiàn)與測試,證明該模型能夠有效地對當(dāng)前的網(wǎng)絡(luò)安全態(tài)勢實現(xiàn)量化評分,并對安全態(tài)勢的發(fā)展趨勢具有一定的預(yù)測能力。
態(tài)勢感知最早是起源于航空應(yīng)用領(lǐng)域,用于對當(dāng)前空域中的飛行流量進行研究、判斷、預(yù)測。蒂姆貝斯將這一研究理論和成果應(yīng)用于網(wǎng)絡(luò)安全的研究領(lǐng)域,最早提出了網(wǎng)絡(luò)安全態(tài)勢感知的相關(guān)理論和定義[7~8]。在以之后,各個國家的專家和學(xué)者從各個不同的角度對這一技術(shù)進行了研究,給出了自己的定義。到目前為止,尚未形成一個統(tǒng)一的,被普通承認(rèn)的定義。本文中采納的對于網(wǎng)絡(luò)安全態(tài)勢的定義為:通過對目標(biāo)網(wǎng)絡(luò)中所有節(jié)點設(shè)備的信息采集,獲取節(jié)點的運行情況,通過對網(wǎng)絡(luò)中數(shù)據(jù)的分析,獲取網(wǎng)絡(luò)的活動情況,以及網(wǎng)絡(luò)用戶的行為等信息,綜合以上信息和數(shù)據(jù),實現(xiàn)對當(dāng)前網(wǎng)絡(luò)狀況的準(zhǔn)確定義和及時判斷,并以此為基礎(chǔ),對目標(biāo)網(wǎng)絡(luò)未來一段時間內(nèi)的安全狀況進行預(yù)測。對于網(wǎng)絡(luò)安全態(tài)勢的研究而言,其目的是為了能夠在網(wǎng)絡(luò)的安全狀況發(fā)生變化時,通過對以上主要影響因素的獲取和及時響應(yīng),實現(xiàn)對系統(tǒng)中資源的安全保護。
現(xiàn)有的為數(shù)不多的態(tài)勢預(yù)測手段以神經(jīng)網(wǎng)絡(luò)為主,這是因為神經(jīng)網(wǎng)絡(luò)尤其是徑向基神經(jīng)網(wǎng)絡(luò)具有良好的逼近性能和處理非線性數(shù)據(jù)的優(yōu)勢[9]。大部分都是基于離線學(xué)習(xí)的思想,且學(xué)習(xí)過程漫長,精度有限,對大規(guī)模網(wǎng)絡(luò)安全態(tài)勢的預(yù)測效果不理想。針對以上問題,本文重點研究網(wǎng)絡(luò)安全態(tài)勢預(yù)測。
態(tài)勢預(yù)測基于過去和當(dāng)前的態(tài)勢評估結(jié)果,對網(wǎng)絡(luò)整體或局部的安全態(tài)勢在未來某個時間點或一段時間的發(fā)展趨勢進行預(yù)測[10]。目前,有很多成熟的預(yù)測算法可用,比如人工神經(jīng)網(wǎng)絡(luò)、灰色理論和時間序列分析等等,它們有各自的特點和適用范圍。
人工神經(jīng)網(wǎng)絡(luò)是一種模擬人的認(rèn)知過程,將信息分布式存儲和并行協(xié)同處理的非線性動力系統(tǒng)[11],其實質(zhì)是將當(dāng)前時刻的輸出表示為前幾步輸入和輸出值的非線性函數(shù)。常用的ANN 是三層BP神經(jīng)網(wǎng)絡(luò),包含輸入層、隱含層和輸出層,首先確定輸入和初始權(quán)值,然后正向計算每一層的輸出,接著根據(jù)計算結(jié)果反向調(diào)整每一層的權(quán)值,然后再從新計算,如此反復(fù)調(diào)整權(quán)值直到計算結(jié)果滿足需求。
目前對此方面的研究主要有兩種思路:第一種基于單個入侵攻擊事件,利用單次預(yù)測結(jié)果,結(jié)合每種攻擊的威脅程度,計算相應(yīng)的下個或多個時刻的態(tài)勢值,此種方法在確定每種攻擊威脅程度時需要主觀經(jīng)驗判斷;第二種基于非線性時間序列進行預(yù)測,綜合分析歷史安全態(tài)勢規(guī)律以預(yù)測未來某一時刻或某一時間段內(nèi)的安全態(tài)勢。
在對第二種方法的研究中,文獻[12]初步探討了一種基于RBF 神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法,通過大量實驗和訓(xùn)練來建立RBF神經(jīng)網(wǎng)絡(luò)模型用于態(tài)勢預(yù)測,但僅使用了報警的數(shù)量、類型等作為預(yù)測的依據(jù),沒有考慮網(wǎng)絡(luò)整體狀態(tài)趨勢,并且選擇的是基本的RBF 神經(jīng)網(wǎng)絡(luò),沒有進行數(shù)據(jù)訓(xùn)練,存在基函數(shù)選擇困難和數(shù)據(jù)量大的問題。
Liu Xiao[13]等利用小波神經(jīng)網(wǎng)絡(luò)解決非線性時間序列預(yù)測問題,所表現(xiàn)出了收斂速度和容錯能力等方面的優(yōu)勢。文獻[14]提出了一種基于小波神經(jīng)網(wǎng)絡(luò)的動態(tài)定量預(yù)測網(wǎng)絡(luò)安全態(tài)勢的方法,并用改進后的遺傳算法進行優(yōu)化。本文的研究方法同樣基于時間序列,提出了在用RBF 神經(jīng)網(wǎng)絡(luò)對態(tài)勢值進行預(yù)測的同時,使用HHGA 對RBF神經(jīng)網(wǎng)絡(luò)進行了訓(xùn)練。
網(wǎng)絡(luò)安全態(tài)勢評估系統(tǒng)是一種新的基于主動防御的網(wǎng)絡(luò)安全技術(shù)。在網(wǎng)絡(luò)安全的保障方面,目前主要采用的是防火墻、入侵檢測系統(tǒng)等,這些傳統(tǒng)的網(wǎng)絡(luò)安全技術(shù)與網(wǎng)絡(luò)安全態(tài)勢評估技術(shù)有著聯(lián)系,但也存在著較大的不同。從網(wǎng)絡(luò)安全防御的機制上看,防火墻技術(shù)和入侵檢測系統(tǒng)都是針對于已經(jīng)發(fā)生的非法入侵事件或者是網(wǎng)絡(luò)攻擊行為進行處理,在功能上較為單一,主要是針對特定的網(wǎng)絡(luò)攻擊形式進行防范。網(wǎng)絡(luò)安全態(tài)勢評估則是一種主要防御的技術(shù),它的研究重點是基于當(dāng)前采集到的各類數(shù)據(jù),對網(wǎng)絡(luò)的安全態(tài)勢進行評估,從而達(dá)到防患于未然的目標(biāo)。防火墻和入侵檢測系統(tǒng)主要是通過對網(wǎng)絡(luò)數(shù)據(jù)信息的分析來實現(xiàn)安全防御,而網(wǎng)絡(luò)安全態(tài)勢評估的數(shù)據(jù)來源則較為廣泛,包括網(wǎng)絡(luò)中各節(jié)點主機的狀態(tài)信息、網(wǎng)絡(luò)用戶的操作信息、殺毒軟件的病毒檢測信息、網(wǎng)絡(luò)通信包分析數(shù)據(jù)等。
因為遺傳算法具有全局搜索、收斂速度快等特點,將其與神經(jīng)網(wǎng)絡(luò)結(jié)合起來,不僅能發(fā)揮神經(jīng)網(wǎng)絡(luò)的泛化映射能力,而且能克服收斂速度慢和易陷入局部最優(yōu)的缺點[15]。但是較大的時間代價的引入,也妨礙了通過采用遺傳算法來學(xué)習(xí)RBF 網(wǎng)絡(luò)的發(fā)展,因此一般在用遺傳算法來優(yōu)化RBF 網(wǎng)絡(luò)的同時,需要和其他一些傳統(tǒng)的方法相結(jié)合,如回歸方法、聚類方法或最小二乘法等,以彌補遺傳算法的不足。本文的研究中選擇將遺傳算法與最小二乘法相結(jié)合,利用前者確定了中心和擴展寬度后,再用后者設(shè)計輸出層權(quán)值。
此外,遞階遺傳算法(Hierarchy Genetic Algorithm,HGA)也是近年來提出的一種較為流行的新型遺傳算法,采用二進制編碼和實數(shù)編碼相結(jié)合的混合編碼方法,可以在對神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化求解的同時對神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進行優(yōu)化,具有較高的學(xué)習(xí)效率。
基于HGA 的RBF 神經(jīng)網(wǎng)絡(luò)算法能夠根據(jù)樣本數(shù)據(jù)確定RBF 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù),但在學(xué)習(xí)過程中算法的收斂速度較慢。它將輸出層神經(jīng)元的連接權(quán)重放到染色體中用遺傳算法進行搜索,分析RBF神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可知,RBF神經(jīng)網(wǎng)絡(luò)輸出層為線性神經(jīng)元,因此在確定了中心和擴展寬度后,輸出層權(quán)值可以采用最小二乘法進行設(shè)計。為此,將HGA 與最小二乘法相結(jié)合,采用基于混合遞階遺傳算法(Hybrid Hierarchy Genetic Algorithm,HHGA)的RBF 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,其中遞階染色體中只包含隱層參數(shù),輸出層的設(shè)計在GA 的評價函數(shù)中完成?;旌线f階遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的算法流程如圖1所示。
圖1 HHGA-RBFNN 流程圖
1)采用HGA 的編碼方法
HGA 中染色體由兩部分組成:控制基因和參數(shù)基因。控制基因采用二進制編碼,編碼長度為最大隱層節(jié)點個數(shù),每一位對應(yīng)一個隱層節(jié)點,“1”表示隱層節(jié)點存在,對應(yīng)的參數(shù)基因處于有效狀態(tài);“0”表示隱層節(jié)點不存在,對應(yīng)的參數(shù)基因處于無效狀態(tài)??刂苹蛑小?”的個數(shù)即為隱層節(jié)點的個數(shù)。為了加強遺傳算法在解空間的搜索能力,參數(shù)基因釆用實數(shù)編碼,表示隱層節(jié)點中心和寬度。
2)初始化
確定種群大小為Q。合適的群體規(guī)模對遺傳算法的收斂具有重要的意義。群體太小難以求得滿意的結(jié)果,群體太大則計算復(fù)雜。依據(jù)經(jīng)驗,群體規(guī)模一般取20~160。
控制基因和參數(shù)基因分別初始化,控制基因設(shè)置最大值M,即最大隱層節(jié)點數(shù)為M,最小值為1。參數(shù)基因初始化為[0,1]區(qū)間的隨機數(shù);
3)適應(yīng)度函數(shù)
訓(xùn)練RBF神經(jīng)網(wǎng)絡(luò)的目標(biāo)是使其在滿足一定精度的要求下具有最簡單的網(wǎng)絡(luò)結(jié)構(gòu),也就是使得網(wǎng)絡(luò)的精確度和網(wǎng)絡(luò)的復(fù)雜度的綜合指標(biāo)達(dá)到最小。
網(wǎng)絡(luò)的精度目標(biāo)函數(shù):
其中,SSE為網(wǎng)絡(luò)輸出與期望輸出之間的誤差平方和。
網(wǎng)絡(luò)復(fù)雜度由隱層節(jié)點數(shù)決定,目標(biāo)函數(shù):F2=L
為使遞階遺傳算法有效地訓(xùn)練RBF 網(wǎng)絡(luò),需要建立能同時反映這兩個目標(biāo)的適應(yīng)度函數(shù)。本文采用了最小信息量準(zhǔn)則(AIC)適應(yīng)度函數(shù)。
其中,N為樣本數(shù),L為隱層節(jié)點數(shù),yi為期望輸出值,y′i為訓(xùn)練RBF網(wǎng)絡(luò)輸出值,b為一足夠大的值。SSE越小,L越小,f將越大。
4)遺傳操作
(1)選擇與復(fù)制
選擇若干適應(yīng)度值最大的染色體作為父本,直接遺傳給下一代。HHGA 與GA 的選擇操作一樣,適應(yīng)度越大的個體被選擇的概率也越大。
采用期待值法來求個體的期望值:
其中,f為個體i的適應(yīng)度,為適應(yīng)度平均值,fsum為種群的總適應(yīng)度,N為種群規(guī)模。
個體期待值確定種群中的個體是否進入下一代進行優(yōu)化,個體i被復(fù)制的個數(shù)為初始化種群經(jīng)過選擇與復(fù)制由P1成為P2。
(2)交叉與變異
交叉的目的在于產(chǎn)生新的基因組合,交叉后形成種群P3。
由于控制基因和參數(shù)基因使用不同的編碼方式,所以分別進行交叉處理。控制基因的交叉遵循二進制編碼的交叉規(guī)則:一點交叉操作,即在個體串中隨機設(shè)定一個交叉點,實行交叉時該點前后的兩個個體的部分結(jié)構(gòu)進行交換,并產(chǎn)生兩個新個體。
參數(shù)基因采用的是實值編碼,因此需要采用模擬二進制交叉操作。模擬二進制交叉從父代群體中隨機選取兩個個體x1和x2,按下式定義的線性組合交叉方式,將x1、x2對應(yīng)交叉位的值相組合產(chǎn)生新后代公式:
其中,a是一個隨機數(shù),a∈[0,i]。
變異運算用來模擬生物在自然的遺傳環(huán)境中的基因突變,通過變異操作,可確保種群中遺傳基因類型的多樣性,以使搜索能在盡可能大的空間中進行。變異操作是按一定的概率從種群P3中每次隨機選取一個個體,隨機變化選定個體的某一個或某些基因位,形成種群P4。
對于控制基因,即染色體以二進制編碼的系統(tǒng)中,以一定的概率對其進行求反運算,隨機地將染色體的某一個基因由1變成0,或由0變成1。
對于參數(shù)基因的實值編碼,用偏置變異,以一定概率給該位加上一個隨機偏置值變。
交叉率和變異率采取自適應(yīng)選擇,交叉概率Pc和變異概率Pm按下式隨適應(yīng)度自動改變。
式中,fmax為當(dāng)前種群最大適應(yīng)度為該代種群的平均適應(yīng)度,f′為待交叉父母個體中適應(yīng)度較大者,為變異個體的適應(yīng)度。其中,k1,k2,k3,k4取值范圍為(0,1),給定ki=k3=1,k2=k4=0.5。
由此可見,當(dāng)種群各個個體的適應(yīng)度趨于一致或局部最優(yōu)時,Pc和Pm增加,而當(dāng)種群適應(yīng)度比較分散時,Pc和Pm減小。
網(wǎng)絡(luò)安全態(tài)勢的變化是一個典型的非線性復(fù)雜系統(tǒng),其變化的規(guī)律有著隨機和不確定的特點,但其網(wǎng)絡(luò)安全態(tài)勢的指標(biāo)在其時間序列上有著相關(guān)性。利用艾爾曼神經(jīng)網(wǎng)絡(luò)對于非線性復(fù)雜系統(tǒng)預(yù)測方面的強大能力,課題經(jīng)過研究,以該類神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),構(gòu)建了一個網(wǎng)絡(luò)安全態(tài)勢的預(yù)測模型。遺傳算法主要步驟如下:
1)隨機產(chǎn)生一個初始種群,其中每個個體都是確定長度的染色體。
2)按預(yù)定的目標(biāo)函數(shù)(或評價指標(biāo))對染色體種群中的每個染色體進行評價,并根據(jù)結(jié)果給出一個適應(yīng)度的值。
3)根據(jù)適應(yīng)度對每個染色體進行選擇復(fù)制、交叉、變異等遺傳操作,去除適應(yīng)度低的染色體,留下適應(yīng)度高的染色體,從而得到一個新的種群。由于新群體的成員是上一代種群的優(yōu)秀者的繼承者,有著上一代的優(yōu)良性態(tài),因而明顯優(yōu)于上一代。
4)再次對染色體種群中的每個染色體進行評價,計算適應(yīng)度值。如果滿足預(yù)定的目標(biāo)函數(shù)或評價指標(biāo),則停止優(yōu)化搜索;若仍不滿足,則執(zhí)行步驟3),循環(huán)操作,直到滿足停止準(zhǔn)則。
傳統(tǒng)的網(wǎng)絡(luò)安全防護大多從防御的角度出發(fā)對網(wǎng)絡(luò)資源進行保護,而網(wǎng)絡(luò)安全態(tài)勢評估技術(shù)則是一種主動的網(wǎng)絡(luò)防護技術(shù)。它從網(wǎng)絡(luò)自身的特點和外界對網(wǎng)絡(luò)的攻擊手段兩個方面進行考慮,利用相關(guān)技術(shù)實現(xiàn)對網(wǎng)絡(luò)系統(tǒng)潛在問題以及外界對網(wǎng)絡(luò)的威脅進行評估,目的是為了實現(xiàn)對網(wǎng)絡(luò)安全威脅的及早發(fā)現(xiàn),及時處理,降低損失。目前在該領(lǐng)域的研究還處于起步階段,大多數(shù)的研究還停留在理論上。本文對目前在該領(lǐng)域的研究成果進行了討論和分析,重點是現(xiàn)有的網(wǎng)絡(luò)安全態(tài)勢評估的關(guān)鍵技術(shù);然后從網(wǎng)絡(luò)自身的特點入手,建立了網(wǎng)絡(luò)安全態(tài)勢評估模型,明確了網(wǎng)絡(luò)安全態(tài)勢評估的方法和步驟。網(wǎng)絡(luò)安全態(tài)勢評估技術(shù)的研究和系統(tǒng)的開發(fā),對于提高網(wǎng)絡(luò)的安全防護能力,進一步保證網(wǎng)絡(luò)資源不被非法獲取和破壞具有重要意義,同時也對網(wǎng)絡(luò)安全主動防護的理論與實踐研究具有重要意義。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,還會不斷出現(xiàn)新的安全問題,網(wǎng)絡(luò)安全各項技術(shù)也需要不斷的發(fā)展。本文基本實現(xiàn)了軍用網(wǎng)絡(luò)態(tài)勢的預(yù)測功能,能幫助網(wǎng)絡(luò)管理員提前預(yù)判網(wǎng)絡(luò)變化趨勢,從而調(diào)整安全策略。但還有許多問題需要經(jīng)過實踐不斷完善。
[1]Michael Howard,James Whittaker.Network Security Basies[J].The IEEE Computer Society,2009(5):1540-1593.
[2]黃莉,費金龍.科技期刊網(wǎng)絡(luò)化保密問題的思考和對策[J].中國科技期刊研究,2010,21(2):145-147.
[3]胡錚.網(wǎng)絡(luò)與信息安全[M].北京:清華大學(xué)出版社,2006:318-323.
[4]Sean Conve.Network Security Architectures[M].北京:人民郵電出版社,2005:90-94.
[5]魏永紅,李天智,張志.網(wǎng)絡(luò)信息安全防御體系探討[J].河北省科學(xué)院報,2011,23(1):25-28.
[6]秦宗全,于詠梅,郭大春.校園網(wǎng)絡(luò)安全防范體系研究[J].計算機時代,2010(2):16-18.
[7]Stephen Northeutt.深入剖析網(wǎng)絡(luò)邊界安全[M].北京:機械工業(yè)出版社,2009:4-11.
[8]Merike Kaeo.Designing Network Security[M].Indiana:Cisco Press,2011:11-19.
[9]Greg Holden.防火墻與網(wǎng)絡(luò)安全—入侵檢測與VPN[M].北京:清華大學(xué)出版社,2010:66-68.
[10]John V.Harrison,Hal Berghel.A Protocol Layer Survey of Network Security[J].Advances in Computers,2005,64(1):109-158.
[11]Matt Bishop.Introduction to computer security[M].北京:電子工業(yè)出版社,2010:212-213.
[12]趙光耀,鄒鵬,韓偉紅.基于遺傳算法和LSSVM 的網(wǎng)絡(luò)安全事件發(fā)生頻率預(yù)測[J].信息網(wǎng)絡(luò)安全,2010,10:26.
[13]劉曉,曾祥虎,劉春宇.邊坡非線性位移的神經(jīng)網(wǎng)絡(luò)-時間序列分析[J].巖石力學(xué)與工程學(xué)報,2005,24(19):3499-3504.
[14]賴積保.基于異構(gòu)傳感器的網(wǎng)絡(luò)安全態(tài)勢感知若干關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2009.
[15]David Allen,Adnan Darwiche.Online value network linkages:integration,information sharing and flexibility[J].Electronic Commerce Research and Applications,2011,4(2):100-112.