張吉生 吳旻榮 黨引 任東曉 沈青
摘 要: 針對網(wǎng)絡(luò)入侵的特征,提出一種基于SVM支持向量機的入侵危險識別模型。利用支持向量機SVM模型,混合人工蜂群HABC優(yōu)化的方式,克服算法中存在早熟收斂和局部極小的問題。通過該模型實現(xiàn)對網(wǎng)絡(luò)入侵信息系統(tǒng)自適應(yīng)識別出攻擊效果,有效得到網(wǎng)絡(luò)入侵的信息系統(tǒng)風(fēng)險評估。驗證結(jié)果表明,HABC優(yōu)化的SVM模型比傳統(tǒng)危險入侵識別模型的準(zhǔn)確度更高,收斂速度快,泛化能力增強,說明了該方法的可行性、有效性。
關(guān)鍵詞: 安全監(jiān)測; 混合人工蜂群算法; 支持向量機; 信息安全; 風(fēng)險評估
中圖分類號: TN915.08?34; V249 文獻標(biāo)識碼: A 文章編號: 1004?373X(2017)07?0081?04
An adaptive monitoring and evaluation method of information system security
ZHANG Jisheng, WU Minrong, DANG Yin, REN Dongxiao, SHEN Qing
(Information and Communication Company, State Grid Ningxia Electric Power Company, Yinchuan 750000, China)
Abstract: Aiming at the characteristics of the network intrusion, an intrusion risk identification model based on support vector machine (SVM) is proposed. The SVM model and the optimization method of the hybrid artificial bee colony (HABC) are used to overcome the problems of premature convergence and local minimum existing in the algorithm. The attack effect of the network intrusion information system can be recognized automatically with this model, and the information system risk assessment of network intrusion can be obtained effectively. The experimental results show that the SVM model optimized with HABC has higher accuracy than that of the traditional danger intrusion identification models, faster convergence rate and stronger genera?lization ability, and the feasibility and effectiveness of the proposed method are verified.
Keywords: safety monitoring; hybrid artificial bee colony algorithm; support vector machine; information security; risk assessment
0 引 言
隨著國家電網(wǎng)SG186、SGERP、三集五大等信息化建設(shè)不斷深化,電力業(yè)務(wù)越來越依賴于信息通信系統(tǒng),信息通信系統(tǒng)的安全性和可靠性將直接影響到電網(wǎng)企業(yè)數(shù)據(jù)信息的安全保密性[1]。然而,國家電網(wǎng)數(shù)據(jù)資源中往往包含大量的敏感信息,一旦泄露或遭到非法利用,將會給個人甚至是國家?guī)頍o法彌補的損失。相關(guān)數(shù)據(jù)表明,僅2015年CNVD就通報了將近136個信息系統(tǒng)漏洞,占信息安全漏洞總數(shù)的1.8%。多個公司的上千萬條數(shù)據(jù)從數(shù)據(jù)庫中泄露[2]。另一方面,入侵手段越來越豐富,短時間內(nèi)入侵的監(jiān)測數(shù)據(jù)產(chǎn)生速度越來越快,入侵的數(shù)據(jù)量飛速增長,能夠達到PB量級[3],傳統(tǒng)的監(jiān)測技術(shù)面對如此大容量的數(shù)據(jù)進行逐項監(jiān)測分析,工作量會大大提高,很難有效地處理與解決入侵問題。
本文利用人工蜂群算法結(jié)合細(xì)菌趨藥性算法得到的混合人工蜂群算法對支持向量機SVM的參數(shù)進行尋優(yōu),再用優(yōu)化后的SVM對信息系統(tǒng)的操作進行識別分類,判斷其是否為危險入侵。同時采用密度估計算法對模型分類得到的正常操作數(shù)據(jù)進行安全范圍的閾值計算,獲取正常范圍。在正常閾值的基礎(chǔ)上,利用SVM模型分類出異常與正常數(shù)值,進行信息系統(tǒng)風(fēng)險評估,實現(xiàn)危險程度的量化。算法識別準(zhǔn)確度得到了大量的提升,同時算法的收斂速度快,泛化性能強,魯棒性高,具有較好的工程指導(dǎo)價值。
1 SVM基本原理
支持向量機(Support Vector Machine,SVM)像多層感知器網(wǎng)絡(luò)和徑向基函數(shù)網(wǎng)絡(luò)一樣,可用于模式分類和非線性回歸。
為了確保在異常入侵的任何情況下都可以將訓(xùn)練數(shù)據(jù)映射到足夠高的維度,使它們成為線性可分的,需要在非線性硬間隔分類機的基礎(chǔ)上引入線性軟間隔分類機中的松弛變量。從而分類問題可描述為:
映射:[T=x′1,y1,x′2,y2,…,x′l,yl]
其中:[x′i=?(xi)]
分類平面:[w?x+b=0]
[minw,b12w2+Ci=1lξi]
[s.t. yi((w?x′i)+b)+1≥1-ξi, i=1,2,…,l]
對于非線性求解問題,SVM主要采用如下思想解決:通過事先選擇的某種非線性映射將輸入向量[x]映射到一個高維特征空間[Z,]從而在這個高維特征空間[Z]中構(gòu)造最優(yōu)分類超平面。支持向量機SVM的體系結(jié)構(gòu)如圖1所示。
2 混合人工蜂群HABC優(yōu)化算法
大數(shù)據(jù)信息系統(tǒng)異常入侵實際上是多分類問題,支持向量機SVM的分類性能與其參數(shù)息息相關(guān),對于SVM參數(shù)訓(xùn)練而言,單個參數(shù)[(C[i],g[i])]的提高并不一定就意味著系統(tǒng)性能的提升,但從統(tǒng)計意義上來說,避免每個[(C[i],g[i])]陷入較差的局部最優(yōu)解有利于整個系統(tǒng)性能的提高,因此對SVM參數(shù)進行全局優(yōu)化訓(xùn)練。
2.1 人工蜂群算法
本文對模型的全局搜索采用人工蜂群ABC(ArtificialBee Colony)[4]算法。如果用[E]表示蜂蜜能量,[T]表示花費的時間,則它們的目標(biāo)函數(shù)[Fobj]可寫為[5]:
[maxFobj=ET]
目的是搜索目標(biāo)函數(shù)[F(θ)]的最大值,[θi]表示第[i]個食物源的位置,[F(θi)]就可以比作是第[i]個食物源所處位置的蜂蜜數(shù)量。某個食物源位置[θi]對應(yīng)的目標(biāo)函數(shù)值[F(θi)]越大,觀察蜂決定跟隨去開采的概率就越大。因此,每個觀察蜂被招募的概率可以表示為:
[pi=F(θi)k=1sF(θk)]
2.2 細(xì)菌趨藥算法
本文引入細(xì)菌趨藥算法(Hybird Search),在人工蜂群算法中加入局部搜索策略,提高種群的多樣性,避免早熟收斂,使用自適應(yīng)Bohzmann概率調(diào)整不同搜索階段的選擇壓力從而提高算法的整體性能。
假設(shè)細(xì)菌的總數(shù)為[Sn,]每個細(xì)菌的位置代表問題的一個可能解,可表示為[D]維空間中的一個向量[θi=[θi1,θi2,…,θiD],][i=1,2,…,Sn。]若用符號[θi(j)]表示第[i]個細(xì)菌經(jīng)過第[j]次趨藥行為后所處的位置,那么下一次趨藥步驟之后,所處的位置可表示為:
[θi(j+1)=θi(j)+C(i)??(j)]
式中:[C(i)]為正常數(shù),表示細(xì)菌[i]每次向前游動的步長單位;[?(j)]表示細(xì)菌翻滾后隨機選中的另一個前進方向。
同時引入自適應(yīng)Bohzmann概率,其相應(yīng)的概率公式表示如下:
[pi=exp(fitiT)j=1SNexp(fitiT)]
式中:[fiti]為第[i]個食物源的適應(yīng)度函數(shù);[T]為一個參數(shù)可控制選擇壓力。
基于ABC算法的思想,本文提出基于人工蜂群優(yōu)化算法(ABC)和細(xì)菌趨藥法(Hybird)的HABC算法描述,其算法流程如圖2所示。
3 大數(shù)據(jù)科目樣本質(zhì)量提升
對信息系統(tǒng)的實時信息數(shù)據(jù)進行監(jiān)控,會產(chǎn)生大數(shù)據(jù)量的樣本信息。為了提高識別危險異常入侵行為的精度,本文需要對大數(shù)據(jù)進行分布式的數(shù)據(jù)質(zhì)量提升。
本文監(jiān)控采用的是信通數(shù)據(jù)庫后臺大量的審計日志數(shù)據(jù),包含CPU利用率,內(nèi)存利用率IO,操作用戶,操作時間,操作終端,操作行為,操作對象,返回碼等。其中返回碼有多種取值,其中0表示成功,具體的非0數(shù)值代表該操作失敗的具體原因,因此返回碼將所有返回非0值的失敗操作統(tǒng)一置為1。返回值的處理見表1。
4 信息系統(tǒng)安全的自適應(yīng)監(jiān)測與評估方法
4.1 安全監(jiān)測識別與評估的全局流程
本文利用模型對實時監(jiān)測的操作數(shù)據(jù)進行異常入侵識別,同時用關(guān)聯(lián)度對危險程度進行評估,全局整體流程如圖3所示。
4.2 安全監(jiān)測評估的研究方法
本文對危險程度進行具體的評估,評估值的大小反映了入侵用戶對信息系統(tǒng)的危險程度IV,評估值越大,對信息系統(tǒng)安全性起到的危險程度越高。
實驗數(shù)據(jù)使用的是信通公司持續(xù)收集2個月,共9周時間的網(wǎng)絡(luò)連接和系統(tǒng)審計日志,其中前6周的數(shù)據(jù)都是正常數(shù)據(jù),后3周的數(shù)據(jù)中包含各種攻擊手段。數(shù)據(jù)在開始設(shè)定的協(xié)議下都被標(biāo)記為正常與攻擊。仿真中包含各種攻擊手段,共計2億條訓(xùn)練數(shù)據(jù)記錄和0.4億條測試數(shù)據(jù)。
本文以[Xin=(X1,X2,…,Xm)]為輸入訓(xùn)練變量,[Zouti=][Zi,]對應(yīng)的正常與攻擊為輸出變量,真實值與預(yù)測的正則均方差[6]NMSE用來衡量模型的識別精度。
對測試集中的前6周正常數(shù)據(jù)采用密度估計算法得到正常的閾值范圍。
定義1:設(shè)[x1,x2,…,xn]為取值[R]的獨立同分布隨機變量,其服從的分布密度函數(shù)為[f(x),]定義函數(shù):
[fh(x)=1nhi=1nKxi-xh, x∈R]
這里采用的核函數(shù)為高斯核函數(shù)。
[K(u)=12πeu22]
該式稱為密度函數(shù)[f(x)]的閾值估計,[h]為預(yù)先給定的正數(shù),通常稱為窗寬或光滑參數(shù)。
本文對通過混合蜂群優(yōu)化的SVM識別模型識別出的每一條危險記錄數(shù)據(jù)都采用一種關(guān)聯(lián)度的算法進行信息系統(tǒng)風(fēng)險評估。
定義2:危險程度IV為:
[IV0i=miniminkx0(j)-xi(k)+ρmaximaxkx0(j)-xi(k)x0(j)-xi(k)+ρmaximaxkx0(j)-xi(k)]
式中:[ρ]為分辨系數(shù),[0<ρ<1,]根據(jù)不同背景要求取值,通常取[ρ=0.5。]
最終通過識別模型,一旦達到工程發(fā)現(xiàn)的危險,就可以通過危險程度算法實現(xiàn)信息系統(tǒng)的風(fēng)險評估。
5 實例結(jié)果分析
選取9周時間收集到的網(wǎng)絡(luò)連接和審計日志數(shù)據(jù)作為原始數(shù)據(jù),選取2億條的數(shù)據(jù)作為訓(xùn)練集,0.4億條的數(shù)據(jù)作為測試集,最后將危險識別結(jié)果與真實情況的結(jié)果對比。
原始的監(jiān)測數(shù)據(jù)首先經(jīng)過分布式的計算平臺進行偽數(shù)據(jù)剔除、協(xié)調(diào)分析去噪、濾波、數(shù)據(jù)清理、數(shù)據(jù)歸一化,代入模型中,采用經(jīng)過混合人工蜂群HABC優(yōu)化過的SVM模型進行危險識別,最終以危險異常點的識別準(zhǔn)確率作為評判的標(biāo)準(zhǔn)。
將訓(xùn)練數(shù)據(jù)集代入到模型,再將預(yù)測數(shù)據(jù)集代入,通過計算正則均方差得到模型的識別準(zhǔn)確率。HABC優(yōu)化后的SVM與未優(yōu)化SVM危險異常識別準(zhǔn)確率的對比,如圖4所示。
對HABC?SVM識別出的正常數(shù)據(jù)采用本文定義的密度估算得到正常范圍的閾值后,再將實時的預(yù)測數(shù)據(jù)代入上述模型中,通過分類識別模型可以自適應(yīng)發(fā)現(xiàn)危險,并且識別出來,具體如圖5所示。
一旦發(fā)現(xiàn)用戶的危險入侵操作,就對危險識別操作的結(jié)果通過危險程度算法實現(xiàn)危險程度的評估,具體結(jié)果如圖6所示。
6 結(jié) 論
工程實際中,信息系統(tǒng)的安全往往關(guān)系到一個企業(yè)的核心利益,不斷發(fā)展與變化的網(wǎng)絡(luò)信息技術(shù)和網(wǎng)絡(luò)入侵攻擊技術(shù)越來越表現(xiàn)出不確定性、復(fù)雜性、多樣性等特點。本文圍繞大數(shù)據(jù)信息系統(tǒng)的安全進行自適應(yīng)監(jiān)測與評估方法的研究,主要創(chuàng)新點在于:
(1) 將人工蜂群算法與細(xì)菌趨藥性算法結(jié)合起來,形成了混合人工蜂群算法HABC,有效地提高了全局參數(shù)的尋優(yōu)性能。
(2) 將支持向量機SVM與混合人工蜂群算法HABC結(jié)合起來,該模型泛化性能強,魯棒性高,同時有效地提高了入侵危險的識別準(zhǔn)確度。
(3) 采用密度估計算法,將HABC?SVM模型識別出的正常范圍數(shù)據(jù)形成安全閾值,同時模型識別出的危險入侵能夠有效地實現(xiàn)信息系統(tǒng)風(fēng)險評估。
參考文獻
[1] 王繼業(yè),程志華,彭林,等.云計算綜述及電力應(yīng)用展望[J].中國電力,2014,47(7):108?112.
[2] BERGEMANN D, WAMBACH A. Sequential information disclosure in auctions [J]. Journal of economic theory, 2015, 159: 1074?1095.
[3] MARZ N, WARREN J. Big data: principles and best practices of scalable realtime data systems [M]. Greenwich: Manning Publications Co., 2015.
[4] OZTURK C, HANCER E, KARABOGA D. Dynamic cluste?ring with improved binary artificial bee colony algorithm [J]. Applied soft computing, 2015, 28: 69?80.
[5] 胡艷,韓璞.間接型目標(biāo)函數(shù)對控制品質(zhì)的影響[J].計算機仿真,2016,33(4):287?291.
[6] 顧燕萍,趙文杰,吳占松.最小二乘支持向量機魯棒回歸算法研究[J].清華大學(xué)學(xué)報(自然科學(xué)版),2015,55(4):396?402.