宋海波
(黔南民族醫(yī)學(xué)高等??茖W(xué)校 公共課教學(xué)部,貴州 都勻 558000)
大數(shù)據(jù)環(huán)境下入侵檢測(cè)中若干軟計(jì)算方法應(yīng)用研究
宋海波
(黔南民族醫(yī)學(xué)高等??茖W(xué)校 公共課教學(xué)部,貴州 都勻 558000)
軟計(jì)算由若干種軟計(jì)算方法構(gòu)成,包括神經(jīng)元網(wǎng)絡(luò)、支持向量機(jī)、模糊集合理論、近似推理及一些非導(dǎo)數(shù)優(yōu)化方法,如基于熵的計(jì)算、遺傳算法、人工免疫和蟻群算法等等。現(xiàn)時(shí)期,單一軟計(jì)算方法用于異常檢測(cè)有其局限性。文章通過(guò)條件熵、遺傳算法和人工免疫這3種軟計(jì)算方法的結(jié)合來(lái)提高入侵檢測(cè)的檢測(cè)效率、降低漏報(bào)率和發(fā)現(xiàn)未知類型的攻擊。
入侵檢測(cè);條件熵;遺傳算法
在信息安全領(lǐng)域中,入侵檢測(cè)[1]是一種監(jiān)控和分析系統(tǒng)事件的安全服務(wù),其目的在于發(fā)現(xiàn)未授權(quán)方式下試圖訪問(wèn)系統(tǒng)資源的行為和提供實(shí)時(shí)或準(zhǔn)實(shí)時(shí)報(bào)警,并可分為誤用檢測(cè)和異常檢測(cè)。
信息熵的概念是由信息論的創(chuàng)始人Shannon于1948年提出的 ,它是隨機(jī)變量不確定性的度量。
定義[2]2 條件熵的定義:給定兩個(gè)隨機(jī)變量X和Y,其取值分別為xi和yi,i和j都取正整數(shù),則條件熵的定義式如下:
本文利用條件熵的具體過(guò)程是: 對(duì)于KDDCUP’99訓(xùn)練集,分別計(jì)算前41維數(shù)據(jù)和第42維(決策屬性)的條件熵,然后根據(jù)條件值熵從小到大排序,條件熵值比較小的屬性依次刪除直到m維。這篇論文把具有42維的KDDCUP’99訓(xùn)練集降到了9維,很大程度上降低了算法的空間復(fù)雜度和時(shí)間復(fù)雜度。
2.1 遺傳算法的通用框架[3]
遺傳算法的通用框架如圖1所示。
2.2 遺傳算法的參數(shù)值
M:初始化隨機(jī)選擇種群數(shù)量500。T:遺傳算法的終止進(jìn)化代數(shù),本文取為:200。
Pc:交叉概率,本文取為0.9
Pm:變異概率,本文取為0.1。
我國(guó)汽車維修技師技能等級(jí)分為初級(jí)工、中級(jí)工、高級(jí)工、技師和高級(jí)技師五個(gè)級(jí)別,沒(méi)有汽車診斷師,可以看出“汽車診斷師大賽”是一場(chǎng)民間大賽,是為強(qiáng)調(diào)診斷的重要性而命名的大賽。這個(gè)大賽形式輕松活躍,意在為技術(shù)升級(jí)大造聲勢(shì)。比賽項(xiàng)目包括提交維修案例、理論考試、必答搶答、實(shí)操比賽、培訓(xùn)說(shuō)課等環(huán)節(jié),這是針對(duì)當(dāng)今汽車維修技師必須具備會(huì)干(動(dòng)手修車)、會(huì)寫(撰寫案例)、會(huì)講(培訓(xùn)授課)而設(shè)計(jì)的賽項(xiàng)。當(dāng)今絕大部分汽車修理企業(yè)撤銷了工程技術(shù)人員崗位,取而代之的是各級(jí)技術(shù)經(jīng)理(總監(jiān))。比賽特點(diǎn),選手爭(zhēng)做“修車大工匠”。
式中xi為某個(gè)個(gè)體,w為正確檢測(cè)到的攻擊數(shù)目,W為總的攻擊數(shù)目,c為被誤判為攻擊的連接數(shù),C為總的正常連接數(shù),該適應(yīng)度函數(shù)得出的適應(yīng)度值在閉區(qū)間[﹣1,1]中,其中﹣1是最差的可能值,l是理想值。
圖1 遺傳算法的通用框架
2.3 具體設(shè)計(jì)
本文采用二進(jìn)制與實(shí)數(shù)混合編碼,既避免了二進(jìn)制編碼搜索空間小的缺陷,也排除了純實(shí)數(shù)編碼擴(kuò)大了額外的種群空間。
基本算子的設(shè)計(jì)如下。
2.3.1 交叉算子
2.3.2 變異算子
2.3.3 適應(yīng)度函數(shù)中檢測(cè)算子的設(shè)計(jì)
對(duì)于二進(jìn)制編碼部分分別計(jì)算被檢測(cè)個(gè)體和選擇的最優(yōu)個(gè)體的海明距離,通過(guò)實(shí)驗(yàn)給出一個(gè)閾值N,對(duì)于實(shí)數(shù)編碼部分是分別計(jì)算被檢測(cè)個(gè)體和選擇的最優(yōu)個(gè)體間的歐式距離,通過(guò)實(shí)驗(yàn)給出一個(gè)閾值d,當(dāng)同時(shí)滿足海明距離小于N和歐氏距離小于d時(shí),就認(rèn)為是一條正常記錄,否則就認(rèn)為是一條異常記錄。
操作系統(tǒng):Windows 7;CPU:Inter(R)Pentium(R) CPU G2030@3.00GHZ;內(nèi)存:4.00GB;編譯環(huán)境:Java(TM) 8.0.131;數(shù)據(jù)庫(kù):Microsoft Of fi ce Access。偽碼如下:
3.1 人工免疫系統(tǒng)的通用框架
人工免疫系統(tǒng)的通用框架如圖2所示[4]。
3.2 人工免疫算法中親和度的設(shè)計(jì)
在大數(shù)據(jù)環(huán)境下,為了提高檢測(cè)效率,本文將采用二進(jìn)制編碼的人工免疫算法。
具體過(guò)程如下:Step1利用目標(biāo)函數(shù)產(chǎn)生初始化抗體,Step2 親和力的計(jì)算,親和力的計(jì)算一般采用r-連續(xù)位法。r-連續(xù)位法是一種部分匹配規(guī)則,即對(duì)于兩個(gè)字符串x和y,如至少存在連續(xù)r位相同,則它們就是r-連續(xù)位匹配的。
圖2 人工免疫系統(tǒng)的通用框架
實(shí)驗(yàn)結(jié)果如表1所示。
表1 實(shí)驗(yàn)結(jié)果
本文構(gòu)建了一種基于條件熵和遺傳算法的人工免疫入侵檢測(cè)算法,在本文中遺傳算法仍然采用以前的二進(jìn)制與實(shí)數(shù)的混合編碼,然后把最優(yōu)種群用到二進(jìn)制編碼的人工免疫算法中。實(shí)驗(yàn)證明,在大數(shù)據(jù)環(huán)境下,這3種軟計(jì)算方法的結(jié)合對(duì)檢測(cè)率有了很大的提高,同時(shí)也保證了檢測(cè)的效率。
[1]蔣盛益.基于聚類的入侵檢測(cè)算法研究[M].北京:科學(xué)出版社,2008.
[2]托馬斯,喬.信息元素理論[M].北京:機(jī)械工業(yè)出版社,2005.
[3]周明,孫樹(shù)棟.遺傳算法原理及應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2005.
[4]楊孔雨.免疫進(jìn)化理論與應(yīng)用[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2008.
Research on application of some soft computing approaches for intrusion detection in the big data environment
Song Haibo
(Public Teaching Department of Qiannan Medical College for Nationalities, Duyun 558000, China)
Soft computing consists of some kinds of soft computing approaches, including approaches of neural networks, support vector machine, fuzzy set theory, approximate reasoning and some non-derivative optimization methods, such as computing based on entropy, genetic algorithm, arti fi cial immune and ant colony algorithm and so on. At present period, a single soft computing approach for anomaly detection has its limitations. The main purpose of this paper is to improve detection ef fi ciency of intrusion detection and reduce false negatives and detect unknown types of attacks with combination of conditional entropy, genetic algorithm and arti fi cial immune three soft computing.
intrusion detection; conditional entropy; genetic algorithm
黔南州科技產(chǎn)權(quán)局科研基金資助項(xiàng)目;項(xiàng)目編號(hào):黔南科發(fā)(2016)44號(hào)。
宋海波(1982— ),男,河北邯鄲,碩士,講師;研究方向:信息處理,信息安全與網(wǎng)絡(luò)計(jì)算。