摘 要: 采用集成學(xué)習(xí)模式進(jìn)行入侵檢測(cè)時(shí),可以獲得比單個(gè)學(xué)習(xí)器更高效的網(wǎng)絡(luò)攻擊識(shí)別過(guò)程,并能顯著提高識(shí)別準(zhǔn)確率。設(shè)計(jì)的SN通過(guò)MDM對(duì)各KELM子學(xué)習(xí)器計(jì)算得到集成增益度,從中選出具有較高增益度的KELM子學(xué)習(xí)器再實(shí)施集成。選擇Bagging方式完成抽樣集成過(guò)程,同時(shí)以Hadoop分布式結(jié)構(gòu)對(duì)算法實(shí)施訓(xùn)練,通過(guò)并發(fā)方式完成各子KELM的檢測(cè),使算法達(dá)到更高的效率。通過(guò)測(cè)試發(fā)現(xiàn),不管對(duì)于公共KDD99數(shù)據(jù)集還是以手工方式建立的網(wǎng)絡(luò)物理仿真系統(tǒng),SN都可以高效發(fā)現(xiàn)各類入侵行為,滿足實(shí)際應(yīng)用要求。
關(guān)鍵詞: 網(wǎng)絡(luò)入侵; 極限學(xué)習(xí)機(jī); 異常檢測(cè); 集成學(xué)習(xí)
中圖分類號(hào): TP 391文獻(xiàn)標(biāo)志碼: A
Intrusion Detection by Selectively Integrated Network
with MDM - based KELM Learner
GAO Zhenghao
(Institute of Electric Power Science, Guizhou Power Grid Co. Ltd., Guiyang, Guizhou 550000, China)
Abstract: The integrated learning mode can obtain a more efficient network attack identification process than a single learner, and it significantly improves the recognition accuracy. The SN designed in this paper calculates the integration gain of each KELM sub-learning device through MDM, and then selects the KELM sub-learning device with higher gain degree to implement integration. The bagging is selected to complete the sampling integration process. Meanwhile, the algorithm is trained by Hadoop distributed structure, and the detection of each sub-KELM is completed by means of concurrency, so as to achieve higher efficiency of the algorithm. Through testing, it is found that the SN can efficiently detect various intrusion behaviors for both public KDD99 data set and manual network physical simulation system, which meets the practical application requirements.
Key words: network intrusion; extreme learning machine; abnormal detection; integrated learning
0 引言
當(dāng)前,大數(shù)據(jù)技術(shù)獲得了廣泛應(yīng)用,對(duì)于信息技術(shù)發(fā)展發(fā)揮了極大的促進(jìn)作用,但也因此帶來(lái)了網(wǎng)絡(luò)信息的安全問(wèn)題。針對(duì)上述情況,可以利用網(wǎng)絡(luò)入侵檢測(cè)的方法來(lái)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)安全的主動(dòng)防護(hù)功能,從而實(shí)現(xiàn)網(wǎng)絡(luò)系統(tǒng)被破壞前就實(shí)現(xiàn)對(duì)外部入侵行為的及時(shí)攔截并作出快速響應(yīng)[1-6]。對(duì)各類復(fù)雜網(wǎng)絡(luò)運(yùn)行狀態(tài)進(jìn)行處理時(shí),不管是建立在誤用或異常情況上的入侵檢測(cè)系統(tǒng)通常都需要占用大量資源,并且實(shí)際測(cè)試效率很低,通常需結(jié)合人工綜合分析的過(guò)程才能獲得正確的結(jié)果[7-9]。對(duì)于一個(gè)具備優(yōu)異性能的入侵檢測(cè)系統(tǒng)來(lái)說(shuō),應(yīng)滿足可以實(shí)現(xiàn)自主學(xué)習(xí)并根據(jù)不同網(wǎng)絡(luò)條件不斷調(diào)整適應(yīng)的要求。通過(guò)機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)對(duì)分類器的訓(xùn)練,從而達(dá)到準(zhǔn)確分辨網(wǎng)絡(luò)中的各類連接行為是否屬于正常類型[10-11]。通過(guò)機(jī)器學(xué)習(xí)方式來(lái)實(shí)現(xiàn)的入侵檢測(cè)由于采用不同的學(xué)習(xí)(分類)器,因此各自性能存在較大的差異。
采用集成學(xué)習(xí)模式進(jìn)行入侵檢測(cè)時(shí),可以獲得比單個(gè)學(xué)習(xí)器更高效的網(wǎng)絡(luò)攻擊識(shí)別過(guò)程,并顯著提高識(shí)別準(zhǔn)確率。
1 入侵檢測(cè)算法
從本質(zhì)上分析,網(wǎng)絡(luò)入侵檢測(cè)屬于多變量分類的過(guò)程。假定總共
存在n條網(wǎng)絡(luò)連接數(shù)據(jù)集X,將其表示為X={xi|i=1,2,…,n}T∈Rn,并且滿足條件Xi∈R為第i條網(wǎng)絡(luò)連接的記錄,n表示樣本總條數(shù);上述各項(xiàng)記錄的網(wǎng)絡(luò)連接類型以T={ti|i=1,…,n}進(jìn)行表示,則根據(jù)單學(xué)習(xí)器構(gòu)建得到如下入侵檢測(cè)模型[12-13]如式(1)。
上式的λ表示權(quán)重系數(shù),當(dāng)Qj結(jié)構(gòu)被確定后,可以將式(1)作為對(duì)分類器Gj參數(shù)進(jìn)行調(diào)整后得到的最佳分類器。本文通過(guò)Bagging學(xué)習(xí)模式來(lái)設(shè)計(jì)SN方法,先對(duì)具備互補(bǔ)功能的子學(xué)習(xí)器實(shí)施訓(xùn)練,再通過(guò)邊緣距離最小化方式完成對(duì)子學(xué)習(xí)器實(shí)施選擇性學(xué)習(xí)的過(guò)程。算法的具體流程如圖1所示。
2.1 KELM分類器
將ELM作為一個(gè)線性方程,對(duì)其進(jìn)行求解分析可以得到一個(gè)閉式的全局理論最優(yōu)解。為防止ELM模型受到隱含層特征映射函數(shù)的干擾,可以考慮使用KELM模型。結(jié)合輸出層參數(shù)a計(jì)算結(jié)果,現(xiàn)創(chuàng)建一條新網(wǎng)絡(luò)連接記錄Xtest,將其表示成如下的連接類型向量如式(2)。
式中:h為X的ELM非線性映射,H是隱含層的輸出矩陣。以ELM核矩陣表示HHT。以Ω=HHT表示ELM核矩陣,代入上述各項(xiàng)矩陣參數(shù)可以得到以下結(jié)果如式(3)。
為了盡可能避免陷入局部最優(yōu),本文基于MDM的KELM學(xué)習(xí)器選擇性集成網(wǎng)絡(luò)入侵檢測(cè)。該方法基于MDM準(zhǔn)則計(jì)算出每個(gè)子學(xué)習(xí)器對(duì)整體集成算法性能提升的增益度量,通過(guò)選擇增益度高的KELM子學(xué)習(xí)器進(jìn)行部分集成,獲得計(jì)算效率高、泛化能力強(qiáng)的強(qiáng)學(xué)習(xí)器。
2.2 學(xué)習(xí)器選擇性集成
(MDM)集成學(xué)習(xí)是按照特定組合形式實(shí)現(xiàn)對(duì)不同弱分類器的集成并獲得強(qiáng)分類器算法,通常將此類算法稱作元算法。Bagging對(duì)已有分類器中存在錯(cuò)誤分類的樣本進(jìn)行集中關(guān)注再優(yōu)化各新創(chuàng)建得到的子學(xué)習(xí)器。Bagging方法充分考慮了不同子學(xué)習(xí)器間存在的強(qiáng)依賴性能,可以利用串行方式得到。
Bagging選擇隨機(jī)方式進(jìn)行重采樣,確保各子學(xué)習(xí)器可以達(dá)到互不干擾的狀態(tài)。通常是以能夠同時(shí)生成的分布式并發(fā)模式構(gòu)建上述算法,采用上述方法可以實(shí)現(xiàn)子學(xué)習(xí)器的高效訓(xùn)練,同時(shí)確保子學(xué)習(xí)器能夠滿足互補(bǔ)的性能。
考慮到采用此Bagging策略可以實(shí)現(xiàn)并發(fā)學(xué)習(xí)的效果,本文選擇Bagging方案來(lái)實(shí)現(xiàn)子分類器學(xué)習(xí)的功能。并且為確保可以對(duì)各類異常入侵進(jìn)行高效檢測(cè),本文設(shè)計(jì)了一種建立在最小邊緣距離基礎(chǔ)上的選擇性集成(MDM)算法來(lái)完成增益排序子學(xué)習(xí)器的目的,從中選出具有較大增益度的子學(xué)習(xí)器組成最終結(jié)果,有效減緩弱學(xué)習(xí)器影響檢測(cè)結(jié)果的程度。
3 實(shí)驗(yàn)驗(yàn)證
本實(shí)驗(yàn)需要對(duì)以下二項(xiàng)內(nèi)容進(jìn)行驗(yàn)證:(1) 利用KDD99數(shù)據(jù)集驗(yàn)證本文構(gòu)建的SN有效性,同時(shí)測(cè)試各項(xiàng)參數(shù)造成的性能變化,比較SN和不同入侵檢測(cè)方式的差異性;(2) 構(gòu)建網(wǎng)絡(luò)物理仿真系統(tǒng),對(duì)SN進(jìn)行復(fù)雜網(wǎng)絡(luò)環(huán)境條件下的運(yùn)行測(cè)試,評(píng)價(jià)其檢測(cè)真實(shí)入侵的效果。
3.1 驗(yàn)證分析
比較SN和KELM算法及其集成算法對(duì)于KDD99所達(dá)到的準(zhǔn)確率與花費(fèi)的運(yùn)算時(shí)間,如表1所示。
測(cè)試時(shí)以徑向基函數(shù)組成KELM核函數(shù),其中,KELM集成算法以及SN算法都選擇Bagging模式,設(shè)置跟原維度相同的抽樣數(shù)量,設(shè)定子學(xué)習(xí)器的數(shù)量為100,通過(guò)MDM選擇子學(xué)習(xí)器時(shí),滿足條件的子學(xué)習(xí)器數(shù)量總共是60個(gè)。
經(jīng)過(guò)50次獨(dú)立測(cè)試得到的結(jié)果,如表1所示。
根據(jù)表1可知,采用傳統(tǒng)形式KELM集成算法可以獲得比單獨(dú)KELM方式高出8%的AR同時(shí)減小了0.6%的MR,不過(guò)卻使檢測(cè)時(shí)長(zhǎng)增加了10倍左右。本文設(shè)計(jì)的SN是根據(jù)MDM準(zhǔn)則選出具備優(yōu)異性能的KELM子學(xué)習(xí)器來(lái)達(dá)到集成的目的,顯著降低集成得到的子學(xué)習(xí)數(shù)量,降低了弱學(xué)習(xí)器所造成的不利影響,除了有效提升AR以外還使MR發(fā)生了大幅減小,并且可以獲得更高的檢測(cè)效率。
表2給出了檢測(cè)方法運(yùn)算時(shí)間比較。
如表3所示。
采用傳統(tǒng)形式KELM集成算法訓(xùn)練時(shí)間較長(zhǎng),相B比較之下,本文算法在訓(xùn)練時(shí)間和測(cè)試時(shí)間上明顯縮短,計(jì)算效率明明顯提高。
3.2 參數(shù)設(shè)置對(duì)算法性能的影響
對(duì)SN性能具有影響的參數(shù)有子學(xué)習(xí)器集成數(shù)U與特征數(shù)F。表3給出了在不同的輸入層神經(jīng)元數(shù)量與各抽樣率條件下算法的性能變化。
對(duì)表3結(jié)果進(jìn)行分析可以發(fā)現(xiàn),F(xiàn)幾乎不會(huì)造成測(cè)試結(jié)果的變化。這是由于訓(xùn)練與測(cè)試階段所選擇的KDD99樣本集包含了大量的數(shù)據(jù),同時(shí)該算法具備優(yōu)異泛化性能,此時(shí)如果只單獨(dú)調(diào)節(jié)F將無(wú)法提升算法性能。不過(guò)對(duì)F進(jìn)行調(diào)整后能夠改善小樣本集學(xué)習(xí)器性能。
同時(shí),集成算法泛化性能受到子學(xué)器數(shù)量的直接影響,而當(dāng)子學(xué)習(xí)器太多時(shí)則會(huì)占據(jù)大量資源。本實(shí)驗(yàn)將KELM子學(xué)習(xí)器的最初數(shù)量設(shè)定在100,利用選擇性學(xué)習(xí)的方式得到最終集成數(shù)量。入侵檢測(cè)性能與選擇性集成子學(xué)習(xí)器數(shù)量的關(guān)系,如圖2所示。
對(duì)圖2進(jìn)行分析可知,當(dāng)子學(xué)習(xí)器數(shù)量增多后,入侵檢測(cè)準(zhǔn)確率表現(xiàn)為先緩慢上升再不斷減小的趨勢(shì)。在子學(xué)習(xí)器數(shù)量介于35~40范圍內(nèi)時(shí),可以獲得較高的網(wǎng)絡(luò)入侵檢測(cè)準(zhǔn)確率,而當(dāng)子分類器數(shù)量繼續(xù)提高(超過(guò)40)后,獲得的入侵檢測(cè)效果保持基本穩(wěn)定狀態(tài),而當(dāng)加入太多弱學(xué)習(xí)器時(shí),反而減小了正確率。進(jìn)行比較測(cè)試時(shí),將集成數(shù)量設(shè)定在40。
4 總結(jié)
本文設(shè)計(jì)的SN通過(guò)MDM對(duì)各KELM子學(xué)習(xí)器計(jì)算得到集成增益度,從中選出具有較高增益度的KELM子學(xué)習(xí)器再實(shí)施集成。選擇Bagging方式完成抽樣集成過(guò)程,同時(shí)以Hadoop分布式結(jié)構(gòu)對(duì)算法實(shí)施訓(xùn)練,通過(guò)并發(fā)方式完成各子KELM的檢測(cè),使算法達(dá)到更高的效率。通過(guò)測(cè)試發(fā)現(xiàn),不管對(duì)于公共KDD99數(shù)據(jù)集還是以手工方式建立的網(wǎng)絡(luò)物理仿真系統(tǒng),SN都可以高效發(fā)現(xiàn)各類入侵行為,滿足實(shí)際應(yīng)用要求。
參考文獻(xiàn)
[1] 李立勛,張斌,董淑琴,等. 基于脆弱性轉(zhuǎn)化的網(wǎng)絡(luò)動(dòng)力學(xué)防御效能分析方法[J]. 電子學(xué)報(bào),2018,46 (12):3014-3020.
[2] Sultanan, Chilamkurti N, Peng W, et al. Survey on SDN based network intrusion detection system use machine learning approaches [J]. Peer-to-Peer Networking And applications, 2018,11 (1-2): 1-9.
[3] 高妮,高嶺,賀毅岳, 等.基于自編碼網(wǎng)絡(luò)特征降維的輕量級(jí)入侵檢測(cè)模型[J]. 電子學(xué)報(bào),2017, 45(3):730-739.
[4] Wang C R, Xu R F, Lee S J, et al. Network intrusion detection using equality constrained optimization based extreme learning machines[J]. Knowledge-Based Systems, 2018、147 (1):68 - 80.
[5] 張志霞.基于RS-SVM的無(wú)線傳感器網(wǎng)絡(luò)入侵檢測(cè)模型研究[J].智能計(jì)算機(jī)與應(yīng)用,2019(3):319-320.
[6] 王莉莉,張建軍.網(wǎng)絡(luò)入侵節(jié)點(diǎn)的盲取證技術(shù)研究與仿真[J].現(xiàn)代電子技術(shù),2019,42(9):51-54.
[7] 金立群.適應(yīng)多元尺寸長(zhǎng)度的卷積神經(jīng)網(wǎng)絡(luò)模型在網(wǎng)絡(luò)入侵檢測(cè)中的應(yīng)用[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2019(5):1-3.
[8] 孫惠麗,陳維華,劉東朝.基于深度學(xué)習(xí)的改進(jìn)貝葉斯網(wǎng)絡(luò)入侵檢測(cè)算法[J].軟件工程,2019,22(4):17-20.
[9] 楊印根,王忠洋.基于深度神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(4):37-41.
[10] 徐文良,張永勝,程健慶.基于機(jī)器學(xué)習(xí)的艦艇網(wǎng)絡(luò)入侵檢測(cè)技術(shù)[J].指揮控制與仿真,2019,41(2):137-140.
[11] 閆明輝.計(jì)算機(jī)網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)匹配算法的研究[J].電子設(shè)計(jì)工程,2019,27(8):34-37.
[12] 韓存鴿.混合光纖網(wǎng)絡(luò)偽裝危險(xiǎn)數(shù)據(jù)有效識(shí)別技術(shù)研究[J].激光雜志,2019,40(4):108-112.
[13] 劉立明,李群英,郝成亮,等.基于異常流量可視化的通信網(wǎng)絡(luò)入侵攻擊路徑智能跟蹤技術(shù)[J].科學(xué)技術(shù)與工程,2019,19(11):230-235.
(收稿日期: 2020.02.04)
作者簡(jiǎn)介:
高正浩(1979-),男,本科,工程師,研究方向:信息技術(shù)。