胡健 蘇永東 黃文載 肖鵬 劉玉婷 楊本富
摘 要:入侵檢測(cè)系統(tǒng)(IDS)已成為網(wǎng)絡(luò)安全體系結(jié)構(gòu)中的必要組成部分。在面對(duì)現(xiàn)代網(wǎng)絡(luò)安全需求時(shí),現(xiàn)有的入侵檢測(cè)方法的可行性和持續(xù)性仍然存在提高空間,主要體現(xiàn)在更早地發(fā)現(xiàn)入侵威脅和提高入侵檢測(cè)系統(tǒng)的檢測(cè)精準(zhǔn)度,為此提出一種基于互信息加權(quán)的集成遷移學(xué)習(xí)(ETL)入侵檢測(cè)方法。首先,通過遷移策略對(duì)多組特征集進(jìn)行建模;然后,使用互信息度量在遷移模型下特征集在不同域中的數(shù)據(jù)分布;最后,根據(jù)度量值對(duì)多個(gè)遷移模型進(jìn)行集成加權(quán),得到集成遷移模型。該方法通過學(xué)習(xí)新環(huán)境下的少量有標(biāo)記樣本和以往環(huán)境下的大量有標(biāo)記樣本的知識(shí),可以建立效果優(yōu)于傳統(tǒng)非集成、非遷移的入侵檢測(cè)模型。使用基準(zhǔn)NSLKDD數(shù)據(jù)集對(duì)該方法進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,所提方法具有良好的收斂性能,并提高了入侵檢測(cè)的精準(zhǔn)率。
關(guān)鍵詞:入侵檢測(cè);遷移學(xué)習(xí);互信息;集成學(xué)習(xí);加權(quán)集成
中圖分類號(hào):TP393.08
文獻(xiàn)標(biāo)志碼:A
Intrusion detection method based on
ensemble transfer learning via weighted mutual information
HU Jian1*, SU Yongdong1, HUANG Wenzai1, XIAO Peng1, LIU Yuting1, YANG Benfu2
1.Information Center, Yunnan Power Grid Company Limited, Kunming Yunnan 650217, China;
2.Yunnan Yundian Tongfang Technology Company Limited, Kunming Yunnan 650217, China
Abstract:
Intrusion Detection System (IDS) has become an essential part of network security system, the practicability and durability of the existing intrusion detection methods still have improvement space, like detecting intrusion threats earlier and improving the detection accuracy of intrusion detection systems. Therefore, an intrusion detection method based on Ensemble Transfer Learning (ETL) via weighted mutual information was proposed. Firstly, the transfer strategy was used to model multiple feature sets, then the mutual information was used to measure the data attribution of feature sets under the transfer models in different domains. Finally, the weighted ensemble was performed to the multiple transfer models according to the measures, obtaining the ensemble transfer model. The method was able to construct the intrusion detection model better than the traditional models without ensemble or transfer learning by learning the knowledge of little labeled samples in the new environment and many labeled samples in the prior environment. The benchmark NSLKDD dataset was used to evaluate the proposed method and the results show that the proposed method has good convergence performance and improve the accuracy of intrusion detection.
Key words:
intrusion detection; transfer learning; mutual information; ensemble learning; weighted ensemble
0?引言
新型的網(wǎng)絡(luò)攻擊呈現(xiàn)出了規(guī)?;⒎植蓟?、復(fù)雜化趨勢(shì),對(duì)入侵檢測(cè)方法的有效性和及時(shí)性提出了更高的要求。目前普遍應(yīng)用的以異常檢測(cè)和誤用檢測(cè)(也叫基于簽名的檢測(cè))為代表的入侵檢測(cè)技術(shù)普遍存在檢測(cè)率低、誤報(bào)過高以及過渡依賴知識(shí)庫等不足?,F(xiàn)有入侵檢測(cè)方法發(fā)展已經(jīng)遇到瓶頸,主要有3個(gè)限制性因素:第一是網(wǎng)絡(luò)數(shù)據(jù)量的急劇增長,并將長期高速增長,需要快速在海量的網(wǎng)絡(luò)流量中分析網(wǎng)絡(luò)行為; 第二網(wǎng)絡(luò)應(yīng)用的更高級(jí)更抽象,需要更加詳細(xì)和豐富的上下文知識(shí),
提高入侵檢測(cè)方法的監(jiān)控深度和分析粒度; 第三是網(wǎng)絡(luò)協(xié)議的多樣性和攻擊行為的高級(jí)可持續(xù)性,增加了建立規(guī)范的難度。隨著人工智能技術(shù)的快速發(fā)展,基于人工智能技術(shù)的入侵檢測(cè)方法已成為入侵檢測(cè)系統(tǒng)(Intrusion Detection System, IDS)[1]研究的熱點(diǎn)之一。
1?相關(guān)研究
1.1?基于機(jī)器學(xué)習(xí)的入侵檢測(cè)及其仍然存在的問題
將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用在入侵檢測(cè)[2-3]是入侵檢測(cè)問題中的熱點(diǎn)研究領(lǐng)域之一,它依賴大量的有標(biāo)注的網(wǎng)絡(luò)訪問數(shù)據(jù),通過監(jiān)督式學(xué)習(xí)方法(如決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等)對(duì)數(shù)據(jù)進(jìn)行模式識(shí)別并建立分類模型,借助該分類模型,對(duì)未來的網(wǎng)絡(luò)訪問實(shí)例進(jìn)行判斷,預(yù)測(cè)新的訪問實(shí)例是否安全。圖1是基于機(jī)器學(xué)習(xí)的入侵檢測(cè)模型基本流程,首先,研究者從數(shù)據(jù)倉庫將歷史訪問數(shù)據(jù)取出,每一條歷史訪問數(shù)據(jù)包含了其在訪問時(shí)的一些附加信息,如訪問時(shí)長、使用的是TCP(Transmission Control Protocol)協(xié)議或是UDP(User Datagram Protocol)協(xié)議等;然后,對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)記,標(biāo)記哪些是正常的訪問,哪些是非正常的訪問;最后,將這些數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)置于機(jī)器學(xué)習(xí)算法中,通過監(jiān)督式機(jī)器學(xué)習(xí)算法的訓(xùn)練,可以得到入侵檢測(cè)的分類模型,并對(duì)未知的訪問進(jìn)行預(yù)測(cè)。
但是傳統(tǒng)的機(jī)器學(xué)習(xí)算法在解決入侵檢測(cè)時(shí)也有其弊端:
1)傳統(tǒng)的監(jiān)督式機(jī)器學(xué)習(xí)算法基于兩個(gè)基本假設(shè):①訓(xùn)練數(shù)據(jù)的樣本量足夠多; ②訓(xùn)練數(shù)據(jù)和真實(shí)環(huán)境的數(shù)據(jù)的分布相同。前者保證了訓(xùn)練的模型足夠可信,后者保證了訓(xùn)練的模型在新的環(huán)境下可用。但是,實(shí)際場(chǎng)景下,訓(xùn)練過程中使用的數(shù)據(jù)往往和真實(shí)環(huán)境下的數(shù)據(jù)存在數(shù)據(jù)分布差異;而給真實(shí)環(huán)境下的數(shù)據(jù)標(biāo)記又是一件費(fèi)時(shí)費(fèi)力的工作,如何對(duì)缺乏足夠訓(xùn)練樣本的真實(shí)環(huán)境下的數(shù)據(jù)進(jìn)行建模,是一項(xiàng)具有實(shí)際意義的工作。
2)傳統(tǒng)的機(jī)器學(xué)習(xí)算法應(yīng)用在入侵檢測(cè)系統(tǒng)上也有其局限性,研究者通常使用單一的機(jī)器學(xué)習(xí)算法對(duì)入侵檢測(cè)數(shù)據(jù)進(jìn)行建模,比如,僅僅使用神經(jīng)網(wǎng)絡(luò)[4-5]或者支持向量機(jī)[6]等來訓(xùn)練入侵檢測(cè)的分類模型,雖然已經(jīng)有研究者證明,對(duì)于經(jīng)典的入侵檢測(cè)數(shù)據(jù)集KDD99或者NSLKDD[7]而言,這些強(qiáng)分類器(如神經(jīng)網(wǎng)絡(luò)和支持向量機(jī))已經(jīng)取得了不錯(cuò)的效果[8]。但更新的研究也證明集成學(xué)習(xí)對(duì)于入侵檢測(cè)是有利的[9]。
因此,如何在目標(biāo)領(lǐng)域的數(shù)據(jù)量不足的情況下,使用集成策略(通過多分類器對(duì)各自適合的特征)進(jìn)行模型訓(xùn)練并對(duì)各個(gè)模型進(jìn)行有效集成,是解決實(shí)際的新環(huán)境下入侵檢測(cè)問題的難點(diǎn)。
1.2?遷移學(xué)習(xí)和集成學(xué)習(xí)
為了彌補(bǔ)訓(xùn)練樣本不足的問題,機(jī)器學(xué)習(xí)研究領(lǐng)域的很多研究者開始將目光投向遷移學(xué)習(xí)領(lǐng)域,遷移學(xué)習(xí)旨在能夠?qū)W習(xí)相關(guān)領(lǐng)域源域(source Domain,Ds)的知識(shí),并將之應(yīng)用在另外一個(gè)數(shù)據(jù)分布不同但是卻相關(guān)的領(lǐng)域目標(biāo)域(target Domain,Dt),Pan等[10]早在2009年對(duì)遷移學(xué)習(xí)研究領(lǐng)域目前的研究進(jìn)展進(jìn)行了歸納,在其綜述中,描述了基于樣本的遷移、基于特征表達(dá)的遷移、基于關(guān)系的遷移、基于知識(shí)的遷移四種基本的遷移方式, 其中,基于樣本的遷移學(xué)習(xí)方法是在源域有標(biāo)記樣本充足、目標(biāo)域有標(biāo)記樣本數(shù)據(jù)量很少的情況下,使用源域的有標(biāo)記樣本來輔助目標(biāo)域構(gòu)建模型的方法。由于基于樣本的遷移學(xué)習(xí)算法易于實(shí)現(xiàn),且與產(chǎn)業(yè)界的實(shí)際應(yīng)用場(chǎng)景密切相關(guān),目前已經(jīng)在具體的領(lǐng)域,如銀行的用戶信用評(píng)估[11]、垃圾文本內(nèi)容分類[12]、新聞文本分類[13]、推薦系統(tǒng)[14]、圖片分類[15]等任務(wù)中被廣泛應(yīng)用。
另外,在具體的數(shù)據(jù)建模問題中,數(shù)據(jù)的來源具有多樣化的特點(diǎn),這也就導(dǎo)致了數(shù)據(jù)的各個(gè)特征可能分別屬于不同的數(shù)據(jù)類型。如果使用TrAdaboost[16]方法僅僅對(duì)某些特定類型的特征建模,并不會(huì)有效利用好所有的特征信息??紤]到對(duì)不同類型的數(shù)據(jù)特征而言,有適合它的機(jī)器學(xué)習(xí)算法, 因此,借鑒集成學(xué)習(xí)的策略,首先對(duì)不同的特征集(同數(shù)據(jù)集某幾個(gè)特征組成的特征集合)獨(dú)立進(jìn)行遷移模型的訓(xùn)練,并在最后對(duì)這些模型進(jìn)行有效組合,是可以提升遷移模型的效果的。
2?基于集成遷移學(xué)習(xí)技術(shù)的入侵檢測(cè)
2.1?簡(jiǎn)單遷移模型策略
對(duì)于某特定的特征集進(jìn)行遷移模型的訓(xùn)練,可以使用極簡(jiǎn)的遷移策略[17],如圖2。
圖2中Dt是少量有類別標(biāo)簽的目標(biāo)域樣本,Ds是大量的有類別標(biāo)簽的源域樣本。通過極少的Dt結(jié)合一種分類算法,可以訓(xùn)練得到一個(gè)簡(jiǎn)單分類模型;隨后,將之應(yīng)用在源域Ds進(jìn)行預(yù)測(cè),保留預(yù)測(cè)正確的樣本集Ds′;最后通過混合Ds′和Dt的樣本,使用相同的分類算法,訓(xùn)練得到遷移模型。這個(gè)模型有速度快,且適用于多個(gè)簡(jiǎn)單遷移模型集成的優(yōu)點(diǎn)。
2.2?集成遷移模型
在簡(jiǎn)單遷移模型的基礎(chǔ)上,引入集成學(xué)習(xí)的概念,可得到集成遷移學(xué)習(xí)模型。首先,源域和目標(biāo)域被成對(duì)地劃分為不同的特征集,研究者可以在每對(duì)特征集上訓(xùn)練一個(gè)簡(jiǎn)單的遷移分類模型;與此同時(shí),計(jì)算該特征集下的源域和目標(biāo)域的數(shù)據(jù)分布的互信息值,并用這個(gè)互信息值來衡量不同的域在不同特征集上的差異情況;最后通過互信息值對(duì)多個(gè)簡(jiǎn)單遷移模型加權(quán),得到最后的加權(quán)后的集成遷移模型。
實(shí)際上,對(duì)不同的特征集分別訓(xùn)練不同模型并將其組合的策略,在機(jī)器學(xué)習(xí)的相關(guān)研究中已經(jīng)得到了充分肯定,比如在推薦系統(tǒng)中,寬深模型[18]就是最為經(jīng)典的且具有高準(zhǔn)確率的集成模型算法。寬深模型通過利用一個(gè)深度神經(jīng)網(wǎng)絡(luò)著重對(duì)連續(xù)型隨機(jī)變量進(jìn)行建模;然后,使用邏輯回歸模型對(duì)離散型隨機(jī)變量進(jìn)行建模;最后,通過再一層的邏輯回歸模型學(xué)習(xí)到加權(quán)方案,就得到一個(gè)集成了“寬”模型和“深”模型的算法模型,原實(shí)驗(yàn)證明這種思路可以極大地利用好各類數(shù)據(jù)特征。
集成遷移學(xué)習(xí)模型的模型流程如圖2所示:首先源域(Ds)和目標(biāo)域(Dt)中的有標(biāo)記樣本按照不同的特征集被分為多組子源域(Ds1~Dsn)和子目標(biāo)域(Dt1~Dtn),每組子源域Dsi和子目標(biāo)域Dti可以訓(xùn)練得到一組簡(jiǎn)單的單模型遷移策略Mi,同時(shí),在遷移過程中,計(jì)算子源域和子目標(biāo)域之間的互信息值并以之作為權(quán)重值來衡量模型的重要性,通過加權(quán)組合多個(gè)遷移策略(M1~Mn),就得到了最終的集成遷移模型。
2.3?加權(quán)集成方式
集成遷移模型的最終目的是將多個(gè)不同的遷移分類模型進(jìn)行融合,而融合多模型最常用的方法是對(duì)多個(gè)模型的效果進(jìn)行線性加權(quán)。加權(quán)的本質(zhì)是對(duì)學(xué)習(xí)到的不同內(nèi)容賦予不同的重要性,對(duì)于遷移學(xué)習(xí)而言,學(xué)習(xí)到的知識(shí)越有利于遷移,這個(gè)權(quán)值就應(yīng)該越大。在集成遷移模型中,可以在不同特征集下使用源域和目標(biāo)域的數(shù)據(jù)分布相似程度來評(píng)價(jià)簡(jiǎn)單遷移模型的遷移效果。
互信息(mutualinformation)是用在信號(hào)學(xué)中的一個(gè)度量方法,用以衡量信號(hào)傳輸前后的損失或者差異,Ambusaidi等[19]曾在IDS系統(tǒng)中使用了互信息用來輔助特征選擇,而在集成遷移模型中,通過互信息可以衡量由源域到目標(biāo)域的分布差異。
當(dāng)給定兩個(gè)連續(xù)型隨機(jī)變量U={u1, u2, …, ud}和V={v1, v2, …, vd},其中d表示樣本個(gè)數(shù),U和V互信息之間的計(jì)算方式如下:
I(U;V)=H(U)+H(V)-H(U,V)(1)
其中:H(U)和H(V)分別表示隨機(jī)變量U和V的信息熵,H(U, V)為U和V的交叉熵。
當(dāng)U和V是連續(xù)(continuous)型變量時(shí),U和V之間的交叉熵記為:
I(U;V)=∫u∫vp(u,v)lgp(u,v)p(u)p(v)dudv(2)
當(dāng)U和V是離散(discrete)型變量時(shí),U和V之間的交叉熵記為:
I(U;V)=∑u∈U∑v∈Vp(u,v)lgp(u,v)p(u)p(v)(3)
結(jié)合上面互信息的定義,定義使用互信息加權(quán)的廣義集成方案如式(4),其中M是各個(gè)獨(dú)立的遷移模型(Mi)的加權(quán)組合模型:
M=∑ni=1I(Ui;Vi)×Mi∑ni=1I(Ui;Vi)(4)
3?實(shí)驗(yàn)
3.1?入侵檢測(cè)數(shù)據(jù)集
實(shí)驗(yàn)使用NSLKDD基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集是目前主要用于判斷入侵檢測(cè)系統(tǒng)性能的標(biāo)準(zhǔn)數(shù)據(jù)。NSLKDD數(shù)據(jù)集是1999年KDD CUP競(jìng)賽所使用的入侵檢測(cè)數(shù)據(jù)集的改進(jìn)版本,其包含了41個(gè)特征,訓(xùn)練數(shù)據(jù)集包含了23個(gè)類別標(biāo)簽,這23個(gè)類別標(biāo)簽隸屬5個(gè)大類,而這5個(gè)大類中有4個(gè)大類(u2r、dos、r2l和probe)屬于非正常的網(wǎng)絡(luò)訪問類別,正常的訪問標(biāo)記,只包含normal一種。訓(xùn)練數(shù)據(jù)集的類別標(biāo)簽的關(guān)系如表1所示。
通常情況下,研究者會(huì)將其中的KDDTrain或者KDDTrain+_20Percent作為模型訓(xùn)練的訓(xùn)練集,將KDDTest作為模型的測(cè)試集。而由于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的數(shù)據(jù)分布(均值和方差)存在差異,如表2,且測(cè)試集中甚至出現(xiàn)了訓(xùn)練集中不存在的非正常網(wǎng)絡(luò)鏈路的標(biāo)記,如:saint、 xsnoop、 mailbomb、 udpstorm、 httptunnel、 sendmail、 sqlattack、 worm、 snmpguess、 perl、 mscan、 apache2、 xterm、 named、 snmpgetattack、 processtable、 ps、 xlock,因此訓(xùn)練集和測(cè)試集的邊緣概率分布和條件概率分布都不一致[20],符合遷移學(xué)習(xí)的使用條件,因此該訓(xùn)練集和測(cè)試集也可以被認(rèn)為是入侵檢測(cè)領(lǐng)域的源域和目標(biāo)域。
3.2?實(shí)驗(yàn)設(shè)置
首先,實(shí)驗(yàn)任務(wù)是一個(gè)遷移學(xué)習(xí)場(chǎng)景下的二分類任務(wù),即在目標(biāo)域的有標(biāo)記樣本量不足的情況下,結(jié)合遷移學(xué)習(xí)策略和集成學(xué)習(xí)方法,根據(jù)網(wǎng)絡(luò)鏈路行為判斷新的訪問行為是否為入侵行為。
1)目標(biāo)域數(shù)據(jù)劃分。
由于在基于實(shí)例的遷移學(xué)習(xí)中,目標(biāo)域難以獲取足量的有標(biāo)記樣本,因此在實(shí)驗(yàn)中,只設(shè)置0.1%~2.5%的目標(biāo)域有標(biāo)記樣本來進(jìn)行遷移學(xué)習(xí)模型的訓(xùn)練,而源域中的樣本由于都是有標(biāo)記的,因此可以完全被利用。
2)加權(quán)集成方案。
對(duì)于入侵檢測(cè)的數(shù)據(jù)而言,數(shù)據(jù)往往包含了多種多樣的數(shù)據(jù)類型:在NSLKDD數(shù)據(jù)集中,其包含了分類特征和數(shù)值特征,而數(shù)值特征甚至也包含了已經(jīng)被歸一化的取值范圍為[0, 1]的數(shù)值特征。實(shí)驗(yàn)擬對(duì)特征進(jìn)行拆分,獨(dú)立訓(xùn)練多個(gè)遷移學(xué)習(xí)模型并對(duì)模型的學(xué)習(xí)結(jié)果進(jìn)行集成,使之更加有效利用原始數(shù)據(jù)的各類數(shù)據(jù)信息,使源域的知識(shí)能夠最大化地被遷移到目標(biāo)域中。
當(dāng)使用數(shù)值型(記為numr)特征、歸一化數(shù)值(記為norm)特征以及離散型(記為cate)特征分別得到了多個(gè)模型Mnumr、Mnorm、Mcate以及互信息值Inumr、Inorm、Icate時(shí),使用互信息值對(duì)不同的預(yù)測(cè)模型結(jié)果進(jìn)行加權(quán)集成,即得到了最終的學(xué)習(xí)器M,記為式(5):
M=Inumr×Mnumr+Inorm×Mnorm+Icate×McateInumr+Inorm+Icate(5)
3)分類算法和評(píng)估方法。
在使用集成遷移模型來解決不同環(huán)境下的入侵檢測(cè)問題中,實(shí)驗(yàn)使用多層感知機(jī)對(duì)取值區(qū)間為[0,1]的連續(xù)特征集建模,使用決策樹對(duì)離散特征和取值區(qū)間為實(shí)數(shù)的連續(xù)特征建模。對(duì)于使用了遷移策略的實(shí)驗(yàn)而言,最終使用互信息加權(quán)策略對(duì)模型進(jìn)行加權(quán)融合,得到最終的模型。
考慮到入侵檢測(cè)的標(biāo)準(zhǔn)是既需要較高的精準(zhǔn)率也需要較高的召回率,F(xiàn)1score作為一種常用的評(píng)估方法,兼顧了精準(zhǔn)率和召回率兩個(gè)主要的指標(biāo),其評(píng)價(jià)更具有實(shí)際意義,因此使用F1score來對(duì)模型效果進(jìn)行效果評(píng)定。而F1score的評(píng)估目標(biāo),是目標(biāo)域中無標(biāo)記樣本中的入侵檢測(cè)樣本是否能夠得到有效判別。
4)對(duì)照實(shí)驗(yàn)組設(shè)定。
實(shí)驗(yàn)同時(shí)設(shè)置了對(duì)照組,對(duì)于遷移學(xué)習(xí)而言,對(duì)照組實(shí)驗(yàn)需要從以下幾個(gè)方面設(shè)置:
①與直接使用目標(biāo)域的少量樣本訓(xùn)練的模型進(jìn)行對(duì)比;
②與不使用遷移學(xué)習(xí)的方法(使用源域數(shù)據(jù)訓(xùn)練模型并將之直接應(yīng)用在目標(biāo)域數(shù)據(jù)上)進(jìn)行對(duì)比;
③為了研究集成策略是否有效,對(duì)照組中也應(yīng)該包含了訓(xùn)練無集成加權(quán)遷移學(xué)習(xí)模型的實(shí)驗(yàn)。
5)互信息計(jì)算過程。
在基于集成遷移學(xué)習(xí)算法的模型中,按照如下方式計(jì)算法互信息:計(jì)算源域有標(biāo)記樣本的數(shù)據(jù)分布描述和目標(biāo)域有標(biāo)記樣本的數(shù)據(jù)分布描述(數(shù)據(jù)分布描述,包含均值和標(biāo)準(zhǔn)差,實(shí)驗(yàn)過程中使用python中Pandas庫里的describe()函數(shù)生成)之間的互信息值。
6)實(shí)驗(yàn)使用的基本分類器參數(shù)設(shè)置。
本實(shí)驗(yàn)中主要使用了兩類監(jiān)督式學(xué)習(xí)算法:決策樹算法和感知機(jī)算法,其中決策樹被使用在了非遷移或非集成的對(duì)照組實(shí)驗(yàn)中,同時(shí)也被使用在了集成遷移學(xué)習(xí)模型的分類特征集和數(shù)值特征集上,而感知機(jī)由于較好適用于數(shù)值分布在[0,1]的特征,因此被使用在集成遷移模型的歸一化特征集的遷移模型中。決策樹和感知機(jī)的基本參數(shù)設(shè)置如表3。
實(shí)驗(yàn)記錄了在使用不同量目標(biāo)域數(shù)據(jù)情況下,各個(gè)特征集在不同域上的互信息值的變化情況,當(dāng)目標(biāo)域的有標(biāo)記樣本量比例從0.1%逐漸擴(kuò)量到2.5%時(shí),不同特征集下的源域和目標(biāo)域互信息值如圖4所示。
圖4中,mu_nurm描述了數(shù)值型特征在源域和目標(biāo)域之間的互信息值,mu_cate表示類別型特征在源域和目標(biāo)域之間數(shù)據(jù)分布的互信息值,mu_norm表示已經(jīng)歸一化的特征在源域和目標(biāo)域之間數(shù)據(jù)分布的互信息值。
由圖4可知,分類特征和數(shù)值特征隨著目標(biāo)域有標(biāo)記樣本量的增加,其源域和目標(biāo)域之間的互信息值也產(chǎn)生了一些波動(dòng),而同時(shí)已經(jīng)被歸一化的數(shù)值特征由于原始的均值和標(biāo)準(zhǔn)差較為穩(wěn)定,因此波動(dòng)較小,以上數(shù)據(jù)曲線也說明了每一次源域和目標(biāo)域在某一特征集上的可遷移的知識(shí)權(quán)重實(shí)際是存在差異的。
7)實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)統(tǒng)計(jì)了隨著目標(biāo)域有標(biāo)記樣本在目標(biāo)域樣本中所占比率逐漸增多的情況下,使用集成遷移模型和使用非集成、非遷移模型的實(shí)驗(yàn)結(jié)果,節(jié)選的部分結(jié)果(目標(biāo)域有標(biāo)記樣本所占比率為0.1%~1.3%)如表4所示。更豐富的實(shí)驗(yàn)結(jié)果繪制如圖5和圖6所示,其中,圖5描述了集成遷移模型和非集成遷移模型的實(shí)驗(yàn)對(duì)照,而圖6顯示了集成遷移模型和簡(jiǎn)單遷移模型的實(shí)驗(yàn)對(duì)照。
8)實(shí)驗(yàn)分析。
結(jié)合表4,分析圖5、6的實(shí)驗(yàn)結(jié)果,可以得到兩組實(shí)驗(yàn)的一些基本結(jié)論:
由圖5中的實(shí)驗(yàn)1可知:僅僅使用源域的數(shù)據(jù)混合目標(biāo)域中的少量有標(biāo)簽數(shù)據(jù)訓(xùn)練分類模型,在目標(biāo)域的無標(biāo)記樣本上的預(yù)測(cè)結(jié)果并不佳,當(dāng)目標(biāo)域中的有標(biāo)記樣本在0.02%~0.25%區(qū)間段遞增時(shí),這種策略甚至比不上直接使用目標(biāo)域的少量有標(biāo)記樣本直接訓(xùn)練的模型(圖5中實(shí)驗(yàn)2)的效果好。
在同樣的實(shí)驗(yàn)條件下,使用了集成遷移學(xué)習(xí)模型的預(yù)測(cè)結(jié)果,是優(yōu)于以上兩種不使用遷移策略的方法的。在目標(biāo)域樣本極少(0.1%)時(shí),集成遷移模型的預(yù)測(cè)效果在一開始較高,這說明極大地利用了目標(biāo)域的有限樣本篩選了更多對(duì)目標(biāo)域有利的源域樣本,并據(jù)此輔助訓(xùn)練目標(biāo)域模型,這也說明有選擇地遷移源域知識(shí)對(duì)訓(xùn)練目標(biāo)域的模型是有利的。
另外,對(duì)比圖6中的兩組曲線可知,對(duì)多個(gè)特征集分別訓(xùn)練遷移模型并使用互信息加權(quán)集成多個(gè)模型的效果,是好于不使用集成策略的遷移學(xué)習(xí)模型的。雖然在目標(biāo)域有限樣本量更多的情況下,不使用集成策略的遷移模型會(huì)慢慢追平使用集成策略的遷移模型的F1score值,但是在樣本量更少的情況下,集成遷移模型可以具有更強(qiáng)的提早發(fā)現(xiàn)入侵檢測(cè)異常的能力,而這一點(diǎn)非常適用于真實(shí)環(huán)境下的網(wǎng)絡(luò)入侵檢測(cè)環(huán)境。
因此,結(jié)合以上的實(shí)驗(yàn)結(jié)論可知,在基于實(shí)際場(chǎng)景下跨領(lǐng)域的入侵檢測(cè)分類問題中,完全混合源域和目標(biāo)域的數(shù)據(jù)訓(xùn)練模型以及直接使用目標(biāo)域少量數(shù)據(jù)訓(xùn)練模型,不會(huì)對(duì)目標(biāo)任務(wù)有利,而基于互信息加權(quán)的集成遷移模型對(duì)于目標(biāo)域的模型訓(xùn)練有利。
4?結(jié)語
通過將遷移學(xué)習(xí)技術(shù)和集成學(xué)習(xí)的思想應(yīng)用在入侵檢測(cè)領(lǐng)域,對(duì)源域和目標(biāo)域多組不同的特征集,使用簡(jiǎn)單的遷移策略,訓(xùn)練較好的獨(dú)立的遷移模型;然后使用互信息衡量源域和目標(biāo)域在該特征集下的數(shù)據(jù)分布差異并以之對(duì)多個(gè)遷移模型進(jìn)行集成加權(quán),得到最終的集成遷移模型。通過在NSLKDD標(biāo)準(zhǔn)的入侵檢測(cè)數(shù)據(jù)集中的實(shí)驗(yàn)得知,該集成遷移模型的效果好于不使用遷移模型的效果,同時(shí)也好于不使用集成策略的遷移模型的效果。
遷移的本質(zhì)是挖掘源域中的可用知識(shí)來輔助目標(biāo)域決策,雖然使用集成模型的方法已經(jīng)一定程度上優(yōu)化了對(duì)目標(biāo)域的分類模型的學(xué)習(xí)。但是,對(duì)于分類特征而言,它仍然包含了一些沒有得到有效解析的自然語言相關(guān)的信息,未來如何引入NLP(Natural Language Processing)相關(guān)的知識(shí)來對(duì)這些特征進(jìn)行遷移也是解決入侵檢測(cè)問題的新視角之一。
參考文獻(xiàn) (References)
[1]?AKHIL J, SULTANA A. Intelligent network intrusion detection system using data mining techniques[C]// Proceedings of the 2nd International Conference on Applied and Theoretical Computing and Communication Technology. Piscataway: IEEE, 2016:329-333.
[2]?AHMADI R, MACREDIE R D, TUCKER A. Intrusion detection using transfer learning in machine learning classifiers between noncloud and cloud datasets[C]// Proceedings of the 2018 International Conference on Intelligent Data Engineering and Automated Learning, LNCS 11314. Berlin: Springer, 2018: 556-566.
[3]?ALJAWARNEH S, ALDWAIRI M, YASSEIN M B. Anomalybased intrusion detection system through feature selection analysis and building hybrid efficient model[J]. Journal of Computational Science, 2018, 25: 152-160.
[4]?陳虹,萬廣雪,肖振久. 基于優(yōu)化數(shù)據(jù)處理的深度信念網(wǎng)絡(luò)模型的入侵檢測(cè)方法[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(6):1636-1643. (CHEN H, WAN G X, XIAO Z J. Intrusion detection method of deep belief network model based on optimization of data processing[J]. Journal of Computer Applications, 2017, 37(6): 1636-1643.)
[5]?LIU J, HE J, ZHANG W, et al. ANIDSEoKELM: adaptive network intrusion detection based on selective ensemble of kernel ELMs with random features[J]. KnowledgeBased Systems, 2019, 177: 104-116.
[6]?BENMESSAHEL I, XIE K, CHELLAL M, et al. A new evolutionary neural networks based on intrusion detection systems using locust swarm optimization[J]. Evolutionary Intelligence, 2019, 12(2): 131-146.
[7]?Canadian Institute for Cybersecurity, University of New Business. NSLKDD dataset[DB/OL]. [2018-07-20]. https://www.unb.ca/cic/datasets/nsl.html.
[8]?汪世義,陶亮,王華彬. 幾種機(jī)器學(xué)習(xí)方法在IDS中的性能比較[J]. 計(jì)算機(jī)仿真, 2010, 27(8):92-94. (WANG S Y, TAO L, WANG H B. Performance comparison of several machine learning methods for intrusion detection[J]. Computer Simulation, 2010, 27(8):92-94.)
[9]?劉冬蘭,馬雷,劉新,等. 基于深度學(xué)習(xí)的電力大數(shù)據(jù)融合與異常檢測(cè)方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2018, 35(4): 61-64. (LIU D L, MA L, LIU X, et al . Deep learning based anomaly detection approach for power big data[J]. Computer Applications and Software, 2018, 35(4): 61-64.)
[10]?PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge & Data Engineering, 2010, 22(10):1345-1359.
[11]?XIAO J, WANG R, TENG G, et al. A transfer learning based classifier ensemble model for customer credit scoring[C]// Proceedings of the 7th International Joint Conference on Computational Sciences and Optimization. Piscataway: IEEE, 2014:64-68.
[12]?SUN Q, AMIN M, YAN B, et al. Transfer learning for bilingual content classification[C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015:2147-2156.
[13]?SHAO L, ZHU F, LI X. Transfer learning for visual categorization: a survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(5):1019-1034.
[14]?TANG J, ZHAO Z, BEI J, et al. The application of transfer learning on ecommerce recommender systems[C]// Proceedings of the 10th Web Information System and Application Conference. Piscataway: IEEE, 2013: 479-482.
[15]?HUYNH B Q, LI H, GIGER M L. Digital mammographic tumor classification using transfer learning from deep convolutional neural networks[J]. Journal of Medical Imaging, 2016, 3(3): No.034501.
[16]?ZHAO H, LIU Q, YANG Y. Transfer learning with ensemble of multiple feature representations[C]// Proceedings of the IEEE 16th International Conference on Software Engineering Research, Management and Applications. Piscataway: IEEE, 2018: 54-61.
[17]?DAI W, YANG Q, XUE G, et al. Boosting for transfer learning[C]// Proceedings of the 2007 International Conference on Machine Learning. New York: ACM, 2007:193-200.
[18]?JAVAID A, NIYAZ Q, SUN W, et al. A deep learning approach for network intrusion detection system[C]// Proceedings of the 9th EAI International Conference on Bioinspired Information and Communications Technologies (formerly BIONETICS). Brussels, Belgium: ICST, 2016: 21-26.
[19]?AMBUSAIDI M A, HE X, NANDA P, et al. Building an intrusion detection system using a filterbased feature selection algorithm[J]. IEEE Transactions on Computers, 2016, 65(10): 2986-2998.
[20]?KABIR E, HU J, WANG H, et al. A novel statistical technique for intrusion detection systems[J]. Future Generation Computer Systems, 2018, 79: 303-318.
HU Jian, born in 1992, M. S., engineer. His research interests include information security, machine learning.
SU Yongdong, born in 1967, senior engineer. Her research interests include information security.
HUANG Wenzai, born in 1963, M. S., senior engineer. His research interests include automation of electric power system.
XIAO Peng, born in 1988, engineer. His research interests include cyberspace security.
LIU Yuting, born in 1987, M. S., engineer. Her research interests include information security.
YANG Benfu, born in 1982, engineer. His research interests include software engineering, information security.