彭寧 任薇 范會(huì)麗
摘要:互聯(lián)網(wǎng)環(huán)境的復(fù)雜性造成網(wǎng)絡(luò)連接數(shù)據(jù)的海量化和繁復(fù)性,使得入侵檢測(cè)時(shí)間長(zhǎng)效率低。因此,提出一種基于核主成分分析(KPcA)和孿生支持向量機(jī)(TSVM)的入侵檢測(cè)方法(KPCA-TSVM)研究。KPCA可以將原始高維數(shù)據(jù)映射成低維數(shù)據(jù),TSVM比支持向量機(jī)具有更高效的檢測(cè)精度和分類效果。使用Python語言對(duì)KPCA-TSVM模型在經(jīng)過字符映射和歸一處理后的KDDCUP99數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)?zāi)M,結(jié)果表明該模型是一種有效的檢測(cè)方式。
關(guān)鍵詞:機(jī)器學(xué)習(xí);核主成分分析;孿生支持向量機(jī);入侵識(shí)別;數(shù)據(jù)特征提取
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)32-0198-02
1概述
入侵檢測(cè)(Intrusion Detection)是指通過對(duì)網(wǎng)絡(luò)連接數(shù)據(jù)和計(jì)算機(jī)中關(guān)鍵點(diǎn)信息的監(jiān)測(cè),檢測(cè)出是否有威脅計(jì)算機(jī)安全的行為發(fā)生,并在此基礎(chǔ)上發(fā)出警報(bào)和進(jìn)行預(yù)警處理。人們的日常生活也因?yàn)榫W(wǎng)絡(luò)的普及而簡(jiǎn)化了許多煩瑣的方式,它在帶來巨大便利的同時(shí)也使得網(wǎng)絡(luò)安全問題日趨嚴(yán)峻,例如各大運(yùn)營商用戶信息的泄露,震驚全球的勒索病毒等等。面對(duì)日新月異、種類多變的網(wǎng)絡(luò)攻擊手段,基于傳統(tǒng)異常檢測(cè)和誤用檢測(cè)方法在入侵檢測(cè)系統(tǒng)研究(Intrusion Detection Systems,IDS)上進(jìn)入了瓶頸期。為解決這一難題,研究學(xué)者將當(dāng)下熱點(diǎn)研究機(jī)器學(xué)習(xí)應(yīng)用于入侵檢測(cè)領(lǐng)域中,如支持向量機(jī)(Support Vector Ma-chine,SVM)t21、樸素貝葉斯網(wǎng)絡(luò)、粒子群算法、決策樹等,經(jīng)實(shí)驗(yàn)證明這些方法在IDS中皆取得了令人滿意的效果。然而,由于網(wǎng)絡(luò)入侵原始數(shù)據(jù)特征維度多,數(shù)據(jù)量大的特點(diǎn),會(huì)導(dǎo)致準(zhǔn)確率低,耗費(fèi)時(shí)間長(zhǎng),影響檢測(cè)的整體效果,因此提出一種基于KPCA和TSVM的入侵檢測(cè)模型。
KPCA將大量高維非線性數(shù)據(jù)在保持原有數(shù)據(jù)特征信息的基礎(chǔ)上使原始數(shù)據(jù)映射到低維空間,大幅度減少數(shù)據(jù)的維數(shù),去除冗余,獲得更具有代表性特征的數(shù)據(jù),從而更有利于分類和識(shí)別。TSVM是比SVM具有更高的分類精度,而且時(shí)間只是SVM的四分之一。以KDDCUP99為實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證KPCA-TSVM方法提高入侵檢測(cè)準(zhǔn)確率的同時(shí)并降低誤報(bào)率,為IDS研究開拓了新的研究思路。
2相關(guān)知識(shí)
2.1KPCA
主成分分析(PCA)只能提取數(shù)據(jù)中的線性特征或篩選方差最大的特征數(shù)據(jù),以致用PCA降維的數(shù)據(jù)用于分類獲得的結(jié)果并不理想。KPCA利用核函數(shù)將原始數(shù)據(jù)映射到高維度空間,再利用PCA算法進(jìn)行降維,這樣不僅減小了計(jì)算量,同時(shí)又可以進(jìn)行非線性映射KPCA有效地提取原始輸入數(shù)據(jù)集的非線性信息,從而使映射出的低維數(shù)據(jù)更利于分類和入侵識(shí)別檢測(cè)。
2.2TSVM
TSVM于2007年提出,它是對(duì)正負(fù)兩類樣本點(diǎn)分別構(gòu)造一個(gè)分類超平面,同時(shí)遠(yuǎn)離另一類樣本點(diǎn)。TSVM的兩個(gè)超平面是將SVM中的一個(gè)二次規(guī)劃問題(QPP)分成兩個(gè)規(guī)模較小的QPP得到嘲,這樣既簡(jiǎn)化了計(jì)算復(fù)雜度,又使樣本訓(xùn)練時(shí)間縮減為傳統(tǒng)SVM的1/4,還具有較高的分類精度。
其中A和B分別代表正和負(fù)兩類樣本,e1和e2分別為對(duì)應(yīng)的單位變量,c,和c:是A和B的懲罰因子,ζ1ζ2是松弛變量。公式(2)表示求得的超平面使其盡量擬合正類樣本A的同時(shí)遠(yuǎn)離負(fù)樣本B。同理公式(3)代表的超平面盡可能擬合負(fù)類樣本B而同時(shí)遠(yuǎn)離樣本A。
3 KPCA-TSVM方法
本文提出的KPCA-TSVM方法總體架如圖1所示,包含三個(gè)步驟:
1)數(shù)據(jù)預(yù)處理
KDDCU99中的數(shù)據(jù)既有數(shù)值型又有字符型,然而字符型的數(shù)據(jù)不能直接用于模型的入侵識(shí)別,需要先把字符屬性的數(shù)據(jù)通過字符映射的方法全部轉(zhuǎn)換成數(shù)值類型的數(shù)據(jù);再將所有數(shù)據(jù)歸一到0-1之間,去除屬性量綱影響。
2)KPCA降維
將歸一化后標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行特征提取,降低原始數(shù)據(jù)的屬性特征,獲得非線性、最優(yōu)的低維數(shù)據(jù)表示。
3)TSVM識(shí)別
對(duì)入侵?jǐn)?shù)據(jù)進(jìn)行識(shí)別,檢測(cè)數(shù)據(jù)的異常情況。
4實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)采用Windows 7系統(tǒng),運(yùn)行內(nèi)存8GB,處理器是i5,使用Anaconda和Pycharm的python語言環(huán)境。利用python第三方庫sklearn里自帶的函數(shù)將KDDCUP99數(shù)據(jù)集分割成訓(xùn)練集和測(cè)試集。本文通過SVM、KPCA-SVM、TSVM、KPCA-TSVM四個(gè)方法對(duì)比入侵檢測(cè)準(zhǔn)確率。由于RBF核函數(shù)參數(shù)設(shè)置少,且非線性分類性能好,所以采用RBF核函數(shù)。
表1是四種方法在數(shù)據(jù)集上進(jìn)行多次實(shí)驗(yàn)得到的平均檢測(cè)精度結(jié)果。
從實(shí)驗(yàn)結(jié)果看,TSVM比SVM具有較高的分類作用,而經(jīng)過KPCA降維后的數(shù)據(jù)再用分類器識(shí)別,具有更精準(zhǔn)的檢測(cè)效果。
5結(jié)論
對(duì)于入侵檢測(cè)數(shù)據(jù)量大并具有高維特征的問題,需要把降維的必要性考慮到研究中去。本文提出的KPCA-TSVM方法,利用KPCA進(jìn)行特征提取,然后用TSVM分類器進(jìn)行入侵識(shí)別。實(shí)驗(yàn)表明,此方法具有很好的檢測(cè)效果,是一種行之有效的入侵檢測(cè)手段。