康彩麗
[摘? ? ? ? ? ?要]? 將數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)中,一些網(wǎng)絡(luò)意外情況就能提前進(jìn)行預(yù)防并處理,使用戶的網(wǎng)絡(luò)更加安全。對(duì)數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)系統(tǒng)中的誤用檢測(cè)和異常檢測(cè)進(jìn)行研究。
[關(guān)? ? 鍵? ?詞]? 數(shù)據(jù)挖掘技術(shù);誤用入侵檢測(cè);異常入侵檢測(cè)
[中圖分類(lèi)號(hào)]? TN915.08? ? ? ? ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼]? A? ? ? ? ? ? ? ? ? ? ? [文章編號(hào)]? 2096-0603(2019)05-0206-02
近年來(lái),隨著惡意網(wǎng)絡(luò)入侵愈加嚴(yán)重,非法盜取網(wǎng)絡(luò)用戶的隱私信息、篡改網(wǎng)絡(luò)數(shù)據(jù)情況時(shí)有發(fā)生,入侵檢測(cè)技術(shù)受到了人們的關(guān)注和應(yīng)用。入侵檢測(cè)技術(shù)是一種動(dòng)態(tài)的安全防護(hù)技術(shù),它能夠主動(dòng)檢測(cè)網(wǎng)絡(luò)系統(tǒng)狀態(tài),收集用戶活動(dòng)的數(shù)據(jù)信息并分析研究,從而發(fā)現(xiàn)自系統(tǒng)外部的非法用戶的攻擊行為和違規(guī)操作。將數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘、序列模式和分類(lèi)算法應(yīng)用到網(wǎng)絡(luò)安全檢測(cè)系統(tǒng)中,是數(shù)據(jù)挖掘技術(shù)應(yīng)用的一個(gè)新增領(lǐng)域,可以有效快速地檢測(cè)用戶網(wǎng)絡(luò)狀態(tài),保護(hù)用戶的信息安全。
一、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘是一種知識(shí)發(fā)現(xiàn)技術(shù),人們感興趣的數(shù)據(jù)信息都能夠利用數(shù)據(jù)挖掘在入侵檢測(cè)中找到,并發(fā)現(xiàn)一些攻擊。數(shù)據(jù)挖掘技術(shù)應(yīng)用到入侵監(jiān)測(cè)系統(tǒng)主要集中在關(guān)聯(lián)規(guī)則、分類(lèi)和序列這三種。
關(guān)聯(lián)分析的目的是希望找到一條審計(jì)記錄中不同字段之間的聯(lián)系,通過(guò)挖掘數(shù)據(jù)記錄中不同數(shù)據(jù)項(xiàng)之間的關(guān)系,探究?jī)烧咧g的關(guān)聯(lián)性。
分類(lèi)算法是通過(guò)收集足夠的審計(jì)數(shù)據(jù)辨別一個(gè)用戶或者程序是否合法,然后將這些數(shù)據(jù)指導(dǎo)一個(gè)分類(lèi)器學(xué)習(xí),未知的網(wǎng)絡(luò)數(shù)據(jù)是否合法就是通過(guò)學(xué)習(xí)后的分類(lèi)器預(yù)測(cè)的。例如,常用的分類(lèi)算法Ripper是一種通用的規(guī)則優(yōu)化分類(lèi)算法,對(duì)包含大量噪聲數(shù)據(jù)的數(shù)據(jù)集,它能很好地對(duì)其進(jìn)行分類(lèi),從而提高計(jì)算的準(zhǔn)確性。
序列分析算法序可以發(fā)現(xiàn)各種事件在時(shí)間上的先后聯(lián)系,在事務(wù)中形成時(shí)間序列模式,利用事務(wù)之間的相關(guān)對(duì)侵入的行為進(jìn)行研究。序列分析和關(guān)聯(lián)分析方法比較相似,但是序列分析更注重?cái)?shù)據(jù)之間關(guān)系的前后分析,這種方法對(duì)檢監(jiān)測(cè)網(wǎng)絡(luò)黑客十分有效。
二、網(wǎng)絡(luò)級(jí)連接記錄的誤用檢測(cè)
對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理是實(shí)現(xiàn)網(wǎng)絡(luò)級(jí)連接記錄誤用檢測(cè)的第一步,然后分別對(duì)正常數(shù)據(jù)和入侵模式數(shù)據(jù)使用數(shù)據(jù)挖掘技術(shù)找出相應(yīng)模式并進(jìn)行比較,從入侵?jǐn)?shù)據(jù)中找到正常數(shù)據(jù)中沒(méi)有出現(xiàn)的模式,臨時(shí)的統(tǒng)計(jì)特征就能通過(guò)這些沒(méi)有出現(xiàn)的入侵模式建立,然后利用分類(lèi)器建立誤用入侵檢測(cè)模型。
(一)原始數(shù)據(jù)預(yù)處理
網(wǎng)絡(luò)原始審計(jì)數(shù)據(jù)或者應(yīng)用程序數(shù)據(jù)是抓取得到的二進(jìn)制文本數(shù)據(jù),先將這些數(shù)據(jù)轉(zhuǎn)換成可視化的主機(jī)型數(shù)據(jù),再將網(wǎng)絡(luò)連接的信息轉(zhuǎn)變成主機(jī)會(huì)話記錄,之后再加進(jìn)數(shù)據(jù)庫(kù)中。每條記錄在數(shù)據(jù)預(yù)處理輸出后都有固定的基本特征,對(duì)構(gòu)建網(wǎng)絡(luò)模型很重要,往往能夠決定訓(xùn)練結(jié)果,能夠給一般的網(wǎng)絡(luò)分析提供幫助。
(二)關(guān)聯(lián)規(guī)則和序列模式
對(duì)原始數(shù)據(jù)預(yù)處理后得到大量的網(wǎng)絡(luò)連接主機(jī)會(huì)話記錄,按照預(yù)先設(shè)定的支持度和可信度使用關(guān)聯(lián)規(guī)則和序列模式進(jìn)行挖掘,抽取特征頻繁模式。關(guān)聯(lián)規(guī)則挖掘一般采用Aprior算法,序列模式挖掘采用GSP算法。但是這兩種算法在部分優(yōu)先屬性處理上規(guī)則不合理,對(duì)檢測(cè)入侵行為沒(méi)有較大意義,所以要使用拓展的關(guān)聯(lián)規(guī)則進(jìn)行挖掘,即在候選項(xiàng)集生成中增加主屬性的測(cè)量,如擴(kuò)展的關(guān)聯(lián)規(guī)則包括屬性axis和reference,可以滿足用戶興趣度的要求。
(三)挖掘純?nèi)肭帜J?/p>
利用數(shù)據(jù)挖掘技術(shù)獲得頻繁模式后,通過(guò)合并、編碼和比較等方法獲取的入侵模式就是純的。頻繁模式合并是指在相同數(shù)量的項(xiàng)集的前提下將同種類(lèi)型的模式并為一起,使每一對(duì)的項(xiàng)集都有同樣的axis屬性和相鄰非axis屬性,并且支持度和可信度的數(shù)值大小是接近的。頻繁模式編碼是準(zhǔn)確完整地建造出關(guān)聯(lián)規(guī)則和序列模型,然后計(jì)算和操作這些規(guī)則模型,并對(duì)其進(jìn)行分析和比較。在使用編碼方法時(shí)需注意模式結(jié)構(gòu)的要求和屬性重要級(jí)別的順序。模式比較是要判斷模式是否為“純?nèi)肭帜J健?,在入侵系統(tǒng)進(jìn)行檢測(cè)過(guò)程中,正常模式有可能也會(huì)出現(xiàn)在攻擊模式中,假如我們采取已編碼的攻擊模式和正常模式相互對(duì)比,若獲得的絕對(duì)值比較值很大的話,就能證明此時(shí)的攻擊模式是“純?nèi)肭帜J健薄?/p>
(四)構(gòu)建統(tǒng)計(jì)特征
在確定模式為純?nèi)肭诸l繁模式后就能建構(gòu)數(shù)據(jù)的統(tǒng)計(jì)特征。每一個(gè)記錄在網(wǎng)絡(luò)連接的過(guò)程中都會(huì)存在一些本質(zhì)的特征,這些特征稱(chēng)為本質(zhì)特征(如F0),相同屬性值個(gè)數(shù)等和所占的百分比等這些特征是通過(guò)計(jì)算可以獲得的,計(jì)算后就可以構(gòu)建附加特征,使構(gòu)建的入侵檢測(cè)模型更加有效。
(五)建立分類(lèi)模型
分類(lèi)檢測(cè)模型就是利用分類(lèi)器在統(tǒng)計(jì)特征構(gòu)建之后建立的,分類(lèi)器的本質(zhì)就是一個(gè)函數(shù),每一個(gè)或者多個(gè)特征的檢測(cè)都是由一個(gè)分類(lèi)器的條件函數(shù)對(duì)應(yīng)的。建立分類(lèi)器有幾種機(jī)器學(xué)習(xí)方法,如決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。例如,RIPPER分類(lèi)器可以利用分類(lèi)算法生成的規(guī)則,很好地處理大量噪聲數(shù)據(jù),而且還能夠?qū)σ阎舻奈⑿∽兓M(jìn)行分類(lèi),并根據(jù)分類(lèi)規(guī)則形式快速建立誤用入侵檢測(cè)模型,以便能夠及時(shí)地處理要求。
三、網(wǎng)絡(luò)用戶行為的異常入侵檢測(cè)
在網(wǎng)絡(luò)對(duì)檢測(cè)系統(tǒng)進(jìn)行入侵時(shí),數(shù)據(jù)挖掘技術(shù)可以搜集數(shù)據(jù),并從中找到有用的數(shù)據(jù)呈獻(xiàn)給用戶。當(dāng)一個(gè)用戶冒充另外一個(gè)用戶時(shí),他的一些命令、數(shù)據(jù)包和連接都很正常,所以區(qū)分用戶的單擊事件是正常還是異常十分困難,使用數(shù)據(jù)挖掘技術(shù)可以檢測(cè)到用戶的行為模式。檢測(cè)用戶的行為模式的第一步要修改數(shù)據(jù)庫(kù)中telnet會(huì)話事件的處理器,獲得一條命令后再使用關(guān)聯(lián)規(guī)則和序列模式構(gòu)建用戶模型,將構(gòu)建的模型與當(dāng)前用戶模式進(jìn)行比較,判斷是否異常。
(一)用戶會(huì)話命令的審計(jì)記錄
為了檢測(cè)用戶行為模式我們可以將主機(jī)接受的用戶呈遞的所有命令進(jìn)行提前處理。命令參數(shù)刪除用戶編輯狀態(tài)下輸入的內(nèi)容,只保留一些文件的后綴名或者異常的文件名。經(jīng)過(guò)處理之后會(huì)得到的用戶會(huì)話審計(jì)記錄。
(二)挖掘關(guān)聯(lián)規(guī)則和序列模式
關(guān)聯(lián)規(guī)則是觀察用戶會(huì)話審計(jì)記錄中的數(shù)據(jù)特征,在設(shè)定的最小支持度滿足的情況下,挖掘出不同項(xiàng)間的相關(guān)屬性,找出數(shù)據(jù)噪聲多次發(fā)生的記錄。根據(jù)用戶呈遞命令的審計(jì)記錄,在支持度不同的情況下得到關(guān)聯(lián)規(guī)則。
序列模式就是通過(guò)序列分析查找不同數(shù)據(jù)之間的關(guān)系模式,方法是通常使用AprioriAll、AprioriSome等算法在最小支持度滿足情況下,找到頻繁的用戶會(huì)話審計(jì)記錄序列。這些算法能夠觀察用戶會(huì)話的審計(jì)命令序列進(jìn)而計(jì)算出序列的支持度,找出能夠滿足最小支持度的最大頻繁序列,本文利用滑動(dòng)窗口算法尋找最大頻繁模式序列。
假設(shè)S={s1,s2,s3......},S是用戶會(huì)話命令集合,其中s1,s2,s3代表一個(gè)用戶會(huì)話命令,設(shè)定滑動(dòng)窗口在長(zhǎng)度為MAXL的情況下最小支持度為MINSUBP。首先設(shè)置窗口的初始寬度值為1,在用戶會(huì)話命令集合中找到支持度大于MINSUBP長(zhǎng)度為1的序列,這就相當(dāng)于找到候選頻率大于MINSUBP的一項(xiàng)集用戶會(huì)話命令。然后對(duì)滑動(dòng)窗口的寬度不斷進(jìn)行遞增(L=L+1),將窗口左邊設(shè)置在用戶第一個(gè)會(huì)話命令的位置處,再將窗口進(jìn)行滑動(dòng)與窗口右邊界的最后一條會(huì)話命令重合,當(dāng)窗口滑動(dòng)一次就會(huì)得出一個(gè)長(zhǎng)度為L(zhǎng)的子序列?;瑒?dòng)結(jié)束后可以得到n-L+1個(gè)大小長(zhǎng)度為L(zhǎng)的子序列sub集合,然后分別計(jì)算這些子序列的支持度,獲得滿足支持度要求的最大模式序列。使用歷史行為模式也可以檢測(cè)到用戶異常行為。如模擬一些異常會(huì)話。
(三)模式比較
用戶當(dāng)前行為模式和歷史行為模式被查找出之后,需要把這兩種拿來(lái)進(jìn)行比較,查看用戶行為模式是不是正常的。序列方法是模式比較常利用的方法,再加上相似度的概念對(duì)不同行為之間的相似程度進(jìn)行描述,如果發(fā)現(xiàn)偏離設(shè)定的可信基準(zhǔn)值的操作模式,說(shuō)明發(fā)生了非法攻擊行為。利用數(shù)據(jù)挖掘技術(shù)建立用戶正常行為模式能夠讓檢測(cè)過(guò)程簡(jiǎn)單化,降低數(shù)據(jù)匹配的難度,使檢測(cè)入侵的行為不再處于被動(dòng)狀態(tài),為網(wǎng)絡(luò)的安全提供了很大保障。
四、結(jié)語(yǔ)
網(wǎng)絡(luò)系統(tǒng)中數(shù)據(jù)流量是海量的,將數(shù)據(jù)挖掘技術(shù)引用入侵檢測(cè)系統(tǒng)中,可以挖掘和獲取用戶活動(dòng)隱含且有用的模式,或者異常的模式,從而判斷網(wǎng)絡(luò)系統(tǒng)是否受到了入侵,可大大降低入侵檢測(cè)系統(tǒng)誤報(bào)和漏報(bào)的行為,全面提高用戶的網(wǎng)絡(luò)環(huán)境安全。
參考文獻(xiàn):
[1]蔡艷.探討數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息安全管理中的應(yīng)用[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2013(10).
[2]楊鋒.基于數(shù)據(jù)挖掘的入侵檢測(cè)技術(shù)研究[D].哈爾濱工程大學(xué),2006.
[3]王文娟.數(shù)據(jù)挖掘算法及其在入侵檢系統(tǒng)中的應(yīng)用[D].鄭州大學(xué),2007.
[4]宋世杰.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)型誤用入侵檢測(cè)系統(tǒng)研究[J].重慶郵電學(xué)院學(xué)報(bào),2004(1).
編輯 馮永霞
現(xiàn)代職業(yè)教育·中職中專(zhuān)2019年2期