鄭繼剛 張靜梅
摘 要:遠程主機的用戶未授權(quán)訪問攻擊是網(wǎng)絡(luò)攻擊類型之一,該攻擊類型出現(xiàn)在KDDCup數(shù)據(jù)集中,運用Weka對特征屬性進行分析,挖掘結(jié)果顯示不同屬性特征間的聯(lián)系。
關(guān)鍵詞:Weka; 數(shù)據(jù)挖掘; 特征屬性; 關(guān)聯(lián)分析
文章編號:2095-2163(2019)04-0290-03 中圖分類號:TP311 文獻標志碼:A
0 引 言
數(shù)據(jù)挖掘也稱數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowledge discovery in database,KDD)[1],從提出到現(xiàn)在一直得到了研究和應(yīng)用領(lǐng)域的廣泛關(guān)注。是目前重要研究課題之一。其從大量原始數(shù)據(jù)中挖掘出隱含的、有用的、尚未發(fā)現(xiàn)的信息和知識,幫助決策者尋找數(shù)據(jù)間潛在的有用知識。
遠程主機用戶未授權(quán)訪問攻擊(Remote to Local,R2L),攻擊是基于數(shù)據(jù)包負載的,數(shù)據(jù)包頭部沒有明顯的頻繁模式,單個數(shù)據(jù)包和正常連接區(qū)別不大,若采用傳統(tǒng)檢測方法很難提高檢測率[2]。
本文采用數(shù)據(jù)挖掘Weka平臺的關(guān)聯(lián)規(guī)則算法[3],依據(jù)KDDCUP99數(shù)據(jù)集的“KDDCUP.data_10_percent”子集[4],挖掘出數(shù)據(jù)集中R2L攻擊隱含的用戶行為特征或規(guī)律,以指導(dǎo)入侵檢測系統(tǒng)依據(jù)規(guī)則庫對用戶行為進行檢測,根據(jù)檢測結(jié)果采取不同的應(yīng)對措施。
1 R2L數(shù)據(jù)預(yù)處理
“KDDCUP.data_10_percent”子集中共有1 126條R2L攻擊類型記錄,每條記錄有41個固定的特征屬性和最后一個攻擊類型標識。下載的數(shù)據(jù)集是xls格式的excel工作表,另存為CSV文件類型,在Weka“Exploer”模塊中,打開該CSV文件另存為ARFF文件類型,可視化結(jié)果如圖1所示。
2 關(guān)聯(lián)分析
在Explorer 模塊的關(guān)聯(lián)規(guī)則(Associate)標簽下,可以實現(xiàn)對數(shù)據(jù)集的關(guān)聯(lián)分析操作,這里提供了Apriori、FilteredAssociator、GeneralizedSequentialPatterns、HotSpot、PredictiveApriori、Tertius等多種關(guān)聯(lián)分析算法,本文選擇Apriori算法對實驗數(shù)據(jù)集進行了關(guān)聯(lián)分析[5]。
每條攻擊記錄共有42個特征屬性。除第2、3、4、42個屬性是離散型外,其余38個屬性均為數(shù)值型,如圖2所示。
借助Weka的“Filter樹”,在“weka.filters.unsupervised.attribute.Discretize”中,設(shè)置attributeIndices屬性為“1,5-41”,“bins”改成“3”,即設(shè)置為3段離散化值。勾選記錄值完全相同的protocol_type、land、wrong_fragment、num_outbound_cmds、is_host_login等5個屬性,2 s時間內(nèi)與當前連接的流量特征、具有相同目標主機前100個連接。即第23~41個屬性,并“Remove”以刪除剩余18個屬性。設(shè)置參數(shù)為“Apriori–N 20–T 0 –C 0.9–D 0.1 –U 1.0 –M 0.5 –S -1.0 –C -1”,前20條挖掘結(jié)果見表1。
根據(jù)挖掘結(jié)果,從中可以獲取隱含在R2L攻擊類型中不同屬性特征間的聯(lián)系:被迫妥協(xié)出現(xiàn)的次數(shù)num_compromised<13,超級用戶root訪問的數(shù)量num_root<18,shell提示符的數(shù)量num_shells<1,不執(zhí)行“su”命令su_attempted,登錄失敗的次數(shù),num_failed_logins<2,執(zhí)行文件創(chuàng)建的數(shù)量num_file_creations<7。這些挖掘規(guī)則的置信度均為100%,如果降低置信度進行挖掘,會有更多的聯(lián)系出現(xiàn)。
3 結(jié)束語
Weka是一個開源的數(shù)據(jù)挖掘軟件,使用戶能夠很容易地將其應(yīng)用于所要挖掘的數(shù)據(jù)集,挖掘出知識點。本文借助著名的開源數(shù)據(jù)挖掘軟件Weka3.6.2版本,對KDDCUP99數(shù)據(jù)集的“KDDCUP.data_10_percent”子集中R2L攻擊類型進行了關(guān)聯(lián)分析,實現(xiàn)了Weka在網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集中的應(yīng)用。對數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)類型的轉(zhuǎn)換有了完整的認識,挖掘出特征屬性及行為之間的關(guān)聯(lián)關(guān)系,提高了檢測的效率和準確率。
參考文獻
[1]HAN Jiawei, KAMBER M. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 2版. 范明, 孟小峰,譯. 北京:機械工業(yè)出版社,2007.
[2] 全亮亮. 基于數(shù)據(jù)挖掘算法的入侵檢測研究[D]. 武漢:武漢科技大學(xué),2013.
[3] WITTEN I H, FRANK E. 數(shù)據(jù)挖掘?qū)嵱脵C器學(xué)習(xí)技術(shù)[M]. 董 琳,譯. 北京:機械工業(yè)出版社,2006.
[4] NEWMAN D. Welcome to the UCI knowledge discovery in databases archive[EB/OL]. [2005-09-09].
[5] 孫元軍,鄭新奇,常偉倩. 基于Weka的城市建設(shè)用地結(jié)構(gòu)特征挖掘研究[J]. 計算機工程與應(yīng)用,2008,44(27):231-235.