羅成懷
摘 要:隨著計算機技術(shù)的發(fā)展,各行各業(yè)都開始采用計算機及相應(yīng)的信息技術(shù)進行管理和運營,這使得企業(yè)生成、收集、存貯和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增。本文試對數(shù)據(jù)挖掘技術(shù)的應(yīng)用進行分析介紹。
關(guān)鍵詞:數(shù)據(jù)挖掘 分類規(guī)則 算法
中圖分類號:TP393 文獻標識碼:A
一、數(shù)據(jù)挖掘在市場營銷的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在企業(yè)市場營銷中得到了比較普遍的應(yīng)用,它是以市場營銷學(xué)的市場細分原理為基礎(chǔ),其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。
通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習(xí)慣、消費傾向和消費需求,進而推斷出相應(yīng)消費群體或個體下一步的消費行為,然后以此為基礎(chǔ),對所識別出來的消費群體進行特定內(nèi)容的定向營銷,這與傳統(tǒng)的不區(qū)分消費者對象特征的大規(guī)模營銷手段相比,大大節(jié)省了營銷成本,提高了營銷效果,從而為企業(yè)帶來更多的利潤。
就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測銀行客戶需求。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什么產(chǎn)品感興趣。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。
二、入侵檢測中數(shù)據(jù)挖掘技術(shù)的引入
入侵檢測技術(shù)是對(網(wǎng)絡(luò))系統(tǒng)的運行狀態(tài)進行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證系統(tǒng)資源的機密性、完整性與可用性。
根據(jù)數(shù)據(jù)分析方法(也就是檢測方法)的不同,我們可以將入侵檢測系統(tǒng)分為兩類:(1)誤用檢測(Misuse? Detection)。又稱為基于特征的檢測,它是根據(jù)已知的攻擊行為建立一個特征庫,然后去匹配已發(fā)生的動作,如果一致則表明它是一個入侵行為。(2)異常檢測(Anomaly Detection)。又稱為基于行為的檢測,它是建立一個正常的特征庫,根據(jù)使用者的行為或資源使用狀況來判斷是否入侵。
將這兩種分析方法結(jié)合起來,可以獲得更好的性能。異常檢測可以使系統(tǒng)檢測新的、未知的攻擊或其他情況;誤用檢測通過防止耐心的攻擊者逐步改變行為模式使得異常檢測器將攻擊行為認為是合法的,從而保護異常檢測的完整性。
三、算法在入侵檢測中的具體使用
(一)基于誤用的檢測型。
首先從網(wǎng)絡(luò)或是主機上獲取原始二進制的數(shù)據(jù)文件,再把這些數(shù)據(jù)進行處理,轉(zhuǎn)換成ASCII碼表示的數(shù)據(jù)分組形式。再經(jīng)過預(yù)處理模塊將這些網(wǎng)絡(luò)數(shù)據(jù)表示成連接記錄的形式,每個連接記錄都是由選定的特征屬性表示的。再進行完上面的工作后,對上述的由特征屬性組成的模式記錄進行處理,總結(jié)出其中的統(tǒng)計特征,包括在一時間段內(nèi)與目標主機相同的連接記錄的次數(shù)、發(fā)生SYN錯誤的連接百分比、目標端口相同的連接所占的百分比等等一系列的統(tǒng)計特征。最后,就可以進行下面的檢測分析工作,利用分類算法,比如RIPPER 、C4.5等建立分類模型。只有這樣才能建立一個實用性較強、效果更好的分類模型。
(二)基于異常的入侵模型。
異常檢測的主要工作就是通過構(gòu)造正常活動集合,然后利用得到的一組觀察數(shù)值的偏離程度來判斷用戶行為的變化,以此來覺得是否屬于入侵的一種檢測技術(shù)。異常檢測的優(yōu)點在于它具有檢測未知攻擊模式的能力,不論攻擊者采用什么樣的攻擊策略,異常檢測模型依然可以通過檢測它與已知模式集合之間的差異來判斷用戶的行為是否異常。
在異常檢測中主要用到的兩個算法就是模式比較和聚類算法:(1)模式比較。在模式比較算法中首先通過關(guān)聯(lián)規(guī)則和序列規(guī)則建立正常的行為模式,然后通過模式比較算法來區(qū)別正常行為和入侵行為。(2)聚類算法。聚類分析的基本思想主要源于入侵與正常模式上的不同及正常行為數(shù)目應(yīng)遠大于入侵行為數(shù)目的條件,因此能夠?qū)?shù)據(jù)集劃分為不同的類別,由此分辨出正常和異常行為來檢測入侵。數(shù)據(jù)挖掘中常用的聚類算法有K-means、模糊聚類、遺傳聚類等?;诰垲惖娜肭謾z測是一種無監(jiān)督的異常檢測算法,通過對未標識數(shù)據(jù)進行訓(xùn)練來檢測入侵。該方法不需要手工或其他的分類,也不需要進行訓(xùn)練。因此呢功能發(fā)現(xiàn)新型的和未知的入侵類型。
四、結(jié)論
入侵檢測中數(shù)據(jù)挖掘技術(shù)方面的研究已經(jīng)有很多,發(fā)表的論文也已經(jīng)有好多,但是應(yīng)用難點在于如何根據(jù)具體應(yīng)用的要求,從用于安全的先驗知識出發(fā),提取出可以有效反映系統(tǒng)特性的屬性,并應(yīng)用合適的算法進行數(shù)據(jù)挖掘。另一技術(shù)難點在于如何將數(shù)據(jù)挖掘結(jié)果自動應(yīng)用到實際IDS中。
入侵檢測采用的技術(shù)有多種類型,其中基于數(shù)據(jù)挖掘技術(shù)的入侵檢測技術(shù)成為當(dāng)前入侵檢測技術(shù)發(fā)展的一個熱點,但數(shù)據(jù)挖掘還處于發(fā)展時期,因此有必要對它進行更深入的研究?!?/p>
(作者單位:湖北工業(yè)大學(xué) 計算機學(xué)院)
參考文獻:
[1]. 范明,孟小峰.?dāng)?shù)據(jù)挖掘——概念與技術(shù).機械工業(yè)出版社,2001。
[2].Mehta M,Agrawal R,Rissanen J,SLIQ:A Fast Scalable Classifier for Data Mining.Lecture Notes in Computer Sci.Proc.of the 5th Int.Cord.on Extending Database Tech. 1996:18-33.
[3].方金城.分類挖掘算法綜述.沈陽工程學(xué)院學(xué)報(自然科學(xué)版),2006,(1):75~76.