張如云(徐州機電工程高等職業(yè)學(xué)校,江蘇 徐州 221011)
基于日志文件的數(shù)據(jù)挖掘機理分析與研究
張如云
(徐州機電工程高等職業(yè)學(xué)校,江蘇 徐州 221011)
介紹了數(shù)據(jù)挖掘的定義,分析了日志數(shù)據(jù)面臨的挑戰(zhàn)及對其進行挖掘的原因。討論了日志數(shù)據(jù)挖掘的需求,歸納了對日志數(shù)據(jù)挖掘的具體內(nèi)容,總結(jié)了日志數(shù)據(jù)挖掘的具體應(yīng)用。該研究對加強企事業(yè)單位計算機信息系統(tǒng)安全具有較強的指導(dǎo)意義。
日志;數(shù)據(jù)挖掘;機理;分析;研究
所謂數(shù)據(jù)挖掘(也叫知識發(fā)現(xiàn)[1]),是指發(fā)現(xiàn)大量數(shù)據(jù)中有趣及有用模式和關(guān)系的過程,該領(lǐng)域結(jié)合了統(tǒng)計、人工智能和數(shù)據(jù)庫管理等知識,以方便對大數(shù)據(jù)進行分析。該定義可從如下4個方面進行理解:(1)數(shù)據(jù)挖掘處理的數(shù)據(jù)量非常大;(2)這些數(shù)據(jù)在計算機系統(tǒng)上以機器可讀的格式存在,是結(jié)構(gòu)化的數(shù)據(jù);(3)利用數(shù)據(jù)可能會得出一些有用的結(jié)論,也可能無法得出結(jié)論;(4)要想獲得一些有用的結(jié)論,需對數(shù)據(jù)進行搜索或者分析。
對日志數(shù)據(jù)進行數(shù)據(jù)挖掘的目的[2]有兩個:(1)改進日志分析的質(zhì)量,提供更好的結(jié)論和預(yù)測能力;(2)提出不需要少有且昂貴的專業(yè)知識的高級和有效方法。通過對日志數(shù)據(jù)進行數(shù)據(jù)挖掘和其他高級自動化分析方法,可將大部分分析的負擔(dān)轉(zhuǎn)移到軟件和自動化系統(tǒng)上,遠離具備超常技能的分析人員。這樣的分析在過程的早期階段是重要的。在這種情況下,可定義數(shù)據(jù)挖掘過程的細節(jié),然后讓技能水平較低的操作人員運行算法,并對結(jié)果采取行動,而不會降低效率。
在理想的狀況下,大都希望減少人為工作量,提升自動化系統(tǒng)在日志分析中的重要性。而對日志進行數(shù)據(jù)挖掘[3]就是一種有效的方法,但日志分析會面臨如下挑戰(zhàn)。(1)數(shù)據(jù)過多:日志數(shù)據(jù)的體積很大,超出了分析系統(tǒng)和分析人員的能力,從而摧毀了獲得結(jié)論的可能性。確實,日志可能達到數(shù)GB,并擴大到數(shù)TB,因而就需要選擇專門工具來應(yīng)對這種“洪泛”。(2)數(shù)據(jù)不足:因為各種不同的原因,數(shù)據(jù)的關(guān)鍵部分易缺失,從而使日志分析超出了應(yīng)有的難度。(3)記錄各種各樣:需要分析太多不同和不相似的日志來源,才能得出真相。這個問題是因為缺乏統(tǒng)一的審計標(biāo)準(zhǔn),大部分應(yīng)用程序的日志都采用創(chuàng)建者開發(fā)的格式,從而導(dǎo)致大量分析上的挑戰(zhàn)。(4)數(shù)據(jù)重復(fù):不同的日志引用相同事件,沒有任何指示。這種情況往往因為不同日志源缺乏時間同步而變得更加復(fù)雜。
雖然現(xiàn)已有很多技術(shù)可應(yīng)對日志數(shù)據(jù)的挑戰(zhàn),但仍需對日志進行數(shù)據(jù)挖掘,其原因如下:(1)通過啟用更多類似人類的模式識別,只需要在分析的早期階段具備較高的專業(yè)知識,從而減少對高技能分析人員的依賴。(2)處理其他較為常規(guī)的方法,但對稀疏數(shù)據(jù)無法進行有效分析。(3)檢測其他無法發(fā)現(xiàn)的事實,日志數(shù)據(jù)挖掘能夠提高檢測入侵痕跡的效率。(4)將結(jié)論生成的負擔(dān)轉(zhuǎn)移到機器上,這樣,目前僅能由人類完成的任務(wù)也可實現(xiàn)自動化。可根據(jù)結(jié)論采取的行動,從而避免為了解所發(fā)生的情況而絞盡腦汁。(5)嘗試預(yù)測問題,而不是尋找處理已發(fā)生情況的方法。雖然數(shù)據(jù)挖掘不提供對這類預(yù)測的保證,但確實比其他方法更接近目標(biāo)。
日志數(shù)據(jù)挖掘的許多需求與重要的日志分析一樣,但有些附加因素可能會使日志數(shù)據(jù)更適合于挖掘,或?qū)⒖蛇x需求轉(zhuǎn)變?yōu)閺娭菩孕枨蟆?/p>
3.1 數(shù)據(jù)集中化
對于過濾和總結(jié)等常規(guī)日志分析來說,只關(guān)注一個位置是很好的,而對于日志挖掘這一點變得很關(guān)鍵,因為挖掘算法比任何分析人員處理的數(shù)據(jù)都要多得多。
3.2 規(guī)范化
如上所述,查看集中化的不同數(shù)據(jù)源需要統(tǒng)一的信息格式,這種格式并不是真正的標(biāo)準(zhǔn),只是表現(xiàn)日志數(shù)據(jù)的統(tǒng)一方式。
3.3 關(guān)系存儲
關(guān)系數(shù)據(jù)存儲是不可缺少的。但是如果只進行監(jiān)督的分析和過濾,那這樣做就沒有什么價值。這種規(guī)范化可通過搜索日志中的公共字段實現(xiàn)。常見的字段包括:時間、來源、目標(biāo)、協(xié)議、端口、用戶名、事件/攻擊類型、交換字節(jié)數(shù)等。因此,規(guī)范化和集中化數(shù)據(jù)可能受制于日志數(shù)據(jù)挖掘算法?,F(xiàn)在,應(yīng)做好準(zhǔn)備研究應(yīng)用數(shù)據(jù)挖掘所要尋找的內(nèi)容。
數(shù)據(jù)挖掘方法在不確定所需搜索內(nèi)容時最有用。如何找到有趣的信息?系統(tǒng)管理員和安全分析人員覺得有趣和有幫助的信息有如下6種。
4.1 受感染的系統(tǒng)傳播惡意軟件
在許多情況下很明顯,每個安全管理員對受感染后在企業(yè)范圍甚至互聯(lián)網(wǎng)范圍內(nèi)傳播的系統(tǒng)都有著很大的興趣。盡管有防病毒軟件和其他專用解決方案,日志挖掘在跟蹤這種危害性極大的系統(tǒng)方面已經(jīng)被證明很有價值。
4.2 遭到入侵的系統(tǒng)
每個獲得認(rèn)證的安全專家都應(yīng)該對了解攻擊者或惡意軟件已經(jīng)接管網(wǎng)絡(luò)中的一個或者多個系統(tǒng)感興趣。
4.3 成功的攻擊
如果攻擊者剛剛成功地在你的系統(tǒng)上打開缺口,婉轉(zhuǎn)地說,知道這一點可能“有趣”;雖然這與前一條相關(guān),但是它通常指的是攻擊的早期階段,這時,攻擊從嘗試發(fā)展為成熟的入侵和對系統(tǒng)的利用。
4.4 內(nèi)部人員違規(guī)使用和知識產(chǎn)權(quán)竊取
懷有惡意的黑客和蠕蟲出盡了風(fēng)頭,而內(nèi)部網(wǎng)絡(luò)違規(guī)使用相比之下似乎顯得簡單。但是,內(nèi)部人員擁有這一王國的所有鑰匙,可能造成更加嚴(yán)重的破壞。更糟糕的是,檢測他們的攻擊比檢測普通的惡意軟件困難得多。
4.5 隱蔽通道/隱藏后門通信
除非“精于此道”,否則網(wǎng)絡(luò)中可能不會常用到隱蔽通道;因此,網(wǎng)絡(luò)安全管理人員很可能對了解這一情況很感興趣。
4.6 探查增加
雖然大部分敏感的政府網(wǎng)絡(luò)現(xiàn)在只將互聯(lián)網(wǎng)探查活動視為噪聲,但如果在日志中反映出這類活動增加,可看作是攻擊的前兆,因而也是有趣的。
雖然“拒絕服務(wù)檢測”總是遭到嘲笑,從某種意義上來說,這種檢測是通過注意到恰好沒有任何服務(wù)來進行的,但是系統(tǒng)管理員可能并沒有監(jiān)控所有系統(tǒng)的正常運行,這就是系統(tǒng)崩潰的主要原因。
以上列舉了一些希望通過挖掘日志發(fā)現(xiàn)的有趣事實。對計算機而言,“有趣”的準(zhǔn)則很難定義,但用日志數(shù)據(jù)挖掘可做到,其典型應(yīng)用如下。
(1)探查:網(wǎng)絡(luò)探查和掃描總是在發(fā)生,用戶越來越能預(yù)料到它們。用戶應(yīng)該了解探查,但是不可能花費資源去尋找它們。與此同時,這類探查數(shù)量上的變化更可能成為有趣的信息。
(2)如果安全架構(gòu)很穩(wěn)固,就能夠預(yù)期到失敗的攻擊;這些攻擊的發(fā)生有各種原因。與探查類似,用戶應(yīng)該了解它們,但是不會花費資源去尋找它們。
(3)正常消息:日志充滿了表明某些例行過程完成和其他完全正常的事件的消息,這些記錄是用于審計和其他目的的,它們明顯不出人意料,信息安全管理者也不會去挖掘它們。但是,變化仍然很重要。常規(guī)的消息停止出現(xiàn),或者開始表現(xiàn)出較高或者較低的頻率,這可能令人感興趣。
(4)被阻止的攻擊:這與失敗的攻擊類似,如果用戶的安全措施阻止了攻擊,即使這種攻擊是沒有想到的有趣攻擊,也不需要立刻采取行動。
(5)系統(tǒng)狀態(tài)更新:類似于正常事件,這些事件無法訴諸行動。同時,系統(tǒng)狀態(tài)更新在某些不尋常的時候發(fā)生可能很令人感興趣。
日志數(shù)據(jù)挖掘主要有如下9個方面的應(yīng)用[4]。
(1)罕見的事物:由于某種原因,這并不常發(fā)生。如果發(fā)現(xiàn)以前沒有發(fā)生過的事件,它很可能是惡意的。因此,罕見事件是挖掘的主要候選。罕見的攻擊、罕見的系統(tǒng)消息以及幾乎從不登錄的用戶,都是值得檢測的。
(2)不同的事物:雖然不提倡“日志恐懼癥”,但是應(yīng)該注意和以往不同的事物。這是數(shù)據(jù)挖掘的基本方法起作用的地方。
(3)不相稱的事物:雖然與上一類緊密相關(guān),但表現(xiàn)得“不相稱”的日志記錄必須加以挖掘,因為它們可能包含有趣的信息。
(4)古怪的事物:如果某些事物顯得古怪,可能是出現(xiàn)麻煩的象征。這與上面兩個類別有微妙的差別。要了解古怪的事情,如 DNS系統(tǒng)連接到packetstorm.com,自動下載攻擊工具,不需要任何基線和預(yù)先的數(shù)據(jù)收集工作。
(5)向不尋常的方法發(fā)展的事物:分析人員和管理員可能發(fā)現(xiàn),有些日志記錄完全改變了正常的通信方向。正如上例中所看到的,到服務(wù)器的連接完全合法,即使使用的是無害的端口,如TCP端口80,服務(wù)器向外連接也應(yīng)該引起重視。
(6)最常見的事物:雖然屬于總結(jié)和報告的范疇,嚴(yán)格說不屬于數(shù)據(jù)挖掘,但是“x大事件”對于尋找有趣的日志記錄及其模式仍然有用。畢竟,如果排名有所上升,例如傳輸帶寬最主要用途,它仍然是有趣的。
(7)最不常見的事物:類似于罕見事務(wù),簡單地說,“發(fā)生次數(shù)最少的事情”,這是“x大事件”的“邪惡姐妹”,甚至比前者更有用。最不吸引人的系統(tǒng)往往成為未來攻擊和破壞的跳板。
(8)無趣事物的奇怪組合:這粗略地遵循下面的公式:“善”+“善”=“邪惡”。是的,一組完全正常的日志記錄也可能組成危險的事件。最簡單的實例是端口掃描,它看上去只是一組往往數(shù)量很大但無害的連接請求。
(9)其他無趣事物的統(tǒng)計:某些無趣事物的計數(shù)可能令人感興趣。而且,這種計數(shù)的變化往往更加重要。ICMP“ping”數(shù)據(jù)包的突然增多可能意味著拒絕服務(wù),尤其是這種ICMP洪泛在沒有預(yù)警的情況下突然發(fā)生時。
以下列舉一個典型應(yīng)用來說明。假設(shè)發(fā)現(xiàn)了一個黑客事故,該事故涉及漏洞掃描器的授權(quán)使用。大部分公司都部署網(wǎng)絡(luò)IDS,但是許多公司并不理解采購這些設(shè)備的價值。這種情況發(fā)生的原因包括日志中的大量假陽性,它們削弱了人們對這些系統(tǒng)的信任?;谔卣鞯南到y(tǒng)為了實現(xiàn)NIDS的價值,可以使用日志挖掘方法,旨在從常規(guī)的噪聲和假警告中標(biāo)記出真正的攻擊。注意,在這種情況下可能并不知道攻擊是否成功,只要了解攻擊者的存在和重點,并將攻擊與錯誤觸發(fā)IDS的無害事件區(qū)分開來即可。
當(dāng)網(wǎng)絡(luò)基礎(chǔ)設(shè)施組件[5]或者被誤用的檢測系統(tǒng)記錄合法連接時,它們通常會在日志中生成少數(shù)特殊的事件類型。例如,通過防火墻的連接生成一個連接消息。即使掃描防火墻也可能為每個連接會話生成一個事件,以及一個用于整個掃描的事件類型。類似地,“假陽性”通常不與同一批主機之間的其他可疑活動相關(guān),例如偵察性掃描或者其他攻擊。相反,假警告更可能會發(fā)生或者以大量互不相關(guān)的同類日志記錄類型的形式出現(xiàn)。這里,所指的“會話”是如下要素的獨特組合:源、目標(biāo)、協(xié)議、源端口和目標(biāo)端口。
因此,如果按照會話組織數(shù)據(jù)庫中收集的事件,并記錄每個會話中特殊事件的數(shù)量,往往與攻擊類型的數(shù)據(jù)相同,就有辦法區(qū)分真正的攻擊和合法流量及假警報。這種日志挖掘方法使用一種通用模式,以獲得潛在破壞性攻擊的證據(jù)及結(jié)果,但不能找出攻擊成功的標(biāo)志,只是對其真假進行鑒定。
數(shù)據(jù)挖掘?qū)θ罩痉治龇浅嵱?,日志?shù)據(jù)挖掘[6]是審核日志數(shù)據(jù)的一種新穎方法,在實際工作中非常有效。許多日志類型可從某種挖掘中獲得更有用的結(jié)果。雖然數(shù)據(jù)挖掘是一個復(fù)雜的領(lǐng)域,但針對日志進行的數(shù)據(jù)挖掘并不十分困難,可在許多環(huán)境中實現(xiàn)。尤其在需要高技能分析人員和很長時間的常見分析無效時,日志數(shù)據(jù)挖掘能夠提供更多幫助。其對企事業(yè)單位加強其網(wǎng)站的信息安全[7]會具有很大的幫助。
[1]池云.Android平臺安全機制探析[J].微型機與應(yīng)用,2015,33(4):1-3.
[2]石杰.云計算環(huán)境下的數(shù)據(jù)挖掘應(yīng)用[J].微型機與應(yīng)用,2015,33(5):13-15.
[3]李玲.Web日志數(shù)據(jù)挖掘的個性化推薦系統(tǒng)的探析[J].科技風(fēng),2014(18):45.
[4]柳勝國.網(wǎng)絡(luò)輿情中的具有影響力個體信息發(fā)現(xiàn)與WEB日志數(shù)據(jù)挖掘預(yù)處理技術(shù)[J].價值工程,2012(16):186-187.
[5]張玲.淺析WEB日志數(shù)據(jù)挖掘技術(shù)[J].今日科苑,2009(17):106.
[6]朱紅祥.基于Web日志數(shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)[J].商場現(xiàn)代化,2008(28):39-40.
[7]李萬新.Web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用[J].中山大學(xué)學(xué)報,2007(5):116-118.
Analysis and research of data mining mechanism based on log file
Zhang Ruyun
(Xuzhou Mechanical and Electrical Engineering Vocational College,Xuzhou 221011,China)
The article introduces the definition of data mining,and analyses the challenges the log data facing and the reason why should we carry out the log data mining.The need of log data mining is discussed,the content of log data mining is concluded,and the application of log data mining is summarized.It has stronger guiding significance to the safety of the computer information system of enterprises and institutions.
log;data mining;mechanism;analysis;research
TP311
A
1674-7720(2015)18-0008-03
張如云.基于日志文件的數(shù)據(jù)挖掘機理分析與研究[J].微型機與應(yīng)用,2015,34(18):8-10.
2015-04-16)
張如云(1979-),通信作者,女,碩士,講師,主要研究方向:多媒體技術(shù)應(yīng)用及信息安全。E-mail:xuboyong@126. com。