摘要:本文在兼顧效率與檢測(cè)質(zhì)量的前提下,提出顧及規(guī)則矩陣約束的啟發(fā)式網(wǎng)頁(yè)信息規(guī)則抽取方式,實(shí)現(xiàn)了對(duì)ELK日志數(shù)據(jù)統(tǒng)計(jì)分析數(shù)據(jù)的二次檢測(cè),大幅度提高檢測(cè)質(zhì)量。
關(guān)鍵詞:ELK日志;規(guī)則矩陣;聚類算法
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)10-0223-02
在ELK日志數(shù)據(jù)統(tǒng)計(jì)分析過(guò)程中,啟發(fā)式網(wǎng)頁(yè)信息規(guī)則抽取是在做異常檢測(cè)聚類分析過(guò)程中最為關(guān)鍵的一環(huán)?,F(xiàn)有的啟發(fā)式網(wǎng)頁(yè)信息規(guī)則抽取一般采用單一攻擊行為抽取方式,但是這種方式往往會(huì)遺漏因誤用ELK日志數(shù)據(jù)統(tǒng)計(jì)分析檢測(cè)模型而產(chǎn)生的未檢測(cè)的攻擊訪問(wèn)日志。ELK日志數(shù)據(jù)統(tǒng)計(jì)分析集成環(huán)境是建立在Elasticsearch、Logstash、Kibana這三個(gè)開(kāi)源軟件基礎(chǔ)之上的。在現(xiàn)有的ELK日志數(shù)據(jù)統(tǒng)計(jì)分析過(guò)程中,基于聚類算法的異常檢測(cè)模塊已經(jīng)成為常用模塊,其主要工作流程包括:?jiǎn)l(fā)式網(wǎng)頁(yè)信息規(guī)則抽取、構(gòu)建正常行為模型、異常行為檢測(cè)等。
1 ELK日志數(shù)據(jù)統(tǒng)計(jì)分析規(guī)則矩陣
1.1 規(guī)則矩陣在ELK日志數(shù)據(jù)分析過(guò)程中的作用
ELK日志數(shù)據(jù)異常檢測(cè)模塊是建立在合理的分析模型、海量未被攻擊過(guò)的日志序列之上的[1]。首先,完成數(shù)據(jù)的清洗過(guò)程。通過(guò)對(duì)海量未被攻擊過(guò)的日志序列的分析,分析模型找出異常檢測(cè)模塊數(shù)據(jù)源。ELK日志數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)中的誤用檢測(cè)子模塊將特征匹配impact為零的Web訪問(wèn)日志抽取出來(lái)。其次,清洗后的規(guī)則矩陣構(gòu)造數(shù)據(jù)對(duì)象可以被視為標(biāo)準(zhǔn)化和反混淆后的數(shù)據(jù),將上述數(shù)據(jù)直接進(jìn)行異常檢測(cè)。例如,在提取impact為零的日志過(guò)程中,impact日志在規(guī)則矩陣中的特征向量包含請(qǐng)求路徑長(zhǎng)度、請(qǐng)求參數(shù)個(gè)數(shù)、特殊字符頻率、數(shù)字頻率、請(qǐng)求參數(shù)字符熵等。再次,綜合衡量各類ELK日志分析對(duì)象中的特征向量權(quán)值,并計(jì)算特征向量距與它最近的正常模型簇中心的距離。最后,通過(guò)Chebyshevinequality不等式計(jì)算異常概率,并將異常閉值作為判斷結(jié)果的依據(jù)。
1.2 規(guī)則矩陣的構(gòu)建
在去除web日志常見(jiàn)的誤導(dǎo)性數(shù)據(jù)(廣告等)后,ELK日志數(shù)據(jù)分析的過(guò)程可以忽略對(duì)于規(guī)則矩陣具有弱約束性的信息,這些信息包括[2]:
(1)display屬性為none或者高度不足10的塊;(2)
客服熱線:400-656-5456??客服專線:010-56265043??電子郵箱:longyuankf@126.com
電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證:京icp證060024號(hào)
Dragonsource.com Inc. All Rights Reserved