• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    惡意URL多層過濾檢測模型策略研究

    2016-11-18 07:55:49鄭運鵬
    信息安全研究 2016年1期
    關(guān)鍵詞:樸素決策樹貝葉斯

    劉 健 趙 剛 鄭運鵬

    (北京信息科技大學(xué)信息管理學(xué)院信息安全系 北京 100192) (liujianspace999126@126.com)

    ?

    惡意URL多層過濾檢測模型策略研究

    劉 健 趙 剛 鄭運鵬

    (北京信息科技大學(xué)信息管理學(xué)院信息安全系 北京 100192) (liujianspace999126@126.com)

    惡意URL檢測始終是Web安全領(lǐng)域的研究熱點.提出了惡意URL多級檢測過濾模型,共分成4層過濾器:黑白名單過濾器、樸素貝葉斯過濾器、CART決策樹過濾器和支持向量機過濾器.對多層過濾模型的幾個關(guān)鍵策略進行了討論,包括過濾器層的投票策略、過濾器順序策略以及過濾閾值的調(diào)優(yōu)策略.過濾器投票策略中討論了單獨投票、并行投票和加權(quán)并行投票3種投票方法,過濾器順序策略討論了4種過濾器的先后順序,過濾器閾值策略討論了過濾閾值的確定方法.通過實驗驗證了多層過濾檢測模型中以上策略討論結(jié)果的有效性,根據(jù)實驗結(jié)果實現(xiàn)了Web應(yīng)用.

    惡意URL;投票策略;機器學(xué)習(xí);分類算法;多層過濾模型

    惡意網(wǎng)站[1]通常在用戶瀏覽網(wǎng)站時引導(dǎo)用戶將惡意程序安裝到用戶電腦,而用戶對此沒有察覺,甚至惡意軟件在被發(fā)現(xiàn)之前可能已經(jīng)盜走用戶一些重要資料.國內(nèi)外對惡意網(wǎng)址檢測的最初研究方法是基于URL黑白名單的檢測技術(shù),其主要思想是檢索黑白名單是否保存了所檢測的URL地址來判定該URL是否指向惡意網(wǎng)站.其中黑名單存儲被確定為惡意網(wǎng)站的URL地址,白名單存儲被確定為合法網(wǎng)站的URL地址.目前大多數(shù)瀏覽器具有黑名單相關(guān)插件,如 Microsoft IE,Google Safe Browser等.Ludl等人[2]先后收集了3周內(nèi)共10 000條惡意網(wǎng)站的URL 地址,用這些URL分別測試了IE瀏覽器以及谷歌安全瀏覽器的檢測正確率,分析表明這些插件能夠檢測約90%的惡意URL.Sheng等人[3]測試了8種常用釣魚防御工具中黑名單更新及識別的速度,結(jié)果表明只有不到20% 的防御工具能夠在較短的時間內(nèi)識別出釣魚網(wǎng)站的URL.目前除黑白名單技術(shù)外,機器學(xué)習(xí)分類算法[4-9]是一種比較主流的惡意網(wǎng)址檢測技術(shù),國內(nèi)外將機器學(xué)習(xí)分類算法應(yīng)用到惡意網(wǎng)址檢測技術(shù)的研究非常多.

    圖1 多層過濾模型流程圖

    惡意URL的檢測至關(guān)重要,而目前對惡意URL的檢測方法雖多,但是表現(xiàn)卻不盡如人意.惡意網(wǎng)站URL的檢測是一種典型的分類場景,分為“惡意URL”和“正常URL”2個類.機器學(xué)習(xí)中的分類算法[10-12]是實現(xiàn)其分類的一種優(yōu)秀工具,但是分類器各有千秋,單獨使用一種分類器往往不能達到全能的效果.因此,本文在目前機器學(xué)習(xí)檢測惡意網(wǎng)址相關(guān)研究的基礎(chǔ)上,提出一種將若干種分類器串行起來的惡意網(wǎng)址多層過濾檢測模型,著重研究多過濾器中單獨投票、并行投票和加權(quán)并行投票等共同判定URL的投票策略.在深入分析投票策略特點的基礎(chǔ)上,確定了加權(quán)投票策略及相應(yīng)的調(diào)優(yōu)策略,利用相關(guān)參數(shù)的控制,將幾種分類器的優(yōu)勢都發(fā)揮出來,更加有效地實現(xiàn)惡意網(wǎng)址檢測.

    1 多層過濾模型概述

    本文提出的多層過濾模型流程我們稱之為BW-NCS,如圖1所示.

    依據(jù)多層過濾模型,進一步設(shè)計功能應(yīng)用流程:用戶在Web頁面中輸入要檢測的URL,服務(wù)器經(jīng)過匹配和計算返回該URL的判定結(jié)果,如圖2所示.

    圖2中BW-NCS模型對URL的處理方法如下:

    步驟1. 判斷該URL是否在黑白名單中,如果在直接返回判定結(jié)果給用戶;否則,執(zhí)行下一步;

    步驟2. 提取該URL特征向量;

    步驟3. 將特征向量代入樸素貝葉斯過濾器,如果達到閾值,直接返回判定結(jié)果給用戶;否則記錄判定結(jié)果,執(zhí)行下一步;

    步驟4. 將特征向量代入CART決策樹過濾器中,如果達到閾值,直接返回判定結(jié)果給用戶;否則記錄判定結(jié)果,執(zhí)行下一步;

    步驟5. 將特征向量代入SVM過濾器中,記錄判定結(jié)果后和上層2個過濾器判定結(jié)果共同投票,并返回判定結(jié)果給用戶.

    圖2 URL多層過濾檢測模型應(yīng)用流程圖

    2 投票策略研究

    如果待檢測URL在BW-NCS模型的前3層沒有被判定,則說明該URL既不在黑白名單中,也不是樸素貝葉斯和CART樹的擅長數(shù)據(jù).很可能是因為該URL的特征向量沒有明顯的類型偏向,屬于惡意URL和正常URL的概率相差不大.這種URL需要在最后一層進行判定.本文著重討論單獨投票、并行投票和加權(quán)并行投票3種投票策略.因為黑白名單過濾器已經(jīng)沒有判定的能力,所以以下投票策略不考慮黑白名單過濾器.

    2.1 單獨投票

    單獨投票策略是指當URL過濾到最后一層時,只有SVM過濾器進行投票,即SVM過濾器對URL的判定結(jié)果即作為最終的判定結(jié)果.選取這種投票策略的原因主要有以下2點:

    1) 待判定URL既然已經(jīng)過濾到SVM層,說明該URL不是樸素貝葉斯過濾器和CART決策樹過濾器的擅長數(shù)據(jù),這2個過濾器的分類結(jié)果不可信;

    2) SVM過濾器并沒有設(shè)定擅長閾值,所以該URL有可能是SVM過濾器的擅長數(shù)據(jù),尤其是單獨的SVM分類器要比其他2類單獨分類器的分類效果好的情況下.

    單獨投票策略是對SVM過濾器充分信任的一種投票策略.

    2.2 并行投票

    并行投票策略是指當URL過濾到最后一層時,由樸素貝葉斯、CART決策樹和SVM 3種過濾器一起投票,每個過濾器投一票,根據(jù)投票結(jié)果判定URL類別.例如,當待檢測URL過濾到最后一層時,樸素貝葉斯、CART決策樹和SVM 3種過濾器分別將它判定成惡意URL、惡意URL和正常URL,即有2票投給了惡意URL、1票投給了正常URL.這樣對該URL的最終判定結(jié)果為惡意URL.選取這種投票策略的原因主要有以下2點:

    1) 待判定URL既不是樸素貝葉斯過濾器擅長的數(shù)據(jù),也不是CART決策樹過濾器擅長的數(shù)據(jù),說明該URL的特征向量沒有明顯的趨向哪個類,則SVM過濾器也有很大概率不擅長處理該URL,3種過濾器綜合決定能夠更好地分擔風(fēng)險;

    2) 當單獨的SVM分類器要比其他2種單獨分類器的分類效果都要差時,要更加信任前2種過濾器.

    并行投票策略是對SVM過濾器不太信任的一種投票策略.

    2.3 加權(quán)并行投票

    加權(quán)并行投票策略是指當URL過濾到最后一層時,和并行投票策略一樣,由樸素貝葉斯、CART決策樹和SVM 3種過濾器共同投票,但每個過濾器都投加權(quán)票,根據(jù)投票結(jié)果判定URL類別.各層過濾器的投票值計算方法如下:

    1) 在樸素貝葉斯過濾器層中,αnbayes=max{P1P2,P2P1},閾值為,令樸素貝葉斯的加權(quán)投票值為αnbayes,因為該URL已經(jīng)過濾到最后一層,說明αnbayes肯定沒有達到閾值,該投票值小于1;

    2) 在CART決策樹過濾器層中,αcart=max{nm,mn},閾值為,令CART決策樹的加權(quán)投票值為αcart,同樣因為該URL已經(jīng)過濾到最后一層,說明αcart沒有達到閾值,該投票值也小于1;

    3) SVM過濾器的投票值為1.

    例如,當待檢測URL過濾到最后一層時,樸素貝葉斯、CART決策樹和SVM 3種過濾器分別將它判定成惡意URL、惡意URL和正常URL,而αnbayes=0.6,αcart=0.35,因為將URL判定惡意URL的加權(quán)投票值為0.95,小于將URL判定成正常URL的加權(quán)投票值1,所以該URL會被判定為正常URL.

    選取這種投票策略的原因主要有以下2點:

    1) 既然待判定URL既不是樸素貝葉斯過濾器擅長的數(shù)據(jù),也不是CART決策樹過濾器擅長的數(shù)據(jù),還不確定SVM的判定效果如何,那么樸素貝葉斯和CART決策樹這2個過濾器就不能和SVM過濾器擁有一樣的投票權(quán)重;

    2) 樸素貝葉斯過濾器和CART決策樹過濾器的閾值也只是訓(xùn)練出來的一個界限,而這個界限往往是模糊的,可能有些URL在過濾器中計算出的α已經(jīng)接近這個閾值α*,但是仍然被過濾到下一層,這顯然不合理.所以用αα*作為這2個過濾器的加權(quán)投票值.

    加權(quán)并行投票策略是一種介于單獨投票策略和并行投票策略中間的一種平衡策略,在給SVM過濾器一定投票優(yōu)勢的同時也不完全依賴SVM過濾器.

    3 過濾器順序策略

    本文提出的URL多層過濾檢測模型的過濾器順序為:黑白名單過濾器,樸素貝葉斯過濾器,CART決策樹過濾器和SVM過濾器.過濾器中黑白名單過濾器具有絕對權(quán)威,待檢測URL如果能被它判定,這個判定結(jié)果是被絕對信任的,也就不需要別的過濾器再去進行判定,所以將它放到第1層.SVM過濾器沒有擅長閾值的計算方法,沒辦法設(shè)定過濾條件,所以將它作為最后一層過濾器.而樸素貝葉斯和CART決策樹既不是絕對權(quán)威,也都有相似的擅長閾值計算方法,所以這2種過濾器是可以互換位置的.下面討論這2種順序策略.

    我們稱樸素貝葉斯在上一層的策略為NBAYES-CART策略,CART決策樹在上一層的策略稱作CART-NBAYE策略.無論哪種策略,目標都是為了整個多層過濾檢測模型更準確地判定URL.這2層作為中間層能夠以盡可能高的準確率去處理盡可能多的URL,能夠幫助多層過濾檢測模型實現(xiàn)更好的URL判定效果.所以這里提出應(yīng)用2個標準:一個是判定URL的數(shù)量,另一個是判定URL的準確率.

    對于本文收集的URL數(shù)據(jù)集的檢測,在下述實驗中驗證了單獨的CART決策樹分類器效果要比單獨的樸素貝葉斯分類器效果好得多,因為這2個過濾器的準確率是可以通過閾值來調(diào)節(jié)的,也就是說在保證同樣的準確率的情況下,CART決策樹過濾器能夠直接判定的URL數(shù)目要比樸素貝葉斯過濾器多很多.在多層過濾檢測模型中,一般是越高層級的判定準確率要越高,所以如果選擇CART-NBAYES策略,在CART決策樹過濾器層為了保證準確率可能只處理小部分URL,這些URL可能判定準確率很高,但是過濾到樸素貝葉斯過濾器層的那些URL的判定準確率就會偏低;如果選擇NBAYES-CART策略,在樸素貝葉斯過濾器層也能以較高準確率處理小部分URL,過濾到CART決策樹過濾器層的URL也能以不錯的準確率被判定.因此,本文選取了NBAYES-CART策略,并且本文的模型為BW-NCS模型.

    4 過濾閾值的調(diào)優(yōu)策略

    BW-NCS模型中共有2個過濾閾值:樸素貝葉斯過濾器的過濾閾值和CART決策樹的過濾閾值.這2個過濾閾值是BW-NCS模型中最重要的參數(shù)之一,它們的選取好壞直接影響模型的判定效果.這2個閾值的選取依賴于數(shù)據(jù)本身特點,并且沒有可以參考的相關(guān)的專家經(jīng)驗.本文直接搜索多種閾值對組合,并用另一組樣本進行測試,最后選取效果最好的閾值對.本文在對BW-NCS多層過濾器模型的過濾閾值主要調(diào)優(yōu)步驟如下:

    5 實驗分析與應(yīng)用

    5.1 實驗結(jié)果與分析

    本文的惡意URL數(shù)據(jù)集通過惡意網(wǎng)站實驗室獲取,正常URL數(shù)據(jù)集通過爬蟲程序從第1分類目錄網(wǎng)爬取.從惡意URL數(shù)據(jù)集和正常URL數(shù)據(jù)集各取10 000條數(shù)據(jù)作為本文的實驗數(shù)據(jù).

    本文作如下假設(shè):有10%的URL在黑白名單過濾器中,并且這10%的URL是隨機選取的,對于不在這10%范圍內(nèi)的URL,單獨的黑白名單分類器會進行隨機判斷.

    實驗結(jié)果如表1所示:

    表1 實驗測試結(jié)果 %

    從表1中可以看出完整的BW-NCS模型表現(xiàn)優(yōu)秀,明顯地超過4個單獨分類器模型表現(xiàn),這也達到了本文的研究目的,使得多層過濾模型能夠處理各個分類器自己擅長的數(shù)據(jù),充分發(fā)揮了每一層分類器的優(yōu)勢,最終達到提高檢測惡意URL準確率的效果.具體來說,在BW-NCS模型中黑白名單過濾器判定在黑白名單之內(nèi)的URL,樸素貝葉斯過濾器判定了那些計算出的2類概率差比較懸殊的URL,CART決策樹過濾器判定了那些計算出的葉子節(jié)點中2類數(shù)目比較懸殊的URL,SVM可以在擁有比較大投票權(quán)重的情況下和前2層過濾器共同投票判定前2層都不擅長的URL.而其他單獨模型必須處理所有URL,不管是否為自己的擅長數(shù)據(jù),所以才出現(xiàn)表1的結(jié)果.

    5.2 實驗結(jié)果應(yīng)用

    本文設(shè)計并實現(xiàn)了BW-NCS模型的Web應(yīng)用,并在應(yīng)用中將實驗測試結(jié)果作為證據(jù)支持.其中的判定結(jié)果的內(nèi)容包括:

    1) 該URL是惡意URL還是正常URL;

    2) 該結(jié)果是由哪一層過濾器對它進行判定的;

    3) 這次判定的準確率、召回率和精確率.

    這些內(nèi)容既給出URL判定結(jié)果,又詳細地給出了判定的相關(guān)參數(shù).用戶在了解判定結(jié)果的同時,可以根據(jù)參數(shù)來指導(dǎo)自己是否相信這次判定.如一個用戶對安全性要求很高,而這次的返回結(jié)果雖然判定用戶輸入的URL是正常URL,但是這次判定的準確率比較低,那么該用戶就可能選擇不再訪問這個URL,本文稱這種用戶為謹慎型用戶;相反,如果一個用戶想瀏覽更多的網(wǎng)頁并對安全性要求較低,那么即使返回結(jié)果是惡意URL但是這次判定的準確率較低,該用戶也很有可能會繼續(xù)訪問,本文稱這種用戶為包容型用戶.

    根據(jù)以上應(yīng)用需求,在設(shè)計應(yīng)用時需要提前做的工作有:黑白名單的收集和存儲;BW-NCS模型的建立和存儲;模型測試實驗結(jié)果的記錄和存儲.這些準備工作中,黑白名單和BW-NCS模型是為了方便Web應(yīng)用直接調(diào)用,加快效率.而模型測試實驗結(jié)果的記錄是為了給用戶更多的參數(shù):準確率、召回率和精確率.

    在SVM過濾器層被判定的URL檢測場景如圖3所示.

    圖3 SVM過濾器判定的URL截圖

    其中,網(wǎng)址www.asdzxc.cc在SVM過濾器層中被判定成正常URL,而網(wǎng)址www.zscdas.tk在SVM過濾器層中被判定成惡意URL,所以在返回的指標中,準確率、召回率和精確率分別為65.19%,42.61%和73.28%,這3個指標的值同樣是依據(jù)上文實驗結(jié)果得出的.召回率為42.61%,說明仍有57.39%的惡意URL被判定成正常URL,那么謹慎型用戶會不信任網(wǎng)址www.asdzxc.cc是正常URL,包容型用戶可能會信任這次判定.準確率為73.28%,說明被判定成惡意的URL有26.72%的概率是正常URL,謹慎型用戶應(yīng)該信任www.zscdas.tk是惡意URL的判定結(jié)果,而包容型用戶在比較信任這個URL的情況下會認為這次判定有誤,相信該URL為正常URL.

    6 結(jié) 論

    本文在提出URL多層過濾模型的基礎(chǔ)上,討論了多層過濾模型中關(guān)鍵策略的主要原理,重點分析了在SVM層中多個過濾器共同判定URL的投票策略,包括單獨投票策略、并行投票策略和加權(quán)并行投票策略,以及各投票策略的出發(fā)點和特點,進一步討論了過濾器順序策略.在深入分析的基礎(chǔ)上,確定了加權(quán)投票策略和從CART決策樹到樸素貝葉斯的策略順序,進一步討論CART決策樹和樸素貝葉斯過濾閾值的調(diào)優(yōu)策略,并用一對衰減函數(shù)來生成2個候選閾值集,通過交叉這2個閾值集來測試,選取最優(yōu)狀態(tài)下的閾值對作為模型的過濾閾值.通過實驗驗證了URL多層過濾檢測模型的有效性.

    [1]何公道, 王江民. 我國惡意網(wǎng)站現(xiàn)狀及防治對策研究[J]. 中國人民公安大學(xué)學(xué)報:自然科學(xué)版, 2008, 14(3): 1-4

    [2]Ludl C, Mcallister S, Kirda E, et al. On the effectiveness of techniques to detect phishing sites[C] //Proc of the 4th Int Conf on Detection of Intrusions and Malware, and Vulnerability Assessment. Berlin: Springer, 2007: 20-39

    [3]Sheng S, Wardman B, Warner G, et al. An empirical analysis of phishing blacklists[C] //Proc of the 6th Conf on Email & Anti-spam. 2009: 59-78

    [4]Witten I H, Frank E, Hall M A. Data Mining: Practical Machine Learning Tools and Techniques[M]. San Francisco: Morgan Kaufmann Publishers, 2005: 95-97

    [5]郭亞寧, 馮莎莎. 機器學(xué)習(xí)理論研究[J]. 中國科技信息, 2010 (14): 208-209[6]何清, 李寧, 羅文娟,等. 大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J]. 模式識別與人工智能, 2013, 27(4): 327-336

    [7]王玨, 石純一. 機器學(xué)習(xí)研究[J]. 廣西師范大學(xué)學(xué)報: 自然科學(xué)版, 2004, 21(2): 1-15

    [8]李運. 機器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[D]. 北京: 北京郵電大學(xué), 2015

    [9]米哈爾斯基. 機器學(xué)習(xí)與數(shù)據(jù)挖掘[M]. 北京: 電子工業(yè)出版社, 2004

    [10]羅可, 林睦綱, 郗東妹. 數(shù)據(jù)挖掘中分類算法綜述[J]. 計算機工程, 2005, 31(1): 3-5, 11

    [11]劉剛. 數(shù)據(jù)挖掘技術(shù)與分類算法研究[D]. 鄭州: 中國人民解放軍信息工程大學(xué), 2004

    [12]談恒貴, 王文杰, 李游華. 數(shù)據(jù)挖掘分類算法綜述[J]. 微型機與應(yīng)用, 2005, 24(2): 4-6

    劉 健

    碩士研究生,主要研究方向為機器學(xué)習(xí)與信息安全.

    liujianspace999126@126.com

    趙 剛

    副教授,博士,主要研究方向為人工智能與信息安全.

    zhaogang@bistu.edu.cn

    鄭運鵬

    碩士研究生,主要研究方向為大數(shù)據(jù)與物流規(guī)劃.

    zhengpeng911001@126.com

    Research on Strategy of Malicious URL Multi-Layer Filtering Detection Model

    Liu Jian, Zhao Gang, and Zheng Yunpeng

    (InformationSecurityFaculty&SchoolofInformationManagement&BeijingInformationScienceandTechnologyUniversity,Beijing100192)

    Malicious URL detection is always a hot research topic in the field of Web security. This paper proposes a malicious URL multi-level filtering detection model. This model contains 4 layers of filter: black and white list filter, Naive Bayesian filter, CART decision tree filter and Support Vector Machine filter. In this paper several key strategies of multilayer filtering model are discussed, including support vector machine filter layer voting strategy; filter order strategy and filtering threshold tuning strategy. Filter voting strategies are discussed in separate voting, parallel voting and weighted parallel voting three voting methods. The filter order strategy discusses the order of the four filters. Filter threshold strategy discusses the method of determining the threshold of the filter. The validity of the above methods is verified by experiments. According to the experimental results, this paper implements a Web application.

    malicious URL; voting strategy; machine learning; classification algorithm; multi layer filtering model

    2015-12-30

    國家自然科學(xué)基金項目(61272513);北京市科委重大項目子課題(D151100004215003)

    趙剛(zhaogang@bistu.edu.cn)

    TP309

    猜你喜歡
    樸素決策樹貝葉斯
    隔離樸素
    樸素的安慰(組詩)
    他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
    當代陜西(2019年23期)2020-01-06 12:18:04
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    最神奇最樸素的兩本書
    當代陜西(2019年9期)2019-05-20 09:47:38
    決策樹和隨機森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    貝葉斯公式及其應(yīng)用
    基于決策樹的出租車乘客出行目的識別
    基于貝葉斯估計的軌道占用識別方法
    一種基于貝葉斯壓縮感知的說話人識別方法
    電子器件(2015年5期)2015-12-29 08:43:15
    灯塔市| 滦平县| 达州市| 松原市| 商丘市| 汉源县| 湾仔区| 牟定县| 砀山县| 江达县| 巴马| 凤山县| 和田市| 万载县| 峡江县| 正定县| 合江县| 榆林市| 安达市| 镇远县| 江油市| 泰来县| 商洛市| 清镇市| 天门市| 元谋县| 安仁县| 峡江县| 建瓯市| 安吉县| 锦屏县| 称多县| 易门县| 密云县| 中西区| 扬中市| 绥芬河市| 奉新县| 建瓯市| 吉林市| 灵川县|