• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于概率統(tǒng)計模型和SVM的惡意代碼分類

      2017-09-08 12:13:18紀(jì)鴻旭張培李璐
      關(guān)鍵詞:支持向量機機器學(xué)習(xí)

      紀(jì)鴻旭+張培+李璐

      摘要:隨著惡意代碼的不斷變種,安全問題日趨嚴(yán)峻,對惡意代碼進(jìn)行分類以便于分析惡意代碼從而進(jìn)行防范顯得尤為重要。在數(shù)以千計的大量惡意代碼面前,傳統(tǒng)的分類方式已經(jīng)不能滿足我們的快速分類高效分析數(shù)據(jù)的目的。本文針對惡意程序檢測分類中面對數(shù)據(jù)量大,病毒家族變種繁多等問題,提出了一種利用機器學(xué)習(xí)——支持向量機算法的方法來對惡意代碼進(jìn)行分類。該方法通過提取對惡意代碼利用IDA反匯編工具生成的二進(jìn)制代碼的概率統(tǒng)計模型特征,通過SVM算法進(jìn)行分類操作。通過結(jié)果分析與對比分析,可以驗證,本文所使用的此種算法來檢測惡意代碼并對其分類是有效的。

      關(guān)鍵詞:惡意軟件分類;概率統(tǒng)計模型;支持向量機;機器學(xué)習(xí)

      中圖分類號:G350 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)06-0110-02

      惡意代碼的大肆傳播,已成為嚴(yán)重的安全隱患。特別是近年來,隨著惡意代碼制造機、多態(tài)和變形技術(shù)的不斷成熟,惡意代碼的發(fā)作逐漸呈現(xiàn)變種速度快、模塊重復(fù)使用度高的特點。從惡意代碼的生成技術(shù)上,可以看到大部分“新”的惡意代碼是在原來惡意代碼的基礎(chǔ)上產(chǎn)生而來的,只是原惡意代碼的一個新變種。因此,當(dāng)新的惡意代碼產(chǎn)生時,對惡意代碼的相似性進(jìn)行自動化分析、識別和快速分類以及檢測,已經(jīng)成為目前國內(nèi)外研究的熱點和難點問題之一,同時也是亟待解決的問題。

      1 惡意代碼分析技術(shù)

      按照不同的信息獲取方式,通常采用兩種不同的分析方法,即動態(tài)分析和靜態(tài)分析。兩種分析方法獲取的信息量是不同的,而且在消耗的時間和資源上差別也很大。動態(tài)分析是指惡意代碼執(zhí)行的情況下,利用程序調(diào)試工具對惡意代碼實施跟蹤和觀察,確定惡意代碼的行為;靜態(tài)分析是指在不執(zhí)行二進(jìn)制的前提下進(jìn)行分析,如反匯編分析、源代碼分析、指令分析、反編譯等,這些方法都屬于逆向工程分析方法。其中在靜態(tài)分析中,指令分析技術(shù)最為常見、最為重要。本文的概率統(tǒng)計模型屬于靜態(tài)分析方法。

      2 概率統(tǒng)計模型

      2.1 模型建立

      變值檢測的檢測方法為分段變值測量圖示。該方法具體描述如圖1所示。

      對任意長的0-1序列,按照給定的長度分為多個分段,從第i段m長0-1序列獲取一對變值測度:分段中1的數(shù)目(P變量)和01的數(shù)目(Q變量)。將待測量序列分為M個定長段落,形成一組能夠按照次序先后編號的有序測度序列。該測量序列,在保持編號測序條件下可以分離為兩組獨立的測度序列。兩組測度序列分別映射為2種1維統(tǒng)計直方圖:{1PD,1DQ}。兩組測度序列在重疊移位的條件下行程有序?qū)y度序列,構(gòu)成2種2維直方圖分布:{2DP,2DQ}。除了所形成的2種1維圖示和2種2維圖示之外,變值測度序列,行成一種2為變值統(tǒng)計直方圖:{2DPQ}。

      處理流程為:

      (1)輸入N長0-1序列X,按m為長分段,形成M個段落,每個段落測出兩個參數(shù)。

      (2)第i段形成二元測度組(pi,qi),2PQ:{(pi,qi)},0=

      (3)將二元測度序列分離為兩個M組一元測度獨立序列,一元測度序列1P:{pi},0=

      (4)利用龐加萊模型,將兩組一元序列轉(zhuǎn)化為二元序列,i-1 mod M。二元測度序列2P:{p,pi},0=

      (5)將測度序列轉(zhuǎn)化為統(tǒng)計分布圖示,兩種一維經(jīng)典圖示1P:1PM:1Q:1QM,三種二維變值圖示2P:2PM:2Q:2QM:2PQ:2PQM。

      最后得出結(jié)論,從量化組合的角度來看變值模型,m=1-4時投影低維組合高維特征比較弱,最佳的轉(zhuǎn)折條件為m=8。

      2.2 結(jié)果分析

      (1)對于數(shù)據(jù)集的預(yù)處理,使用數(shù)據(jù)集中的byte文件,把十六進(jìn)制文件轉(zhuǎn)換為2進(jìn)制文件進(jìn)行表示。

      (2)train數(shù)據(jù)集中共包括多個分類,每個分類中又包括多個不同文件。使用抽樣學(xué)習(xí)的方法,對每類樣本中隨機抽取4個樣本進(jìn)行檢測統(tǒng)計。

      (3)對隨機抽樣得到的文件用模型進(jìn)行測試。使用8bit分段值。

      (4)使用二維和三維圖像分別可視化檢測結(jié)果,如圖2所示。

      (5)提取相同種類的特征,比較不同種類特征。

      3 基于SVM的惡意代碼分類

      3.1 支持向量機

      支持向量機SVM(Support Vector Machine)是在統(tǒng)計學(xué)習(xí)理論(Statistical Learning Theory)基礎(chǔ)上提出來的通用算法。其模型是定義在特征空間上的間隔最大的線性分類器,主要用于線性可分和近似可分的樣本數(shù)據(jù)中。而近年來,由于很多學(xué)者在SVM理論分析和算法實現(xiàn)等方面開展了大量的研究工作,現(xiàn)已把其擴展到了線性不可分,以及核函數(shù)的領(lǐng)域中。

      通常情況下,同一家族的惡意程序會具有部分相同的功能或代碼[1]。所以可以通過基于數(shù)據(jù)挖掘的分類方法對惡意代碼的樣本進(jìn)行分類[2]。通過學(xué)習(xí)已知惡意代碼的類別及行為信息,根據(jù)惡意代碼家族共享的特征訓(xùn)練樣本,從而生成分類器或者分類模型,然后利用訓(xùn)練好的分類器對未知的樣本進(jìn)行分類。

      3.2 結(jié)果分析

      對4類惡意代碼進(jìn)行SVM訓(xùn)練,正確分類691例,正確率為83.8592%,如表1所示。

      對數(shù)據(jù)使用PCA進(jìn)行降維處理,投影到三維空間如圖3所示和二維空間如圖4所示,可以看到4類惡意代碼的分布情況。

      經(jīng)過研究實踐,本文已經(jīng)實現(xiàn)了利用概率統(tǒng)計模型和SVM對惡意代碼分類的目的,并獲得了較為優(yōu)秀的精確度。

      4 結(jié)語

      本文首先對惡意代碼及其相關(guān)知識作了概念性的介紹,提出基于概率統(tǒng)計模型的惡意代碼分析,把二進(jìn)制文件以折線圖和三維圖的形式展現(xiàn)出來。同一個家族的惡意代碼在可視化模型上有著較為明顯的區(qū)別。對模型進(jìn)行特征提取,通過SVM進(jìn)行機器學(xué)習(xí),對四類惡意代碼進(jìn)行分類與檢測,獲得了較為優(yōu)秀的精確度。

      本文提出的方法是屬于靜態(tài)技術(shù)的一種,靜態(tài)分析不能很好地應(yīng)對加殼、加密和多態(tài)的惡意代碼,因此將來的工作需要結(jié)合動態(tài)分析,提取出更為準(zhǔn)確的特征。而且隨著惡意代碼生成和生存技術(shù)變得越來越復(fù)雜,程序的隱蔽性會更強,在傳播過程中也會改變程序本身的功能,而不僅僅是外形的變化,這些都需要我們提高重視,做好反惡意代碼的檢測工作。

      參考文獻(xiàn)

      [1]王毅.惡意代碼聚類中的特征選取研究[A].中國計算機學(xué)會.第31次全國計算機安全學(xué)術(shù)交流會論文集[C].中國計算機學(xué)會,2016:5.

      [2]黃海新,張路,鄧麗.基于數(shù)據(jù)挖掘的惡意代碼檢測綜述[J].計算機科學(xué),2016,(07):13-18+56.

      猜你喜歡
      支持向量機機器學(xué)習(xí)
      基于改進(jìn)支持向量機的船舶縱搖預(yù)報模型
      中國水運(2016年11期)2017-01-04 12:26:47
      基于詞典與機器學(xué)習(xí)的中文微博情感分析
      基于SVM的煙草銷售量預(yù)測
      動態(tài)場景中的視覺目標(biāo)識別方法分析
      論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
      價值工程(2016年32期)2016-12-20 20:36:43
      基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
      價值工程(2016年29期)2016-11-14 00:13:35
      基于支持向量機的金融數(shù)據(jù)分析研究
      宜州市| 彭山县| 金寨县| 阳春市| 华阴市| 鄂温| 房产| 巩留县| 饶阳县| 尤溪县| 广宁县| 堆龙德庆县| 南召县| 五华县| 武冈市| 嘉禾县| 平昌县| 巧家县| 晋州市| 明星| 晴隆县| 山阴县| 麻江县| 江孜县| 南郑县| 南丰县| 西和县| 隆尧县| 大洼县| 台湾省| 武乡县| 信丰县| 徐闻县| 黄骅市| 化德县| 维西| 呈贡县| 吉首市| 武川县| 苏尼特左旗| 巩义市|