• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的惡意代碼檢測技術(shù)研究進(jìn)展

      2019-07-15 01:37:34周顯春龔家浩李蕓倩陳雪姣
      現(xiàn)代計(jì)算機(jī) 2019年15期
      關(guān)鍵詞:實(shí)時(shí)性分布式分類

      周顯春,龔家浩,李蕓倩,陳雪姣

      (三亞學(xué)院信息與智能工程學(xué)院,海南 572022)

      1 研究背景及意義

      隨著互聯(lián)網(wǎng)的發(fā)展,惡意代碼攻擊呈幾何級增長,惡意代碼變體是互聯(lián)網(wǎng)安全的一個(gè)主要威脅。其中,木馬、病毒、蠕蟲等惡意代碼造成的影響最為廣泛,社會很多方面都造成損失,不僅是經(jīng)濟(jì)上而且還是精神層面的。通過分析騰訊安全《2017年度互聯(lián)網(wǎng)安全報(bào)告》,可以發(fā)現(xiàn):PC端病毒攔截近30億次,近60%的惡意程序?yàn)槟抉R,已成網(wǎng)絡(luò)黑客首選攻擊方式。其中新型勒索類病毒呈噴發(fā)狀態(tài),僅在2017年統(tǒng)計(jì)發(fā)現(xiàn)勒索類病毒樣本數(shù)量達(dá)到660萬,僅在我們國家的2017年5月、6月分別就發(fā)生了wannacry病毒、Petya的變種兩次較大規(guī)模的傳播,并且大部分受害者都不知道何時(shí)、何地、何種方式感染。與PC端相對比,無線移動端的情況也差不多,僅2017年就查殺Android病毒12.4億次,新増病毒1545萬,并且感染病毒用戶超過1.88億[1]。

      五花八門變種惡意代碼的數(shù)量噴發(fā)增長,爆發(fā)行為詭秘、隱形手段高明等特點(diǎn),使得基于抽樣技術(shù)和已有惡意代碼特征的檢測技術(shù)在檢測準(zhǔn)確性、時(shí)效性面臨前有未有的挑戰(zhàn)[2]。無論是政府機(jī)構(gòu),還是企業(yè)、社會團(tuán)體都對此特別重視,重視、鼓勵組織和個(gè)人研究惡意代碼檢測技術(shù)。但是,在大數(shù)據(jù)環(huán)境下,因?yàn)榇蠖鄶?shù)的惡意代碼檢測方法都不是智能型的,尤其對海量數(shù)據(jù)下實(shí)時(shí)性的迫切需求,導(dǎo)致現(xiàn)有技術(shù)實(shí)在無法滿足現(xiàn)實(shí)生活的需求。針對日益惡化的網(wǎng)絡(luò)安全形勢,改善或提高現(xiàn)有惡意代碼檢測的精度、實(shí)時(shí)性,增強(qiáng)檢測技術(shù)的智能能力,無論是對凈化網(wǎng)絡(luò)安全環(huán)境,還是減少網(wǎng)絡(luò)受害者,避免社會動蕩都有非常重要的意義。

      2 國內(nèi)外研究現(xiàn)狀及分析

      經(jīng)國內(nèi)外學(xué)者的長期研究,目前惡意代碼檢測方法研究可以劃分為:基于靜態(tài)分析的方法[4]、基于動態(tài)分析的方法[5]、基于機(jī)器學(xué)習(xí)算法分析的方法[6]。

      不管是動態(tài)還是靜態(tài)惡意代碼分析方法,面對規(guī)模龐大且增長迅速的惡意代碼庫,需要消耗大量的時(shí)間和資源,己經(jīng)不能滿足實(shí)時(shí)分析的需求,而且都很難對所有的未知惡意程序進(jìn)行甄別。而機(jī)器學(xué)習(xí)分析方法,如隨機(jī)森林、支持向量等算法可以區(qū)分良性代碼和惡意代碼[7],也可以用來檢測已知的、未知的惡意代碼及其變體[8]。但是要想讓其保持高精度,必須讓訓(xùn)練數(shù)據(jù)大多帶有標(biāo)簽。在大數(shù)據(jù)的環(huán)境下,造成訓(xùn)練數(shù)據(jù)的人工標(biāo)注標(biāo)簽的工作量非常大且檢測效果依賴分析人員的經(jīng)驗(yàn)和檢測惡意代碼的實(shí)時(shí)性差[9]。

      深度學(xué)習(xí)應(yīng)用于惡意代碼檢測方面的研究是近3年來的研究熱點(diǎn)[2]。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的算法[10]。隨著CPU、GPU、TPU圖像處理專用處理器、分布式架構(gòu)技術(shù)的發(fā)展,深度學(xué)習(xí)算法在計(jì)算機(jī)視覺、語音識別、NLP、生物醫(yī)學(xué)等領(lǐng)域取得的最大成功,促使國內(nèi)外研究人員開始嘗試使用深度學(xué)習(xí)解決惡意代碼識別問題[11]。尤其對其應(yīng)用于惡意代碼檢測中存在的有效特征的提取與融合方法、惡意代碼的特征與分類標(biāo)簽的相關(guān)性、惡意代碼分布式處理等3個(gè)問題展開了重點(diǎn)研究。

      2.1 有效特征的提取與融合方法

      深度學(xué)習(xí)與傳統(tǒng)模式識別方法的最大不同在于它是從大數(shù)據(jù)中自動學(xué)習(xí)特征,而非采用手工標(biāo)注特征,因?yàn)樘卣鞴こ痰墓ぷ髁空颊麄€(gè)數(shù)據(jù)處理80%左右?,F(xiàn)有的研究工作基本上都是使用現(xiàn)有數(shù)據(jù)集默認(rèn)的N-grams[12-13]或者圖像紋理熵值圖[14-15]等特征來進(jìn)行學(xué)習(xí),但非融合特征不能體現(xiàn)數(shù)據(jù)的關(guān)鍵特征,影響惡意代碼檢測效果。

      惡意代碼特征的深度分析處理是惡意代碼分類的重要過程之一,現(xiàn)有的研究面臨著多維特征融合和深度分析處理的問題[16]。因?yàn)閻阂獯a數(shù)據(jù)具有多維特征的特點(diǎn),僅僅提取單一高維度,不能完全表現(xiàn)其有效特征[17],需要從文件實(shí)體、文件反匯編等不同的角度來提取惡意代碼樣本的特征并融合,從而形成健壯性更好的特征向量[18-20]。如:國內(nèi)清華大學(xué)Liu等人[18]提出融合灰度圖像的紋理特征、Opcode特征和API特征等三種特征作為特征向量,采用共享近鄰聚類算法來發(fā)現(xiàn)新的惡意代碼,可以針對Windows程序文件有效地分類未知惡意代碼。崔弘等人[19]提出了一種基于Sim-Hash的靜態(tài)二進(jìn)制文件、反匯編的高維特征融合惡意代碼分析方法。該方法能夠有效提高分析精度,但是該方法只適合較少的惡意代碼分類場景。隨著移動端的大量使用,惡意APK也成倍增長,采用上述類似方法也取得效果。王磊團(tuán)隊(duì)通過提取結(jié)構(gòu)化、統(tǒng)計(jì)類、長期經(jīng)驗(yàn)總結(jié)的特征并歸一化處理,用15萬個(gè)樣本數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)框架,準(zhǔn)確率達(dá)到99.96%。他們的研究成果主要集中于靜態(tài)特征的提取,仍然沒有從根本上解決問題。

      日本名古屋大學(xué)Tobiyama等人[20]把日志文件存在軟件進(jìn)程行為圖像化,包括API調(diào)用序列數(shù)據(jù),并使用RNN提取有效圖像特征,然后用CNN對特征圖像進(jìn)行分類方法,AUC值達(dá)到了96%??墒菙?shù)據(jù)量太小,把該方法應(yīng)用于大規(guī)模數(shù)據(jù)集時(shí)的實(shí)時(shí)性還有待驗(yàn)證。

      2.2 惡意代碼的特征與分類標(biāo)簽的相關(guān)性

      深度學(xué)習(xí)模型輸出分類結(jié)果時(shí),其依據(jù)對用戶往往是不可見的。不可解釋同樣也意味著危險(xiǎn)。例如開發(fā)一款基于深度學(xué)習(xí)模型某種疾病診斷系統(tǒng),它能夠幫助醫(yī)生判定病人風(fēng)險(xiǎn)的應(yīng)用,開發(fā)者可能還需要知道模型產(chǎn)生診斷結(jié)果是基于那些特征,否則影響各行各業(yè)普遍接受和應(yīng)用。在分類模型準(zhǔn)確率不降低的前提下,如何解釋類型的意義和通過分類類型追朔輸入數(shù)據(jù)的有效特征,破解深度學(xué)習(xí)的“黑匣子”,是近幾年深度學(xué)習(xí)領(lǐng)域的重點(diǎn)解決問題[21-25]。

      谷歌公司Sundararajan等人[21]雖然從經(jīng)濟(jì)學(xué)的角度在理解深層網(wǎng)絡(luò)中輸入特征的相對重要性方面取得了一些進(jìn)展,但沒有解決輸入特征或網(wǎng)絡(luò)所使用的邏輯之間的相互作用。瑞士蘇黎世聯(lián)邦理工大學(xué)Ancona等人[22]提出了一個(gè)稱為敏感度-n的度量,它有助于發(fā)現(xiàn)現(xiàn)有屬性方法的性質(zhì),同時(shí)也為更一般的屬性方法追蹤提供了研究方向。

      在2016年KDD會議上華盛頓大學(xué)Ribeiro等人[23]提出局部解釋性(LIME)模型,分析細(xì)微修改樣本的局部特征值和其輸出類型之間的關(guān)系。2017年在ICML會議上,美國斯坦福大學(xué)Koh等人[24]實(shí)現(xiàn)了分類類別和樣本之間的可追溯性,利用穩(wěn)健統(tǒng)計(jì)學(xué)中的影響函數(shù)分析訓(xùn)練樣本數(shù)據(jù)集中對測試樣本的預(yù)測類別影響最大的樣本。該方案在圖像處理領(lǐng)域已經(jīng)初有成效,但是現(xiàn)有研究均處于起步階段,具有運(yùn)算量大、復(fù)雜性高的特點(diǎn)。影響函數(shù)的定義:

      弄清楚神經(jīng)網(wǎng)絡(luò)做出預(yù)測分類的原因是人工智能領(lǐng)域最大的擔(dān)憂之一。UC Berkeley、阿姆斯特丹大學(xué)、Facebook AI Research[25]團(tuán)隊(duì)的研究人員創(chuàng)建出一個(gè)AI自我解釋模型,既可以對預(yù)測分類類型做出文本及配套的圖像解釋,還可以找到預(yù)測分類類型與訓(xùn)練圖像樣本上重要的證據(jù)。麻省理工學(xué)院林肯實(shí)驗(yàn)室David Mascharka等人[26]提出可解釋視覺推理人工神經(jīng)網(wǎng)絡(luò)TbD網(wǎng)絡(luò)應(yīng)用于視覺問答模型,讓其保持高精度同時(shí)易于解釋,并且具有較強(qiáng)的泛化能力。但是利用深度學(xué)習(xí)在惡意代碼檢測中應(yīng)用的可解釋性和可追朔性研究,研究還不夠深入,遠(yuǎn)遠(yuǎn)沒有達(dá)到實(shí)際應(yīng)用要求。

      2.3 惡意代碼分布式處理

      除了檢測的精度外,惡意代碼檢測的實(shí)時(shí)性是另一個(gè)衡量檢測效果的評估指標(biāo)。在大數(shù)據(jù)環(huán)境下,樣本數(shù)量越大,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型花費(fèi)時(shí)間過長;取樣數(shù)量少,時(shí)間變短,但是模型分類效率不強(qiáng)了,準(zhǔn)確率往往會出現(xiàn)明顯下降。而把分布式計(jì)算框架,如Spark與深度學(xué)習(xí)相結(jié)合,能夠改善數(shù)據(jù)分析的性能[27-31]。

      巴基斯坦比爾澤特大學(xué)Alsheikh等人[27]、印度德里大學(xué)Gupta、新加坡南洋理工大學(xué)Gupta等人[28]已經(jīng)提出了結(jié)合Apache Spark和深度學(xué)習(xí)技術(shù)的框架,實(shí)證該框架能夠在短時(shí)間內(nèi)執(zhí)行大規(guī)模數(shù)據(jù)分析任務(wù)、具有較低的計(jì)算復(fù)雜度和顯著較高的準(zhǔn)確度。國內(nèi)謝鐵等人[29]、張翔等人[30]把基于Spark平臺的深度學(xué)習(xí)技術(shù)應(yīng)用于情感分類研究,時(shí)間效率和準(zhǔn)確率都得到了提高。莊福振等人[31]實(shí)現(xiàn)的并行自動編碼機(jī),在大數(shù)據(jù)環(huán)境下可以高效地進(jìn)行特征表示學(xué)習(xí)。

      但是,目前國內(nèi)外還沒有涉及到Spark分布式計(jì)算框架和深度學(xué)習(xí)結(jié)合架構(gòu)在惡意代碼檢測中的應(yīng)用。

      3 基于深度學(xué)習(xí)面向惡意代碼檢測的未來研究方向

      綜述所述,有效特征提取與融合方法、惡意代碼的特征與分類標(biāo)簽之間的相關(guān)性、惡意代碼分布式處理問題等無疑是深度學(xué)習(xí)在惡意代碼檢測技術(shù)中倍受國內(nèi)外關(guān)注的焦點(diǎn)問題,但現(xiàn)有大部分惡意代碼檢測技術(shù)的精度、魯棒性、可解釋性和可追朔性與實(shí)時(shí)性之間的矛盾依然比較突出。缺乏原創(chuàng)性理論和方法,缺乏具有針對性的研究背景,缺乏系統(tǒng)性的研究思路。

      (1)改進(jìn)有效特征提取與融合方法。為了克服基于深度學(xué)習(xí)的在惡意代碼的單一特征智能提取的片面性和靜態(tài)特征的不足,本課題采用動、靜態(tài)多種特征來融合更加全面地表達(dá)惡意代碼樣本的有效特征,從而形成具有更好的抗混淆特性和抗干擾特性的特征向量。

      (2)研究惡意代碼的特征與分類標(biāo)簽的相關(guān)性。找到惡意代碼預(yù)測分類與訓(xùn)練樣本之間的關(guān)聯(lián)證據(jù)。破解深度學(xué)習(xí)的“黑匣子”是當(dāng)前的研究熱點(diǎn),有很重要的應(yīng)用價(jià)值。只有破解了“黑匣子”,AI才能讓人放心使用。

      (3)利用深度學(xué)習(xí)的分布式部署改善惡意代碼檢測的效果。如,采用二次開發(fā)TensorFlowOnSpark分布式框架改善惡意代碼檢測的實(shí)時(shí)性。TensorFlowOn-Spark分布式框架該庫支持把現(xiàn)有的TensorFlow程序切換到新的API,同時(shí)實(shí)現(xiàn)了模型訓(xùn)練的性能提升,能實(shí)現(xiàn)更好的分布式訓(xùn)練和數(shù)據(jù)傳輸。

      4 結(jié)語

      本文針對基于深度學(xué)習(xí)的惡意代碼檢測技術(shù)中的理論和應(yīng)用研究的需要,從國內(nèi)外前期預(yù)研結(jié)果出發(fā),以研究惡意代碼的特征與分類標(biāo)簽之間的相關(guān)性為基本突破口,系統(tǒng)性地研究深度學(xué)習(xí)應(yīng)用于惡意代碼檢測技術(shù)中的幾個(gè)核心的關(guān)鍵問題——有效特征提取與融合方法、惡意代碼的特征與分類標(biāo)簽之間的相關(guān)性、惡意代碼分布式處理問題,最終形成一個(gè)集數(shù)據(jù)的輸入、預(yù)處理、分析、輸出為一體的初具精度、魯棒性、可解釋性和可追朔性與實(shí)時(shí)性的惡意代碼檢測系統(tǒng)。

      猜你喜歡
      實(shí)時(shí)性分布式分類
      基于規(guī)則實(shí)時(shí)性的端云動態(tài)分配方法研究
      分類算一算
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      基于虛擬局域網(wǎng)的智能變電站通信網(wǎng)絡(luò)實(shí)時(shí)性仿真
      教你一招:數(shù)的分類
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      航空電子AFDX與AVB傳輸實(shí)時(shí)性抗干擾對比
      基于DDS的分布式三維協(xié)同仿真研究
      辰溪县| 富顺县| 邵阳市| 阿瓦提县| 汪清县| 兴城市| 常熟市| 崇仁县| 乐昌市| 江津市| 宝鸡市| 吐鲁番市| 麻栗坡县| 曲麻莱县| 宽甸| 宜兰县| 西乌| 阜康市| 正宁县| 甘肃省| 平罗县| 白河县| 南岸区| 阳江市| 乐清市| 龙游县| 鹤岗市| 邯郸市| 思南县| 伊川县| 嘉定区| 庆城县| 五河县| 澜沧| 宁明县| 翁牛特旗| 申扎县| 肇东市| 比如县| 永济市| 张家界市|