張海艦
摘 要設(shè)計(jì)了一個(gè)基于深度學(xué)習(xí)技術(shù)的惡意應(yīng)用程序檢測系統(tǒng)。該系統(tǒng)的實(shí)現(xiàn)主要由三大部分組成:安全與惡意APK代碼特征的提取模塊、深度學(xué)習(xí)模型的“訓(xùn)練”模塊、深度學(xué)習(xí)模型檢測未知APK樣本模塊。系統(tǒng)協(xié)助設(shè)備用戶有效應(yīng)對大數(shù)據(jù)人工智能時(shí)代的惡意入侵威脅和個(gè)人隱私信息泄露威脅。
【關(guān)鍵詞】Andriod系統(tǒng) APK 深度學(xué)習(xí) 大數(shù)據(jù)人工智能
深度學(xué)習(xí)(Deep Learning),作為一種實(shí)現(xiàn)人工智能(AI)的強(qiáng)大技術(shù),經(jīng)過近期的飛速發(fā)展,已經(jīng)在手寫識別、維數(shù)約簡、語音識別、圖像理解、機(jī)器翻譯、蛋白結(jié)構(gòu)預(yù)測和情感識別等各個(gè)方面獲得了廣泛的應(yīng)用,因?qū)覍掖蚱朴涗浀臏y評結(jié)果而受到社會和科技前沿的高度關(guān)注。然而隨著移動(dòng)互聯(lián)網(wǎng)(Mobile Internet)和物聯(lián)網(wǎng)(Internet of Things)等信息產(chǎn)業(yè)技術(shù)的蓬勃發(fā)展,基于Andriod平臺的移動(dòng)智能設(shè)備數(shù)量和用戶數(shù)據(jù)流量呈指數(shù)爆炸式增長。因而大數(shù)據(jù)人工智能時(shí)代的信息安全問題將會是我們?nèi)祟惷媾R的重大挑戰(zhàn)。為應(yīng)對艱難挑戰(zhàn),本文將人工智能時(shí)代的大數(shù)據(jù)背景與擅長大數(shù)據(jù)處理的前沿科技——深度學(xué)習(xí),創(chuàng)新性的結(jié)合在一起,突破傳統(tǒng)算法效率低的技術(shù)屏障,且從理論上取得了可行性證明,實(shí)際驗(yàn)證也獲得了較好的檢測效果。
1 系統(tǒng)實(shí)現(xiàn)原理
深度學(xué)習(xí)檢測系統(tǒng)在原理上由三大模塊構(gòu)成:安全與惡意APK代碼特征的提取模塊、深度學(xué)習(xí)模型的“訓(xùn)練”模塊、深度學(xué)習(xí)模型檢測未知APK樣本模塊。如圖1所示。
2 APK特征數(shù)據(jù)提取模塊
本文使用靜態(tài)代碼特征分析來提取特征集。原理圖如圖2所示。
2.1 APK代碼反編譯與指令特征分析
在特征描述階段,靜態(tài)代碼分析獲取各個(gè)應(yīng)用程序Dalivk指令的N-Gram序列的統(tǒng)計(jì)數(shù)據(jù)。
2.2 統(tǒng)計(jì)處理模塊
使用 Python語言編寫代碼對靜態(tài)分析獲得的特征集合進(jìn)行統(tǒng)一處理為CSV格式。然后將特征數(shù)據(jù)轉(zhuǎn)為成卷積神經(jīng)網(wǎng)絡(luò)擅長識別處理的樣本特征矩陣。
3 深度學(xué)習(xí)模型“訓(xùn)練”模塊
卷積神經(jīng)網(wǎng)絡(luò)的感知原理類似于視覺系統(tǒng)的作用原理,針對二維形狀的識別而設(shè)計(jì)的一種多層感知器,局部連接,權(quán)值共享。在Matlab環(huán)境下開發(fā)編寫了cnn.m、fcnn.m、deep_Learning.m等多個(gè)卷積神經(jīng)網(wǎng)絡(luò)算法文件來對樣本特征矩陣進(jìn)行訓(xùn)練。
原理框圖如圖3所示。
4 深度學(xué)習(xí)模型檢測未知APK樣本模塊
從Google play上批量下載未參與訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的Andriod應(yīng)用程序,然后對其APK執(zhí)行系統(tǒng)步驟,得到未知樣本APK的相關(guān)預(yù)測報(bào)告。得到了較好預(yù)測效果。
5 結(jié)束語
本文采用靜態(tài)代碼分析技術(shù)提取Android應(yīng)用的多類行為特征數(shù)據(jù),然后將特征數(shù)據(jù)創(chuàng)新性地轉(zhuǎn)化為樣本特征矩陣(Sample Matrix),并創(chuàng)作OPNG技術(shù)以提高細(xì)粒度,彌補(bǔ)了一般靜態(tài)代碼分析的缺點(diǎn)。另一方面本文突破了傳統(tǒng)分類算法在面對大數(shù)據(jù)時(shí)的局限性和低效率性、同類型特征在Android惡意行為檢測中所起的不同作用等諸多復(fù)雜的難題,極大地提高了算法分類判性的可靠性。本文中采用了11126個(gè)惡意APK樣本和22002個(gè)非惡意APK樣本進(jìn)行訓(xùn)練,2000個(gè)未參與“訓(xùn)練”的APK樣本進(jìn)行準(zhǔn)確率測試。實(shí)驗(yàn)結(jié)果表明,本作品在準(zhǔn)確率和執(zhí)行效率上表現(xiàn)良好。下一步工作主要分為兩大部分:
(1)將研究基于更多類型行為特征的深度學(xué)習(xí)算法,并對深度學(xué)習(xí)算法結(jié)合云計(jì)算實(shí)現(xiàn)更快速的處理,進(jìn)一步完善系統(tǒng)。
(2)將整體檢測模型使用java開發(fā)語言重新搭建,將目前的檢測系統(tǒng)植入便于操作的pc端應(yīng)用程序之中。
參考文獻(xiàn)
[1]彭國軍,李晶雯等.Android惡意軟件檢測研究與進(jìn)展[D].武漢大學(xué)計(jì)算機(jī)學(xué)院,2015(01):003.
[2]張福勇.基于n-gram詞頻的惡意代碼特征提取方法[D].江蘇生物工程學(xué)院,2012
作者單位
空軍預(yù)警學(xué)院 湖北省武漢市 430019