• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多特征的SMS僵尸網(wǎng)絡(luò)檢測(cè)模型

      2018-09-13 05:04:12胡淵博
      關(guān)鍵詞:垃圾郵件僵尸短信

      胡淵博,程 靜,陳 渤

      (1.中國(guó)電子科學(xué)研究院,北京 100041;2.西安電子科技大學(xué)電子工程學(xué)院,西安 710071)

      0 引 言

      在過(guò)去的十年,個(gè)人需求的變化和無(wú)線網(wǎng)絡(luò)的發(fā)展引領(lǐng)了計(jì)算機(jī)形態(tài)的移動(dòng)化,移動(dòng)設(shè)備擁有了更廣泛的利用。然而攻擊者們同樣也把攻擊目標(biāo)逐漸轉(zhuǎn)移到移動(dòng)設(shè)備上。

      僵尸網(wǎng)絡(luò)是指利用一種或幾種傳播方式,使大量的主機(jī)感染僵尸程序,從而在控制者和被控者之間形成了一種一對(duì)多的控制網(wǎng)絡(luò)。攻擊者利用這這個(gè)網(wǎng)絡(luò)達(dá)到非法的目的,如垃圾郵件、網(wǎng)絡(luò)釣魚(yú)、點(diǎn)擊欺詐、密鑰登錄、密鑰破解、版權(quán)侵犯和拒絕服務(wù)等[1]。

      移動(dòng)僵尸網(wǎng)絡(luò)將傳統(tǒng)的計(jì)算機(jī)攻擊手段與移動(dòng)端的通信手段進(jìn)行有效的結(jié)合,利用移動(dòng)網(wǎng)絡(luò)將惡意程序傳播并控制被感染的設(shè)備,從而形成的一對(duì)多的控制與命令網(wǎng)絡(luò)[2]。

      SMS(Short Message Service,短消息服務(wù))作為移動(dòng)網(wǎng)絡(luò)的基本服務(wù)得到了廣泛的應(yīng)用。SMS消息既可以用手機(jī)發(fā)出也可以由互聯(lián)網(wǎng)發(fā)出[3]。SMS的可靠性和靈活性使其受到了攻擊者的關(guān)注,很多移動(dòng)僵尸網(wǎng)絡(luò)都將其作為控制信道或者傳播渠道[4-5]。我們將這種僵尸網(wǎng)絡(luò)稱(chēng)為SMS僵尸網(wǎng)絡(luò)。僵尸短信是SMS僵尸網(wǎng)絡(luò)傳播與控制的主要載體,因此本文通過(guò)識(shí)別僵尸短信達(dá)到檢測(cè)SMS僵尸網(wǎng)絡(luò)的目的。

      本文的提出一種基于多特征的SMS僵尸網(wǎng)絡(luò)檢測(cè)模型。該模型將短信的特征分為兩類(lèi),不同類(lèi)型的特征采取不同的處理方法,以此達(dá)到較高的準(zhǔn)確率。

      1 相關(guān)工作

      雖然移動(dòng)惡意軟件的威脅一直在上升,但目前為止,有關(guān)這些威脅的研究工作有限,現(xiàn)有移動(dòng)惡意軟件的主要目標(biāo)之一就是SMS。被控制的設(shè)備被控制者操縱進(jìn)行惡意活動(dòng),如發(fā)送垃圾短信、發(fā)動(dòng)DDOS攻擊等等。

      Nguyen等人[6]通過(guò)監(jiān)測(cè)Android日志來(lái)檢測(cè)SMS C&C僵尸網(wǎng)絡(luò)。通過(guò)短信和彩信檢測(cè)惡意軟件傳播載體,Wang等人[7]提出了一種用于移動(dòng)設(shè)備的惡意軟件檢測(cè)系統(tǒng)。Dini等人[8]目前監(jiān)視內(nèi)核和用戶級(jí)別的基于異常的惡意軟件檢測(cè)系統(tǒng),他們的方法可以檢測(cè)由Android惡意軟件發(fā)送出去的SMS消息。上面的幾類(lèi)檢測(cè)方式需要較高的系統(tǒng)權(quán)限,高的系統(tǒng)權(quán)限同樣會(huì)帶來(lái)新的安全問(wèn)題,取得高權(quán)限終端更容易感染病毒和其他惡意軟件。例如取得ROOT權(quán)限的Android設(shè)備和越獄后的iOS設(shè)備更容易受到攻擊。

      為了克服SMS僵尸網(wǎng)絡(luò)相關(guān)的問(wèn)題,已經(jīng)有了與過(guò)濾SMS垃圾郵件相關(guān)的重要研究工作來(lái)打擊郵件垃圾郵件,基于內(nèi)容的機(jī)器學(xué)習(xí)方法是有不錯(cuò)的效果。一些研究小組使用SMS內(nèi)容過(guò)濾器來(lái)識(shí)別垃圾郵件[9]。其他一些研究利用非內(nèi)容過(guò)濾器[10]來(lái)檢測(cè)SMS垃圾郵件。Yadav等人[11]提出了基于貝葉斯學(xué)習(xí)和黑名單機(jī)制的SMS垃圾郵件過(guò)濾方法。Nuruzzaman等人[12]建議使用在手機(jī)上運(yùn)行的獨(dú)立的SMS垃圾郵件過(guò)濾器。Rafique等人[13]提供實(shí)時(shí)短信垃圾檢測(cè)。Coskun等人提出[14]基于網(wǎng)絡(luò)的在線檢測(cè),能夠識(shí)別移動(dòng)網(wǎng)絡(luò)上移動(dòng)設(shè)備的短消息和傳播向量。Rafique等人[15]利用SMS的內(nèi)容和模式構(gòu)建有向權(quán)重圖對(duì)SMS垃圾信息進(jìn)行實(shí)時(shí)分類(lèi)。上面的方法識(shí)別SMS僵尸網(wǎng)絡(luò)主要是利用文本特征來(lái)檢測(cè)SMS僵尸網(wǎng)絡(luò),這種方法實(shí)現(xiàn)原理是跟傳統(tǒng)的垃圾郵件過(guò)濾系統(tǒng)比較類(lèi)似。針對(duì)性不強(qiáng),檢測(cè)的效果也比較一般。

      綜上所述,目前針對(duì)SMS僵尸網(wǎng)絡(luò)檢測(cè)方法主要集中在兩個(gè)方面,第一類(lèi)是需要高權(quán)限系統(tǒng)監(jiān)測(cè),這會(huì)給終端帶來(lái)一定的安全風(fēng)險(xiǎn)。第二類(lèi)則是利用識(shí)別垃圾郵件或垃圾短信的方式識(shí)別SMS僵尸網(wǎng)絡(luò),針對(duì)性不強(qiáng)。本文提出的檢測(cè)模型主要是對(duì)第二類(lèi)檢測(cè)方法的改進(jìn),針對(duì)SMS僵尸網(wǎng)絡(luò)的特點(diǎn),提取出相應(yīng)的特征并對(duì)特征分類(lèi),對(duì)不同類(lèi)型的特征采取不同的處理方法,并綜合兩種特征的檢測(cè)結(jié)果,區(qū)分出正常信息和惡意信息,達(dá)到檢測(cè)僵尸網(wǎng)絡(luò)的目的。

      圖1 檢測(cè)模型

      2 SMS僵尸網(wǎng)絡(luò)探測(cè)模型

      針對(duì)收入和發(fā)出的SMS信息,我們?cè)O(shè)計(jì)出一種特征檢測(cè)算法來(lái)識(shí)別僵尸網(wǎng)絡(luò)信息。如圖1所示,我們將SMS信息特征分為兩類(lèi),第一類(lèi)特征是信息收發(fā)時(shí)間和信息大小,第二類(lèi)特征信息則是文本內(nèi)容中的一些特征。綜合兩類(lèi)特征來(lái)設(shè)計(jì)我們的檢測(cè)模型。

      檢測(cè)模型分為兩個(gè)部分。第一部分是利用信息收發(fā)時(shí)間間隔和信息大小這兩個(gè)特征,計(jì)算出它們的熵值,并設(shè)置閾值,以此來(lái)對(duì)信息做一次快速的篩選。將篩選的信息標(biāo)記為可疑或正常,對(duì)于可疑的信息直接標(biāo)記為可疑并進(jìn)行輸出,而對(duì)檢測(cè)正常的信息進(jìn)行下一部分的檢測(cè)。第二部分則是基于文本內(nèi)容本身的一些特征,利用貝葉斯分類(lèi)算法對(duì)其進(jìn)行分類(lèi),可疑和正常,正常的信息直接輸送給用戶,而可疑的信息打標(biāo)記后傳遞給用戶。

      2.1 特征提取

      如圖1所示,有效識(shí)別惡意消息的第一步是提取出能夠區(qū)分SMS文本消息行為的SMS特征,所有選定的特征有兩個(gè)顯著特點(diǎn):1)能有效的區(qū)分短消息的有效或者正常2)使我們的檢測(cè)方法簡(jiǎn)單快速。根據(jù)這兩點(diǎn)要求,本文將特征和使用的算法分為兩種,第一類(lèi)特征較少,匹配其使用的算法速度比較快,能迅速檢測(cè)到可疑的信息,但只是對(duì)被測(cè)樣本做一個(gè)初步的篩選,篩掉普通用戶發(fā)出的信息。從而減少第二步篩選的工作量。第二類(lèi)特征稍多,相應(yīng)的處理速度稍慢一些,但檢測(cè)結(jié)果更為準(zhǔn)確。

      被測(cè)樣本按組來(lái)分,第一類(lèi)特征需要采集每一組的每一條,第二類(lèi)特征則每組采集一部分。

      2.2 第一類(lèi)特征檢測(cè)

      第一類(lèi)特征包含兩個(gè),分別為信息收發(fā)時(shí)間間隔和信息大小。我們采集到的第一類(lèi)特征格式為需要轉(zhuǎn)化,表1展示了采集到的數(shù)據(jù)示例,表2展示了處理后的數(shù)據(jù)示例。

      表1 采集的數(shù)據(jù)示例

      表2 處理后的數(shù)據(jù)示例

      表1中的信息時(shí)間是以年月日時(shí)分來(lái)表示每一條信息收到或者發(fā)送的時(shí)間,我們需要把此類(lèi)信息按時(shí)間的先后排列并依此計(jì)算當(dāng)前時(shí)間與前一個(gè)時(shí)間的差值 ,然后計(jì)算出該差值出現(xiàn)的概率,就得到時(shí)間間隔概率。表1中的文本大小則是短息文本的大小,單位是比特,我們需要計(jì)算該同樣大小文本出現(xiàn)的次數(shù)與總文本的比值,就得到了文本大小的概率。

      定義HT為收發(fā)時(shí)間間隔的熵值,HS為信息大小的熵值。計(jì)算公式如下:

      H(X)=-P(X)log2P(X)

      (1)

      式中:P(X)是P(X1=x1,…,Xm=xm)的聯(lián)合概率。

      通過(guò)轉(zhuǎn)化后的數(shù)據(jù)和熵值計(jì)算公式得到HT和HS。利用熵值進(jìn)行分類(lèi),如果HT和HS都比較低,則證明該信息規(guī)律性比較強(qiáng),很有可能是由僵尸網(wǎng)絡(luò)發(fā)出的信息;如果HT和HS都比較高,則很有可能是普通用戶發(fā)出的信息。

      HT和HS高低的判斷標(biāo)準(zhǔn)是通過(guò)和閾值進(jìn)行比較,如果高于閾值則說(shuō)明是普通用戶,否則就可能是僵尸用戶。指定的閾值是一個(gè)很重要的參數(shù),直接影響到僵尸網(wǎng)絡(luò)檢測(cè)效果的準(zhǔn)確率。如果分?jǐn)?shù)閾值定的太高,則會(huì)有很多普通用戶被錯(cuò)分為僵尸用戶;如果閾值定的太低,則會(huì)有很多僵尸網(wǎng)絡(luò)被錯(cuò)分為普通用戶。本文設(shè)置的閾值是中程光博士[16]通過(guò)大量數(shù)據(jù)樣本訓(xùn)練后的閾值。

      2.3 第二類(lèi)特征檢測(cè)

      第二類(lèi)特征主要是短信文本本身的特征,本文主要關(guān)注以下特征:嵌入的電話號(hào)碼、嵌入的鏈接、嵌入字符串、嵌入的釣魚(yú)詞匯、特殊符號(hào)的數(shù)量、空格的數(shù)量。

      我們用樸素貝葉斯方法[17-18]對(duì)第二類(lèi)特征分類(lèi),首先將第二類(lèi)特征利用一個(gè)n維的特征向量X表示,X=(X1,X2,…,Xn)

      其中X1,X2,…,Xn分別表示n個(gè)屬性的度量。本文將短信分為C1、C2兩類(lèi),代表正常短信和垃圾短信。給定一個(gè)未知的數(shù)據(jù)樣本,分類(lèi)算法將預(yù)測(cè)該樣本具有最高后驗(yàn)概率的類(lèi),樸素貝葉斯分類(lèi)將未知的樣本分配給類(lèi)Cr,當(dāng)且僅當(dāng)滿足下式

      P(Cr|X)>P(Cj|X), 1≤j≤m

      (2)

      根據(jù)貝葉斯公式,樣本屬于Cr的概率為:

      由于P(X)對(duì)于所有的類(lèi)是常數(shù),只需保證P(X|Cr)P(Cr)最大。如果類(lèi)的先驗(yàn)概率未知,則通常假設(shè)這些類(lèi)的概率相等,即P(C1)=P(C2),所以保證P(X|Cr)即可。否則要最大化P(X|Cr)P(Cr)。

      由于特征多的時(shí)候,P(X|Cr)的計(jì)算很復(fù)雜。為了減輕運(yùn)算壓力,需要將各個(gè)特征條件進(jìn)行獨(dú)立假定,即各個(gè)特征不存在依賴(lài)關(guān)系。因此:

      當(dāng)P(X|Cr)P(Cr)>P(X|Cj)P(Cj)

      (4)

      1≤j≤2,j≠r時(shí),將未知的樣本X分類(lèi)到Cr。

      分類(lèi)的結(jié)果有兩種,正常信息和可疑信息。分類(lèi)的結(jié)果也會(huì)存在兩種錯(cuò)誤,第一種是誤報(bào),即將正常信息判為可疑信息。第二種是漏報(bào),即將可疑信息判為正常信息。從本文的出發(fā)點(diǎn)來(lái)看,在檢測(cè)可疑信息的條件下,第二種錯(cuò)誤的危害更大。因此,可以在判斷的時(shí)候加入一個(gè)常量閾值Y,當(dāng)變量

      即X為正常信息的概率顯著地大于其為可疑信息的概率時(shí),將其判斷為正常信息,隨著Y的增大,漏報(bào)會(huì)變少,誤報(bào)會(huì)變多。

      3 實(shí)驗(yàn)和結(jié)論

      3.1 實(shí)驗(yàn)數(shù)據(jù)設(shè)置

      為了評(píng)估我們提出的方法的準(zhǔn)確性,數(shù)據(jù)的選擇是非常重要的。我們選取了三個(gè)比較知名的數(shù)據(jù)集。The DIT SMS Spam Dataset[19],the SMS Spam Collection Dataset[20],NUS SMS Corpus Dataset[21]這三個(gè)數(shù)據(jù)庫(kù)中的SMS信息都是標(biāo)記后的,我們可以把檢測(cè)的結(jié)果與標(biāo)記結(jié)果做對(duì)比來(lái)得到我們檢測(cè)的準(zhǔn)確率。我們實(shí)驗(yàn)需要的真實(shí)數(shù)據(jù)集從以上三個(gè)數(shù)據(jù)庫(kù)中抽取。

      3.2 實(shí)驗(yàn)過(guò)程與結(jié)果

      本文檢測(cè)所用的平臺(tái)是Android虛擬機(jī),系統(tǒng)版本4.4.4,并利用J2SE技術(shù)實(shí)現(xiàn)檢測(cè)程序的核心功能。

      我們從[19-21]三個(gè)數(shù)據(jù)庫(kù)中抽取100組正常短信和50組僵尸短信,每組100條信息。每組的第一類(lèi)特征需要逐條采取。而第二類(lèi)特征則抽取每組信息中30%的短信作為訓(xùn)練樣本,10%的作為測(cè)試樣本。由2.3節(jié)可知,隨著Y值的變化,檢測(cè)的準(zhǔn)確率也會(huì)發(fā)生變化。檢測(cè)結(jié)果表3。

      表3 檢測(cè)結(jié)果

      Y值是第二類(lèi)特征檢測(cè)時(shí)的常量閾值

      NR是普通信息的檢測(cè)準(zhǔn)確率

      TR是僵尸信息的檢測(cè)準(zhǔn)確率

      圖2 檢測(cè)準(zhǔn)確率

      如圖2所示,我們將表3中的檢測(cè)率用曲線表示??梢园l(fā)現(xiàn)隨著閾值的增大,僵尸短信的檢測(cè)準(zhǔn)確率逐漸變高,而普通短信的準(zhǔn)確率卻在逐漸下降,在閾值1.6以后普通短信的檢測(cè)率急劇下降,我們要在保證僵尸網(wǎng)絡(luò)檢測(cè)準(zhǔn)確率較高的情況下,普通短信的檢測(cè)率也需要在可接受的范圍內(nèi),因此選取閾值Y為1.8,此時(shí)僵尸短信檢測(cè)率達(dá)到96%,此時(shí)普通信息檢測(cè)率為81%。

      4 結(jié) 語(yǔ)

      在本文中,我們提出了一個(gè)基于多特征的SMS僵尸網(wǎng)絡(luò)檢測(cè)模型,首先我們將SMS信息特征分為兩類(lèi),接下來(lái)用兩個(gè)核心模塊分別利用這兩種特征檢測(cè),第一個(gè)模塊利用信息大小和收發(fā)時(shí)間這兩種特征的熵值對(duì)被檢測(cè)短信進(jìn)行快速篩選。第二個(gè)模塊在第一次篩選的基礎(chǔ)上利用基于多文本內(nèi)容特征樸素貝葉斯分類(lèi)方法再次對(duì)短信進(jìn)行檢測(cè)。如果被檢測(cè)樣本能順利的通過(guò)兩道檢測(cè)模塊則將其標(biāo)記為普通信息,否則將其標(biāo)記為僵尸信息。從檢測(cè)結(jié)果來(lái)看該檢測(cè)模型能有效檢測(cè)僵尸短信。但該檢測(cè)模型還存在一些一些缺點(diǎn),例如第一個(gè)模塊中的閾值用的經(jīng)驗(yàn)常數(shù)、文本提取的特征量還不夠多。

      未來(lái)需要改進(jìn)的主要有兩點(diǎn),一是增加檢測(cè)樣本,不斷地修正第一個(gè)檢測(cè)模塊中的閾值。二是提取更多的特征從而達(dá)到更準(zhǔn)確地檢測(cè)效果。

      猜你喜歡
      垃圾郵件僵尸短信
      從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語(yǔ)單詞的起源出人意料地有趣 精讀
      一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測(cè)算法
      筆記本電腦“僵尸”
      道歉短信
      你愿意當(dāng)吸血鬼還是僵尸?
      代發(fā)短信
      基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過(guò)濾模型
      App已死?80%的僵尸應(yīng)用帶來(lái)的困惑
      新聞傳播(2015年6期)2015-07-18 11:13:15
      “僵尸肉”橫行誰(shuí)之過(guò)
      石器部落
      遂昌县| 台安县| 克拉玛依市| 都昌县| 岳阳县| 眉山市| 彭州市| 竹北市| 抚顺县| 会宁县| 贡山| 阜平县| 漾濞| 青海省| 历史| 赤水市| 年辖:市辖区| 五台县| 乌拉特中旗| 三河市| 绥江县| 封开县| 汉源县| 淮滨县| 邛崃市| 太保市| 绥阳县| 台南县| 蚌埠市| 论坛| 保山市| 宜春市| 和静县| 周口市| 济南市| 石屏县| 泰来县| 会东县| 安新县| 青神县| 保亭|