• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    半監(jiān)督學習在惡意軟件流量檢測中的應用*

    2022-05-26 03:04:18桂冠寧金輝王禹
    移動通信 2022年4期
    關鍵詞:標簽準確率卷積

    桂冠,寧金輝,王禹

    (南京郵電大學通信與信息工程學院,江蘇 南京 210023)

    0 引言

    確保安全可靠的通信被認為是互聯(lián)網的關鍵技術之一,惡意軟件檢測(MD,Malware Detection)技術在網絡安全和互聯(lián)網領域發(fā)揮著重要的作用[1-3]。近年來,隨著互聯(lián)網的快速發(fā)展,各種應用也在激增,如網站、微博、視頻、團購軟件等。雖然這些在一定程度上改善了人們的生活,但也致使黑客攻擊、數(shù)據泄露等網絡安全問題顯著增加[4]。軟件流量可以記錄和反映網絡運行狀況[5-7]。為了確保未來互聯(lián)網的網絡安全,有必要識別惡意軟件流量并防止各種攻擊事件的發(fā)生。

    目前出現(xiàn)了三種傳統(tǒng)的惡意軟件流量分類方法[8-10]:基于端口的方法、基于有效負載或深度包檢測(DPI,Deep Packet Inspection)的方法和基于統(tǒng)計的方法,具體如圖1 所示:

    圖1 網絡流量分類方法

    從人工智能的發(fā)展角度看,基于端口的方法和基于負載的方法都是基于規(guī)則來看的,而基于統(tǒng)計的方法屬于機器學習的方法,雖然機器學習的方法解決了很多基于規(guī)則的方法的弊端,如分類準確率低等,但這個方法也存在著依賴手工設計特征的方法不能提取關鍵特征的弊端。深度學習是直接從原始流量數(shù)據中獲取特征的有力工具[11-13],在一定程度上可以解決手工設計方法精度低的問題,因此許多研究者開始基于深度學習方法對惡意流量檢測問題進行研究。2017 年W.Wang[14]等人首次提出了表征學習在網絡流量數(shù)據分類中的應用;周翰遜[15]等人提出了基于值導數(shù)門控循環(huán)單元(GRU,Gated Recurrent Unit)的移動惡意軟件流量檢測方法;韋佶宏[16]等人利用深度學習方法分析安全傳輸層協(xié)議流量以識別惡意軟件;翟明芳[17]等人對加密的惡意流量特征及識別做了研究,都取得了較好的成績。但是,上述研究都建立在有豐富的有標簽流量數(shù)據的基礎上,無法直接用于真實的小樣本環(huán)境。因此,本文提出了一種面向半監(jiān)督惡意軟件檢測[18-21]的卷積級聯(lián)階梯網絡(CCLN,Convolution Cascade Ladder Network)方法,以解決在有標簽樣本較少(有標簽樣本占總樣本的比例為5%)的情況下分類精度低的問題;還提出了一種面向半監(jiān)督惡意軟件檢測的遷移卷積級聯(lián)階梯網絡(TCCLN,Transfer Convolution Cascade Ladder Network),以解決在有標簽樣本更少(有標簽樣本占總樣本的比例為1%)的情況下分類精度低的問題。

    1 問題描述

    首先,對原始軟件流量數(shù)據進行預處理。對于一組有標簽網絡流量樣本{xl(n),y l(n)|1 <n<N},使用卷積神經網絡進行分類,該分類過程可表示為:

    其中,c(·) 表示特征提取函數(shù),由CNN 擬合實現(xiàn);?表示神經網絡參數(shù);表示神經網絡的分類預測結果。在反向傳播優(yōu)化中,其目標函數(shù)可以表示為:

    其中,Ll表示用于測量真實標簽yl和預測標簽之差的損失函數(shù)。在實際的小樣本環(huán)境下,直接使用CNN 的分類方法會由于訓練數(shù)據不足而難以獲得好的性能,因此使用半監(jiān)督學習方法以充分利用網絡中存在的大量無標簽數(shù)據{xu l(m)|1<m<M}(N<<M)。網絡的總體目標函數(shù)可以表示為:

    2 提出的方法

    2.1 數(shù)據預處理

    實驗中使用的數(shù)據集是USTC-TFC2016[14]。數(shù)據集大致由兩部分組成:一部分是研究人員從真實網絡環(huán)境中收集的十種惡意軟件流量,包括Neris、Zeus、Virut 等;另一部分是專業(yè)網絡流量模擬設備IXIA BPS 收集的十種正常流量,如Facetime、Gmail、Weibo 等。從應用軟件流量中獲取流量數(shù)據后,對數(shù)據進行切片、整理以防止重復數(shù)據,生成輸入大小為784 字節(jié)的圖像,再轉換為IDX 格式。

    2.2 實驗方法

    (1)基于CCLN 的惡意軟件檢測方法

    半監(jiān)督學習是監(jiān)督學習和無監(jiān)督學習的結合,由于監(jiān)督學習的目標是盡可能保留數(shù)據的關鍵特征,而無監(jiān)督學習的目標是盡可能保留數(shù)據的全部特征以還原數(shù)據,二者存在矛盾,因此使用式(3)的半監(jiān)督方法無法獲得良好的性能。受階梯網絡LadderNet[20]的啟發(fā),在自編碼器的編碼層中加入高斯噪聲,設噪聲變換為g,則。然后使用、ce分別處理有標簽數(shù)據和無標簽數(shù)據。為了優(yōu)化網絡,為每層計算一個要優(yōu)化的損失函數(shù)Lul。對于CNN 中任意j層,修改目標函數(shù)為:

    其中,L是網絡總層數(shù);N(j) 是每層的特征數(shù)據量;是編碼器的輸出通過第j層解碼層輸出的結果。CCLN 方法由卷積神經網絡CNN 和階梯網絡LadderNet組成,處理后的訓練數(shù)據被送入卷積層進行訓練。提取數(shù)據特征后,將特征輸入階梯網絡進行數(shù)據分類,最終得到分類結果。訓練前,將數(shù)據集分為訓練部分和驗證部分進行交叉驗證,然后在訓練部分分離出一個小樣本部分作為有標簽數(shù)據,其余數(shù)據作為無標簽數(shù)據。

    (2)基于TCCLN 的惡意軟件檢測方法

    為了充分利用一些現(xiàn)有的網絡流量數(shù)據集,在半監(jiān)督方法的基礎上結合了遷移學習的方法。首先將現(xiàn)有的網絡流量數(shù)據集進行預處理,然后按照式(2) 進行訓練,得到可用于提取網絡流量特征的卷積神經網絡c。隨后去掉c的分類層,使其輸出特征數(shù)據如下:

    其中,f是卷積神經網絡提取的特征;cf是去掉頭部(如全連接層和softmax)的卷積神經網絡;? conv是cf的參數(shù)。使用cf處理從網絡獲得的無標簽數(shù)據和少量有標簽數(shù)據,得到無標簽特征ful和有標簽特征fl。將ful和fl作為輸入數(shù)據,分類層表示為:

    其中,cTL表示遷移的網絡;fc?表示新分類層的網絡參數(shù);表示? conv被凍結,防止更新。根據式(4)對cTL網絡進行優(yōu)化,即可達到分類目標。CCLN 和TCCLN 的主要區(qū)別在于TCCLN 使用了遷移學習方法。首先將源域數(shù)據輸入預訓練網絡,在完成預訓練后,特征提取器被遷移到目標域并全部凍結;然后輸入目標域數(shù)據,將特征提取器連接到階梯網絡進行分類。在這種方法中,首先使用預訓練集訓練預訓練網絡,然后對數(shù)據集進行劃分,以完成遷移訓練。

    (3)基于TCCLN 方法的消融實驗[22]

    在上文采用的TCCLN 方法中,將預訓練后遷移到目標域的兩個卷積層全部凍結再進行訓練,與此同時也采用了兩種不同的遷移情況:第一種是對于參與預訓練的兩個卷積層均進行遷移學習的二次訓練,這種方法稱為權重未凍結下的TCCLN(UTCCLN,Unfrozen Transfer Convolution Cascade Ladder Network);第二種是凍結參與預訓練的前一層卷積層,第二層卷積層參與二次訓練,這種方法稱為部分權重凍結下的TCCLN(PTCCLN,Partially frozen Transfer Convolution Cascade Ladder Network)。三種基于遷移學習的惡意軟件流量分類方法如圖2 所示。其中,灰色方框內的卷積層代表遷移后在目標域被凍結不參與訓練;綠色方框內的卷積層參與二次訓練。

    圖2 三種基于遷移學習的惡意軟件流量分類方法

    3 實驗與評估

    3.1 實驗參數(shù)設置

    本文所有實驗均基于Geforce GTX 1080ti 為核心的硬件平臺,環(huán)境為Keras 2.2.4 深度學習框架和Python 3.6.2,使用sklearn 0.23.2 中的工具來評估模型,實驗中使用的隨機森林(RF,Random Forest)與支持向量機(SVM,Support Vector Machine)也基于sklearn 機器學習庫。

    3.2 實驗結果

    本次實驗主要使用準確率、精確率、召回率、F1 值以及混淆矩陣來對實驗結果進行評估。在本節(jié)中,首先比較提出的CCLN、TCCLN 方法在有標簽樣本比例為1%和5% 的情況下的分類準確率。如圖3 所示,本文所采用的兩種方法準確率均高于RF、SVM 方法,且采用知識遷移學習的方法(TCCLN)在有標簽樣本數(shù)較少(1%)的情況下獲得了更好的性能,當有標簽樣本數(shù)量增加(5%)時,直接特征提取方法(CCLN)會取得更好的效果。造成這種現(xiàn)象的原因是在樣本較少的情況下,從源域數(shù)據中學習到的知識有助于目標域的數(shù)據訓練。然而,當目標域的訓練數(shù)據增加時,目標域的特征提取層提取的特征與訓練數(shù)據更加一致,具有更好的分類性能,而在源域提取的特征不再適用于目標域的分類。因此,在這種情況下,采用遷移學習的方法性能會更差。

    圖3 不同方法在1%和5%有標簽樣本下的準確率、精確率、召回率及F1值

    消融實驗結果表明,采用全凍結模式的TCCLN 方法取得了最高的準確率,而采用部分凍結的PTCCLN 方法和全不凍結的UTCCLN 方法準確率起伏較大,這是由于遷移過程中源域數(shù)據量大,預訓練過程較為完善,此時的特征提取器分類準確性更強,而在目標域中的有標簽數(shù)據量較少,會對訓練過程產生一定程度上的影響。

    從圖4 可以看出,相比于CCLN 方法,TCCLN 方法在1% 有標簽數(shù)據量時提高了一些軟件流量的識別準確率,然而個別類的識別準確率仍較低。而在圖5 顯示的混淆矩陣中可以看出,在有標簽樣本量增加后,CCLN 方法的準確率高于TCCLN 方法,一些類的識別準確率甚至能達到百分百。

    圖4 有標簽樣本比例為1%時CCLN方法(左)和TCCLN方法(右)的混淆矩陣

    圖5 有標簽樣本比例為5%時CCLN方法(左)和TCCLN方法(右)的混淆矩陣

    4 結束語

    本文分別提出了基于CCLN 和TCCLN 的惡意軟件檢測方法,并介紹了這兩種方法分別應用于有標簽樣本較少(5%)和有標簽樣本更少(1%)的情況?;贑CLN 的惡意軟件檢測方法在有標簽樣本較少的情況下實現(xiàn)了更好的性能,而在有標簽樣本更少的情況下,基于TCCLN 的惡意軟件檢測方法的分類性能更好。實驗結果表明,在有標簽樣本更少的情況下,在訓練前提取樣本特征可以達到較高的分類精度。本文所使用的模型是圖像識別領域的常用模型,通常具有高度的復雜性,因此在執(zhí)行某些特定任務時,應測量所需的精度和計算能力,并適當簡化模型。此外,本文提出的基于遷移學習的方法都需要預訓練模型,這在實際應用中有時很難實現(xiàn)。在未來的工作中,將在幾個示例場景中進一步探索惡意軟件流量分類問題,并優(yōu)化所提出的方法以解決上述問題。

    猜你喜歡
    標簽準確率卷積
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
    2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    無懼標簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    高速公路車牌識別標識站準確率驗證法
    不害怕撕掉標簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    基于傅里葉域卷積表示的目標跟蹤算法
    標簽化傷害了誰
    岑巩县| 玛多县| 高邑县| 航空| 墨玉县| 壶关县| 浦北县| 聂拉木县| 徐州市| 宿州市| 化隆| 龙江县| 灵璧县| 株洲市| 雷州市| 波密县| 华坪县| 九寨沟县| 织金县| 喜德县| 衡阳市| 宜春市| 醴陵市| 多伦县| 湾仔区| 大荔县| 水城县| 应城市| 衡水市| 财经| 牟定县| 扶绥县| 黔江区| 嘉定区| 海兴县| 湟源县| 通许县| 乌恰县| 团风县| 阜平县| 嘉祥县|