• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于生成對(duì)抗網(wǎng)絡(luò)的主機(jī)入侵風(fēng)險(xiǎn)識(shí)別

      2021-11-15 13:24:48李元培潘梓文
      關(guān)鍵詞:標(biāo)簽樣本函數(shù)

      林 英 李元培 潘梓文

      (云南大學(xué)軟件學(xué)院 云南 昆明 650500)

      0 引 言

      隨著計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人們的生活越發(fā)依賴電子設(shè)備帶來的便利,但與之伴隨的計(jì)算機(jī)安全問題也越發(fā)尖銳。根據(jù)2018年Windows平臺(tái)漏洞數(shù)據(jù)統(tǒng)計(jì),Windows主機(jī)系統(tǒng)漏洞提交量總體呈逐年上升趨勢(shì),并且2018年相較之前三年同比上升最高超過40%[1],針對(duì)主機(jī)漏洞發(fā)起的入侵層出不窮。如何對(duì)入侵進(jìn)行有效檢測(cè),成為了網(wǎng)絡(luò)安全研究的重點(diǎn)之一。一般來說,根據(jù)檢測(cè)數(shù)據(jù)的來源,入侵檢測(cè)可以分為基于網(wǎng)絡(luò)的入侵檢測(cè)及基于主機(jī)的入侵檢測(cè)?;诰W(wǎng)絡(luò)的入侵檢測(cè)通過使用原始的IP數(shù)據(jù)包作為數(shù)據(jù)源,檢測(cè)是否存在入侵?;谥鳈C(jī)的入侵檢測(cè)則一般通過檢測(cè)系統(tǒng)、事件、系統(tǒng)日志等方式來發(fā)現(xiàn)入侵。

      隨著機(jī)器學(xué)習(xí)技術(shù)在各個(gè)研究領(lǐng)域的應(yīng)用,基于機(jī)器學(xué)習(xí)的入侵檢測(cè)模型也逐漸成為目前的研究趨勢(shì)[2-4]。然而,諸如貝葉斯算法、決策樹等傳統(tǒng)的機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型相比,在特征不明顯或內(nèi)部約束較復(fù)雜的數(shù)據(jù)處理及特征關(guān)聯(lián)等方面的表現(xiàn)有所欠缺[5],因此基于深度學(xué)習(xí)模型來進(jìn)行入侵檢測(cè)成為了研究熱點(diǎn)之一。如Javaid等[6]提出一種基于深度學(xué)習(xí)的自學(xué)習(xí)技術(shù),從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)良好的特征表示,再進(jìn)行入侵分類。Yin等[7]使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行入侵檢測(cè),提高檢測(cè)的準(zhǔn)確性。Qu等[8]提出基于深度置信網(wǎng)絡(luò)的入侵檢測(cè)模型。Shone等[9]提出基于無監(jiān)督特征學(xué)習(xí)的非對(duì)稱深度自動(dòng)編碼器(Nonsymmetric Deep AutoEncoder,NDAE)??梢钥闯?,目前基于深度學(xué)習(xí)的入侵檢測(cè)系統(tǒng)主要側(cè)重于高維數(shù)據(jù)特征提取的自動(dòng)化、高維數(shù)據(jù)特征降維,以及提高樣本識(shí)別能力等方面,而且大部分研究均使用NSL-KDD[10-11]作為其訓(xùn)練及測(cè)試的數(shù)據(jù)集。

      雖然基于深度學(xué)習(xí)的入侵檢測(cè)能夠有效檢測(cè)惡意軟件、惡意行為、惡意代碼等,但仍然存在如下局限[12]:1) 訓(xùn)練過程中攻擊樣本遠(yuǎn)遠(yuǎn)少于正常樣本,導(dǎo)致檢測(cè)模型失衡,無法正確檢測(cè)出惡意攻擊;2) 惡意攻擊技術(shù)的發(fā)展,使得攻擊者的攻擊手段也在不斷改變, 通過已知的入侵知識(shí)庫進(jìn)行學(xué)習(xí)將導(dǎo)致模型無法檢測(cè)未知的攻擊數(shù)據(jù)。因此研究者們引入生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)[13]生成可使用的攻擊數(shù)據(jù), 增強(qiáng)訓(xùn)練數(shù)據(jù)集, 達(dá)到提升檢測(cè)模型性能的目的。

      2014年,Goodfellow根據(jù)博弈的思想提出一種可在一定程度上自我演化的模型GAN,該模型目前在圖像分類與樣本生成等方面得到了成功且廣泛的應(yīng)用[14-15],主要用于解決訓(xùn)練不穩(wěn)定、模式崩潰、樣本生成等問題[16]。已有研究通過GAN網(wǎng)絡(luò)對(duì)惡意代碼庫進(jìn)行樣本擴(kuò)展,解決入侵手段進(jìn)化導(dǎo)致攻擊樣本老舊的問題[17]。一些基于GAN的檢測(cè)模型也相繼提出,如t-GAN[18]用于檢測(cè)惡意代碼,t-DCGAN[19]用以提升t-GAN模型訓(xùn)練過程的穩(wěn)定性,Bot-GAN[20]用于檢測(cè)僵尸網(wǎng)絡(luò),以及CF-GAN[21]用于檢測(cè)在線支付欺詐。

      本文從受保護(hù)的設(shè)備本身的角度,提出基于主機(jī)特征的入侵風(fēng)險(xiǎn)識(shí)別框架,旨在建模主機(jī)設(shè)備特征以及是否曾遭受入侵,并在此基礎(chǔ)上基于GAN設(shè)計(jì)并實(shí)現(xiàn)了風(fēng)險(xiǎn)識(shí)別網(wǎng)絡(luò)TR-GAN (Threaten Recognition-GAN)。該模型可以對(duì)主機(jī)當(dāng)前遭受入侵的風(fēng)險(xiǎn)程度進(jìn)行評(píng)估,且評(píng)估的結(jié)果可以在一定程度上作為系統(tǒng)安全管理員部署安全策略的參考。

      1 模型設(shè)計(jì)

      1.1 簡(jiǎn) 介

      GAN模型主要分為生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩個(gè)模塊,生成網(wǎng)絡(luò)根據(jù)訓(xùn)練集的學(xué)習(xí)并加入隨機(jī)噪聲生成新的樣本,判別網(wǎng)絡(luò)對(duì)輸入的樣本判斷其標(biāo)簽。訓(xùn)練的目的是為了最小化兩個(gè)子網(wǎng)絡(luò)的損失函數(shù),其模型目標(biāo)函數(shù)如下:

      Ez~Px(z)[log(1-D(G(z)))]

      (1)

      式中:x~Pdata(x)表示真實(shí)數(shù)據(jù)x服從分布Pdata(x);z~Pz(z)表示生成器的輸入z服從某一分布Pz(z);生成器通過學(xué)習(xí)x的分布,使生成器的輸出G(z)服從Pdata(x)來達(dá)到誤導(dǎo)判別器的目的;D(x)表示判別器對(duì)真實(shí)數(shù)據(jù)來源的估計(jì);D(G(z))表示判別器對(duì)生成器所生成的數(shù)據(jù)來源的估計(jì)。

      AC-GAN[22]、LS-GAN[23]是GAN的變形,在AC-GAN中,每個(gè)被生成器產(chǎn)生的樣本都附帶相應(yīng)的類別標(biāo)簽,判別器不僅給出了當(dāng)前樣本來源的概率分布,還對(duì)樣本所屬的標(biāo)簽進(jìn)行了估計(jì)。其中:Ls代表輸入數(shù)據(jù)的真實(shí)來源,即對(duì)被判定為正確類別的樣本集合對(duì)其是否來自真樣本集合進(jìn)行估計(jì);Lc代表輸入數(shù)據(jù)的正確標(biāo)簽。生成器及判別器都被訓(xùn)練為最大化目標(biāo)函數(shù)Ls+Lc。AC-GAN與GAN相比訓(xùn)練效果較好,但仍采用基于最大似然估計(jì)的方法,默認(rèn)總體上的各個(gè)樣本獨(dú)立且同分布,所以當(dāng)樣本屬性間有較強(qiáng)內(nèi)在關(guān)聯(lián)性或異常值與樣本數(shù)據(jù)存在系統(tǒng)相關(guān)性時(shí),參數(shù)更新過程中可能出現(xiàn)梯度消失的問題。

      Ls=E[logP(S=real|Xreal)]+E(logP(S=fake|Xfake)]

      (2)

      Lc=E[logP(C=c|Xreal)]+E[logP(C=c|Xfake)]

      (3)

      式中:S=real表示判別器判定該樣本來自真實(shí)數(shù)據(jù);S=fake表示判別器判定該樣本是由生成器生成的數(shù)據(jù);C表示判別器對(duì)該樣本標(biāo)簽的預(yù)測(cè)值;c表示該樣本標(biāo)簽的實(shí)際值;Xreal表示該樣本來自真實(shí)數(shù)據(jù);Xfake表示該樣本是由生成器生成的樣本。LS-GAN中的目標(biāo)函數(shù)如式(4)所示,以最小二乘法計(jì)算預(yù)測(cè)樣本標(biāo)簽與實(shí)際標(biāo)簽間的平均歐氏距離。

      (4)

      LS-GAN中的目標(biāo)函數(shù)可在一定程度上規(guī)避梯度消失的情況,但其生成器需要較多輪次的訓(xùn)練才能達(dá)到穩(wěn)定。本文基于AC-GAN與LS-GAN,設(shè)計(jì)并實(shí)現(xiàn)了名為風(fēng)險(xiǎn)識(shí)別網(wǎng)絡(luò)的變體架構(gòu)TR-GAN (Threaten Recognition-GAN),在滿足識(shí)別率和魯棒性要求的同時(shí),其訓(xùn)練效率更高。

      1.2 總體架構(gòu)

      TR-GAN可以輔助系統(tǒng)管理員對(duì)主機(jī)遭受攻擊的風(fēng)險(xiǎn)進(jìn)行識(shí)別,從而便于其采取相應(yīng)的預(yù)防措施以及設(shè)置合適的防御等級(jí)等安全策略。其主要由以下2個(gè)模塊構(gòu)成:

      1) 基于主機(jī)特征的風(fēng)險(xiǎn)識(shí)別模塊。識(shí)別模塊實(shí)現(xiàn)對(duì)主機(jī)遭受攻擊風(fēng)險(xiǎn)的預(yù)測(cè)。

      2) 風(fēng)險(xiǎn)樣本生成模塊。風(fēng)險(xiǎn)樣本是指使用真實(shí)樣本訓(xùn)練的生成網(wǎng)絡(luò)所生成的,并可以被風(fēng)險(xiǎn)識(shí)別模塊判定為被攻擊風(fēng)險(xiǎn)較大的樣本。本文使用9×9的高斯噪聲作為噪聲輸入,利用生成器構(gòu)建新的主機(jī)特征數(shù)據(jù)。

      由于在實(shí)際應(yīng)用中,存在模型因?qū)δ承傩匀≈得舾谢虿糠謽颖緮?shù)據(jù)不服從獨(dú)立同分布導(dǎo)致目標(biāo)函數(shù)抖動(dòng)而出現(xiàn)梯度偏移或梯度消失的問題。本文基于AC-GAN和LS-GAN中的模型優(yōu)化方法,設(shè)計(jì)了如式(5)所示的目標(biāo)函數(shù)L,用于降低在數(shù)據(jù)的非凸區(qū)間上因數(shù)據(jù)不一致或噪聲在進(jìn)行梯度下降優(yōu)化過程中由于單一判據(jù)導(dǎo)致?lián)p失函數(shù)偏離實(shí)際損失,從而計(jì)算出的梯度與實(shí)際梯度不符。

      L=Ls+L2

      (5)

      式(5)將Ls、L2求和以作為共同判據(jù),式(6)為式(2)中的集合,表示被正確識(shí)別的樣本集合,其中:X為標(biāo)簽,0表示未受攻擊,1表示曾受攻擊;Threaten表示模型將該主機(jī)估計(jì)為易受攻擊;Safe表示模型將該主機(jī)估計(jì)為不易受攻擊。

      S=(Threaten|X=1)∪ (Safe|X=0)

      (6)

      2 模型實(shí)現(xiàn)

      本節(jié)根據(jù)以上架構(gòu)將已經(jīng)預(yù)處理好的數(shù)據(jù)樣本作為模型輸入,對(duì)訓(xùn)練集中的數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)識(shí)別。使用訓(xùn)練后的TR-GAN的判別器部分作為最終的風(fēng)險(xiǎn)評(píng)估模型,生成器生成的樣本作為系統(tǒng)安全管理員設(shè)置安全策略的參考。

      2.1 主機(jī)模型建立

      主機(jī)模型需要采集能夠影響主機(jī)安全性的參數(shù),實(shí)現(xiàn)對(duì)目標(biāo)主機(jī)潛在信息的發(fā)掘和安全性的判斷,可以針對(duì)如下設(shè)備參數(shù)進(jìn)行參數(shù)采集和規(guī)則的建立,如表1所示。

      表1 設(shè)備參數(shù)選擇及取值規(guī)則

      本文從設(shè)備硬件、操作系統(tǒng)兩方面選取對(duì)主機(jī)安全具有決定性的關(guān)鍵特征[24-25]用于建立主機(jī)特征。根據(jù)上述規(guī)則,主機(jī)安全特征可以由以下向量描述:

      feature=[Census_ChassisTypeNameOSEditionCensus_OSVersionCensus_PrimaryDiskTypeEngineVersionSmartScreenIsFwOsBuildCensus_IsTouchEnabled…]

      (7)

      2.2 數(shù)據(jù)集

      本文使用的數(shù)據(jù)集來源于數(shù)據(jù)挖掘網(wǎng)站Kaggle。訓(xùn)練集共包含約4.46×107條遭受攻擊的主機(jī)樣本和4.45×107條未遭受攻擊的主機(jī)樣本[26]。

      2.3 數(shù)據(jù)預(yù)處理

      本文基于以下規(guī)則對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:

      1) 刪去缺失比例超過80%或單一值比例超過85%的屬性。

      2) 取值種類超過10 000個(gè)的非連續(xù)型數(shù)據(jù),按K-means規(guī)則進(jìn)行離散化,使其取值種類不多于200個(gè)。

      3) 數(shù)據(jù)缺失較少的屬性隨機(jī)填充已有值,且滿足填充前后數(shù)據(jù)分布不變。

      4) 對(duì)非連續(xù)型數(shù)據(jù)按獨(dú)熱編碼(One-Hot Encoding)方式重編碼。

      5) 因某些屬性的實(shí)際最值未必會(huì)出現(xiàn)在訓(xùn)練集中,故對(duì)連續(xù)型數(shù)據(jù)按式(8)規(guī)則進(jìn)行規(guī)范化。

      (8)

      部分轉(zhuǎn)換后的屬性前后對(duì)比如表2所示,僅列出處理后的十個(gè)屬性對(duì)比。

      表2 預(yù)處理前后屬性類型對(duì)比(部分)

      將每條數(shù)據(jù)記錄按算法1中規(guī)則映射為位圖,以滿足模型的輸入格式要求。

      算法1數(shù)據(jù)-位圖轉(zhuǎn)化算法

      輸入:經(jīng)預(yù)處理后的數(shù)據(jù)集SET1。

      輸出:位圖數(shù)組集合BMPSET。

      1) PadArray(SET1)

      //將每條實(shí)例數(shù)組填充至N×N

      3) WHILE(S>0) DO

      4) Feature[S-1]=(Feature[S-1]/MAXS-1-MINS-1)

      //對(duì)屬性取值歸一化

      5)S=S-1

      6) END WHILE

      7) WHILE(i

      8) FOR EACHm

      9) BMP[i][m]=Feature[i*N+m]

      //將屬性取值填入位圖數(shù)組

      10)i=i+1

      11) END WHILE

      12) RETURN BMPSET

      2.4 模型判別器有效性測(cè)試

      本文隨機(jī)選用訓(xùn)練集的6×107條實(shí)際主機(jī)樣本作為訓(xùn)練數(shù)據(jù),1.5×107條實(shí)際主機(jī)樣本作為測(cè)試用數(shù)據(jù)。在每輪迭代之后對(duì)當(dāng)前訓(xùn)練結(jié)果進(jìn)行測(cè)試,并把該判別器的表現(xiàn)和相同參數(shù)下的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)、LS-GAN、AC-GAN得到的結(jié)果進(jìn)行對(duì)比,如圖1-圖3所示。

      圖1 TR-GAN與AC-GAN模型損失函數(shù)對(duì)比

      圖2 TR-GAN與LS-GAN模型損失函數(shù)對(duì)比

      圖3 TR-GAN與CNN、LS-GAN、AC-GAN的逐批次準(zhǔn)確率對(duì)比

      TR-GAN與AC-GAN模型損失函數(shù)曲線如圖1所示。對(duì)模型中的生成器而言,TR-GAN中生成器的損失函數(shù)的絕對(duì)值較高但收斂更穩(wěn)定,受噪聲影響導(dǎo)致的梯度更新時(shí)的方向偏移更小。

      TR-GAN與LS-GAN模型損失函數(shù)曲線如圖2所示。對(duì)模型中的生成器而言,TR-GAN中生成器和判別器損失函數(shù)二者的差值相比于LS-GAN中更小,模型損失函數(shù)收斂更快。且在3 000輪以內(nèi),TR-GAN的生成器表現(xiàn)更好。

      使用TR-GAN中判別器與相同參數(shù)下卷積的神經(jīng)網(wǎng)絡(luò)、AC-GAN的判別器、LS-GAN的判別器得到的測(cè)試結(jié)果進(jìn)行對(duì)比。從圖3可以看出,卷積神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率較低,僅約70%,與LS-GAN、AC-GAN相比,TR-GAN判別器的識(shí)別準(zhǔn)確率更為穩(wěn)定。這是由于TR-GAN的目標(biāo)函數(shù)中穩(wěn)定了單一損失函數(shù)在其不適宜的數(shù)據(jù)分布函數(shù)上的失效程度,穩(wěn)定判別器在對(duì)模型參數(shù)進(jìn)行梯度更新時(shí)選擇的方向?qū)?shù)。

      故當(dāng)有較好計(jì)算條件且需要較好模型魯棒性時(shí)或當(dāng)計(jì)算資源有限并且需要較高的識(shí)別準(zhǔn)確率時(shí),更適用TR-GAN。

      本文方法與其他相關(guān)文獻(xiàn)方法的綜合比較結(jié)果如表3所示。

      表3 本文方法與其他相關(guān)方法綜合比較

      1) 在模型的驗(yàn)證方面,文獻(xiàn)[27]和文獻(xiàn)[31]均只提出了模型概念,并未使用實(shí)際數(shù)據(jù)驗(yàn)證,而本文則依據(jù)實(shí)際數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證。

      2) 在數(shù)據(jù)規(guī)模上,文獻(xiàn)[28]和文獻(xiàn)[29]使用的數(shù)據(jù)集數(shù)據(jù)規(guī)模較小,本文使用了較大規(guī)模的數(shù)據(jù),有較好的魯棒性和泛化能力。

      3) 在模型準(zhǔn)確率方面,本文模型的識(shí)別效果相比于文獻(xiàn)[30]更準(zhǔn)確。

      2.5 模型生成器參考性評(píng)估

      為驗(yàn)證TR-GAN生成器的表現(xiàn),首先對(duì)比其生成器與AC-GAN、DC-GAN、LS-GAN在相同訓(xùn)練輪次下生成手寫數(shù)字的效果,如圖4和圖5所示。

      圖4 訓(xùn)練輪次為600輪時(shí)手寫數(shù)字生成情況

      圖5 訓(xùn)練輪次為1 000輪時(shí)手寫數(shù)字的生成情況

      各模型生成器手寫數(shù)字生成情況如表4所示。

      表4 規(guī)定訓(xùn)練輪次下各模型生成器生成手寫數(shù)字效果

      圖4直觀顯示出TR-GAN通過較少的輪次訓(xùn)練,生成器就可以生成較為清楚的手寫數(shù)字,相比其他三種神經(jīng)網(wǎng)絡(luò),模型目標(biāo)函數(shù)收斂更快。圖5中在1 000輪次訓(xùn)練下,AC-GAN模型的生成器的手寫數(shù)字生成效果才與TR-GAN相似,而LS-GAN和DC-GAN生成的手寫數(shù)字仍處于較為模糊的狀態(tài)。

      通過以上對(duì)比得出,TR-GAN的生成器具有更高的樣本生成效率,因此選用TR-GAN進(jìn)行訓(xùn)練并生成主機(jī)樣本相對(duì)于其他生成網(wǎng)絡(luò)模型具有更高的效率。

      同時(shí),為驗(yàn)證生成樣本作為系統(tǒng)安全管理員部署安全措施參考依據(jù)的可行性,本文從測(cè)試數(shù)據(jù)及訓(xùn)練后的生成樣本中隨機(jī)抽取一條標(biāo)簽為1的樣本作比照分析。對(duì)每個(gè)樣本屬性填充并歸一化后映射為灰度圖,如圖6所示。

      圖6 生成樣本參考性比較

      圖6中,當(dāng)?shù)啍?shù)達(dá)到一定次數(shù)時(shí),由生成器生成的樣本表現(xiàn)出了與原始樣本相同的特征。生成器損失函數(shù)收斂后所產(chǎn)生的生成樣本與原始樣本的特征具有較大的相似性,并且在判別器中有相同的判別標(biāo)簽。再將該生成樣本按照文中設(shè)置的規(guī)則重新轉(zhuǎn)化回?cái)?shù)據(jù)記錄即可作為系統(tǒng)安全管理員部署安全規(guī)則的參考。

      3 結(jié) 語

      本文設(shè)計(jì)并實(shí)現(xiàn)TR-GAN系統(tǒng)用以輔助系統(tǒng)管理員對(duì)主機(jī)遭受攻擊的風(fēng)險(xiǎn)進(jìn)行識(shí)別,從而便于其采取相應(yīng)的預(yù)防措施以及設(shè)置合適的防御等級(jí)等安全策略。并且通過主機(jī)特征模型的建立為入侵風(fēng)險(xiǎn)監(jiān)測(cè)提供了新的思路。值得注意的是,本文模型可以識(shí)別出主機(jī)是否存在受攻擊的風(fēng)險(xiǎn),但對(duì)于具體受攻擊的時(shí)間方面并沒有相應(yīng)的算法支持,下一步的研究可以圍繞如何對(duì)主機(jī)受攻擊的時(shí)間進(jìn)行預(yù)測(cè)展開。

      猜你喜歡
      標(biāo)簽樣本函數(shù)
      二次函數(shù)
      第3講 “函數(shù)”復(fù)習(xí)精講
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      二次函數(shù)
      函數(shù)備考精講
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      推動(dòng)醫(yī)改的“直銷樣本”
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      標(biāo)簽化傷害了誰
      江口县| 九寨沟县| 拉萨市| 阿拉善右旗| 墨江| 安康市| 乐清市| 河津市| 开江县| 黑水县| 麦盖提县| 荃湾区| 化德县| 辽阳市| 丰县| 高邮市| 桐城市| 海城市| 龙江县| 万安县| 虹口区| 同江市| 山西省| 都兰县| 永平县| 安龙县| 南昌市| 泽州县| 吉木乃县| 康定县| 阿克| 九龙县| 牡丹江市| 汽车| 垫江县| 苏尼特右旗| 龙川县| 华坪县| 阿巴嘎旗| 武威市| 崇仁县|