• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于生成對(duì)抗網(wǎng)絡(luò)的異常行為模擬算法研究

      2020-01-07 10:43:18趙維
      關(guān)鍵詞:數(shù)據(jù)類型分類器卷積

      趙維

      (吉林警察學(xué)院,長(zhǎng)春 130117)

      隨著網(wǎng)絡(luò)的普及程度越來越高,網(wǎng)絡(luò)攻擊和異常行為的數(shù)量和破壞力也在顯著增長(zhǎng)[1]。思科VNS預(yù)測(cè)[2],2020年DDOS攻擊事件數(shù)量將為2015年時(shí)的3倍。如何在異常網(wǎng)絡(luò)流量中檢測(cè)出惡意的攻擊,成為網(wǎng)絡(luò)安全領(lǐng)域關(guān)注的熱點(diǎn)問題。

      網(wǎng)絡(luò)攻擊發(fā)生時(shí),其數(shù)據(jù)流量特征通常會(huì)進(jìn)行偽裝,直接將網(wǎng)絡(luò)數(shù)據(jù)集提交給算法學(xué)習(xí)可能引起模式坍塌[3]。生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)最早于2014年由Goodfellow[4]等人提出,來源于博弈論中的零和博弈思想[5]。GAN首次應(yīng)用于圖像處理領(lǐng)域[6],并取得了顯著的成效;借助于其學(xué)習(xí)能力強(qiáng)和應(yīng)用靈活的特點(diǎn),在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用也日益增加。

      針對(duì)當(dāng)前網(wǎng)絡(luò)攻擊和異常數(shù)據(jù)檢測(cè)算法中存在的異常行為數(shù)據(jù)量不平衡的問題,本文通過GAN迭代訓(xùn)練產(chǎn)生模擬異常行為數(shù)據(jù),能夠盡可能的接近原始數(shù)據(jù)。進(jìn)一步采用K-means算法對(duì)生成數(shù)據(jù)進(jìn)行聚類分析,分析模擬樣本的特征和其包含的類別數(shù)量。實(shí)驗(yàn)表明,所提出的方法能夠生成高質(zhì)量的模擬樣本,解決在異常檢測(cè)中訓(xùn)練的異常樣本過少導(dǎo)致的問題,提高異常檢測(cè)的效果。

      1 生成式對(duì)抗網(wǎng)絡(luò)

      生成式對(duì)抗網(wǎng)絡(luò)模仿博弈論中的二人零和博弈[7]的模式,由一個(gè)生成器和一個(gè)判別器構(gòu)成。生成器在接收真實(shí)數(shù)據(jù)樣本之后,自我學(xué)習(xí)樣本特征生成新的數(shù)據(jù)樣本。判別器作為分類器,判斷輸入是真實(shí)數(shù)據(jù)還是生成的樣本數(shù)據(jù)。和傳統(tǒng)模型相比,GAN擁有如下優(yōu)點(diǎn):

      (1)線性相關(guān)。GAN生成的數(shù)據(jù)復(fù)雜度和維度呈現(xiàn)線性相關(guān)。因此當(dāng)通過GAN生成一個(gè)較大的圖像時(shí),可以避免指數(shù)級(jí)的計(jì)算量上升,而是呈現(xiàn)線性增長(zhǎng)的過程。

      (2)先驗(yàn)假設(shè)少。GAN不對(duì)數(shù)據(jù)進(jìn)行任何的顯式參數(shù)分布假設(shè),對(duì)于使用者來說,不需要對(duì)學(xué)習(xí)過程進(jìn)行過多干預(yù),只需要在模型完成后對(duì)學(xué)習(xí)效果進(jìn)行評(píng)估。

      (3)樣本質(zhì)量高。GAN可以生成高質(zhì)量的樣本,即使無(wú)法獲得概率密度,仍然可以學(xué)習(xí)后生成樣本。

      近年來針對(duì)GAN的研究逐漸增多[8]。美國(guó)的Mariz在2014年的神經(jīng)處理國(guó)際會(huì)議上提出極大極小博弈,即GAN的訓(xùn)練目標(biāo)是使生成器G與判別器D達(dá)到納什均衡,此時(shí)生成模型G產(chǎn)生的數(shù)據(jù)分布完全擬合真實(shí)數(shù)據(jù)分布。2017年美國(guó)麻省理工學(xué)院的Léon Bottou等人提出對(duì)于生成樣本和真實(shí)樣本加噪聲,并在訓(xùn)練過程中對(duì)噪聲進(jìn)行退火。結(jié)果表明此方法解決了訓(xùn)練器梯度消失的問題。同年中國(guó)科學(xué)院嘗試使用GAN生成模擬攻擊流量以欺騙防御系統(tǒng),希望借此能發(fā)現(xiàn)新的網(wǎng)絡(luò)防御手段[9]。中國(guó)自動(dòng)化研究所王飛躍研究員認(rèn)為,GAN通過真與假平行而立,將這一對(duì)矛盾對(duì)立統(tǒng)一,成為生產(chǎn)數(shù)據(jù)的一種有效手段。GAN網(wǎng)絡(luò)的基本框架如圖1所示[10]。

      圖1 GAN的基本框架

      設(shè)變量zxGDz為隨機(jī)噪聲,x為輸入的樣本數(shù)據(jù),G代表生成模型,D代表判別模型,將D作為一個(gè)二分類器,GAN可以表示為式:

      其中,logD(x)是判別器的判斷;log(1-D(G(z)))表示生成數(shù)據(jù)的判斷,通過持續(xù)的極大極小值的相互博弈,循環(huán)交替不停優(yōu)化G和D,直到兩個(gè)模型到達(dá)納什均衡。GAN的最小化目標(biāo)函數(shù)可能會(huì)發(fā)生梯度彌散,使目標(biāo)函數(shù)很難再去更新生成器,導(dǎo)致GAN的訓(xùn)練過程不穩(wěn)定。LSGANs會(huì)懲罰遠(yuǎn)離決策邊界的樣本,解決上述問題。這些樣本的梯度是梯度下降的決定方向。在LSGANs中交叉熵并不關(guān)心距離,而是僅僅關(guān)注于是否正確分類,其判別器的目標(biāo)函數(shù)為:

      生成器的目標(biāo)函數(shù)為:

      在訓(xùn)練模型的過程之中,abc滿足b-c=1和b-a=2,模型可以緩解訓(xùn)練時(shí)的不穩(wěn)定并且提高生成器的多樣性。

      2 基于GAN的模擬數(shù)據(jù)生成算法

      KDD99數(shù)據(jù)集[11]是由美國(guó)國(guó)防部高級(jí)規(guī)劃署1998年在MIT林肯實(shí)驗(yàn)室實(shí)行的入侵檢測(cè)評(píng)估項(xiàng)目。實(shí)驗(yàn)室建立了一個(gè)為期九周的網(wǎng)絡(luò)模擬環(huán)境,在該環(huán)境中收集每一個(gè)用戶類型,所有的網(wǎng)絡(luò)連接、每種不同類型的網(wǎng)絡(luò)流量和攻擊手段。數(shù)據(jù)集中包含約五百萬(wàn)條訓(xùn)練數(shù)據(jù)的網(wǎng)絡(luò)連接記錄,和約兩百萬(wàn)條測(cè)試數(shù)據(jù)的網(wǎng)絡(luò)連接記錄。在訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)中,不同數(shù)據(jù)類型存在著不同的概率分布,其中測(cè)試數(shù)據(jù)中包含有一些并未存在于訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù),可以保證該數(shù)據(jù)集更具有現(xiàn)實(shí)性。NSL-KDD作為KDD99的改進(jìn),刪除了原來的訓(xùn)練集和測(cè)試集中冗余的記錄,使得數(shù)據(jù)集對(duì)于學(xué)習(xí)技術(shù)的評(píng)估更有效,它是入侵檢測(cè)領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)集之一。本文采用NSL-KDD數(shù)據(jù)集訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)模型,訓(xùn)練集共包含125 972條數(shù)據(jù)。

      2.1 數(shù)據(jù)樣本特征分析

      數(shù)據(jù)集中一個(gè)完整的網(wǎng)絡(luò)連接,是指某一時(shí)間從開始到結(jié)束的TCP數(shù)據(jù)包序列。在一時(shí)間段內(nèi),數(shù)據(jù)通過網(wǎng)絡(luò)協(xié)議之完成源IP到目的IP的傳輸。網(wǎng)絡(luò)連接分為正常和異常兩種類型。其中異常數(shù)據(jù)類型如表1所示。

      表1 異常數(shù)據(jù)類型

      典型的數(shù)據(jù)集中樣本由41個(gè)特征表示,如下所示:

      0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,1.00,0.00,0.00,150,25,0.17,0.03,0.17,0.00,0.00,0.00,0.05,0.00,normal

      0,udp,other,SF,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,13,1,0.00,0.00,0.00,0.00,0.08,0.15,0.00,255,1,0.00,0.60,0.88,0.00,0.00,0.00,0.00,0.00,normal

      0,tcp,private,S0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,123,6,1.00,1.00,0.00,0.00,0.05,0.07,0.00,255,26,0.10,0.05,0.00,0.00,1.00,1.00,0.00,0.00,neptune

      其順序特征的含義如表2所示。訓(xùn)練集中不同攻擊類型的比例如表3所示。

      表2 數(shù)據(jù)的41種特征類型

      表3 訓(xùn)練集中不同攻擊類型的比例

      2.2 數(shù)據(jù)集預(yù)處理

      數(shù)據(jù)集的預(yù)處理主要包含如下步驟:

      (1)標(biāo)識(shí)統(tǒng)一化。將Normal、Dos、Probe、U2L、R2L分別表示為1、2、3、4、5,以便于在GAN網(wǎng)絡(luò)中進(jìn)行處理。

      (2)數(shù)值化。將字符型特征轉(zhuǎn)化為數(shù)值型特征,具體而言,分別將3種協(xié)議類型、70種網(wǎng)絡(luò)服務(wù)類型、11種網(wǎng)絡(luò)連接狀態(tài)和所有攻擊類型轉(zhuǎn)化成數(shù)字標(biāo)識(shí)。

      (3)標(biāo)準(zhǔn)化。在分析過程中,為了降低原始數(shù)據(jù)值首先對(duì)數(shù)值化后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,設(shè)X'ij為Xij標(biāo)準(zhǔn)化處理后的值,AVGj為平均值,STADj為平均絕對(duì)偏差,處理過程如下:

      (4)歸一化。將數(shù)值進(jìn)行歸一化處理至[0,1]區(qū)間,得到適用于GAN的數(shù)據(jù)集,從而適于在其中進(jìn)行訓(xùn)練。

      預(yù)處理后的數(shù)據(jù)如圖2所示。

      圖2 預(yù)處理數(shù)據(jù)集結(jié)果

      2.3 數(shù)據(jù)樣本生成方法

      在上述五種攻擊類型中,U2L和R2L兩種類型所占比例都極小。本文利用GAN對(duì)這兩種類型數(shù)據(jù)進(jìn)行生成增加其所占的比例。將這兩種數(shù)據(jù)類型的潛在特征分次訓(xùn)練GAN,生成足量樣本數(shù)據(jù)之后,再混入原始數(shù)據(jù)中,解決該類型樣本較少的情況。

      選定GAN的Batch_Size,即“尺寸”參數(shù),Batch_Size有兩種選擇方式:一是選擇全數(shù)據(jù)集,可以更好的進(jìn)行訓(xùn)練代表樣本特征;二是選擇最小數(shù)量樣本訓(xùn)練,即每次只訓(xùn)練一個(gè)樣本,可以使函數(shù)達(dá)到最快收斂。結(jié)合這兩種方法,由上面預(yù)處理過程可知,數(shù)據(jù)類型最少的為U2R僅有52份,從中隨機(jī)選取50份作為整塊數(shù)據(jù)輸入至GAN的模型之中。根據(jù)初始數(shù)據(jù)設(shè)置不平衡比例為:

      其中,N-為U2L樣本數(shù)量;N+設(shè)置為NORMAL樣本數(shù)量。在重復(fù)利用GAN生成樣本過程中,num會(huì)隨之不斷增大,直到為一。此時(shí)停止樣本生成,樣本比例達(dá)到平衡。過程中對(duì)于不同類型樣本進(jìn)行迭代次數(shù)也不一樣,需要GAN的迭代生成次數(shù)為:

      其中,count為不同類型數(shù)據(jù)需要的迭代次數(shù);N設(shè)置為需要生成的數(shù)據(jù)類型的初始樣本數(shù)量;x為GAN設(shè)置的Batch_Size。在將U2L樣本X+導(dǎo)入至GAN模型之后,目標(biāo)函數(shù)變化情況為:

      對(duì)于鑒別器來說,其數(shù)值根據(jù)樣本的整體特征進(jìn)行改變。當(dāng)生成器恢復(fù)數(shù)據(jù)分布的時(shí)候,那么無(wú)論如何判別器都會(huì)表示為0.5。

      在訓(xùn)練GAN的過程中,為了進(jìn)一步加快GAN的收斂速度,采用RMSprop算法優(yōu)化損失函數(shù),產(chǎn)生數(shù)據(jù)的步驟和目標(biāo)函數(shù)迭代變化如圖3所示。

      圖3 D與G的目標(biāo)函數(shù)迭代變化情況

      在圖3中可以看出,在對(duì)抗網(wǎng)絡(luò)模型剛開始學(xué)習(xí)的時(shí)候,生成器和判別器的目標(biāo)函數(shù)波動(dòng)很大,此時(shí)對(duì)于特征的分析不夠全面,損失函數(shù)逐步升至最大值。隨著兩者的持續(xù)博弈,G對(duì)于干擾特征逐一舍棄,提取正確的特征值生成數(shù)據(jù),目標(biāo)函數(shù)因此趨于穩(wěn)定,損失函數(shù)逐漸減至最小值。經(jīng)過三千次左右的訓(xùn)練之后,目標(biāo)函數(shù)和損失函數(shù)基本維持不變。最終經(jīng)過五千次訓(xùn)練之后,認(rèn)為此時(shí)模型訓(xùn)練完畢。

      所生成的模擬數(shù)據(jù),如圖4所示。

      圖4 生成模擬數(shù)據(jù)截圖

      通過對(duì)比樣本特征,此時(shí)生成器已經(jīng)訓(xùn)練完畢,可以利用生成器對(duì)于U2L數(shù)據(jù)類型再次進(jìn)行生成運(yùn)算,直到得到與NORMAL數(shù)量相同的數(shù)據(jù)量,此時(shí)運(yùn)算結(jié)果數(shù)據(jù)特征可認(rèn)為等同于真實(shí)數(shù)據(jù)。對(duì)于其他異常數(shù)據(jù)類型都進(jìn)行和U2L的同樣操作,最終獲得所有數(shù)據(jù)類型平衡的生成樣本。將生成數(shù)據(jù)與原始數(shù)據(jù)混合,通過統(tǒng)計(jì)標(biāo)簽得出混合之后數(shù)據(jù)集中每種類型所占比例。

      3 數(shù)據(jù)質(zhì)量評(píng)估

      3.1 基于統(tǒng)計(jì)方法評(píng)估

      通過GAN生成數(shù)據(jù)之后,將生成的模擬樣本與原始真實(shí)數(shù)據(jù)集樣本混合,選擇分類器對(duì)二者的混合樣本進(jìn)行分類。如果分類器分辨不出兩者,表示生成的模擬數(shù)據(jù)質(zhì)量較好,反之,分類器的分類效果越好,則說明生成的數(shù)據(jù)質(zhì)量不好。

      收集所有生成數(shù)據(jù),將數(shù)據(jù)集按照5大類型分類統(tǒng)計(jì),并計(jì)算所有生成數(shù)據(jù)在生成樣本中的比例。其中除去正常的NORMAL類型之外,PROBE中包含 ipseep,satan,nmap等類型,DOS 中包含apache2,back,nepture等類型,U2R 中包含 buffer_overflow,roorkit等類型,R2L中包含ftp_write,anmpgetattack等類型。

      K-means聚類算法[12]將樣本劃分成具有不同特征的子集,隨機(jī)選定K個(gè)聚類核心,利用歐式距離計(jì)算每個(gè)數(shù)據(jù)到各個(gè)聚類中心的距離。然后將數(shù)據(jù)聚集到與其特征最相近的聚類核心附近,在所有數(shù)據(jù)子集都分配結(jié)束后再重新計(jì)算每個(gè)子集的質(zhì)心,不斷重復(fù)這一過程直到算法趨向于某一數(shù)值時(shí)停止。

      將生成數(shù)據(jù)和原始數(shù)據(jù)混合后的聚類中心特征值如表4所示,數(shù)據(jù)特征由聚類中心特征值表示。在通過K-means聚類算法分析后,在K=5時(shí)聚類效果最好,能夠有效解決特定攻擊類型樣本數(shù)據(jù)不足問題,同時(shí)生成的樣本數(shù)據(jù)和原本的數(shù)據(jù)特征相似,能夠達(dá)到較高的數(shù)據(jù)質(zhì)量。

      表4 聚類不同類型特征值

      3.2 基于深度學(xué)習(xí)模型評(píng)估

      將GAN生成的異常數(shù)據(jù)混合到初始樣本中,使原本不平衡的數(shù)據(jù)比例達(dá)到平衡,再導(dǎo)入分類器訓(xùn)練。由于數(shù)據(jù)集為一維數(shù)組,分類器使用的是三維數(shù)組,所以將數(shù)據(jù)從一維數(shù)組轉(zhuǎn)換為三維數(shù)組后進(jìn)行訓(xùn)練。

      深度神經(jīng)網(wǎng)絡(luò)增加網(wǎng)絡(luò)的深度和拓寬網(wǎng)絡(luò)的寬度可以提高其性能和效率。但也會(huì)出現(xiàn)過擬合,相對(duì)而言,增加網(wǎng)絡(luò)的大小會(huì)導(dǎo)致網(wǎng)絡(luò)計(jì)算量的劇增。GoogleNet在卷積神經(jīng)網(wǎng)絡(luò)上采用了一種叫做Inception模塊的網(wǎng)絡(luò)結(jié)構(gòu),利用卷積層對(duì)特征降維,限制網(wǎng)絡(luò)參數(shù)的大小,并在網(wǎng)絡(luò)模型中添加一個(gè)歸一化層(BN),用以消除如果前一次發(fā)生變化而導(dǎo)致接下來層數(shù)受到的影響。使用BN層可以有效的防止過擬合,有效的提高模型的泛化能力。分類器將一個(gè)相對(duì)較大的卷積拆分成幾個(gè)更小的卷積,將n*n的卷積分別拆成n*1卷積和1*n卷積。分類器在計(jì)算的時(shí)候既可以節(jié)約大量參數(shù),加速運(yùn)算并減去過擬合,提高運(yùn)算效率,又可以增加了一層非線性擴(kuò)展模型表達(dá)能力。這樣非對(duì)稱的卷積結(jié)構(gòu)拆分,結(jié)果比對(duì)稱地拆分為幾個(gè)相同的小卷積核效果更明顯,可以處理更多、更豐富的空間特征、增加特征多樣性。

      在樣本導(dǎo)入Googlenet之前,將樣本分為訓(xùn)練集和測(cè)試集。訓(xùn)練過程應(yīng)該為:

      (1)設(shè)定訓(xùn)練樣本數(shù)量,訓(xùn)練速率,樣本最小誤差。

      (2)初始化卷積層和池化層的權(quán)值向量,隨機(jī)將一組非零向量值賦值給該向量

      (3)輸入訓(xùn)練樣本

      (4)樣本進(jìn)行前向輸出,得到輸入輸出數(shù)據(jù),記錄輸出層的輸出信號(hào)。

      (5)利用輸出信號(hào)的和期望值計(jì)算誤差,與最小誤差比較后,如果誤差較小那么直接轉(zhuǎn)入第七步,否則進(jìn)入第6步。

      (6)判斷訓(xùn)練次數(shù)是否達(dá)到最大迭代次數(shù),如果是進(jìn)入下一步,否則重新更新權(quán)值向量

      (7)判斷是否完成所有樣本的訓(xùn)練,如果是結(jié)束訓(xùn)練,如果未結(jié)束繼續(xù)訓(xùn)練。

      4 結(jié)論

      采用機(jī)器學(xué)習(xí)方法進(jìn)行網(wǎng)絡(luò)攻擊和異常行為檢測(cè),對(duì)訓(xùn)練數(shù)據(jù)的樣本量依賴性高,不同攻擊類型數(shù)據(jù)的不平衡,導(dǎo)致了對(duì)特定類型攻擊的檢測(cè)效果差。本文利用生成式對(duì)抗網(wǎng)絡(luò),生成特定攻擊類型的樣本數(shù)據(jù),解決了NSL-KDD99數(shù)據(jù)集中特定攻擊類型樣本數(shù)據(jù)過少導(dǎo)致檢測(cè)模型無(wú)法檢測(cè)出這類攻擊的問題。進(jìn)一步改進(jìn)了生成對(duì)抗網(wǎng)絡(luò),解決了數(shù)據(jù)生成器不穩(wěn)定的問題。通過K-means算法驗(yàn)證了數(shù)據(jù)生成模型的有效性,生成的數(shù)據(jù)可以用于異常檢測(cè)模型的訓(xùn)練。

      猜你喜歡
      數(shù)據(jù)類型分類器卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      詳談Java中的基本數(shù)據(jù)類型與引用數(shù)據(jù)類型
      如何理解數(shù)據(jù)結(jié)構(gòu)中的抽象數(shù)據(jù)類型
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      高邑县| 腾冲县| 长兴县| 额敏县| 内乡县| 灵石县| 伽师县| 中宁县| 定结县| 苍溪县| 泽库县| 山东省| 德保县| 镇原县| 家居| 枝江市| 绥芬河市| 怀集县| 漠河县| 壤塘县| 津南区| 涞源县| 金山区| 蚌埠市| 观塘区| 彭阳县| 辽宁省| 庆城县| 鄯善县| 内黄县| 东至县| 花莲县| 棋牌| 扶沟县| 承德县| 曲麻莱县| 苗栗市| 鄂伦春自治旗| 莫力| 册亨县| 汤阴县|