• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      GBDT與LR融合模型在加密流量識(shí)別中的應(yīng)用

      2020-03-18 04:46:36吳克河崔文超
      關(guān)鍵詞:分類(lèi)器加密流量

      王 垚,李 為,吳克河,崔文超

      (華北電力大學(xué)(北京)控制與計(jì)算機(jī)工程學(xué)院,北京 102206)

      0 引 言

      在如今信息技術(shù)發(fā)達(dá)的時(shí)代里,網(wǎng)絡(luò)技術(shù)在給予人類(lèi)社會(huì)極大便利的同時(shí),也帶來(lái)了嚴(yán)重的安全威脅。根據(jù)最新數(shù)據(jù)顯示,到2019年初,預(yù)計(jì)將有約80%的在線(xiàn)網(wǎng)絡(luò)流量被加密[1]。這給重視個(gè)人隱私的用戶(hù)來(lái)說(shuō)帶來(lái)了極大便利,同時(shí)也產(chǎn)生了嚴(yán)重的安全漏洞。

      傳統(tǒng)的網(wǎng)絡(luò)流量識(shí)別技術(shù)利用IANA機(jī)構(gòu)分配的端口號(hào)對(duì)流量的所屬協(xié)議或應(yīng)用進(jìn)行識(shí)別,但隨著動(dòng)態(tài)端口號(hào)等技術(shù)的發(fā)展而失效[2]。目前應(yīng)用廣泛的DPI(深度包檢測(cè))技術(shù)通過(guò)特征匹配的方式搜索流量載荷中的相關(guān)字節(jié)特征[3],也能實(shí)現(xiàn)較高的識(shí)別準(zhǔn)確率,但由于在加密流量中關(guān)鍵特征被加密,導(dǎo)致其應(yīng)用受到限制。

      針對(duì)以上問(wèn)題,研究者們提出了使用流量的統(tǒng)計(jì)特征,通過(guò)機(jī)器學(xué)習(xí)的方法來(lái)分析和識(shí)別加密流量。這些統(tǒng)計(jì)特征大多與流量負(fù)載內(nèi)容無(wú)關(guān),但又對(duì)加密流量有足夠的區(qū)分度。本文使用時(shí)間相關(guān)的流統(tǒng)計(jì)特征,并且將一種基于GBDT與LR融合模型的識(shí)別方法應(yīng)用到加密流量識(shí)別;通過(guò)對(duì)VPN隧道傳輸?shù)募用芰髁?VPN流量)和普通的加密流量(非VPN流量,如HTTPS)進(jìn)行區(qū)分,完成對(duì)加密流量所屬應(yīng)用類(lèi)別的識(shí)別。

      1 相關(guān)研究

      早在20世紀(jì)90年代初,Paxson[4-5]就針對(duì)特定互聯(lián)網(wǎng)應(yīng)用包括Telnet、NNTP、SMTP和SFTP等建立了分析模型,他使用了某些靜態(tài)變量如分組時(shí)間間隔等靜態(tài)特征,結(jié)果表明利用這些特征建立的簡(jiǎn)單模型可以有效識(shí)別網(wǎng)絡(luò)應(yīng)用程序。

      加密技術(shù)的使用隱藏了網(wǎng)絡(luò)流量的負(fù)載特征,因此無(wú)法直接對(duì)網(wǎng)絡(luò)流量的應(yīng)用類(lèi)型進(jìn)行識(shí)別。目前有很多加密流量識(shí)別研究采用機(jī)器學(xué)習(xí)技術(shù),使用流特征或者分組特征等靜態(tài)特征來(lái)建立模型。

      其中有監(jiān)督式學(xué)習(xí),需要帶有分類(lèi)標(biāo)簽的樣本作為輸入。文獻(xiàn)[6]提出了基于支持向量機(jī)的TCP流量分類(lèi)模型,以流的初始數(shù)據(jù)包大小為特征實(shí)現(xiàn)了高于90%的準(zhǔn)確率。文獻(xiàn)[7]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的加密流量識(shí)別方法,將流量字節(jié)碼作為輸入,實(shí)現(xiàn)了高準(zhǔn)確率的流量識(shí)別,但有著計(jì)算復(fù)雜度高等缺點(diǎn)。

      基于有監(jiān)督式學(xué)習(xí)的流量識(shí)別無(wú)法應(yīng)對(duì)更多的未知流量,對(duì)此可采用無(wú)監(jiān)督式或半監(jiān)督式的學(xué)習(xí)方法。文獻(xiàn)[8-13]采用如DBSCAN、K-means等聚類(lèi)方法對(duì)網(wǎng)絡(luò)流量進(jìn)行識(shí)別。文獻(xiàn)[14-15]采用半監(jiān)督式學(xué)習(xí)方法識(shí)別網(wǎng)絡(luò)流量,首先用聚類(lèi)算法處理流量數(shù)據(jù),然后根據(jù)每個(gè)簇中的多數(shù)有標(biāo)簽數(shù)據(jù)標(biāo)記簇的類(lèi)別。

      虛擬專(zhuān)用網(wǎng)絡(luò)(VPN)的出現(xiàn)使得網(wǎng)絡(luò)流量識(shí)別變得更加復(fù)雜。VPN隧道提供點(diǎn)對(duì)點(diǎn)之間的IP包級(jí)別的加密,包括IP數(shù)據(jù)包頭也被加密,因此幾乎無(wú)法識(shí)別通過(guò)VPN隧道傳輸?shù)募用芰髁?,識(shí)別VPN加密流量具有相當(dāng)?shù)陌踩饬x。

      2016年,文獻(xiàn)[16]首次從VPN加密流量和常規(guī)加密流量的角度對(duì)加密流量進(jìn)行分類(lèi),使用時(shí)間相關(guān)的流特征,比對(duì)了KNN和C4.5這2種分類(lèi)模型的識(shí)別效果。實(shí)驗(yàn)表明,時(shí)間相關(guān)的特征可以很好地對(duì)VPN加密流量進(jìn)行識(shí)別。本文在此基礎(chǔ)上,提出一種集成GBDT與LR算法相結(jié)合的加密流量分類(lèi)模型,實(shí)現(xiàn)對(duì)VPN加密流量和普通加密流量的識(shí)別。

      2 GBDT-LR融合模型介紹

      2.1 GBDT算法介紹

      集成學(xué)習(xí)是一種協(xié)同多個(gè)“個(gè)體學(xué)習(xí)器”完成任務(wù)的學(xué)習(xí)方法,其原理是使用某種方式將多個(gè)學(xué)習(xí)器進(jìn)行集成,以此獲得比單一學(xué)習(xí)器更優(yōu)越的泛化性能[17]。梯度提升決策樹(shù)(Gradient Boosting Decison Tree, GBDT)由Friedman[18]于1999年提出,是一種Boost類(lèi)集成學(xué)習(xí)算法。其核心思想是通過(guò)多輪迭代產(chǎn)生多個(gè)弱分類(lèi)器,在每一次迭代后計(jì)算損失函數(shù)的負(fù)梯度,將其作為殘差的近似值。在GBDT分類(lèi)模型中,一般使用CART回歸樹(shù)作為基學(xué)習(xí)器,每個(gè)分類(lèi)器的訓(xùn)練都是基于上一輪分類(lèi)器預(yù)測(cè)結(jié)果的殘差,以串行的方式向殘差減小的方向進(jìn)行梯度迭代,最后將每個(gè)弱分類(lèi)器得到的結(jié)果進(jìn)行加權(quán)求和得到最終的分類(lèi)器。GBDT算法的流程如下:

      1)取訓(xùn)練集{(x1,y1),(x2,y2),…,(xn,yn)},迭代次數(shù)M和損失函數(shù)L(yi,γ),yi={-1,1},初始化弱分類(lèi)器:

      (1)

      2)對(duì)m=1,2,…,M,執(zhí)行如下步驟:

      2.1)對(duì)i=1,2,…,n,計(jì)算近似殘差:

      (2)

      2.2)針對(duì)近似殘差rim擬合一棵回歸樹(shù),該樹(shù)給出葉結(jié)點(diǎn)域Rjm,j=1,2,…,Jm。

      2.3)對(duì)j=1,2,…,Jm計(jì)算:

      (3)

      2.4)更新分類(lèi)器:

      (4)

      3)得到最終輸出結(jié)果:

      (5)

      (6)

      對(duì)于二分類(lèi)問(wèn)題,GBDT算法可采用負(fù)二項(xiàng)對(duì)數(shù)似然函數(shù)作為損失函數(shù)[18],計(jì)算其負(fù)梯度作為殘差的近似值,其結(jié)果擬合的是關(guān)于分類(lèi)概率的近似殘差。負(fù)二項(xiàng)對(duì)數(shù)似然函數(shù)表達(dá)式如下:

      L(y,F)=log (1+exp (-2yF)),y∈{-1,1}

      (7)

      其中:

      (8)

      將式(7)代入式(2)可得負(fù)梯度即近似殘差:

      (9)

      2.2 LR算法介紹

      邏輯回歸算法(Logistics Regression, LR)是一種基于回歸分析的分類(lèi)算法。LR算法與線(xiàn)性回歸算法非常相似,然而線(xiàn)性回歸能夠處理的是數(shù)值問(wèn)題,而LR算法則是使用sigmoid函數(shù)將線(xiàn)性回歸的分析結(jié)果轉(zhuǎn)換為概率值。LR算法是最簡(jiǎn)單和最快速的分類(lèi)模型之一,在具有線(xiàn)性分離邊界的數(shù)據(jù)集上表現(xiàn)良好,其表達(dá)式為:

      (10)

      為了正確擬合輸出類(lèi)的概率值,需要使用sigmoid函數(shù)將輸出結(jié)果轉(zhuǎn)換到[0,1]之間,這樣就可以將其視為輸出類(lèi)的后驗(yàn)概率。sigmoid函數(shù)表達(dá)式如下:

      (11)

      對(duì)于模型參數(shù)θT,可利用最小化負(fù)對(duì)數(shù)似然函數(shù)求解,負(fù)對(duì)數(shù)似然函數(shù)表達(dá)式如下:

      (12)

      隨后便可使用梯度下降法求出θT。最后通過(guò)式(8)即可得預(yù)測(cè)概率:

      (13)

      2.3 GBDT-LR融合模型

      LR算法屬于線(xiàn)性模型,模型簡(jiǎn)單,計(jì)算開(kāi)銷(xiāo)小且易并行化,能夠處理海量的數(shù)據(jù),但缺點(diǎn)是只在具有良好線(xiàn)性關(guān)系的數(shù)據(jù)集上有效,其學(xué)習(xí)能力有限,對(duì)特征選取要求高,容易造成欠擬合。因此,需要有效的特征工程來(lái)生成有區(qū)分度的特征,從而產(chǎn)生良好的分類(lèi)效果。早在2014年He等[19]就提出了通過(guò)GBDT模型生產(chǎn)新特征來(lái)解決LR的特征工程問(wèn)題,將其應(yīng)用于廣告點(diǎn)擊率的評(píng)估。GBDT算法以Boost算法為基礎(chǔ),每次迭代都會(huì)生成一棵新樹(shù),該特點(diǎn)正好可以用來(lái)挖掘有區(qū)分度的新特征,避免復(fù)雜的人工成本。

      GBDT-LR融合模型的訓(xùn)練過(guò)程如圖1所示,其具體步驟如下:

      1)利用原始訓(xùn)練集訓(xùn)練GBDT模型構(gòu)造一系列的決策樹(shù),組成一個(gè)強(qiáng)分類(lèi)器。

      2)利用訓(xùn)練好的GBDT模型對(duì)原始數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),不以分類(lèi)概率作為輸出,而是以模型中每棵樹(shù)的預(yù)測(cè)值所屬葉結(jié)點(diǎn)的位置為新特征提取特征值,形成新的數(shù)據(jù)。

      3)對(duì)新數(shù)據(jù)進(jìn)行One-hot編碼,也就是將樣本輸出所屬葉結(jié)點(diǎn)的位置標(biāo)記為1,得到每個(gè)樣本的位置標(biāo)記向量Wi。所有樣本的輸出會(huì)組成一個(gè)標(biāo)記每棵決策樹(shù)輸出的葉結(jié)點(diǎn)位置的稀疏矩陣。

      4)將該Wi作為新的訓(xùn)練數(shù)據(jù)供LR模型進(jìn)行訓(xùn)練。

      圖1 GBDT-LR模型訓(xùn)練示意圖

      如圖2所示,假設(shè)fm-1和fm為GBDT算法訓(xùn)練過(guò)程中生成的2棵決策樹(shù),分別有5個(gè)葉結(jié)點(diǎn),其中數(shù)字1表示訓(xùn)練樣本x通過(guò)該決策樹(shù)預(yù)測(cè)的結(jié)果落在該葉結(jié)點(diǎn)上。那么對(duì)于樹(shù)fm-1,其預(yù)測(cè)的結(jié)果可以用One-Hot編碼表示為[0,1,0,0,0]。假設(shè)GBDT算法迭代次數(shù)為x,且所有弱分類(lèi)器共具有y個(gè)葉結(jié)點(diǎn),對(duì)于m條原始數(shù)據(jù),每一條都會(huì)被轉(zhuǎn)化為y維的稀疏向量,其中x個(gè)元素為1,y-x個(gè)元素為0,那么最終會(huì)形成維度為m×x×y的新訓(xùn)練集。

      在GBDT算法中,每一次迭代的預(yù)測(cè)值都是將之前所有決策樹(shù)的預(yù)測(cè)值以串行的方式累加的,新決策樹(shù)是向擬合之前決策樹(shù)的殘差的方向形成。在一系列的決策樹(shù)形成過(guò)程中,結(jié)點(diǎn)分裂會(huì)首先關(guān)注于能區(qū)分多數(shù)樣本的特征,然后關(guān)注于能區(qū)分少數(shù)樣本的特征。這種先選用整體上有區(qū)分度的特征,再選用對(duì)少數(shù)樣本有區(qū)分度的特征的方式用于特征工程是比較合理的。因此,新的特征同時(shí)包含了能區(qū)分多數(shù)樣本和少數(shù)樣本的特征,這種策略剛好適用于特征工程。

      圖2 GBDT算法構(gòu)造新特征示意圖

      3 基于GBDT與LR融合模型的加密流量識(shí)別

      本文提出一種基于GBDT與LR融合模型的加密流量識(shí)別方法,模型訓(xùn)練流程如圖3所示。

      圖3 GBDT-LR分類(lèi)器訓(xùn)練流程圖

      3.1 流特征

      流量統(tǒng)計(jì)特征的選擇往往決定了不同場(chǎng)景下網(wǎng)絡(luò)流量分類(lèi)結(jié)果的好壞,Moore等人[20]總結(jié)了共計(jì)248種流量統(tǒng)計(jì)特征。流通常是指包含相同五元組{源IP地址,源端口號(hào),目的IP地址,目的端口號(hào),協(xié)議}的一組流量。從流量的方向上,流又可被劃分為雙向流和單向流[21],其中第一個(gè)數(shù)據(jù)包的源IP和目的IP決定了方向。本文選用由Lashkari等人[16]提出的與時(shí)間相關(guān)的流特征,詳細(xì)說(shuō)明如表1所示。

      表1 與時(shí)間相關(guān)的流特征

      特征名描述duration流持續(xù)時(shí)間fiat正向分組到達(dá)時(shí)間間隔(均值、最大值、最小值、標(biāo)準(zhǔn)差)biat反向分組到達(dá)時(shí)間間隔(均值、最大值、最小值、標(biāo)準(zhǔn)差)flowiat任意方向分組到達(dá)時(shí)間間隔(均值、最大值、最小值、標(biāo)準(zhǔn)差)active流的活躍時(shí)間量(均值、最大值、最小值、標(biāo)準(zhǔn)差)idle流的靜置時(shí)間量(均值、最大值、最小值、標(biāo)準(zhǔn)差)fb_psec每秒流傳輸?shù)淖止?jié)數(shù)fp_psec每秒流傳輸?shù)姆纸M數(shù)flowtime流的超時(shí)閾值

      時(shí)間相關(guān)的流特征與數(shù)據(jù)包負(fù)載的字節(jié)特征無(wú)關(guān),只統(tǒng)計(jì)時(shí)間上的相關(guān)量,因此可以作為識(shí)別加密流量的一種有效方式。

      3.2 數(shù)據(jù)預(yù)處理

      3.2.1 數(shù)據(jù)清理

      流特征提取的過(guò)程中不可避免地會(huì)遇上數(shù)據(jù)包解析錯(cuò)誤等情況,數(shù)據(jù)清洗過(guò)程主要是快速檢查數(shù)據(jù)集中的空數(shù)據(jù)和重復(fù)數(shù)據(jù)并刪除,以及處理缺失值情況等。

      3.2.2 標(biāo)準(zhǔn)化

      數(shù)據(jù)標(biāo)準(zhǔn)化是為了處理數(shù)據(jù)變化范圍太大的情況,其目的是為了使所有數(shù)據(jù)在每個(gè)特征上具有相近的分布。數(shù)據(jù)標(biāo)準(zhǔn)化可以加速梯度下降來(lái)尋找最優(yōu)解的過(guò)程,也有可能提高預(yù)測(cè)精度。

      本文使用數(shù)據(jù)集是基于時(shí)間相關(guān)的流特征,其數(shù)值范圍廣且分布不均,考慮選用z-score標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,表達(dá)式如下:

      (14)

      其中,x表示源數(shù)據(jù),u表示平均值,σ表示標(biāo)準(zhǔn)差。

      3.3 超參數(shù)優(yōu)化

      為了能夠更快地尋找全局最優(yōu)參數(shù),本文采用貝葉斯優(yōu)化(Bayesian Optimization, BO)算法作為超參數(shù)優(yōu)化算法。它能跟蹤過(guò)去的評(píng)估結(jié)果,相比網(wǎng)格搜索法和隨機(jī)采樣法能更快、更高效地尋找最優(yōu)超參數(shù)組合。貝葉斯優(yōu)化算法根據(jù)對(duì)過(guò)去目標(biāo)模型的評(píng)估結(jié)果構(gòu)建一個(gè)代理模型(即概率模型),使用代理模型來(lái)尋找最優(yōu)值。而代理模型通常比目標(biāo)模型更加容易優(yōu)化,可以通過(guò)對(duì)代理模型采用某種標(biāo)準(zhǔn)(即選擇函數(shù))來(lái)選擇下一個(gè)超參數(shù)組合。貝葉斯優(yōu)化算法尋找最優(yōu)參數(shù)的過(guò)程就是不斷從過(guò)去結(jié)果推斷和更新代理模型的過(guò)程,從而使搜索方向更靠近最優(yōu)解。

      本文使用Hyperopt庫(kù)[22]實(shí)現(xiàn)貝葉斯算法,該算法使用TPE(Tree-structured Parzen Estimator)算法[23]作為代理模型。TPE算法使用貝葉斯規(guī)則構(gòu)建模型,其表達(dá)式如下:

      (15)

      其中,p(x|y)表示給定目標(biāo)輸出y的情況下樣本x的概率,具體表達(dá)式為:

      (16)

      其中y*表示目標(biāo)模型的一個(gè)閾值,x是超參數(shù)的候選集,y是目標(biāo)模型在x上的輸出值。l(x)代表x在y≤y*上的概率分布,g(x)代表x在y≥y*上的概率分布。選擇函數(shù)使用期望提升函數(shù):

      (17)

      TPE算法的目標(biāo)是最大化關(guān)于x的期望改進(jìn),也就是利用代理模型p(y|x)尋找最優(yōu)超參數(shù)組合。

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 數(shù)據(jù)集

      本文使用的數(shù)據(jù)集來(lái)自L(fǎng)ashkari等人[16]發(fā)布的Vpn-NonVpn公開(kāi)數(shù)據(jù)集。為了生成具有代表性的數(shù)據(jù)集,他們定義了一系列任務(wù),通過(guò)使用如Skype、Facebook等多種應(yīng)用服務(wù)采集流量,保證了數(shù)據(jù)的多樣性。Vpn-NonVpn數(shù)據(jù)集涵蓋了表2所示的幾大應(yīng)用類(lèi)型,其中包括NonVPN數(shù)據(jù)集共21531條記錄,以及VPN數(shù)據(jù)集共24095條記錄。

      表2 流量應(yīng)用類(lèi)型詳細(xì)描述

      應(yīng)用類(lèi)別詳細(xì)信息Browsing通過(guò)使用瀏覽器或其他活動(dòng)所產(chǎn)生的HTTPS流量Email使用電子郵件服務(wù)所捕獲的流量Chat即時(shí)聊天應(yīng)用程序Streaming多媒體應(yīng)用程序,需要連續(xù)穩(wěn)定的數(shù)據(jù)流File Transfer用于發(fā)送或接收文件的應(yīng)用程序,通過(guò)SFTP或FTPS協(xié)議進(jìn)行傳輸VoIP語(yǔ)音應(yīng)用程序TraP2P通過(guò)文件共享協(xié)議如Bittorrent下載文件

      實(shí)驗(yàn)中所使用的測(cè)試集占總樣本數(shù)量的20%。為了能夠充分利用所有測(cè)試集樣本,降低泛化誤差,在GDBT分類(lèi)器和LR分類(lèi)器的訓(xùn)練過(guò)程中,本文使用了五折交叉驗(yàn)證法進(jìn)行模型評(píng)估。

      4.2 結(jié)果分析

      為了評(píng)估分類(lèi)器的性能,本文使用混淆矩陣表示分類(lèi)結(jié)果,如表3所示。

      表3 分類(lèi)結(jié)果混淆矩陣

      實(shí)際類(lèi)型預(yù)測(cè)正類(lèi)預(yù)測(cè)負(fù)類(lèi)合計(jì)實(shí)際正類(lèi)TPFNP(TP+FN)實(shí)際負(fù)類(lèi)FPTNN(FP+TN)合計(jì)TP+FPFN+TNTP+FP+TN+FN

      本實(shí)驗(yàn)包含2個(gè)場(chǎng)景:1)對(duì)VPN流量和普通VPN加密流量進(jìn)行分類(lèi);2)對(duì)加密流量的所屬應(yīng)用類(lèi)型進(jìn)行識(shí)別。

      4.2.1 VPN流量識(shí)別結(jié)果

      本實(shí)驗(yàn)場(chǎng)景比較了GBDT-LR分類(lèi)器與其他4種常用的分類(lèi)器對(duì)VPN加密流量的識(shí)別效果,其中包括KNN(K鄰近)、LR、GBDT和RF(隨機(jī)森林),使用的分類(lèi)性能指標(biāo)為Accuracy(準(zhǔn)確率)、Precision(精確率)、Recall(召回率)和F1-score(F1值)。實(shí)驗(yàn)結(jié)果如表4和圖4所示。

      表4 VPN加密流量識(shí)別結(jié)果

      分類(lèi)器準(zhǔn)確率精確率召回率F1值LR0.6060.5850.8530.694KNN0.8150.8190.8290.824RF0.9310.9270.9430.935GBDT0.9280.9100.9570.933GBDT-KNN0.9240.9110.9470.929GBDT-LR0.9480.9360.9670.951

      圖4 VPN流量分類(lèi)結(jié)果示意圖

      從實(shí)驗(yàn)結(jié)果可以看出,基于集成學(xué)習(xí)的GBDT-LR、GBDT-KNN、GBDT和RF分類(lèi)器的準(zhǔn)確率均高于90%,其中GBDT-LR融合模型的準(zhǔn)確率最高。特別地,單獨(dú)的LR分類(lèi)器準(zhǔn)確率約為60.6%,而GBDT分類(lèi)器的準(zhǔn)確率約為92.8%,均低于GBDT-LR分類(lèi)模型的94.8%。由此可見(jiàn),基于GBDT分類(lèi)器和LR分類(lèi)器的集成模型的分類(lèi)性能要優(yōu)于單獨(dú)使用的分類(lèi)模型。此外還可以看出,盡管KNN模型的識(shí)別正確率要高于LR模型,但GBDT-KNN分類(lèi)模型的性能卻反而弱于GBDT模型,其主要原因在于KNN算法是高度依賴(lài)距離的算法,隨著維度的增加(特別是稀疏矩陣),即使“相似”的2個(gè)點(diǎn)距離也會(huì)增加,這在一定程度上會(huì)導(dǎo)致分類(lèi)器性能的下降。

      4.2.2 流量應(yīng)用分類(lèi)結(jié)果

      在上一節(jié)實(shí)驗(yàn)的基礎(chǔ)上,本文分別對(duì)VPN流量和非VPN流量的應(yīng)用類(lèi)型進(jìn)行了識(shí)別,并且對(duì)結(jié)果中每個(gè)類(lèi)別的精確率和召回率進(jìn)行了統(tǒng)計(jì),實(shí)驗(yàn)結(jié)果如圖5所示??梢钥闯?,除少數(shù)應(yīng)用類(lèi)別識(shí)別精確度低于90%外,大部分應(yīng)用類(lèi)別的識(shí)別結(jié)果均取得了較高的精確率和召回率。

      (a) NonVPN流量應(yīng)用類(lèi)型識(shí)別結(jié)果

      (b) VPN流量識(shí)別結(jié)果圖5 加密流量應(yīng)用類(lèi)型識(shí)別結(jié)果

      5 結(jié)束語(yǔ)

      本文提出了一種基于GBDT與邏輯回歸融合模型的加密流量識(shí)別方法,實(shí)現(xiàn)了對(duì)VPN加密流量和非VPN加密流量的識(shí)別,并在此基礎(chǔ)上實(shí)現(xiàn)了對(duì)流量應(yīng)用類(lèi)型的識(shí)別。實(shí)驗(yàn)結(jié)果表明,該模型通過(guò)使用時(shí)間相關(guān)的流特征能夠有效地對(duì)VPN加密流量和普通加密流量進(jìn)行識(shí)別。

      本文提出的GBDT-LR融合模型是利用GBDT分類(lèi)器構(gòu)造新的特征,但新的訓(xùn)練數(shù)據(jù)很有可能是高維的稀疏矩陣,因此,在使用GBDT分類(lèi)器構(gòu)造新特征之后,可以進(jìn)行特征選擇來(lái)篩選出重要程度較高的部分特征,降低新的訓(xùn)練數(shù)據(jù)的維度,從而降低模型訓(xùn)練的復(fù)雜度。

      GBDT-LR模型本質(zhì)上是基于有監(jiān)督式學(xué)習(xí)的,學(xué)習(xí)的目標(biāo)是針對(duì)穩(wěn)定網(wǎng)絡(luò)環(huán)境下已知的應(yīng)用類(lèi)型,其缺點(diǎn)是無(wú)法識(shí)別新的應(yīng)用類(lèi)型。針對(duì)這個(gè)問(wèn)題,一個(gè)可行的解決思路是利用多個(gè)二分類(lèi)器實(shí)現(xiàn)多分類(lèi),若所有二分類(lèi)器都輸出為否,則判定為未知流量。例如在本實(shí)驗(yàn)中,對(duì)于具有n個(gè)類(lèi)別的分類(lèi)任務(wù),其輸出結(jié)果為每一個(gè)類(lèi)別的概率,然后選取概率最高的類(lèi)型為輸出類(lèi)型??梢钥紤]選取一個(gè)閾值,低于該值時(shí)對(duì)應(yīng)類(lèi)別的輸出為否,若所有類(lèi)別輸出為否,則輸出為未知流量。因此,更多的工作可以著手于尋找一個(gè)最優(yōu)閾值,使得GBDT-LR模型在應(yīng)對(duì)包含未知應(yīng)用流量的識(shí)別上表現(xiàn)最佳。

      猜你喜歡
      分類(lèi)器加密流量
      冰墩墩背后的流量密碼
      玩具世界(2022年2期)2022-06-15 07:35:36
      張曉明:流量決定勝負(fù)!三大流量高地裂變無(wú)限可能!
      尋找書(shū)業(yè)新流量
      出版人(2020年4期)2020-11-14 08:34:26
      一種基于熵的混沌加密小波變換水印算法
      BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
      結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
      認(rèn)證加密的研究進(jìn)展
      基于ECC加密的電子商務(wù)系統(tǒng)
      基于格的公鑰加密與證書(shū)基加密
      昭觉县| 白朗县| 虎林市| 七台河市| 酒泉市| 固镇县| 盘锦市| 定远县| 大城县| 衡阳县| 鸡泽县| 阿拉善左旗| 襄垣县| 剑川县| 沙坪坝区| 梓潼县| 建宁县| 平果县| 雷波县| 玉龙| 松潘县| 山阳县| 福清市| 孙吴县| 来安县| 南安市| 合山市| 长阳| 吉木乃县| 昌乐县| 滁州市| 龙口市| 绥滨县| 永泰县| 长宁县| 璧山县| 永康市| 红河县| 太仓市| 星座| 淳化县|