• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      加密流量分類的特征回放集成學(xué)習(xí)方法

      2023-02-13 02:18:04梁翔宇張恒汝周瑤余一帆閔帆
      關(guān)鍵詞:分類器加密準(zhǔn)確率

      梁翔宇,張恒汝*,周瑤,余一帆,閔帆,2

      (1.西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610500;2.西南石油大學(xué) 人工智能研究院,四川 成都 610500)

      0 引言

      根據(jù)Netmarketshare發(fā)布的數(shù)據(jù)顯示,截止到2019年10月全球使用HTTPS加密的網(wǎng)絡(luò)流量的比例已經(jīng)超過了九成。不難看出HTTPS網(wǎng)站加密傳輸協(xié)議幾乎已經(jīng)接近普及。而網(wǎng)絡(luò)加密流量與未加密流量識(shí)別之間的本質(zhì)區(qū)別在于,用來區(qū)分的特征因?yàn)榧用芏l(fā)生變化。網(wǎng)絡(luò)流量數(shù)據(jù)因加密而發(fā)生的改變主要包括以下3個(gè)方面:①網(wǎng)絡(luò)數(shù)據(jù)包的明文信息內(nèi)容變?yōu)槊芪模哂胁豢勺R(shí)別性[1];②加密流量數(shù)據(jù)包的負(fù)載的統(tǒng)計(jì)特性(如隨機(jī)性或熵)發(fā)生了改變[2];③流量加密后一些流特征發(fā)生了改變,如數(shù)據(jù)包長(zhǎng)度、流字節(jié)數(shù)以及數(shù)據(jù)包到達(dá)的時(shí)間間隔等[3]。這些特征的稀疏化使得流量識(shí)別變得更為困難。

      網(wǎng)絡(luò)流量檢測(cè)技術(shù)可以歸納為兩類:傳統(tǒng)的端口檢測(cè)技術(shù)[4]與基于機(jī)器學(xué)習(xí)的分類技術(shù)[5]。端口檢測(cè)技術(shù)的依據(jù)為不同種類的程序所注冊(cè)的端口信息不同。然而,隨著混合端口和偽裝端口等技術(shù)的出現(xiàn),該類方法的可靠性有所降低[6]?;跈C(jī)器學(xué)習(xí)的分類模型選取的特征通?;跀?shù)據(jù)包、數(shù)據(jù)流或者會(huì)話[7-8]。雖然這類方法緩解了端口檢測(cè)技術(shù)精度低的問題[9-12],卻無法克服在流量表征階段所出現(xiàn)的困難。

      本文提出一種加密流量分類的特征回放集成學(xué)習(xí)方法,其分為三個(gè)階段。特征提取階段統(tǒng)計(jì)報(bào)文的到達(dá)平均時(shí)間間隔、最大長(zhǎng)度等信息作為加密流量數(shù)據(jù)集的特征表示。特征回放階段訓(xùn)練多個(gè)預(yù)分類器并將其相應(yīng)的預(yù)測(cè)結(jié)果加入數(shù)據(jù)集以增強(qiáng)特征表示能力。集成學(xué)習(xí)階段基于Stacked Generalization集成思想訓(xùn)練最終的決策分類器。為了檢驗(yàn)所提方法的效果,使用思博倫公司的Cyberflood工具來構(gòu)建多種類別的加密流量數(shù)據(jù)來進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明提出的方法在準(zhǔn)確率上比常用的加密流量機(jī)器學(xué)習(xí)方法提高了近5%。

      本文主要貢獻(xiàn)包括3個(gè)方面:

      1) 應(yīng)用流量構(gòu)造和采集:利用Cyberflood工具來構(gòu)建多種類別的加密流量數(shù)據(jù),為實(shí)驗(yàn)研究提供有效數(shù)據(jù)。其中流量的類別分為聊天交流、P2P、社交網(wǎng)絡(luò)與流媒體。

      2) PCAP文件的預(yù)處理和特征選擇:提取單向流中的時(shí)間間隔數(shù)據(jù)和載荷量等統(tǒng)計(jì)信息,以此作為機(jī)器學(xué)習(xí)模型用于訓(xùn)練的數(shù)據(jù)集。

      3) 提出了一種基于特征回放的加密流量分類的集成學(xué)習(xí)方法:以增強(qiáng)特征表示,從而提升機(jī)器學(xué)習(xí)分類器的準(zhǔn)確率。

      加密流量與特征提取處理后的數(shù)據(jù)集可在https://drive.google.com/file/d/11bbvxQXxlR1UE 4gZwl23PXM536EpqZi1/view?usp=sharing下載。

      1 網(wǎng)絡(luò)應(yīng)用流量采集和預(yù)處理

      1.1 實(shí)驗(yàn)環(huán)境配置

      本文采用的數(shù)據(jù)來自于思博倫的Cyber?flood網(wǎng)絡(luò)應(yīng)用和安全測(cè)試儀[13],Cyberflood的基本配置如圖1所示。測(cè)試儀可以提供不同類型的應(yīng)用流量和惡意流量,其內(nèi)部存儲(chǔ)了多種類型的仿真環(huán)境。搭建該系統(tǒng)的基本硬件要求為:16 GB可用內(nèi)存、6核的CPU、180 GB可用磁盤空間與支持ESXi 6.X的服務(wù)器/工作站。

      圖1 Cyberflood組網(wǎng)示意圖Fig. 1 Cyberflood networking diagram

      具體而言,分別搭建服務(wù)器和客戶端并通過交換機(jī)將兩者進(jìn)行連接。在兩者進(jìn)行通信時(shí),交換機(jī)通過端口鏡像功能將流量包發(fā)送到捕獲設(shè)備上[14],流量數(shù)據(jù)的存儲(chǔ)格式為pcap包。

      1.2 數(shù)據(jù)采集

      為了開展不同類型應(yīng)用數(shù)據(jù)流量的分類工作,本文采集了四種不同大類的應(yīng)用數(shù)據(jù)流量[15]。表1展示了選用的四個(gè)類別的應(yīng)用數(shù)據(jù)的來源和數(shù)量。

      表1 所采集的應(yīng)用流量的特點(diǎn)與數(shù)量Table 1 Characteristics and quantity of collected application traffic

      本文從Cyberflood上選取4912條應(yīng)用的流量數(shù)據(jù),應(yīng)用流量選取聊天交流、P2P、社交網(wǎng)絡(luò)與流媒體4個(gè)類別。聊天交流流量主要是聊天網(wǎng)頁(yè)或應(yīng)用產(chǎn)生的實(shí)時(shí)通信流量;P2P流量通常運(yùn)用在文件共享技術(shù)上,它的突出特點(diǎn)是持續(xù)時(shí)間長(zhǎng)并具有非突發(fā)性;社交網(wǎng)絡(luò)流量主要推特、微博等應(yīng)用流量;流媒體[16]流量通常為實(shí)時(shí)傳輸影音而產(chǎn)生的。這四類流量在常用的統(tǒng)計(jì)特征可能會(huì)表現(xiàn)出不同的特性[17],因此如何提取適合模型的流量特征也是一項(xiàng)重要的工作。

      1.3 特征提取

      數(shù)據(jù)預(yù)處理是基于機(jī)器學(xué)習(xí)的加密流量識(shí)別方法中不可或缺的一個(gè)環(huán)節(jié),而特征提取在數(shù)據(jù)預(yù)處理階段尤為重要[18-20]。

      傳統(tǒng)的端口檢測(cè)技術(shù)通常基于流量本身的特征來進(jìn)行識(shí)別。這類技術(shù)通過抓取分析流量數(shù)據(jù)報(bào)文傳輸層數(shù)據(jù)特征(例如:網(wǎng)絡(luò)五元組、數(shù)據(jù)包長(zhǎng)度與字節(jié)分布等),結(jié)合各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)呈現(xiàn)的連接特性,來判斷數(shù)據(jù)包所屬類別。該類技術(shù)的分類性能較高,擴(kuò)展性較強(qiáng)。但是,隨著混合端口和偽裝端口等技術(shù)的出現(xiàn),使得網(wǎng)絡(luò)環(huán)境變得復(fù)雜,該類技術(shù)的可靠性有所下降[6]。

      基于機(jī)器學(xué)習(xí)的分類技術(shù)通?;诹髁康奶卣鱽磉M(jìn)行分類。這類技術(shù)通過訓(xùn)練一個(gè)模型來對(duì)流量進(jìn)行分類。在訓(xùn)練模型時(shí),特征維度越大并不代表分類性能就會(huì)更好。特征維度過大就可能存在冗余或無用特征,這不僅會(huì)增加分類器的計(jì)算復(fù)雜度,甚至還可能會(huì)降低分類器的分類能力[21-22]。本文選擇一條數(shù)據(jù)流作為一個(gè)樣本,提取每條流的包間隔平均時(shí)間、包間隔最大時(shí)間、包間隔最小時(shí)間、包平均載荷、包最大載荷、包最小載荷、初始數(shù)據(jù)載荷、前20個(gè)包的平均載荷等統(tǒng)計(jì)特征[23-26]作為數(shù)據(jù)集原始特征。相比與流量本身的內(nèi)容特征,其統(tǒng)計(jì)特征所包含的信息更為豐富,且無須對(duì)數(shù)據(jù)包所采用的協(xié)議進(jìn)行分析與解密[27-29]。

      2 基于特征回放的集成學(xué)習(xí)方法設(shè)計(jì)

      2.1 特征回放

      樣本數(shù)量與特征維度之間的比例直接影響機(jī)器學(xué)習(xí)模型的效果。然而,加密流量數(shù)量大與特征維度小的比值關(guān)系通常使得機(jī)器學(xué)習(xí)模型在訓(xùn)練時(shí)發(fā)生欠擬合。因此,提出一種特征回放的方法來緩解這一問題。

      如圖2所示,經(jīng)過特征選擇后的樣本作為原始數(shù)據(jù)集?;?Stacked Generalization[30]的思想,將KNN、邏輯回歸與決策樹設(shè)為預(yù)分類器。與Stacked Generalization不同,這種技術(shù)單獨(dú)將預(yù)分類器的預(yù)測(cè)結(jié)果作為決策分類器訓(xùn)練的輸入,而特征回放是將預(yù)分類器的預(yù)測(cè)結(jié)果與原始特征合并,之后再用以訓(xùn)練決策分類器。

      之所以將預(yù)分類器結(jié)果與原始特征一起用于訓(xùn)練決策分類器,是因?yàn)槲覀冋J(rèn)為預(yù)分類器的結(jié)果是對(duì)原有特征信息有側(cè)重的呈現(xiàn),是一種有選擇的信息提取,多個(gè)不同的預(yù)分類器給出的結(jié)果信息會(huì)為決策分類器提供有價(jià)值的參考意義。Stacked Generalization之所以刪除原始特征,是因?yàn)檫@種技術(shù)通常用于處理特征維度高的數(shù)據(jù)集,過多的特征會(huì)增加計(jì)算量。而在加密流量特征維度小的情況下,刪除原始特征會(huì)導(dǎo)致部分信息損失。

      2.2 集成方法

      如圖2所示,整體集成框架分為兩層結(jié)構(gòu)。第一層結(jié)構(gòu)采用KNN、邏輯回歸(LG)與決策樹(DR)作為預(yù)分類器。第二層結(jié)構(gòu)將預(yù)分類器的預(yù)測(cè)結(jié)果并入原始數(shù)據(jù)集作為決策分類器的輸入。分別嘗試了將AdaBoost、Bagging與隨機(jī)森林等模型設(shè)為決策分類器。此外,我們還將數(shù)據(jù)集按8∶1∶1隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集[31],訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于調(diào)整模型的超參數(shù),而測(cè)試集用于評(píng)估模型的最終效果。具體流程如下:

      圖2 特征回放與集成學(xué)習(xí)Fig. 2 Feature playback and ensemble learning

      1) 訓(xùn)練KNN、邏輯回歸與決策樹作為預(yù)分類器,將其預(yù)測(cè)結(jié)果按相同的順序進(jìn)行排列;

      2) 將排列好的預(yù)分類器結(jié)果加入原始數(shù)據(jù)集種,達(dá)到擴(kuò)增特征維度的效果;

      3) 用新數(shù)據(jù)集訓(xùn)練決策分類器,得到樣本的最終分類器結(jié)果。

      算法1描述了加密流量的特征回放集成學(xué)習(xí)方法。

      3 實(shí)驗(yàn)結(jié)果

      3.1 效果評(píng)估指標(biāo)

      為了評(píng)估所提方法的有效性,還需要設(shè)計(jì)對(duì)比實(shí)驗(yàn)來驗(yàn)證。在評(píng)價(jià)指標(biāo)中,我們選取了精確率、召回率、準(zhǔn)確率與F值[32-33],它們的公式如下:

      1) 準(zhǔn)確率(Accuracy):被預(yù)測(cè)正確的樣本占全部樣本的比例:

      2) 精確率(Precision):被正確預(yù)測(cè)為正類的樣本占全部被預(yù)測(cè)為正類的樣本的比例:

      3) 召回率(Recall):被正確預(yù)測(cè)為正類的樣本占所有實(shí)際為正類的樣本的比例:

      4) F-Measure:表示精確率和召回率的調(diào)和平均值:

      式中的基礎(chǔ)字母的含義如表2所示,其中TP、FP、TN與FN分別代表真陽(yáng)性、假陽(yáng)性、真陰性與假陰性。

      表2 混淆矩陣[34-36]Table 2 Confusion matrix

      3.2 預(yù)分類器的訓(xùn)練結(jié)果

      預(yù)分類器分別選擇了KNN、邏輯回歸與決策樹。首先,用訓(xùn)練集來調(diào)整模型權(quán)重;其次,評(píng)估模型在驗(yàn)證集上的效果;最后,根據(jù)評(píng)估結(jié)果選擇最優(yōu)的模型超參數(shù)。關(guān)于預(yù)分類器性能與超參數(shù)之間的關(guān)系如圖3所示。

      圖3 預(yù)分類器效果Fig. 3 Effect of pre-classifier

      在訓(xùn)練預(yù)分類器過程中發(fā)現(xiàn),KNN模型在K值較小的情況下會(huì)出現(xiàn)較為嚴(yán)重的過擬合現(xiàn)象,這種現(xiàn)象同樣發(fā)生在節(jié)點(diǎn)深度較大時(shí)的決策樹模型。此外,當(dāng)?shù)螖?shù)增大時(shí),邏輯回歸模型的準(zhǔn)確率不會(huì)發(fā)生較大的波動(dòng),一直保持在一個(gè)范圍之間。三個(gè)預(yù)分類器的最佳參數(shù)時(shí)的效果評(píng)價(jià)指標(biāo)記錄并整理為表3所示。

      表3 預(yù)分類器結(jié)果Table 3 Results of pre-classifier

      不難看出,在KNN、邏輯回歸與決策樹這三種傳統(tǒng)機(jī)器學(xué)習(xí)模型中,分類效果最佳的為KNN,其分類正確率約為69%。KNN在準(zhǔn)確率、召回率與F-Measure均高于另外兩種模型。其次,KNN僅在精確率稍稍低于決策樹(僅低了約2%)。這部分實(shí)驗(yàn)不僅僅評(píng)估了預(yù)分類器效果,也為后面的方法提供了對(duì)比的方法。具體而言,預(yù)分類器的效果評(píng)估也可以視為傳統(tǒng)機(jī)器學(xué)習(xí)算法在無特征回放擴(kuò)展特征維度時(shí)對(duì)加密流量的分類實(shí)驗(yàn)。

      3.3 決策分類器的訓(xùn)練結(jié)果

      特征回放將三種預(yù)分類器的預(yù)測(cè)結(jié)果作為新的特征值加入原有樣本的特征集合后,這相當(dāng)于原有特征的維度增加了三維。我們分別嘗試了 AdaBoost(AB)、Bagging、KNN、J48決策樹、Gradient Boosting(GB)、邏輯回歸(LG)、隨機(jī)森林(RF)與神經(jīng)網(wǎng)絡(luò)(兩層隱藏層的ANN網(wǎng)絡(luò))為決策分類器。之后,分別用特征回放后的訓(xùn)練集和驗(yàn)證集調(diào)整模型的權(quán)重與超參數(shù)。

      決策分類器性能與模型超參數(shù)的關(guān)系如圖4所示。從圖中可以看出,部分模型出現(xiàn)了過擬合現(xiàn)象,例如J48決策樹隨著樹節(jié)點(diǎn)深度的增高,訓(xùn)練集上的精度快速上升,而測(cè)試集上的精度卻有所下降。其中的原因可能為過于復(fù)雜的模型較好的擬合了訓(xùn)練集中的噪聲與沒有代表性的特征,從而導(dǎo)致了過擬合現(xiàn)象的發(fā)生。此外,圖4中還存在著部分模型無法擬合的現(xiàn)象。例如全連接神經(jīng)網(wǎng)絡(luò)在訓(xùn)練完成10輪之后,其準(zhǔn)確率不再發(fā)生過大的波動(dòng),一直維持在50%左右。其中可能存在的原因?yàn)椋?)網(wǎng)絡(luò)復(fù)雜度過低,無法很好地對(duì)數(shù)據(jù)進(jìn)行擬合;2)訓(xùn)練數(shù)據(jù)集特征維度過低,網(wǎng)絡(luò)無法學(xué)習(xí)到有效的信息。

      圖4 決策分類器效果Fig. 4 Effect of decision classifier

      不同的決策分類器模型效果如圖5所示。不難看出,最優(yōu)的決策分類器模型為隨機(jī)森林,它在四種指標(biāo)上都優(yōu)于其他7種模型。此外,在與之前的預(yù)分類器結(jié)果對(duì)比,它在四種指標(biāo)上也是優(yōu)于三種預(yù)分類器。具體而言,隨機(jī)森林的準(zhǔn)確率達(dá)到了約73.8%,比預(yù)分類器中最佳的KNN模型高出約5%。然而,全連接網(wǎng)絡(luò)的準(zhǔn)確率僅達(dá)到了約57%,僅高于預(yù)分類器中邏輯回歸的準(zhǔn)確率。

      圖5 決策分類器對(duì)比效果Fig. 5 Comparison of effect among different decision classifiers

      4 總結(jié)與展望

      本文針對(duì)互聯(lián)網(wǎng)加密流量分類問題,提出了一種基于特征回放的集成學(xué)習(xí)方法,在準(zhǔn)確率提升的基礎(chǔ)上,開展了對(duì)該方法的有效性驗(yàn)證工作。首先基于Cyberflood系統(tǒng)構(gòu)造并采集了四種不同類別類的加密流量,并提取單向流中的統(tǒng)計(jì)特征建立流樣本的數(shù)據(jù)集合。其次,訓(xùn)練三種預(yù)分類器為特征回放做準(zhǔn)備工作。最后,將經(jīng)過特征回放處理后的數(shù)據(jù)集用于訓(xùn)練決策分類器。實(shí)驗(yàn)選用了多種模型作為決策分類器。結(jié)果表明所提出的方法在準(zhǔn)確率上比最佳的傳統(tǒng)分類器高約5%。

      加密流量數(shù)據(jù)的特性讓它的內(nèi)容特征變得難以提取,僅僅用一些統(tǒng)計(jì)量特征來進(jìn)行分類往往會(huì)發(fā)生分類效果較差的情況。如何去提取更多有用的特征與如何更有效的優(yōu)化分類效果將成為未來加密流量分類研究工作的重心。同時(shí),大數(shù)據(jù)大流量的情況下怎么去進(jìn)行精準(zhǔn)分類,以及在保證分類準(zhǔn)確率的同時(shí)關(guān)注性能也是本文未來的研究工作。

      猜你喜歡
      分類器加密準(zhǔn)確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      一種基于熵的混沌加密小波變換水印算法
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      認(rèn)證加密的研究進(jìn)展
      基于ECC加密的電子商務(wù)系統(tǒng)
      浠水县| 涞水县| 镇平县| 马公市| 观塘区| 嘉义市| 万荣县| 松江区| 读书| 正镶白旗| 太湖县| 宝丰县| 襄城县| 涪陵区| 安义县| 黄山市| 乌鲁木齐市| 张北县| 新平| 班戈县| 彭山县| 襄城县| 宁强县| 广汉市| 淮阳县| 永安市| 托克托县| 平安县| 罗山县| 昭通市| 视频| 浮山县| 灵台县| 黄石市| 昔阳县| 图木舒克市| 东丰县| 天全县| 南部县| 东丽区| 金寨县|