• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向多類不均衡網(wǎng)絡(luò)流量的特征選擇方法

    2022-03-17 03:01:30
    科教導(dǎo)刊·電子版 2022年12期
    關(guān)鍵詞:網(wǎng)絡(luò)流量特征選擇子集

    楊 宏

    (武漢鐵路職業(yè)技術(shù)學(xué)院 湖北·武漢 430205)

    0 引言

    網(wǎng)絡(luò)用戶使用不同網(wǎng)絡(luò)的頻率不同,產(chǎn)生的流量也就具有了多類不平衡的特征。而根據(jù)網(wǎng)絡(luò)流量使用率對(duì)流量進(jìn)行分類處理,能夠有效保障網(wǎng)絡(luò)QoS值,維護(hù)網(wǎng)絡(luò)的健康安全。由于當(dāng)前端口號(hào)分類計(jì)數(shù)在對(duì)使用不固定端口的流量進(jìn)行特征分類時(shí),存在準(zhǔn)確率偏低的現(xiàn)狀,如何通過(guò)機(jī)器學(xué)習(xí)的特征分類技術(shù)提高此項(xiàng)數(shù)據(jù)的準(zhǔn)確率成為計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)。本文將對(duì)比不同的特征選擇方法,通過(guò)實(shí)驗(yàn)數(shù)據(jù),找出平均整體準(zhǔn)確率最高的特征選擇方法。

    1 面向多類不均衡網(wǎng)絡(luò)流量的特征選擇方法

    由于互聯(lián)網(wǎng)應(yīng)用中對(duì)不同的應(yīng)用程序有不同的使用率,從而所得到的服務(wù)中存在著多種類別的不均勻特性。多類型均衡特征是指在數(shù)據(jù)集,某個(gè)類型(大類別)的比例大于其他類別(小類別),大規(guī)模收集率高,小類別收集率低。例如,大類別(WWW類別)對(duì)應(yīng)于劍橋大學(xué)IP數(shù)據(jù)集所有樣本的百分之八十五以上,而小類別(ATAA類別FTP-P類別等)則相對(duì)于不足百分之一。

    在對(duì)數(shù)據(jù)集的直接分類中,WWW類型平均召回事件發(fā)生率接近為百分之一百,而atta類型的召回率則大致為百分之五十。而小類的比例則非常低,但對(duì)正確鑒別它們卻十分關(guān)鍵。也因此,正確鑒別付費(fèi)電話對(duì)檢測(cè)互聯(lián)網(wǎng)攻擊和保障安全都十分關(guān)鍵。所以,很有必要增加小分類模型的可見(jiàn)性。為降低分類平衡的不利因素和增加小類的收集量,數(shù)據(jù)收集通常確保了特征的總體準(zhǔn)確性。而因?yàn)橹爻闃油茐牧藰颖镜某跏挤植?,所以選擇特征的技術(shù)也被普遍采用。

    選取正確的小類特征不但能夠降低分析的時(shí)間和空間損耗,同時(shí)也能夠增加分析的整體精確度。所以,我們提出了一種基于相對(duì)不確定性和對(duì)稱不確定性的混合特征選擇方法。首先,由于各種類型的相對(duì)不確定性,選擇相關(guān)性強(qiáng)的特征形成候選集。然后,基于對(duì)稱性的不確定性,對(duì)每個(gè)候選特征進(jìn)行過(guò)濾,以保持強(qiáng)分辨率的特征,并去除其他特征。最后,從每個(gè)候選特征集中選擇特征以形成新的特征集。作為分類器,使用C4.5確定樹(shù)來(lái)評(píng)估其效果,并選擇最佳的特征排序集。為了過(guò)濾特征,F(xiàn)SMID方法為每個(gè)類指定候選項(xiàng)選擇最佳特征子組后,從這些特征集中選擇特征以形成一組新的功能并對(duì)其進(jìn)行評(píng)估。因此,F(xiàn)SMID可以確認(rèn)所選特征集包含與各種類型具有強(qiáng)相關(guān)性的功能。將FSMID方法與以前的方法進(jìn)行比較表明,該方法可以減少多重不平衡對(duì)網(wǎng)絡(luò)流量分類的負(fù)面影響。

    2 FSMID方法

    FSMID方法進(jìn)行特征選擇通常需要兩個(gè)步驟。首先將關(guān)聯(lián)性較強(qiáng)且具有明顯特征的候選特征選擇為一個(gè)類的集合。然后再將每個(gè)候選特征集合中選擇一個(gè)新的特征,以新的特征為區(qū)分,構(gòu)成一個(gè)新的集合。并利用C4.5決策樹(shù)對(duì)數(shù)據(jù)集進(jìn)行分類,將分類的結(jié)果和數(shù)據(jù)記錄下來(lái),從中選取和確定出最優(yōu)特征子集。

    確定候選特征集合偽代碼的算法主要包括三個(gè)部分。第1部分是采用FSMID相對(duì)不確定性選出RU(fi,cj),利用對(duì)稱不確定性選出SU(fi,c)子集集合,第2個(gè)部分是根據(jù)RU(fi,cj)選取出來(lái)的子集,為每個(gè)類選擇與其相關(guān)性較強(qiáng)的特征,從而得到多個(gè)特征結(jié)合。第3部分是根據(jù)su值,對(duì)特征集合進(jìn)行挑選過(guò)濾,保留其中區(qū)分能力較強(qiáng)的特征,同時(shí)保證特征集合之間不會(huì)存在交集。

    搜索最優(yōu)特征子集過(guò)程偽代碼主要包括兩個(gè)部分。第一部分是從Fj的每個(gè)集合中找到一個(gè)特征來(lái)構(gòu)成新的特征集合,同時(shí)通過(guò)數(shù)據(jù)處理清楚的其他特征。第2個(gè)步驟是利用分類器對(duì)處理后的數(shù)據(jù)進(jìn)行整理分類,并將結(jié)果記錄下來(lái)。通過(guò)不斷重復(fù)1、2兩個(gè)步驟,保證整個(gè)特征空間被完全搜索,然后在其中選擇一個(gè)分類效果最好的特征合集作為最優(yōu)特征子集。

    3 實(shí)驗(yàn)分析

    3.1 實(shí)驗(yàn)數(shù)據(jù)來(lái)源

    劍橋大學(xué)曾經(jīng)提供過(guò)一份公開(kāi)數(shù)據(jù)(Moore數(shù)據(jù)集),在網(wǎng)絡(luò)流量特征選擇中得到較為廣泛的應(yīng)用。這項(xiàng)數(shù)據(jù)是由1000人左右的研究人員,通過(guò)捕捉網(wǎng)絡(luò)出口處的三次握手 TCP數(shù)據(jù)得到的10個(gè)原始數(shù)據(jù)集。然后采取特征提取的方法,整理出248個(gè)不同特征的數(shù)據(jù)集。在對(duì)這些數(shù)據(jù)集進(jìn)行分類標(biāo)記時(shí),劍橋大學(xué)采用了以內(nèi)容檢測(cè)為基本方法的人工標(biāo)記手段。

    在劍橋大學(xué)的這份數(shù)據(jù)中,一共包含12個(gè)類別,為了方便實(shí)驗(yàn)對(duì)比,這些數(shù)據(jù)集進(jìn)行了預(yù)先處理。去除掉games等四個(gè)類樣本個(gè)數(shù)為0的所有樣本,每個(gè)子數(shù)據(jù)集仍然包括8個(gè)類別,且每個(gè)子數(shù)據(jù)集包含的樣板類別數(shù)量和占比各不相同。在這項(xiàng)數(shù)據(jù)集中共有332,554個(gè)樣本數(shù)量。其中,www類型樣本占到87.88%,而ftp-p.atta等類別所占比例不足1%。

    3.2 實(shí)驗(yàn)方案

    實(shí)驗(yàn)釆用劍橋大學(xué)Moore數(shù)據(jù)集。在子集10數(shù)據(jù)集(dataset1、dataset2、…、dataset10)中,dataset1加速函數(shù)用作訓(xùn)練集,其他子集9數(shù)據(jù)集用作測(cè)試集。在資源選擇過(guò)程中,將FSMID與非資源選擇數(shù)據(jù)集(完整集)、BFS方法和對(duì)稱不確定性過(guò)濾方法(su-f)進(jìn)行比較。決策樹(shù)C4.5對(duì)網(wǎng)絡(luò)流量分類有影響,因此被選為分類器。

    實(shí)驗(yàn)利用4種方法將得到的特征進(jìn)行分類,數(shù)據(jù)表明,各個(gè)子數(shù)據(jù)集上的準(zhǔn)確率都能夠達(dá)到98%以上。使用Fu-Dset進(jìn)行分類時(shí),平均整體正確率還要提高,達(dá)到99.1%。當(dāng)使用BFS和SU-F進(jìn)行特征選擇時(shí),會(huì)將其中大量不相關(guān)的特征剔除,導(dǎo)致平均整體正確率相對(duì)于FuHset提高了0.3%;其中,F(xiàn)SMID方法在絕大多數(shù)子數(shù)據(jù)集上是平均準(zhǔn)確率最高的方法,其準(zhǔn)確率高達(dá)99.6%,探究其原因主要是因?yàn)镕SMID方法所選擇的特征是與每個(gè)類具有相關(guān)性的特征。

    在上一章中,atta類和ftp-p類的入住率分別為0.44%和0.79%。通過(guò)比較四個(gè)方法作為子類的準(zhǔn)確性發(fā)現(xiàn),在atta類中,兩個(gè)個(gè)數(shù)據(jù)集的召回率都非常不穩(wěn)定。由于Atta類是網(wǎng)絡(luò)攻擊服務(wù)的流量,它通常偽裝成其他類型的服務(wù),以規(guī)避入侵檢測(cè)系統(tǒng)的檢測(cè)。此外,WWW類的網(wǎng)絡(luò)服務(wù)比例較大,在構(gòu)建決策樹(shù)C4.5時(shí)形成的節(jié)點(diǎn)往往對(duì)WWW類有利,對(duì)其他類不利,導(dǎo)致其他類標(biāo)準(zhǔn)分類錯(cuò)誤。根據(jù)FSMID方法,由于與子類在選擇相關(guān)上的強(qiáng)大功能,錯(cuò)誤分類為WWW類的子類數(shù)量減少,WWW類的誤報(bào)率降低。在atta類中,平均召回率提高了.5%。在ftp-p水平,與fulset相比,平均召回率增加了25.7%。

    3.3 實(shí)驗(yàn)結(jié)果分析

    實(shí)驗(yàn)結(jié)果顯示,特征1/95/96幾乎能夠被 SU-F BFS FSMID3種方式進(jìn)行良好的區(qū)分和選取,且按照這三種方法所選的特征基本上都和數(shù)據(jù)流的空間特征有關(guān),核數(shù)據(jù)流的時(shí)間特征關(guān)聯(lián)性相對(duì)較小。

    將利用4種方法實(shí)驗(yàn)得出的特征進(jìn)行分類發(fā)現(xiàn)整體準(zhǔn)確率都在95%以上,且平均整體準(zhǔn)確率高達(dá)98%。使用Fullset來(lái)分類的話,平均整體準(zhǔn)確率高達(dá)99%以上。而使用其他兩種方式進(jìn)行特征選擇時(shí),由于去除了過(guò)多不相關(guān)的特征,導(dǎo)致其相較于Fullset高出0.3個(gè)百分點(diǎn)。FSMID方法在大多數(shù)子數(shù)據(jù)的采集和分類中準(zhǔn)確率最高,平均整體準(zhǔn)確率高達(dá)99.6%。這正是因?yàn)镕SMID在選擇特征時(shí)會(huì)包含每個(gè)類相關(guān)的特征。

    除此之外,F(xiàn)SMID方法在小內(nèi)選擇上傾向于選擇與其相關(guān)性較強(qiáng)的特征,這在很大程度上減少了錯(cuò)誤分類為WWW類的子類數(shù)量減少,WWW類的假正率降低,小類召回率也就隨之提升。與Fullset相比,F(xiàn)SMID對(duì)于atta類的平均召回率提高了1.5個(gè)百分點(diǎn)。同時(shí),F(xiàn)SMID方法的平均g-mean值最高,與Fullset相比,提高了4.9個(gè)百分點(diǎn)。

    4 結(jié)語(yǔ)

    網(wǎng)絡(luò)用戶使用不同網(wǎng)絡(luò)的頻率不同,產(chǎn)生的流量也就具有了多類不平衡的特征。而根據(jù)網(wǎng)絡(luò)流量使用率對(duì)流量進(jìn)行分類處理,能夠有效保障網(wǎng)絡(luò)QoS值,維護(hù)網(wǎng)絡(luò)的健康安全。首先,通過(guò)利用相對(duì)的不確定性在每個(gè)類中選擇候選集。接著,在各種聯(lián)合候選資源中,保留了高度對(duì)稱的不確定特性,而去掉了其他特性。最后,采用了基于決策樹(shù)C四點(diǎn)五的包裝功能選擇方式,來(lái)判斷功能良序子集的最理想數(shù)量。實(shí)驗(yàn)表明該方法具有更高的總體準(zhǔn)確率、小類召回率和g-mean值,可以減少多分類不平衡的負(fù)面影響,是未來(lái)的研究方向。

    猜你喜歡
    網(wǎng)絡(luò)流量特征選擇子集
    由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
    基于多元高斯分布的網(wǎng)絡(luò)流量異常識(shí)別方法
    拓?fù)淇臻g中緊致子集的性質(zhì)研究
    基于神經(jīng)網(wǎng)絡(luò)的P2P流量識(shí)別方法
    關(guān)于奇數(shù)階二元子集的分離序列
    AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計(jì)算
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    每一次愛(ài)情都只是愛(ài)情的子集
    都市麗人(2015年4期)2015-03-20 13:33:22
    基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
    沭阳县| 镇江市| 汝城县| 德庆县| 应用必备| 桃江县| 梅州市| 莱芜市| 延寿县| 江陵县| 南阳市| 双辽市| 如东县| 庆城县| 九龙坡区| 广宁县| 广河县| 喀什市| 嘉黎县| 会宁县| 镇远县| 岑巩县| 平塘县| 柯坪县| 罗城| 乃东县| 彭阳县| 都昌县| 开鲁县| 富蕴县| 沙坪坝区| 安图县| 武宣县| 伊宁县| 红安县| 云南省| 保靖县| 安龙县| 惠州市| 沭阳县| 报价|