楊 宏
(武漢鐵路職業(yè)技術(shù)學(xué)院 湖北·武漢 430205)
網(wǎng)絡(luò)用戶使用不同網(wǎng)絡(luò)的頻率不同,產(chǎn)生的流量也就具有了多類不平衡的特征。而根據(jù)網(wǎng)絡(luò)流量使用率對(duì)流量進(jìn)行分類處理,能夠有效保障網(wǎng)絡(luò)QoS值,維護(hù)網(wǎng)絡(luò)的健康安全。由于當(dāng)前端口號(hào)分類計(jì)數(shù)在對(duì)使用不固定端口的流量進(jìn)行特征分類時(shí),存在準(zhǔn)確率偏低的現(xiàn)狀,如何通過(guò)機(jī)器學(xué)習(xí)的特征分類技術(shù)提高此項(xiàng)數(shù)據(jù)的準(zhǔn)確率成為計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)。本文將對(duì)比不同的特征選擇方法,通過(guò)實(shí)驗(yàn)數(shù)據(jù),找出平均整體準(zhǔn)確率最高的特征選擇方法。
由于互聯(lián)網(wǎng)應(yīng)用中對(duì)不同的應(yīng)用程序有不同的使用率,從而所得到的服務(wù)中存在著多種類別的不均勻特性。多類型均衡特征是指在數(shù)據(jù)集,某個(gè)類型(大類別)的比例大于其他類別(小類別),大規(guī)模收集率高,小類別收集率低。例如,大類別(WWW類別)對(duì)應(yīng)于劍橋大學(xué)IP數(shù)據(jù)集所有樣本的百分之八十五以上,而小類別(ATAA類別FTP-P類別等)則相對(duì)于不足百分之一。
在對(duì)數(shù)據(jù)集的直接分類中,WWW類型平均召回事件發(fā)生率接近為百分之一百,而atta類型的召回率則大致為百分之五十。而小類的比例則非常低,但對(duì)正確鑒別它們卻十分關(guān)鍵。也因此,正確鑒別付費(fèi)電話對(duì)檢測(cè)互聯(lián)網(wǎng)攻擊和保障安全都十分關(guān)鍵。所以,很有必要增加小分類模型的可見(jiàn)性。為降低分類平衡的不利因素和增加小類的收集量,數(shù)據(jù)收集通常確保了特征的總體準(zhǔn)確性。而因?yàn)橹爻闃油茐牧藰颖镜某跏挤植?,所以選擇特征的技術(shù)也被普遍采用。
選取正確的小類特征不但能夠降低分析的時(shí)間和空間損耗,同時(shí)也能夠增加分析的整體精確度。所以,我們提出了一種基于相對(duì)不確定性和對(duì)稱不確定性的混合特征選擇方法。首先,由于各種類型的相對(duì)不確定性,選擇相關(guān)性強(qiáng)的特征形成候選集。然后,基于對(duì)稱性的不確定性,對(duì)每個(gè)候選特征進(jìn)行過(guò)濾,以保持強(qiáng)分辨率的特征,并去除其他特征。最后,從每個(gè)候選特征集中選擇特征以形成新的特征集。作為分類器,使用C4.5確定樹(shù)來(lái)評(píng)估其效果,并選擇最佳的特征排序集。為了過(guò)濾特征,F(xiàn)SMID方法為每個(gè)類指定候選項(xiàng)選擇最佳特征子組后,從這些特征集中選擇特征以形成一組新的功能并對(duì)其進(jìn)行評(píng)估。因此,F(xiàn)SMID可以確認(rèn)所選特征集包含與各種類型具有強(qiáng)相關(guān)性的功能。將FSMID方法與以前的方法進(jìn)行比較表明,該方法可以減少多重不平衡對(duì)網(wǎng)絡(luò)流量分類的負(fù)面影響。
FSMID方法進(jìn)行特征選擇通常需要兩個(gè)步驟。首先將關(guān)聯(lián)性較強(qiáng)且具有明顯特征的候選特征選擇為一個(gè)類的集合。然后再將每個(gè)候選特征集合中選擇一個(gè)新的特征,以新的特征為區(qū)分,構(gòu)成一個(gè)新的集合。并利用C4.5決策樹(shù)對(duì)數(shù)據(jù)集進(jìn)行分類,將分類的結(jié)果和數(shù)據(jù)記錄下來(lái),從中選取和確定出最優(yōu)特征子集。
確定候選特征集合偽代碼的算法主要包括三個(gè)部分。第1部分是采用FSMID相對(duì)不確定性選出RU(fi,cj),利用對(duì)稱不確定性選出SU(fi,c)子集集合,第2個(gè)部分是根據(jù)RU(fi,cj)選取出來(lái)的子集,為每個(gè)類選擇與其相關(guān)性較強(qiáng)的特征,從而得到多個(gè)特征結(jié)合。第3部分是根據(jù)su值,對(duì)特征集合進(jìn)行挑選過(guò)濾,保留其中區(qū)分能力較強(qiáng)的特征,同時(shí)保證特征集合之間不會(huì)存在交集。
搜索最優(yōu)特征子集過(guò)程偽代碼主要包括兩個(gè)部分。第一部分是從Fj的每個(gè)集合中找到一個(gè)特征來(lái)構(gòu)成新的特征集合,同時(shí)通過(guò)數(shù)據(jù)處理清楚的其他特征。第2個(gè)步驟是利用分類器對(duì)處理后的數(shù)據(jù)進(jìn)行整理分類,并將結(jié)果記錄下來(lái)。通過(guò)不斷重復(fù)1、2兩個(gè)步驟,保證整個(gè)特征空間被完全搜索,然后在其中選擇一個(gè)分類效果最好的特征合集作為最優(yōu)特征子集。
劍橋大學(xué)曾經(jīng)提供過(guò)一份公開(kāi)數(shù)據(jù)(Moore數(shù)據(jù)集),在網(wǎng)絡(luò)流量特征選擇中得到較為廣泛的應(yīng)用。這項(xiàng)數(shù)據(jù)是由1000人左右的研究人員,通過(guò)捕捉網(wǎng)絡(luò)出口處的三次握手 TCP數(shù)據(jù)得到的10個(gè)原始數(shù)據(jù)集。然后采取特征提取的方法,整理出248個(gè)不同特征的數(shù)據(jù)集。在對(duì)這些數(shù)據(jù)集進(jìn)行分類標(biāo)記時(shí),劍橋大學(xué)采用了以內(nèi)容檢測(cè)為基本方法的人工標(biāo)記手段。
在劍橋大學(xué)的這份數(shù)據(jù)中,一共包含12個(gè)類別,為了方便實(shí)驗(yàn)對(duì)比,這些數(shù)據(jù)集進(jìn)行了預(yù)先處理。去除掉games等四個(gè)類樣本個(gè)數(shù)為0的所有樣本,每個(gè)子數(shù)據(jù)集仍然包括8個(gè)類別,且每個(gè)子數(shù)據(jù)集包含的樣板類別數(shù)量和占比各不相同。在這項(xiàng)數(shù)據(jù)集中共有332,554個(gè)樣本數(shù)量。其中,www類型樣本占到87.88%,而ftp-p.atta等類別所占比例不足1%。
實(shí)驗(yàn)釆用劍橋大學(xué)Moore數(shù)據(jù)集。在子集10數(shù)據(jù)集(dataset1、dataset2、…、dataset10)中,dataset1加速函數(shù)用作訓(xùn)練集,其他子集9數(shù)據(jù)集用作測(cè)試集。在資源選擇過(guò)程中,將FSMID與非資源選擇數(shù)據(jù)集(完整集)、BFS方法和對(duì)稱不確定性過(guò)濾方法(su-f)進(jìn)行比較。決策樹(shù)C4.5對(duì)網(wǎng)絡(luò)流量分類有影響,因此被選為分類器。
實(shí)驗(yàn)利用4種方法將得到的特征進(jìn)行分類,數(shù)據(jù)表明,各個(gè)子數(shù)據(jù)集上的準(zhǔn)確率都能夠達(dá)到98%以上。使用Fu-Dset進(jìn)行分類時(shí),平均整體正確率還要提高,達(dá)到99.1%。當(dāng)使用BFS和SU-F進(jìn)行特征選擇時(shí),會(huì)將其中大量不相關(guān)的特征剔除,導(dǎo)致平均整體正確率相對(duì)于FuHset提高了0.3%;其中,F(xiàn)SMID方法在絕大多數(shù)子數(shù)據(jù)集上是平均準(zhǔn)確率最高的方法,其準(zhǔn)確率高達(dá)99.6%,探究其原因主要是因?yàn)镕SMID方法所選擇的特征是與每個(gè)類具有相關(guān)性的特征。
在上一章中,atta類和ftp-p類的入住率分別為0.44%和0.79%。通過(guò)比較四個(gè)方法作為子類的準(zhǔn)確性發(fā)現(xiàn),在atta類中,兩個(gè)個(gè)數(shù)據(jù)集的召回率都非常不穩(wěn)定。由于Atta類是網(wǎng)絡(luò)攻擊服務(wù)的流量,它通常偽裝成其他類型的服務(wù),以規(guī)避入侵檢測(cè)系統(tǒng)的檢測(cè)。此外,WWW類的網(wǎng)絡(luò)服務(wù)比例較大,在構(gòu)建決策樹(shù)C4.5時(shí)形成的節(jié)點(diǎn)往往對(duì)WWW類有利,對(duì)其他類不利,導(dǎo)致其他類標(biāo)準(zhǔn)分類錯(cuò)誤。根據(jù)FSMID方法,由于與子類在選擇相關(guān)上的強(qiáng)大功能,錯(cuò)誤分類為WWW類的子類數(shù)量減少,WWW類的誤報(bào)率降低。在atta類中,平均召回率提高了.5%。在ftp-p水平,與fulset相比,平均召回率增加了25.7%。
實(shí)驗(yàn)結(jié)果顯示,特征1/95/96幾乎能夠被 SU-F BFS FSMID3種方式進(jìn)行良好的區(qū)分和選取,且按照這三種方法所選的特征基本上都和數(shù)據(jù)流的空間特征有關(guān),核數(shù)據(jù)流的時(shí)間特征關(guān)聯(lián)性相對(duì)較小。
將利用4種方法實(shí)驗(yàn)得出的特征進(jìn)行分類發(fā)現(xiàn)整體準(zhǔn)確率都在95%以上,且平均整體準(zhǔn)確率高達(dá)98%。使用Fullset來(lái)分類的話,平均整體準(zhǔn)確率高達(dá)99%以上。而使用其他兩種方式進(jìn)行特征選擇時(shí),由于去除了過(guò)多不相關(guān)的特征,導(dǎo)致其相較于Fullset高出0.3個(gè)百分點(diǎn)。FSMID方法在大多數(shù)子數(shù)據(jù)的采集和分類中準(zhǔn)確率最高,平均整體準(zhǔn)確率高達(dá)99.6%。這正是因?yàn)镕SMID在選擇特征時(shí)會(huì)包含每個(gè)類相關(guān)的特征。
除此之外,F(xiàn)SMID方法在小內(nèi)選擇上傾向于選擇與其相關(guān)性較強(qiáng)的特征,這在很大程度上減少了錯(cuò)誤分類為WWW類的子類數(shù)量減少,WWW類的假正率降低,小類召回率也就隨之提升。與Fullset相比,F(xiàn)SMID對(duì)于atta類的平均召回率提高了1.5個(gè)百分點(diǎn)。同時(shí),F(xiàn)SMID方法的平均g-mean值最高,與Fullset相比,提高了4.9個(gè)百分點(diǎn)。
網(wǎng)絡(luò)用戶使用不同網(wǎng)絡(luò)的頻率不同,產(chǎn)生的流量也就具有了多類不平衡的特征。而根據(jù)網(wǎng)絡(luò)流量使用率對(duì)流量進(jìn)行分類處理,能夠有效保障網(wǎng)絡(luò)QoS值,維護(hù)網(wǎng)絡(luò)的健康安全。首先,通過(guò)利用相對(duì)的不確定性在每個(gè)類中選擇候選集。接著,在各種聯(lián)合候選資源中,保留了高度對(duì)稱的不確定特性,而去掉了其他特性。最后,采用了基于決策樹(shù)C四點(diǎn)五的包裝功能選擇方式,來(lái)判斷功能良序子集的最理想數(shù)量。實(shí)驗(yàn)表明該方法具有更高的總體準(zhǔn)確率、小類召回率和g-mean值,可以減少多分類不平衡的負(fù)面影響,是未來(lái)的研究方向。