張 瑜, 劉曉潔, 李貝貝
(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院, 成都 610065)
網(wǎng)絡(luò)攻擊中,木馬作為一種十分隱蔽的惡意程序,常被攻擊者用來竊取信息、遠程控制他人主機并借此構(gòu)建僵尸網(wǎng)絡(luò)來發(fā)動大規(guī)模的攻擊,其中遠程控制型木馬危害較大,其大多對通信數(shù)據(jù)進行加密,在目標(biāo)機器上通過多種方式隱藏自身,檢測難度較高.國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心在《2018年中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報告》中指出,2018年境內(nèi)共有659208個IP地址的主機被植入木馬或僵尸程序,給網(wǎng)民、企業(yè)以至國家造成了巨大損失[1].
通過網(wǎng)絡(luò)會話流的異常行為識別木馬是當(dāng)前的研究熱點,通過采集木馬流量并統(tǒng)計特征來構(gòu)建異常檢測模型,部署在網(wǎng)絡(luò)出口節(jié)點上,從而實現(xiàn)對未知木馬的檢測,此方式避免了對加密流量載荷的分析,同時克服了基于主機行為的特征碼檢測方式[2-3]的滯后性.目前,對木馬通信流量進行異常檢測的研究工作主要集中在以下兩方面.
(1) 對于木馬會話流特征提取階段的改進:李巍等[4]將木馬通信過程劃分成建立連接、命令交互、保持連接三個階段,分別提取出代表性特征后建模驗證特征的有效性. Jiang等[5]提出一種在木馬通信早期階段進行檢測的方法,將會話從TCP三次連接開始到數(shù)據(jù)包間隔大于1 s這段時期定義為流的早期階段,通過提取該階段的特征進行模型構(gòu)建及識別.但UDP會話無法劃定早期階段,且該研究選擇的特征不夠具有代表性.胥攀等[6]在時間維度上對木馬通信流進行聚類生成通信流簇,在簇上提取特征能夠更精確地描述木馬流量.該方法需要對提取到的數(shù)據(jù)聚合多次,增加了計算代價且損失了實時性.
(2) 對于檢測階段的改進:蘭景宏等[7]提出一種木馬流量檢測集成分類模型以增加分類精度和泛化能力,先對旋轉(zhuǎn)隨機森林算法中的主成分變換進行均值化改進,接著采用此旋轉(zhuǎn)森林算法對原始數(shù)據(jù)集進行旋轉(zhuǎn)處理,再選取樸素貝葉斯、C4.5決策樹和支持向量機構(gòu)建集成分類模型.張兆林等[8]引入人臉識別領(lǐng)域的Adaboost算法模型,選擇支持向量機、C4.5決策樹和神經(jīng)網(wǎng)絡(luò)建立集成分類模型,提高了單一算法的檢測效果.汪潔等[9]提出多層集成分類器的方法檢測惡意流量,首先采用無監(jiān)督學(xué)習(xí)框架對數(shù)據(jù)進行預(yù)處理并將其聚成不同的簇,并對每一個簇進行噪音處理,然后使用隨機森林、bagging和Adaboost構(gòu)建三層分類器進行檢測,達到了較好的檢測效果.此類方法[10-11]選擇的特征較少,代表性不足,且存在特征間信息冗余的缺點.
針對以上問題,本文提出一種子集規(guī)模自適應(yīng)特征選擇方法.在提取并派生出充分的特征后,先對提取的特征計算重要性評價系數(shù),接著在每一輪迭代中更新特征的聯(lián)合相關(guān)性評價系數(shù),同時做出排序,使得篩選后的特征具有足夠的代表性,并減小子集中特征的冗余,最后選擇另外兩種特征選擇算法在真實木馬流量上采用樸素貝葉斯、支持向量機兩種分類算法進行對比實驗.
木馬大多采用C-S架構(gòu)部署,服務(wù)端運行在受控主機上,客戶端運行在控制主機上,這種木馬稱為遠程控制型木馬.在Windows平臺上,木馬具有以下行為:磁盤文件操作,包括遠程運行、刪除、修改、上傳及下載;注冊表讀寫操作;進程管理操作;屏幕監(jiān)控和鼠標(biāo)控制;鍵盤記錄及遠程操作;遠程執(zhí)行CMD命令;攝像頭及聲音設(shè)備控制.這些行為從網(wǎng)絡(luò)流的角度可以劃分成四類:下行短數(shù)據(jù)流(如控制命令)、上行短數(shù)據(jù)流(如命令執(zhí)行結(jié)果)、下行長數(shù)據(jù)流(如文件傳輸)、上行長數(shù)據(jù)流(如屏幕監(jiān)控),這里的上行指服務(wù)端向客戶端發(fā)送的方向,下行則是指客戶端向服務(wù)端發(fā)送的方向,長短表示流的持續(xù)時間.在程序通信中,網(wǎng)絡(luò)數(shù)據(jù)流指按照五元組(源IP、目的IP、源端口、目的端口、協(xié)議)對數(shù)據(jù)包劃分后得到的數(shù)據(jù)包集合,本文將一條網(wǎng)絡(luò)數(shù)據(jù)流定義為一條會話,通過對多種木馬運行并分析其會話數(shù)據(jù)后,劃分以下5類會話屬性,共提取43個會話特征作為初選特征集,用以描述木馬流量與正常流量的差異.
相比于正常應(yīng)用程序,木馬服務(wù)端作為受控端,提供竊取信息和執(zhí)行命令的功能,而正常應(yīng)用程序的網(wǎng)絡(luò)行為是獲取信息和發(fā)送請求,反映在流量統(tǒng)計上則是上行流量遠高于下行流量,例如攻擊者在下載服務(wù)端上的文件或監(jiān)控服務(wù)端主機的屏幕時.例如采集到的正常通信流和木馬流在上下行數(shù)據(jù)量比上的取值分布統(tǒng)計對比(如圖1所示),從圖1可以看出木馬流量和正常流量的分布差異.本文在此屬性上派生出的6個會話特征見表1.
圖1 上下行流量比值差異
在木馬連接和通信過程中,控制端會發(fā)送大量的命令到服務(wù)端執(zhí)行,服務(wù)端會返回執(zhí)行結(jié)果,而命令數(shù)據(jù)大多是較短指令構(gòu)成的小數(shù)據(jù)包(100字節(jié)內(nèi)),返回的內(nèi)容大多是大數(shù)據(jù)包(文件、CMD返回內(nèi)容、音視頻數(shù)據(jù)),例如正常流量與木馬流量在上行大包數(shù)量上的差異如圖2所示,本文在此屬性上派生出的12個會話特征見表2.
表1 上下行流特征
圖2 上行大包數(shù)量差異
表2 上下行數(shù)據(jù)包特征
木馬服務(wù)端在通過DNS解析到客戶端IP后,會向該地址不斷發(fā)送連接請求,直到成功連接到客戶端,在這一過程中,服務(wù)端會發(fā)起大量的TCP連接請求,產(chǎn)生了大量的帶有SYN標(biāo)志位的數(shù)據(jù)包.同時為了使兩端的通信延遲更小,發(fā)送方會在發(fā)送控制數(shù)據(jù)時將該次連接的PSH標(biāo)志位置1,這樣接收方便會在執(zhí)行完成后立即返回結(jié)果數(shù)據(jù),而不必等待其他數(shù)據(jù),這也使得會話中帶有PSH標(biāo)志位的數(shù)據(jù)包占比較正常會話高,本文在此屬性上提取的兩個會話特征見表3.
表3 流標(biāo)志位特征
受害主機在接收到客戶端發(fā)送的控制命令后,需要執(zhí)行指定的命令,執(zhí)行完成后再將結(jié)果返回給客戶端,攻擊者在收到數(shù)據(jù)后,也需要在分析結(jié)果后給出下一步攻擊命令,這樣就帶來了較大的數(shù)據(jù)包處理間隔.而正常通信流量的數(shù)據(jù)包間隔往往較小且更穩(wěn)定,如圖3所示,流下行包最大間隔差異,本文在此屬性上派生出14個特征以描述會話流,如表4所示.
圖3 流下行包最大間隔差異
表4 數(shù)據(jù)包間隔特征
由于木馬攻擊活動具有持續(xù)性,因此其部分通信連接會保存較長的時間,而正常應(yīng)用程序出于減小服務(wù)器負(fù)載的目的會在完成信息傳輸后斷開連接,釋放資源,因此大部分正常連接持續(xù)時間都短于木馬流.同時為了衡量數(shù)據(jù)流在時間維度上的差異,本文增加了9個會話流基本特征,如表5所示.
表5會話流基本特征
在模式識別中,特征選擇作為一種降維方法一直是研究的熱點[12-16],考慮到特征對模型預(yù)測能力的影響以及特征間的相關(guān)性,通過某種方法從原始特征集合中選擇更優(yōu)的特征子集后,能夠在后續(xù)機器學(xué)習(xí)模型中得到更好的預(yù)測效果,同時降低在大規(guī)模數(shù)據(jù)下的計算代價.
按照搜索策略來劃分特征選擇方法,可以分為采用全局最優(yōu)搜索的特征選擇算法、采用隨機搜索策略的特征選擇算法和采用序列搜索策略的特征選擇算法三類.其中采用全局最優(yōu)搜索可以找到最優(yōu)子集,但計算代價也是最大的,目前使用較廣泛的是后兩者[17-19].若按照特征子集評價標(biāo)準(zhǔn)來劃分特征選擇方法,主要分為Filter(過濾法)和Wrapper(包裝法).其中,F(xiàn)ilter方法獨立于后續(xù)機器學(xué)習(xí)算法的結(jié)果,通過某些統(tǒng)計指標(biāo)來衡量選擇的優(yōu)劣,使用較廣泛的指標(biāo)有特征間距離、特征信息熵等;而Wrapper方法將后續(xù)采用的機器學(xué)習(xí)算法的結(jié)果作為指標(biāo)來衡量特征選擇的優(yōu)劣,這種方法與算法結(jié)合得更加緊密,但也損失了特征選擇的一般性.
本文采用序列搜索中的后向選擇策略和Filter式的評價標(biāo)準(zhǔn)構(gòu)造特征選擇算法.
本文在后向選擇策略的基礎(chǔ)上,定義特征重要性評價系數(shù)以及特征的聯(lián)合相關(guān)性評價系數(shù).基于這兩系數(shù),本節(jié)提出一種特征子集自適應(yīng)選擇算法(Adaptive Feature Subset Selection Algorithm, AFSA),AFSA算法通過每一輪迭代計算特征間的組合效應(yīng),選出最優(yōu)特征,且能自適應(yīng)地確定特征數(shù)量.
3.1.1 改進的重要性及聯(lián)合相關(guān)性評價系數(shù) 特征的重要性評價系數(shù)指通過該特征識別出某類C的能力強弱,重要性評價系數(shù)越大,說明通過該特征能夠更好地區(qū)分類C與其他類.根據(jù)香農(nóng)信息熵理論,若某特征f在類C上的取值范圍較集中,表示其不確定性較小,在類C上具有較強代表性,同時,若特征f在類C1和C2上的取值分布范圍重合區(qū)間較小,表示該特征在此兩類上分布差異較大,通過特征f能夠很好地區(qū)分類C1和C2.特征重要性評價系數(shù)結(jié)合了特征f的取值集中程度和在不同類上的分布差異.
特征的聯(lián)合相關(guān)性評價系數(shù)則用來衡量特征f與剩余特征集合的相關(guān)性關(guān)系,本文采用標(biāo)準(zhǔn)化互信息來計算兩兩特征間的相關(guān)性,若特征f與剩余特征相關(guān)性較高,且在去除該特征后剩余特征集合內(nèi)相關(guān)性較低,則表明該特征給特征集合帶來了較大的冗余信息.基于以上分析,本節(jié)給出以下的定義.
假定有木馬流量數(shù)據(jù)集S,包含M條數(shù)據(jù),每條數(shù)據(jù)由N個特征值和一個類別標(biāo)簽構(gòu)成,廣義上有兩種類別:木馬流量和正常流量,但正常流量間具有差異性,因此本文先對正常流量通過K-Means聚類后,根據(jù)結(jié)果更新正常流量這一類別,同時本文采用Z-score方法對數(shù)據(jù)進行標(biāo)準(zhǔn)化以消除不同量綱的影響.
定義1特征集中度Pim,表示特征fi在Cm類上的分布集中度.
Pim=1/(Zmax-Zmin)Vs
(1)
其中,Zmax、Zmin為標(biāo)準(zhǔn)化后特征最大、最小值;Vs表示特征取值的離散系數(shù).
定義2特征值分布差異Dimn.
Dimn=nim·nin/nimn2
(2)
從圖1~圖3可以看出,同一特征在兩類上取值分布具有差異,其中,nimn表示兩類在同一特征上取值重合區(qū)間內(nèi)樣本數(shù);nim、nin分別表示兩類的樣本總數(shù).
定義3特征重要性評價系數(shù)Ii.
(3)
特征重要性評價系數(shù)衡量了特征f在木馬類別上取值集中程度及與其他類的分布差異,該值越大,表示特征在選擇時權(quán)重越大.
定義4特征聯(lián)合相關(guān)性評價系數(shù)Ei.
該評價系數(shù)的思想來源于圖像關(guān)聯(lián)分析中的關(guān)聯(lián)信息熵[20],是一種度量信息冗余的指標(biāo),文獻[13]引入該思想到特征選擇中,相較于文獻[13]中提出的關(guān)聯(lián)信息熵公式,本文采用特征間標(biāo)準(zhǔn)化互信息作為矩陣元素,更好地度量特征集整體的相關(guān)性.設(shè)有原始木馬流量特征集合F={f1,f2,f3, ... ,fN},從中選擇特征fk后剩余特征子集F/fk,基于特征間的相關(guān)關(guān)系,構(gòu)造以下相關(guān)性模型Hk,形式為
(4)
例如F={f1,f2,f3,f4,f5}時f2的相關(guān)性模型H2的形式如下.
(5)
Hk為一個N-1階方陣,矩陣元素NMIij為兩個特征間的標(biāo)準(zhǔn)化互信息:
(6)
其中,I(X;Y)為X和Y的互信息;H(X)和H(Y)為X和Y的熵,根據(jù)性質(zhì)知0≤NMIij≤1,NMIij=NMIji,那么Hk為實對稱方陣.對稱方陣進行特征分解得到的特征值表示在各個特征向量上矩陣的信息量,而每個特征對相關(guān)性影響可以用其特征值表示,假定Hk存在K個正特征值ek,定義特征聯(lián)合相關(guān)性評價系數(shù)為
(7)
當(dāng)特征fk與其他特征完全相關(guān),且特征子集間相互無關(guān)時,矩陣Hk成為單位矩陣I,單位矩陣的特征值均為1,根據(jù)式(7)可以計算出Ei為1,這時將特征fk視為帶來較大不確定性的特征,在后續(xù)選擇中權(quán)重較低,若特征fk與其他特征不相關(guān),此時Ei為0,將該特征視為帶來較小不確定性的特征,后續(xù)選擇中權(quán)重更高,因此該系數(shù)滿足特征選擇的要求.
通過3.1節(jié)定義的兩個評價系數(shù),本文設(shè)計了基于序列后向選擇的子集規(guī)模自適應(yīng)特征選擇算法,特征選擇中如何確定移除的特征數(shù)量是一個研究熱點,而人工設(shè)定數(shù)量的方式不夠靈活,本文算法通過以下策略對子集規(guī)模進行控制,如算法1所示.
算法1 特征子集自適應(yīng)后向選擇算法-AFSA
輸入原始特征集合F,數(shù)據(jù)集,類別C.
輸出終選特征子集S.
1) 遍歷F,計算特征f重要性評價系數(shù)If;
2) 計算重要性評價系數(shù)均值Ie,將低于均值的特征放到預(yù)移除特征集合Fd中,剩余特征為集合Fr,F(xiàn)=Fd+Fr;
3) 計算F的特征間標(biāo)準(zhǔn)化互信息NMIij;
4) 遍歷Fr,計算每個特征相對于Fr的聯(lián)合相關(guān)性評價系數(shù)Eri,同時計算Fr聯(lián)合相關(guān)性評價系數(shù)均值和重要性評價系數(shù)均值的比值Rri作為參照值,以Fr中特征的系數(shù)比值最小值作為適應(yīng)值;
5) 遍歷Fd,計算每個特征相對于Fd+Fr的聯(lián)合相關(guān)性評價系數(shù)Edi,計算聯(lián)合相關(guān)性評價系數(shù)均值和重要性評價系數(shù)均值的比Rdi后做升序排序;
6) 若Fd中末尾特征flast的Rd大于參照值Rri,則在Fd中移除特征flast,否則結(jié)束,若第一輪比較時無可移除特征,那么令Rri為步驟4)中的適應(yīng)值;
7) 若Fd為空,算法結(jié)束,否則回到步驟5);
8) 結(jié)束后輸出特征選擇結(jié)果Fd+Fr.
由于上述步驟6)第一次移除時,可能出現(xiàn)無法移除特征的情況,本文的目標(biāo)是盡可能移除較差作用特征,因此算法考慮對參照值Rri作一定范圍調(diào)整,即以Fr中特征的聯(lián)合相關(guān)性評價系數(shù)和重要性評價系數(shù)比的最小值作為參照值Rri,若仍然無可移除特征,算法終止,表明原始特征集合較為優(yōu)異.
盡管特征選擇在整個檢測系統(tǒng)只需進行一次,但算法的計算代價也需要盡可能的低.按照3.1節(jié)中所述,設(shè)有N維特征,M個類別,k條樣本數(shù)據(jù),3.2節(jié)算法中計算特征重要性評價系數(shù)代價為O(NMk),兩兩特征計算NMI的計算代價為O(k2),最壞情況下迭代次數(shù)為Fd,此時總的相關(guān)性評價系數(shù)計算代價為O(N3×N),由于N?k,那么算法時間復(fù)雜度為O(k2),相較于經(jīng)典的mRMR算法[21]的O(N2k2),本算法計算代價更低.
為了驗證本文提出方法的有效性,本文設(shè)計了兩組對比實驗:(1) 將本文初選特征集和終選特征集與文獻[7]中16個特征基于相同分類器做實驗對比,驗證特征提取和特征選擇的有效性;(2) 與常用基于信息熵的特征選擇算法作對比,驗證本文特征選擇算法的改進效果.實驗均使用相同的訓(xùn)練集和測試集,采用樸素貝葉斯分類算法和支持向量機分類算法.這兩種算法在相關(guān)研究[6-7,10-11]中多被采用,且屬于分類算法中原理差異較大的代表性算法,能夠衡量特征集合的效果.為了得到更為準(zhǔn)確的檢測效果,本文采用10折交叉驗證方法來計算評估指標(biāo).
本文在四川大學(xué)某實驗室局域網(wǎng)出口搭建了木馬流量檢測系統(tǒng),測試局域網(wǎng)共有主機35臺,其中30臺為正常使用機器,用于生成正常流量,5臺為目標(biāo)機器用于生成木馬流量,在局域網(wǎng)外設(shè)置一臺控制主機,用于控制木馬,通過設(shè)置端口白名單的方式來保證流量的純凈,網(wǎng)絡(luò)拓?fù)淙鐖D4所示.實驗收集了惡意軟件社區(qū)(VirusShare、Github、MalShare)中上傳的木馬樣本,選擇后帶有控制端的可用木馬共42款.
圖4 木馬流量檢測系統(tǒng)網(wǎng)絡(luò)環(huán)境
在持續(xù)一周的流量采集中,共捕捉到正常流量32 GB、木馬流量5 GB,在經(jīng)過流量清洗后,共得到正常會話流26 778條,木馬流量4 261條.
取木馬流量為Positive,正常流量為Negative.本文使用精確率、召回率和F1值三個指標(biāo)來評價檢測效果,定義如下.
精確率: Prec=TP/(FP+TP)
(8)
召回率: Recall=TP/(TP+FN)
(9)
(10)
用于對比的特征選擇算法為快速相關(guān)性過濾[17](FCBF)和信息增益法(IG),均為基于信息熵的特征選擇方法.其中IG算法以特征的信息增益為指標(biāo),計算各個特征的信息增益并作排序,移除信息增益較低的特征,為了更準(zhǔn)確地比較,其移除的數(shù)量設(shè)置與AFSA相同.FCBF算法步驟如算法2所示.
算法2 快速相關(guān)性過濾算法-FCBF
輸入特征集合F,數(shù)據(jù)集,閾值T,類別C.
輸出特征子集S.
1) 遍歷F,計算特征fi與類別的標(biāo)準(zhǔn)化互信息SUic;
2) 保留SUic大于閾值T的特征并排序;
3) 以剩余特征中SUi值最大者為主特征,計算其他特征fj與它的標(biāo)準(zhǔn)化互信息SUij;
4) 將SUij與fj的SUjc值比較,若大于SUjc則移除特征fj;
5) 回到步驟3),在剩余特征中繼續(xù)選擇主特征,直到剩余特征數(shù)為1,輸出子集.
實驗后各算法移除的特征如表6所示.
表6 三種特征選擇算法移除的特征
特征選擇有效性驗證結(jié)果見表7和表8,相對于文獻[7]的特征集,本文初選特征集使用樸素貝葉斯分類時的精確率和召回率提升分別為0.31%、12.24%,使用SVM時的提升分別為0.55%、5.2%.通過本文特征選擇算法得到的終選特征集,使用樸素貝葉斯分類時的精確率提升為0.88%,召回率提升為2.12%,使用SVM時的精確率、召回率提升分別為1.25%、1.4%.
表7 樸素貝葉斯分類時特征選擇有效性驗證結(jié)果
表8 支持向量機分類時特征選擇有效性驗證結(jié)果
總體在召回率上的提升高于精確率上的提升,由于漏報的危害性大,即召回率的提升更為重要,在SVM分類算法上召回率提升總體小于在樸素貝葉斯分類上的提升,原因是本文特征選擇中一部分影響是聯(lián)合相關(guān)性系數(shù)帶來的,而樸素貝葉斯對特征獨立的強假設(shè)使得本方法帶來的增益更高.
本文特征選擇算法優(yōu)異性驗證結(jié)果如表9和表10所示,在召回率上本文終選特征集較優(yōu),使用樸素貝葉斯分類時達到了最高96.92%,F(xiàn)CBF所選的特征集合在精確率上稍高于AFSA算法,但其F1值仍然低于本文終選特征集;且SVM分類時本文終選特征集達到最高99.03%的精確率,簡單使用信息增益的IG算法得到的特征子集檢測效果最差,召回率與文獻[7]特征集的結(jié)果接近.
表9 樸素貝葉斯分類時本文算法優(yōu)異性驗證結(jié)果
表10 支持向量機分類時本文算法優(yōu)異性驗證結(jié)果
結(jié)合以上實驗數(shù)據(jù),對表6特征選擇結(jié)果進一步分析.FCBF算法移除的特征與本文AFSA算法移除的特征有一定的重合,在對算法的每一輪計算結(jié)果進行對比后發(fā)現(xiàn),其未移除的特征中每秒流的數(shù)據(jù)包數(shù)、總下行包數(shù)量均被劃分到保留特征中,即它們與類別的標(biāo)準(zhǔn)化互信息值較大,但在AFSA移除過程中,這兩個特征分別在第2輪、第5輪被移除,它們的重要性評價系數(shù)差別并不明顯,但聯(lián)合相關(guān)性評價系數(shù)均較大,正是它們給總體特征集合帶來較大冗余而被移除.同時FCBF未做特征重要性度量,被其移除的發(fā)送包最大間隔和發(fā)送包間隔均值兩個特征在AFSA中屬于重要性評價系數(shù)較高而保留的特征.該算法需要設(shè)置閾值也給特征選擇帶來更多的工作和不確定性.
IG算法僅考慮單一特征與類別的相關(guān)程度,忽略了特征間的相關(guān)性,其移除的特征與前兩者差異較大,其中部分特征的重要性評價系數(shù)較大,如發(fā)送包最大間隔、數(shù)據(jù)包平均長度,另外總上行包長度、下行包間隔總和兩個特征在AFSA中計算的聯(lián)合相關(guān)性評價系數(shù)較小,但在IG中表現(xiàn)為與類別關(guān)聯(lián)較弱而移除,最終造成較差的實驗結(jié)果.本文算法通過重要性評價系數(shù)預(yù)先劃分一次特征,接著通過每一輪迭代計算聯(lián)合相關(guān)性評價系數(shù)來綜合評價特征,充分考慮了特征與整體集合的相關(guān)性,得到更優(yōu)的特征子集.
同時繪制出三種特征選擇算法得到特征集合使用樸素貝葉斯分類結(jié)果的實驗接收者操作特征曲線(Receiver Operating Characteristic, ROC),如圖5所示.
圖5 樸素貝葉斯分類下ROC曲線
計算三條ROC曲線的AUC(Area Under Curve)值,見表11.
表11 AUC值
圖5及表11也證明本文特征選擇算法相比對照算法的優(yōu)異性.
現(xiàn)有基于通信流量的木馬檢測方法中存在所用特征的代表性不足、特征間信息冗余的問題,本文通過流量分析在一定規(guī)模的真實數(shù)據(jù)上充分提取木馬會話特征,通過定義改進的特征重要性評價系數(shù)和聯(lián)合相關(guān)性評價系數(shù),基于此設(shè)計一種特征子集自適應(yīng)選擇算法(AFSA).實驗結(jié)果表明,本文算法選擇后特征集合能有效提升木馬檢測效果.后續(xù)研究將集中于檢測模型的選擇與實時環(huán)境下系統(tǒng)的構(gòu)建.