鄭美容
在復(fù)雜多變的網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)安全是保證網(wǎng)絡(luò)正常運(yùn)行的關(guān)鍵,對網(wǎng)絡(luò)入侵進(jìn)行檢測,是保證網(wǎng)絡(luò)安全的關(guān)鍵技術(shù)[1].目前,網(wǎng)絡(luò)基礎(chǔ)設(shè)施和網(wǎng)絡(luò)帶寬逐漸優(yōu)化,數(shù)據(jù)傳輸質(zhì)量也得以優(yōu)化.通過對網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行挖掘聚類,能夠篩選網(wǎng)絡(luò)數(shù)據(jù)中的異常數(shù)據(jù),對其進(jìn)行歸類并劃分,能夠有效檢測網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù),保證網(wǎng)絡(luò)安全.
隨著網(wǎng)絡(luò)應(yīng)用的普及,網(wǎng)絡(luò)數(shù)據(jù)數(shù)量變得更加龐大,數(shù)據(jù)結(jié)構(gòu)越發(fā)復(fù)雜.雖然目前聚類分析技術(shù)應(yīng)用的領(lǐng)域非常廣泛,但隨著大數(shù)據(jù)時(shí)代的到來[2-3],傳統(tǒng)聚類分析算法對于小規(guī)模網(wǎng)絡(luò)數(shù)據(jù)集具有較高執(zhí)行效率和良好聚類結(jié)果,但處理大規(guī)模高維網(wǎng)絡(luò)數(shù)據(jù)集時(shí)[4],傳統(tǒng)聚類分析就會(huì)出現(xiàn)數(shù)據(jù)聚類效率低下、數(shù)據(jù)檢測準(zhǔn)確率降低等缺點(diǎn)[5-6],應(yīng)用于網(wǎng)絡(luò)入侵檢測中,難以有效分辨網(wǎng)絡(luò)數(shù)據(jù)運(yùn)行狀態(tài),監(jiān)測異常數(shù)據(jù),導(dǎo)致網(wǎng)絡(luò)入侵檢測難以實(shí)現(xiàn).
因此,本研究提出基于大數(shù)據(jù)聚類的網(wǎng)絡(luò)入侵檢測方法.利用網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理對其實(shí)現(xiàn)歸一化、標(biāo)準(zhǔn)化;結(jié)合模糊C 均值聚類算法建立最大隸屬原則,檢測網(wǎng)絡(luò)異常數(shù)據(jù)樣本點(diǎn),完成網(wǎng)絡(luò)入侵檢測.為驗(yàn)證所提方法的有效性,設(shè)計(jì)一次仿真實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果顯示所提方法的檢測精度更高,且能夠高效實(shí)現(xiàn)多種類入侵并行檢測,實(shí)驗(yàn)驗(yàn)證了將所提方法應(yīng)用于大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)安全檢測,對提高網(wǎng)絡(luò)系統(tǒng)的安全性具有重要的意義.
網(wǎng)絡(luò)數(shù)據(jù)具有海量、多元化的特點(diǎn),增加了網(wǎng)絡(luò)入侵檢測的難度.因此,在網(wǎng)絡(luò)入侵檢測前需要對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理.通過線性歸一化、能量歸一化、去穩(wěn)能量歸一化及同類特征規(guī)則化實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)歸一化處理,再通過離散特征及連續(xù)特征的標(biāo)準(zhǔn)化處理實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)標(biāo)準(zhǔn)化,完成網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理.
假設(shè)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集為Q個(gè)數(shù)據(jù)樣本,每個(gè)數(shù)據(jù)樣本之間存在K個(gè)數(shù)據(jù)特征,第q個(gè)樣本的第i個(gè)特征表示為歸一化后第q個(gè)樣本的第i個(gè)特征為以下為歸一化方法[7].
線性歸一化.網(wǎng)絡(luò)數(shù)據(jù)線性歸一化方法為:
其中:bi、ci代表歸一化參數(shù).將網(wǎng)絡(luò)數(shù)據(jù)中全部Q個(gè)樣本特征的最低值設(shè)成yimin;Q個(gè)樣本第i個(gè)特征最高值設(shè)定成yimax,若需要將訓(xùn)練集中全部網(wǎng)絡(luò)數(shù)據(jù)樣本第i個(gè)輸入特征分量歸一化成第i個(gè)輸入特征分量歸一化后的最小值與最大值依次設(shè)成y~imin、那么
能量歸一化.網(wǎng)絡(luò)數(shù)據(jù)能量歸一化方法計(jì)算式為:
式中:將網(wǎng)絡(luò)數(shù)據(jù)集里全部樣本第i個(gè)分量所建立的矢量yi的范數(shù)設(shè)成
去穩(wěn)能量歸一化.將特征集里全部樣本的相同特征值的穩(wěn)態(tài)分量去除后,再實(shí)施網(wǎng)絡(luò)數(shù)據(jù)能量歸一化[8-9].歸一化方法為:
其中,全部網(wǎng)絡(luò)數(shù)據(jù)樣本第i個(gè)特征分量均值設(shè)成yˉi,此值即為穩(wěn)態(tài)分量,計(jì)算式為:
同類特征規(guī)則化.假定訓(xùn)練集B個(gè)樣本的種類是?j,各個(gè)種類存在M()j個(gè)網(wǎng)絡(luò)數(shù)據(jù),那么?j種的網(wǎng)絡(luò)數(shù)據(jù)所建立的子集為:
以下為網(wǎng)絡(luò)數(shù)據(jù)規(guī)則化的詳細(xì)步驟.
運(yùn)算網(wǎng)絡(luò)數(shù)據(jù)?j種第i個(gè)特征的統(tǒng)計(jì)均值為:
M代表數(shù)量.以此能夠去除穩(wěn)態(tài)分量,則網(wǎng)絡(luò)數(shù)據(jù)樣本為:
基于此對網(wǎng)絡(luò)數(shù)據(jù)實(shí)施能量歸一化:
為進(jìn)一步提升大數(shù)據(jù)在網(wǎng)絡(luò)入侵中的應(yīng)用效果,對數(shù)據(jù)歸一化處理后,需實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化.標(biāo)準(zhǔn)化數(shù)據(jù)是數(shù)據(jù)聚類的前提.網(wǎng)絡(luò)數(shù)據(jù)離散特征某離散值的標(biāo)準(zhǔn)化方法為:
其中:g為網(wǎng)絡(luò)數(shù)據(jù)離散特征的某個(gè)離散值;T( )
F為網(wǎng)絡(luò)數(shù)據(jù)集種類信息熵;某個(gè)離散值特征的離散值是g時(shí),網(wǎng)絡(luò)數(shù)據(jù)集種類的條件熵設(shè)成因此,離散特征的離散值g標(biāo)準(zhǔn)化后的o值,取值區(qū)間是[0,1].
連續(xù)特征的標(biāo)準(zhǔn)化方法為:
綜上所述,網(wǎng)絡(luò)數(shù)據(jù)經(jīng)過歸一化與標(biāo)準(zhǔn)化后的數(shù)據(jù)均值為:
模糊C 均值聚類是大數(shù)據(jù)聚類的一種,通過規(guī)定約束條件,引入拉格朗日乘數(shù)法求解聚類算法的模糊度,求解聚類數(shù)量與參數(shù),通過閾值設(shè)定控制聚類迭代次數(shù),最大隸屬原則判斷樣本數(shù)據(jù)點(diǎn)異常與否,實(shí)現(xiàn)入侵檢測算法.
將m個(gè)經(jīng)過預(yù)處理后的網(wǎng)絡(luò)數(shù)據(jù)實(shí)例設(shè)定為數(shù)據(jù)種類為H種.分類矩陣設(shè)為元素vji描述的是第h個(gè)網(wǎng)絡(luò)數(shù)據(jù)實(shí)例即為第i種類型的隸屬度,其中模糊C均值聚類的約束條件為:
隸屬矩陣V的元素取值范圍是[0,1].價(jià)值函數(shù)為:
其中:將各個(gè)網(wǎng)絡(luò)數(shù)據(jù)實(shí)例至類中心的距離平方和設(shè)成Ln;類中心與網(wǎng)絡(luò)數(shù)據(jù)實(shí)例數(shù)據(jù)集依次設(shè)成Di、Yj,D∈Di;將第j個(gè)數(shù)據(jù)實(shí)例隸屬第i個(gè)聚類中心的隸屬度設(shè)成將m ×h矩陣設(shè)成V;第j個(gè)數(shù)據(jù)實(shí)例和第i個(gè)聚類中心間歐式距離、模糊系數(shù)依次設(shè)成預(yù)分類組數(shù)設(shè)成h.使用拉格朗日乘數(shù)法,設(shè)定獲取最小值的前提條件[10]. 詳細(xì)設(shè)定如公式(15)和公式(16),
其中:參數(shù)n設(shè)成控制算法的標(biāo)量,其余分類矩陣V的模糊水平存在直接聯(lián)系,n值較大,那么模糊度越大.
模糊C 均值聚類算法存在兩個(gè)核心參數(shù),分別是聚類數(shù)量D與參數(shù)n.使用模糊C 均值聚類算法檢測網(wǎng)絡(luò)入侵的流程為:
①設(shè)定一個(gè)隨機(jī)數(shù),此隨機(jī)數(shù)的取值區(qū)間是[0,1],通過此值的初始化隸屬矩陣V,讓它符合
算法輸出結(jié)果是一種模糊劃分矩陣,此矩陣描述各個(gè)網(wǎng)絡(luò)樣本點(diǎn)屬于網(wǎng)絡(luò)入侵與非入侵?jǐn)?shù)據(jù)的隸屬度[13].使用此矩陣,根據(jù)模糊集合里的最大隸屬原則便可以判斷各個(gè)樣本點(diǎn)是否異常[14-15].
為驗(yàn)證所提方法對網(wǎng)絡(luò)入侵檢測的有效性,使用KDD Cup2019 數(shù)據(jù)集作為所提方法檢測數(shù)據(jù)載體.此數(shù)據(jù)集為麻省理工學(xué)院實(shí)驗(yàn)室按照美國空軍局域網(wǎng)環(huán)境的標(biāo)準(zhǔn)構(gòu)建的網(wǎng)絡(luò)流量數(shù)據(jù)集. 數(shù)據(jù)集存在10 次入侵?jǐn)?shù)據(jù).10 次入侵時(shí)出現(xiàn)的入侵?jǐn)?shù)據(jù)類型依次是拒絕服務(wù)攻擊(Denial of Service,DOS)、遠(yuǎn)程權(quán)限獲?。≧emote to Loca,R2L)、權(quán)限提升(User to Root,U2R)、端口掃描與漏洞掃描(Port Scanning and Vulnerability Scanning,PSVS).
數(shù)據(jù)集里的數(shù)據(jù)格式是:0.1,tcp,Service type,106,147,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,2.1,2.1,0.01,0.01,0.01,0.01,1.01,0.01,0.01,0.01,256,255,1.01,0.02,0.01,0.01,0.01,0.01,0.01,0.01,data type.其中首個(gè)數(shù)值表示網(wǎng)絡(luò)數(shù)據(jù)鏈接耗時(shí),第2個(gè)屬性代表鏈接數(shù)據(jù)包,第3個(gè)屬性表示服務(wù)模式,第4個(gè)屬性代表鏈接標(biāo)記,后續(xù)屬性均描述數(shù)據(jù)特征.data type 代表數(shù)據(jù)種類.
為便于測試,在KDD Cup 2019 數(shù)據(jù)集中隨機(jī)提取4 組4000個(gè)網(wǎng)絡(luò)樣本子數(shù)據(jù)集,設(shè)置各個(gè)子數(shù)據(jù)集中存在3000個(gè)正常數(shù)據(jù),50個(gè)入侵?jǐn)?shù)據(jù),4個(gè)子數(shù)據(jù)集入侵?jǐn)?shù)據(jù)類型分布一致.數(shù)據(jù)空間維度為6 維.詳見表1.
使用所提方法對和4個(gè)子數(shù)據(jù)集中的入侵?jǐn)?shù)據(jù)實(shí)施聚類檢測,檢測結(jié)果見表2.
分析表1 和表2 可知,所提方法對4個(gè)子數(shù)據(jù)集中網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的檢測結(jié)果和表1 所設(shè)定數(shù)值間差值較小,對DOS 入侵?jǐn)?shù)據(jù)的檢測結(jié)果和表1 存在1個(gè)之差,所提方法能夠有效檢測網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù).
表1 數(shù)據(jù)集設(shè)置
表2 所提方法檢測結(jié)果
測試所提方法對4個(gè)子數(shù)據(jù)集中入侵?jǐn)?shù)據(jù)的誤檢率.誤檢率是檢測錯(cuò)誤數(shù)據(jù)數(shù)與網(wǎng)絡(luò)數(shù)據(jù)總量之比,所提方法誤檢率計(jì)算結(jié)果見表3.
表3 所提方法誤檢率計(jì)算結(jié)果
經(jīng)計(jì)算,所提方法對4 種網(wǎng)絡(luò)數(shù)據(jù)中入侵?jǐn)?shù)據(jù)誤檢率較小,誤檢率均值為0.04%.結(jié)合表2、表3 檢測結(jié)果可知,所提方法對網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的檢測精度較高.
分析4 種入侵類型中,使用網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理方法與未使用網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理方法時(shí),所提方法的檢測值與設(shè)定值間的差異,結(jié)果見圖1.
圖1 所提方法網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理的應(yīng)用效果分析
分析圖1 可知,把網(wǎng)絡(luò)數(shù)據(jù)歸一化、標(biāo)準(zhǔn)化后,所提方法對4 種入侵的檢測結(jié)果更為準(zhǔn)確,差值最大值僅有1個(gè),出現(xiàn)在第一種入侵DOS 處,說明對網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理,能夠提升所提方法的檢測精度.
測試所提方法在檢測4種子數(shù)據(jù)集中入侵?jǐn)?shù)據(jù)后,對網(wǎng)絡(luò)數(shù)據(jù)的損耗情況進(jìn)行分析.此測試指標(biāo)主要通過損耗數(shù)據(jù)數(shù)量來體現(xiàn),測試結(jié)果見圖2.由圖2 可以看出,所提方法在檢測4 種子數(shù)據(jù)集中入侵?jǐn)?shù)據(jù)后,對4個(gè)子數(shù)據(jù)集中數(shù)據(jù)損耗較小,數(shù)據(jù)損耗數(shù)量低于6個(gè),表明所提方法在檢測網(wǎng)絡(luò)入侵時(shí),對網(wǎng)絡(luò)數(shù)據(jù)完整性存在較好的保護(hù).
圖2 數(shù)據(jù)損耗情況測試結(jié)果
為進(jìn)一步測試所提方法對高維網(wǎng)絡(luò)數(shù)據(jù)的入侵檢測性能,設(shè)定數(shù)據(jù)空間維度為50,測試所提方法對高維網(wǎng)絡(luò)數(shù)據(jù)的入侵檢測性能,結(jié)果見圖3.
圖3 所提方法對高維網(wǎng)絡(luò)數(shù)據(jù)的入侵檢測性能
分析圖3 可知,在50 維度下,所提方法對高維網(wǎng)絡(luò)數(shù)據(jù)的入侵檢測耗時(shí)低于1 s,對入侵?jǐn)?shù)據(jù)數(shù)量的檢測差值最大值為1個(gè),由此可見,所提方法不單適用于低維網(wǎng)絡(luò)數(shù)據(jù)入侵檢測,對高維網(wǎng)絡(luò)數(shù)據(jù)入侵檢測也存在檢測時(shí)間短、檢測精度高的優(yōu)勢.
提出新的基于大數(shù)據(jù)聚類的網(wǎng)絡(luò)入侵檢測方法,在大規(guī)模髙維數(shù)據(jù)集中存在執(zhí)行效率快、檢測準(zhǔn)確性高的優(yōu)勢,并能應(yīng)用于網(wǎng)絡(luò)安全檢測,從而為網(wǎng)絡(luò)系統(tǒng)安全性提供保障,使之滿足于大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)系統(tǒng)安全要求.所提方法的檢測優(yōu)勢為:
①在低維網(wǎng)絡(luò)數(shù)據(jù)中,所提方法對DOS入侵?jǐn)?shù)據(jù)的檢測結(jié)果和設(shè)定值間僅存在1個(gè)之差.
②所提方法對4 種網(wǎng)絡(luò)數(shù)據(jù)中入侵?jǐn)?shù)據(jù)誤檢率較小,誤檢率均值為0.04%.
③把網(wǎng)絡(luò)數(shù)據(jù)歸一化、標(biāo)準(zhǔn)化后,所提方法對4 種入侵的檢測結(jié)果更為準(zhǔn)確,差值最大值僅有1個(gè).
④所提方法在檢測4 種子數(shù)據(jù)集中入侵?jǐn)?shù)據(jù)后,對4個(gè)子數(shù)據(jù)集中的數(shù)據(jù)損耗較小,數(shù)據(jù)損耗數(shù)量低于6個(gè).
⑤在高維度下,所提方法對高維網(wǎng)絡(luò)數(shù)據(jù)的入侵檢測耗時(shí)低于1 s,對入侵?jǐn)?shù)據(jù)數(shù)量的檢測差值最大值為1個(gè).
通化師范學(xué)院學(xué)報(bào)2020年12期