藍(lán)志威,袁 杰,2*,任志寬,3
(1. 中國社會科學(xué)院,北京 102445;2. 華南理工大學(xué),廣東 廣州 510640;3. 廣東省科學(xué)技術(shù)情報研究所,廣東 廣州 510033)
多源通信網(wǎng)絡(luò)以其傳輸速度快、分集度高等優(yōu)勢得到廣泛使用,已經(jīng)成為運營商新的重點業(yè)務(wù)。一些研發(fā)機構(gòu)通常使用入侵監(jiān)測系統(tǒng),及時發(fā)現(xiàn)網(wǎng)絡(luò)中可疑行為,同時采取一定措施,避免入侵行為進(jìn)一步發(fā)展。但是,大數(shù)據(jù)時代到來,使入侵監(jiān)測面對海量數(shù)據(jù)時力不從心,無法準(zhǔn)確高效的得出監(jiān)測結(jié)果。而數(shù)據(jù)挖掘在網(wǎng)絡(luò)安全領(lǐng)域受到廣泛關(guān)注,它能對入侵監(jiān)測大數(shù)據(jù)做進(jìn)一步處理,提高入侵監(jiān)測性能等相關(guān)安全監(jiān)測指標(biāo)。
為此,相關(guān)領(lǐng)域?qū)W者研究數(shù)據(jù)挖掘在入侵監(jiān)測領(lǐng)域的應(yīng)用。文獻(xiàn)[1]提出基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法。該方法挖掘聚類效果較好,挖掘過程收斂性強。文獻(xiàn)[2]研究一種新的多層次數(shù)據(jù)挖掘改進(jìn)方法,為改進(jìn)挖掘效率低的弊端,在時間復(fù)雜度要求較低的情況下,采用XMASK方法對隨機擾動方式改進(jìn),所需挖掘時間較短。文獻(xiàn)[3]對船舶數(shù)據(jù)庫管理系統(tǒng)中的入侵行為檢測研究現(xiàn)狀進(jìn)行分析,采用支持向量機對船舶數(shù)據(jù)庫管理系統(tǒng)中的入侵行為變化特點進(jìn)行刻畫,有效保證船舶數(shù)據(jù)庫系統(tǒng)的安全。
但上述挖掘方法隨著入侵形式多樣化,無法應(yīng)對多變的網(wǎng)絡(luò)環(huán)境,不能保證數(shù)據(jù)挖掘的完成度。為此,本文利用NoSQL方法對多源通信研發(fā)機構(gòu)入侵監(jiān)測大數(shù)據(jù)進(jìn)行挖掘。NoSQL表示一種結(jié)合物理分散邏輯實現(xiàn)數(shù)據(jù)規(guī)劃的分布式數(shù)據(jù)庫,能有效提高挖掘方法的準(zhǔn)確性和完整度,同時具有靈活、實用價格低廉等優(yōu)勢。入侵監(jiān)測大數(shù)據(jù)具有復(fù)雜屬性,包括位置、方向和長度。計算屬性之間關(guān)聯(lián)程度,將其作為數(shù)據(jù)挖掘依據(jù),再對不同屬性關(guān)聯(lián)程度進(jìn)行聚類,便可得到最終挖掘結(jié)果,成為本文方法的創(chuàng)新之處。
多源通信可以實現(xiàn)不同平臺之間的業(yè)務(wù)數(shù)據(jù)共享,使管理信息系統(tǒng)中的數(shù)據(jù)動態(tài)反映到其它系統(tǒng)中去。現(xiàn)有研發(fā)機構(gòu)研究的多源通信系統(tǒng)實現(xiàn)過程圖如圖1所示。
圖1 多源通信系統(tǒng)結(jié)構(gòu)圖
將整個通信過程分為以下四個不同層次:
1)數(shù)據(jù)庫之間通信:用來解決數(shù)據(jù)庫之間訪問問題;
2)訪問層次:完成系統(tǒng)與多源數(shù)據(jù)業(yè)務(wù)查詢;
3)邏輯層次:滿足對多源數(shù)據(jù)需求定義,實現(xiàn)數(shù)據(jù)交換;
4)通信層次:實現(xiàn)系統(tǒng)與數(shù)據(jù)庫之間互相訪問[4]。
多源通信研發(fā)機構(gòu)屬于新型研發(fā)機構(gòu),在組織架構(gòu)方面也與其它研究機構(gòu)存在差異,它屬于以傳統(tǒng)職能式為主的弱矩陣式組織架構(gòu)[5],示意圖如圖2所示。
圖2 多源通信研發(fā)機構(gòu)組織架構(gòu)
1)信息資產(chǎn)識別
信息安全風(fēng)險為入侵風(fēng)險評估的主要條件,是構(gòu)建信息安全管理的目標(biāo)。具體資產(chǎn)分類與名稱如表1所示。
表1 信息資產(chǎn)分類表
2)威脅識別
威脅是對組織與資產(chǎn)形成潛在破壞的可能因素,它屬于客觀存在的,且多數(shù)威脅無法完全消除。
表2 研發(fā)機構(gòu)信息威脅表
對研發(fā)機構(gòu)的各個方面風(fēng)險進(jìn)行分析,有利于監(jiān)測入侵行為,全方面獲取監(jiān)測數(shù)據(jù)。
對入侵監(jiān)測大數(shù)據(jù)進(jìn)行挖掘之前,需要對入侵特征進(jìn)行提取[6],為數(shù)據(jù)降維提供依據(jù)。將獲取的痕跡信息轉(zhuǎn)換為頻域信號df,分析其頻譜特性,結(jié)合時間變換幅值將其轉(zhuǎn)換為隨頻譜變動的功率。頻譜分析主要根據(jù)頻率中心fFC、均方根頻率fRMSF以及跟方差頻率fRVF,它們分別表示信號主頻方位、變化情況與功率譜集中性,表達(dá)式依次為
(1)
(2)
(3)
式中,S(f)代表功率譜。將獲取的痕跡信息變換為頻域信號的表示形式
ei=(fFC+fRMSF+fRVF)S(f)
(4)
本文利用核主元分析法實現(xiàn)入侵痕跡數(shù)據(jù)信號的特征提取。此方法核心思想為:通過非線性轉(zhuǎn)換方式將入侵行為的樣本痕跡數(shù)據(jù)從輸入空間引入到高維特征空間[7],再在此空間內(nèi)進(jìn)行頻域特征提取。
如果y表示n維痕跡信息矢量,{yi,i=1,2,…,N}則代表y的某個痕跡信息信號樣本集合,利用非線性H將樣本數(shù)據(jù)信號從空間Rn映射到高維特征空間Rt中,再對該空間進(jìn)行主成分分析。
(5)
式中特征值和特征向量的關(guān)聯(lián)性可表示為
λk=Cvk
(6)
式中,特征值λk≥0,vk(k=1,2,…,t)代表特征向量。
將式(5)與式(6)相結(jié)合,得到
(7)
假設(shè)與所有非零特征值λk對應(yīng)的特征向量vk位于{H(xi),i=1,2,…,N}所在的平面內(nèi),具有不都為零的系數(shù)[Ti,i=1,2,…,N],令
(8)
綜合分析式(6)~(8)能夠得出
(9)
如果N×N矩陣表示為如下形式
Kij=k(yi,yj)=〈H(yi),H(yj)〉
(10)
式中k(yi,yj)表示滿足要求的核函數(shù),對式(5)進(jìn)行簡化處理為NλkK=K2,考慮到實際簡化需求,則有
λk=KN
(11)
因此K的特性值和特征矢量分別表示為Nλk和Tk。對特征值從大到小進(jìn)行排序,若前m個特征值的和與所有特征值和的比值大于設(shè)定閾值,則主元數(shù)量為m。
為實現(xiàn)特征向量vk的歸一化,必須對T進(jìn)行規(guī)范化處理
(12)
因此能夠獲得入侵痕跡數(shù)據(jù)的信號樣本yi在Rm空間內(nèi)第k個主向量vk內(nèi)的投影,即為yi特征值
(13)
利用上述方法實現(xiàn)對入侵監(jiān)測數(shù)據(jù)的特征提取。
由于入侵監(jiān)測大數(shù)據(jù)中包含無用信息較多,因此要刪除對最終結(jié)果影響較小的屬性信息,將樣本從高維空間映射到低維空間中,本文在空間相關(guān)性基礎(chǔ)上結(jié)合上述入侵監(jiān)測特征提取結(jié)果,實現(xiàn)大數(shù)據(jù)降維。
因入侵監(jiān)測是一個分類問題,所以采用一個分類方式將數(shù)據(jù)集合分成五類,其中包括一個正常類型Normal與四個入侵類型Prb,R21,Dos,U21,將質(zhì)心數(shù)量設(shè)置為5,降維過程如下:
步驟一:利用改進(jìn)的k-Means聚類方法獲取訓(xùn)練數(shù)據(jù)集合內(nèi)5簇的質(zhì)心c0,c1,…,c4。每個簇的原始質(zhì)心根據(jù)訓(xùn)練樣本已知類別獲得,同時進(jìn)行迭代運算獲取質(zhì)心坐標(biāo),確保原始質(zhì)心不會太過集中,以免影響降維效果。
步驟二:獲取待降維數(shù)據(jù)集合中樣本和質(zhì)心ci(i=0,1,…,4)的空間關(guān)聯(lián)性。例如將45維的樣本和質(zhì)心ci通過向量形式引入到歐式距離[8]公式中
(14)
利用上述公式計算獲得樣本x到質(zhì)心ci的空間距離,將其當(dāng)作二者之間空間關(guān)聯(lián)程度,將di當(dāng)作x降維后的新樣本x′的第i維特性值。最后的降維樣本x′描述為初始樣本x與每個簇質(zhì)心的距離,即x′(d0,d1,…,d4)。
步驟三:重復(fù)步驟二,直至全部樣本降維成新的數(shù)據(jù)集合。
經(jīng)過上述步驟,將所有入侵監(jiān)測數(shù)據(jù)從初始的45維降至5維,完成所有降維過程。
為提高挖掘方法性能,需事先對挖掘工作進(jìn)行約束,約束內(nèi)容必須保證挖掘工作運算量小,且效果強。
利用confidence(Q?W)代表特征集合Q中包含特征集合W的概率,confidence(W?Q)與上述意義相反,則在綜合入侵監(jiān)測大數(shù)據(jù)位置關(guān)聯(lián)度、方向關(guān)聯(lián)度、長度關(guān)聯(lián)度三方面進(jìn)行入侵監(jiān)測挖掘。
1)位置關(guān)聯(lián)度挖掘
2)方向關(guān)聯(lián)度挖掘
方向關(guān)聯(lián)度挖掘表示大數(shù)據(jù)集合Q與W傳輸方向之間的角度(s1,s2),它的余弦值描述為
(15)
通過式(17)可知,入侵監(jiān)測大數(shù)據(jù)集合Q與W傳輸方向角度越大,cos(s1,s2)值越小。如果(s1,s2)的值大于180度,則cos(s1,s2)值為負(fù)。為減少位置關(guān)聯(lián)度挖掘結(jié)果對方向關(guān)聯(lián)度挖掘結(jié)果造成的影響,基于NoSQL分布式大數(shù)據(jù)挖掘方法利用[1-cos(s1,s2)]的正弦值描述法代替?zhèn)鹘y(tǒng)[1-cos2(s1,s2)]描述法,使方向關(guān)聯(lián)度被準(zhǔn)確挖掘。
sim(dist)=avg(|s1||s2|)[1-cos(s1,s2)]
(16)
3)長度關(guān)聯(lián)度挖掘
長度關(guān)聯(lián)度挖掘是對位置關(guān)聯(lián)度挖掘的異向思維計算,也是對其挖掘結(jié)果的加成預(yù)算,其核心是對兩個數(shù)據(jù)集合傳輸通道長度計算的過程。因此挖掘結(jié)果可表示為
(17)
4)挖掘聚類
對降維后的入侵監(jiān)測數(shù)據(jù)利用式(15)、(16)與(17)結(jié)合給出的約束條件進(jìn)行聚類,獲取最終的挖掘結(jié)果。假設(shè)利用F代表挖掘頻率,則Fs即為挖掘聚類,也就是最終挖掘結(jié)果,表達(dá)式如下
(18)
式中,F(xiàn)j為大數(shù)據(jù)位置、方向與長度屬性一起出現(xiàn)的概率,F(xiàn)max則為上述屬性關(guān)聯(lián)度的極大值,A與As分別是挖掘前、后樣本總數(shù)。
選取某個多源通信研發(fā)機構(gòu)的通信環(huán)境作為研究實驗?zāi)繕?biāo),仿真環(huán)境為一臺PC機,其配置是P4CPU2.40GHz,內(nèi)存與硬盤大小分別為256MB和80G。數(shù)據(jù)來源為KDNuggets (http:∥www.kdnuggets.com/datasets/index.html),從中隨機挑選包括23個研發(fā)機構(gòu)在內(nèi)的相關(guān)通信數(shù)據(jù),排除不適應(yīng)預(yù)分類的數(shù)據(jù)集,剩余20個數(shù)據(jù)集,以此為數(shù)據(jù)樣本,分別從挖掘時間與完整度兩方面對所提方法、文獻(xiàn)[1]、文獻(xiàn)[2]方法進(jìn)行比較。實驗結(jié)果分別如圖3所示。
圖3 不同方法挖掘所需時間對比圖
從圖3中能夠看出,在6次迭代過程中,所提方法最高一次挖掘時間為12秒,而文獻(xiàn)[1]與文獻(xiàn)[2]所需最高時間分別為15秒和18秒,文獻(xiàn)[3]最高所需時間為17.5秒,與其它方法相比挖掘效率具有明顯優(yōu)勢。因為該方法對入侵監(jiān)測大數(shù)據(jù)結(jié)合入侵特性進(jìn)行降維處理,去除冗余數(shù)據(jù),縮短數(shù)據(jù)挖掘時間。此外,三種方法挖掘完整度對比結(jié)果如圖4所示。
圖4 所提方法挖掘完整度
由圖4挖掘完整度結(jié)果可知,所提方法挖掘完整度在80%左右,其它三種方法的挖掘完整度都在80%以下。這是由于所提方法經(jīng)過全面的屬性分析,分別從大數(shù)據(jù)位置、方向與長度三方面進(jìn)行挖掘,得到較為全面的挖掘結(jié)果。
1)為提高多源通信研發(fā)機構(gòu)研發(fā)數(shù)據(jù)的安全性,本文利用NoSQL挖掘方法從入侵監(jiān)測大數(shù)據(jù)的不同維度進(jìn)行挖掘,挖掘時間最高僅為11.5秒,能夠保持較好的挖掘效率。
2)在空間相關(guān)性基礎(chǔ)上結(jié)合上述入侵監(jiān)測特征提取結(jié)果,進(jìn)行大數(shù)據(jù)降維,且在降維的同時能夠保證挖掘結(jié)果全面、完整度高,挖掘完整度在80%左右。具有較強實用性。
3)在今后研究工作中,將會繼續(xù)深入研究大數(shù)據(jù)挖掘在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用,使該方法稱為研發(fā)機構(gòu)信息安全的支撐技術(shù)之一。