黃翊翔
摘要:隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)安全問題日益嚴(yán)峻。通過(guò)網(wǎng)絡(luò)行為特征所建立的分類模型能夠很好地發(fā)現(xiàn)海量數(shù)據(jù)中潛在的異常行為,然而巨大的網(wǎng)絡(luò)流量數(shù)據(jù)中往往存在著大量多領(lǐng)域異構(gòu)信息,如何有效地將各類信息特征融合在一起對(duì)于提高模型檢測(cè)準(zhǔn)確率起著至關(guān)重要的作用;除此之外,在網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域,已被標(biāo)記為異常的IP地址數(shù)量稀少,也導(dǎo)致在有監(jiān)督學(xué)習(xí)過(guò)程中嚴(yán)重缺乏訓(xùn)練數(shù)據(jù)。該文介紹了一種基于協(xié)同訓(xùn)練分類模型及數(shù)據(jù)融合技術(shù)的網(wǎng)絡(luò)異常流量檢測(cè)方法,并通過(guò)真實(shí)數(shù)據(jù)的實(shí)驗(yàn)對(duì)模型進(jìn)行了驗(yàn)證,結(jié)論表示在保證了模型檢測(cè)準(zhǔn)確率的前提下,該模型同時(shí)解決了訓(xùn)練數(shù)據(jù)的稀缺問題。
關(guān)鍵詞:網(wǎng)絡(luò)安全;網(wǎng)絡(luò)異常檢測(cè);標(biāo)記數(shù)據(jù)缺失;半監(jiān)督學(xué)習(xí);數(shù)據(jù)融合;協(xié)同訓(xùn)練
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)33-0081-02
Abstract: With the development of network technology, network security has arised as one of the most serious problems. Classification methods Based on network behavior features always have good performance, however, in face of the multi-domain information of network traffic data, its important to fuse them together efficiently. Besides, its hard to train a proper model due to the lack of labeled abnormal IP addresses. This paper introduces an anomaly detection model Based on Co-Training and data fusion method. Through experiments on real data, the results prove that this method well solve the lack of ground truth under the premise of ensuring detecting accuracy.
Key words: network security; network anomaly detection; ground truth scarcity; semi-supervised learning; data fusion; co-training
1 背景
網(wǎng)絡(luò)惡意攻擊行為是信息時(shí)代的網(wǎng)絡(luò)安全所面臨的重要問題之一,其中包括了如發(fā)送垃圾郵件、端口掃描、僵尸網(wǎng)絡(luò)[1]以及DDoS攻擊等惡意攻擊行為,而這些惡意行為往往會(huì)給網(wǎng)絡(luò)用戶及企業(yè)等帶來(lái)嚴(yán)重的損失。以往的研究結(jié)果表明,網(wǎng)絡(luò)中的任何惡意行為都會(huì)伴隨著一系列的顯著的或者隱性的異常特征模式[2],例如,當(dāng)網(wǎng)絡(luò)流量數(shù)據(jù)中存在某些源IP地址在較短時(shí)間內(nèi)有規(guī)律地發(fā)送了大量的網(wǎng)絡(luò)請(qǐng)求,那么它極有可能屬于某個(gè)僵尸網(wǎng)絡(luò)。通過(guò)分析這些異常行為,并為其建立合適的特征分布模型,可以有效地從海量網(wǎng)絡(luò)流量數(shù)據(jù)中檢測(cè)出行為異常的IP地址。然而由于網(wǎng)絡(luò)流量數(shù)據(jù)的復(fù)雜性,導(dǎo)致模型的建立與分析面臨很多問題。
巨大的網(wǎng)絡(luò)數(shù)據(jù)中往往包含了多領(lǐng)域的信息,如HTTP流量,TCP流量以及DNS流量數(shù)據(jù)等,它們?cè)醋杂诓煌耐ㄓ崊f(xié)議,在行為模式上存在著一定的共性與關(guān)聯(lián),可也包含了不同的信息。在以往的研究中,研究人員大多是針對(duì)其中某個(gè)領(lǐng)域的數(shù)據(jù)進(jìn)行建模分析,或者是將不同領(lǐng)域的數(shù)據(jù)特征直接合并在一起訓(xùn)練分類模型,然而這樣非但不能有效結(jié)合多領(lǐng)域信息,由于不同種類的數(shù)據(jù)特征間通常不是簡(jiǎn)單的線性關(guān)系,直接結(jié)合反而會(huì)引入不必要的噪音,降低模型的準(zhǔn)確率,而只選擇單一領(lǐng)域的方法也會(huì)損失掉數(shù)據(jù)中的關(guān)聯(lián)信息,導(dǎo)致模型無(wú)法發(fā)現(xiàn)很多潛在的異常行為。除此之外,由于已被標(biāo)記的網(wǎng)絡(luò)異常IP地址數(shù)量有限,很多大型網(wǎng)絡(luò)安全企業(yè)如賽門鐵克等對(duì)自己的網(wǎng)絡(luò)黑名單也進(jìn)行嚴(yán)格保密,因此在該領(lǐng)域的研究中,訓(xùn)練數(shù)據(jù)的稀缺一直困擾著研究人員,缺少訓(xùn)練數(shù)據(jù)不僅會(huì)導(dǎo)致模型準(zhǔn)確率降低,也增加了模型的驗(yàn)證難度。
為了解決上述問題,提出了一種基于協(xié)同訓(xùn)練模型及數(shù)據(jù)融合技術(shù)的網(wǎng)絡(luò)異常流量檢測(cè)方法,該方法是一種半監(jiān)督學(xué)習(xí)算法[3],不僅能夠通過(guò)數(shù)據(jù)融合技術(shù)有效結(jié)合多領(lǐng)域異構(gòu)行為信息[4],而且在面對(duì)只有少量的已標(biāo)記訓(xùn)練數(shù)據(jù)的情況下,通過(guò)使用優(yōu)化的協(xié)同訓(xùn)練算法,在多次迭代過(guò)程中不停地?cái)U(kuò)充訓(xùn)練集,使模型的檢測(cè)準(zhǔn)確率相比使用原始訓(xùn)練集訓(xùn)練出的模型高出將近8個(gè)百分點(diǎn)。文章也通過(guò)了大量基于真實(shí)數(shù)據(jù)的實(shí)驗(yàn)驗(yàn)證了以上結(jié)論。
2 協(xié)同訓(xùn)練數(shù)據(jù)融合模型
協(xié)同訓(xùn)練數(shù)據(jù)融合模型主要包括兩部分:數(shù)據(jù)融合部分和迭代訓(xùn)練部分。圖1中展示了整個(gè)協(xié)同訓(xùn)練數(shù)據(jù)融合模型框架。
數(shù)據(jù)融合方法要求從多領(lǐng)域數(shù)據(jù)中提取不同類型的數(shù)據(jù)特征,這里選取兩種不同的經(jīng)典分類算法SVM(支持向量機(jī))和K鄰近算法(KNN)作為協(xié)同訓(xùn)練算法中用于處理不同領(lǐng)域特征的子分類模型。不同的分類算法在特征空間上會(huì)有不同的處理方式,在訓(xùn)練過(guò)程中,協(xié)同訓(xùn)練算法會(huì)通過(guò)公式1將兩種子分類模型的分類結(jié)果結(jié)合在一起,該融合過(guò)程可以很好將兩種類型的特征信息融合在一起[5],從而達(dá)到數(shù)據(jù)融合的作用。這里定義網(wǎng)絡(luò)流量數(shù)據(jù)來(lái)源包括HTTP數(shù)據(jù)流和TCP數(shù)據(jù)流,根據(jù)文獻(xiàn)[6]中的方法,從兩種領(lǐng)域的網(wǎng)絡(luò)數(shù)據(jù)中提取能夠表示多種網(wǎng)絡(luò)異常行為的特征,其中包括統(tǒng)計(jì)特征Fs和時(shí)間序列特征Ft,由HTTP數(shù)據(jù)生成的特征定義為Fhttp,其中Fhttp = Fshttp + Fthttp,由TCP數(shù)據(jù)生成的特征定義為Ftcp,F(xiàn)tcp = Fstcp + Fttcp,由于沒有連續(xù)的時(shí)間序列標(biāo)注數(shù)據(jù),該方法將時(shí)間序列特征同樣轉(zhuǎn)化為統(tǒng)計(jì)特征。完成數(shù)據(jù)預(yù)處理與特征提取之后,F(xiàn)http和Ftcp將會(huì)分別作為兩種子模型的輸入。endprint
[ResCo-training=ResSubModel1*ResSubModel2=P1good*P2good,P1bad*P2badLabelCo-training=MaxResCo-training] (1)
通常來(lái)說(shuō),訓(xùn)練集的大小對(duì)于分類器的準(zhǔn)確率有著至關(guān)重要的影響。由于已標(biāo)記為異?;蛘哒5挠?xùn)練數(shù)據(jù)相比整體的數(shù)據(jù)集非常少,為了保證模型的準(zhǔn)確率,在協(xié)同訓(xùn)練過(guò)程中使用迭代選取置信度較高的未標(biāo)記數(shù)據(jù)加入訓(xùn)練集的方式,可以在訓(xùn)練過(guò)程中不停補(bǔ)充訓(xùn)練集,進(jìn)而優(yōu)化模型參數(shù)。由于協(xié)同訓(xùn)練的過(guò)程是使用兩個(gè)子模型的分類結(jié)果進(jìn)行相互補(bǔ)充,因此在迭代過(guò)程中也會(huì)有一定的信息融合。
2.1 迭代過(guò)程中的模型優(yōu)化
根據(jù)文獻(xiàn)[7],[8]的研究表明,協(xié)同訓(xùn)練的數(shù)據(jù)融合過(guò)程要求多領(lǐng)域特征間要滿足一定的獨(dú)立性,然而現(xiàn)實(shí)中的數(shù)據(jù)錯(cuò)綜復(fù)雜,從中提取的特征很難嚴(yán)格滿足算法要求,因此,文章中為模型對(duì)迭代訓(xùn)練的過(guò)程進(jìn)行了優(yōu)化。對(duì)于每次迭代,記錄協(xié)同訓(xùn)練模型各個(gè)子模型的測(cè)試準(zhǔn)確率,如果當(dāng)前迭代過(guò)程中的準(zhǔn)確率高于前一次迭代的結(jié)果,則認(rèn)為本次選取的補(bǔ)充集對(duì)整體模型有正作用,并將該補(bǔ)充集添加到訓(xùn)練集中;否則認(rèn)為其對(duì)整體模型有副作用,并將其返還測(cè)試集,等待下次迭代過(guò)程。如果一個(gè)訓(xùn)練實(shí)例有N次被算法認(rèn)作副作用數(shù)據(jù),則將其視為噪聲數(shù)據(jù),并從整體數(shù)據(jù)中剔除,不再參與后續(xù)迭代。通過(guò)這種方法,既可以避免模型在訓(xùn)練過(guò)程中收到不滿足獨(dú)立性條件的特征影響,又能保證模型能夠達(dá)到最終的收斂狀態(tài)。
3 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析
文章中使用139GB的真實(shí)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行了大量的模型驗(yàn)證,并且使用準(zhǔn)確率和F1值得方式對(duì)模型優(yōu)劣進(jìn)行評(píng)估。表1中描述了實(shí)驗(yàn)所用的數(shù)據(jù)詳情。
實(shí)驗(yàn)結(jié)果表示(見表2),相比使用原始數(shù)據(jù)分別訓(xùn)練分類模型,基于協(xié)同訓(xùn)練和數(shù)據(jù)融合的網(wǎng)絡(luò)異常流量檢測(cè)模型可以在同樣缺少訓(xùn)練數(shù)據(jù)的情況下降檢測(cè)的準(zhǔn)確率提高將近8個(gè)百分點(diǎn),通過(guò)真實(shí)數(shù)據(jù)下的實(shí)驗(yàn),也證明了該模型在實(shí)際應(yīng)用中面對(duì)復(fù)雜的網(wǎng)絡(luò)流量數(shù)據(jù)有著較好的魯棒性。
4 結(jié)束語(yǔ)
本文提出了一種基于協(xié)同訓(xùn)練和數(shù)據(jù)融合的網(wǎng)絡(luò)異常流量檢測(cè)模型,不僅將數(shù)據(jù)融合技術(shù)應(yīng)用到了網(wǎng)絡(luò)異常檢測(cè),成功對(duì)于多領(lǐng)域數(shù)據(jù)進(jìn)行有效的特征融合,同時(shí)也很好地解決了在異常檢測(cè)研究中經(jīng)常遇到的訓(xùn)練數(shù)據(jù)稀缺問題,通過(guò)大量基于真實(shí)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,本文提出的模型能夠在只有少量訓(xùn)練數(shù)據(jù)的前提下將異常檢測(cè)的準(zhǔn)確率提高將近百分之八,這在數(shù)據(jù)量很大的情況中具有很高現(xiàn)實(shí)意義。當(dāng)然模型在一定程度上還有可優(yōu)化提高的地方,比如在能夠獲取連續(xù)的時(shí)間序列標(biāo)注數(shù)據(jù)的前提下,使用序列標(biāo)注模型如LSTM等代替經(jīng)典分類算法作為協(xié)同訓(xùn)練的子模型,并對(duì)不同領(lǐng)域的數(shù)據(jù)采用不同的特征提取方式,可以有效提高特征間的獨(dú)立性,提高模型準(zhǔn)確率,在后續(xù)工作中也會(huì)對(duì)這方面進(jìn)行重點(diǎn)研究。
參考文獻(xiàn):
[1] Marnerides A K, Mauthe A U. Analysis and characterisation of botnet scan traffic[C]. In International Conference on Computing, NETWORKING and Communications, 2016: 1-7.
[2] Trajkovic L. Mining network traffic data[C]// In Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on, 2009: 1-2.
[3] Zheng Y. Methodologies for cross-domain data fusion: An overview[J]. Big Data IEEE Transactions on,2015, 1(1):16-34.
[4] Nagar M, Pandit S, Maurya J P. Detection and classification of network anomalies using svm and decision tree[J]. International Journal of Computer Science and Information Technology, 2014, 136(4). (下轉(zhuǎn)第86頁(yè))
(上接第82頁(yè))
[5] Balcan M F, Blum A, Yang K. Co-training and expansion: towards bridging theory and practice[C]. In International Conference on Neural Information Processing Systems, 2004.
[6] Iglesias F, Zseby T. Analysis of network traffic features for anomaly detection[J]. Machine Learning, 2015, 101(1):59-84.
[7] Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[C]. In Proceedings of the eleventh annual conference on Computational learning theory, 2000: 92-100.
[8] Brefeld U, Scheffer T. Co-em support vector learning[C]. In International Conference, 2004: 121-128.endprint