◆周 偉
?
基于大數(shù)據(jù)的校園網(wǎng)絡(luò)安全管理技術(shù)研究
◆周 偉
(攀枝花學(xué)院 四川 617000)
針對大數(shù)據(jù)環(huán)境下校園網(wǎng)絡(luò)面臨的安全威脅,利用大數(shù)據(jù)挖掘技術(shù)構(gòu)建校園網(wǎng)絡(luò)安全管理體系架構(gòu)。實現(xiàn)數(shù)據(jù)的采集和深度挖掘,提升校園網(wǎng)數(shù)據(jù)利用的深度與廣度,是大數(shù)據(jù)時代校園網(wǎng)絡(luò)安全管理的有效探索。
校園網(wǎng);安全管理;大數(shù)據(jù);數(shù)據(jù)挖掘
隨著高校校園網(wǎng)絡(luò)規(guī)模的不斷擴大,校園網(wǎng)絡(luò)面臨的網(wǎng)絡(luò)安全威脅和安全風(fēng)險在不斷增加,網(wǎng)絡(luò)病毒、木馬和各種網(wǎng)絡(luò)攻擊行為造成的損失越來越大,網(wǎng)絡(luò)攻擊行為向著分布式、規(guī)?;?fù)雜化等趨勢發(fā)展,傳統(tǒng)的網(wǎng)絡(luò)防火墻、IDS、訪問控制技術(shù)等網(wǎng)絡(luò)安全防護技術(shù),已經(jīng)不能滿足網(wǎng)絡(luò)安全的需求。
隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來越廣泛,數(shù)據(jù)挖掘技術(shù)成為計算機技術(shù)發(fā)展最快的領(lǐng)域之一,如商場的顧客行為分析、營銷策略決策、信用風(fēng)險評估以及欺詐檢測等[1]。因此,校園網(wǎng)絡(luò)安全管理也應(yīng)利用大數(shù)據(jù)技術(shù),提升校園網(wǎng)數(shù)據(jù)中心數(shù)據(jù)的利用價值,對大數(shù)據(jù)時代下校園網(wǎng)絡(luò)安全管理進行創(chuàng)新式探索,提供更個性化、更有價值的安全服務(wù)需求。
大數(shù)據(jù)(Big Data)是最顯著的特征就是“大”。麥肯錫認(rèn)為:“大數(shù)據(jù)是指大小超出了典型數(shù)據(jù)庫工具采集、存儲、管理和分析能力的數(shù)據(jù)集,但并不是說一定要超過了特定的TB值得數(shù)據(jù)集才算是大數(shù)據(jù)[2]。”維基百科定義為:“大數(shù)據(jù)是一個復(fù)雜而龐大的數(shù)據(jù)集,以至于很難用現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)和其他數(shù)據(jù)處理技術(shù)來采集、存儲、查找、共享、傳送、分析和可視化[2]?!?全球權(quán)威的IT研究與顧問咨詢公司Gartner認(rèn)為:“大數(shù)據(jù)是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[2]。”由此可見,“大數(shù)據(jù)”并非一個科學(xué)、嚴(yán)格的概念,它只是對數(shù)據(jù)規(guī)模爆炸性增長這一現(xiàn)象的歸納,到目前為止,并沒有一個確切一致的定義。大數(shù)據(jù)具有四個特點,簡稱4V,即數(shù)據(jù)量大(Volume)、速度快(Velocity)、多樣(Variety)、價值密度低(Value)[3]。數(shù)據(jù)量大是大數(shù)據(jù)最基本的特征,數(shù)據(jù)量一般要達到PB級以上才能稱為大數(shù)據(jù);速度快是指大數(shù)據(jù)的獲取更加高速,大數(shù)據(jù)處理的實時性要求更高,是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征;多樣是指大數(shù)據(jù)的類型多樣,主要包括結(jié)構(gòu)化數(shù)據(jù)(Structured Data)、半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured Data)和非結(jié)構(gòu)化數(shù)據(jù)(Unstructured Data)三類,同時數(shù)據(jù)來源于不同領(lǐng)域、不同平臺與設(shè)備;價值密度低是指大數(shù)據(jù)價值巨大但密度很低,必須通過對大數(shù)據(jù)進行分析和挖掘,才能夠提供以決策支持。大數(shù)據(jù)的特點表明,傳統(tǒng)的數(shù)據(jù)庫技術(shù)已經(jīng)不能從大量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)背后隱藏的關(guān)系和規(guī)則,從而無法根據(jù)現(xiàn)有數(shù)據(jù)預(yù)測未來發(fā)展趨勢,需要新的數(shù)據(jù)處理方法和技術(shù)來有效地組織和使用大數(shù)據(jù)。
大數(shù)據(jù)挖掘是指通過分析每個數(shù)據(jù)從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)包括數(shù)據(jù)采集、導(dǎo)入和預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析與挖掘和大數(shù)據(jù)可視化[4]。
(1)大數(shù)據(jù)采集、預(yù)處理與存儲
大數(shù)據(jù)的采集是指對于不同類型(如結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)和來源于不同客戶端(如移動終端、Web應(yīng)用、App或者各種傳感器形式等)的數(shù)據(jù)采用多個不同類型的數(shù)據(jù)庫來存儲,并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。由于并發(fā)量大,在數(shù)據(jù)采集過程中需要在數(shù)據(jù)采集端部署大量數(shù)據(jù)庫才能支撐。大數(shù)據(jù)導(dǎo)入與預(yù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約。數(shù)據(jù)清洗可以去除數(shù)據(jù)噪聲,填補缺少的屬性值,刪除無效數(shù)據(jù)等。數(shù)據(jù)集成是把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中進行存儲,目前常用的有聯(lián)邦數(shù)據(jù)庫系統(tǒng)、中間件模式、數(shù)據(jù)庫模式等幾種數(shù)據(jù)集成模型。數(shù)據(jù)轉(zhuǎn)換主要是將數(shù)據(jù)轉(zhuǎn)換成或統(tǒng)一成適合于數(shù)據(jù)挖掘的形式,大數(shù)據(jù)存儲的關(guān)鍵技術(shù)是分布式文件系統(tǒng),由于數(shù)據(jù)量達到PB、EB級別,傳統(tǒng)的計算機系統(tǒng)和數(shù)據(jù)庫無法處理大數(shù)據(jù),目前常采用基于HADOOP的HDFS、CEPH等分布式存儲系統(tǒng),該系統(tǒng)由一個或多個分布式集群組成,一個分布式集群的底層通常大量商用計算機組成,每臺計算機稱為一個節(jié)點(Node).節(jié)點放置在機架上,每一個機架可以包含30-40個節(jié)點.節(jié)點之間通過高速網(wǎng)絡(luò)連接,數(shù)據(jù)分布式地存儲在這些節(jié)點上,通過分布式數(shù)據(jù)存儲于管理系統(tǒng)統(tǒng)一管理,其具體架構(gòu)如圖1所示。
圖1 大數(shù)據(jù)存儲與管理架構(gòu)
(2)大數(shù)據(jù)分析與挖掘
目前, 大數(shù)據(jù)分析與挖掘按處理形式上可以分為靜態(tài)數(shù)據(jù)的批量處理、對在線數(shù)據(jù)的實時處理和對圖數(shù)據(jù)的綜合處理,在線數(shù)據(jù)的實時處理又包括對實時交互計算和流式數(shù)據(jù)的處理兩種[5]。大數(shù)據(jù)的批處理系統(tǒng)實時性要求不高,一般先對數(shù)據(jù)進行預(yù)處理存儲后再計算,對數(shù)據(jù)的全面性、準(zhǔn)確性要求較為重要。批量數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)精確度高和價值密度低三個特征,需要合理的算法才能挖據(jù)出有用的價值;實時交互式數(shù)據(jù)處理方式靈活直觀且便于控制,操作人員與系統(tǒng)通過人機對話的方式進行,操作人員根據(jù)系統(tǒng)向?qū)нM行所需操作,從而獲得最終處理結(jié)果,在此方式下,存儲在系統(tǒng)中的數(shù)據(jù)文件能夠根據(jù)實際情況被及時處理修正,同時處理結(jié)果可以立刻被使用;流式數(shù)據(jù)是一種來源廣、格式復(fù)雜和含有時序性的數(shù)據(jù)序列,會隨著時間的推移而不斷增長(比如日志服務(wù)器的日志實時采集就是流式數(shù)據(jù)),流式數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中含有錯誤信息、垃圾信息,流式數(shù)據(jù)處理系統(tǒng)必須能夠?qū)?shù)據(jù)進行清洗、格式處理、轉(zhuǎn)換等。
(3)大數(shù)據(jù)處理平臺
目前,靜態(tài)數(shù)據(jù)的批量處理系統(tǒng)有Hadoop框架實現(xiàn)的HDFS和MapReduce,HDFS是一個分布式文件系統(tǒng),可以管理大規(guī)模分布式存儲的文件,同時可以運行在廉價的硬件上,MapReduce負(fù)責(zé)將計算邏輯分配到各數(shù)據(jù)節(jié)點進行數(shù)據(jù)計算,但是MapReduce存在缺乏對高層次語言(如SQL)的支持和不適用于某些并行處理任務(wù)(如實時計算)的缺點;交互式數(shù)據(jù)處理系統(tǒng)的典型代表系統(tǒng)是Berkeley的Spark系統(tǒng),Spark[6]是一個基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,提高了在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實時性,同時保證了高容錯性和高可伸縮性,與MapReduce的批量計算相比,Spark可以帶來上百倍的性能提升[6];典型的流式數(shù)據(jù)處理有Twitter的Storm、Facebook 的Scribe,Linkedin的Samza,Cloudera的Flume,Apache的Nutch[5]。除此之外,國際上還有應(yīng)用廣泛的模塊化、集成化的大數(shù)據(jù)挖掘軟件平臺,如SQL Server的數(shù)據(jù)挖掘模塊,SAS的Enterprise Miner,SPSS公司的Clementine,IBM的DB Miner等[5]。
(4)大數(shù)據(jù)可視化
為了從挖掘和分析結(jié)果中發(fā)現(xiàn)有意義的性質(zhì)和模式,更好地理解數(shù)據(jù),需要對分析結(jié)果進行可視化展示。大數(shù)據(jù)可視化分析工具,必須得有處理海量數(shù)據(jù)的能力和圖形展現(xiàn)和交互的能力,能快速的收集、篩選、分析、歸納、展現(xiàn)決策者所需要的信息,并根據(jù)新增的數(shù)據(jù)進行實時更新。目前,國外的Tableau、Microsoft、SAS、IBM都有支持?jǐn)?shù)據(jù)分析和分析結(jié)果展示的產(chǎn)品。
(1)數(shù)據(jù)存儲和預(yù)處理能力難以滿足大數(shù)據(jù)量要求
目前,校園網(wǎng)的數(shù)據(jù)存儲基本都是采用服務(wù)器本身的存儲,容量有限,擴展能力差。校園網(wǎng)各個應(yīng)用系統(tǒng)(如圖書借閱系統(tǒng)、教務(wù)系統(tǒng)、考試系統(tǒng)等)、網(wǎng)絡(luò)設(shè)備(如路由器、交換機、防火墻等)、上網(wǎng)行為系統(tǒng)、校園網(wǎng)監(jiān)控等會產(chǎn)生大量的日志信息,同時,圖書館的電子資源、各種期刊數(shù)據(jù)庫也有海量的存儲需求,如此龐大的數(shù)據(jù)量存儲不能簡單地通過升級原有服務(wù)器的方法來解決,需要有可擴展性強和良好的容錯能力的大數(shù)據(jù)存儲框架和數(shù)據(jù)處理平臺。
(2)復(fù)雜的數(shù)據(jù)類型對數(shù)據(jù)融合提出了挑戰(zhàn)
校園網(wǎng)絡(luò)安全因素包括多個方面,有來自校園網(wǎng)內(nèi)部與外部的攻擊、服務(wù)器操作系統(tǒng)自身的安全、惡意攻擊、病毒、漏洞等。因此需要多方面分析數(shù)據(jù):一方面各應(yīng)用系統(tǒng)產(chǎn)生更多的數(shù)據(jù),需要不斷的存儲,另一方面需要對歷史數(shù)據(jù)進行保存,以便和當(dāng)前數(shù)據(jù)進行對比。同時,各系統(tǒng)產(chǎn)生的數(shù)據(jù)標(biāo)準(zhǔn)不一致,類型多樣,對數(shù)據(jù)融合提出了巨大的挑戰(zhàn)。
(3)數(shù)據(jù)的處理難以滿足高實時性要求
不同的應(yīng)用系統(tǒng)連續(xù)、高速的產(chǎn)生異構(gòu)數(shù)據(jù),要求對這些實時數(shù)據(jù)進行處理,從中發(fā)現(xiàn)對校園網(wǎng)絡(luò)造成安全威脅的異常情況,從而要求大數(shù)據(jù)分析系統(tǒng)能夠快速響應(yīng)復(fù)雜的查詢,具有實時處理業(yè)務(wù)系統(tǒng)數(shù)據(jù)的能力,傳統(tǒng)的數(shù)據(jù)庫處理技術(shù)不能適應(yīng)如此大規(guī)模的數(shù)據(jù)流。
(4)大數(shù)據(jù)挖掘結(jié)果需要有效的可視化手段
大數(shù)據(jù)挖掘的最終結(jié)果是要獲取的有價值的信息和知識呈現(xiàn)給最終用戶,供最終用戶做出決策,但最終用戶不一定是既懂網(wǎng)絡(luò)安全又懂?dāng)?shù)理統(tǒng)計方面的復(fù)合型人才,因此需要一種讓普通用戶能夠看懂的大數(shù)據(jù)挖掘結(jié)構(gòu)的可視化手段。
基于大數(shù)據(jù)挖掘的校園網(wǎng)絡(luò)安全管理主要由數(shù)據(jù)采集層、數(shù)據(jù)與處理與集成、數(shù)據(jù)分析和數(shù)據(jù)展示層組成,其他如安全平臺管理與平臺配置與調(diào)度則貫穿整個流程,具體架構(gòu)如圖2所示。
圖2 基于大數(shù)據(jù)的網(wǎng)絡(luò)安全管理架構(gòu)
(1)數(shù)據(jù)采集層
數(shù)據(jù)采集層主要實現(xiàn)大數(shù)據(jù)的采集工作。通過對校園網(wǎng)各應(yīng)用系統(tǒng)服務(wù)器的日志文件、防火墻、行為監(jiān)控、交換機和路由器登錄記錄等,通過數(shù)據(jù)采集層會收集大量結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),為下一步數(shù)據(jù)與處理做好準(zhǔn)備工作。
(2)數(shù)據(jù)預(yù)處理層與集成
數(shù)據(jù)預(yù)處理主要是對數(shù)據(jù)采集層采集到的數(shù)據(jù)進行適當(dāng)?shù)奶幚怼⑷ピ?、清洗和進一步的分布式存儲。數(shù)據(jù)采集層采集到的數(shù)據(jù)是各種不同類型的數(shù)據(jù),數(shù)據(jù)類型的種類和結(jié)構(gòu)都非常的復(fù)雜,這些數(shù)據(jù)必須經(jīng)過處理之后才能進行數(shù)據(jù)挖掘,通過數(shù)據(jù)處理與集成,將這些異構(gòu)數(shù)據(jù)轉(zhuǎn)換為便于處理的或是單一的數(shù)據(jù)結(jié)構(gòu),保證數(shù)據(jù)的質(zhì)量和可靠性??梢酝ㄟ^專業(yè)的ETL工具(如Kettle)、關(guān)聯(lián)規(guī)則或是聚類算法對數(shù)據(jù)進行分類或過濾,防止對挖掘結(jié)果產(chǎn)生不利影響。對處理之后的數(shù)據(jù)進行存儲,由于數(shù)據(jù)量巨大,可以采用分布式存儲系統(tǒng)對數(shù)據(jù)進行存儲,針對不同類型的數(shù)據(jù)可以建立特定的數(shù)據(jù)庫來進行存放,可以有效減少查詢時間和提高存取效率。
(3)數(shù)據(jù)挖掘?qū)?/p>
數(shù)據(jù)挖掘是大數(shù)據(jù)處理的核心,通過對預(yù)處理和集成后的數(shù)據(jù)進行挖掘,可以發(fā)現(xiàn)隱藏其中的安全威脅。由于校園網(wǎng)絡(luò)安全具有一定的實時性,從而可以將校園網(wǎng)安全行為日志數(shù)據(jù)分為實時性和非實時性數(shù)據(jù),采用流處理和靜態(tài)批處理相結(jié)合的方式進行挖掘。對于非實時數(shù)據(jù),采用NoSQL數(shù)據(jù)可和Hadoop計算機框架來進行數(shù)據(jù)處理。對于實時數(shù)據(jù),通過實時或流式計算技術(shù)如Storm分布式計算框架進行計算。
(4)數(shù)據(jù)展示層
數(shù)據(jù)展示層主要是利用數(shù)據(jù)可視化技術(shù),將挖掘結(jié)果利用圖形或圖象在屏幕上顯示出來,將抽象的挖掘結(jié)果表現(xiàn)為直觀的圖形圖像,更利于幫助人們發(fā)現(xiàn)隱藏在數(shù)據(jù)的規(guī)律,便于決策者或管理員發(fā)現(xiàn)潛在的網(wǎng)絡(luò)安全威脅。
校園網(wǎng)絡(luò)安全涉及眾多的因素和分析方法,數(shù)據(jù)來源豐富,需要利用大數(shù)據(jù)挖掘技術(shù)來發(fā)現(xiàn)與校園網(wǎng)絡(luò)安全相關(guān)的所有關(guān)聯(lián)信息來滿足校園網(wǎng)絡(luò)安全管理要求。隨著國家對信息化和網(wǎng)絡(luò)安全的重視,將大數(shù)據(jù)挖掘技術(shù)和大數(shù)據(jù)分析技術(shù)用于網(wǎng)絡(luò)安全管理是校園網(wǎng)絡(luò)安全領(lǐng)域發(fā)展方向之一。
[1]蔡麗艷著.數(shù)據(jù)挖掘算法及其應(yīng)用研究[M].成都:電子科技大學(xué)出版社,2013.
[2]張紹華,潘蓉,宗宇偉.大數(shù)據(jù)技術(shù)與應(yīng)用:大數(shù)據(jù)治理與服務(wù)[M].上海:上??茖W(xué)技術(shù)出版社,2016.
[3]趙偉.大數(shù)據(jù)在中國[M],南京:江蘇文藝出版社,2014.
[4]熊赟,朱揚勇,陳志淵.大數(shù)據(jù)挖掘[M].上海:上??茖W(xué)技術(shù)出版社,2016.
[5]程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,http://qikan.cqvip.com/zk/search.aspx?key =J%3d%5b%e8%bd%af%e4%bb%b6%e5%ad%a6%e6%8a%a5%5d&from=zk_search,2014.
[6]高彥杰.Spark大數(shù)據(jù)處理:技術(shù)、應(yīng)用與性能優(yōu)化[M].機械工業(yè)出版社,2015.
[7]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(工學(xué)版), http://qikan.cqvip.com/zk/search.aspx?key=J%3d%5b% e 6%b5%99%e6%b1%9f%e5%a4%a7%e5%ad%a6%e5%ad%a6%e6% 8a%a5%ef%bc%9a%e5%b7%a5%e5%ad%a6%e7%89%88%5d&from=zk_search,2014.
[8]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013.
[9]孫大為,張廣艷,鄭緯民.大數(shù)據(jù)流式計算:關(guān)鍵技術(shù)及系統(tǒng)實例[J].軟件學(xué)報,2014.