• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Spark技術(shù)在高校網(wǎng)絡(luò)安全管理中的應(yīng)用

    2019-09-19 11:34:52殷紅花
    電腦知識與技術(shù) 2019年20期
    關(guān)鍵詞:聚類算法大數(shù)據(jù)

    殷紅花

    摘要:在某高校的網(wǎng)絡(luò)安全管理中,引入Spark技術(shù),提出一種屬性相異度聚類算法,結(jié)合二者,完成多源安全日志分析系統(tǒng)的設(shè)計架構(gòu)和開發(fā)應(yīng)用,并通過測試分析,Spark技術(shù)完全可以滿足某高校的安全管理工作需要,適合應(yīng)用于多源安全設(shè)備的大數(shù)據(jù)量級的日志ETL和分析。

    關(guān)鍵詞:Spark;聚類算法;大數(shù)據(jù)

    中圖分類號:TP393? ? ? 文獻(xiàn)標(biāo)識碼:A

    文章編號:1009-3044(2019)20-0291-03

    開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

    Abstract: In a college network security management, the introduction of the Spark technology, an attribute phase dissimilarity clustering algorithm is put forward, combining the two, to complete the multi-source security log analysis system design, architecture and application development, and through the test and analysis, the Spark technology can meet the needs of the safety management of a college, is suitable for the large data applied in multi-source security equipment level of ETL and log analysis.

    Key words: Spark; clustering algorithm; big data

    1 背景

    隨著互聯(lián)網(wǎng)的普及,人們的一切活動都依托著互聯(lián)網(wǎng)技術(shù)?;ヂ?lián)網(wǎng)開放、交互及分散的特性,使得人們可以快速地共享交流信息,但同時也加劇了網(wǎng)絡(luò)安全威脅。每年由于安全事件造成的各種損失呈指數(shù)級增長,尤其是“棱鏡門”事件的發(fā)生,國家越來越重視信息化安全問題,從2014年開始,中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組宣布成立,再到2017年,我國網(wǎng)絡(luò)安全法頒布實施,在國家層面上,已將網(wǎng)絡(luò)信息安全上升至一定的高度,這些舉措也使得社會各界更加重視網(wǎng)絡(luò)安全。

    高校作為國家網(wǎng)絡(luò)的重要陣地,提升網(wǎng)絡(luò)安全也是責(zé)無旁貸和刻不容緩?,F(xiàn)實的高校網(wǎng)絡(luò)環(huán)境中部署了防火墻、IPS、WAF等安全設(shè)備,學(xué)校內(nèi)外網(wǎng)絡(luò)均由這些設(shè)備構(gòu)成一層層防護(hù)圈[7]。這些網(wǎng)絡(luò)安全設(shè)備可以記錄運行狀態(tài)數(shù)據(jù)和異常事件數(shù)據(jù),這些數(shù)據(jù)均使用日志的形式加以保存,通過日志可以分析出諸如攻擊源、攻擊目的、網(wǎng)絡(luò)狀況、安全解決方案等等信息,以供網(wǎng)絡(luò)管理人員參考。但對于網(wǎng)絡(luò)安全員而言,分析這些日志會遇到數(shù)據(jù)量大、分析煩瑣、準(zhǔn)確度難把控及無法整體掌控網(wǎng)絡(luò)實時狀況等問題。針對這些問題,許多研究人員也提出了各種解決方案[1][2][3],但這些方案大多缺乏統(tǒng)一處理多種安全設(shè)備日志,聚合效果不足,利用大數(shù)據(jù)技術(shù)多采用Hadoop的框架,不同業(yè)務(wù)需求需要不同模塊配合解決,造成資源浪費。本文在某高校的校園網(wǎng)的改造中,采用Spark技術(shù),結(jié)合日志聚類算法,構(gòu)建一套多源安全日志分析系統(tǒng),具備對多種安全設(shè)備日志進(jìn)行分析,并通過功能性能測試,說明Spark技術(shù)完全滿足于高校的網(wǎng)絡(luò)安全管理的實際需求,可以有效地解決多源安全設(shè)備及大數(shù)據(jù)日志帶來的諸多問題。

    2 Spark技術(shù)概述

    Apache頂級開源項目中的Spark屬于一種通用的計算引擎,其主要為了快速地對大數(shù)據(jù)進(jìn)行處理。Spark由加州大學(xué)伯克利分校AMP設(shè)計開發(fā)和貢獻(xiàn)的類Hadoop MapReduce的并行框架,除了具備Hadoop技術(shù)中的MapReduce的優(yōu)點,相較于Hadoop MapReduce,其Job的中間輸出值直接被保存在內(nèi)存里,因此不需要頻繁的Read/Write HDFS,十分適宜用于不斷迭代的MapReduce算法。從宣傳上看,Spark具有的內(nèi)存計算比MapReduce快了近100倍,硬盤計算快了10倍以上的速度,許多實際環(huán)境測試雖然達(dá)不到以上倍數(shù),但也是比MapReduce快很多的,而且Spark支持R、Java、Scala、Python等高級編程語言編寫程序,支持流計算,完全可以應(yīng)用于要求大量的、低延遲的數(shù)據(jù)分析應(yīng)用場景。如圖1所示,Spark技術(shù)主要由Spark(Spark Core)、Spark SQL、Spark Streaming、MLBase、MLlib、GraphX等構(gòu)成。

    Spark Core是整個Spark技術(shù)棧的核心層,其主要是通過RDD(彈性分布式數(shù)據(jù)集),包含豐富的算子(例如Map函數(shù)和Reduce函數(shù)等),可將數(shù)據(jù)在內(nèi)存中計算,實現(xiàn)了RPC、壓縮、序列化及任務(wù)調(diào)度等。

    Spark技術(shù)棧中專門用于處理結(jié)構(gòu)化數(shù)據(jù)的一個模塊,支持JDBC/ODBC訪問接口和傳統(tǒng)的SQL查詢功能[5],使得Spark SQL可以實現(xiàn)智能計算和分布式數(shù)據(jù)倉庫。Spark SQL提供數(shù)據(jù)結(jié)構(gòu)抽象框架,通過API結(jié)合Spark的外源接口,可以進(jìn)行大數(shù)據(jù)的ETL,并且,通過UDF函數(shù),Spark SQL可以最大化RDD的重復(fù)使用,提高運行速度和效率。

    Spark技術(shù)棧中實現(xiàn)實時的流數(shù)據(jù)計算功能框架,支持Flume、Kafka等多源輸入,內(nèi)部采用RDD序列進(jìn)行存儲。

    3 安全日志的聚類算法

    惡意攻擊一般會在各類安全設(shè)備中留下日志記錄,日志將不同事件按照預(yù)先定義的級別進(jìn)行分類存儲,多個安全設(shè)備對于相同的攻擊事件的定義也不同,包括事件的描述及表示,如此一來直接導(dǎo)致重復(fù)的報警在不同設(shè)備的日志中按不同的定義而存儲著,這些日志中的事件卻是指向相同的攻擊事件,譬如嗅探,在主機上表現(xiàn)為檢到ICMP Ping掃描,在網(wǎng)絡(luò)中為多個ICMP Ping數(shù)據(jù)包,在防火墻中卻是很多異常Ping報文。為了提高關(guān)聯(lián)分析攻擊事件日志的精準(zhǔn)性,前期需要對這些不同定義的但元含義一致的報警日志進(jìn)行聚合操作。因為同一事件在安全設(shè)備中的日志屬性具有相似點,所以本文系統(tǒng)通過選取計算日志屬性的相似度,設(shè)置相似度的閾值,當(dāng)小于這一閾值,即為一個HyperAlertLog(超級警報日志),這樣的設(shè)置可以提升分析效率,同時精簡了日志的數(shù)量。經(jīng)過詳細(xì)的分析,本文選擇防火墻和IPS設(shè)備,將二者的源IP地址、目的IP地址、源端口、目的端口及日志記錄時間等五元素進(jìn)行屬性相異度計算,此外IPS還選擇事件類型作為第六元素進(jìn)行計算。屬性相異度計算見公式1。

    公式1中的n是對象x、y的屬性總數(shù),m是屬性標(biāo)號,是一種對象屬性m的權(quán)值(相異度計算),其取值范圍0-1之間。是對象x、y在m的相異度,不相同日志屬性相異度計算方法如下:

    1)源IP/目的IP相異度計算見公式2。

    公式2中z是IP最高位一致的位數(shù),主要選擇相同網(wǎng)段的IP的前綴劃分的相同性,計算相似度距離比較短。

    2)源/目的端口相異度計算見公式3。

    公式3只需要比較兩條日志的端口號是否一致,不同則相異度取1,反之取0。

    3)時間相異度計算方式

    日志聚類時,所有的相異度計算必須首先執(zhí)行時間計算,當(dāng)兩條日志的時間間隔大于閾值τ時,時間相異度取1,反之取0。

    4)事件類型相異度計算方式

    將IPS日志同防火墻日志的報警類型進(jìn)行異或非運算,值為1時相異,值為0時相同。

    根據(jù)公式可知,相異度的計算結(jié)果直接受到日志屬性權(quán)值的影響,不同的攻擊對應(yīng)的權(quán)值亦非相同,譬如端口掃描攻擊中的源或目的IP均相同,而其源或目的端口屬性卻可能不同,又如分布式拒絕攻擊(DDOS)是針對同一個目標(biāo),其目的IP相同。故若想得到比較好的日志聚合結(jié)果,需要結(jié)合不斷地實驗測試,對不同的攻擊模式設(shè)置合適的屬性權(quán)重值。常見的網(wǎng)絡(luò)攻擊屬性權(quán)值的默認(rèn)值如表1所示。

    4 多源安全日志分析系統(tǒng)體系結(jié)構(gòu)

    結(jié)合Spark技術(shù)和日志的屬性相異度聚類算法,多源安全日志分析系統(tǒng)設(shè)計如圖2所示。

    系統(tǒng)底層原始日志數(shù)據(jù)采用HDFS存儲,日志經(jīng)過日志處理層分析處理之后存儲在MariaDB和HBase中,以供安全信息展示層調(diào)用和用戶實時在線查詢。MariaDB和HBase之間通過Sqoop相互導(dǎo)入導(dǎo)出數(shù)據(jù)。本文重點論述日志處理層中的Spark作業(yè),包括Spark SQL作業(yè)、Spark Streaming作業(yè)和Spark Core作業(yè),其主要對日志數(shù)據(jù)進(jìn)行統(tǒng)計計算、聚合、關(guān)聯(lián)分析,最終將有效日志信息存儲入日志存儲層。

    原始多源安全設(shè)備的日志中包含大量無用和冗余數(shù)據(jù),所以需要對數(shù)據(jù)首先進(jìn)行ETL,即在日志處理層中,使用Spark技術(shù)棧和聚類算法,將日志數(shù)據(jù)進(jìn)行實時的過濾、規(guī)范和聚合,并將ETL之后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,得到可用安全信息,存入底層數(shù)據(jù)庫中。

    日志ETL主要包括:(1)將HDFS或HBase中的數(shù)據(jù)讀入日志處理層;(2)將原始數(shù)據(jù)轉(zhuǎn)換成Spark SQL編程抽象,生成Spark DataFrame,進(jìn)行字段的增加、修改、轉(zhuǎn)變、重組等。結(jié)合Spark SQL的UDF函數(shù)完成字段的拆分、平鋪,將最終結(jié)果提交到Spark集群中運行,即得到ETL之后的日志數(shù)據(jù)。

    ETL之后,需要結(jié)合Spark SQL和Spark Streaming等技術(shù)實現(xiàn)對于異常流量和攻擊事件的監(jiān)控和分析。流量主要來源于防火墻,所以可以采用單源日志特征匹配分析方法,而對于攻擊事件,則需要采用關(guān)聯(lián)分析方法,具體算法本文不再論述,其主要是制定一套規(guī)則庫,由特定關(guān)鍵字構(gòu)成,根據(jù)行為模式來進(jìn)行安全日志的關(guān)聯(lián)分析。

    5 系統(tǒng)測試

    本文利用學(xué)校的硬件環(huán)境,搭建了一個Spark分布式集群環(huán)境,測試硬件和軟件環(huán)境如表2所示。底層日志采集采用機架式服務(wù)器,Spark集群部署在計算資源豐富的刀片式服務(wù)器集群上,用于日志ETL和分析。

    通過模擬攻擊實測,當(dāng)日志數(shù)量級別小于5萬時,單機處理能力比較強,超過5萬數(shù)量級之后,Spark集群的處理能力凸顯,處理效率隨著節(jié)點數(shù)的增多而增加。優(yōu)于本文只是搭建了一個實驗環(huán)境,日志數(shù)量有限,但也可以從一定程度上反應(yīng)Spark集群處理能力和單機的性能差異,當(dāng)日志數(shù)量超過一定規(guī)模之后,采用Spark集群更加高效。此外,實驗也驗證了,本文采用的ETL和相異度聚合算法完全適合某高校的實際環(huán)境,滿足多源安全設(shè)備日志分析的數(shù)據(jù)要求。

    6 總結(jié)

    本文使用Spark技術(shù)棧,通過聚類算法,在某高校實現(xiàn)了多源設(shè)備的日志分析系統(tǒng)。利用Spark SQL,實現(xiàn)日志ETL,對于多源安全設(shè)備采集到的日志數(shù)據(jù)進(jìn)行過濾、規(guī)范、聚合,完成對于日志數(shù)據(jù)去冗余,提升了日志分析模塊的效率,在分析模塊中,使用Spark SQL和Spark Streaming完成日志分析,并根據(jù)業(yè)務(wù)需求,將結(jié)果寫入MariaDB和HBase中,實現(xiàn)了用戶對于結(jié)果的隨機實時查詢,并且在某高校的實際網(wǎng)絡(luò)安全管理中取得了良好的運行效果。當(dāng)然,本文中測試和實際運行環(huán)境,數(shù)據(jù)量尚沒有達(dá)到理論預(yù)期,并且多源設(shè)備也僅有兩個,無法得到全面完整的測試結(jié)果。將大數(shù)據(jù)技術(shù)應(yīng)用于高校的安全管理中,是必然的結(jié)果,希望通過今后在工作中不斷地實踐,完善安全分析系統(tǒng)的相關(guān)算法,豐富多源設(shè)備的種類,使得Spark技術(shù)最終可以應(yīng)用于高校的全面網(wǎng)絡(luò)安全管理中,提高一線安全管理員發(fā)現(xiàn)網(wǎng)絡(luò)安全問題和解決問題的效率。

    參考文獻(xiàn):

    [1] 趙靜, 劉宇. 大數(shù)據(jù)技術(shù)在計算機網(wǎng)絡(luò)入侵檢測中的研究[J]. 網(wǎng)絡(luò)新媒體技術(shù), 2018, 7(4): 45-49.

    [2] 陳闖. 基于Hadoop的ETL部件在分布式數(shù)據(jù)挖掘引擎中的應(yīng)用[D]. 南京: 南京郵電大學(xué),2016.

    [3] 王靜. 基于大數(shù)據(jù)的發(fā)電集團(tuán)統(tǒng)一運行監(jiān)測與安全預(yù)警平臺研究與應(yīng)用[A]. 中國電機工程學(xué)會電力信息化專業(yè)委員會. 2017電力行業(yè)信息化年會論文集[C]. 中國電機工程學(xué)會電力信息化專業(yè)委員會: 人民郵電出版社, 電信科學(xué)編輯部, 2017: 1.

    [4] 劉東江, 黎建輝. 基于Spark的并行圖聚類算法研究[J/OL]. 系統(tǒng)仿真學(xué)報: 1-13 [2019-06-08]. http://kns.cnki.net/kcms/detail/11.3092.V.20190416.1307.021.html.

    [5] Sara Mustafa, Iman Elghandour, Mohamed A. Ismail. A Machine Learning Approach for Predicting Execution Time of Spark Jobs[J]. Alexandria Engineering Journal, 2018.

    【通聯(lián)編輯:謝媛媛】

    猜你喜歡
    聚類算法大數(shù)據(jù)
    數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
    K—Means聚類算法在MapReduce框架下的實現(xiàn)
    基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
    大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
    新聞世界(2016年10期)2016-10-11 20:13:53
    基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
    科技視界(2016年20期)2016-09-29 10:53:22
    數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
    中國記者(2016年6期)2016-08-26 12:36:20
    基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
    大規(guī)模風(fēng)電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
    科技視界(2016年8期)2016-04-05 18:39:39
    基于暫態(tài)特征聚類的家用負(fù)荷識別
    禹州市| 白朗县| 齐齐哈尔市| 腾冲县| 如皋市| 驻马店市| 左贡县| 手游| 芷江| 柳州市| 微博| 新兴县| 彭山县| 宁明县| 涪陵区| 荆州市| 石渠县| 巫山县| 甘孜县| 鹤峰县| 邵东县| 泰安市| 当涂县| 松原市| 阜平县| 金塔县| 松滋市| 留坝县| 崇左市| 花莲县| 昭通市| 扎鲁特旗| 聂荣县| 舒城县| 台北市| 龙门县| 建宁县| 澎湖县| 喀什市| 博野县| 黄骅市|