張利峰 邵斐
摘 要: 采用支持向量機進行網絡大數(shù)據(jù)平臺異常風險監(jiān)測時,建模效率低導致對異常風險的監(jiān)測結果存在較高的誤差,設計基于Hadoop的網絡大數(shù)據(jù)平臺異常風險監(jiān)測系統(tǒng)。依據(jù)云計算Hadoop系統(tǒng)作業(yè)原理,通過Map/Reduce分布式模式對大數(shù)據(jù)進行分類篩選等操作,通過控制模塊中的SDN控制器對大數(shù)據(jù)流量進行分流處理,將網絡大數(shù)據(jù)分類反饋到監(jiān)測模塊中,采用監(jiān)測模塊通過預處理端和存儲端對異常數(shù)據(jù)風險進行監(jiān)測,通過預處理端實現(xiàn)大數(shù)據(jù)的有效分流監(jiān)測;系統(tǒng)軟件通過最小二乘支持向量機對網絡大數(shù)據(jù)進行高效率建模,實現(xiàn)網絡大數(shù)據(jù)異常監(jiān)測。實驗結果表明,所設計系統(tǒng)具有監(jiān)測效率和穩(wěn)定性高、性能佳的優(yōu)勢。
關鍵詞: 網絡大數(shù)據(jù); 異常風險; 監(jiān)測系統(tǒng); 控制模塊; Hadoop; 最小二乘支持向量機
中圖分類號: TN931+.3?34; TP314 文獻標識碼: A 文章編號: 1004?373X(2018)22?0143?04
Abstract: When the support vector machine is used to monitor abnormal risks of the network big data platform, the modeling efficiency is low, which leads to high errors of abnormal risk monitoring results. Therefore, an abnormal risk monitoring system based on Hadoop is designed for the network big data platform. According to the operation principle of the cloud computing Hadoop system, the big data is classified and filtered by using the Map/Reduce distribution model. The shunting processing of big data traffic is conducted by using the SDN controller in the control module, so as to feed the network big data in classification back to the monitoring module. The monitoring module is used to monitor abnormal data risks by using the preprocessing terminal and storage terminal. The effective shunting supervision of big data is realized by using the preprocessing terminal. In system software, high?efficiency modeling of network big data is conducted by using the least squares support vector machine, so as to realize abnormality monitoring of network big data. The experimental results show that the designed system has the advantages of high monitoring efficiency, high stability and good performance.
Keywords: network big data; abnormal risk; monitoring system; control module; Hadoop; least squares support vector machine
網絡大數(shù)據(jù)是眼下社會經濟發(fā)展的主流,但是由于異常風險數(shù)據(jù)的存在,準確提取大數(shù)據(jù)受到阻礙 [1],因此出現(xiàn)網絡大數(shù)據(jù)平臺異常風險監(jiān)測系統(tǒng)。如何通過此系統(tǒng)實現(xiàn)異常風險的有效監(jiān)測[2],是當前監(jiān)測系統(tǒng)設計中的重中之重。傳統(tǒng)常用的網絡大數(shù)據(jù)平臺異常風險監(jiān)測系統(tǒng)通常采用神經網絡和支持向量機方法進行監(jiān)測,二者建模和監(jiān)測的方式是干擾網絡大數(shù)據(jù)平臺對異常風險監(jiān)測的關鍵因素,異常風險監(jiān)測的結果存在不穩(wěn)定性、局限性、效率低等缺陷[3]。
本文設計基于Hadoop的網絡大數(shù)據(jù)平臺異常風險監(jiān)測系統(tǒng)從硬件設計、軟件設計兩方面闡述對異常風險的監(jiān)測功能,并與WBT系統(tǒng)和網絡仿真技術系統(tǒng)進行監(jiān)測對比仿真實驗。實驗結果表明,本文設計的系統(tǒng)具有穩(wěn)定性好、效率高、誤差小的優(yōu)勢,為網絡大數(shù)據(jù)平臺的異常風險監(jiān)測提供了有效途徑,具有較高的實際應用價值。
1.1 Hadoop系統(tǒng)作業(yè)原理
網絡大數(shù)據(jù)本身具有體量巨大、類型繁多等特點,使用一臺計算機不能完成對數(shù)據(jù)進行分類篩選監(jiān)測等操作[4],因此產生云計算系統(tǒng)。本文系統(tǒng)是在Hadoop系統(tǒng)作業(yè)原理的基礎上進行設計,其通過Map/Reduce分布式模式對大數(shù)據(jù)進行操作[5]。Hadoop系統(tǒng)作業(yè)原理見圖1。
圖1中,把網絡大數(shù)據(jù)中的異常數(shù)據(jù)監(jiān)測任務細分為多種子任務,每種子任務分別使用一個節(jié)點,最后把結果上傳到數(shù)據(jù)庫管理節(jié)點,主管理節(jié)點把全部結果匯合到一起后,就是異常風險數(shù)據(jù)的監(jiān)測結果。
1.2 控制模塊設計
在基于Hadoop的網絡大數(shù)據(jù)平臺異常風險監(jiān)測系統(tǒng)中設計異常風險監(jiān)測控制模塊,可以使大數(shù)據(jù)可以流暢、安全、穩(wěn)定的輸送和使用[6]。SDN控制器是異常風險監(jiān)測控制模塊的主導控制設備。通過使用OPENFLIW技術[7]構建大數(shù)據(jù)傳輸途徑,大數(shù)據(jù)傳送數(shù)量得以限制,完成對網絡大數(shù)據(jù)的全部掌控,因此它是可以使網絡大數(shù)據(jù)實行隔離控制的控制器。網絡大數(shù)據(jù)異常風險監(jiān)測系統(tǒng)控制模塊控制原理圖如圖2所示。
圖2中網絡大數(shù)據(jù)平臺由計算端和控制端組成,通過接口1把二者連接在同一路徑,以此加強大數(shù)據(jù)的傳送具有連貫性和應用性。計算端將控制算法傳遞給SDN控制器,控制端和SDN控制器一起服務于網絡大數(shù)據(jù)平臺。把網絡大數(shù)據(jù)平臺加入和風險監(jiān)測相符的參數(shù),就是控制端對網絡大數(shù)據(jù)平臺的控制點。圖2中的接口2就是平臺特意作為控制端輸入網絡參數(shù)重置標準;但是SDN控制器對網絡大數(shù)據(jù)的控制就是參數(shù)重置后的大數(shù)據(jù)流量分流,把網絡大數(shù)據(jù)分類上傳到監(jiān)測模塊,使監(jiān)測模塊可以進行準確有效的異常數(shù)據(jù)風險監(jiān)測。
1.3 監(jiān)測模塊設計
本文系統(tǒng)通過監(jiān)測模塊對網絡大數(shù)據(jù)平臺中的異常數(shù)據(jù)風險進行監(jiān)測。監(jiān)測模塊由預處理端和存儲端構成[8],其中還設置了警電路和緩沖電路,提高了系統(tǒng)的穩(wěn)定性和用戶體驗,監(jiān)測模塊的結構圖見圖3。
通過圖3可知,在網絡大數(shù)據(jù)平臺監(jiān)測模塊中,異常報警、異常大數(shù)據(jù)監(jiān)測、異常大數(shù)據(jù)區(qū)域的構建和存儲是監(jiān)測模塊的工作核心。
2.1 最小二乘支持向量機
由于傳統(tǒng)網絡大數(shù)據(jù)平臺異常風險監(jiān)測時采用支持向量機進行分析,該方法存在建模時間長、效率低等缺陷[9]。本文系統(tǒng)采用最小二乘支持向量機進行網絡大數(shù)據(jù)平臺異常風險監(jiān)測時,對傳統(tǒng)方法進行改進的內容是:不等式約束變成等式約束;損失函數(shù)成為經驗函數(shù);二次規(guī)劃問題變成求解線性方程組問題。
2.2 網絡大數(shù)據(jù)平臺異常風險監(jiān)測模型
本文系統(tǒng)基于最小二乘支持向量機塑造網絡大數(shù)據(jù)平臺異常風險檢測模型,實現(xiàn)大數(shù)據(jù)異常風險檢測,其工作流程是:
1) 在實時收集網絡大數(shù)據(jù)的有關信息中采取網絡入侵時的數(shù)據(jù)當作異常風險監(jiān)測。
2) 在原始網絡數(shù)據(jù)異常風險監(jiān)測的數(shù)據(jù)中減少數(shù)據(jù)的范圍,提高最小二乘支持向量機的學習速度。
3) 把網絡大數(shù)據(jù)異常風險監(jiān)測樣本區(qū)分成多個子樣本集,并使用最小二乘支持向量機分別對各個子樣本集建模。
4) 在最小二乘支持向量機內設定好參數(shù)和訓練、測試的樣本。
5) 各個節(jié)點中,把訓練樣本輸入到最小二乘支持向量機里練習,建立闡述輸入和輸出之間映射關系的網絡大數(shù)據(jù)平臺異常風險監(jiān)測模型。
6) 把網絡大數(shù)據(jù)異常風險監(jiān)測結果反饋到管理節(jié)點,獲取訓練樣本異常監(jiān)測的最后結果。
7) 通過測試樣本對構建的網絡大數(shù)據(jù)異常風險監(jiān)測模型的性能實行測試研究[10],若監(jiān)測結果與實際應用不符,重新訓練,以此類推直到符合所求為止。
本文對本文系統(tǒng)與WBT系統(tǒng)和網絡仿真技術系統(tǒng)進行對比實驗,驗證本文系統(tǒng)對于網絡大數(shù)據(jù)平臺異常風險監(jiān)測的性能優(yōu)劣。在同一網絡大數(shù)據(jù)庫中實行異常風險數(shù)據(jù)監(jiān)測中,監(jiān)測到的異常風險數(shù)據(jù)量與其系統(tǒng)的監(jiān)測性能成正比,監(jiān)測性能的優(yōu)劣代表系統(tǒng)和數(shù)據(jù)庫的匹配度高低。實驗檢測獲取的三種系統(tǒng)監(jiān)測性能對比結果如圖4所示。
從圖4可以看出,WBT系統(tǒng)的監(jiān)測性能極差,應用性能低;網絡仿真技術系統(tǒng)在監(jiān)測時間為120 s前的監(jiān)測性能略優(yōu),而時間增多后,監(jiān)測的性能沒有相應提高,在實驗接近尾聲階段,監(jiān)測出的異常風險數(shù)據(jù)量沒有增多,說明性能有待優(yōu)化。相比之下,本文系統(tǒng)監(jiān)測出的異常風險數(shù)據(jù)量隨著時間的增多而增多,而且可以把網絡大數(shù)據(jù)庫中的異常風險數(shù)據(jù)全部監(jiān)測到,證明本文系統(tǒng)的性能高的優(yōu)勢。
實驗為檢測本文系統(tǒng)的運行效率,在不同工作進程數(shù)情況下對本文系統(tǒng)的元組吞吐量進行檢測。實驗確保分別向本文系統(tǒng)提交4組不同數(shù)量的數(shù)據(jù)任務,檢測不同數(shù)據(jù)量情況下,不同工作進程時本文系統(tǒng)元組吞吐量波動情況,結果如表1所示。實驗通過Storm rebalance命令對本文系統(tǒng)的工作進程數(shù)量進行調控。
分析表1能夠得出,當系統(tǒng)工作進程量逐漸提升,本文系統(tǒng)進行異常風險數(shù)據(jù)檢測的吞吐量逐漸提高,說明提高系統(tǒng)工作進程量可增強本文系統(tǒng)的并行操作性能。當本文系統(tǒng)監(jiān)測的數(shù)據(jù)量為150萬條時,如果工作進程數(shù)是3,則本文系統(tǒng)的吞吐量為0.83萬條/s,此時工作進程量提升到4,則本文系統(tǒng)的吞吐量增加到0.96萬條/s,如果工作進程數(shù)提高到6以及9,本文系統(tǒng)的吞吐量出現(xiàn)了大幅度提高趨勢,分別增加到1.04萬條/s以及1.08萬條/s,說明本文系統(tǒng)具有較高的并行操作性能,應用在網絡大數(shù)據(jù)平臺異常風險監(jiān)測過程中具有較高的優(yōu)勢。
針對本文系統(tǒng)監(jiān)測到的異常風險數(shù)據(jù)比其他兩個系統(tǒng)多,因此使用“監(jiān)測準確率”對監(jiān)測出的異常風險數(shù)據(jù)進行判別是否全部都是異常風險數(shù)據(jù)。從而驗證本文系統(tǒng)的準確率和穩(wěn)定性。實驗使用三種不同類型網絡大數(shù)據(jù)庫,通過本文系統(tǒng)分別實行異常風險數(shù)據(jù)監(jiān)測,結果見圖5。
分析圖5能夠得出,本文系統(tǒng)在三種不同數(shù)據(jù)庫中的異常風險數(shù)據(jù)監(jiān)測準確率一直保持在[90%,98%]區(qū)間中,浮動幅度小,驗證了本文系統(tǒng)的準確率和穩(wěn)定性。
本文設計基于Hadoop的網絡大數(shù)據(jù)平臺異常風險監(jiān)測系統(tǒng)是由控制模塊和監(jiān)測模塊構成??刂颇K通過SDN控制器提高數(shù)據(jù)的使用效率,監(jiān)測模塊通過對異常風險數(shù)據(jù)的監(jiān)測以及使用報警電路對異常風險數(shù)據(jù)進行處理后,形成異常大數(shù)據(jù)區(qū)域存儲到存儲器中。系統(tǒng)采用最小二乘支持向量機實現(xiàn)網絡大數(shù)據(jù)平臺異常風險監(jiān)測。
參考文獻
[1] 張科星.網絡大數(shù)據(jù)平臺中的特征數(shù)據(jù)分類系統(tǒng)設計與實現(xiàn)[J].現(xiàn)代電子技術,2017,40(8):25?28.
ZHANG Kexing. Design and implementation of feature data classification system in network big data platform [J]. Modern electronics technique, 2017, 40(8): 25?28.
[2] 任華,張玲,葉煜.數(shù)字化校園中用戶網絡行為大數(shù)據(jù)的分析與監(jiān)控[J].計算機與數(shù)字工程,2017,45(9):1814?1818.
REN Hua, ZHANG Ling, YE Yu. Analysis and monitoring of big data of user′s network behavior in digital campus [J]. Computer and digital engineering, 2017, 45(9): 1814?1818.
[3] 路鶴晴,張曉峰,李斌.基于物聯(lián)網的高危妊娠監(jiān)測預警網絡平臺的設計與應用[J].中國醫(yī)療器械雜志,2017,41(5):327?329.
LU Heqing, ZHANG Xiaofeng, LI bin. Design and application of high?risk pregnancy monitoring & warning Internet platform based on Internet of Things [J]. Chinese journal of medical instrumentation, 2017, 41(5): 327?329.
[4] 曾勝.重大危險源動態(tài)智能監(jiān)測監(jiān)控大數(shù)據(jù)平臺框架設計[J].中國安全科學學報,2014,24(11):166?171.
ZENG Sheng. Framework design of large data platform for monitoring and controlling major hazards dynamically and intelligently [J]. China safety science journal, 2014, 24(11): 166?171.
[5] 張成軍,劉超,郭強.大數(shù)據(jù)網絡環(huán)境下異常節(jié)點數(shù)據(jù)定位方法仿真[J].計算機仿真,2017,34(5):273?276.
ZHANG Chengjun, LIU Chao, GUO Qiang. Simulation of abnormal node data location in large data network environment [J]. Statistical research, Computer simulation, 2017, 34(5): 273?276.
[6] 唐曉彬,周志敏,董莉.大數(shù)據(jù)背景下網絡突發(fā)事件動態(tài)監(jiān)測研究[J].統(tǒng)計研究,2017,34(2):44?54.
TANG Xiaobin, ZHOU Zhimin, DONG Li. Research on monitoring Internet burst events dynamically from the big data perspective [J]. Statistical research, 2017, 34(2): 44?54.
[7] 張威,敖乃翔,王德勇,等.基于異常用電行為識別的社會治安風險預警方法[J].中國電子科學研究院學報,2016,11(6):594?598.
ZHANG Wei, AO Naixiang, WANG Deyong, et al. Public security risk preception based on anomaly detection of electrical behavior [J]. Journal of China Academy of Electronics and Information Technology, 2016, 11(6): 594?598.
[8] 胡為艷,艾民,周光彬,等.基于大數(shù)據(jù)的信令監(jiān)測系統(tǒng)的設計與實現(xiàn)[J].電視技術,2016,40(1):95?101.
HU Weiyan, AI Min, ZHOU Guangbin, et al. Design and implementation of big data based signaling monitoring system [J]. Video engineering, 2016, 40(1): 95?101.
[9] WANG S, LI Y, ZHAO X, et al. Intrusion detection system design of cloud computing based on abnormal traffic identification [J]. International journal of reasoning?based intelligent systems, 2015, 7(3): 186?192.
[10] XUE Y W, ZHANG P Z, FAN J. Design and realization of supervision platform of simulating capital abnormal flow in complex financial network [J]. Systems engineering?theory methodology application, 2005, 14(5): 449?453.