劉鋒,潘科
(重慶信息通信研究院,重慶,401336)
大數(shù)據(jù)作為一種通用技術(shù)應(yīng)用在各個行業(yè),為數(shù)據(jù)的管理和應(yīng)用提供重要的技術(shù)支撐,近年來,隨著工業(yè)互聯(lián)網(wǎng)的快速發(fā)展,相較于傳統(tǒng)的應(yīng)用型數(shù)據(jù),數(shù)據(jù)源范圍擴(kuò)大,數(shù)據(jù)邊界不在清晰,包括設(shè)備、系統(tǒng)、網(wǎng)絡(luò)、平臺等數(shù)據(jù),數(shù)據(jù)種類存在復(fù)雜的多樣性,且數(shù)據(jù)流動方向和路徑復(fù)雜,數(shù)據(jù)采集和數(shù)據(jù)集成難度也很大,本文從工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)通用架構(gòu)進(jìn)行概要解析。
工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用的整體架構(gòu)一般分為四個部分:采集后臺、數(shù)據(jù)中臺、應(yīng)用前臺以及運(yùn)維管理。
通常利用主動探測掃描、通信流量監(jiān)測、被動蜜罐誘捕以及信息系統(tǒng)數(shù)據(jù)對接等技術(shù)手段,實現(xiàn)數(shù)據(jù)采集的功能,采集數(shù)據(jù)源一般包括互聯(lián)網(wǎng)數(shù)據(jù),工業(yè)互聯(lián)網(wǎng)相關(guān)聯(lián)網(wǎng)資產(chǎn)、資產(chǎn)漏洞、安全事件、威脅情報、關(guān)鍵信息基礎(chǔ)設(shè)施數(shù)據(jù)等。
智能大數(shù)據(jù)分析與建模平臺,定位于降低數(shù)據(jù)洞察阻力、大數(shù)據(jù)使用門檻、數(shù)據(jù)交換成本、數(shù)據(jù)監(jiān)控難度以及提升數(shù)據(jù)洞察廣度、探索深度、交換速度和監(jiān)控精度,滿足各類數(shù)據(jù)的集成、計算、存儲、挖掘、管理等需求。
基于數(shù)據(jù)中臺提供的底層數(shù)據(jù),進(jìn)行數(shù)據(jù)分析,支撐基礎(chǔ)資源管理、網(wǎng)絡(luò)安全態(tài)勢感知、APP情報動態(tài)線索挖掘、工業(yè)互聯(lián)網(wǎng)安全等多個頂層應(yīng)用,一般可服務(wù)于多部門、多業(yè)務(wù)、多場景。
實現(xiàn)系統(tǒng)自身的運(yùn)維管理,一般包括系統(tǒng)管理、安全管理、智能監(jiān)控、告警處理等功能。
2.1.1 接入數(shù)據(jù)源分析
2.1.1.1 互聯(lián)網(wǎng)流量
通過部署流量探針的方式,接入基礎(chǔ)電信企業(yè)流量,主要是互聯(lián)網(wǎng)專線流量、特定對象的牽引流量等,生成包括通聯(lián)日志、報文樣本、域名日志、HTTP日志、惡意代碼日志等各類日志。
2.1.1.2 主動探測數(shù)據(jù)
通過公網(wǎng)部署掃描設(shè)備,實施安全掃描,主要針對重保用戶的網(wǎng)頁、應(yīng)用商店APP的爬取,以及基于IP段的關(guān)鍵信息基礎(chǔ)設(shè)施的掃描發(fā)現(xiàn)。
2.1.1.3 相關(guān)部門和企業(yè)已建系統(tǒng)數(shù)據(jù)
相關(guān)已建系統(tǒng)的數(shù)據(jù)主要包括:網(wǎng)安技術(shù)管理平臺、基礎(chǔ)監(jiān)測系統(tǒng)、信安系統(tǒng)、企業(yè)側(cè)安全監(jiān)測系統(tǒng)等。
2.1.2 數(shù)據(jù)采集
數(shù)據(jù)采集系統(tǒng)包括采集基礎(chǔ)電信企業(yè)流量,爬取互聯(lián)網(wǎng)網(wǎng)頁/APP內(nèi)容,被動誘捕網(wǎng)絡(luò)攻擊行為,主動掃描獲取關(guān)基數(shù)據(jù)、重保網(wǎng)站的數(shù)據(jù)、以及現(xiàn)有系統(tǒng)的數(shù)據(jù)資源共享,對“主動+被動”方式獲取的數(shù)據(jù)進(jìn)行解析,提取各類用以支撐網(wǎng)絡(luò)安全監(jiān)測分析業(yè)務(wù)的數(shù)據(jù)。
2.1.2.1 互聯(lián)網(wǎng)流量采集
在關(guān)鍵網(wǎng)絡(luò)節(jié)點部署流量采集探針,負(fù)責(zé)網(wǎng)絡(luò)原始流量的采集,提取各類用以支撐網(wǎng)絡(luò)與信息安全監(jiān)測分析業(yè)務(wù)的數(shù)據(jù)。輸出的日志一般包括通聯(lián)日志、報文樣本、域名日志、HTTP日志和惡意代碼日志。
通過相應(yīng)匯聚分流設(shè)備進(jìn)行流量的同源同宿、負(fù)載均衡處理,輸出至網(wǎng)絡(luò)流量探針專用設(shè)備。通過流量探針專用設(shè)備實現(xiàn)互聯(lián)網(wǎng)流量采集、協(xié)議解析和訪問日志提取,將輸出的日志存入數(shù)據(jù)中臺支撐上層業(yè)務(wù)應(yīng)用分析。
2.1.2.2 互聯(lián)網(wǎng)內(nèi)容爬取
網(wǎng)絡(luò)爬蟲主要實現(xiàn)對網(wǎng)頁內(nèi)容以及APP內(nèi)容的爬取下載,供上層應(yīng)用進(jìn)行分析。
(1)網(wǎng)頁爬蟲:互聯(lián)網(wǎng)用戶訪問的網(wǎng)頁浩如煙海、數(shù)量龐大,傳統(tǒng)的互聯(lián)網(wǎng)爬蟲技術(shù)已經(jīng)不能滿足當(dāng)前網(wǎng)頁信息獲取的準(zhǔn)確性、全面性、及時性的要求,因此,可以采用并行爬蟲技術(shù)和IP池代理技術(shù),讓爬蟲的質(zhì)量、覆蓋率、爬取效率等性能得到全面的提升。
(2)APP爬蟲:通過積累大量的互聯(lián)網(wǎng)詐騙網(wǎng)站,使用蜘蛛爬蟲技術(shù)和ip池代理技術(shù),24小時不間斷的對網(wǎng)絡(luò)中的互聯(lián)網(wǎng)詐騙網(wǎng)站進(jìn)行爬取。
2.1.2.3 關(guān)鍵信息基礎(chǔ)設(shè)施數(shù)據(jù)采集
一般采用網(wǎng)絡(luò)資產(chǎn)探測識別設(shè)備進(jìn)行主動掃描采集數(shù)據(jù),同時結(jié)合網(wǎng)絡(luò)流量被動分析,形成一套完整的網(wǎng)絡(luò)資產(chǎn)及其指紋庫信息,指紋信息包含系統(tǒng)指紋、應(yīng)用指紋、網(wǎng)站指紋等,從而可以對網(wǎng)站、域名、IP等基礎(chǔ)資源數(shù)據(jù)形成本地的互聯(lián)網(wǎng)信息庫,為網(wǎng)絡(luò)安全漏洞分析、安全漏洞預(yù)警等提供有效數(shù)據(jù)支撐。
2.2.1 數(shù)據(jù)集成
數(shù)據(jù)集成支持?jǐn)?shù)據(jù)采集、過濾、緩存、中轉(zhuǎn)分發(fā)調(diào)度等,是內(nèi)外數(shù)據(jù)交換的通道,完成數(shù)據(jù)在組件間及層次間中轉(zhuǎn)、緩沖及調(diào)度。一般會采用數(shù)據(jù)集成ETL模塊,包括數(shù)據(jù)采集模塊、數(shù)據(jù)清洗和轉(zhuǎn)換模塊,其中數(shù)據(jù)采集模塊一般包括批量結(jié)構(gòu)化數(shù)據(jù)采集、半結(jié)構(gòu)化數(shù)據(jù)采集、非結(jié)構(gòu)化數(shù)據(jù)采集;數(shù)據(jù)清洗與轉(zhuǎn)換模塊一般也包括結(jié)構(gòu)化數(shù)據(jù)清洗與轉(zhuǎn)換、半結(jié)構(gòu)化數(shù)據(jù)清洗與轉(zhuǎn)換、非結(jié)構(gòu)化數(shù)據(jù)清洗與轉(zhuǎn)換三個模板。
2.2.2 數(shù)據(jù)計算
2.2.2.1 流式計算
一般具備流計算能力,可基于flink集群,支持讀取kafka、socket、hdfs的數(shù)據(jù)源里的數(shù)據(jù),通過配置stdp、字段定義解析器,將數(shù)據(jù)通過輸出統(tǒng)計組件、統(tǒng)計監(jiān)控組件、窗口、水印設(shè)置,最終輸出規(guī)則配置,統(tǒng)計結(jié)果輸出。
2.2.2.2 實時計算
實時計算模塊一般可提供了高吞吐、低延遲、高性能的流處理能力。
2.2.2.3 離線計算
大數(shù)據(jù)離線計算,就是利用大數(shù)據(jù)的技術(shù)棧(主要是Hadoop),在計算開始前準(zhǔn)備好所有輸入數(shù)據(jù),該輸入數(shù)據(jù)不會產(chǎn)生變化,且在解決一個問題后就要立即得到計算結(jié)果的計算模式。離線計算特點如下:
(1)數(shù)據(jù)量巨大,保存時間長。
(2)在大量數(shù)據(jù)上進(jìn)行復(fù)雜的批量運(yùn)算。
(3)數(shù)據(jù)在計算之前已經(jīng)完全到位,不會發(fā)生變化。
2.2.3 數(shù)據(jù)存儲
大數(shù)據(jù)平臺的數(shù)據(jù)存儲,一般包括結(jié)構(gòu)化數(shù)據(jù)存儲模塊、NOSQL數(shù)據(jù)存儲模塊、非結(jié)構(gòu)化數(shù)據(jù)存儲模塊以及圖數(shù)據(jù)存儲模塊。數(shù)據(jù)存儲是大規(guī)模通用集群存儲系統(tǒng),對外支持標(biāo)準(zhǔn)文件訪問接口。數(shù)據(jù)存儲層采用MPP分布式列式數(shù)據(jù)庫系統(tǒng)、分布式集群存儲系統(tǒng)、Hadoop系統(tǒng)、分布式數(shù)據(jù)倉庫和分布式圖關(guān)系數(shù)據(jù)庫系統(tǒng)。用于存儲結(jié)構(gòu)化數(shù)據(jù)、NOSQL數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及圖數(shù)據(jù)的存儲與訪問。
2.2.4 數(shù)據(jù)挖掘
2.2.4.1 IDE引擎
通過可視化界面,進(jìn)行創(chuàng)建、管理、編輯腳本,使用人員可在界面上對數(shù)據(jù)進(jìn)行操作,系統(tǒng)通過調(diào)用不同的IDE引擎下發(fā)相應(yīng)的指令,操作對應(yīng)的數(shù)據(jù)服務(wù)組件,返回相應(yīng)的數(shù)據(jù)結(jié)果。
2.2.4.2 數(shù)據(jù)探索
數(shù)據(jù)探索是在具有較為良好的樣本后,對樣本數(shù)據(jù)進(jìn)行解釋性的分析工作,它是數(shù)據(jù)挖掘較為前期的部分。數(shù)據(jù)探索并不需要應(yīng)用過多的模型算法,相反,它更偏重于定義數(shù)據(jù)的本質(zhì)、描述數(shù)據(jù)的形態(tài)特征并解釋數(shù)據(jù)的相關(guān)性。通過數(shù)據(jù)探索的結(jié)果,可以更好的開展后續(xù)的數(shù)據(jù)挖掘與數(shù)據(jù)建模工作。
2.2.5 數(shù)據(jù)管理
2.2.5.1 數(shù)據(jù)共享
通過固定接口(如webservice接口、FTP傳輸、數(shù)據(jù)庫以及組件,封裝后的API接口等),將數(shù)據(jù)共享到各應(yīng)用平臺進(jìn)行應(yīng)用。提供統(tǒng)一應(yīng)用接口進(jìn)行數(shù)據(jù)共享,相關(guān)接口主要包括數(shù)據(jù)接入適配、流處理接口適配、數(shù)據(jù)查詢接口適配、數(shù)據(jù)分析接口適配、用戶管理接口適配、系統(tǒng)對外開發(fā)接口等。
2.2.5.2 數(shù)據(jù)資產(chǎn)
數(shù)據(jù)資產(chǎn)主要涉及到各類數(shù)據(jù)源采集的數(shù)據(jù),包括:威脅情報庫、漏洞庫、病毒庫、nv-彄、僵木蠕特征庫;基礎(chǔ)信息庫、企業(yè)庫、IP庫、域名庫
2.2.5.3 數(shù)據(jù)安全
通過數(shù)據(jù)訪問策略制定,數(shù)據(jù)加密脫敏,日志審計等方式,保障數(shù)據(jù)數(shù)據(jù)安全,確保經(jīng)過傳輸和交換的數(shù)據(jù)不會發(fā)生增加、修改、丟失和泄露。
2.3.1 數(shù)據(jù)分析
在企業(yè)的數(shù)據(jù)分析項目中,數(shù)據(jù)駕駛艙是系統(tǒng)搭建的一個重要過程。通過數(shù)據(jù)駕駛艙,可以將采集的數(shù)據(jù)形象化、直觀化、具體化,為企業(yè)業(yè)務(wù)的相關(guān)決策提供支撐。數(shù)據(jù)駕駛艙提供的是一個管理過程,讓數(shù)據(jù)能夠以更加有組織的方式來進(jìn)行體現(xiàn)。
2.3.2 業(yè)務(wù)應(yīng)用
基于數(shù)據(jù)中臺以及應(yīng)用前臺的數(shù)據(jù)分析能力,可支撐包括基礎(chǔ)資源管理、網(wǎng)絡(luò)安全態(tài)勢感知、APP情報動態(tài)線索挖掘、工業(yè)互聯(lián)網(wǎng)安、物聯(lián)網(wǎng)安全等常見應(yīng)用場景在內(nèi)的各種業(yè)務(wù)、應(yīng)用場景。
2.4.1 系統(tǒng)管理
針對系統(tǒng)進(jìn)行統(tǒng)一的用戶管理、角色管理、權(quán)限管理、日志管理和資源管理等功能,能夠統(tǒng)一管理分布在不同網(wǎng)絡(luò)和地域的多個數(shù)據(jù)中心集群,封裝各類數(shù)據(jù)存儲和處理引擎的功能,為不同地域和網(wǎng)絡(luò)的數(shù)據(jù)中心系統(tǒng)提供統(tǒng)一的邏輯視圖,為系統(tǒng)的管理員和用戶提供一站式服務(wù)。
2.4.2 安全管理
借助于防火墻、防病毒等安全產(chǎn)品,平臺實現(xiàn)安全機(jī)制:認(rèn)證機(jī)制、授權(quán)機(jī)制、訪問控制、機(jī)密性和完整性。
2.4.3 智能監(jiān)控
通過通用的數(shù)據(jù)采集模板和和終端采集程序匯集數(shù)據(jù),通過強(qiáng)大的ETL能力將數(shù)據(jù)遷移到監(jiān)控,實現(xiàn)監(jiān)控數(shù)據(jù)的集中分析和展示。
2.4.4 告警處理
一般大數(shù)據(jù)平臺具備告警處理功能,對平臺的運(yùn)行狀態(tài)進(jìn)行全面監(jiān)測,提供運(yùn)行異常及時發(fā)現(xiàn)和告警,系統(tǒng)部分故障的準(zhǔn)確定位;同時,實現(xiàn)基礎(chǔ)資源的統(tǒng)一化管理,為管理人員的維護(hù)決策提供重要支撐。
目前各類大數(shù)據(jù)平臺均是基于大數(shù)據(jù)分析核心擴(kuò)展出各類組件,國內(nèi)外的應(yīng)用技術(shù)已經(jīng)成熟。大數(shù)據(jù)脫離了對數(shù)據(jù)的治理和應(yīng)用就失去了數(shù)據(jù)的靈魂,根據(jù)行業(yè)領(lǐng)域不同,大數(shù)據(jù)平臺所做的數(shù)據(jù)治理、標(biāo)準(zhǔn)化、數(shù)據(jù)管理和其他所需功能和展現(xiàn)的形式,將會存在較大不同。