• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用通用架構(gòu)解析

    2022-01-22 07:21:34劉鋒潘科
    電子測試 2021年21期
    關(guān)鍵詞:爬蟲日志結(jié)構(gòu)化

    劉鋒,潘科

    (重慶信息通信研究院,重慶,401336)

    0 引言

    大數(shù)據(jù)作為一種通用技術(shù)應(yīng)用在各個行業(yè),為數(shù)據(jù)的管理和應(yīng)用提供重要的技術(shù)支撐,近年來,隨著工業(yè)互聯(lián)網(wǎng)的快速發(fā)展,相較于傳統(tǒng)的應(yīng)用型數(shù)據(jù),數(shù)據(jù)源范圍擴(kuò)大,數(shù)據(jù)邊界不在清晰,包括設(shè)備、系統(tǒng)、網(wǎng)絡(luò)、平臺等數(shù)據(jù),數(shù)據(jù)種類存在復(fù)雜的多樣性,且數(shù)據(jù)流動方向和路徑復(fù)雜,數(shù)據(jù)采集和數(shù)據(jù)集成難度也很大,本文從工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)通用架構(gòu)進(jìn)行概要解析。

    1 大數(shù)據(jù)平臺概述

    工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用的整體架構(gòu)一般分為四個部分:采集后臺、數(shù)據(jù)中臺、應(yīng)用前臺以及運(yùn)維管理。

    1.1 采集后臺

    通常利用主動探測掃描、通信流量監(jiān)測、被動蜜罐誘捕以及信息系統(tǒng)數(shù)據(jù)對接等技術(shù)手段,實現(xiàn)數(shù)據(jù)采集的功能,采集數(shù)據(jù)源一般包括互聯(lián)網(wǎng)數(shù)據(jù),工業(yè)互聯(lián)網(wǎng)相關(guān)聯(lián)網(wǎng)資產(chǎn)、資產(chǎn)漏洞、安全事件、威脅情報、關(guān)鍵信息基礎(chǔ)設(shè)施數(shù)據(jù)等。

    1.2 數(shù)據(jù)中臺

    智能大數(shù)據(jù)分析與建模平臺,定位于降低數(shù)據(jù)洞察阻力、大數(shù)據(jù)使用門檻、數(shù)據(jù)交換成本、數(shù)據(jù)監(jiān)控難度以及提升數(shù)據(jù)洞察廣度、探索深度、交換速度和監(jiān)控精度,滿足各類數(shù)據(jù)的集成、計算、存儲、挖掘、管理等需求。

    1.3 應(yīng)用前臺

    基于數(shù)據(jù)中臺提供的底層數(shù)據(jù),進(jìn)行數(shù)據(jù)分析,支撐基礎(chǔ)資源管理、網(wǎng)絡(luò)安全態(tài)勢感知、APP情報動態(tài)線索挖掘、工業(yè)互聯(lián)網(wǎng)安全等多個頂層應(yīng)用,一般可服務(wù)于多部門、多業(yè)務(wù)、多場景。

    1.4 運(yùn)維管理

    實現(xiàn)系統(tǒng)自身的運(yùn)維管理,一般包括系統(tǒng)管理、安全管理、智能監(jiān)控、告警處理等功能。

    2 大數(shù)據(jù)平臺功能

    2.1 采集后臺

    2.1.1 接入數(shù)據(jù)源分析

    2.1.1.1 互聯(lián)網(wǎng)流量

    通過部署流量探針的方式,接入基礎(chǔ)電信企業(yè)流量,主要是互聯(lián)網(wǎng)專線流量、特定對象的牽引流量等,生成包括通聯(lián)日志、報文樣本、域名日志、HTTP日志、惡意代碼日志等各類日志。

    2.1.1.2 主動探測數(shù)據(jù)

    通過公網(wǎng)部署掃描設(shè)備,實施安全掃描,主要針對重保用戶的網(wǎng)頁、應(yīng)用商店APP的爬取,以及基于IP段的關(guān)鍵信息基礎(chǔ)設(shè)施的掃描發(fā)現(xiàn)。

    2.1.1.3 相關(guān)部門和企業(yè)已建系統(tǒng)數(shù)據(jù)

    相關(guān)已建系統(tǒng)的數(shù)據(jù)主要包括:網(wǎng)安技術(shù)管理平臺、基礎(chǔ)監(jiān)測系統(tǒng)、信安系統(tǒng)、企業(yè)側(cè)安全監(jiān)測系統(tǒng)等。

    2.1.2 數(shù)據(jù)采集

    數(shù)據(jù)采集系統(tǒng)包括采集基礎(chǔ)電信企業(yè)流量,爬取互聯(lián)網(wǎng)網(wǎng)頁/APP內(nèi)容,被動誘捕網(wǎng)絡(luò)攻擊行為,主動掃描獲取關(guān)基數(shù)據(jù)、重保網(wǎng)站的數(shù)據(jù)、以及現(xiàn)有系統(tǒng)的數(shù)據(jù)資源共享,對“主動+被動”方式獲取的數(shù)據(jù)進(jìn)行解析,提取各類用以支撐網(wǎng)絡(luò)安全監(jiān)測分析業(yè)務(wù)的數(shù)據(jù)。

    2.1.2.1 互聯(lián)網(wǎng)流量采集

    在關(guān)鍵網(wǎng)絡(luò)節(jié)點部署流量采集探針,負(fù)責(zé)網(wǎng)絡(luò)原始流量的采集,提取各類用以支撐網(wǎng)絡(luò)與信息安全監(jiān)測分析業(yè)務(wù)的數(shù)據(jù)。輸出的日志一般包括通聯(lián)日志、報文樣本、域名日志、HTTP日志和惡意代碼日志。

    通過相應(yīng)匯聚分流設(shè)備進(jìn)行流量的同源同宿、負(fù)載均衡處理,輸出至網(wǎng)絡(luò)流量探針專用設(shè)備。通過流量探針專用設(shè)備實現(xiàn)互聯(lián)網(wǎng)流量采集、協(xié)議解析和訪問日志提取,將輸出的日志存入數(shù)據(jù)中臺支撐上層業(yè)務(wù)應(yīng)用分析。

    2.1.2.2 互聯(lián)網(wǎng)內(nèi)容爬取

    網(wǎng)絡(luò)爬蟲主要實現(xiàn)對網(wǎng)頁內(nèi)容以及APP內(nèi)容的爬取下載,供上層應(yīng)用進(jìn)行分析。

    (1)網(wǎng)頁爬蟲:互聯(lián)網(wǎng)用戶訪問的網(wǎng)頁浩如煙海、數(shù)量龐大,傳統(tǒng)的互聯(lián)網(wǎng)爬蟲技術(shù)已經(jīng)不能滿足當(dāng)前網(wǎng)頁信息獲取的準(zhǔn)確性、全面性、及時性的要求,因此,可以采用并行爬蟲技術(shù)和IP池代理技術(shù),讓爬蟲的質(zhì)量、覆蓋率、爬取效率等性能得到全面的提升。

    (2)APP爬蟲:通過積累大量的互聯(lián)網(wǎng)詐騙網(wǎng)站,使用蜘蛛爬蟲技術(shù)和ip池代理技術(shù),24小時不間斷的對網(wǎng)絡(luò)中的互聯(lián)網(wǎng)詐騙網(wǎng)站進(jìn)行爬取。

    2.1.2.3 關(guān)鍵信息基礎(chǔ)設(shè)施數(shù)據(jù)采集

    一般采用網(wǎng)絡(luò)資產(chǎn)探測識別設(shè)備進(jìn)行主動掃描采集數(shù)據(jù),同時結(jié)合網(wǎng)絡(luò)流量被動分析,形成一套完整的網(wǎng)絡(luò)資產(chǎn)及其指紋庫信息,指紋信息包含系統(tǒng)指紋、應(yīng)用指紋、網(wǎng)站指紋等,從而可以對網(wǎng)站、域名、IP等基礎(chǔ)資源數(shù)據(jù)形成本地的互聯(lián)網(wǎng)信息庫,為網(wǎng)絡(luò)安全漏洞分析、安全漏洞預(yù)警等提供有效數(shù)據(jù)支撐。

    2.2 數(shù)據(jù)中臺

    2.2.1 數(shù)據(jù)集成

    數(shù)據(jù)集成支持?jǐn)?shù)據(jù)采集、過濾、緩存、中轉(zhuǎn)分發(fā)調(diào)度等,是內(nèi)外數(shù)據(jù)交換的通道,完成數(shù)據(jù)在組件間及層次間中轉(zhuǎn)、緩沖及調(diào)度。一般會采用數(shù)據(jù)集成ETL模塊,包括數(shù)據(jù)采集模塊、數(shù)據(jù)清洗和轉(zhuǎn)換模塊,其中數(shù)據(jù)采集模塊一般包括批量結(jié)構(gòu)化數(shù)據(jù)采集、半結(jié)構(gòu)化數(shù)據(jù)采集、非結(jié)構(gòu)化數(shù)據(jù)采集;數(shù)據(jù)清洗與轉(zhuǎn)換模塊一般也包括結(jié)構(gòu)化數(shù)據(jù)清洗與轉(zhuǎn)換、半結(jié)構(gòu)化數(shù)據(jù)清洗與轉(zhuǎn)換、非結(jié)構(gòu)化數(shù)據(jù)清洗與轉(zhuǎn)換三個模板。

    2.2.2 數(shù)據(jù)計算

    2.2.2.1 流式計算

    一般具備流計算能力,可基于flink集群,支持讀取kafka、socket、hdfs的數(shù)據(jù)源里的數(shù)據(jù),通過配置stdp、字段定義解析器,將數(shù)據(jù)通過輸出統(tǒng)計組件、統(tǒng)計監(jiān)控組件、窗口、水印設(shè)置,最終輸出規(guī)則配置,統(tǒng)計結(jié)果輸出。

    2.2.2.2 實時計算

    實時計算模塊一般可提供了高吞吐、低延遲、高性能的流處理能力。

    2.2.2.3 離線計算

    大數(shù)據(jù)離線計算,就是利用大數(shù)據(jù)的技術(shù)棧(主要是Hadoop),在計算開始前準(zhǔn)備好所有輸入數(shù)據(jù),該輸入數(shù)據(jù)不會產(chǎn)生變化,且在解決一個問題后就要立即得到計算結(jié)果的計算模式。離線計算特點如下:

    (1)數(shù)據(jù)量巨大,保存時間長。

    (2)在大量數(shù)據(jù)上進(jìn)行復(fù)雜的批量運(yùn)算。

    (3)數(shù)據(jù)在計算之前已經(jīng)完全到位,不會發(fā)生變化。

    2.2.3 數(shù)據(jù)存儲

    大數(shù)據(jù)平臺的數(shù)據(jù)存儲,一般包括結(jié)構(gòu)化數(shù)據(jù)存儲模塊、NOSQL數(shù)據(jù)存儲模塊、非結(jié)構(gòu)化數(shù)據(jù)存儲模塊以及圖數(shù)據(jù)存儲模塊。數(shù)據(jù)存儲是大規(guī)模通用集群存儲系統(tǒng),對外支持標(biāo)準(zhǔn)文件訪問接口。數(shù)據(jù)存儲層采用MPP分布式列式數(shù)據(jù)庫系統(tǒng)、分布式集群存儲系統(tǒng)、Hadoop系統(tǒng)、分布式數(shù)據(jù)倉庫和分布式圖關(guān)系數(shù)據(jù)庫系統(tǒng)。用于存儲結(jié)構(gòu)化數(shù)據(jù)、NOSQL數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及圖數(shù)據(jù)的存儲與訪問。

    2.2.4 數(shù)據(jù)挖掘

    2.2.4.1 IDE引擎

    通過可視化界面,進(jìn)行創(chuàng)建、管理、編輯腳本,使用人員可在界面上對數(shù)據(jù)進(jìn)行操作,系統(tǒng)通過調(diào)用不同的IDE引擎下發(fā)相應(yīng)的指令,操作對應(yīng)的數(shù)據(jù)服務(wù)組件,返回相應(yīng)的數(shù)據(jù)結(jié)果。

    2.2.4.2 數(shù)據(jù)探索

    數(shù)據(jù)探索是在具有較為良好的樣本后,對樣本數(shù)據(jù)進(jìn)行解釋性的分析工作,它是數(shù)據(jù)挖掘較為前期的部分。數(shù)據(jù)探索并不需要應(yīng)用過多的模型算法,相反,它更偏重于定義數(shù)據(jù)的本質(zhì)、描述數(shù)據(jù)的形態(tài)特征并解釋數(shù)據(jù)的相關(guān)性。通過數(shù)據(jù)探索的結(jié)果,可以更好的開展后續(xù)的數(shù)據(jù)挖掘與數(shù)據(jù)建模工作。

    2.2.5 數(shù)據(jù)管理

    2.2.5.1 數(shù)據(jù)共享

    通過固定接口(如webservice接口、FTP傳輸、數(shù)據(jù)庫以及組件,封裝后的API接口等),將數(shù)據(jù)共享到各應(yīng)用平臺進(jìn)行應(yīng)用。提供統(tǒng)一應(yīng)用接口進(jìn)行數(shù)據(jù)共享,相關(guān)接口主要包括數(shù)據(jù)接入適配、流處理接口適配、數(shù)據(jù)查詢接口適配、數(shù)據(jù)分析接口適配、用戶管理接口適配、系統(tǒng)對外開發(fā)接口等。

    2.2.5.2 數(shù)據(jù)資產(chǎn)

    數(shù)據(jù)資產(chǎn)主要涉及到各類數(shù)據(jù)源采集的數(shù)據(jù),包括:威脅情報庫、漏洞庫、病毒庫、nv-彄、僵木蠕特征庫;基礎(chǔ)信息庫、企業(yè)庫、IP庫、域名庫

    2.2.5.3 數(shù)據(jù)安全

    通過數(shù)據(jù)訪問策略制定,數(shù)據(jù)加密脫敏,日志審計等方式,保障數(shù)據(jù)數(shù)據(jù)安全,確保經(jīng)過傳輸和交換的數(shù)據(jù)不會發(fā)生增加、修改、丟失和泄露。

    2.3 應(yīng)用前臺

    2.3.1 數(shù)據(jù)分析

    在企業(yè)的數(shù)據(jù)分析項目中,數(shù)據(jù)駕駛艙是系統(tǒng)搭建的一個重要過程。通過數(shù)據(jù)駕駛艙,可以將采集的數(shù)據(jù)形象化、直觀化、具體化,為企業(yè)業(yè)務(wù)的相關(guān)決策提供支撐。數(shù)據(jù)駕駛艙提供的是一個管理過程,讓數(shù)據(jù)能夠以更加有組織的方式來進(jìn)行體現(xiàn)。

    2.3.2 業(yè)務(wù)應(yīng)用

    基于數(shù)據(jù)中臺以及應(yīng)用前臺的數(shù)據(jù)分析能力,可支撐包括基礎(chǔ)資源管理、網(wǎng)絡(luò)安全態(tài)勢感知、APP情報動態(tài)線索挖掘、工業(yè)互聯(lián)網(wǎng)安、物聯(lián)網(wǎng)安全等常見應(yīng)用場景在內(nèi)的各種業(yè)務(wù)、應(yīng)用場景。

    2.4 運(yùn)維管理

    2.4.1 系統(tǒng)管理

    針對系統(tǒng)進(jìn)行統(tǒng)一的用戶管理、角色管理、權(quán)限管理、日志管理和資源管理等功能,能夠統(tǒng)一管理分布在不同網(wǎng)絡(luò)和地域的多個數(shù)據(jù)中心集群,封裝各類數(shù)據(jù)存儲和處理引擎的功能,為不同地域和網(wǎng)絡(luò)的數(shù)據(jù)中心系統(tǒng)提供統(tǒng)一的邏輯視圖,為系統(tǒng)的管理員和用戶提供一站式服務(wù)。

    2.4.2 安全管理

    借助于防火墻、防病毒等安全產(chǎn)品,平臺實現(xiàn)安全機(jī)制:認(rèn)證機(jī)制、授權(quán)機(jī)制、訪問控制、機(jī)密性和完整性。

    2.4.3 智能監(jiān)控

    通過通用的數(shù)據(jù)采集模板和和終端采集程序匯集數(shù)據(jù),通過強(qiáng)大的ETL能力將數(shù)據(jù)遷移到監(jiān)控,實現(xiàn)監(jiān)控數(shù)據(jù)的集中分析和展示。

    2.4.4 告警處理

    一般大數(shù)據(jù)平臺具備告警處理功能,對平臺的運(yùn)行狀態(tài)進(jìn)行全面監(jiān)測,提供運(yùn)行異常及時發(fā)現(xiàn)和告警,系統(tǒng)部分故障的準(zhǔn)確定位;同時,實現(xiàn)基礎(chǔ)資源的統(tǒng)一化管理,為管理人員的維護(hù)決策提供重要支撐。

    3 結(jié)束語

    目前各類大數(shù)據(jù)平臺均是基于大數(shù)據(jù)分析核心擴(kuò)展出各類組件,國內(nèi)外的應(yīng)用技術(shù)已經(jīng)成熟。大數(shù)據(jù)脫離了對數(shù)據(jù)的治理和應(yīng)用就失去了數(shù)據(jù)的靈魂,根據(jù)行業(yè)領(lǐng)域不同,大數(shù)據(jù)平臺所做的數(shù)據(jù)治理、標(biāo)準(zhǔn)化、數(shù)據(jù)管理和其他所需功能和展現(xiàn)的形式,將會存在較大不同。

    猜你喜歡
    爬蟲日志結(jié)構(gòu)化
    利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
    一名老黨員的工作日志
    華人時刊(2021年13期)2021-11-27 09:19:02
    基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
    促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
    扶貧日志
    心聲歌刊(2020年4期)2020-09-07 06:37:14
    結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
    利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
    電子測試(2018年1期)2018-04-18 11:53:04
    游學(xué)日志
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
    電子制作(2017年9期)2017-04-17 03:00:46
    基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
    台中县| 休宁县| 临武县| 巴青县| 获嘉县| 三穗县| 思茅市| 嘉义市| 昌图县| 屏东县| 炉霍县| 顺平县| 孟连| 金坛市| 八宿县| 襄城县| 定州市| 江都市| 祁阳县| 霸州市| 牟定县| 金华市| 白山市| 辉南县| 龙口市| 贡觉县| 凤台县| 疏勒县| 溆浦县| 辰溪县| 呼和浩特市| 北安市| 托克托县| 红安县| 富宁县| 台江县| 新密市| 年辖:市辖区| 比如县| 瑞安市| 武功县|