劉博
摘要:本文主要對(duì)聯(lián)通大數(shù)據(jù)平臺(tái)的概述、系統(tǒng)架構(gòu)、系統(tǒng)功能以及河北省大數(shù)據(jù)的現(xiàn)狀進(jìn)行了介紹。
關(guān)鍵詞:大數(shù)據(jù)、互聯(lián)網(wǎng)、采集、分析、處理;
河北聯(lián)通是河北省最大的互聯(lián)網(wǎng)接入提供商,任何個(gè)人、企業(yè)的上網(wǎng)的行為都以數(shù)據(jù)的形式流淌在河北聯(lián)通的網(wǎng)絡(luò)里,網(wǎng)絡(luò)覆蓋的廣、接入方式豐富是河北聯(lián)通得天獨(dú)厚的優(yōu)勢(shì)。
運(yùn)營(yíng)商大數(shù)據(jù)的全面性、多維性、中立性、完整性是其它企業(yè)很難比擬的,而且通過(guò)這些不同維度數(shù)據(jù)的交叉關(guān)聯(lián),可以創(chuàng)造更多的新數(shù)據(jù)和新價(jià)值。
一、系統(tǒng)概述
依據(jù)河北省業(yè)務(wù)發(fā)展需求及河北聯(lián)通集成公司集成公司IT系統(tǒng)的實(shí)際情況,本期工程建設(shè)為新建河北聯(lián)通集成公司數(shù)據(jù)開(kāi)放平臺(tái),初步完成大數(shù)據(jù)支撐平臺(tái)搭建,具備對(duì)各類數(shù)據(jù)源的采集、分析、處理能力;具備數(shù)據(jù)聚合和數(shù)據(jù)標(biāo)準(zhǔn)化能力,具備數(shù)據(jù)服務(wù)和數(shù)據(jù)管控能力,增強(qiáng)對(duì)外服務(wù)及支撐水平。
二、系統(tǒng)功能
本次系統(tǒng)平臺(tái)分采集層、基礎(chǔ)平臺(tái)層、服務(wù)層、應(yīng)用層、系統(tǒng)管控功能五層功能架構(gòu),同時(shí)包括系統(tǒng)所需的全部系統(tǒng)軟件、功能組件。
采集層:主要采集同步河北聯(lián)通信息化部的大數(shù)據(jù)平臺(tái)數(shù)據(jù)和外部合作數(shù)據(jù)。
數(shù)據(jù)基礎(chǔ)層:構(gòu)建分層分域的數(shù)據(jù)存儲(chǔ)及運(yùn)算體系,實(shí)現(xiàn)對(duì)海量的結(jié)構(gòu)化、非結(jié)構(gòu)化、流數(shù)據(jù)的加工和存儲(chǔ)。
數(shù)據(jù)開(kāi)放層:將系統(tǒng)加工存儲(chǔ)的數(shù)據(jù)通過(guò)API、租戶等方式向各類應(yīng)用進(jìn)行能力開(kāi)放,實(shí)現(xiàn)對(duì)應(yīng)用和業(yè)務(wù)的統(tǒng)一支撐和管理。提供各類可視化報(bào)表加工、模型開(kāi)發(fā)工具。
應(yīng)用層:本期項(xiàng)目重點(diǎn)支撐對(duì)金融和公安行業(yè),為外腦合作、外部應(yīng)用以租戶的方式實(shí)現(xiàn)資源共享。
管控功能:實(shí)現(xiàn)系統(tǒng)元數(shù)據(jù)、ETL、數(shù)據(jù)質(zhì)量、生命周期、數(shù)據(jù)安全、數(shù)據(jù)資產(chǎn)的管理功能。
三、系統(tǒng)架構(gòu)
3.1 數(shù)據(jù)基礎(chǔ)層
大數(shù)據(jù)基礎(chǔ)平臺(tái)是穩(wěn)定、可靠的企業(yè)級(jí)大數(shù)據(jù)基礎(chǔ)平臺(tái)產(chǎn)品,滿足如下企業(yè)級(jí)產(chǎn)品的特征:
統(tǒng)一資源管理分配:改進(jìn)的YARN資源管理框架,可在同一份數(shù)據(jù)集上運(yùn)行多種計(jì)算框架(Storm, Docker等),動(dòng)態(tài)創(chuàng)建SQL統(tǒng)計(jì)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、流數(shù)據(jù)處理等計(jì)算集。
多租戶業(yè)務(wù)支持:在組織內(nèi)部,當(dāng)多部門使用統(tǒng)一平臺(tái)統(tǒng)一數(shù)據(jù)集運(yùn)行不同業(yè)務(wù)時(shí),通過(guò)租戶的方式實(shí)現(xiàn)對(duì)數(shù)據(jù)和計(jì)算資源管理和分配。各業(yè)務(wù)在相對(duì)獨(dú)立的環(huán)境中運(yùn)行,實(shí)現(xiàn)了數(shù)據(jù)與資源的邏輯隔離。
五維安全功能方案:當(dāng)多源異構(gòu)數(shù)據(jù)匯入整合時(shí),系統(tǒng)安全風(fēng)險(xiǎn)陡然增加。需要通過(guò)安全規(guī)則引擎,用戶集成認(rèn)證,權(quán)限管理分配,安全操作審計(jì)和數(shù)據(jù)加密保護(hù)五個(gè)維度來(lái)提供大數(shù)據(jù)基礎(chǔ)平臺(tái)安全整體功能,保護(hù)數(shù)據(jù)在訪問(wèn)和處理過(guò)程中的安全。
自動(dòng)化部署配置:大數(shù)據(jù)基礎(chǔ)平臺(tái)由數(shù)十個(gè)組件構(gòu)成,這些組件相互交織又分工不同,對(duì)管理人員要求較高,技術(shù)難度較大。通過(guò)圖形化的界面實(shí)現(xiàn)大數(shù)據(jù)基礎(chǔ)平臺(tái)的自動(dòng)化安裝部署和優(yōu)化配置,不僅可以減輕管理人員的部署壓力,還能保證平臺(tái)的優(yōu)化配置。
標(biāo)準(zhǔn)運(yùn)維服務(wù):針對(duì)以往遇到問(wèn)題只能從網(wǎng)絡(luò)搜集零散的知識(shí),且陷入缺乏標(biāo)準(zhǔn)解決方案這樣的困境,團(tuán)隊(duì)提出由駐場(chǎng),售后和研發(fā)三級(jí)人員組成的運(yùn)維體系,使用運(yùn)維案例中沉淀下來(lái)的最佳實(shí)踐經(jīng)驗(yàn),高效解決生產(chǎn)過(guò)程中遇到的問(wèn)題。
開(kāi)放集成接口:通過(guò)一系列Web Service,Java,Thrift等形式的接口將大數(shù)據(jù)基礎(chǔ)平臺(tái)的管控,資源分配,安全審核等能力開(kāi)放出來(lái),方便和各類系統(tǒng)進(jìn)行融合以及在平臺(tái)上的二次開(kāi)發(fā)。
3.2基礎(chǔ)組件Hadoop
Hadoop是數(shù)據(jù)操作平臺(tái)基礎(chǔ)核心,其基于Hadoop生態(tài)圈系統(tǒng),支持多種核心功能和組件,主要包括:
分布式文件系統(tǒng)HDFS
資源管理與調(diào)度YARN
安全組件及能力Ranger
分布式列數(shù)據(jù)庫(kù)Hbase
數(shù)據(jù)加載處理Sqoop,F(xiàn)lume, Kafka等
服務(wù)管理與YARN集成Slider
數(shù)據(jù)倉(cāng)庫(kù)Hive
通過(guò)整合先進(jìn)云計(jì)算技術(shù)并集成/優(yōu)化/封裝,支持對(duì)海量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)與高速處理,同時(shí)完全支持對(duì)數(shù)據(jù)的高并發(fā)讀寫訪問(wèn)以及快速的SQL查詢操作,我們對(duì)交付版本在服務(wù)期內(nèi)提供高效、全面且專業(yè)的技術(shù)支持和保障。Hadoop在集成開(kāi)源發(fā)布版本的同時(shí),還從社區(qū)中精選出核心且優(yōu)先級(jí)高的Patch集成到Hadoop中,確保產(chǎn)品的健壯性,保障其在商用項(xiàng)目應(yīng)用時(shí)更加穩(wěn)定、可靠的運(yùn)行,提升客戶體驗(yàn)度和滿意度。Hadoop的研發(fā)團(tuán)隊(duì)中有眾多開(kāi)源社區(qū)Contributor,通過(guò)對(duì)開(kāi)源組件的不斷研究并結(jié)合項(xiàng)目實(shí)施過(guò)程中出現(xiàn)的問(wèn)題,在開(kāi)源組件原有基礎(chǔ)上進(jìn)行了重構(gòu)與優(yōu)化,使我們的產(chǎn)品具有更強(qiáng)的數(shù)據(jù)處理、更快的處理速度以及更加便捷的實(shí)施優(yōu)勢(shì)。
3.3 內(nèi)存計(jì)算Spark
為數(shù)據(jù)的分析計(jì)算提供了基于內(nèi)存計(jì)算的且高效穩(wěn)定的spark計(jì)算框架,需要支持三種模式的處理能力:批處理、流式處理以及基于SQL操作的數(shù)據(jù)分析查詢,分別支撐各種業(yè)務(wù)場(chǎng)景和客戶需求。
3.4 平臺(tái)管控管理
該模塊是在Hadoop之上的一站式界面管理系統(tǒng),提供如下功能模塊,管理員可通過(guò)界面的簡(jiǎn)單操作,完成數(shù)據(jù)平臺(tái)的部署,管理,監(jiān)控告警及日常管理的工作:
導(dǎo)航式部署:以便捷易用的方式實(shí)現(xiàn)了大數(shù)據(jù)基礎(chǔ)平臺(tái)軟件的一鍵式自動(dòng)安裝部署,并且支持用戶自定義擴(kuò)展部署,管理員能夠通過(guò)配置參數(shù)根據(jù)部署集群硬件環(huán)境自動(dòng)優(yōu)化,最大化利用集群資源,幫助用戶節(jié)省寶貴時(shí)間和精力完成集群環(huán)境搭建。
圖表化監(jiān)控告警:提供底層硬件健康狀態(tài)、集群各組件健康狀態(tài)的全流程多維度監(jiān)控體系。其中包括主機(jī)資源CPU、內(nèi)存、硬盤、網(wǎng)卡等各項(xiàng)指標(biāo)監(jiān)控,還涵蓋HDFS、YARN、Hbase、Hive等各組件的多達(dá)150項(xiàng)的指標(biāo)監(jiān)控;支持指標(biāo)告警項(xiàng)的配置,系統(tǒng)將在監(jiān)控集群信息時(shí),捕獲告警閾值超出的指標(biāo)進(jìn)行記錄和展示;支持自定義配置監(jiān)控指標(biāo)及圖表的展現(xiàn)類型,幫助運(yùn)維人員直觀快速的定位和解決問(wèn)題,為系統(tǒng)持續(xù)健康穩(wěn)定的運(yùn)行提供保駕護(hù)航。
一站式集群管理:提供界面化的集群管理功能,提升運(yùn)維的高效性和便易性,讓集群管理變成傻瓜式操作。包括服務(wù)啟停,節(jié)點(diǎn)擴(kuò)容縮容,配置文件修改,機(jī)架感知等。
多元化資源管理:提供對(duì)集群計(jì)算資源、存儲(chǔ)資源、數(shù)據(jù)權(quán)限等的統(tǒng)一分配管理功能,從而使集群中數(shù)據(jù)存儲(chǔ)規(guī)范化、資源分配高效化、訪問(wèn)權(quán)限隔離化,確保數(shù)據(jù)隱私與資源隔離。
四、結(jié)語(yǔ)
大數(shù)據(jù)平臺(tái)的建設(shè)是為了適應(yīng)聯(lián)通行業(yè)業(yè)務(wù)的迅速發(fā)展需求而提出的,通過(guò)工程建設(shè),將會(huì)增加行業(yè)業(yè)務(wù)系統(tǒng)的容量,提高網(wǎng)絡(luò)的服務(wù)質(zhì)量,有利于聯(lián)通業(yè)務(wù)和收入的持續(xù)發(fā)展。