辛 晃 ,易興輝 ,陳震宇
(1.中國(guó)移動(dòng)通信集團(tuán)貴州有限公司 貴州 550018;2.中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司重慶分公司 重慶 401147)
隨著移動(dòng)通信網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)資源種類、數(shù)量不斷增加,終端客戶對(duì)網(wǎng)絡(luò)質(zhì)量的要求不斷提高,客戶感知要求也日益提高,網(wǎng)絡(luò)運(yùn)維面臨前所未有的挑戰(zhàn)和壓力。為了理解移動(dòng)互聯(lián)網(wǎng)的業(yè)務(wù)特征、網(wǎng)絡(luò)狀態(tài),需要分析和存儲(chǔ)大量業(yè)務(wù)內(nèi)容數(shù)據(jù)和信令數(shù)據(jù)。很多網(wǎng)管支撐分析系統(tǒng)面對(duì)著海量的數(shù)據(jù)壓力。目前網(wǎng)管支撐系統(tǒng)的數(shù)據(jù)存在如下問(wèn)題,使其不能從海量數(shù)據(jù)中獲得有用的信息并服務(wù)于運(yùn)維與客戶。
以某省為例,各專業(yè)的資源、告警和性能數(shù)據(jù)分散在20余套系統(tǒng)中,各系統(tǒng)各自處理各自的數(shù)據(jù),系統(tǒng)間的數(shù)據(jù)難以實(shí)現(xiàn)跨專業(yè)告警關(guān)聯(lián)、全專業(yè)資源調(diào)度及端到端業(yè)務(wù)質(zhì)量分析等。
數(shù)據(jù)建模方法、數(shù)據(jù)分類、數(shù)據(jù)粒度、數(shù)據(jù)維度、數(shù)據(jù)命名編碼均不同,不同系統(tǒng)無(wú)法共享。
告警監(jiān)控在話務(wù)網(wǎng)管、數(shù)據(jù)網(wǎng)管、動(dòng)環(huán)監(jiān)控等9類系統(tǒng)中重復(fù);網(wǎng)絡(luò)拓?fù)湔宫F(xiàn)在10類系統(tǒng)中重復(fù);性能統(tǒng)計(jì)報(bào)表在17類系統(tǒng)中重復(fù)。系統(tǒng)的數(shù)據(jù)和應(yīng)用緊耦合,無(wú)法基于現(xiàn)有數(shù)據(jù)擴(kuò)展新的應(yīng)用。網(wǎng)絡(luò)數(shù)據(jù)采集不規(guī)范、重復(fù)采集。
因此,亟需將各生產(chǎn)系統(tǒng)數(shù)據(jù)準(zhǔn)實(shí)時(shí)地整合到統(tǒng)一靈活的數(shù)據(jù)共享平臺(tái)上,有利于以不同視角全面分析網(wǎng)絡(luò)、業(yè)務(wù)和用戶的情況,有助于生成全局的正確決策。同時(shí)需提高數(shù)據(jù)共享能力,實(shí)現(xiàn)跨系統(tǒng)應(yīng)用的快速支撐。據(jù)梳理調(diào)研,目前電信運(yùn)營(yíng)商的網(wǎng)絡(luò)數(shù)據(jù)存在如下特點(diǎn)。
以某省某運(yùn)營(yíng)商為例,其企業(yè)數(shù)據(jù)之“大”表現(xiàn)在以下方面:
·服務(wù)客戶數(shù)量超過(guò)3200萬(wàn)戶;
·每天發(fā)生通話1.44億次,通話時(shí)長(zhǎng)3.14億分鐘;
·每天產(chǎn)生流量 420 TB;
·每天發(fā)送短信1.4億條,彩信900萬(wàn)條;
·無(wú)線數(shù)據(jù)核心網(wǎng)GN接口每天有3.5 TB的CDR話單,約70億條;
·無(wú)線數(shù)據(jù)接入網(wǎng)GB接口每天有5.3 TB的CDR話單,約100億條;
·無(wú)線交換核心網(wǎng)MC接口每天有300 GB的CDR話單,約5億條;
·某移動(dòng)CMNET每日產(chǎn)生350 TB的流量,DNS請(qǐng)求達(dá)3.5億次;
·基站數(shù)超過(guò)3.4萬(wàn)個(gè);
·全省服務(wù)網(wǎng)點(diǎn)數(shù)量有3.6萬(wàn)個(gè)。
從某種程度上來(lái)說(shuō),這些不僅是數(shù)據(jù),而且是企業(yè)寶貴的信息資產(chǎn)。
各專業(yè)數(shù)據(jù)不僅量大,數(shù)據(jù)結(jié)構(gòu)也多樣,既有結(jié)構(gòu)化數(shù)據(jù),如賬單、詳單、財(cái)務(wù)報(bào)表、整理后的XDR、企業(yè) ERP等,也有非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),如原始信令、文件、視頻、語(yǔ)音、上網(wǎng)記錄等。目前的傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)只在處理結(jié)構(gòu)化數(shù)據(jù)方面有較好的優(yōu)勢(shì)。
目前數(shù)據(jù)的存儲(chǔ)分析處理大多采用集中式的以小型機(jī)為主的架構(gòu)(SMP),此架構(gòu)節(jié)點(diǎn)規(guī)模受限,磁盤I/O瓶頸嚴(yán)重,計(jì)算和存儲(chǔ)能力的可擴(kuò)展性不足,導(dǎo)致高峰期負(fù)荷高,性能劣化明顯,無(wú)法對(duì)信令、話單等進(jìn)行全量管理,難以支撐端到端、靈活的分析、優(yōu)化與應(yīng)用。
針對(duì)以上數(shù)據(jù)特點(diǎn),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)不能滿足發(fā)展需求,需要尋求一種新的架構(gòu),其能較好地處理這些“大而有特點(diǎn)”的數(shù)據(jù)。
針對(duì)網(wǎng)管支撐系統(tǒng)的發(fā)展趨勢(shì)和存在的問(wèn)題,通過(guò)研究與具體實(shí)現(xiàn),搭建一個(gè)硬件平臺(tái)、網(wǎng)絡(luò)環(huán)境,以實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一建模、統(tǒng)一存儲(chǔ)、統(tǒng)一處理,實(shí)現(xiàn)數(shù)據(jù)向應(yīng)用的開(kāi)放共享。數(shù)據(jù)庫(kù)主要采用分布式架構(gòu),探索基于Hadoop+MPP的方式,上層應(yīng)用可以基于數(shù)據(jù)平臺(tái)進(jìn)行靈活、快速定制。
網(wǎng)管系統(tǒng)涉及的數(shù)據(jù)源多、數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)差異大,以某省網(wǎng)管為例,總計(jì)涉及六大類12小類數(shù)據(jù),總存儲(chǔ)量8PB,日增量160 TB,其中信令數(shù)據(jù)占85%。因此,必然涉及大數(shù)據(jù)處理技術(shù)。目前電信運(yùn)營(yíng)商對(duì)大數(shù)據(jù)中心的建設(shè)主要有兩大主流方案,分別對(duì)兩大主流方案進(jìn)行分析與對(duì)比。
因?yàn)镠adoop的低成本性 (使用廉價(jià)x86服務(wù)器 )、強(qiáng)擴(kuò)展性(硬件節(jié)點(diǎn)可不斷橫向擴(kuò)展)、容錯(cuò)好(系統(tǒng)設(shè)計(jì)為高容錯(cuò)性,允許PC出現(xiàn)故障;每塊文件數(shù)據(jù)在不同機(jī)器節(jié)點(diǎn)上保存2~3份)等特點(diǎn),被廣泛運(yùn)用于大數(shù)據(jù)解決方案中。
在Hadoop架構(gòu)中,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。如某運(yùn)營(yíng)商在2012年用70臺(tái)服務(wù)器建成CS共享平臺(tái) (CS域信令及無(wú)線信令),日增數(shù)據(jù)量約10 TB,保存60天,主要為營(yíng)銷、無(wú)線優(yōu)化、網(wǎng)絡(luò)運(yùn)維等提供信令數(shù)據(jù)支撐。
如某省投入90臺(tái)x86服務(wù)器,采用Hadoop技術(shù)搭建一個(gè)大數(shù)據(jù)平臺(tái),通過(guò)大數(shù)據(jù)平臺(tái)的建設(shè),融合DPI數(shù)據(jù)、網(wǎng)絡(luò)信令數(shù)據(jù)、業(yè)務(wù)支撐系統(tǒng)內(nèi)的話單及客戶數(shù)據(jù)等,存儲(chǔ)共計(jì)1125 TB,其中計(jì)算/存儲(chǔ)節(jié)點(diǎn) 80臺(tái),管理及接口服務(wù)器節(jié)點(diǎn)10臺(tái)。但隨著Hadoop的廣泛應(yīng)用,其也顯現(xiàn)出不盡如人意的地方,介紹如下。
·適用場(chǎng)合局限:與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)、MPP(massively parallel processing)數(shù)據(jù)庫(kù)、流計(jì)算等技術(shù)相比,Hadoop只是對(duì)某些類型的計(jì)算任務(wù)比較擅長(zhǎng)。
·人力資源問(wèn)題:系統(tǒng)的開(kāi)發(fā)人員對(duì)SQL比較熟悉,但對(duì)Hadoop技術(shù)比較陌生。Hive雖然支持在Hadoop平臺(tái)上使用類SQL,但性能較差,對(duì)性能要求較高的應(yīng)用,Hive無(wú)法滿足相關(guān)要求。開(kāi)發(fā)人員的技術(shù)能力是一大障礙。
·維護(hù)成本:主要包括兩部分,一是硬件維護(hù)成本,Hadoop平臺(tái)一般由PC服務(wù)器構(gòu)成,而PC服務(wù)器的硬件故障率一般比小型機(jī)高,在生產(chǎn)系統(tǒng)運(yùn)行初期,硬件故障發(fā)生的可能性較低,這部分成本不明顯,但隨著時(shí)間的推移,硬件(如內(nèi)置硬盤)將會(huì)陸續(xù)出現(xiàn)問(wèn)題,維護(hù)成本較高;二是平臺(tái)維護(hù)人員的投入成本,因?yàn)镠adoop平臺(tái)較為復(fù)雜,維護(hù)人員需要經(jīng)常根據(jù)需要調(diào)整平臺(tái)設(shè)置,以獲得較好的性能。而傳統(tǒng)數(shù)據(jù)庫(kù)雖然不能設(shè)置一次后就“一勞永逸”,但至少可以在一段較長(zhǎng)的時(shí)間內(nèi)不用做大的更改。
傳統(tǒng)企業(yè)的IT能力有限,數(shù)據(jù)處理工作主要依賴于系統(tǒng)集成商,重點(diǎn)在應(yīng)用實(shí)現(xiàn)方面。數(shù)據(jù)的處理目前還是以數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)為主,大多是主機(jī)+集中存儲(chǔ)的架構(gòu);軟件則主要選擇Oracle相關(guān)數(shù)據(jù)庫(kù)產(chǎn)品來(lái)搭建數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)各層功能。如某省的性能管理系統(tǒng)(相當(dāng)于網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái))、南方的電網(wǎng)數(shù)據(jù)中心、某運(yùn)營(yíng)商的總部集中數(shù)據(jù)分析系統(tǒng)、某省的地鐵數(shù)據(jù)中心均采用小型機(jī)+集中存儲(chǔ)+數(shù)據(jù)倉(cāng)庫(kù)軟件的方式來(lái)完成數(shù)據(jù)中心的建設(shè)。
隨著數(shù)據(jù)量的增漲與數(shù)據(jù)類型的日益復(fù)雜,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的不足也逐漸顯現(xiàn),具體介紹如下。
·處理數(shù)據(jù)量小:對(duì)于10 TB以上的數(shù)據(jù),傳統(tǒng)小型機(jī)+磁陣方式處理吃力。
·投資高:如果使用傳統(tǒng)磁陣,成本為1.5萬(wàn)元/TB,1 PB存儲(chǔ)需要1500萬(wàn)元,存儲(chǔ)半年1 GB的分析數(shù)據(jù)需要近1500萬(wàn)元(僅為存儲(chǔ)費(fèi)用,不含小型機(jī)費(fèi)用)。
·I/O瓶頸:傳統(tǒng)數(shù)據(jù)庫(kù)采用集中式存儲(chǔ),數(shù)據(jù)庫(kù)的諸多性能問(wèn)題最終總能歸咎為I/O。
Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開(kāi)發(fā)[1]。用戶可以在不了解分布式底層細(xì)節(jié)的情況下開(kāi)發(fā)分布式程序,以充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。Hadoop的成員架構(gòu)如圖1所示[2]。
其有如下3部分核心內(nèi)容[3,4]。
(1)分布式文件系統(tǒng)(HDFS):文件存儲(chǔ)方式
HDFS是新型分布式文件系統(tǒng)的典型代表,提供高可靠、高擴(kuò)展、高吞吐能力的海量文件數(shù)據(jù)存儲(chǔ)能力。對(duì)用戶來(lái)說(shuō),可以將其看作一個(gè)巨大的磁盤,可以創(chuàng)建、刪除、移動(dòng)、重命名文件。
(2)HBase數(shù)據(jù)庫(kù):數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)方式
HBase 是非關(guān)系型數(shù)據(jù)庫(kù) (not only SQL,NoSQL),主要依靠橫向擴(kuò)展,通過(guò)不斷增加廉價(jià)的PC服務(wù)器增加計(jì)算和存儲(chǔ)能力。
(3)MapReduce模型:并行計(jì)算方式
遵循map(映射)/reduce(化簡(jiǎn))模型就可以實(shí)現(xiàn)分布式并行計(jì)算?;趍ap/reduce寫出來(lái)的應(yīng)用能運(yùn)行在上千臺(tái)服務(wù)器組成的集群上,并以一種可靠的容錯(cuò)方式并行處理數(shù)據(jù),實(shí)現(xiàn)對(duì)大數(shù)據(jù)的處理。
圖1 Hadoop的成員架構(gòu)
MapReduce可以把一個(gè)任務(wù)分解為很多可以并行化處理的子任務(wù),這些子任務(wù)被分配到不同服務(wù)器上進(jìn)行并行計(jì)算,當(dāng)所有服務(wù)器的計(jì)算都完成后,再把結(jié)果聚合到一起形成一個(gè)最終結(jié)果。
Hadoop的優(yōu)勢(shì)介紹如下[5]。
·數(shù)據(jù)處理能力強(qiáng):在整體上獲得較高的計(jì)算能力,可以完成傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法完成的大數(shù)據(jù)處理任務(wù)。
·成本低:在生產(chǎn)實(shí)踐中,就Hadoop擅長(zhǎng)的計(jì)算而言,同等計(jì)算能力的Hadoop集群的成本僅為運(yùn)行于小型機(jī)的傳統(tǒng)數(shù)據(jù)庫(kù)成本的1/10~1/2。
·高可靠性:Hadoop通過(guò)維護(hù)多個(gè)數(shù)據(jù)副本,當(dāng)一定數(shù)量的數(shù)據(jù)塊損壞或者一定數(shù)量的節(jié)點(diǎn)失效時(shí),仍能保證數(shù)據(jù)的完整和正確。通過(guò)作業(yè)控制機(jī)制,即使某些計(jì)算任務(wù)失敗,也不會(huì)影響整個(gè)計(jì)算作業(yè)。
·靈活的可擴(kuò)充性:Hadoop可以根據(jù)需要自由縮減和擴(kuò)充集群規(guī)模(即減少和增加節(jié)點(diǎn)),具備良好的可擴(kuò)充性。
綜上所述,Hadoop平臺(tái)既有優(yōu)勢(shì),也有不足,適用于某些特定類型的場(chǎng)景,可以作為混搭結(jié)構(gòu)的一部分。
Hadoop在處理如原始信令、圖片、聲音等非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)時(shí),表現(xiàn)出毋容置疑的優(yōu)秀計(jì)算能力,但在面對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)復(fù)雜的多表關(guān)聯(lián)分析、強(qiáng)一致性要求、易用性等方面時(shí),其與基于面向?qū)ο蟮姆植际疥P(guān)系型數(shù)據(jù)庫(kù)還存在較大的差距。此時(shí),最有效的大數(shù)據(jù)分析系統(tǒng)需要結(jié)合MPP數(shù)據(jù)庫(kù)搭配構(gòu)建。
MPP是由多個(gè)SMP服務(wù)器通過(guò)一定的節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)進(jìn)行連接,協(xié)同工作,完成相同的任務(wù),從用戶的角度看是一個(gè)服務(wù)器系統(tǒng)[6,7]。其基本特征是由多個(gè)SMP服務(wù)器(每個(gè)SMP服務(wù)器稱為一個(gè)節(jié)點(diǎn))通過(guò)節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)連接而成,每個(gè)節(jié)點(diǎn)只訪問(wèn)自己的本地資源(內(nèi)存、存儲(chǔ)等),是一種完全無(wú)共享(share nothing)結(jié)構(gòu),因而擴(kuò)展能力最好,理論上其擴(kuò)展無(wú)限制。
MPP數(shù)據(jù)庫(kù)是將任務(wù)并行地分散到多個(gè)服務(wù)器和節(jié)點(diǎn)上,在每個(gè)節(jié)點(diǎn)計(jì)算完成后,將各自的結(jié)果匯總在一起從而得到最終結(jié)果。
與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,MPP在數(shù)據(jù)處理方面具有以下優(yōu)勢(shì)[6,7]。
(1)采用分布式架構(gòu)
與傳統(tǒng)數(shù)據(jù)庫(kù)相比,MPP最大的特點(diǎn)是采用分布式架構(gòu)。傳統(tǒng)數(shù)據(jù)庫(kù)過(guò)于集中管理而造成大量數(shù)據(jù)堆積,需要大量存儲(chǔ)數(shù)據(jù)的介質(zhì),從而導(dǎo)致服務(wù)器的回應(yīng)下降乃至崩潰。而MPP是由許多松耦合處理單元組成的,每個(gè)單元內(nèi)的CPU都有自己私有的資源,如總線、內(nèi)存、硬盤等,每個(gè)單元內(nèi)都有操作系統(tǒng)和管理數(shù)據(jù)庫(kù)的實(shí)例復(fù)本。這種結(jié)構(gòu)最大的特點(diǎn)是不共享資源。
(2)處理數(shù)據(jù)量大
傳統(tǒng)的數(shù)據(jù)庫(kù)部署不能處理TB級(jí)數(shù)據(jù),也不能很好地支持高級(jí)別的數(shù)據(jù)分析,而MPP數(shù)據(jù)庫(kù)能處理PB級(jí)的數(shù)據(jù)。
(3)更大的 I/O 能力
典型的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境具有大量復(fù)雜的數(shù)據(jù)處理和綜合分析需求,要求系統(tǒng)具有很高的I/O處理能力,并且存儲(chǔ)系統(tǒng)需要提供足夠的I/O帶寬與之匹配。傳統(tǒng)數(shù)據(jù)庫(kù)采用集中式存儲(chǔ),數(shù)據(jù)庫(kù)的諸多性能問(wèn)題最終總能歸咎于I/O,而MPP采用完全無(wú)共享的并行處理架構(gòu),完全避免了集群中各節(jié)點(diǎn)在并行處理過(guò)程中的CPU、I/O、內(nèi)存、網(wǎng)絡(luò)等的資源爭(zhēng)奪,不會(huì)造成計(jì)算及存儲(chǔ)資源瓶頸。
(4)擴(kuò)展能力好
MPP由多個(gè)節(jié)點(diǎn)構(gòu)成,節(jié)點(diǎn)通過(guò)互聯(lián)網(wǎng)絡(luò)連接而成,每個(gè)節(jié)點(diǎn)只訪問(wèn)自己的本地資源(內(nèi)存、存儲(chǔ)等),是一種完全無(wú)共享結(jié)構(gòu),擴(kuò)展能力最好,理論上其擴(kuò)展無(wú)限制,目前的技術(shù)可實(shí)現(xiàn)512個(gè)節(jié)點(diǎn)互聯(lián)、數(shù)千個(gè)CPU。不管后臺(tái)服務(wù)器由多少個(gè)節(jié)點(diǎn)組成,開(kāi)發(fā)人員所面對(duì)的都是同一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)。
(5)采用列存儲(chǔ)[8]
將分布式數(shù)據(jù)處理系統(tǒng)中以記錄為單位的存儲(chǔ)結(jié)構(gòu)變?yōu)橐粤袨閱挝坏拇鎯?chǔ)結(jié)構(gòu),進(jìn)而減少磁盤訪問(wèn)數(shù)量,提高查詢處理性能;由于相同屬性值具有相同的數(shù)據(jù)類型和相近的數(shù)據(jù)特性,以屬性值為單位進(jìn)行壓縮存儲(chǔ)的壓縮比更高,能節(jié)省更多的存儲(chǔ)空間。
Hadoop和MPP作為兩種熱議技術(shù),目前在各行業(yè)得到廣泛應(yīng)用,如圖2所示。
大數(shù)據(jù)的分析是重點(diǎn)和難點(diǎn),既要滿足海量數(shù)據(jù)的并行計(jì)算要求,又要滿足前端應(yīng)用查詢的快速響應(yīng)要求[9],因此,本文提出結(jié)合Hadoop、MPP數(shù)據(jù)庫(kù)、內(nèi)存數(shù)據(jù)庫(kù)等多種技術(shù)組成的混搭架構(gòu)來(lái)組建數(shù)據(jù)共享平臺(tái)。
圖2 國(guó)內(nèi)外應(yīng)用舉例
根據(jù)應(yīng)用需求,數(shù)據(jù)共享平臺(tái)需要接入的數(shù)據(jù)包含細(xì)節(jié)數(shù)據(jù)(CDR、MR、話單、DPI、日志等)和各類統(tǒng)計(jì)數(shù)據(jù)(KPI),涉及的接口系統(tǒng)包括綜合資源、話務(wù)網(wǎng)管、傳輸網(wǎng)管、綜合告警、網(wǎng)絡(luò)優(yōu)化平臺(tái)、路測(cè)系統(tǒng)、經(jīng)營(yíng)分析系統(tǒng)等外部系統(tǒng)。主要數(shù)據(jù)管理范圍見(jiàn)表1。
4.2.1 兩種技術(shù)的定位
數(shù)據(jù)的處理和訪問(wèn)需求決定了數(shù)據(jù)存儲(chǔ)的平臺(tái),大數(shù)據(jù)時(shí)代需要分工嚴(yán)密的混搭架構(gòu),以充分發(fā)揮各個(gè)平臺(tái)的優(yōu)勢(shì),兩種技術(shù)的定位如圖3所示。
4.2.2 系統(tǒng)架構(gòu)
網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)按照分層、分級(jí)設(shè)計(jì)理念,由三大層構(gòu)成,分別為應(yīng)用層、數(shù)據(jù)層、數(shù)據(jù)質(zhì)量管控中心,打造智能網(wǎng)絡(luò)數(shù)據(jù)中心,為網(wǎng)絡(luò)運(yùn)營(yíng)、管理工作提供有力支撐。系統(tǒng)架構(gòu)如圖4所示。
表1 共享平臺(tái)處理數(shù)據(jù)類別
(1)數(shù)據(jù)層
數(shù)據(jù)層由統(tǒng)一數(shù)據(jù)處理平臺(tái)、數(shù)據(jù)存儲(chǔ)構(gòu)成。數(shù)據(jù)層通過(guò)標(biāo)準(zhǔn)化的邏輯模型完成數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的基本存儲(chǔ)功能,并通過(guò)數(shù)據(jù)挖掘等技術(shù)進(jìn)行數(shù)據(jù)加工,形成信息和知識(shí),為外部數(shù)據(jù)訪問(wèn)需求提供數(shù)據(jù)訪問(wèn)服務(wù);為系統(tǒng)內(nèi)部的應(yīng)用層提供各種數(shù)據(jù)和信息,滿足上層業(yè)務(wù)應(yīng)用開(kāi)發(fā)的需要,支撐平臺(tái)的自身發(fā)展。統(tǒng)一數(shù)據(jù)處理平臺(tái)從各外圍系統(tǒng)中采集相關(guān)基礎(chǔ)數(shù)據(jù),進(jìn)行數(shù)據(jù)的清洗、轉(zhuǎn)換和加載,并對(duì)整個(gè)處理流程的異常情況進(jìn)行管控。數(shù)據(jù)處理實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中基礎(chǔ)數(shù)據(jù)、匯總數(shù)據(jù)以及加工后信息的存放和管理功能。
圖3 兩種技術(shù)定位
圖4 系統(tǒng)架構(gòu)
(2)應(yīng)用層
應(yīng)用層包括基礎(chǔ)功能組件和各類分析應(yīng)用,基礎(chǔ)組件包含指標(biāo)管理、即席查詢、多維分析、統(tǒng)計(jì)報(bào)表、數(shù)據(jù)挖掘、預(yù)測(cè)優(yōu)化、GIS功能等,通過(guò)對(duì)分析功能和基礎(chǔ)能力的集成,形成功能支撐單元,為應(yīng)用功能層提供數(shù)據(jù)和功能支撐;各類分析應(yīng)用包括基礎(chǔ)分析應(yīng)用、自主分析應(yīng)用、挖掘分析應(yīng)用、專題分析應(yīng)用、實(shí)施分析應(yīng)用等。
(3)數(shù)據(jù)質(zhì)量管控中心
數(shù)據(jù)質(zhì)量管控中心主要包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理。通過(guò)數(shù)據(jù)管控中心有效發(fā)揮元數(shù)據(jù)管理的優(yōu)勢(shì),結(jié)合生命周期管理,進(jìn)一步完善數(shù)據(jù)質(zhì)量監(jiān)控應(yīng)用和數(shù)據(jù)運(yùn)維管理機(jī)制,逐步實(shí)現(xiàn)企業(yè)全程數(shù)據(jù)質(zhì)量的監(jiān)管。
4.2.3 技術(shù)架構(gòu)
整個(gè)數(shù)據(jù)中心根據(jù)數(shù)據(jù)的流向,分成后臺(tái)的數(shù)據(jù)處理、前臺(tái)的數(shù)據(jù)展現(xiàn)兩大部分。基礎(chǔ)數(shù)據(jù)平臺(tái)部分主要采用模塊化、高可擴(kuò)展的技術(shù),如并行計(jì)算(MapReduce)、并行裝載、MPP數(shù)據(jù)庫(kù)、分布式存儲(chǔ)等;應(yīng)用平臺(tái)的數(shù)據(jù)展現(xiàn)采用基于J2EE的多層客戶/服務(wù)器模型,通過(guò)靈活的集成框架,保證不同的第三方插件、產(chǎn)品能夠有效地集成。
網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)的技術(shù)架構(gòu)主要由基礎(chǔ)數(shù)據(jù)平臺(tái)、數(shù)據(jù)共享平臺(tái)、BI應(yīng)用平臺(tái)構(gòu)成。數(shù)據(jù)處理采用Hadoop+MPP數(shù)據(jù)庫(kù)混搭模式,同時(shí)采用STORM技術(shù)支持實(shí)時(shí)數(shù)據(jù)的采集和計(jì)算,實(shí)現(xiàn)高并發(fā)、可伸縮。數(shù)據(jù)共享層支持?jǐn)?shù)據(jù)庫(kù)、消息、文件多種方式的數(shù)據(jù)共享能力,數(shù)據(jù)共享可集中管理。在應(yīng)用平臺(tái)將J2EE分層框架與SOA相結(jié)合,實(shí)現(xiàn)高可配置、組件化,可支持多種終端,可平滑承載不斷增長(zhǎng)的BI應(yīng)用,如圖5所示。
4.2.4 數(shù)據(jù)存儲(chǔ)計(jì)算架構(gòu)
在數(shù)據(jù)存儲(chǔ)和計(jì)算方面,基礎(chǔ)數(shù)據(jù)處理采用Hadoop+MPP數(shù)據(jù)庫(kù)混搭模式,對(duì)非結(jié)構(gòu)化大數(shù)據(jù)采用Hadoop進(jìn)行分布式存儲(chǔ)和計(jì)算,其他數(shù)據(jù)采用MPP進(jìn)行數(shù)據(jù)計(jì)算和存儲(chǔ)。上層數(shù)據(jù)的維度匯總以及深度分析同樣采用MPP數(shù)據(jù)庫(kù)。網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)數(shù)據(jù)存儲(chǔ)及計(jì)算架構(gòu)如圖6所示。
圖5 系統(tǒng)技術(shù)架構(gòu)
圖6 數(shù)據(jù)存儲(chǔ)及計(jì)算架構(gòu)
(1)數(shù)據(jù)源層
數(shù)據(jù)源層主要指網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)的數(shù)據(jù)來(lái)源系統(tǒng),主要包括數(shù)據(jù)網(wǎng)管、話務(wù)網(wǎng)管、傳輸網(wǎng)管、網(wǎng)絡(luò)優(yōu)化平臺(tái)、綜合資源管理、告警與故障管理、經(jīng)營(yíng)分析、數(shù)據(jù)業(yè)務(wù)監(jiān)測(cè)與分析、信令監(jiān)測(cè)、EOMS、網(wǎng)投、終端庫(kù)、撥測(cè)、路測(cè)等外部系統(tǒng)。
(2)基礎(chǔ)數(shù)據(jù)層
主要完成數(shù)據(jù)的裝載、緩存、處理、存儲(chǔ)。
①數(shù)據(jù)裝載、緩存
數(shù)據(jù)裝載層涵蓋網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)從各業(yè)務(wù)源系統(tǒng)中對(duì)相關(guān)業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、清洗、加工、整理并加載到數(shù)據(jù)存儲(chǔ)庫(kù)的全過(guò)程。數(shù)據(jù)裝載層通過(guò)文件、數(shù)據(jù)庫(kù)、消息等方式,從外部系統(tǒng)獲取所需的源數(shù)據(jù)。從數(shù)據(jù)源采集到數(shù)據(jù)后,通過(guò)不同的裝載處理,把數(shù)據(jù)加載至數(shù)據(jù)緩存層,以便于數(shù)據(jù)整合處理。對(duì)于數(shù)據(jù)量比較大的明細(xì)數(shù)據(jù)(如信令、話單等),將數(shù)據(jù)分發(fā)到多臺(tái)機(jī)器上進(jìn)行并行ETL處理,以提高數(shù)據(jù)的處理效率;對(duì)于傳統(tǒng)數(shù)據(jù)(如性能、資源、工單、告警等),通過(guò)數(shù)據(jù)加載進(jìn)入關(guān)系型數(shù)據(jù)庫(kù)緩存層。
②數(shù)據(jù)整合處理
完成數(shù)據(jù)的ETL過(guò)程。對(duì)于大量明細(xì)數(shù)據(jù),除了基本的ETL處理,還要從公共資源數(shù)據(jù)中同步與關(guān)聯(lián)(用戶、資源、終端數(shù)據(jù))以便于數(shù)據(jù)聚合處理;對(duì)于傳統(tǒng)網(wǎng)管數(shù)據(jù),數(shù)據(jù)種類多,需要通過(guò)ETL過(guò)程得到分析所需要的歸一化數(shù)據(jù)。
③明細(xì)數(shù)據(jù)存儲(chǔ)
ODS層是網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)數(shù)據(jù)處理與存儲(chǔ)的核心部分,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)數(shù)據(jù)源的上報(bào)周期、頻率、特征不同,因此分兩個(gè)通道進(jìn)行處理。可采用分布式計(jì)算及存儲(chǔ)技術(shù)(如MPP、Hadoop),完成大數(shù)據(jù)的明細(xì)存儲(chǔ)(存儲(chǔ)原始用戶的詳單數(shù)據(jù)),根據(jù)業(yè)務(wù)需求定義的數(shù)據(jù)模型,應(yīng)用并行計(jì)算技術(shù),完成各種維度的數(shù)據(jù)計(jì)算與匯總,并將其結(jié)果存儲(chǔ)到維度匯總數(shù)據(jù)中。對(duì)非結(jié)構(gòu)化、數(shù)據(jù)關(guān)系相對(duì)簡(jiǎn)單的大數(shù)據(jù) (如信令XDR、MR測(cè)量、DQ/CQT等),采用Hadoop技術(shù)處理;而對(duì)結(jié)構(gòu)化和數(shù)據(jù)關(guān)系復(fù)雜的海量數(shù)據(jù),采用MPP數(shù)據(jù)庫(kù)(如Vertica),支持分布式高效存儲(chǔ)、復(fù)雜計(jì)算和查詢;其他普通基礎(chǔ)數(shù)據(jù)經(jīng)過(guò)ETL過(guò)程得到分析所需要的歸一化數(shù)據(jù),技術(shù)上采用MPP關(guān)系數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和計(jì)算。
④數(shù)據(jù)聚合處理
通過(guò)數(shù)據(jù)模型進(jìn)行多維的分析、匯總與計(jì)算。對(duì)于大數(shù)據(jù)的計(jì)算結(jié)果有兩種輸出方式:大數(shù)據(jù)的部分計(jì)算與傳統(tǒng)網(wǎng)管的性能具有相同的維度、統(tǒng)計(jì)對(duì)象,要將這類計(jì)算結(jié)果與傳統(tǒng)網(wǎng)管的性能統(tǒng)計(jì)數(shù)據(jù)進(jìn)行整合,同時(shí)輸出到維度匯總數(shù)據(jù)庫(kù)中進(jìn)行存儲(chǔ);大數(shù)據(jù)計(jì)算出的而傳統(tǒng)網(wǎng)管不可能計(jì)算出的數(shù)據(jù),如用戶行為數(shù)據(jù)、終端數(shù)據(jù)、互聯(lián)網(wǎng)應(yīng)用業(yè)務(wù)數(shù)據(jù),則直接進(jìn)入?yún)R總數(shù)據(jù)EDS層。
(3)數(shù)據(jù)倉(cāng)庫(kù)層
數(shù)據(jù)倉(cāng)庫(kù)層主要存儲(chǔ)維度匯總數(shù)據(jù)和應(yīng)用匯總數(shù)據(jù)。維度匯總數(shù)據(jù)是按照維度、事實(shí)進(jìn)行數(shù)據(jù)組織,主要包括基于數(shù)據(jù)模型的大數(shù)據(jù)并行計(jì)算與傳統(tǒng)數(shù)據(jù)的數(shù)據(jù)庫(kù)計(jì)算結(jié)果。維度匯總數(shù)據(jù)為系統(tǒng)的應(yīng)用匯總提供多維基礎(chǔ)數(shù)據(jù),同時(shí)通過(guò)數(shù)據(jù)共享模塊,向外部系統(tǒng)提供可共享的數(shù)據(jù),滿足外部系統(tǒng)的應(yīng)用要求。應(yīng)用匯總數(shù)據(jù)是按照系統(tǒng)實(shí)際的業(yè)務(wù)需求,進(jìn)行數(shù)據(jù)組織,主要來(lái)自維度匯總數(shù)據(jù)的進(jìn)一步分析,是根據(jù)業(yè)務(wù)應(yīng)用需求高度匯總的數(shù)據(jù),如維護(hù)查詢需求、日常分析需求、專題分析需求等,同時(shí)通過(guò)數(shù)據(jù)共享模塊,向外部系統(tǒng)提供可共享的數(shù)據(jù),滿足外部系統(tǒng)的應(yīng)用要求。
·數(shù)據(jù)倉(cāng)庫(kù)(EDS)層:網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)的維度匯總數(shù)據(jù)層,存儲(chǔ)周期較長(zhǎng),一般為3年或以上。EDS層為支撐上層應(yīng)用層,根據(jù)業(yè)務(wù)需求按照主題劃分原則對(duì)事實(shí)數(shù)據(jù)和維度數(shù)據(jù)進(jìn)行有效的組織和規(guī)范,提高數(shù)據(jù)的訪問(wèn)效率,技術(shù)上采用MPP數(shù)據(jù)庫(kù)。EDS層是對(duì)外數(shù)據(jù)共享的主要數(shù)據(jù)層。
·數(shù)據(jù)集市(DM):面向特定主題的應(yīng)用層數(shù)據(jù)的計(jì)算與呈現(xiàn)。
·準(zhǔn)實(shí)時(shí)分析:為實(shí)時(shí)應(yīng)用提供實(shí)時(shí)指標(biāo)計(jì)算和反向?qū)崟r(shí)數(shù)據(jù)通道,為實(shí)時(shí)應(yīng)用提供數(shù)據(jù)源的實(shí)時(shí)數(shù)據(jù)。
4.3.1 數(shù)據(jù)量測(cè)算方法研究
(1)原始數(shù)據(jù)層
原始數(shù)據(jù)層存儲(chǔ)量=一天基礎(chǔ)數(shù)據(jù)量D×存儲(chǔ)時(shí)長(zhǎng)。
(2)基礎(chǔ)明細(xì)數(shù)據(jù)層
共享Hadoop存儲(chǔ)量和MPP存儲(chǔ)量見(jiàn)表2和表3。
(3)數(shù)據(jù)倉(cāng)庫(kù)層
數(shù)據(jù)倉(cāng)庫(kù)層的數(shù)據(jù)流計(jì)算見(jiàn)表4。
表2 共享Hadoop存儲(chǔ)量
表3 MPP存儲(chǔ)量
表4 數(shù)據(jù)倉(cāng)庫(kù)層數(shù)據(jù)量計(jì)算
匯總比例為該類匯總數(shù)據(jù)與入庫(kù)前基礎(chǔ)數(shù)據(jù)的比例,冗余系數(shù)=數(shù)據(jù)庫(kù)索引冗余系數(shù)1.5×數(shù)據(jù)庫(kù)壓縮系數(shù)0.5,匯總系數(shù)=匯總比例×冗余系數(shù),得到數(shù)據(jù)倉(cāng)庫(kù)層的計(jì)算方法為:存儲(chǔ)量=(每天采集量×7.5%×300+每天采集量×1%×300)×存儲(chǔ)份數(shù)/壓縮比。
(4)應(yīng)用匯總層
應(yīng)用匯總層的數(shù)據(jù)量計(jì)算見(jiàn)表5。
表5 應(yīng)用匯總層數(shù)據(jù)量計(jì)算
匯總比例為該類匯總數(shù)據(jù)與入庫(kù)前基礎(chǔ)數(shù)據(jù)的比例,冗余系數(shù)=數(shù)據(jù)庫(kù)索引冗余系數(shù)1.5×數(shù)據(jù)庫(kù)壓縮系數(shù)0.5,匯總系數(shù)=匯總比例×冗余系數(shù),得到應(yīng)用匯總層的計(jì)算方法為:存儲(chǔ)量=(每天采集量×0.04%×1080)×存儲(chǔ)份數(shù)/壓縮比。
4.3.2 平臺(tái)物理架構(gòu)建設(shè)
采用純x86的物理架構(gòu),根據(jù)數(shù)據(jù)接入量和數(shù)據(jù)存儲(chǔ)處理量配置x86 PC服務(wù)器,并配置相應(yīng)的MPP數(shù)據(jù)庫(kù)和內(nèi)存數(shù)據(jù)庫(kù),平臺(tái)采用如圖7所示的物理組網(wǎng)架構(gòu)。
考慮到該平臺(tái)需接入信令等大數(shù)據(jù),同時(shí)考慮到業(yè)務(wù)的快速增長(zhǎng),本文采用分布式的x86集群架構(gòu):大數(shù)據(jù)分析及處理使用Hadoop云平臺(tái),匯總關(guān)聯(lián)采用MPP數(shù)據(jù)庫(kù)集群。Hadoop云架構(gòu)可充分利用集群資源對(duì)大數(shù)據(jù)進(jìn)行高速運(yùn)算和存儲(chǔ),具有高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性、低成本等特點(diǎn);MPP架構(gòu)對(duì)海量數(shù)據(jù)進(jìn)行集中存放和管理,具有高并發(fā)性、線性擴(kuò)展性、高性價(jià)比、高可用性、系統(tǒng)易用等特點(diǎn)。該架構(gòu)具有出色的線性擴(kuò)展能力。
圖7 物理組網(wǎng)架構(gòu)
4.4.1 混搭架構(gòu)的優(yōu)勢(shì)
(1)支持明細(xì)數(shù)據(jù)并行快速加載、壓縮
加載指用戶粒度XDR的分布式采集和加載。Hive的數(shù)據(jù)保存在HDFS上,因?yàn)镠DFS是分布式文件系統(tǒng),并行加載能有效利用網(wǎng)絡(luò)和I/O,提高載入性能。Hadoop支持多種壓縮格式。
(2)詳單查詢(秒級(jí)響應(yīng),千級(jí)并發(fā))
對(duì)于實(shí)時(shí)查詢,HBase能夠提供較低時(shí)延的讀寫訪問(wèn)能力,并能承受高并發(fā)的訪問(wèn)請(qǐng)求,適合用于詳單查詢等應(yīng)用。
(3)明細(xì)數(shù)據(jù)多表關(guān)聯(lián)查詢
MPP數(shù)據(jù)庫(kù)能較好地支持明細(xì)數(shù)據(jù)多表關(guān)聯(lián)查詢。Hadoop如果用Hive實(shí)現(xiàn)明細(xì)數(shù)據(jù)多表關(guān)聯(lián),性能不是很理想;如果用MapReduce實(shí)現(xiàn)多表關(guān)聯(lián),則可以針對(duì)應(yīng)用進(jìn)行優(yōu)化,有可能取得較好的效果,但MapReduce編碼較麻煩,只適用于特殊情況。
(4)明細(xì)數(shù)據(jù)自定義查詢
MPP數(shù)據(jù)庫(kù)和Hadoop均支持明細(xì)數(shù)據(jù)自定義查詢,但MPP數(shù)據(jù)庫(kù)實(shí)時(shí)性更好,Hadoop僅支持非實(shí)時(shí)的明細(xì)數(shù)據(jù)自定義查詢。
(5)數(shù)據(jù)共享、開(kāi)放模型
數(shù)據(jù)總線可以提供數(shù)據(jù)共享和開(kāi)放模型服務(wù)。
(6)明細(xì)數(shù)據(jù)并行計(jì)算
Hadoop和MPP數(shù)據(jù)庫(kù)的處理機(jī)制是并行計(jì)算,因?yàn)椴⑿杏?jì)算能有效提高處理能力,常用于處理數(shù)據(jù)量較大的明細(xì)數(shù)據(jù)。
(7)數(shù)據(jù)的高可靠性和系統(tǒng)的高可用性
Hadoop和MPP數(shù)據(jù)庫(kù)均有較強(qiáng)的容錯(cuò)機(jī)制,包括數(shù)據(jù)容錯(cuò)和計(jì)算容錯(cuò),通過(guò)多副本、任務(wù)失敗重調(diào)等手段,保證數(shù)據(jù)的高可靠性和系統(tǒng)的高可用性。
(8)支持橫向和縱向擴(kuò)展
Hadoop和MPP數(shù)據(jù)庫(kù)均支持橫向和縱向擴(kuò)展,除了采用更強(qiáng)的硬件,均可以通過(guò)增加節(jié)點(diǎn)來(lái)提高集群的總體處理能力。
(9)數(shù)據(jù)實(shí)時(shí)查詢
MPP數(shù)據(jù)庫(kù)和內(nèi)存數(shù)據(jù)庫(kù)可支持?jǐn)?shù)據(jù)實(shí)時(shí)查詢。如果處理邏輯較簡(jiǎn)單(如根據(jù)行關(guān)鍵詞查詢),則HBase也是很好的選擇。
4.4.2 實(shí)現(xiàn)效果
根據(jù)測(cè)算與實(shí)現(xiàn),搭建了一個(gè)84臺(tái)x86服務(wù)器規(guī)模的共享平臺(tái),平臺(tái)將O域和B域數(shù)據(jù)融合,綜合多渠道數(shù)據(jù),目前已接入處理經(jīng)營(yíng)分析、綜合資源、數(shù)據(jù)網(wǎng)管、網(wǎng)絡(luò)優(yōu)化平臺(tái)、信令系統(tǒng)等20余個(gè)廠商、51個(gè)外部系統(tǒng)、488個(gè)數(shù)據(jù)源接口,共接入5000余個(gè)指標(biāo),向用戶提供將近70個(gè)主題、專題應(yīng)用,平均每天處理45 TB以上的數(shù)據(jù)。
基于數(shù)據(jù)共享平臺(tái)可實(shí)現(xiàn)多個(gè)專題、主題上層應(yīng)用,均取得了較好的效果,具體表現(xiàn)在以下幾個(gè)方面。
·提升核心能力:實(shí)現(xiàn)了網(wǎng)絡(luò)隱患預(yù)先把控能力、端到端分析能力、網(wǎng)絡(luò)資源預(yù)測(cè)調(diào)配能力以及網(wǎng)絡(luò)質(zhì)量評(píng)估支撐能力。
·提高管理效率:規(guī)則固化及集中運(yùn)維,大幅度提高工作效率;實(shí)現(xiàn)閉環(huán)管理,提高了溝通效率;支撐服務(wù)地市,提升了各個(gè)地市的應(yīng)用水平。
·提升企業(yè)效益:支撐市場(chǎng)精細(xì)化營(yíng)銷,促進(jìn)業(yè)務(wù)發(fā)展,增加企業(yè)效益,平臺(tái)的集中建設(shè)極大地提升投資效益。
·提高客戶感知:通過(guò)關(guān)鍵業(yè)務(wù)質(zhì)量提升,減少客戶投訴,保障客戶感知。
以某省四網(wǎng)協(xié)調(diào)資源調(diào)配能力應(yīng)用為例,基于數(shù)據(jù)共享平臺(tái)對(duì)四網(wǎng)協(xié)同分析進(jìn)行強(qiáng)化,進(jìn)行TD-SCDMA站點(diǎn)和WLAN AP的規(guī)劃選址和拆閑補(bǔ)忙,精準(zhǔn)投放網(wǎng)絡(luò)資源,實(shí)現(xiàn)效益最大化。對(duì)各資源的調(diào)整優(yōu)化成果如圖8~圖10所示。
圖8中,規(guī)劃了410個(gè)TD-SCDMA站點(diǎn)新建工作,累計(jì)完成96個(gè)TD-SCDMA小區(qū)的拆閑補(bǔ)忙工作;圖9中,規(guī)劃了21個(gè)TD-SCDMA搬遷站點(diǎn)工作,對(duì)4組站點(diǎn)進(jìn)行拆閑補(bǔ)忙的設(shè)備互調(diào);圖10中,新規(guī)劃109個(gè)TD-SCDMA站點(diǎn),利用拆閑補(bǔ)忙有效支撐開(kāi)學(xué)的迎新促銷,高校區(qū)域超閑AP減少886個(gè),全網(wǎng)超閑TD-SCDMA小區(qū)和WLAN AP數(shù)量顯著下降。實(shí)現(xiàn)了將生產(chǎn)系統(tǒng)數(shù)據(jù)準(zhǔn)實(shí)時(shí)整合到統(tǒng)一的數(shù)據(jù)共享平臺(tái)上,同時(shí)提高數(shù)據(jù)共享能力,減輕生產(chǎn)系統(tǒng)的壓力,使生產(chǎn)系統(tǒng)專注于生產(chǎn)運(yùn)營(yíng),提高專業(yè)化運(yùn)作效率,降低企業(yè)運(yùn)營(yíng)成本,從而提升了企業(yè)數(shù)據(jù)資產(chǎn)價(jià)值。
圖8 TD-SCDMA站點(diǎn)新建工作
圖9 TD-SCDMA站點(diǎn)搬遷工作
圖10 TD-SCDMA站點(diǎn)規(guī)劃工作
本文運(yùn)用分布式計(jì)算和存儲(chǔ)技術(shù),開(kāi)展和探索了基于Hadoop+MPP架構(gòu)的電信運(yùn)營(yíng)商網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)建設(shè)的研究。探索數(shù)據(jù)倉(cāng)庫(kù)體系建設(shè),通過(guò)整合各專業(yè)分散的網(wǎng)管數(shù)據(jù),搭建了網(wǎng)絡(luò)側(cè)的基礎(chǔ)數(shù)據(jù)平臺(tái)、BI應(yīng)用平臺(tái)、統(tǒng)一管控平臺(tái),支撐上層應(yīng)用;細(xì)分?jǐn)?shù)據(jù)共享層,探索建立統(tǒng)一的數(shù)據(jù)模型和接口,以響應(yīng)上層應(yīng)用的開(kāi)發(fā)需要。數(shù)據(jù)共享平臺(tái)的所有模型對(duì)上層應(yīng)用開(kāi)放,應(yīng)用廠商可以通過(guò)標(biāo)準(zhǔn)的接口調(diào)用,實(shí)現(xiàn)高效應(yīng)用開(kāi)發(fā)。
對(duì)Hadoop的二次開(kāi)發(fā)影響上層平臺(tái)的使用,而目前行業(yè)內(nèi)優(yōu)秀的Hadoop二次開(kāi)發(fā)技術(shù)人員比較缺乏,開(kāi)發(fā)人員經(jīng)驗(yàn)不足和技術(shù)底蘊(yùn)的深厚會(huì)嚴(yán)重影響Hadoop的應(yīng)用。因此,本研究的后續(xù)工作是優(yōu)化Hadoop的二次開(kāi)發(fā)工作,進(jìn)一步探究MPP和Hadoop的深層理論,找到兩者的最佳契合點(diǎn),實(shí)現(xiàn)Hadoop和MPP的完美結(jié)合。
1 王峰,雷葆華.Hadoop分布式文件系統(tǒng)的模型分析.電信科學(xué),2010,26(12)
2 程瑩,張?jiān)朴?徐雷等.基于Hadoop及關(guān)系型數(shù)據(jù)庫(kù)的海量數(shù)據(jù)分析研究.電信科學(xué),2010,26(11)
3 田秀霞,周耀君,畢忠勤等.基于Hadoop架構(gòu)的分布式計(jì)算和存儲(chǔ)應(yīng)用.上海電力學(xué)學(xué)報(bào),2011,27(1)
4 陳夢(mèng)杰,陳勇旭,賈益斌等.基于Hadoop的大數(shù)據(jù)查詢系統(tǒng)簡(jiǎn)述.計(jì)算機(jī)與數(shù)字工程,2013(12)
5 單士華,曹社香.基于Hadoop處理大數(shù)據(jù)分析.創(chuàng)新科技,2013(12)
6 張雨,蔡鑫,李愛(ài)民等.分布式文件系統(tǒng)與MPP數(shù)據(jù)庫(kù)的混搭架構(gòu)在電信大數(shù)據(jù)平臺(tái)中的應(yīng)用.電信科學(xué),2013,29(11)
7 吉增瑞.基于MPP結(jié)構(gòu)的計(jì)算機(jī)平臺(tái)數(shù)據(jù)庫(kù)管理系統(tǒng)設(shè)計(jì)技術(shù)探討.計(jì)算機(jī)工程與科學(xué),1998(Z1)
8 基于Hadoop的大規(guī)模數(shù)據(jù)處理系統(tǒng).http://wenku.baidu.com/link url=ZNmtQsNXNogXR6 MDZKFT8cri7_eINjCix8I0X_4aucr-GC2X3JQfg-TlYfOPJfY4q93O6ERd_HXQoxZCkvtFXTUUOS-FqITz cneblkCXhSV4G
9 李建中,劉顯敏.大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性.計(jì)算機(jī)研究與發(fā)展,2013,50(6)