作者/李方軍,國(guó)網(wǎng)甘肅省電力公司;黃文思、羅義旺、吳彬、郁文龍,國(guó)網(wǎng)信通億力科技有限責(zé)任公司
基于云計(jì)算平臺(tái)的電力全業(yè)務(wù)數(shù)據(jù)中心建設(shè)研究
作者/李方軍,國(guó)網(wǎng)甘肅省電力公司;黃文思、羅義旺、吳彬、郁文龍,國(guó)網(wǎng)信通億力科技有限責(zé)任公司
針對(duì)電力全業(yè)務(wù)數(shù)據(jù)中心建設(shè)過(guò)程中,傳統(tǒng)數(shù)據(jù)中心普遍存在的成本高、不易擴(kuò)展、數(shù)據(jù)存儲(chǔ)和處理等方面缺陷,提出基于云計(jì)算平臺(tái)的電力全業(yè)務(wù)數(shù)據(jù)中心建設(shè),將云計(jì)算平臺(tái)框架與電力全業(yè)務(wù)數(shù)據(jù)框架結(jié)合,充分利用云平臺(tái)的數(shù)據(jù)存儲(chǔ) 、數(shù)據(jù)計(jì)算、以及數(shù)據(jù)分析處理優(yōu)勢(shì),對(duì)電網(wǎng)公司的全類(lèi)型業(yè)務(wù)數(shù)據(jù)通過(guò)接入、采集和過(guò)濾,構(gòu)造出全業(yè)務(wù)數(shù)據(jù)模型,進(jìn)行數(shù)據(jù)分析挖掘,從而優(yōu)化公司各類(lèi)業(yè)務(wù)、管理及決策,有效實(shí)現(xiàn)電網(wǎng)公司全業(yè)務(wù)數(shù)據(jù)中心的建設(shè)和治理。
云計(jì)算平臺(tái); 全業(yè)務(wù); 數(shù)據(jù)中心; 數(shù)據(jù)分析
在國(guó)家電網(wǎng)公司向大數(shù)據(jù)信息化企業(yè)方向發(fā)展的大背景下[1],促使國(guó)網(wǎng)電力進(jìn)行全業(yè)務(wù)數(shù)據(jù)的建設(shè)和治理,傳統(tǒng)的舊業(yè)務(wù)框架存在諸多問(wèn)題,如對(duì)于融合業(yè)務(wù)無(wú)法實(shí)現(xiàn),系統(tǒng)升級(jí)和維護(hù)成本的增加,以及業(yè)務(wù)能力重復(fù)利用的效率低下等,以至于傳統(tǒng)的業(yè)務(wù)框架不能提供企業(yè)數(shù)據(jù)的全方位存儲(chǔ),進(jìn)而導(dǎo)致企業(yè)不能有效利用大數(shù)據(jù)進(jìn)行深度的數(shù)據(jù)分析和挖掘,來(lái)提高企業(yè)的數(shù)據(jù)運(yùn)營(yíng)體系和業(yè)務(wù)創(chuàng)新等服務(wù)。為了更好的實(shí)現(xiàn)電力全業(yè)務(wù)數(shù)據(jù)中心的建設(shè),完成電力企業(yè)數(shù)據(jù)治理,本文提出了基于云計(jì)算平臺(tái)的電力全業(yè)務(wù)數(shù)據(jù)中心建設(shè),通過(guò)云計(jì)算在大數(shù)據(jù)的存儲(chǔ)與并行計(jì)算等方面的優(yōu)勢(shì),結(jié)合數(shù)據(jù)挖掘技術(shù),達(dá)成數(shù)據(jù)共享與業(yè)務(wù)融合,從而將公司的管理、運(yùn)轉(zhuǎn)、業(yè)務(wù)進(jìn)行全方位合理優(yōu)化。
云計(jì)算是以分布式網(wǎng)絡(luò)為基礎(chǔ),具有大量存儲(chǔ)設(shè)備和節(jié)點(diǎn),向外界提供數(shù)據(jù)資源服務(wù),因此它存在基礎(chǔ)和服務(wù)兩種架構(gòu),這兩種架構(gòu)依次完成云計(jì)算平臺(tái)的部署、資源服務(wù)的供應(yīng),從整體上看,云計(jì)算框架可以歸納為基礎(chǔ)設(shè)施與平臺(tái)應(yīng)用兩個(gè)層次,如圖1所示,其中基礎(chǔ)層次主要負(fù)責(zé)大數(shù)據(jù)的存儲(chǔ)、運(yùn)算工作,可以完成海量數(shù)據(jù)的并行操作;平臺(tái)應(yīng)用主要負(fù)責(zé)提供服務(wù)平臺(tái)與應(yīng)用軟件,為使用者提供相應(yīng)的軟件與網(wǎng)絡(luò)服務(wù),針對(duì)企業(yè)級(jí)客戶(hù),依托云平臺(tái)資源的高度自動(dòng)化管理,實(shí)現(xiàn)包括服務(wù)接入、數(shù)據(jù)管理、業(yè)務(wù)監(jiān)測(cè)評(píng)估、資源與環(huán)境的運(yùn)行等,并根據(jù)工作流程,自主完成企業(yè)數(shù)據(jù)的分析提取,統(tǒng)籌各類(lèi)數(shù)據(jù)和管理的融合,從而提高企業(yè)的業(yè)務(wù)效率。
傳統(tǒng)網(wǎng)絡(luò)服務(wù)器是通過(guò)在電力公司建設(shè)機(jī)房和機(jī)柜,存在建設(shè)成本和維護(hù)成本高、運(yùn)行收斂速度慢、網(wǎng)絡(luò)和自身故障無(wú)法保障、資源存儲(chǔ)和監(jiān)測(cè)受限等諸多問(wèn)題,而云計(jì)算平臺(tái)恰好改善了這些缺點(diǎn)。
電力全業(yè)務(wù)數(shù)據(jù)中心是為電力公司的管理與決策服務(wù)的[2],將傳統(tǒng)的單一數(shù)據(jù)存儲(chǔ)查找轉(zhuǎn)變?yōu)樽詣?dòng)化數(shù)據(jù)采集分析挖掘,提高數(shù)據(jù)處理能力和管理效率。根據(jù)云計(jì)算企業(yè)級(jí)數(shù)據(jù)框架,以及電網(wǎng)公司當(dāng)前業(yè)務(wù)數(shù)據(jù)的實(shí)際現(xiàn)狀,提出并設(shè)計(jì)基于云計(jì)算平臺(tái)的電力全業(yè)務(wù)數(shù)據(jù)中心建設(shè)框架,該框架利用云計(jì)算平臺(tái)的基礎(chǔ)層將采集到的所有數(shù)據(jù)標(biāo)準(zhǔn)化以后,完成數(shù)據(jù)的存儲(chǔ)與計(jì)算,再利用平臺(tái)應(yīng)用來(lái)完成業(yè)務(wù)接入與分析服務(wù)功能,據(jù)此可以得到如圖2所示的云計(jì)算平臺(tái)下電力全業(yè)務(wù)數(shù)據(jù)中心框架。
圖1 云計(jì)算框架圖
圖2 云計(jì)算平臺(tái)下電力全業(yè)務(wù)數(shù)據(jù)中心框架
業(yè)務(wù)數(shù)據(jù)的接入分為內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)兩種情況。根據(jù)電網(wǎng)公司的實(shí)際業(yè)務(wù),內(nèi)部業(yè)務(wù)主要包括ERP、營(yíng)銷(xiāo)管理、財(cái)務(wù)管理、繳費(fèi)管理、供電信息采集監(jiān)測(cè)、項(xiàng)目管理、員工與客戶(hù)信息管理等眾多項(xiàng)目,應(yīng)對(duì)這些內(nèi)部業(yè)務(wù)數(shù)據(jù)項(xiàng)目采取統(tǒng)一的數(shù)據(jù)收集,采用數(shù)據(jù)挖掘與數(shù)據(jù)分析技術(shù)進(jìn)行相應(yīng)的數(shù)據(jù)分析與決策,并且將其進(jìn)行統(tǒng)籌建模,得到各自的數(shù)據(jù)模型,再根據(jù)模型對(duì)相關(guān)的業(yè)務(wù)或者管理進(jìn)行規(guī)范化操作,針對(duì)數(shù)據(jù)中不滿(mǎn)足模型規(guī)范的噪聲數(shù)據(jù)進(jìn)行濾除[3],這樣便能得到良好的業(yè)務(wù)接口,從而實(shí)現(xiàn)數(shù)據(jù)資源的優(yōu)化管理。外部數(shù)據(jù)作為輔助也需要進(jìn)行相應(yīng)的采集,比如當(dāng)前市場(chǎng)經(jīng)濟(jì)形勢(shì)和氣候氣象等因素,對(duì)于數(shù)據(jù)分析具有一定影響的因子也應(yīng)充分考慮。
通過(guò)對(duì)全業(yè)務(wù)數(shù)據(jù)的統(tǒng)一分析,便于通過(guò)數(shù)據(jù)分析計(jì)算出電網(wǎng)運(yùn)行狀態(tài)和用戶(hù)的一些信息[4]。
對(duì)電網(wǎng)的低壓數(shù)據(jù)采集監(jiān)控,結(jié)合云計(jì)算平臺(tái)的多元異構(gòu)存儲(chǔ)方式,處理得到電網(wǎng)中的低壓地區(qū)及低壓程度信息,并將分析得出的結(jié)果及原因及時(shí)進(jìn)行告警,根據(jù)警報(bào)的嚴(yán)重程度作出相應(yīng)的業(yè)務(wù)調(diào)度和處理,以及是否需要檢修或改造。
利用云計(jì)算平臺(tái)收集用戶(hù)的相關(guān)信息,包含用電量、用電時(shí)段、電網(wǎng)操作事件等,根據(jù)這些數(shù)據(jù)可以建立出電網(wǎng)負(fù)荷模型,用電分布模型,用戶(hù)檔案信息,并分析出用戶(hù)的用電習(xí)慣,電網(wǎng)的用電負(fù)荷情況,電費(fèi)使用和繳納情況,或者是否有竊電等行為。
數(shù)據(jù)的提取要初始化存量數(shù)據(jù),該過(guò)程分為兩個(gè)步驟,首先要將其接入ODS緩沖區(qū),然后把ODS緩沖區(qū)鏈接到數(shù)據(jù)池中。在第一個(gè)過(guò)程中,通過(guò)云計(jì)算平臺(tái)的Sqoop組件接入緩沖區(qū)的時(shí)候,具有寬泛的數(shù)據(jù)轉(zhuǎn)換功能,對(duì)于云計(jì)算平臺(tái)下的多種數(shù)據(jù)庫(kù)都具有良好的訪問(wèn)能力。對(duì)其進(jìn)行相應(yīng)的設(shè)置,就可以對(duì)普通數(shù)據(jù)進(jìn)行識(shí)別提取,要想提取得到較為復(fù)雜的特征數(shù)據(jù),可以調(diào)用Sqoop中的模塊來(lái)完成。
與緩沖區(qū)完成連接后,結(jié)合文件導(dǎo)入技術(shù),把目標(biāo)數(shù)據(jù)與數(shù)據(jù)存儲(chǔ)池進(jìn)行連接,完成數(shù)據(jù)的加載、數(shù)據(jù)校驗(yàn)功能。這種數(shù)據(jù)的初始化有利于降低平臺(tái)應(yīng)用的負(fù)載,當(dāng)平臺(tái)應(yīng)用處于忙碌狀態(tài)時(shí),暫時(shí)停止文件導(dǎo)入,待平臺(tái)應(yīng)用空閑,便導(dǎo)入文件,優(yōu)化了平臺(tái)應(yīng)用的數(shù)據(jù)訪問(wèn)和業(yè)務(wù)管理。
數(shù)據(jù)計(jì)算存在離線數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)兩種情況,根據(jù)它們各自的特點(diǎn),采用不同的方式進(jìn)行計(jì)算。利用Spark優(yōu)化組件,能夠?qū)υ朴?jì)算平臺(tái)下離線數(shù)據(jù)進(jìn)行并行計(jì)算,通過(guò)迭代計(jì)算,可以完成離線數(shù)據(jù)的批量操作,同時(shí)系統(tǒng)會(huì)將處理得到的熱點(diǎn)和重點(diǎn)數(shù)據(jù)放置于特殊位置,利于快速提取使用,有效治理數(shù)據(jù)處理耗時(shí)長(zhǎng)的問(wèn)題。
數(shù)據(jù)流作為實(shí)時(shí)數(shù)據(jù)的一種,通過(guò)Storm組件進(jìn)行計(jì)算,它的主要任務(wù)是把數(shù)據(jù)放入內(nèi)存,然后對(duì)其處理分析,獲取數(shù)據(jù)流中包含的所需信息,由于該過(guò)程是在內(nèi)存中處理,所以實(shí)時(shí)性強(qiáng)。對(duì)于在線請(qǐng)求,則通過(guò)Spark優(yōu)化組件進(jìn)行實(shí)時(shí)處理。
利用分布式倉(cāng)庫(kù)組件,把數(shù)據(jù)進(jìn)行分類(lèi)存儲(chǔ)[5],當(dāng)平臺(tái)應(yīng)用的前端需要數(shù)據(jù)支持時(shí),直接將倉(cāng)庫(kù)中的存儲(chǔ)數(shù)據(jù)提取出即可,此時(shí)提取出的數(shù)據(jù)存放于數(shù)據(jù)集中,前端數(shù)據(jù)也是依托數(shù)據(jù)集的支持,因此通過(guò)PostgreSQL優(yōu)化組件,訪問(wèn)數(shù)據(jù)庫(kù),完成業(yè)務(wù)數(shù)據(jù)的存儲(chǔ)訪問(wèn)。
基于云計(jì)算平臺(tái)的電力全業(yè)務(wù)數(shù)據(jù)中心通過(guò)電網(wǎng)公司的數(shù)據(jù)管理和分析挖掘,完成主要業(yè)務(wù)的接入,搭建相關(guān)數(shù)據(jù)模型,優(yōu)化管理和業(yè)務(wù)調(diào)度。對(duì)于數(shù)據(jù)的挖掘,相比傳統(tǒng)業(yè)務(wù)數(shù)據(jù)中心,能夠自主完成數(shù)據(jù)分析模型,為云平臺(tái)下的海量數(shù)據(jù)分析提供保障,同時(shí)可以自主完成數(shù)據(jù)處理和評(píng)估模型,無(wú)需人工參與數(shù)據(jù)提取、整理和分析。
云計(jì)算平臺(tái)的分析工具具有功能強(qiáng)大的模型組件,使操作人員更容易進(jìn)行業(yè)務(wù)數(shù)據(jù)的處理,通過(guò)對(duì)模型組件的設(shè)置,便可實(shí)現(xiàn)數(shù)據(jù)挖掘模型的構(gòu)建,并能夠通過(guò)原始數(shù)據(jù),采用圖標(biāo)的形式展現(xiàn)出數(shù)據(jù)分析挖掘得到的結(jié)果,給相關(guān)業(yè)務(wù)人員展示更為清晰全面的分析與決策。
從數(shù)據(jù)中心框架上,本文提出的基于云計(jì)算平臺(tái)電力全業(yè)務(wù)數(shù)據(jù)中心框架在數(shù)據(jù)的存儲(chǔ)、處理等方面,依托云平臺(tái),具有明顯優(yōu)勢(shì),并且業(yè)務(wù)升級(jí)和維護(hù)更簡(jiǎn)單,數(shù)據(jù)安全性更高。對(duì)于數(shù)據(jù)接入方面,對(duì)于數(shù)據(jù)類(lèi)型的兼容性更寬,無(wú)論實(shí)時(shí)性如何,都能有效采集監(jiān)測(cè),完成調(diào)度任務(wù)。對(duì)于分析服務(wù),完善的模型構(gòu)建能力,和數(shù)據(jù)分析能力,使其對(duì)業(yè)務(wù)數(shù)據(jù)的管理和評(píng)估更加高效和準(zhǔn)確。
為了解決國(guó)家電網(wǎng)公司全業(yè)務(wù)數(shù)據(jù)建設(shè)和治理問(wèn)題,提出并設(shè)計(jì)了基于云計(jì)算平臺(tái)的電力全業(yè)務(wù)數(shù)據(jù)中心建設(shè)方案,通過(guò)云計(jì)算充分發(fā)揮大數(shù)據(jù)功能,有效改善了電力全業(yè)務(wù)數(shù)據(jù)中心的系統(tǒng)可擴(kuò)展性,降低了系統(tǒng)成本,利用分布式存儲(chǔ)和并行式計(jì)算,自主完成數(shù)據(jù)模型的構(gòu)建和分析,實(shí)現(xiàn)電網(wǎng)公司所有業(yè)務(wù)的大數(shù)據(jù)分析處理,進(jìn)而完成電力全業(yè)務(wù)數(shù)據(jù)的整合和治理。
* [1] 國(guó)家電網(wǎng)信通部. 國(guó)家電網(wǎng)公司關(guān)于印發(fā)公司全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心總體建設(shè)方案的通知[Z]. 2016.
* [2] 段軍紅,張乃丹,趙博,閆曉斌 .電力大數(shù)據(jù)基礎(chǔ)體系架構(gòu)與應(yīng)用研究[J].電力信息與通信技術(shù),2015,13(2):92-95.
* [3] 楊東華, 李寧寧, 王宏志, 等. 基于任務(wù)合并的并行大數(shù)據(jù)清洗過(guò)程優(yōu)化[J]. 計(jì)算機(jī)學(xué)報(bào), 2016, 39(1): 97-108.
* [4] 黃文思, 郝悍勇, 李金湖, 等. 基于決策樹(shù)算法的電力客戶(hù)欠費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)[J]. 電力信息與通信技術(shù), 2016, 14(1): 19-22.
* [5] JUNG K, LEPENDU P, LYER S, et al. Functional evaluation of out-of-the-box text-mining tools for data-mining tasks[J].Journal of the American Medical Informatics Association,2015, 22(1):121-131.