王 巖,黃 瑩,林君穎
(1.海南電網(wǎng)有限責(zé)任公司信息通信分公司,海南 ???570203;2.海南電網(wǎng)有限責(zé)任公司客戶服務(wù)中心,海南 海口 570203)
隨著我國電力行業(yè)的飛速發(fā)展,電力系統(tǒng)在長期運(yùn)行中也產(chǎn)生愈來愈多的數(shù)據(jù)信息,導(dǎo)致傳統(tǒng)數(shù)據(jù)處理系統(tǒng)出現(xiàn)較多的技術(shù)弊端。在目前現(xiàn)代信息技術(shù)背景下,大數(shù)據(jù)、云計(jì)算等新興技術(shù)的應(yīng)用,為電力行業(yè)的數(shù)據(jù)處理提供了新機(jī)遇。因此文中立足電力行業(yè)的業(yè)務(wù)開展情況及特點(diǎn),將云平臺引入研究,提出基于云平臺的電力系統(tǒng)數(shù)據(jù)處理方案。該方案能夠運(yùn)用云平臺的數(shù)據(jù)存儲資源,實(shí)現(xiàn)對海量電力系統(tǒng)運(yùn)行數(shù)據(jù)的高效處理,有效提升了電力系統(tǒng)的數(shù)據(jù)處理工作效率。提出了基于邏輯回歸的改進(jìn)分類算法,可以實(shí)現(xiàn)用電記錄數(shù)據(jù)的分類計(jì)算,做到正常、異常兩種用電數(shù)據(jù)的有效區(qū)分,能夠?yàn)殡娏ζ髽I(yè)提供更合理的決策支撐。
云計(jì)算將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池中,各系統(tǒng)根據(jù)需要獲取資源池內(nèi)提供的各類計(jì)算、存儲等資源服務(wù),主要依賴以下3 種技術(shù)。
實(shí)現(xiàn)計(jì)算機(jī)程序基于虛擬平臺而非真實(shí)平臺運(yùn)行,能夠有效簡化系統(tǒng)配置,明顯提升計(jì)算機(jī)技術(shù)的工作效率。虛擬化技術(shù)系統(tǒng)結(jié)構(gòu)如圖1 所示。
圖1 虛擬化技術(shù)系統(tǒng)結(jié)構(gòu)
大數(shù)據(jù)技術(shù)能夠處理各種數(shù)據(jù)類型,從中獲取具有豐富價(jià)值的數(shù)據(jù)信息。大數(shù)據(jù)關(guān)鍵技術(shù)包括數(shù)據(jù)采集、預(yù)處理、存儲、分析和挖掘以及結(jié)果呈現(xiàn),如圖2 所示。Hadoop 共計(jì)包括了三大核心組成,分別為Hdfs、Yarn 和MapReduce。
圖2 大數(shù)據(jù)關(guān)鍵技術(shù)
基于Hadoop 能夠提供有效的大數(shù)據(jù)處理技術(shù)支持,側(cè)重于數(shù)據(jù)計(jì)算、存儲、分析,并未重點(diǎn)針對數(shù)據(jù)進(jìn)行接入處理。流式處理則能夠?qū)崿F(xiàn)數(shù)據(jù)流入至系統(tǒng)中,完成連續(xù)的數(shù)據(jù)計(jì)算。
該文搭建云平臺的關(guān)鍵步驟如下:
1)部署Hadoop 集群。首先進(jìn)行JDK 和SSH 安裝,并對Hadoop 配置文件進(jìn)行修改,對文件成功復(fù)制后進(jìn)行格式化處理,在可以通過DataNode 成功看到Node、Manager 后,即表示搭建成功。
2)部署ZooKeeper 集群。ZooKeeper 能夠?qū)崿F(xiàn)Hbase、Kafka 以及Spark 的多集群協(xié)調(diào)管理。首先對zoo.cfg 文件進(jìn)行修改,成功復(fù)制文件后即可啟動服務(wù),部分代碼如下:
3)部署Hive。為了有效提升Hive 元數(shù)據(jù)處理的安全性,通過MySQL 實(shí)現(xiàn)元數(shù)據(jù)存儲,完成MySQL安裝后進(jìn)行Live 配置。首先完成MySQL 安裝,之后對hive-site.xml 文件進(jìn)行修改,成功復(fù)制文件后即可啟動服務(wù)。
4)部署Hbase 集群。在完成ZooKeeper 集群安裝后,下載安裝regionservers、hbase-env.sh 等文件,成功復(fù)制文件后即可啟動服務(wù)。
5)部署Spark 集群。首先進(jìn)行SCALA 安裝,對其中參數(shù)配置進(jìn)行修訂,成功復(fù)制文件后即可啟動服務(wù)。
6)部署Kafka 集群。在完成ZooKeeper 集群安裝后,修改相應(yīng)配置文件,成功復(fù)制文件后即可啟動服務(wù)。
根據(jù)以上建立該次研究的云平臺,主要是為了滿足以下功能:1)處理系統(tǒng)大數(shù)據(jù)集。2)實(shí)時(shí)查詢數(shù)據(jù)。3)對流式數(shù)據(jù)進(jìn)行處理分發(fā)。4)統(tǒng)計(jì)分析并成功挖掘數(shù)據(jù)。
平臺技術(shù)架構(gòu)如圖3 所示。
圖3 云平臺技術(shù)架構(gòu)圖
從數(shù)據(jù)采集來看,實(shí)現(xiàn)電力行業(yè)運(yùn)行數(shù)據(jù)的遠(yuǎn)程采集,作為我國建設(shè)智能電網(wǎng)的關(guān)鍵基礎(chǔ)技術(shù),能夠在電力行業(yè)數(shù)據(jù)采集中應(yīng)用數(shù)據(jù)處理技術(shù),有效提高數(shù)據(jù)遠(yuǎn)程采集的時(shí)效性、精準(zhǔn)度。經(jīng)服務(wù)器匯總并處理數(shù)據(jù),在數(shù)據(jù)庫內(nèi)寫入數(shù)據(jù)即可實(shí)現(xiàn)數(shù)據(jù)持久化工作,并上調(diào)應(yīng)用服務(wù)層。
其次,從電量數(shù)據(jù)計(jì)算業(yè)務(wù)來看,在電網(wǎng)運(yùn)行中存在諸多業(yè)務(wù)邏輯,其中以電量計(jì)算、線損計(jì)算最為廣泛,差異化表計(jì)能夠在電力系統(tǒng)的不同運(yùn)行狀態(tài)下,成功采集各類運(yùn)行數(shù)據(jù),雖然應(yīng)用了差異化數(shù)據(jù)處理方法,但最終能獲取統(tǒng)一的數(shù)據(jù)格式。
最后,從查詢業(yè)務(wù)來說,一般情況下業(yè)務(wù)人員對于計(jì)算機(jī)信息技術(shù)并不熟悉,所以不可能要求從業(yè)電力行業(yè)人員能夠經(jīng)計(jì)算系統(tǒng)得出計(jì)算結(jié)果。所以需要實(shí)現(xiàn)以下的數(shù)據(jù)查詢?nèi)蝿?wù),包括查詢原始數(shù)據(jù)、單日電量、單日線損、單用戶歷史電量、單用戶歷史線損。
基于云平臺能夠有效整合大數(shù)據(jù)組件,實(shí)現(xiàn)橫向數(shù)據(jù)處理平臺拓展,有效增強(qiáng)系統(tǒng)數(shù)據(jù)處理的計(jì)算存儲能力?;谠破脚_電力業(yè)務(wù)處理方案的數(shù)據(jù)流程如圖4 所示,主要運(yùn)用了模塊化設(shè)計(jì)理念,包括數(shù)據(jù)采集分發(fā)、在線處理、離線處理、存儲查詢、Web展示五大模塊。
圖4 基于云平臺電力業(yè)務(wù)處理方案數(shù)據(jù)流程
數(shù)據(jù)采集分發(fā)模塊能夠采集并分發(fā)電力行業(yè)數(shù)據(jù);在線處理模塊可以檢測系統(tǒng)設(shè)備的運(yùn)行產(chǎn)生數(shù)據(jù);離線處理模塊能夠計(jì)算用戶的電量、線損,滿足具體的查詢業(yè)務(wù);存儲查詢模塊可以存儲和查詢相應(yīng)的詳細(xì)數(shù)據(jù)信息;Web 展示模塊能夠?yàn)橄到y(tǒng)操作用戶呈現(xiàn)最終的數(shù)據(jù)參數(shù)輸入、查詢結(jié)果。
3.3.1 邏輯回歸算法
邏輯回歸計(jì)算公式如下:
根據(jù)式(1)建立邏輯回歸計(jì)算模型,其最大似然函數(shù)公式如下:
3.3.2 基于信息量特征選擇法
1)在用電數(shù)據(jù)分析過程中,產(chǎn)生的異常數(shù)據(jù)一般為產(chǎn)生較大波動以及較大波動頻率的數(shù)據(jù),可能是運(yùn)用的計(jì)量設(shè)備發(fā)生了故障,應(yīng)當(dāng)對其進(jìn)行相應(yīng)的技術(shù)排查。在分析過程中極易發(fā)現(xiàn)多數(shù)用戶都能獲得穩(wěn)定的用電數(shù)據(jù),所以在全部用電數(shù)據(jù)中異常數(shù)據(jù)的占比較小。所以在對用電數(shù)據(jù)進(jìn)行分析時(shí),需要重視異常數(shù)據(jù)的正確分類。
2)在對電力行業(yè)信息量進(jìn)行計(jì)算并選取特征數(shù)據(jù)時(shí),可以運(yùn)用高維用電數(shù)據(jù)進(jìn)行分類,根據(jù)一定特征輸入分類算法,在分類建模過程中判定該類分類數(shù)據(jù)的依據(jù),主要的測試集內(nèi)包括了正常、異常兩類數(shù)據(jù),而該類數(shù)據(jù)并不能直接代表類別特點(diǎn),所以在特征輸入時(shí)需要盡可能避免產(chǎn)生異常特征。
在選取特征時(shí)就要求能夠?qū)γ恳粋€(gè)異常特征都完成相應(yīng)的信息量計(jì)算,并根據(jù)相應(yīng)的選取規(guī)則有效降低計(jì)算復(fù)雜度。特征選取流程圖如圖5所示。
圖5 特征選取流程圖
測試中主要的實(shí)驗(yàn)環(huán)境包含2 臺聯(lián)想服務(wù)器、1 000 M 以太網(wǎng)交換機(jī),并配置了5 臺云平臺節(jié)點(diǎn)和Web 服務(wù)器。
該方案設(shè)計(jì)中,云平臺對于數(shù)據(jù)的底層存儲由Hdfs 實(shí)現(xiàn),經(jīng)前置機(jī)Kafka 有效分發(fā)數(shù)據(jù)后,存入Hdfs 系統(tǒng),所以獲得了良好的云平臺數(shù)據(jù)讀寫性能,然后將關(guān)系型數(shù)據(jù)庫內(nèi)存儲數(shù)據(jù)輸入Hdfs 內(nèi)。Hadoop 能夠提供API 獲得Put,成功拷貝Hdfs 內(nèi)的數(shù)據(jù),即可存儲處理后的數(shù)據(jù)。監(jiān)測數(shù)據(jù)曲線如圖6所示,圖中曲線代表隨著實(shí)驗(yàn)次數(shù)增加,所測得實(shí)驗(yàn)數(shù)據(jù)總量也隨之增長。該次設(shè)計(jì)的基于云平臺的電力行業(yè)數(shù)據(jù)處理方案,能夠獲得較快的數(shù)據(jù)讀寫速度,并且可以滿足每天最高達(dá)到5 TB 以上的數(shù)據(jù)讀寫量,所以可以用于承載電力行業(yè)的數(shù)據(jù)業(yè)務(wù)處理。
圖6 監(jiān)測數(shù)據(jù)曲線圖
隨著我國智能電網(wǎng)事業(yè)的大力開展,智能電表的廣泛應(yīng)用產(chǎn)生了海量數(shù)據(jù)。該文提出基于云平臺的電力行業(yè)數(shù)據(jù)處理方案,實(shí)現(xiàn)了Hadoop、Kafka、Hbase 等大數(shù)據(jù)處理技術(shù)的有效整合,并提出基于邏輯回歸算法的數(shù)據(jù)分類計(jì)算方法,經(jīng)平臺測試驗(yàn)證了該數(shù)據(jù)處理方案能夠獲得較好的數(shù)據(jù)讀寫、安全及平臺拓展性,簡化了數(shù)據(jù)處理計(jì)算的復(fù)雜度。