關(guān)兆雄
摘要:電力企業(yè)智能化技術(shù)的應(yīng)用是改革的一項(xiàng)重點(diǎn)內(nèi)容,而電力大數(shù)據(jù)智能化分析平臺(tái)是智能化升級(jí)的重要內(nèi)容。本文闡述了數(shù)據(jù)挖掘技術(shù)的基本方法進(jìn),提出了數(shù)據(jù)挖掘算法的改進(jìn)算法,分析了智能化數(shù)據(jù)挖掘技術(shù)的功能需求及設(shè)計(jì)原則、提出了智能化數(shù)據(jù)挖掘技術(shù)平臺(tái)的基本架構(gòu)設(shè)計(jì)和技術(shù)基礎(chǔ)、具體敘述了各模塊的基本功能。最后將平臺(tái)應(yīng)用實(shí)際電力企業(yè)中,實(shí)踐表明平臺(tái)的應(yīng)用取得了良好的效果。
關(guān)鍵詞:電力、智能化、數(shù)據(jù)挖掘
0、引言
電力企業(yè)智能化改革的深入,也帶來(lái)了一些問(wèn)題,例如智能化電力系統(tǒng)數(shù)據(jù)量更加龐大,數(shù)據(jù)管理工作更加困難[1]。數(shù)據(jù)挖掘技術(shù)就是海量、復(fù)雜的數(shù)據(jù)中快速提取有價(jià)值的數(shù)據(jù),因此數(shù)據(jù)挖掘技術(shù)對(duì)解決電力企業(yè)智能化應(yīng)用系統(tǒng)和平臺(tái)數(shù)據(jù)讀取問(wèn)題至關(guān)重要。電力企業(yè)和系統(tǒng)原始數(shù)據(jù)的智能化改造程度和技術(shù)不一樣,造成了數(shù)據(jù)類(lèi)型多種多樣,經(jīng)常出現(xiàn)系統(tǒng)數(shù)據(jù)異構(gòu)的情況[2]。數(shù)據(jù)挖掘技術(shù)對(duì)于電力企業(yè)不同系統(tǒng)或模塊之間數(shù)據(jù)的讀取十分有意義,可以提高系統(tǒng)的運(yùn)行速度和電力企業(yè)的工作效率[3]。數(shù)據(jù)挖掘技術(shù)可以用于電力企業(yè)的信息系統(tǒng)的信息管理和查詢(xún)優(yōu)化等,因此可以為電力企業(yè)的決策提供依據(jù)。
本文在研究數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則算法的改進(jìn),并將改進(jìn)的算法應(yīng)用到大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)平臺(tái)系統(tǒng)的高效分析。改進(jìn)的算法可以有助于電力企業(yè)建立一個(gè)綜合的電力大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的綜合共享、分析和應(yīng)用。
1、大數(shù)據(jù)挖掘平臺(tái)技術(shù)分析
1.1數(shù)據(jù)挖掘及其過(guò)程
數(shù)據(jù)挖掘技術(shù)是從海量的、復(fù)雜的數(shù)據(jù)中快速提取需要的數(shù)據(jù),并分析出數(shù)據(jù)之間的內(nèi)在關(guān)系,為決策提供依據(jù)。數(shù)據(jù)挖掘的過(guò)程一般包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘及分析、結(jié)果的表達(dá)與解釋等三個(gè)過(guò)程[4]。這三個(gè)過(guò)程分別完成數(shù)據(jù)的分析、數(shù)據(jù)集成和選擇及其之間關(guān)系的描述、結(jié)果輸出等。數(shù)據(jù)挖掘的過(guò)程如圖1所示。
1.2關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則是指在大型數(shù)據(jù)集中發(fā)現(xiàn)隱含的有價(jià)值的關(guān)系,用相應(yīng)的規(guī)則表示數(shù)據(jù)關(guān)系。數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則是通過(guò)設(shè)定的最小支持度和最小置信度確立的關(guān)聯(lián)規(guī)則,通常情況下分為尋找頻繁項(xiàng)集和挖掘具有高置信度的規(guī)則[5]。
2、數(shù)據(jù)挖掘與算法改進(jìn)
2.1Apriori 算法
Apriori 算法是數(shù)據(jù)挖掘常用的分析方法,其采用分層搜索策略,通過(guò)迭代的方法得到頻繁集[6]。Aprioir 算法的總體流程圖如圖 2 所示。
2.2IM_Apriori 算法并行化實(shí)現(xiàn)
本文在分析原有算法的基礎(chǔ)上,提出了IM_Apriori 算法的改良方法。該算法是基于 Spark 的并行化實(shí)現(xiàn)的,首先將原始的交易數(shù)據(jù)存儲(chǔ)在分布是文件系統(tǒng) HDSF 上,然后從 HDFS 中讀取數(shù)據(jù),將其轉(zhuǎn)化為布爾壓縮矩陣。然后根據(jù)轉(zhuǎn)化后的矩陣創(chuàng)建 RDD 并建立緩存[7]。由于要把事務(wù)轉(zhuǎn)化為矩陣,所以本文算法以 Map[String,Item]來(lái)保存數(shù)據(jù)[8].
3、電力大數(shù)據(jù)分析挖掘技術(shù)平臺(tái)設(shè)計(jì)
電力大數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)目的是提升電力系統(tǒng)的運(yùn)行效率,提供業(yè)務(wù)所需的數(shù)據(jù)采集、分析與存儲(chǔ)功能,滿(mǎn)足各種專(zhuān)業(yè)數(shù)據(jù)分析和共享的需求。
3.1設(shè)計(jì)原則
本文所述系統(tǒng)的設(shè)計(jì)除了能夠達(dá)成設(shè)計(jì)目標(biāo)之外,還應(yīng)遵循以下原則:系統(tǒng)采用松耦合架構(gòu)設(shè)計(jì),以元數(shù)據(jù)驅(qū)動(dòng)各模塊進(jìn)行數(shù)據(jù)的處理;采用體系化分布式并行處理技術(shù)或框架,實(shí)現(xiàn)數(shù)據(jù)的高效和流程化處理。
3.2功能需求設(shè)計(jì)分析
本文設(shè)計(jì)之前對(duì)系統(tǒng)的功能進(jìn)行了分析,平臺(tái)的整體架構(gòu)應(yīng)該能夠滿(mǎn)足各子系統(tǒng)和模塊之間的聯(lián)系和數(shù)據(jù)交流;平臺(tái)應(yīng)該能夠從流程、全周期的層面實(shí)現(xiàn)數(shù)據(jù)的采集、存儲(chǔ)、分析、表達(dá)等需求[9];平臺(tái)應(yīng)該能夠高效的實(shí)現(xiàn)數(shù)據(jù)采集、存儲(chǔ)、分析挖掘、可視化等內(nèi)容[10]。
3.3功能架構(gòu)設(shè)計(jì)
電力大數(shù)據(jù)智能數(shù)據(jù)挖掘平臺(tái)由桌面終端、移動(dòng)終端和大屏終端三部分組成,可以提供數(shù)據(jù)分析、核心數(shù)據(jù)分析和處理功能。平臺(tái)功能架構(gòu)如圖3所示。
3.5技術(shù)架構(gòu)設(shè)計(jì)
電力大數(shù)據(jù)平臺(tái)的數(shù)據(jù)量較其他使用功能平臺(tái)的數(shù)據(jù)量更多、更加復(fù)雜[11]。因此本文設(shè)計(jì)的數(shù)據(jù)挖掘平臺(tái)采用混合架構(gòu),實(shí)現(xiàn)了多種計(jì)算模式的統(tǒng)一管控[12]。
本文設(shè)計(jì)的系統(tǒng)采用的技術(shù)標(biāo)準(zhǔn)有:系統(tǒng)采用 linux64,架構(gòu)采用 Java EE 的 MVC 架構(gòu)模式。平臺(tái)的整體技術(shù)架構(gòu)圖如圖 4 所示。
為了實(shí)現(xiàn)一體化的電力大數(shù)據(jù)平臺(tái),從底層技術(shù)的架構(gòu)實(shí)現(xiàn)上,將平臺(tái)劃分為管理平臺(tái)子系統(tǒng)、調(diào)度子系統(tǒng)、基礎(chǔ)平臺(tái)、離線計(jì)算子系統(tǒng)、ETL? agent和 ETL 服務(wù)子系統(tǒng)六個(gè)應(yīng)用程序,共同支撐平臺(tái)的各種功能。
4、數(shù)據(jù)分析挖掘平臺(tái)應(yīng)用實(shí)踐
4.1平臺(tái)部署
平臺(tái)的使用部署主要包括兩個(gè)組成部分:一是基礎(chǔ)組件,包括分布式應(yīng)用協(xié)調(diào)服務(wù)Zookeeper、分布式系統(tǒng)基礎(chǔ)框架Hadoop、數(shù)據(jù)倉(cāng)庫(kù)工具Hive、工作流引擎Activiti、基于內(nèi)存的分布式并行計(jì)算框架Spark和集群監(jiān)控項(xiàng)目Ganglia等;另一部分是應(yīng)用程序War包,包括管理平臺(tái)子系統(tǒng)、調(diào)度子系統(tǒng)、基礎(chǔ)平臺(tái)、離線計(jì)算子系統(tǒng)、ETL服務(wù)子系統(tǒng)、ETLagent等。根據(jù)Linux運(yùn)行環(huán)境的要求,本平臺(tái)測(cè)試的運(yùn)行環(huán)境是rhel6.5。
4.2平臺(tái)在居民用電分析中的應(yīng)用
本文的試驗(yàn)數(shù)據(jù)是采集自南方某小區(qū)的用電數(shù)據(jù),在測(cè)試之前,首先對(duì)數(shù)據(jù)進(jìn)行了離散化的處理。數(shù)據(jù)初步處理之后,設(shè)定算法的最小支持度為 0.3,經(jīng)過(guò)分析得到關(guān)聯(lián)規(guī)則。
從得到的規(guī)則中,總結(jié)出了一下結(jié)論:用戶(hù)的用電量與收入呈正相關(guān)的關(guān)系;用戶(hù)住宅面積越大用電量越大;青年住戶(hù)比老年住戶(hù)的用電量高;假期期間的用電量比平時(shí)的用電量略有下降。
5、結(jié)論
電力企業(yè)數(shù)據(jù)與信息的快速處理是影響企業(yè)工作效率的重要因素,數(shù)據(jù)挖掘技術(shù)可以快速抓取有用的數(shù)據(jù)并通過(guò)分析關(guān)聯(lián)規(guī)則得出分析結(jié)果,通過(guò)本文的研究,可以得出以下結(jié)論:
1、本文分析了數(shù)據(jù)挖掘常用的Apriori算法,提出了該算法相應(yīng)的改進(jìn)方案,在計(jì)算下一級(jí)頻繁集時(shí),只需要根據(jù)當(dāng)前頻繁集矩陣進(jìn)行計(jì)算,然后將矩陣迭代更新,較少了計(jì)算量,提高了算法的效率。
2、本文在深入分析大數(shù)據(jù)平臺(tái)技術(shù)基礎(chǔ)上,根據(jù)電力大數(shù)據(jù)應(yīng)用需求,提出了電力大數(shù)據(jù)平臺(tái)功能需求和設(shè)計(jì)原則,并具體闡述了平臺(tái)的整體架構(gòu)和技術(shù)架構(gòu)。平臺(tái)的設(shè)計(jì)的架構(gòu)和功能滿(mǎn)足正常使用條件下的一般需求。
3、將本文設(shè)計(jì)的平臺(tái)系統(tǒng)在南方某電網(wǎng)公司進(jìn)行了應(yīng)用,并在單機(jī)環(huán)境和大數(shù)據(jù)平臺(tái)上對(duì)改進(jìn)算法進(jìn)行了測(cè)試,驗(yàn)證了改進(jìn)算法的高效性。 平臺(tái)的應(yīng)用,可以提供電力企業(yè)智能化數(shù)據(jù)挖掘平臺(tái)的工作效率。
參考文獻(xiàn):
[1]孫保華,陳蕾,夏棟,韓韜.基于大數(shù)據(jù)平臺(tái)的配電網(wǎng)智能化運(yùn)維管控平臺(tái)設(shè)計(jì)及應(yīng)用[J].電氣自動(dòng)化,2018,40(06):81-84.
[2]蔣越.淺談大數(shù)據(jù)時(shí)代信息管理智能化面臨的挑戰(zhàn)和應(yīng)對(duì)策略[J].金融經(jīng)濟(jì),2018(22):150-151.
[3]宋紹勇.“互聯(lián)網(wǎng)+”時(shí)代基于大數(shù)據(jù)智能化處理的精準(zhǔn)教學(xué)[J].中小學(xué)信息技術(shù)教育,2018(11):41-42.
[4]梅蘭. 基于知識(shí)與大數(shù)據(jù)的火電機(jī)組智能AGC控制技術(shù)研究[D].上海電力學(xué)院,2018.
[5]唐雅潔. 基于云服務(wù)的智能電網(wǎng)調(diào)度監(jiān)控平臺(tái)與輔助決策[D].浙江大學(xué),2018.
[6]丁霄寅,徐雯旭.基于智能化的電力大數(shù)據(jù)挖掘技術(shù)框架分析[J].山東工業(yè)技術(shù),2017(12):198.
[7]王彤. 基于大數(shù)據(jù)的智能變電站的選址模型設(shè)計(jì)[D].吉林大學(xué),2017.
[8]張建付. 大數(shù)據(jù)環(huán)境下智能電網(wǎng)關(guān)鍵設(shè)備健康評(píng)估[D].華北電力大學(xué),2017.
[9]王瑞杰. 面向電力調(diào)度控制系統(tǒng)的多源異構(gòu)數(shù)據(jù)處理方法研究[D].華北電力大學(xué)(北京),2017.
[10]李亞. 智能電網(wǎng)大數(shù)據(jù)在線分析與決策系統(tǒng)研究[D].華北電力大學(xué)(北京),2017.
[11]彭茂祥,李浩.基于TRIZ理論與大數(shù)據(jù)的智能化技術(shù)創(chuàng)新模式研究[J].科技進(jìn)步與對(duì)策,2017,34(07):139-145.
[12]趙迪. 基于電力大數(shù)據(jù)的數(shù)據(jù)挖掘支撐子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2017.