曾曉洪,上官朝暉,應(yīng)君裕,黃文杰,杜 端
(湖北華中電力科技開發(fā)有限責任公司,湖北 武漢 430077)
隨著營銷信息系統(tǒng)應(yīng)用實用化的不斷推進,各營銷信息系統(tǒng)在負控管理、配變監(jiān)測、低壓集抄、抄表結(jié)算、用電檢查支持、負荷管理、有序用電、優(yōu)質(zhì)服務(wù)、線損分析以及營配系統(tǒng)數(shù)據(jù)支持等方面發(fā)揮了重要作用。同時,表計規(guī)模數(shù)據(jù)的不斷擴大,系統(tǒng)應(yīng)用的不斷深入,系統(tǒng)的數(shù)據(jù)分析功能也越來越重要。面對海量的用電數(shù)據(jù)信息,進一步挖掘這些數(shù)據(jù)的應(yīng)用價值成為當前需要研究的重要課題。
通過對用戶用電行為的分析、研究與實現(xiàn),至少可以產(chǎn)生以下幾個方面的價值。
(1)通過數(shù)據(jù)挖掘和分析,為用戶用電提供精細化指導(dǎo),幫助用電用戶節(jié)電、節(jié)費,提高用電管理水平;
(2)通過用電行為分析,為各級電力公司的供電、生產(chǎn)、防竊電等領(lǐng)域提供數(shù)據(jù)支撐;
(3)通過對海量數(shù)據(jù)分析,篩選存在故障或潛在故障的終端和表計,產(chǎn)生終端或表計運維工單,為設(shè)備運維提供良好的數(shù)據(jù)支撐;
(4)積累海量實時數(shù)據(jù)處理經(jīng)驗。
海量數(shù)據(jù)高級分析應(yīng)用系統(tǒng)的難點在于在海量數(shù)據(jù)中尋找有價值的信息,需要與各營銷信息系統(tǒng)對接,獲取原始數(shù)據(jù),并按照一定的規(guī)則庫對數(shù)據(jù)進行加工和分析,形成指導(dǎo)生產(chǎn)和決策的信息。從技術(shù)上而言,需要解決海量數(shù)據(jù)處理的性能問題、存儲空間問題和系統(tǒng)的伸縮性問題。為解決以上問題,可引入基于網(wǎng)格的NO-SQL內(nèi)存數(shù)據(jù)庫、海量數(shù)據(jù)存儲數(shù)據(jù)庫以及基于SOA的服務(wù)架構(gòu)。網(wǎng)格內(nèi)存數(shù)據(jù)庫可以減少對關(guān)系型數(shù)據(jù)庫的I/O訪問,并且依賴自身的同步機制做到數(shù)據(jù)實時同步。海量數(shù)據(jù)存儲會占用非常大的空間,如果沒有對數(shù)據(jù)進行壓縮存儲,會耗費非常大的存儲空間,利用數(shù)據(jù)倉庫產(chǎn)品對數(shù)據(jù)進行壓縮存儲,并不會對數(shù)據(jù)的訪問性能產(chǎn)生太大影響,是解決海量數(shù)據(jù)存儲和訪問較好的方式[1]。
隨著設(shè)備接入量的增加,每一時刻接入的數(shù)據(jù)量都非常大。為了獲得對更新與查詢速度極快的響應(yīng),滿足實時應(yīng)用的需要,可采用實時數(shù)據(jù)庫作為熱點和近期數(shù)據(jù)的緩存,以提高系統(tǒng)的吞吐量和響應(yīng)能力。
實時數(shù)據(jù)庫將數(shù)據(jù)庫和實時系統(tǒng)兩者的概念、技術(shù)、方法和機制實現(xiàn)無縫結(jié)合。數(shù)據(jù)主要存放在內(nèi)存中。數(shù)據(jù)訪問時,磁盤I/O訪問效率極高。有效的數(shù)據(jù)同步機制能將內(nèi)存中的數(shù)據(jù)同步到磁盤,既能保證高效訪問,又不易丟失數(shù)據(jù),可滿足營銷信息系統(tǒng)在大規(guī)模接入設(shè)備后實時反映電網(wǎng)運行狀態(tài)的需求。
在網(wǎng)格內(nèi)存中,使用基于服務(wù)節(jié)點的Fast海量上下文查找、基于設(shè)備特征模式的數(shù)據(jù)處理技術(shù)和多個JVM虛擬機架構(gòu)的技術(shù),可以輕松滿足高可用性的和高靈活性的應(yīng)用需求。
隨著系統(tǒng)規(guī)模的日趨擴大,智能電網(wǎng)相關(guān)需求和數(shù)據(jù)類型日趨增多,數(shù)據(jù)存儲量日益擴大,數(shù)據(jù)增量持續(xù)增加,業(yè)務(wù)使用量持續(xù)增大,數(shù)據(jù)交互量更甚于此。如何高效處理數(shù)據(jù),是營銷信息系統(tǒng)應(yīng)用領(lǐng)域和智能電網(wǎng)領(lǐng)域必須研究和解決的問題。
立足于現(xiàn)有的營銷信息系統(tǒng),全面收集和集中存儲電力公司的業(yè)務(wù)數(shù)據(jù),并建立物理數(shù)據(jù)模型,對采集的數(shù)據(jù)進行各種規(guī)整處理。依據(jù)各部門的實際應(yīng)用需求,設(shè)計相對應(yīng)的邏輯數(shù)據(jù)模型,對用戶用電行為數(shù)據(jù)進行收集、清洗,并存儲在海量數(shù)據(jù)庫中。
依據(jù)系統(tǒng)中數(shù)據(jù)信息訪問頻率隨時間變化的特征,采用數(shù)據(jù)分別按應(yīng)用類型和時間軸分層存儲的總體設(shè)計原則,為不同類型的數(shù)據(jù)分配不同類別的存儲介質(zhì),以提高存儲效率,減少總體存儲成本[2],如圖1所示。
圖1 數(shù)據(jù)存儲框架
根據(jù)不同的數(shù)據(jù)特征,系統(tǒng)將數(shù)據(jù)從邏輯的角度分為用電庫、分析數(shù)據(jù)庫和檔案數(shù)據(jù)庫。
1.3.1 用電數(shù)據(jù)庫(MUDR)
用電數(shù)據(jù)庫存儲用戶的基本用電原始信息。原始數(shù)據(jù)經(jīng)過清洗、計算和估計后,形成完整的、正確的用電信息。
1.3.2 分析數(shù)據(jù)庫(Analytic DB)
存儲按照分析主題匯總加工的數(shù)據(jù)。所有的數(shù)據(jù)挖掘都是基于分析數(shù)據(jù)庫進行的。
1.3.3 檔案庫(Asset DB)
存儲用戶的基本檔案信息。系統(tǒng)通過外界接口將檔案數(shù)據(jù)定期同步到本系統(tǒng)。除存儲基本的用戶檔案信息外,檔案庫還存儲各種檔案的邏輯關(guān)系,如站、線、變、戶關(guān)系等。
面向服務(wù)的體系結(jié)構(gòu)(Service-Oriented Architecture,SOA,也叫面向服務(wù)架構(gòu))是指為了滿足業(yè)務(wù)集成的需要,通過連接能完成特定任務(wù)的獨立功能實體實現(xiàn)的一種軟件系統(tǒng)架構(gòu)。SOA是一個組件模型,將應(yīng)用程序的不同功能單元(稱為服務(wù))通過這些服務(wù)之間定義良好的接口和契約聯(lián)系起來。接口是采用中立的方式進行定義的,應(yīng)該獨立于實現(xiàn)服務(wù)的硬件平臺、操作系統(tǒng)和編程語言。這使得構(gòu)建在該類系統(tǒng)中的服務(wù)可以以一種統(tǒng)一和通用的方式進行交互。用營銷信息系統(tǒng)將一些標準的應(yīng)用封裝為SOA的服務(wù),提供接口及應(yīng)用的訪問服務(wù)。因此,可以很好地保證整個系統(tǒng)的處理邏輯一致性,同時可以將不同的SOA服務(wù)整合成為相對復(fù)雜的應(yīng)用。用戶用電行為的分析可以基于SOA的組件,對用電行為趨勢、異常和數(shù)據(jù)查詢,通過對已經(jīng)封裝的接口服務(wù)進行調(diào)用,以達到靈活組合、分析的目的[3]。
從營銷業(yè)務(wù)應(yīng)用系統(tǒng)、用電信息采集和遠程費控等營銷系統(tǒng)同步原始數(shù)據(jù),并對數(shù)據(jù)進行分類存儲。在數(shù)據(jù)挖掘中,采用自學(xué)習商業(yè)邏輯模型,在數(shù)據(jù)導(dǎo)入時,根據(jù)實際的數(shù)據(jù)修正預(yù)先定義的模型,使分析更加準確。海量平臺系統(tǒng)提供基礎(chǔ)的數(shù)據(jù)應(yīng)用,基于檔案庫和AMI(Advanced Metering Infrastructure)數(shù)據(jù)庫查詢用戶的用電基礎(chǔ)信息。同時,系統(tǒng)提供對分析數(shù)據(jù)庫的深度挖掘,在分析數(shù)據(jù)的基礎(chǔ)上實現(xiàn)數(shù)據(jù)集約化。
2.2.1 用電數(shù)據(jù)和分析數(shù)據(jù)分離
系統(tǒng)數(shù)據(jù)來源于電力營銷信息系統(tǒng)。將數(shù)據(jù)分為用戶檔案數(shù)據(jù)、用電數(shù)據(jù)和分析數(shù)據(jù)。用電數(shù)據(jù)存儲在AMI數(shù)據(jù)庫中,分析計算后得到的應(yīng)用數(shù)據(jù)存放在分析數(shù)據(jù)中。
2.2.2 當前數(shù)據(jù)和分析數(shù)據(jù)存儲分離
由于數(shù)據(jù)規(guī)模較大,現(xiàn)場的數(shù)據(jù)庫環(huán)境由以前的事務(wù)型數(shù)據(jù)環(huán)境變成了海量混合型數(shù)據(jù)環(huán)境。為了確保系統(tǒng)穩(wěn)定健康的運行,采用分析數(shù)據(jù)和當前數(shù)據(jù)分庫存放技術(shù)來進一步完善系統(tǒng)建設(shè)。分析數(shù)據(jù)存儲在大型數(shù)據(jù)庫中。由于當前數(shù)據(jù)使用的頻率非常高,存儲在分布式的內(nèi)存數(shù)據(jù)庫中[5]。
2.2.3 構(gòu)建歷史數(shù)據(jù)庫和數(shù)據(jù)存儲模型
根據(jù)電力營銷信息系統(tǒng)總體設(shè)計架構(gòu),歷史數(shù)據(jù)存儲模型的構(gòu)建原則如下:
(1)與電能量運行數(shù)據(jù)概念一致,便于理解和分析;
(2)數(shù)據(jù)組織優(yōu)先考慮提高查詢效率;
(3)數(shù)據(jù)組織有利于數(shù)據(jù)的定期加載;
(4)從生產(chǎn)數(shù)據(jù)庫中加載到應(yīng)用分析數(shù)據(jù)庫的數(shù)據(jù)一般不再進行修改;
(5)方便系統(tǒng)功能開發(fā),允許適當數(shù)據(jù)冗余,在此前提下盡可能降低存儲空間的占用;
(6)便于完成數(shù)據(jù)的備份和災(zāi)難恢復(fù)。
數(shù)據(jù)存儲基于海量數(shù)據(jù)庫存儲,數(shù)據(jù)庫自帶壓縮技術(shù),可以將多個數(shù)據(jù)處理分別部署到不同的CPU中執(zhí)行,提升了系統(tǒng)的處理速度。
2.2.4 數(shù)據(jù)模型轉(zhuǎn)換
電網(wǎng)模型是一個復(fù)雜的模型。關(guān)系型的數(shù)據(jù)結(jié)構(gòu)可以很好地描述這些業(yè)務(wù)關(guān)系,但是存在比較明顯的不足。例如,查詢數(shù)據(jù)時,需要關(guān)聯(lián)多個節(jié)點,導(dǎo)致查詢效率低,而本系統(tǒng)通過模型轉(zhuǎn)換建立節(jié)點與數(shù)據(jù)的直接關(guān)系,在查詢數(shù)據(jù)時無需關(guān)聯(lián)多個節(jié)點,直接將節(jié)點與數(shù)據(jù)關(guān)聯(lián)即可。
2.2.5 海量數(shù)據(jù)異常處理技術(shù)
異常數(shù)據(jù)處理分兩個部分,一種是壞數(shù)據(jù)的處理,一種是電力營銷業(yè)務(wù)自身的非常規(guī)數(shù)據(jù)流程處理,如補采、手抄補錄和追加等。探索數(shù)據(jù)異常處理技術(shù)制定數(shù)據(jù)處理的標準流程,并固化到數(shù)據(jù)管理中。
可在海量數(shù)據(jù)中提供以下幾種異常數(shù)據(jù)處理。
(1)無效數(shù)據(jù)處理。系統(tǒng)召測的數(shù)據(jù)被告知是無效數(shù)據(jù)時,系統(tǒng)能標識這部分數(shù)據(jù),且系統(tǒng)提供配置,判斷無效數(shù)據(jù)是否參與后續(xù)數(shù)據(jù)的計算,作為計量或電網(wǎng)運行狀況分析的依據(jù)。
(2)數(shù)據(jù)缺失。當數(shù)據(jù)采集失敗時,系統(tǒng)有一定的修復(fù)機制自動補采缺失的數(shù)據(jù)。自動補采失敗的情況下,允許人工啟動數(shù)據(jù)補抄流程。補抄得到的數(shù)據(jù)自動完成后續(xù)數(shù)據(jù)的計算和分析。
(3)數(shù)據(jù)缺失無法補抄成功時,可經(jīng)人工錄入將數(shù)據(jù)補錄到系統(tǒng)中,并參與正常數(shù)據(jù)分析流程的計算。
(4)數(shù)據(jù)缺失且無人工錄入時,系統(tǒng)提供一定的數(shù)據(jù)修補策略填充缺失的數(shù)據(jù),并參與后續(xù)數(shù)據(jù)的分析和計算。這部分數(shù)據(jù)會給出明確的修補標識。
所有數(shù)據(jù)都會給出明確標識,以區(qū)分數(shù)據(jù)的來源、有效性和可信度。
2.3.1 數(shù)據(jù)總線服務(wù)
為數(shù)據(jù)訪問提供一個數(shù)據(jù)訪問總線,以期達到如下目標。
(1)提供統(tǒng)一的數(shù)據(jù)源訪問接口,數(shù)據(jù)源可以成為緩存、數(shù)據(jù)庫、外部接口或者符合一定條件的任意數(shù)據(jù)的存儲設(shè)備;
(2)業(yè)務(wù)邏輯與數(shù)據(jù)存儲分離;
(3)提供統(tǒng)一的數(shù)據(jù)服務(wù),數(shù)據(jù)總線為后臺數(shù)據(jù)處理、WEB應(yīng)用和對外接口提供數(shù)據(jù)服務(wù)接口,實現(xiàn)數(shù)據(jù)共享;
(4)實現(xiàn)數(shù)據(jù)緩存,提高數(shù)據(jù)訪問性能;
(5)連接安全措施,能有效地加密連接,即使在網(wǎng)絡(luò)被監(jiān)聽情況下,也能保證數(shù)據(jù)的安全性、完整性和可校驗性;
(6)能夠?qū)崿F(xiàn)對訪問者的操作控制、查詢操作記錄以及對訪問者進行權(quán)限控制。
數(shù)據(jù)分析流程如圖2所示。
圖2 數(shù)據(jù)分析流程示意圖
數(shù)據(jù)總線由通用API、訪問組件以及中間通道構(gòu)成。采用何種中間通道,由具體的數(shù)據(jù)源確定。數(shù)據(jù)首先從內(nèi)存的實時數(shù)據(jù)庫中讀取,若未獲取到,則根據(jù)配置選擇其他的數(shù)據(jù)源獲取數(shù)據(jù),并根據(jù)數(shù)據(jù)的特點和時效性確定是否要將獲取到的數(shù)據(jù)同步到緩存中。
數(shù)據(jù)寫入時,對于事務(wù)型當前應(yīng)用數(shù)據(jù)庫,使用JDBC訪問;對于歷史數(shù)據(jù)庫,定時導(dǎo)入格式化文本文件。
數(shù)據(jù)總線可為外部系統(tǒng)提供實時數(shù)據(jù)交互,并根據(jù)配置主動將數(shù)據(jù)發(fā)送至外部接口,或根據(jù)數(shù)據(jù)請求實時發(fā)送數(shù)據(jù),可通過TCP/IP、WebService和文件等方式提供數(shù)據(jù)。
2.3.2 底層算法優(yōu)化
優(yōu)化用營銷海量數(shù)據(jù)分析底層算法,提高應(yīng)用功能在海量數(shù)據(jù)環(huán)境下的運行效率,如圖3所示。
圖3 數(shù)據(jù)處理流
對于需要大規(guī)模計算的數(shù)據(jù)分析、數(shù)據(jù)統(tǒng)計功能,可提前進行計算存儲,以達到提高系統(tǒng)統(tǒng)計、分析效率的目的。
(1)對于大訪問量影響系統(tǒng)使用的情況,可以增加系統(tǒng)查詢的數(shù)據(jù)來源,一些數(shù)據(jù)可以采用實時緩存的方式,降低系統(tǒng)查詢時的資源使用,釋放數(shù)據(jù)庫I/O訪問;
(2)對于數(shù)據(jù)量查詢巨大的系統(tǒng)功能,可以進行分段查詢或中間環(huán)節(jié)做出數(shù)據(jù)統(tǒng)計的方式,減少大數(shù)據(jù)量訪問的功能觸發(fā),減輕數(shù)據(jù)庫訪問壓力和WEB服務(wù)器壓力;
(3)在WEB功能上對數(shù)據(jù)查詢時,針對時間跨度大的查詢操作要進行用戶提示。
WEB數(shù)據(jù)查詢采用后臺分頁模式,在查詢的數(shù)據(jù)量很大時,每次只從數(shù)據(jù)庫中提取當前頁需要展示的數(shù)據(jù)。
用戶的用電數(shù)據(jù)中隱藏著用戶的用電行為習慣。對這些用電數(shù)據(jù)進行多維度挖掘分析,并進一步對用戶進行歸類,可以幫助供電企業(yè)了解用戶用電的個性化、差異化服務(wù)需求,從而幫助供電公司進一步拓展服務(wù)的深度和廣度,為電力需求側(cè)響應(yīng)政策和電力營銷政策的制定提供數(shù)據(jù)支撐[4]。
系統(tǒng)針對不同的用戶群,可以配置不同的識別規(guī)則組,以便達到最佳的數(shù)據(jù)辨識效果。通過配置規(guī)則組內(nèi)的各個子規(guī)則,識別過濾異常數(shù)據(jù),確保結(jié)算數(shù)據(jù)正確性。對于缺數(shù)、無法采集到的數(shù)據(jù),通過一系列的評估規(guī)則,給出最合理的數(shù)據(jù)。系統(tǒng)對數(shù)據(jù)修補具備自學(xué)習功能,自動匹配最接近實際情況的數(shù)據(jù)用于數(shù)據(jù)修補[5]。比如,在采集過程中,發(fā)現(xiàn)某些時段缺數(shù),最常見的修補數(shù)據(jù)方式是直線修補。
數(shù)據(jù)分析系統(tǒng)提供的大數(shù)據(jù)處理引擎技術(shù),會根據(jù)設(shè)定的規(guī)則找到最接近缺數(shù)那天的用電數(shù)據(jù),選取缺數(shù)時段的數(shù)據(jù)進行數(shù)據(jù)修補,使數(shù)據(jù)更加符合實際情況。此外,可以根據(jù)用電情況對比,乘以相應(yīng)的比例系數(shù),如:
可開發(fā)設(shè)計一系列的規(guī)則庫,然后用戶可以根據(jù)實際情況,配置使用最符合應(yīng)用要求的規(guī)則庫。
識別竊電行為是復(fù)雜的數(shù)據(jù)分析過程。用戶根據(jù)生產(chǎn)情況,隨時增加或減少用電負荷。如何在變化的用電數(shù)據(jù)中過濾出有可疑竊電行為的用戶,需要通過一系列事件、營銷信息系統(tǒng)采集到的相關(guān)數(shù)據(jù)進行多維度數(shù)據(jù)分析,并建立漏斗型識別模型,最終篩選可疑竊電清單,并按照可疑程度排序,指導(dǎo)用電稽查[4]。
除自動識別竊電行為外,系統(tǒng)綜合展現(xiàn)用戶的用電情況、停電事件、停電恢復(fù)事件以及電表編程參數(shù)更改事件等數(shù)據(jù),方便通過人工方式確認用戶是否存在竊電行為。
3.2.1 判斷依據(jù)
(1)用電異常
系統(tǒng)能定時每天/每周進行用戶用電異常分析。電量分析的數(shù)據(jù)包括本日(月)與上日(月)電量的比較。當變化范圍超過一定閥值時,得到用戶用電異常清單。電量變化閥值可以由用戶根據(jù)實際情況進行配置。
(2)失壓、失流等報警事件
根據(jù)用戶計量設(shè)備的報警事件,如失壓、失流和計量門打開等異常事件,結(jié)合計量設(shè)備的負荷數(shù)據(jù)進行綜合分析,得到準確的用電異常清單。
(3)線損異常
根據(jù)10kV饋線線損、臺區(qū)線損中線損異常的數(shù)據(jù)進行分析,得到對線損異常影響較大的表計,將其標識為用電異常清單。在進行線損數(shù)據(jù)分析時,要結(jié)合線損數(shù)據(jù)的同比、環(huán)比數(shù)據(jù)進行綜合分析,鎖定電量異常的表計。
(4)停電事件
通過停電事件,結(jié)合用戶負荷、電量等數(shù)據(jù)進行綜合分析,判斷出準確的停電信息,為用電異常排查提供數(shù)據(jù)支撐。
3.2.2 判斷過程
判斷流程如圖4所示。
圖4 判斷流程圖
分析結(jié)果。根據(jù)用戶的用電情況及營銷信息系統(tǒng)提供的事件,經(jīng)過一定的數(shù)學(xué)模型進行分析后,得到用戶竊電嫌疑清單。最后,系統(tǒng)將清單提供給相關(guān)部門。
通過分析用戶的負荷情況,篩選過載的線路、變壓器以及接近過載的線路和變壓器,為線路和用戶擴容提供數(shù)據(jù);按過載的頻率、過載的容量,提供技改優(yōu)先級排序的名單;系統(tǒng)可以從宏觀(整體)和微觀(單臺變壓器)兩個方面提供變壓器負載情況的分析數(shù)據(jù)。
應(yīng)用范圍:
(1)根據(jù)用電設(shè)備負載率數(shù)據(jù)趨勢分析,為用戶提供用電建議;
(2)對用電設(shè)備負載異常的用戶提供報警信息,及時提醒用戶關(guān)注;
(3)對長期過載運行的設(shè)備,給出風險警示。
分析用戶用電量、用電負荷、用戶行業(yè)、用電性質(zhì)、峰谷電量比例、最大需量以及功率因數(shù)等數(shù)據(jù),建立用戶用電信息模型,提出用電行為改善方案,指導(dǎo)其合理用電、科學(xué)用電、經(jīng)濟用電。根據(jù)用戶的用電特性,可以為用戶用電趨勢分析提供數(shù)據(jù)支持。另外,通過用戶用電特性數(shù)據(jù)的綜合統(tǒng)計,為政府機關(guān)或主管部門提供不同的用電報表。比如,用電行業(yè)、用電性質(zhì)的電量報表可以反映當?shù)氐慕?jīng)濟結(jié)構(gòu),為電網(wǎng)結(jié)構(gòu)的優(yōu)化調(diào)整提供數(shù)據(jù)支持。
基于大數(shù)據(jù)技術(shù)的電力營銷應(yīng)用作為一個新興的領(lǐng)域,已經(jīng)展現(xiàn)出數(shù)據(jù)中蘊藏的巨大能量及廣闊的應(yīng)用前景,為電力行業(yè)帶來了全新的管理方式和服務(wù)理念。可見,大數(shù)據(jù)的廣泛應(yīng)用必將促進電力行業(yè)的轉(zhuǎn)型升級,促進能源節(jié)約和高效利用,對經(jīng)濟社會的發(fā)展具有積極意義。