基于Hadoop框架的營配調(diào)數(shù)據(jù)處理模型的設計與實現(xiàn)

2019-03-23 02:28:08陸俊，李葵，周明，辛永，陸鑫

通信電源技術(shù) 2019年2期

陸俊，李葵，周明，辛永，陸鑫

（1.國網(wǎng)安徽省電力有限公司信息通信分公司，安徽合肥 230061；2.國網(wǎng)信通億力科技有限責任公司，福建福州 350003）

0 引言

隨著同期線損管理系統(tǒng)建設的全面推進，同期線損管理要求日益迫切，運檢、調(diào)度、營銷等各專業(yè)數(shù)據(jù)質(zhì)量要求進一步提高，同時降本增效成為經(jīng)濟新常態(tài)下電網(wǎng)企業(yè)持續(xù)健康發(fā)展的關鍵支撐[1]。因此，亟需研究設計有效的治理方法，實現(xiàn)營配調(diào)各專業(yè)數(shù)據(jù)特性的自動匹配和識別，進而實現(xiàn)同期線損異常的自動排查，減少拉網(wǎng)式手工排查工作量，挖掘同期線損數(shù)據(jù)價值，為降損規(guī)劃和專業(yè)管理提升提供有效支撐。

國內(nèi)各級供電公司及研究院在營配調(diào)貫通數(shù)據(jù)治理方面進行了大量研究，取得了一定成果。例如，采用數(shù)據(jù)轉(zhuǎn)檔、信息采錄、開啟異動等操作實現(xiàn)營銷配貫通[2]；以營配調(diào)貫通工程為基礎，通過獲取覆蓋電生產(chǎn)運行到客戶服務的全生命周期海量數(shù)據(jù)，結(jié)合大數(shù)據(jù)分析手段、數(shù)據(jù)挖掘技術(shù)，提出了電力公司智能預測、客服服務等高級應用的實現(xiàn)方法[3]；以GIS平臺為基礎，突破了營配調(diào)專業(yè)數(shù)據(jù)壁壘，設計了營配調(diào)數(shù)據(jù)融合業(yè)務應用平臺，實現(xiàn)了電網(wǎng)基礎數(shù)據(jù)質(zhì)量和營配調(diào)協(xié)同工作效率的提升[4]；針對配電網(wǎng)信息共享和應用繼承需要，構(gòu)建了營配調(diào)一體化平臺[5]。

本文采用相關性分析算法、BP神經(jīng)網(wǎng)絡-時間序列算法和基于分布式計算的TF-IDF算法組成的數(shù)據(jù)處理模型，自動甄別線變、臺戶關系錯誤數(shù)據(jù)，協(xié)助供電單位直接定位線損異常用戶，減少人工核對工作量，有效解決同期線損中的營配調(diào)貫通問題，以真正為基層減負。

1 數(shù)據(jù)處理模型的設計

本課題研究的數(shù)據(jù)處理模型由五部分組成：數(shù)據(jù)預處理、供售電量差值計算、供售電量相關性計算、線損電量預測以及基于TF-IDF算法篩查異常掛點的設備，如圖1所示。

1.1 數(shù)據(jù)預處理模塊

數(shù)據(jù)預處理是在數(shù)據(jù)挖掘前對原始數(shù)據(jù)進行清洗、集成、轉(zhuǎn)換、離散、歸約等必要的處理，達到運用挖掘算法進行知識獲取研究所要求的最低標準。通過數(shù)據(jù)預處理可完善殘缺數(shù)據(jù)，糾正錯誤數(shù)據(jù)，去除多余數(shù)據(jù)，集成所需數(shù)據(jù)，轉(zhuǎn)換合適的數(shù)據(jù)格式，達到數(shù)據(jù)類型相同化和數(shù)據(jù)格式一致化?？傊?jīng)過數(shù)據(jù)預處理可獲取實驗所需的樣本數(shù)據(jù)，提高實驗的可靠性和真實性。

圖1 基于TF-IDF算法的同期線損數(shù)據(jù)治理模型

1.2 供售電量差值計算

預處理后的數(shù)據(jù)通過比較供電量和售電量的差值，初步預判一個地區(qū)是否出現(xiàn)線損異常情況。設定一個閾值ε0，將之與供、售電量的差值對比。若二者的差值大于閾值，則該地區(qū)存在線損異常，需采用TF-IDF算法查找線損異常的原因；否則，需要對供電量和線損電量進行相關性分析，判斷該地區(qū)是否出現(xiàn)線損異常。

1.3 供售電量相關性計算

相關性分析是指分析兩個或多個具備相關性的變量元素，衡量變量因素的相關密切程度。相關元素之間需要存在一定的聯(lián)系或者概率可進行相關性分析，通常以元素之間的相關性系數(shù)來衡量它們之間的相關性。

相關性分析常用的相關性系數(shù)有兩種：Pearson相關系數(shù)和Spearman相關系數(shù)。Spearman系數(shù)對處理的樣本數(shù)據(jù)要求低，統(tǒng)計效能較低。Pearson系數(shù)較Spearman系數(shù)更適用等間距測度的變量間的相關分析。因此，本文采用Pearson相關系數(shù)進行相關性分析。

假設存在兩個向量X=[x1,x2,…,xn]，Y=[y1,y2,…,yn]，則兩者的Pearson相關系數(shù)計算公式為：

式（1）中，相關系r的絕對值越大，相關性越強；r的取值范圍和相關性的對應關系如表1所示。

通過計算線損電量和供電量的Pearson相關系數(shù)，分析兩者之間的相關性。若兩者強相關（r＞0.6），則直接校驗；否則，繼續(xù)進行線損電量的預測。

表1 r的取值范圍和相關性的對應關系表

1.4 線損電量預測

當線損電量和供電量不存在強相關關系時，通過算法獲取預測售電量計算得到線損電量，然后將預測線損電量與實際線損電量相減。若差值小于設定的閾值（ε1），則直接校驗；否則，數(shù)據(jù)處理模型會判定線損電量出現(xiàn)異常，此時需排查線損異常產(chǎn)生的原因。

售電量有不確定性、復雜性、條件性及多方案性的特點，需綜合考慮多種影響因素從本質(zhì)上提高售電量預測的精度。本文結(jié)合時間序列算法和BP神經(jīng)網(wǎng)絡模型進行售電量預測。應用時間序列典型分解法提取樣本售電量序列中的趨勢成分和周期性成分，將影響售電量主要因素作為BP神經(jīng)網(wǎng)絡輸入，根據(jù)預測售電量計算線損率實現(xiàn)對異常線損的修正。算法流程如圖2所示。

圖2 BP神經(jīng)網(wǎng)絡-時間序列算法流程圖

通過對樣本數(shù)據(jù)進行多次模擬訓練，建立日溫度、日類型、歷史售電量與預測售電量的對應關系，從而達到預測售電量的目的。

根據(jù)理論可知，供、售電量關系為：

由式（2）可知，當日供電量已知時，通過預測日售電量可計算日線損電量。通過BP神經(jīng)網(wǎng)絡-時間序列模型預測售電量后，根據(jù)式（2）得到預測線損電量L1。

1.5 基于Hadoop框架的TF-IDF算法篩查異常原因

為快速識別線損計算結(jié)果異常的原因，采用基于Hadoop框架的TF-IDF算法，并根據(jù)電力設備地址篩查電力設備的異常掛載情況，如線路、變壓器的異常掛載，臺區(qū)、用戶關系的異常掛載，從而智能定位線損異常位置，提高線損異常的治理效率。

TF-IDF（Term Frequency-Inverse Document Frequency）是一種用于咨詢檢索和文本挖掘的常用加權(quán)技術(shù)[6]，可評估單詞對一個文件集或一個語料庫中的一份文件的重要程度。TF-IDF算法的結(jié)果是詞頻TF和逆向文件頻率IDF的乘積，即單詞的權(quán)重。在某一特定文件內(nèi)，高TF和在整個文件中的低IDF可以產(chǎn)生高權(quán)重。因此，該算法可以過濾常見的詞語，保留重要的詞語。

Hadoop分布式計算的核心是分割任務，并行運行。因此，TF-IDF的計算公式適合用分布式計算求解。TF只與它所在文檔的單詞總數(shù)及它在此文檔出現(xiàn)的次數(shù)有關。通過分割數(shù)據(jù)，并行統(tǒng)計文檔中單詞詞頻TF，加快計算速度。得到單詞詞頻TF后，確定包含此單詞的文檔個數(shù)，即能以并行計算的方式實現(xiàn)TF-IDF的計算。

2 工程示范應用

實驗測試數(shù)據(jù)來自于山西省陽泉市區(qū)供電公司、國網(wǎng)陽泉供電公司、山西省陽泉郊區(qū)供電公司、山西省陽泉平定供電公司、山西省陽泉大戶所和山西省陽泉盂縣供電公司共6家供電公司，時間跨度為2015年5月至2017年7月。數(shù)據(jù)類型是包括供電量、售電量、線損電量及線損率數(shù)據(jù)項的電網(wǎng)運行狀態(tài)數(shù)據(jù)，數(shù)據(jù)采集頻率為1天/次。

2.1 相關性分析結(jié)果

應用Pearson相關系數(shù)計算陽泉市區(qū)及周邊縣城的電網(wǎng)中供電量和線損數(shù)據(jù)，結(jié)果如圖3所示。

由圖3可知，前5個地區(qū)的供電量和線損電量具有極強的相關性。但是，在盂縣供電公司，其相關系數(shù)r只有0.154 6，說明該地區(qū)的線損數(shù)據(jù)可能存在異常，需要預測盂縣的線損電量。

2.2 線損電量預測

由2.1章節(jié)的介紹可知，本文通過預測售電量預測線損電量。因此，預測模型的樣本數(shù)據(jù)為售電量數(shù)據(jù)，預測盂縣售電量的樣本數(shù)據(jù)見表2。其中，節(jié)假日類型1表示為節(jié)假日，0表示為工作日。

圖3 陽泉周邊地區(qū)供電量與線損電量的相關性系數(shù)圖示

表2 預測盂縣售電量樣本數(shù)據(jù)

線損電量預測模塊將售電量的影響因素作為神經(jīng)網(wǎng)絡-時間序列模型的輸入層，反復訓練直至均方差達到0.002。應用訓練成熟的模型對盂縣售電量進行預測，結(jié)果如圖4所示。

圖4中，橫軸表示樣本數(shù)據(jù)的數(shù)量，縱軸表示輸出樣本和錯誤數(shù)據(jù)，黃色線段表示預測售電量和實際數(shù)據(jù)之間的差值。由于售電量預測結(jié)果與實際數(shù)據(jù)存在很大差距，因此線損電量的預測值也和實際值相差較大。因為差值超過了預設閾值，所以該區(qū)域存在線損異常，需要對盂縣執(zhí)行TF-IDF算法。篩選分析線損異常的原因，結(jié)果是電力設備異常掛載。

圖4 線損預測結(jié)果展示圖

2.3 TF-IDF篩查線損異常原因

對線損異常區(qū)域陽泉盂縣供電公司所轄區(qū)域2 000多個臺區(qū)逐一分析，識別臺區(qū)中異常掛載的電力設備，以三個臺區(qū)為例說明數(shù)據(jù)處理過程。

2.3.1 電力設備無異常掛載

以仙人臺區(qū)的所有用戶地址為例進行TF-IDF分析，結(jié)果如表3所示。

表3 仙人臺區(qū)用戶地址詞頻分析結(jié)果

由表3可知，“山西省”“陽泉市”“盂縣”“仙人”四個詞語的TF值相等，說明四個詞語在該臺區(qū)的所有用戶地址中出現(xiàn)的概率一樣，沒有某個詞語出現(xiàn)頻率異常低，可判定該臺區(qū)沒有異常用戶。

2.3.2 電力設備出現(xiàn)異常掛載

以李家莊臺區(qū)的所有用戶地址為例進行TF-IDF分析，結(jié)果如表4所示。

表4 李家莊臺區(qū)用戶地址詞頻分析結(jié)果

由表4可知，“潘”的TF值遠遠小于其他詞語，說明李家莊臺區(qū)內(nèi)的用戶地址中帶有“潘”的用戶有可能不屬于該臺區(qū)，而營配調(diào)系統(tǒng)把這些用戶歸為李家莊臺區(qū)。李家莊臺區(qū)的用戶地址分布如表5所示。

表5 李家莊臺區(qū)用戶地址分布

對該臺區(qū)的46個用戶地址進行統(tǒng)計，帶有“潘”的用戶地址在李家莊臺區(qū)中只有10戶，帶有“李家”的用戶地址有36戶，故地址帶有“盂縣西潘鄉(xiāng)”的用戶可能不屬于該臺區(qū)。把這些用戶的地址反饋給工作人員，經(jīng)現(xiàn)場校驗，表明這些用戶實際中確實掛載在該臺區(qū)內(nèi)，無異常掛載情況，無需在營配調(diào)系統(tǒng)中修改其掛載關系。

為了再次驗證TF-IDF算法的準確性，以東杜臺區(qū)的所有用戶地址為例進行TF-IDF分析，結(jié)果如表6所示。

表6 東杜臺區(qū)用戶地址詞頻分析結(jié)果

通過統(tǒng)計分析東杜臺區(qū)的74個用戶地址發(fā)現(xiàn)，地址中帶有“山西省陽泉市盂縣路家村鎮(zhèn)東杜村”的用戶有73戶，地址中帶有“山西省陽泉市盂縣西潘鄉(xiāng)”的用戶僅有1戶，說明該用戶極大可能出現(xiàn)異常掛載。經(jīng)工作人員現(xiàn)場校驗發(fā)現(xiàn)，該用戶確實不屬于該臺區(qū)，需在營配調(diào)系統(tǒng)中修改其掛載關系。

數(shù)據(jù)處理模型通過分析盂縣供電量和線損電量的相關關系，判斷盂縣可能出現(xiàn)線損異常，采用TF-IDF算法分析盂縣的所有線變關系、臺戶關系，表明有26個臺區(qū)可能出現(xiàn)異常掛載。經(jīng)工作人員現(xiàn)場校驗，確定其中的16個臺區(qū)出現(xiàn)異常掛載情況。通過在營配調(diào)系統(tǒng)中糾正錯誤的掛載關系，該地區(qū)的線損異常情況得到極大改善。

綜上所述，本文建立的基于Hadoop框架的數(shù)據(jù)處理模型提高了解決線損異常原因-電力設備異常掛載的準確率，有效減少了人工現(xiàn)場排查的盲目性和工作量，大大節(jié)省了人力、物力。

3 結(jié) 論

本文設計了基于Hadoop的營配調(diào)數(shù)據(jù)處理模型，研究了Person相關算法、BP神經(jīng)網(wǎng)絡-時間序列算法和基于Hadoop框架的TF-IDF算法，實現(xiàn)了對供電量、售電量相關關系的定量分析，自動篩查了同期線損異常原因，支撐了線損管理的提升。最后，利用實際環(huán)境下的測試結(jié)果，驗證了數(shù)據(jù)模型的實用性、有效性及準確性。