縣國成,王永攀,高 俊,浮 海,楊 斌,武 旭
(1.國網(wǎng)甘肅省電力公司天水供電公司,甘肅天水 741000;2.蘭州交通大學自動化與電氣工程學院,甘肅蘭州 730070)
隨著新型配電系統(tǒng)的構建,竊電已經(jīng)從破壞傳統(tǒng)電能表接線或私接電纜等手段轉變?yōu)橥ㄟ^數(shù)字化技術和智能通信技術對電能表的攻擊[1-3]。這種惡虐手段使得新型電力系統(tǒng)的構建與智能電網(wǎng)的發(fā)展受阻,更會使電網(wǎng)供電的可靠性受到威脅,導致電力消費者正常生活受到影響[4-5]。如何從電能計量大數(shù)據(jù)中準確、高效地識別出非法用戶的竊電行為,對提高配電網(wǎng)線損指標、促進電網(wǎng)的經(jīng)濟效益有著重要的工程應用價值和意義[6]。
傳統(tǒng)電網(wǎng)的竊電識別方法,對反竊電稽查人員的技術性依賴較高,主要分為三個階段:竊電行為預警、異常數(shù)據(jù)采集、異常數(shù)據(jù)分析[7-10]。目前智能電網(wǎng)與智能電表的發(fā)展,竊電行為的識別方法轉化為高效的自動化竊電行為檢測。文獻[11]提出基于置信規(guī)則推理(Belief Rule-Based,BEB)和長短記憶網(wǎng)絡模型(Long Short-Term Memory,LSTM)的用戶竊電行為診斷方法,與主流故障檢測模型相比,該方法能夠更準確地診斷異常用電行為。文獻[12]為了更高效地檢測竊電行為,提出了一種新型的密集卷積神經(jīng)網(wǎng)絡和隨機森林(DenseNet-RF)模型,該模型可較好地實現(xiàn)竊電行為檢測。文獻[13-16]利用隨機森林(Random Forest,RF)、支持向量機(Support Vector Machine,SVM)、極限梯度提升樹(Extreme Gradient Boosting,XGBoost)、決策樹(Decision Tree,DT)和卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)等人工智能算法判斷用戶屬于竊電用戶還是正常用戶,這些算法的測試結果較為準確。文獻[17]考慮到不同學習器在數(shù)據(jù)集上的表現(xiàn)以及各學習器之間的多樣性,構建多種個體學習器嵌入的Bagging 異質集成學習的竊電檢測模型來識別竊電行為。
文獻[11-17]研究只是采用單一機器學習算法或幾種方法結合,未考慮電能計量大數(shù)據(jù)指標特征,沒有分析評價指標的優(yōu)先級順序,使得算法在處理數(shù)據(jù)集時收斂速度慢,影響判別結果,識別精確度不能達到很高?;诖?,本文提出基于極限學習機(Extreme Learning Machine,ELM)與支持向量機(Support Vector Machine,SVM)相結合的ELMSVM 算法的竊電識別模型,對竊電行為進行精準識別檢測。利用電能計量大數(shù)據(jù)建立竊電狀態(tài)指標評價體系;分別說明ELM 和SVM 學習方式的訓練機理以及ELM-SVM 結合的重構能力評估,建立基于ELM-SVM 的竊電識別模型;在電能計量大數(shù)據(jù)集上驗證算法的適用性和精確性。
竊電狀態(tài)指標評價體系建立時,會受到竊電手段、電能計量方式以及工作人員主體價值觀等[18]方面的影響。對竊電智能識別技術,竊電指標評價體系的建立有利于快速判斷竊電用戶,且評價體系要科學、符合實際需求,對竊電評價結果的準確性、有效性產生關鍵影響。建立評價指標體系時,要求具備指標針對性,能夠對竊電特征進行特定描述[19]。
建立竊電狀態(tài)指標評價體系時,需遵循以下原則:
1)目標一致:評價指標要與反竊電目標或管理目標相一致。
2)指標可測:竊電評價指標作為特定目標,所需要的數(shù)據(jù)可通過電能計量大數(shù)據(jù)系統(tǒng)直接獲取。
3)相互獨立:竊電指標評價體系是由電能表計量的各項電能數(shù)據(jù)并由采集終端傳輸?shù)讲杉到y(tǒng),各項指標有著直接或間接的聯(lián)系。為了使評價的結果更具可靠性和精確性,各條指標應相互獨立,互不重疊。
4)體系完備:指標體系不應遺漏與竊電相關的任何一個指標,保證更全面地稽查竊電用戶。
依據(jù)竊電狀態(tài)指標評價體系的構建原則、計量原理和竊電手段,結合各供電公司典型竊電用戶案例,發(fā)現(xiàn)改變計量線路、更換計量裝置等竊電手段,均會使電表某項采集數(shù)據(jù)出現(xiàn)異常[20]。目前供電公司主要通過篩選電量長期為0 的用戶和考慮線路線損指標,篩選線損率偏高臺區(qū)線路并進行現(xiàn)場逐一排查,工作量較大。因此,建立竊電狀態(tài)指標評價體系時,各指標的選取一方面要實際全面地反映竊電的實際場景,不能漏掉任何一個重要指標;另一方面也應考慮計量數(shù)據(jù)的有效性,做到既不重復也不遺漏。通過現(xiàn)場調研和采集數(shù)據(jù)處理,最終選擇表1 中的18 項指標作為竊電狀態(tài)評價指標。
表1 竊電狀態(tài)評價指標Table 1 Evaluation index of power stealing state
國網(wǎng)某省供電公司統(tǒng)計了2020 年850 名竊電用戶采集主站相關數(shù)據(jù)信息,分別對竊電用戶進行了表1 中18 項異常指標篩選和分析,見圖1。
圖1 竊電用戶異常指標占比Fig.1 Proportion of abnormal indicators of power stealing users
由圖1 可知,用戶竊電現(xiàn)象會引起圖1 中18項指標一項或者多項指標發(fā)生變化,其中,線路線損率和電表開蓋報警指標占比最高。將18 類與竊電狀態(tài)相關的異常指標作為評價因素集合,依據(jù)統(tǒng)計學原理[21],將其分成6 類:電壓電流類指標、電量類指標、報警類指標、負荷類指標、客戶信譽指標和故障類指標。并依據(jù)國家電網(wǎng)公司有關竊電用戶異常指標統(tǒng)計結果,將指標按照相關程度由高到低依次歸結為I 類(電壓電流類指標、電量類指標)、II類(報警類指標、負荷類指標)和III 類(客戶信譽指標和故障類指標),具體見圖2。
圖2 竊電指標評價體系Fig.2 Evaluation system of power stealing index
圖1 顯示的評價指標數(shù)據(jù)中,包含時間序列(如電能顯示值不平、電表開蓋報警等),通過計算可知,當某一類特定向量作為輸入,則必對應一組特定向量作為輸出,即輸入輸出數(shù)據(jù)存在映射關系。由于輸入向量與輸出向量間的復雜非線性相關性,初等函數(shù)擬合精度較差,而集成學習作為描述多個量之間相關性的工具,具有較強的非線性擬合能力,考慮通過ELM-SVM 集成學習模型對評價指標與竊電狀態(tài)之間的映射關系進行表征。
ELM 算法主要基于單隱層前饋神經(jīng)網(wǎng)絡(Single Hidden Layer Feedforward Neural Network,SLFN)的學習理論,ELM 只包含一個隱藏層,其中所有層參數(shù)、權重和偏差都是隨機定義的。可以使用反向操作來確定將隱藏層鏈接到輸出層的輸出權重。文中只簡要分析ELM 的基本理論,更多詳細信息請見文獻[22]。
圖3 是一個ELM 模型結構圖。設定一個訓練數(shù)據(jù)集x,有N個任意不同的樣本對(xi,yi),i=1,…,N,其中xi=[xi1,xi2,…,xin]T∈Rn為第i個輸入向量,yi=[yi1,yi2,…,yim]T∈Rm是第i個目標向量;隱藏層中包含L個節(jié)點的SLFN、激活函數(shù)φ(x)和輸出函數(shù)f(x),定義如下:
圖3 ELM模型結構圖Fig.3 ELM model structure diagram
式中:ωj為第j個隱藏節(jié)點連接到輸出節(jié)點的權重向量;φ(x)=[φ1(x),…,φL]為ELM 的非線性特征映射;φj(x)為第j個隱藏節(jié)點的輸出;ym為第m個樣本的輸出函數(shù);aj=[aj1,aj2,…,ajn]T為輸入層連接到該隱藏節(jié)點的1 組權重;bj=[b1,b2,…,bn]為偏差項。
圖3 中:X為輸入向量,Y為輸出向量,m為輸入和輸出量的個數(shù),h(x)為隱藏層與輸入層之間的權重矩陣;w1···wL為隱藏層與輸出層之間的權重矩陣。
ELM 訓練過程包括2 步:
1)隨機定義隱藏節(jié)點參數(shù)(a,b),將輸入數(shù)據(jù)映射到特征空間。映射函數(shù)可以是任何激活函數(shù),通常使用的是sigmoid 函數(shù):
式中:φi(x)為sigmoid 激活函數(shù);ai,bi為i節(jié)點隱藏節(jié)點參數(shù);x為訓練數(shù)據(jù)集;
2)找到連接隱藏節(jié)點和輸出節(jié)點的權重w,該值通過最小化凸代價獲得:
式中:y和φ分別為訓練數(shù)據(jù)和隱藏層輸出矩陣:
‖φω-y‖ 為歐幾里德標準,矩陣逆變獲得w:
SVM 的主要任務是通過預先選擇的非線性映射將輸入向量X映射到特征空間Z,在空間Z中構建最優(yōu)超平面。SVM 算法的輸出將全部中間節(jié)點進行線性組合,中間節(jié)點與支持向量機一一對應,可盡量多地將兩類數(shù)據(jù)點無誤分開,同時使分開的兩類數(shù)據(jù)點距離分類面最遠。SVM 具有全局最優(yōu)、結構簡單、能力強等優(yōu)點[23]。
SVM 模型的超平面描述為:
式中:ω為超平面的法向量;b為超平面到原點的距離;xi為第i個特征。
假設P(x1,x2,…,xn)為樣本中的一個點,那么該點到超平面的距離d為:
式中:‖W‖ 為超平面的范數(shù);T為數(shù)據(jù)集;wi,i=1,2,3...n為超平面第i,i=1,2,3...n個點的法向量。
若要使2 類數(shù)據(jù)點距離分類面最遠,則有以下目標函數(shù):
式中:yi為數(shù)據(jù)點標簽,值為1 或-1;wT為法向量集合;γ為數(shù)據(jù)間距離。
通過優(yōu)化式(10),找出一個最優(yōu)超平面,使2類數(shù)據(jù)分開且分開的最遠。
為了直觀地表示分類準確性,使用混淆矩陣,輸出結果可以表示為P 或N。通過數(shù)據(jù)得知樣本的真實值,分類模型得出預測值,混淆矩陣如表2 所示。
表2 混淆矩陣Table 2 Confusion matrix
表2 中,P 為用電正常用戶,N 為用電異常用戶,TP 為實際與預測均為用電正常用戶,F(xiàn)P 表示實際為用電異常用戶,預測為用電正常用戶,F(xiàn)N 表示實際為用電正常用戶,預測為用電異常用戶,TN 表示實際為用電異常用戶,預測為用電異常用戶。
此外,定義竊電指標評價模型的二級指標與三級指標。二級指標為準確率(RAC)、精確率(RPRE)、召回率(RREC)、特異度(RTN),計算公式如式(11),三級指標為F3,計算公式如式(12)。
通過二級指標和三級指標,以30 個用電用戶為例,給出用戶用電行為分類流程,見圖4 所示。
圖4 用戶用電行為分類流程圖Fig.4 Flow chart of user’s electricity behavior classification
雖然ELM 算法能夠在一定程度上提高竊電模型的檢測能力,但ELM 存在一個問題,不能對樣本進行自動設定數(shù)據(jù)標簽,不能為模型提供固有的訓練樣本,從而導致模型訓練不夠完整,降低了算法的適用性。因此,針對竊電識別系統(tǒng)判定率低、識別速度慢、魯棒性差的問題,綜合ELM 和SVM 的優(yōu)點,解決竊電識別模型的不足,借助ELM 強大的決策能力和SVM 算法對分類檢測的優(yōu)勢,提出一種基于ELM-SVM 的新型智能檢測識別方法,建立在標定數(shù)據(jù)的基礎上,在提供魯棒性更好的訓練樣本的同時,提高網(wǎng)絡的適用性。ELM-SVM 的原理結構如圖5 所示。其中,X1…X18為18 類與竊電狀態(tài)相關的異常指標。
圖5 ELM-SVM的原理結構圖Fig.5 Schematic structure diagram of ELM-SVM
不良數(shù)據(jù)影響模型的預測精度,數(shù)據(jù)的辨識與處理會使預測值更好,將處理后的數(shù)據(jù)分別送入ELM 和SVM 模型,通過數(shù)據(jù)融合技術,將預測結果輸出。檢測流程如圖6 所示。
圖6 ELM-SVM檢測流程圖Fig.6 ELM-SVM detection flow chart
主要步驟為:
1)通過訓練模型對電能計量大數(shù)據(jù)進行標簽,其標簽的類別為異常用電用戶和正常用電用戶,分成訓練集與測試集,使用ELM 模型測試指標數(shù)據(jù),模型的輸出設置為4 維結構,包括(1 0 0 0),(0 1 0 0),(0 0 1 0)和(0 0 0 1),并通過式(3)、式(4)所列出的sigmoid 函數(shù)使輸出的各個分量在(0,1)范圍內,再通過式(4)—式(7)輸出結果為(y1,y2,y3,y4),其中,yi(i=1,2,3,4)為第i種情況的基本信任度。
2)建立ELM 網(wǎng)絡處理異常和正常用電序列,并根據(jù)ELM 的輸入維度,將訓練集和測試集分割作為輸入;為了有效地降低計算復雜度,采用最小二乘支持向量機作為SVM 模型,SVM 輸出包含2 個值+1 和-1,+1 和-1 表示正常用電用戶和異常用電用戶。對于SVM 的每種分類結果,利用模糊數(shù)學思想[24]查看輸入數(shù)據(jù)對每類樣本的依賴程度,通過SVM 得到4 種情況下最終結果的基本信任度。
所用數(shù)據(jù)來源于國網(wǎng)某省電力公司所屬18 個配網(wǎng)臺區(qū),驗證集中含有1 345 個非竊電用戶和55個竊電用戶的用電量數(shù)據(jù),共計1 400 戶用電數(shù)據(jù)信息。采樣時間范圍為2021 年1 月2 日至2021年6 月30 日。數(shù)據(jù)集均是智能電表計量,終端采集成功率99%,在數(shù)據(jù)集中,每日每戶數(shù)據(jù)包含48個分量。
1)缺失數(shù)據(jù)補充:根據(jù)采集數(shù)據(jù)定義?為缺失數(shù)據(jù),計算公式為:
式中:F為終端采集失敗數(shù)據(jù);H為缺失數(shù)據(jù);D2為采集天數(shù)。
2)異常采集數(shù)據(jù)判別:采用箱型圖[25]的離群數(shù)據(jù)判據(jù)法,定義異常采集數(shù)據(jù)為η,判別公式為:
式中:Q1和Q3分別為第一四分位數(shù)和第三四分位數(shù);IQR為四分位距。
為保證竊電識別的準確性,數(shù)據(jù)標準化處理是非常關鍵的環(huán)節(jié)。終端采集數(shù)據(jù)包含電壓電流數(shù)據(jù)、電量類數(shù)據(jù)、報警類數(shù)據(jù)、負荷類數(shù)據(jù)和故障類數(shù)據(jù)等,各類數(shù)據(jù)之間量綱不同、單位不同,需將其標準化處理。通常采用min-max 標準化和0 均值標準化方式:
式中:為標準化后的特征值;x為標準化前的樣本值;max(x)為樣本數(shù)據(jù)最大值;min(x)為樣本數(shù)據(jù)最小值;mean(x)為樣本數(shù)據(jù)的均值;σ為樣本數(shù)據(jù)的標準差。
為了驗證ELM-SVM 模型的性能,利用電能計量大數(shù)據(jù)對電力用戶竊電行為進行檢測。實驗基于Windows10 系統(tǒng)與python 軟件。分別對ELM,SVM,ELM-SVM 模型尋找其能夠產生最好結果的學習率,表3 為各模型在各個學習率區(qū)間內的訓練結果情況。
表3 3種模型在學習率各區(qū)間上的訓練情況Table 3 Training of three models in each interval of learning rate
將ELM-SVM 模型在92 個測試數(shù)據(jù)集上進行驗證,分別與ELM 模型、SVM 模型進行實驗對比,分析不同模型的分類結果。圖7—圖9 分別為ELM-SVM 模型、ELM 模型、SVM 模型在測試集數(shù)據(jù)上的竊電用戶預測結果,正確率分別為97.8%,95.6%和94.5%,其中100 表示用電正常用戶,0 表示竊電用戶。由圖7—圖9 可以看出,ELM-SVM 模型在竊電識別檢測中正確率更高。
圖7 ELM-SVM模型預測結果Fig.7 Prediction results of ELM-SVM model
圖8 ELM模型預測結果Fig.8 Prediction results of ELM model
圖9 SVM模型預測結果Fig.9 Prediction results of SVM model
由于電力數(shù)據(jù)龐大,需進一步驗證ELM-SVM模型在電能計量大數(shù)據(jù)情況下的竊電識別準確率。隨著測試集樣本數(shù)量的不斷增大,文中所提ELM-SVM 模型分別與卷積神經(jīng)網(wǎng)絡CNN、極限梯度提升樹XGBoost、長短記憶網(wǎng)絡模型LSTM、遺傳-神經(jīng)網(wǎng)絡模型GA-BP 和密集連接卷積神經(jīng)網(wǎng)絡DenseNet 模型預測作對比,將以上算法運用在電能計量大數(shù)據(jù)中,分別進行竊電識別準確率對比,各類模型的預測結果如表4 所示。
表4 不同預測模型對應不同樣本數(shù)量的準確率結果對比Table 4 Accuracy results comparison of different prediction models corresponding to different sample numbers
從表4 可以看出,ELM-SVM 集成模型在樣本個數(shù)為100 時竊電識別準確率可達0.978,高于其他預測類型精度;但隨著樣本數(shù)量的不斷擴大,其識別精度逐漸降低,當樣本數(shù)量達到500 戶時,識別率降低到0.832,說明文中所設計ELM-SVM 模型有待進一步提高,相較于目前實際竊電識別模型準確率已有較大提升。相較于CNN、XGBoost、LSTM、GA-BP 和DenseNet 模型,ELM-SVM 在樣本數(shù)據(jù)不斷增大時識別準確率更高,說明文中設計的識別模型更加有效。
針對配電系統(tǒng)中的竊電用戶識別困難問題,本文在電能計量大數(shù)據(jù)的基礎上,提出了一種基于ELM-SVM 的竊電智能識別檢測方法。通過電表采集數(shù)據(jù)建立竊電狀態(tài)評價指標體系,最終分為I 類(電壓電流類指標、電量類指標)、II 類(報警類指標、負荷類指標)和III 類(客戶信譽指標和故障類指標)。對ELM 和SVM 算法進行技術融合,利用ELM 計算模型預測精確度,SVM 用于判別竊電用戶與非竊電用戶,從而達到竊電現(xiàn)象分類識別,獲得竊電大數(shù)據(jù)融合網(wǎng)絡模型。實例驗證表明了ELMSVM 融合網(wǎng)絡模型的竊電用戶預測率可高達97.8%,相較于CNN、XGBoost、LSTM、GA-BP 和DenseNet 模型,ELM-SVM 模型具有更好的預測準確率,在檢測電力大數(shù)據(jù)的竊電用戶中有著巨大的優(yōu)勢,可以精準識別竊電現(xiàn)象。