武 旭,王 果,許星煜,王毅斌,張建雄
(1.蘭州交通大學(xué)自動(dòng)化與電氣工程學(xué)院,蘭州 730070;2.甘肅省軌道交通電氣自動(dòng)化工程實(shí)驗(yàn)室(蘭州交通大學(xué)),蘭州 730070;3.國(guó)網(wǎng)甘肅省酒泉市供電公司,酒泉 735000)
竊電是指一種采用非法手段使用電能的行為。近年來(lái),竊電造成的消極影響不斷增加,尤其對(duì)發(fā)展中國(guó)家的影響最大[1]。隨著雙碳視角下的電力系統(tǒng)轉(zhuǎn)型,竊電還會(huì)引起智能電網(wǎng)和新型電力系統(tǒng)在用電高峰期的超負(fù)荷現(xiàn)象,增加系統(tǒng)負(fù)擔(dān),嚴(yán)重時(shí)會(huì)給電力系統(tǒng)運(yùn)行的穩(wěn)定性造成威脅[2]。因此,如何精準(zhǔn)發(fā)現(xiàn)竊電用戶、排除竊電現(xiàn)象,是目前反竊電研究領(lǐng)域的一大重點(diǎn)和難點(diǎn)[3]。反竊電預(yù)警是基于電力大數(shù)據(jù)分析,構(gòu)建典型竊電樣本,優(yōu)勢(shì)明顯,應(yīng)用前景廣泛。
國(guó)內(nèi)外許多學(xué)者已對(duì)反竊電預(yù)警進(jìn)行了大量研究。文獻(xiàn)[4]提出了一種基于時(shí)空關(guān)聯(lián)矩陣的反竊電預(yù)警方法,利用臺(tái)區(qū)線損波動(dòng)率、線損與電流差異曲線的變點(diǎn)時(shí)間進(jìn)行關(guān)聯(lián)分析,判斷是否存在竊電行為;文獻(xiàn)[5-6]提出了應(yīng)用大數(shù)據(jù)技術(shù)的反竊電分析方法,通過(guò)二階聚類分析竊電用戶的特征,用深度學(xué)習(xí)和卡方自動(dòng)交互檢測(cè)方法的決策樹分類評(píng)估用戶的竊電概率;文獻(xiàn)[7]針對(duì)傳統(tǒng)竊電檢測(cè)方法中分類單一問(wèn)題,提出一種基于Bagging異質(zhì)集成學(xué)習(xí)的竊電檢測(cè)方法;文獻(xiàn)[8]以線損與實(shí)際用電量之間的隱含關(guān)系為基礎(chǔ),提出格蘭杰歸因分析的高損臺(tái)區(qū)竊電檢測(cè)方法;文獻(xiàn)[9]構(gòu)建的模型方案加入超參數(shù)的調(diào)整以提升模型性能,可以識(shí)別用戶行為的異常;文獻(xiàn)[10-11]分別通過(guò)引入竊電比較集合和用電特征分析的方式進(jìn)行竊電辨識(shí);文獻(xiàn)[12]提出一種基于Wasserstein生成對(duì)抗網(wǎng)絡(luò)的竊電樣本過(guò)采樣方法;文獻(xiàn)[13]建立了一個(gè)基于消費(fèi)模式的模型,來(lái)識(shí)別常規(guī)用戶和竊電用戶;文獻(xiàn)[14-15]提出了一種具有隱私保護(hù)的竊電檢測(cè)方案,使用組合卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural network)識(shí)別檢測(cè)計(jì)量數(shù)據(jù)的竊電行為。由此可見,竊電行為預(yù)警相關(guān)研究方法較多且已取得不錯(cuò)的成果,但上述預(yù)警方法在量化用戶竊電存在空檔,沒有考慮技術(shù)線損因素,缺乏對(duì)饋線上的用戶給定權(quán)重。目前存在的反竊電預(yù)警方法,未充分考慮用戶用電行為的多樣性,不能綜合考慮影響用戶用電行為的因素,存在一定的局限。
針對(duì)上述研究中在量化用戶竊電可能性上存在的空檔問(wèn)題,缺乏考慮技術(shù)線損因素和用戶用電行為的多樣性,無(wú)法精確判斷竊電用戶。本文以K-means、支持向量機(jī)SVM(support vector machines)和長(zhǎng)短期記憶LSTM(long short term memory)為基礎(chǔ),提出一種用戶竊電行為預(yù)警綜合評(píng)分方法。該方法考慮日負(fù)荷特性、用戶用電行為及電量預(yù)測(cè),從橫向、縱向兩個(gè)層面對(duì)用戶用電行為進(jìn)行定量評(píng)分,同時(shí)考慮技術(shù)線損因素對(duì)饋線上的用戶給定權(quán)重實(shí)現(xiàn)綜合評(píng)分;通過(guò)實(shí)際算例對(duì)所提方法進(jìn)行驗(yàn)證。雖然此方法構(gòu)架復(fù)雜,但通過(guò)對(duì)電力用戶大數(shù)據(jù)的分類、聚類、回歸,加之考慮線損和竊電權(quán)重,可以精確地定位竊電用戶,量化用戶竊電行為,對(duì)電力部門現(xiàn)場(chǎng)反竊電排查具有重大的現(xiàn)實(shí)意義。
本文所述的竊電行為預(yù)警評(píng)分模型總架構(gòu)如圖1所示。該評(píng)分架構(gòu)由橫向評(píng)分、縱向評(píng)分、綜合評(píng)分三部分組成。橫向評(píng)分中,利用K-means算法對(duì)區(qū)域內(nèi)用戶日負(fù)荷數(shù)據(jù)進(jìn)行聚類,給出每種用電行為聚類標(biāo)簽,利用SVM建立日負(fù)荷分類模型,通過(guò)橫向評(píng)分標(biāo)準(zhǔn)給出橫向評(píng)分??v向評(píng)分中,利用LSTM算法對(duì)每個(gè)用戶建立短時(shí)間尺度用電量預(yù)測(cè)模型,通過(guò)縱向評(píng)分標(biāo)準(zhǔn)評(píng)估單個(gè)用戶的用電情況是否符合其一貫用電行為,給出縱向評(píng)分。綜合評(píng)分中,考慮技術(shù)線損因素,同時(shí)對(duì)饋線上的用戶給定權(quán)重,最終實(shí)現(xiàn)綜合評(píng)分。
圖1 竊電行為預(yù)警模型總架構(gòu)Fig.1 General framework of power theft early warning model
基于K-Means、SVM建立分類模型,從橫向作比較,目的是與周邊具有相似用電行為的用戶對(duì)比,給出橫向評(píng)分?;贚STM網(wǎng)絡(luò)的用戶用電量預(yù)測(cè)模型,從縱向作比較,目的是與自身的日常用電行為對(duì)比,給出縱向評(píng)分。橫向評(píng)分與縱向評(píng)分均為單個(gè)用戶細(xì)化評(píng)分,通過(guò)乘以線損權(quán)重的方式,建立用戶用電行為綜合評(píng)分,從而判斷竊電用戶。若綜合評(píng)分過(guò)低,則通過(guò)服務(wù)云平臺(tái)發(fā)出報(bào)警信號(hào),通知相關(guān)工作人員現(xiàn)場(chǎng)排查。
利用K-means算法將所有用戶經(jīng)過(guò)歸一化的歷史日負(fù)荷數(shù)據(jù)進(jìn)行聚類,確認(rèn)用戶的用電行為,并對(duì)每種用電行為給出聚類標(biāo)簽。將用戶歷史日負(fù)荷數(shù)據(jù)作為輸入,用電行為標(biāo)簽作為輸出,利用SVM建立日負(fù)荷分類模型。在日常運(yùn)行階段,對(duì)每個(gè)用戶日負(fù)荷進(jìn)行分類,根據(jù)用戶橫向評(píng)分標(biāo)準(zhǔn)對(duì)同一類用戶給出橫向評(píng)分。
通過(guò)橫向評(píng)分,基于聚類、分類的思想對(duì)每個(gè)類別中用電量進(jìn)行評(píng)分,對(duì)用電量較少的用戶給予較低的分?jǐn)?shù),提高其異常用電行為的可能性,但僅僅是橫向評(píng)分不能排除用戶一貫用電量較少的可能性。此外,比起傳統(tǒng)根據(jù)對(duì)歷史數(shù)據(jù)進(jìn)行聚類的異常用電識(shí)別方法,對(duì)每天的用電行為進(jìn)行分類更加具有可操作性和實(shí)時(shí)性。
2.1.1K-means聚類算法
K-means聚類算法中是一種以距離作為數(shù)據(jù)間相似性度量標(biāo)準(zhǔn)的聚類算法[16],其中K代表類簇個(gè)數(shù),means代表類簇內(nèi)數(shù)據(jù)對(duì)象的均值。當(dāng)數(shù)據(jù)間的距離越小,則相似性越高,越有可能在同一個(gè)類簇。數(shù)據(jù)間的距離計(jì)算公式為
式中:(x1,y1)、(x2,y2)為數(shù)據(jù)坐標(biāo);P為數(shù)據(jù)之間的歐式距離。
K-means算法中聚類個(gè)數(shù)要由人為指定,所以一般利用肘部法則[17]與輪廓系數(shù)[16]綜合判定聚類個(gè)數(shù)K值。K-means是以最小化樣本與質(zhì)點(diǎn)平方誤差作為目標(biāo)函數(shù),將每個(gè)簇的質(zhì)點(diǎn)與簇內(nèi)樣本點(diǎn)的平方距離誤差和作為畸變程度,畸變程度越低,簇內(nèi)樣本越密。輪廓系數(shù)是類的密集與分散程度的評(píng)價(jià)指標(biāo),表示為
式中:l為同簇與相鄰距離的均值;k為樣本與簇外最近簇內(nèi)樣本距離的均值(除自身);s為輪廓系數(shù),取值為[-1,1],越接近1代表K值越合理。
2.1.2 SVM分類算法
SVM是一個(gè)有監(jiān)督的學(xué)習(xí)模型,需要找到一個(gè)超平面,SVM模型的超平面描述為
式中:ω為超平面的法向量;x為超平面上的點(diǎn);b為超平面到原點(diǎn)的距離。目的在于盡量將兩類數(shù)據(jù)點(diǎn)準(zhǔn)確分開,同時(shí)使這兩類數(shù)據(jù)點(diǎn)距離分類面最遠(yuǎn)。
假設(shè)X(x1,x2,…,xn)為樣本中的一個(gè)點(diǎn),其中xi表示為第i個(gè)特征,那么該點(diǎn)到超平面的距離d的計(jì)算公式為
式中:‖ω‖為超平面的范數(shù);T為數(shù)據(jù)訓(xùn)練集;ωi為超平面第i(i=1,2,…,n)個(gè)點(diǎn)的法向量。若要使兩類數(shù)據(jù)點(diǎn)距離分類面最遠(yuǎn),則其目標(biāo)函數(shù)為
式中:yi為數(shù)據(jù)點(diǎn)標(biāo)簽,值為1或-1;γ為樣本點(diǎn)間的距離。
為了直觀地表示分類準(zhǔn)確性,一般使用混淆矩陣[18]。本文采用二分類模型,最終輸出結(jié)果可以表示為positive或negative。通過(guò)采集樣本可以知道樣本的類別,即真實(shí)值。分類模型結(jié)果為預(yù)測(cè)值。則定義4個(gè)指標(biāo)分別為:TP、FN、FP、TN。這4個(gè)指標(biāo)在一張表格上呈現(xiàn)出來(lái)就是混淆矩陣,如表1所示。
表1 混淆矩陣Tab.1 Confusion matrix
混淆矩陣中,TP為真實(shí)值與預(yù)測(cè)值均正常;FP為真實(shí)值異常,預(yù)測(cè)值正常;FN為真實(shí)值正常,預(yù)測(cè)值異常;TN為真實(shí)值與預(yù)測(cè)值均異常。TP、TN內(nèi)的樣本數(shù)越多,說(shuō)明分類模型預(yù)測(cè)結(jié)果越好;FP、FN內(nèi)樣本數(shù)越多,說(shuō)明分類模型預(yù)測(cè)結(jié)果越差。此外,在混淆矩陣的基礎(chǔ)上定義了評(píng)價(jià)模型的二級(jí)指標(biāo)和三級(jí)指標(biāo)。通過(guò)三級(jí)指標(biāo)可以更加準(zhǔn)確地評(píng)價(jià)分類模型的好壞,其中二級(jí)指標(biāo)為準(zhǔn)確率ACC、精確率PPV、召回率TPR、特異度TNR,三級(jí)指標(biāo)為F1_Score,計(jì)算公式分別為
2.1.3 橫向評(píng)分標(biāo)準(zhǔn)
橫向評(píng)分具體流程如下。首先,利用K-means算法進(jìn)行聚類,并對(duì)每種用電行為設(shè)定聚類標(biāo)簽。然后,將用戶歷史日負(fù)荷數(shù)據(jù)作為輸入,用電行為標(biāo)簽作為輸出,建立基于SVM的分類模型。建立分類模型,可在離線情況下將用戶每天用電負(fù)荷分類。收集第k個(gè)類別中第j個(gè)用戶當(dāng)日的總用電量Ek,j,并對(duì)應(yīng)求得該類中用戶當(dāng)日的用電量平均值Ek。在同類別中,對(duì)Ek,j與Ek進(jìn)行比較。用戶橫向評(píng)分標(biāo)準(zhǔn)具體如表2所示。
表2 用戶橫向評(píng)分標(biāo)準(zhǔn)Tab.2 User horizontal scoring standard
利用LSTM算法建立短期負(fù)荷預(yù)測(cè)模型[19]。在日常運(yùn)行階段,對(duì)每個(gè)用戶用電量進(jìn)行實(shí)時(shí)預(yù)測(cè),輸入為前24 h的用戶實(shí)際用電量,輸出為第25 h的預(yù)測(cè)用電量。在第t+1天凌晨,整合第t天24 h的預(yù)測(cè)用電量和第t天24 h的實(shí)際用電量,根據(jù)用戶縱向評(píng)分標(biāo)準(zhǔn),評(píng)估單個(gè)用戶第t天的用電情況是否符合其一貫用電行為,并且給出縱向評(píng)分。
通過(guò)縱向評(píng)分,基于回歸的思想,充分考慮了用戶用電行為的多樣性,彌補(bǔ)了橫向評(píng)分的缺陷,當(dāng)用戶用電量低于預(yù)測(cè)用電量一定閾值后,說(shuō)明存在較大的竊電可能性。
2.2.1 基于Embedding-LSTM的用電量預(yù)測(cè)模型
基于LSTM網(wǎng)絡(luò)的用戶用電量預(yù)測(cè)模型為:存在輸入層、Embedding層、LSTM層、輸出層的LSTM神經(jīng)網(wǎng)絡(luò),如圖2所示。其中,輸入層為多特征滾動(dòng)窗口形式,考慮單個(gè)用戶縱向24 h、4種數(shù)據(jù)特征(天氣、溫度、濕度、用電量),故滾動(dòng)窗口大小為24×4的形式。由于天氣是離散數(shù)據(jù),因此首先經(jīng)過(guò)Embedding層后,生成特征向量并與連續(xù)數(shù)據(jù)進(jìn)行特征聯(lián)合,形成LSTM層的輸入向量。LSTM模型的輸出層為第25 h內(nèi)的用戶用電量。
圖2 Embedding-LSTM用電量預(yù)測(cè)模型Fig.2 Embedding-LSTM power consumption prediction model
擬合優(yōu)度的度量是可決系數(shù)R2,R2越接近1,說(shuō)明回歸曲線的觀測(cè)值擬合程度越好[19]。假定目前存在n組數(shù)據(jù)樣本 (x1,y1)、(x2,y2)、…、(xn,yn),總平方和SST及回歸平方和SSR定義為
式中:為y的均值;yi為第i(i=1,2,…,n)個(gè)樣本的輸出真實(shí)值;?i為擬合值。則可決系數(shù)R2計(jì)算為
2.2.2 縱向評(píng)分標(biāo)準(zhǔn)
縱向評(píng)分標(biāo)準(zhǔn)定義為
式中:Sj為該用戶當(dāng)日實(shí)際用電量少于預(yù)測(cè)用電量的平均誤差和;為該用戶在第t時(shí)段內(nèi)預(yù)測(cè)的用電量;為該用戶在第t時(shí)段內(nèi)的實(shí)際用電量;rj為當(dāng)日該用戶實(shí)際用電量少于預(yù)測(cè)用電量的時(shí)段個(gè)數(shù);λ(·)表示為
式(11)具體含義為:將基于單個(gè)用戶的用電行為習(xí)慣預(yù)測(cè)的用電量與該時(shí)段內(nèi)實(shí)際用電量對(duì)比,若,則用戶用能比預(yù)測(cè)用電量少,此時(shí)Sj,t>0;若,則用戶用電量比預(yù)測(cè)用電量多,此時(shí)Sj,t=0。考慮預(yù)測(cè)誤差閾值因素,根據(jù)Sj得分,給出用戶縱向評(píng)分標(biāo)準(zhǔn),如表3所示。
表3 用戶縱向評(píng)分標(biāo)準(zhǔn)Tab.3 User vertical scoring standard
在當(dāng)日該用戶實(shí)際用電量少于預(yù)測(cè)用電量的時(shí)段內(nèi),考慮到用電量預(yù)測(cè)模型存在5%的預(yù)測(cè)誤差,則若實(shí)際用電量平均值少于預(yù)測(cè)用電量平均值的5%以內(nèi),此時(shí)縱向評(píng)分為滿分;若實(shí)際用電量與預(yù)測(cè)用電量的比值越小,說(shuō)明縱向評(píng)分越低。通過(guò)與自身歷史用電行為對(duì)比的方式,彌補(bǔ)橫向?qū)Ρ葧r(shí),可能存在該用電需求普遍較同類用戶較低的問(wèn)題。當(dāng)橫向和縱向評(píng)分綜合起來(lái)同時(shí)較低時(shí),證明該用戶存在竊電的可能性。
由于周期性巡查的方法費(fèi)時(shí)費(fèi)力,因此建立針對(duì)竊電行為的分級(jí)管理制度,對(duì)不同竊電嚴(yán)重程度的臺(tái)區(qū)采用不同的竊電稽查手法。對(duì)重度竊電臺(tái)區(qū)采用較小權(quán)重,使得該區(qū)域用戶整體評(píng)分較低,采用較高頻度的周期性巡查;對(duì)中度竊電臺(tái)區(qū),采取保證一定覆蓋率的隨機(jī)抽查;對(duì)其余區(qū)域,采用較高權(quán)重使得整體評(píng)分較高[20-21]。臺(tái)區(qū)竊電嚴(yán)重程度劃分為4檔,如表4所示。
表4 低壓臺(tái)區(qū)4級(jí)竊電嚴(yán)重程度的界定原則Tab.4 Definition principle for four levels of power theft severity in low-voltage station area
表中:ΔA%為實(shí)測(cè)線損率;為技術(shù)線損率標(biāo)桿值;ΔA1%和ΔA2%為對(duì)應(yīng)的ΔA%閾值,具體計(jì)算公式分別為
橫向評(píng)分與縱向評(píng)分均為單個(gè)用戶細(xì)化評(píng)分。通過(guò)乘以線損權(quán)重的方式,建立用戶用電行為綜合評(píng)分,判斷綜合評(píng)分是否符合標(biāo)準(zhǔn)。若綜合評(píng)分過(guò)低,則發(fā)出報(bào)警信號(hào)通知相關(guān)工作人員現(xiàn)場(chǎng)排查用戶竊電可能性。根據(jù)單個(gè)用戶的橫向、縱向用電情況,建立綜合評(píng)分,即
式中:Zj為第j個(gè)用戶綜合評(píng)分;η為竊電權(quán)重系數(shù);α、β為修正系數(shù),為保證綜合評(píng)分保持在100以內(nèi),α+β=1用于核定縱向評(píng)分與橫向評(píng)分的權(quán)重,根據(jù)實(shí)際情況制定修正系數(shù)的劃分限定標(biāo)準(zhǔn)。當(dāng)用戶綜合評(píng)分低于限定標(biāo)準(zhǔn)時(shí),發(fā)出異常用電警告,并由工作人員進(jìn)行實(shí)地考證。
選取酒泉地區(qū)不同的3類臺(tái)區(qū)中相同用電行為的30個(gè)用戶,采樣時(shí)間范圍為2020年1月1日至2020年12月31日,采樣間隔為1 h,包含天氣、溫度、星期、電價(jià)等特征。所采用的數(shù)據(jù)均已經(jīng)過(guò)預(yù)處理,實(shí)驗(yàn)基于Python3.7運(yùn)行環(huán)境。首先,計(jì)算30個(gè)用戶的橫向與縱向評(píng)分,驗(yàn)證橫向、縱向權(quán)重的設(shè)定對(duì)于綜合評(píng)分的影響;然后,模擬該30個(gè)用戶在不同環(huán)境、不同臺(tái)區(qū)下的技術(shù)竊電分級(jí)權(quán)重對(duì)于竊電判定的影響。
根據(jù)肘部法則與輪廓系數(shù)綜合判定K值,結(jié)果如圖3所示,圖中左y軸平均畸變程度為肘部法則所得結(jié)果,右y軸為輪廓系數(shù)所得結(jié)果。首先,根據(jù)肘部法則可知,聚類個(gè)數(shù)在2~3之間,根據(jù)輪廓系數(shù)盡可能大的原則,選擇聚類個(gè)數(shù)為2,根據(jù)聚類結(jié)果求取每類標(biāo)準(zhǔn)化后的用電行為的平均曲線,如圖4所示。
圖3 聚類個(gè)數(shù)判定Fig.3 Determination of clustering number
圖4 每類用電行為平均曲線Fig.4 Average curve of each type of power consumption behavior
通過(guò)聚類結(jié)果可以看出,兩種用電行為的差異主要體現(xiàn)在14~24 h這段時(shí)間內(nèi)。聚類分析得到用戶用電行為標(biāo)簽后,將用戶歷史日負(fù)荷數(shù)據(jù)作為輸入,用戶用電行為標(biāo)簽作為輸出,采用SVM建立用戶用電行為分類模型。其中將用戶日負(fù)荷數(shù)據(jù)按9∶1比例劃分為訓(xùn)練集和測(cè)試集。分類模型結(jié)果如圖5所示。
圖5 分類模型結(jié)果Fig.5 Result of classification model
本文隨機(jī)選取了30名用戶在測(cè)試集上第45日的用戶日負(fù)荷數(shù)據(jù)。分別給出了30名用戶的用電行為類別以及用戶橫向評(píng)分,如表5所示。
表5 用戶橫向評(píng)分Tab.5 User horizontal scoring
由圖6可見,用戶16、17、19、23、24這5位用戶的用電行為為第2類用電行為,其余用戶均為第1類用電行為。
圖6 用戶用電行為標(biāo)簽Fig.6 Label of user power consumption behavior
通過(guò)橫向評(píng)分,對(duì)每個(gè)類別中用電量進(jìn)行評(píng)分,當(dāng)用戶用電量大于同類別用戶平均用電量時(shí)橫向評(píng)分為滿分。隨著用電量逐漸降低,其橫向評(píng)分也逐漸降低,提高了該用戶異常用電行為的可能性。但是,僅僅是橫向評(píng)分不能排除用戶由于用電人數(shù)、用電習(xí)慣等用電量較少的可能性。因此,需要縱向評(píng)分對(duì)該缺點(diǎn)進(jìn)行彌補(bǔ)。
利用數(shù)據(jù)建立LSTM網(wǎng)絡(luò)的用戶用電量預(yù)測(cè)模型,進(jìn)行用戶用電量預(yù)測(cè)。其中,天氣為離散數(shù)據(jù),使用Embedding學(xué)習(xí)離散型數(shù)據(jù)后,生成特征向量并與連續(xù)數(shù)據(jù)用電量、溫度、濕度進(jìn)行特征聯(lián)合,形成LSTM輸入向量。LSTM輸出層為第25 h內(nèi)的用戶用電量。模型訓(xùn)練結(jié)果如圖7所示。
圖7 模型訓(xùn)練結(jié)果Fig.7 Model training results
利用測(cè)試集對(duì)該模型進(jìn)行驗(yàn)證,并針對(duì)用戶用電量預(yù)測(cè)模型對(duì)比了主要參數(shù)(神經(jīng)元個(gè)數(shù)、訓(xùn)練次數(shù))對(duì)預(yù)測(cè)精度的影響,如表6所示。LSTM模型設(shè)置了1個(gè)全連接層作為輸入層、1個(gè)LSTM層作為隱藏層,其中,神經(jīng)元個(gè)數(shù)分別設(shè)為50、70、100,最后通過(guò)全連接層輸出指定格式的向量[21]。
表6 不同參數(shù)下預(yù)測(cè)模型精度對(duì)比Tab.6 Comparison of prediction model accuracy under different parameters
可見,當(dāng)神經(jīng)元個(gè)數(shù)為50個(gè),訓(xùn)練次數(shù)為150次時(shí),預(yù)測(cè)模型的最高預(yù)測(cè)精度達(dá)到95.1%,因此前文中縱向評(píng)分的誤差閾值設(shè)為0.05。此外,參數(shù)的變動(dòng)對(duì)于結(jié)果的改變不明顯,說(shuō)明模型結(jié)構(gòu)穩(wěn)定,且與輸入輸出契合。取30名用戶第44日的用電量來(lái)預(yù)測(cè)第45日的用電量。圖8為用戶1的預(yù)測(cè)結(jié)果。表7為第45日的縱向評(píng)分。
表7 用戶縱向評(píng)分Tab.7 User vertical scoring
圖8 用戶1預(yù)測(cè)結(jié)果Fig.8 Forecasting results of User 1
在當(dāng)日該用戶實(shí)際用電量少于預(yù)測(cè)用電量的時(shí)段內(nèi),考慮到用電量預(yù)測(cè)模型存在5%的預(yù)測(cè)誤差,則若實(shí)際用電量平均值少于預(yù)測(cè)用電量平均值的5%,此時(shí)縱向評(píng)分為滿分;縱向評(píng)分越低,說(shuō)明實(shí)際量與預(yù)測(cè)量的比值越小。通過(guò)與自身歷史用電行為對(duì)比的方式,彌補(bǔ)橫向?qū)Ρ葧r(shí),可能存在該用電需求普遍較同類用戶較低的問(wèn)題。當(dāng)橫向和縱向評(píng)分綜合起來(lái)同時(shí)較低時(shí),證明該用戶竊電的可能性較大。
首先不考慮竊電分級(jí)權(quán)重,為了選取合適修正系數(shù)α和β,對(duì)酒泉地區(qū)所屬48個(gè)配電臺(tái)區(qū)2019-01-01至2020-12-30共730日負(fù)荷采集數(shù)據(jù)進(jìn)行修正測(cè)試,最終確定選取如表8所示的3種典型情況。
表8 修正系數(shù)選擇Tab.8 Selection of correction coefficients
表中:Z1為修正系數(shù)α=0.1、β=0.9下的評(píng)分序列;Z2為修正系數(shù)α=0.5、β=0.5下的評(píng)分序列;Z3為修正系數(shù)α=0.9、β=0.1下的評(píng)分序列。在3類修正系數(shù)下,不考慮竊電分級(jí)權(quán)重的綜合評(píng)分如表9所示。在第1組修正系數(shù)α=0.1,β=0.9下,用戶11、12、16、22、24這5名用戶的綜合得分明顯偏低,所以存在極大的竊電嫌疑;在第2組修正系數(shù)α=0.5,β=0.5下,用戶11、12、16、24這4名用戶的綜合得分明顯偏低,所以存在極大的竊電嫌疑;用戶3、14、20、22這4名用戶的得分為60,也存在竊電嫌疑;在第3組修正系數(shù)α=0.9,β=0.1下,用戶1、2、3、4、11、12、14、15、16、20、24這11名用戶的綜合得分明顯偏低,所以存在極大的竊電嫌疑。
表9 不考慮竊電分級(jí)權(quán)重的綜合評(píng)分Tab.9 Comprehensive scoring without considering the graded weight of power theft
α與β分別代表著橫向評(píng)分與縱向評(píng)分對(duì)于綜合評(píng)分的重要程度。對(duì)比3組系數(shù)下的結(jié)果,當(dāng)橫向修正系數(shù)大時(shí),用戶的綜合評(píng)分偏低,此時(shí)被判定為異常用電的用戶比較多。當(dāng)縱向修正系數(shù)較大時(shí),用戶的綜合評(píng)分偏高,此時(shí)被判定為異常用電的用戶較少。當(dāng)橫向修正系數(shù)和縱向修正系數(shù)取值適中時(shí),被判定為竊電的用戶是以上兩種情況結(jié)果的交集。說(shuō)明在沒有竊電的先驗(yàn)信息的條件下,選用參數(shù)為α=0.5、β=0.5較為合適。在有歷史竊電數(shù)據(jù)的情況下,工作人員可以根據(jù)歷史信息對(duì)α、β進(jìn)行回歸擬合,得到適用于實(shí)際情況的修正系數(shù)。
數(shù)據(jù)中包含如表10所示3種場(chǎng)景,基于修正系數(shù)α=0.5、β=0.5,考慮竊電分級(jí)程度,對(duì)綜合評(píng)分進(jìn)行調(diào)整。此時(shí),相同30個(gè)用戶在考慮竊電分級(jí)權(quán)重的綜合評(píng)分如表11所示。在不考慮竊電分級(jí)前,僅用戶11、12、16、24這4名用戶的綜合得分明顯偏低,存在極大的竊電嫌疑。
引入竊電分級(jí)后,隨著臺(tái)區(qū)的竊電風(fēng)險(xiǎn)增大,更多用戶將被作為潛在竊電用戶,將由工作人員定時(shí)進(jìn)行排查。
表10 3類場(chǎng)景下竊電權(quán)重Tab.10 Power theft weight under three scenarios
表11 考慮竊電分級(jí)權(quán)重的綜合評(píng)分Tab.11 Comprehensive scoring considering graded weight of power theft
本文利用區(qū)域內(nèi)實(shí)時(shí)數(shù)據(jù)提出了一種用戶竊電行為預(yù)警綜合評(píng)分方法?;贙-means以及SVM建立分類模型,從橫向作比較,給出橫向評(píng)分;基于LSTM網(wǎng)絡(luò)的用戶用電量預(yù)測(cè)模型,縱向作比較,給出縱向評(píng)分。最后,根據(jù)實(shí)測(cè)線損考慮竊電管理分級(jí),進(jìn)行綜合評(píng)分。
通過(guò)橫向、縱向兩個(gè)方面的評(píng)分,綜合性地輔助工作人員進(jìn)行異常用電識(shí)別,精準(zhǔn)定位單個(gè)具有竊電可能性的用戶,解決以往整個(gè)臺(tái)區(qū)排查費(fèi)時(shí)費(fèi)力的問(wèn)題。綜合評(píng)分的修正系數(shù),根據(jù)實(shí)際情況選定,在沒有竊電的先驗(yàn)信息的條件下,選用參數(shù)為α=0.5、β=0.5較為合適,在有歷史竊電數(shù)據(jù)的情況下,工作人員可以根據(jù)歷史信息對(duì)α、β進(jìn)行回歸擬合,得到適用于實(shí)際情況的修正系數(shù)。最后,經(jīng)過(guò)算例分析,證明其性能準(zhǔn)確,對(duì)于多種用電行為的用戶,在橫向評(píng)分和縱向評(píng)分上均能獲得較高精確度,可以實(shí)現(xiàn)異常用電行為預(yù)警。