一種相關(guān)性與聚類自適應(yīng)融合技術(shù)竊電檢測方法

2021-10-30 02:02:46趙云肖勇曾勇剛徐迪陸煜鋅孔政敏

南方電網(wǎng)技術(shù) 2021年9期

趙云，肖勇，曾勇剛，徐迪，陸煜鋅，孔政敏

(1.南方電網(wǎng)科學(xué)研究院，廣州 510663； 2. 武漢大學(xué)電氣自動化學(xué)院，武漢 430072)

0 引言

近年來竊電事件頻發(fā)，及時準(zhǔn)確地檢測用戶竊電行為對國家電網(wǎng)的安全與效益至關(guān)重要[1]。

目前現(xiàn)有反竊電檢測方法主要分為基于用戶歷史數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)和基于高級測量體系(advanced measurement system, AMI)的遠(yuǎn)程實時檢測技術(shù)兩大類。近年來，許多學(xué)者在數(shù)據(jù)挖掘技術(shù)應(yīng)用于竊電檢測方面開展了大量研究。文獻(xiàn)[2]通過數(shù)據(jù)驅(qū)動的方式，基于不同潮流對線損結(jié)果的差異影響，利用神經(jīng)網(wǎng)絡(luò)構(gòu)建相關(guān)線損模型，實現(xiàn)了線損理論計算以及竊電位置判斷。文獻(xiàn)[3]優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)模型，提出10個指標(biāo)綜合判斷用戶行為，提高竊電因子判斷準(zhǔn)確率。文獻(xiàn)[4]從利用大數(shù)據(jù)分析用戶用電信息，總結(jié)了竊電方法及其特征，提出了以閾值判斷為核心的竊電檢測模型。文獻(xiàn)[5]組合了支持向量機(jī)(SVM)和電壓敏感度估計兩種方法進(jìn)行非技術(shù)線損(NTL)檢測。文獻(xiàn)[6]對卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型進(jìn)行改進(jìn)，算法減少了迭代次數(shù)，提高了數(shù)據(jù)處理能力和檢測準(zhǔn)確率。

基于人工智能的算法利用機(jī)器學(xué)習(xí)的技術(shù)，如分類和聚類等方法，分析用戶的用電數(shù)據(jù)以找出具有異常特征的竊電用戶。分類方法需要有標(biāo)簽的數(shù)據(jù)集，而竊電數(shù)據(jù)集往往難以獲得，使得這類方法在實際應(yīng)用中受到限制。而聚類的方法雖然不需要標(biāo)簽，但無監(jiān)督的方法在負(fù)荷曲線被篡改但仍保持正常的情況下，無法識別異常用戶。目前可通過智能算法生成竊電數(shù)據(jù)集[7]，但其前提仍需要收集實際的竊電數(shù)據(jù)集。而基于AMI的檢測技術(shù)又需要完整的電力系統(tǒng)狀態(tài)信息和電網(wǎng)拓?fù)?，增加了測量設(shè)備成本[7 - 10]。

基于此，本文提出了一種自適應(yīng)融合檢測算法，適用于普通的用電場景。最大互信息系數(shù)( maximum information coefficient, MIC)能夠利用最少的附加數(shù)據(jù)來檢測被篡改的用電數(shù)據(jù)文件之間的關(guān)聯(lián)，針對異常用戶的負(fù)載曲線會更加具有隨機(jī)性的特點(diǎn)，采用密度峰值的快速聚類算法(clustering by fast search and find of density peaks, CFSFDP)根據(jù)密度特征來檢測異常用戶。將2種算法得到的結(jié)果進(jìn)行自適應(yīng)融合排序，融合的結(jié)果綜合了2種算法的優(yōu)勢，提高了算法檢測的精度與檢測竊電種類的多樣性。本文提出了一種新的竊電檢測算法框架，用組合的算法將竊電嫌疑用戶排序；將更高效的相關(guān)性檢測算法MIC應(yīng)用于竊電檢測中，并通過數(shù)值仿真驗證了方法的有效性。

首先建立了臺區(qū)用戶的用電模型，對各種復(fù)雜的竊電行為抽象出6種不同的竊電模型，并給出了竊電檢測的問題描述；接著介紹了2種基本技術(shù)，提出了MIC與CFSFDP的組合檢測框架；最后利用數(shù)值仿真實驗，證明了方法的有效性。

1 問題描述

不同竊電行為的共同特征是使電表測量數(shù)據(jù)與實際用電情況不符[11 - 12]。這些竊電方式對電表測量值的影響，可以抽象為對用電量測量數(shù)據(jù)的錯誤數(shù)據(jù)注入(false data injection，F(xiàn)DI)。將臺區(qū)中的用戶看作不同的計量單元，當(dāng)這些計量單元可以被FDI影響時，即發(fā)生竊電現(xiàn)象。臺區(qū)的總表為計量單元真實測量值之和，難以產(chǎn)生竊電行為，不被FDI影響。臺區(qū)中每個用戶的竊電行為都會對臺區(qū)總表數(shù)據(jù)與分表數(shù)據(jù)的相關(guān)性產(chǎn)生影響，通過分析總表數(shù)據(jù)與分表數(shù)據(jù)的相關(guān)性，即可檢測存在FDI的測量單元，即竊電用戶。

1.1 應(yīng)用場景

竊電檢測方法的應(yīng)用場景如圖1所示。

圖1 低壓臺區(qū)測量Fig.1 Measurements flow-voltagetransformer areas

每個臺區(qū)都有一組用戶群，用戶群中存在著更改用戶分表測量值的竊電用戶，即存在部分用戶分表顯示的并不是用電量的真實值。而臺區(qū)總表是不會被更改的，即顯示總用電量的真實值。

1.2 竊電方式與竊電模型

常見的竊電方式包括：改變電流的竊電、改變電壓的竊電、改變表計的結(jié)構(gòu)和接線方式的竊電、強(qiáng)交流磁場竊電。它們的共同特點(diǎn)是將用電量的真實值更改，達(dá)到少計量或不計量的目的。因此竊電的行為將導(dǎo)致臺區(qū)分表計量和總表計量之間存在誤差。設(shè)由竊電行為導(dǎo)致的誤差為et，則et的計算公式如(1)所示。

(1)

(2)

式中：Γ為竊電用戶的集合；xi,t為用戶i用電量的真實值。

取用戶1 d用電量的真實值，根據(jù)表1的規(guī)則，得到6種竊電類型的對應(yīng)的數(shù)據(jù)，繪制竊電曲線，如圖2所示。

表1 6種竊電類型Tab.1 Six electricity theft types

圖2 竊電類型示例Fig.2 Example of the electricity theft types

1.3 竊電行為導(dǎo)致的誤差與分表數(shù)據(jù)相關(guān)性

(3)

對于竊電類型1來說，2個電量相關(guān)性是確定的，且是線性的。而對于其他竊電類型來說，電量相關(guān)性不如第一種竊電類型明顯的，特別是對于某些竊電類型來說，式(3)不成立(例如第6種竊電類型產(chǎn)生了一種完全隨機(jī)的曲線)；然而式(3)仍然適用于大多數(shù)竊電類型，即以式(3)為基礎(chǔ)的竊電檢測方法可以檢測出大多數(shù)的竊電行為。那么，iCorr(·，·)的選取，即選取一個能表示兩個電量非線性的模糊關(guān)系的相關(guān)方式，對于竊電檢測方法的效果具有十分重要的意義。

2 MIC與CFSFDP組合檢測方法

由于某些竊電類型導(dǎo)致的誤差與分表數(shù)據(jù)不具有明顯相關(guān)性，只通過相關(guān)性方法無法有效檢測，本文提出一種新的相關(guān)性與聚類融合技術(shù)自適應(yīng)融合技術(shù)檢測方法，該方法中的MIC利用1.3節(jié)的相關(guān)性檢測方法得到臺區(qū)所有用戶用電量與測量總誤差的相關(guān)關(guān)系。相關(guān)性越強(qiáng)，則是竊電用戶的可能性就越大。同時，利用CFSFDP聚類具有相似波形用電量數(shù)據(jù)，從而找出異常的用電曲線，找出竊電用戶。根據(jù)上述2種算法，本文提出的綜合判斷方法，對用戶竊電概率進(jìn)行排序，從而找出竊電用戶。

2.1 最大互信息系數(shù)

在統(tǒng)計學(xué)中，皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient, PCC)是測量2個向量間相關(guān)性的有效度量手段。皮爾遜相關(guān)系數(shù)(PCC)的值在(-1,1)區(qū)間中。如果2個向量具有嚴(yán)格的線性相關(guān)關(guān)系，那么PCC的值為-1或1。如果2個向量不具有相關(guān)性，那么PCC的值為0。PCC的缺點(diǎn)在于，它只能表示2個向量是否具有線性相關(guān)的關(guān)系，不能檢測更復(fù)雜的相關(guān)性，例如二次或三次函數(shù)關(guān)系、時變關(guān)系等。而2個向量的互信息(mutual information MI)由于其在衡量相關(guān)性方面應(yīng)用范圍更廣，不僅僅局限于線性相關(guān)的范疇，被用來檢測各種類型的相關(guān)性。MIC是基于MI的改進(jìn)的算法，在很多情況比MI的應(yīng)用效果更好[13]。

給定一個有序?qū)Φ挠邢藜螪，D中包含(x,y)有序?qū)Α劃分為m個部分，將y劃分為n個部分。則在xOy組成的二維平面中，得到了m×n的網(wǎng)格。假設(shè)這個網(wǎng)格為G，DG為網(wǎng)格中每個單元里集合D中元素的分布。G對于D?2，a,b∈*，定義為：

(4)

(5)

對于確定的集合D，其(x,y)對的數(shù)量為|D|,網(wǎng)格數(shù)量小于B(n)，則其MIC值由式(6)給定。

(6)

2.2 基于CFSFDP的無監(jiān)督檢測

基于相關(guān)性檢測在檢測某些竊電類型時有所不足(如竊電類型6)，可使用聚類算法從用電曲線中找出異常曲線的用戶。基于密度的聚類算法被廣泛應(yīng)用于異常檢測。其中，CFSFDP[14 - 16]在大數(shù)據(jù)聚類和異常檢測中有良好效果。

對于由用戶u的不同自然日用電情況組成的一組用電曲線，記第i天的用電曲線為Cu,i。在CFSFDP中，有2個指標(biāo)衡量用戶用電曲線：ρi和δi。ρi為用戶第i天的曲線在用戶所有用電曲線聚類后的密度。δi為用戶第i天用電曲線與該用戶其他天數(shù)的用電曲線的距離：若該用戶不是聚類密度最高的用戶，則取與其他密度更高的用戶曲線距離的最小值；若該用戶為聚類密度最高的用戶，則取其與其他所有用戶之間距離的最大值。2個指標(biāo)的計算方法都取決于數(shù)據(jù)點(diǎn)之間的距離di,j，如(7)所示。

(7)

式中：dc為截斷距離；χ(·)為核函數(shù)，如式(8)所示。

(8)

δi定義為：

(9)

對于密度最高的天數(shù)的用電曲線，找不到比它密度更高的用電曲線，則令其距離δi為：

(10)

由于竊電曲線的特征與正常曲線不同，經(jīng)過聚類后，竊電曲線與正常曲線聚類成不同的類別。由于竊電用戶數(shù)量遠(yuǎn)少于正常用戶數(shù)量，則其聚類后的密度ρi低于正常用戶，而距離δi大于正常用戶，則可得出用戶的用電曲線評價指標(biāo)ξi，如式(11)所示。

(11)

若ξi越大，則用戶第i天用電情況存在異?？赡苄栽酱?。將ξi排序后即可找出對應(yīng)潛在竊電用戶。

與k-means等聚類算法相比，CFSFDP可以考慮任意形狀的聚類，而無需選擇任何參數(shù)。而且，CFSFDP的算法簡單，只需計算所有用電曲線的局部密度ρi，即可獲得δi和ξi，無需進(jìn)行迭代。

2.3 自適應(yīng)組合檢測方法

將2.1節(jié)和2.2節(jié)中的算法組合起來，形成組合的檢測方法，兩種算法相互獨(dú)立彼此結(jié)合，克服了單一算法的不足。

對于一個地區(qū)，有i個用戶，j天的用電數(shù)據(jù)。那么可由式(1)計算。接下來，將每一個用戶用電量數(shù)據(jù)歸一化，方法為將其除以時間序列中的最大用電量。則得到了i×j個歸一化的向量組。運(yùn)用MIC計算用戶之間的相關(guān)性時，由于MIC的計算特性，輸入的向量維數(shù)越高，其估計的準(zhǔn)確性越高。因此將每個用戶的j個歸一化的向量，根據(jù)時間先后組合成為一個單用戶總用電向量，記為ci，然后利用MIC算法得到各個用戶總用電向量ci與et的相關(guān)性，通過排序得到第一種竊電可能性排序Rrank1(排序越高的rank值越大)。對于每一個用戶i的j組向量，可利用CFSFDP算法，得到用戶i的j個用電曲線評價指標(biāo)ξi,m(m=1,2,…，j)后，用k-means算法將其聚類為兩類(k=2)，一類為正常用電天數(shù)，另一類為竊電天數(shù)，將竊電天數(shù)的用電曲線評價指標(biāo)取算數(shù)平均值，作為該用戶的竊電可能性。將由CFSFDP得到的所有用戶竊電可能性排序，得到第二種竊電可能性排序Rrank2。將2種方法得到的排序通過自適應(yīng)變化的權(quán)重進(jìn)行融合，得到綜合的竊電可能性排序如式(12)所示。

(12)

式中α1、α2的選取始終滿足二者和為1且分別隨著Rrank1和Rrank2的變化而變化。

可以看出，若只是簡單地取2種組合的算術(shù)平均值(即α1=α2=0.5)，可能出現(xiàn)竊電用戶在Rrank1中排名較高，而在Rrank2中排名較低的情況，導(dǎo)致融合的結(jié)果并不理想。而本文提出的自適應(yīng)加權(quán)算法，其核心思想是在Rrank序列中排名越高用戶，其竊電的可能性就越大，那么綜合排序中占有的權(quán)重就應(yīng)越高。在組合算法中，βp由以下方法確定。

(13)

式中：βp為用戶在排名rank中竊電可能性的分?jǐn)?shù)；N為用戶數(shù)量。α1、α2的值由式(14)確定。

(14)

最終式(12)綜合排序較高的用戶即為竊電可能性高的用戶。

組合檢測方法如圖3所示。

圖3 竊電檢測組合方法框架Fig.3 Framework of the combined electricity theft detection method

3 實驗

3.1 實驗方案

本次實驗使用愛爾蘭能源監(jiān)管委員會的智能電表項目中采集到的數(shù)據(jù)集[17]。該數(shù)據(jù)集含有4 000多個居民和485個中小型企業(yè)等用戶超過500 d的用電數(shù)據(jù)。該數(shù)據(jù)經(jīng)過審查，可看作用戶的真實用電數(shù)據(jù)。選取485家中小型企業(yè)從2009年8月1日到8月30日的用電數(shù)據(jù)，則得到485×30組用電數(shù)據(jù)向量，由于用電數(shù)據(jù)30 min測量一次，所以每組向量包含48個元素。我們將485組用戶分為12組，每組大約40個用戶，假設(shè)他們在同一個臺區(qū)。每組隨機(jī)選取其中1～5個用戶(竊電用戶數(shù)量依次遞增)作為竊電用戶，用不同的竊電方式改變其真實數(shù)據(jù)，作為電表測量數(shù)據(jù)。利用組合算法檢測竊電用戶，與單一方法比較，驗證組合方法的有效性。

3.2 評價指標(biāo)

采用受試者工作特征(receiver operating characteristic, ROC)曲線下的面積(area under the curve, AUC)評價算法的性能。ROC是以真正率(true positive rate, TPR)為縱軸，假正率(false positive rate, FPR)為橫軸作圖得到的曲線。將所有用戶分為2個集合：正常用戶集合N和竊電用戶集合Γ。 |N|和|Γ|分別表示集合中用戶數(shù)量。將所有用戶按照竊電可能大小升序排列。則AAUC可由式(15)計算得出。

(15)

3.3 實驗結(jié)果

在隨機(jī)分成12組的用戶中，隨機(jī)選取5個作為竊電用戶。則竊電用戶所占比例約為12.5%。由幾種不同的檢測方法檢測竊電用戶的結(jié)果，取100次實驗取平均值，結(jié)果如表2所示。

表2 竊電檢測指標(biāo)平均值Tab.2 Average value of electricity theft detection indicators

由表2可知，MIC整體上優(yōu)于PCC的檢測。但MIC與PCC在竊電類型6上的檢測能力不足。將其與CFSFDP結(jié)合后，能夠大幅度增強(qiáng)在竊電類型6上的檢測能力，而其他竊電類型的檢測能力雖小幅下降，但可以接受。證明了組合檢測方法的有效性。

對上述算法和竊電類型6的竊電情形，隨著竊電用戶數(shù)量由1～5變化，AUC的變化如圖4所示。

圖4 隨用戶數(shù)量變化的AUC曲線Fig.4 AUC curves varying with the number of users

從圖4可以看出，在用戶數(shù)量較少的時候，MIC算法優(yōu)于其他算法，包括組合算法。但隨著用戶數(shù)量的增加，MIC的AUC曲線急劇下降，而組合算法由于CFSFDP在用戶增多時受影響較少，所以組合算法的下降速度比其他算法的下降速度慢。說明本文提出的自適應(yīng)組合檢測算法更適合竊電用戶數(shù)量較多的臺區(qū)進(jìn)行竊電檢測。

4 結(jié)語

本文提出了一種適用于不同竊電類型的自適應(yīng)組合竊電檢測方法。首先分析了竊電的一般場景，建立了竊電模型。然后給出了基于相關(guān)性的竊電檢測方法，分析了竊電用戶與管理線損的關(guān)聯(lián)。最后針對存在與管理線損無關(guān)竊電類型的情況，提出了相關(guān)性算法與CFSFDP的聚類算法結(jié)合的自適應(yīng)融合檢測算法框架，通過不同方法對竊電嫌疑用戶進(jìn)行竊電可能性排序，融合不同算法的優(yōu)勢改進(jìn)了基于相關(guān)性的竊電檢測方法的準(zhǔn)確性與適應(yīng)性。結(jié)果表明這種組合算法適用于多種竊電類型，效果很好。