趙云,肖勇,曾勇剛,徐迪,陸煜鋅,孔政敏
(1.南方電網(wǎng)科學(xué)研究院,廣州 510663; 2. 武漢大學(xué)電氣自動化學(xué)院,武漢 430072)
近年來竊電事件頻發(fā),及時準(zhǔn)確地檢測用戶竊電行為對國家電網(wǎng)的安全與效益至關(guān)重要[1]。
目前現(xiàn)有反竊電檢測方法主要分為基于用戶歷史數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)和基于高級測量體系(advanced measurement system, AMI)的遠(yuǎn)程實時檢測技術(shù)兩大類。近年來,許多學(xué)者在數(shù)據(jù)挖掘技術(shù)應(yīng)用于竊電檢測方面開展了大量研究。文獻(xiàn)[2]通過數(shù)據(jù)驅(qū)動的方式,基于不同潮流對線損結(jié)果的差異影響,利用神經(jīng)網(wǎng)絡(luò)構(gòu)建相關(guān)線損模型,實現(xiàn)了線損理論計算以及竊電位置判斷。文獻(xiàn)[3]優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)模型,提出10個指標(biāo)綜合判斷用戶行為,提高竊電因子判斷準(zhǔn)確率。文獻(xiàn)[4]從利用大數(shù)據(jù)分析用戶用電信息,總結(jié)了竊電方法及其特征,提出了以閾值判斷為核心的竊電檢測模型。文獻(xiàn)[5]組合了支持向量機(jī)(SVM)和電壓敏感度估計兩種方法進(jìn)行非技術(shù)線損(NTL)檢測。文獻(xiàn)[6]對卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型進(jìn)行改進(jìn),算法減少了迭代次數(shù),提高了數(shù)據(jù)處理能力和檢測準(zhǔn)確率。
基于人工智能的算法利用機(jī)器學(xué)習(xí)的技術(shù),如分類和聚類等方法,分析用戶的用電數(shù)據(jù)以找出具有異常特征的竊電用戶。分類方法需要有標(biāo)簽的數(shù)據(jù)集,而竊電數(shù)據(jù)集往往難以獲得,使得這類方法在實際應(yīng)用中受到限制。而聚類的方法雖然不需要標(biāo)簽,但無監(jiān)督的方法在負(fù)荷曲線被篡改但仍保持正常的情況下,無法識別異常用戶。目前可通過智能算法生成竊電數(shù)據(jù)集[7],但其前提仍需要收集實際的竊電數(shù)據(jù)集。而基于AMI的檢測技術(shù)又需要完整的電力系統(tǒng)狀態(tài)信息和電網(wǎng)拓?fù)?,增加了測量設(shè)備成本[7 - 10]。
基于此,本文提出了一種自適應(yīng)融合檢測算法,適用于普通的用電場景。最大互信息系數(shù)( maximum information coefficient, MIC)能夠利用最少的附加數(shù)據(jù)來檢測被篡改的用電數(shù)據(jù)文件之間的關(guān)聯(lián),針對異常用戶的負(fù)載曲線會更加具有隨機(jī)性的特點(diǎn),采用密度峰值的快速聚類算法(clustering by fast search and find of density peaks, CFSFDP)根據(jù)密度特征來檢測異常用戶。將2種算法得到的結(jié)果進(jìn)行自適應(yīng)融合排序,融合的結(jié)果綜合了2種算法的優(yōu)勢,提高了算法檢測的精度與檢測竊電種類的多樣性。本文提出了一種新的竊電檢測算法框架,用組合的算法將竊電嫌疑用戶排序;將更高效的相關(guān)性檢測算法MIC應(yīng)用于竊電檢測中,并通過數(shù)值仿真驗證了方法的有效性。
首先建立了臺區(qū)用戶的用電模型,對各種復(fù)雜的竊電行為抽象出6種不同的竊電模型,并給出了竊電檢測的問題描述;接著介紹了2種基本技術(shù),提出了MIC與CFSFDP的組合檢測框架;最后利用數(shù)值仿真實驗,證明了方法的有效性。
不同竊電行為的共同特征是使電表測量數(shù)據(jù)與實際用電情況不符[11 - 12]。這些竊電方式對電表測量值的影響,可以抽象為對用電量測量數(shù)據(jù)的錯誤數(shù)據(jù)注入(false data injection,F(xiàn)DI)。將臺區(qū)中的用戶看作不同的計量單元,當(dāng)這些計量單元可以被FDI影響時,即發(fā)生竊電現(xiàn)象。臺區(qū)的總表為計量單元真實測量值之和,難以產(chǎn)生竊電行為,不被FDI影響。臺區(qū)中每個用戶的竊電行為都會對臺區(qū)總表數(shù)據(jù)與分表數(shù)據(jù)的相關(guān)性產(chǎn)生影響,通過分析總表數(shù)據(jù)與分表數(shù)據(jù)的相關(guān)性,即可檢測存在FDI的測量單元,即竊電用戶。
竊電檢測方法的應(yīng)用場景如圖1所示。
圖1 低壓臺區(qū)測量Fig.1 Measurements flow-voltagetransformer areas
每個臺區(qū)都有一組用戶群,用戶群中存在著更改用戶分表測量值的竊電用戶,即存在部分用戶分表顯示的并不是用電量的真實值。而臺區(qū)總表是不會被更改的,即顯示總用電量的真實值。
常見的竊電方式包括:改變電流的竊電、改變電壓的竊電、改變表計的結(jié)構(gòu)和接線方式的竊電、強(qiáng)交流磁場竊電。它們的共同特點(diǎn)是將用電量的真實值更改,達(dá)到少計量或不計量的目的。因此竊電的行為將導(dǎo)致臺區(qū)分表計量和總表計量之間存在誤差。設(shè)由竊電行為導(dǎo)致的誤差為et, 則et的計算公式如(1)所示。
(1)
(2)
式中:Γ為竊電用戶的集合;xi,t為用戶i用電量的真實值。
取用戶1 d用電量的真實值,根據(jù)表1的規(guī)則,得到6種竊電類型的對應(yīng)的數(shù)據(jù),繪制竊電曲線,如圖2所示。
表1 6種竊電類型Tab.1 Six electricity theft types
圖2 竊電類型示例Fig.2 Example of the electricity theft types
(3)
對于竊電類型1來說,2個電量相關(guān)性是確定的,且是線性的。而對于其他竊電類型來說,電量相關(guān)性不如第一種竊電類型明顯的,特別是對于某些竊電類型來說,式(3)不成立(例如第6種竊電類型產(chǎn)生了一種完全隨機(jī)的曲線);然而式(3)仍然適用于大多數(shù)竊電類型,即以式(3)為基礎(chǔ)的竊電檢測方法可以檢測出大多數(shù)的竊電行為。那么,iCorr(·,·)的選取,即選取一個能表示兩個電量非線性的模糊關(guān)系的相關(guān)方式,對于竊電檢測方法的效果具有十分重要的意義。
由于某些竊電類型導(dǎo)致的誤差與分表數(shù)據(jù)不具有明顯相關(guān)性,只通過相關(guān)性方法無法有效檢測,本文提出一種新的相關(guān)性與聚類融合技術(shù)自適應(yīng)融合技術(shù)檢測方法,該方法中的MIC利用1.3節(jié)的相關(guān)性檢測方法得到臺區(qū)所有用戶用電量與測量總誤差的相關(guān)關(guān)系。相關(guān)性越強(qiáng),則是竊電用戶的可能性就越大。同時,利用CFSFDP聚類具有相似波形用電量數(shù)據(jù),從而找出異常的用電曲線,找出竊電用戶。根據(jù)上述2種算法,本文提出的綜合判斷方法,對用戶竊電概率進(jìn)行排序,從而找出竊電用戶。
在統(tǒng)計學(xué)中,皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient, PCC)是測量2個向量間相關(guān)性的有效度量手段。皮爾遜相關(guān)系數(shù)(PCC)的值在(-1,1)區(qū)間中。如果2個向量具有嚴(yán)格的線性相關(guān)關(guān)系,那么PCC的值為-1或1。如果2個向量不具有相關(guān)性,那么PCC的值為0。PCC的缺點(diǎn)在于,它只能表示2個向量是否具有線性相關(guān)的關(guān)系,不能檢測更復(fù)雜的相關(guān)性,例如二次或三次函數(shù)關(guān)系、時變關(guān)系等。而2個向量的互信息(mutual information MI)由于其在衡量相關(guān)性方面應(yīng)用范圍更廣,不僅僅局限于線性相關(guān)的范疇,被用來檢測各種類型的相關(guān)性。MIC是基于MI的改進(jìn)的算法,在很多情況比MI的應(yīng)用效果更好[13]。
給定一個有序?qū)Φ挠邢藜螪,D中包含(x,y)有序?qū)Α劃分為m個部分,將y劃分為n個部分。則在xOy組成的二維平面中,得到了m×n的網(wǎng)格。假設(shè)這個網(wǎng)格為G,DG為網(wǎng)格中每個單元里集合D中元素的分布。G對于D?2,a,b∈*, 定義為:
(4)
(5)
對于確定的集合D, 其(x,y)對的數(shù)量為|D|,網(wǎng)格數(shù)量小于B(n), 則其MIC值由式(6)給定。
(6)
基于相關(guān)性檢測在檢測某些竊電類型時有所不足(如竊電類型6),可使用聚類算法從用電曲線中找出異常曲線的用戶。基于密度的聚類算法被廣泛應(yīng)用于異常檢測。其中,CFSFDP[14 - 16]在大數(shù)據(jù)聚類和異常檢測中有良好效果。
對于由用戶u的不同自然日用電情況組成的一組用電曲線,記第i天的用電曲線為Cu,i。在CFSFDP中,有2個指標(biāo)衡量用戶用電曲線:ρi和δi。ρi為用戶第i天的曲線在用戶所有用電曲線聚類后的密度。δi為用戶第i天用電曲線與該用戶其他天數(shù)的用電曲線的距離:若該用戶不是聚類密度最高的用戶,則取與其他密度更高的用戶曲線距離的最小值;若該用戶為聚類密度最高的用戶,則取其與其他所有用戶之間距離的最大值。2個指標(biāo)的計算方法都取決于數(shù)據(jù)點(diǎn)之間的距離di,j, 如(7)所示。
(7)
式中:dc為截斷距離;χ(·)為核函數(shù),如式(8)所示。
(8)
δi定義為:
(9)
對于密度最高的天數(shù)的用電曲線,找不到比它密度更高的用電曲線,則令其距離δi為:
(10)
由于竊電曲線的特征與正常曲線不同,經(jīng)過聚類后,竊電曲線與正常曲線聚類成不同的類別。由于竊電用戶數(shù)量遠(yuǎn)少于正常用戶數(shù)量,則其聚類后的密度ρi低于正常用戶,而距離δi大于正常用戶,則可得出用戶的用電曲線評價指標(biāo)ξi, 如式(11)所示。
(11)
若ξi越大,則用戶第i天用電情況存在異??赡苄栽酱?。將ξi排序后即可找出對應(yīng)潛在竊電用戶。
與k-means等聚類算法相比,CFSFDP可以考慮任意形狀的聚類,而無需選擇任何參數(shù)。而且,CFSFDP的算法簡單,只需計算所有用電曲線的局部密度ρi, 即可獲得δi和ξi, 無需進(jìn)行迭代。
將2.1節(jié)和2.2節(jié)中的算法組合起來,形成組合的檢測方法,兩種算法相互獨(dú)立彼此結(jié)合,克服了單一算法的不足。
對于一個地區(qū),有i個用戶,j天的用電數(shù)據(jù)。那么可由式(1)計算。接下來,將每一個用戶用電量數(shù)據(jù)歸一化,方法為將其除以時間序列中的最大用電量。則得到了i×j個歸一化的向量組。運(yùn)用MIC計算用戶之間的相關(guān)性時,由于MIC的計算特性,輸入的向量維數(shù)越高,其估計的準(zhǔn)確性越高。因此將每個用戶的j個歸一化的向量,根據(jù)時間先后組合成為一個單用戶總用電向量,記為ci, 然后利用MIC算法得到各個用戶總用電向量ci與et的相關(guān)性,通過排序得到第一種竊電可能性排序Rrank1(排序越高的rank值越大)。對于每一個用戶i的j組向量,可利用CFSFDP算法,得到用戶i的j個用電曲線評價指標(biāo)ξi,m(m=1,2,…,j)后,用k-means算法將其聚類為兩類(k=2), 一類為正常用電天數(shù),另一類為竊電天數(shù),將竊電天數(shù)的用電曲線評價指標(biāo)取算數(shù)平均值,作為該用戶的竊電可能性。將由CFSFDP得到的所有用戶竊電可能性排序,得到第二種竊電可能性排序Rrank2。 將2種方法得到的排序通過自適應(yīng)變化的權(quán)重進(jìn)行融合,得到綜合的竊電可能性排序如式(12)所示。
(12)
式中α1、α2的選取始終滿足二者和為1且分別隨著Rrank1和Rrank2的變化而變化。
可以看出,若只是簡單地取2種組合的算術(shù)平均值(即α1=α2=0.5), 可能出現(xiàn)竊電用戶在Rrank1中排名較高,而在Rrank2中排名較低的情況,導(dǎo)致融合的結(jié)果并不理想。而本文提出的自適應(yīng)加權(quán)算法,其核心思想是在Rrank序列中排名越高用戶,其竊電的可能性就越大,那么綜合排序中占有的權(quán)重就應(yīng)越高。在組合算法中,βp由以下方法確定。
(13)
式中:βp為用戶在排名rank中竊電可能性的分?jǐn)?shù);N為用戶數(shù)量。α1、α2的值由式(14)確定。
(14)
最終式(12)綜合排序較高的用戶即為竊電可能性高的用戶。
組合檢測方法如圖3所示。
圖3 竊電檢測組合方法框架Fig.3 Framework of the combined electricity theft detection method
本次實驗使用愛爾蘭能源監(jiān)管委員會的智能電表項目中采集到的數(shù)據(jù)集[17]。該數(shù)據(jù)集含有4 000多個居民和485個中小型企業(yè)等用戶超過500 d的用電數(shù)據(jù)。該數(shù)據(jù)經(jīng)過審查,可看作用戶的真實用電數(shù)據(jù)。選取485家中小型企業(yè)從2009年8月1日到8月30日的用電數(shù)據(jù),則得到485×30組用電數(shù)據(jù)向量,由于用電數(shù)據(jù)30 min測量一次,所以每組向量包含48個元素。我們將485組用戶分為12組,每組大約40個用戶,假設(shè)他們在同一個臺區(qū)。每組隨機(jī)選取其中1~5個用戶(竊電用戶數(shù)量依次遞增)作為竊電用戶,用不同的竊電方式改變其真實數(shù)據(jù),作為電表測量數(shù)據(jù)。利用組合算法檢測竊電用戶,與單一方法比較,驗證組合方法的有效性。
采用受試者工作特征(receiver operating characteristic, ROC)曲線下的面積(area under the curve, AUC)評價算法的性能。ROC是以真正率(true positive rate, TPR)為縱軸,假正率(false positive rate, FPR)為橫軸作圖得到的曲線。將所有用戶分為2個集合:正常用戶集合N和竊電用戶集合Γ。 |N|和|Γ|分別表示集合中用戶數(shù)量。將所有用戶按照竊電可能大小升序排列。則AAUC可由式(15)計算得出。
(15)
在隨機(jī)分成12組的用戶中,隨機(jī)選取5個作為竊電用戶。則竊電用戶所占比例約為12.5%。由幾種不同的檢測方法檢測竊電用戶的結(jié)果,取100次實驗取平均值,結(jié)果如表2所示。
表2 竊電檢測指標(biāo)平均值Tab.2 Average value of electricity theft detection indicators
由表2可知,MIC整體上優(yōu)于PCC的檢測。但MIC與PCC在竊電類型6上的檢測能力不足。將其與CFSFDP結(jié)合后,能夠大幅度增強(qiáng)在竊電類型6上的檢測能力,而其他竊電類型的檢測能力雖小幅下降,但可以接受。證明了組合檢測方法的有效性。
對上述算法和竊電類型6的竊電情形,隨著竊電用戶數(shù)量由1~5變化,AUC的變化如圖4所示。
圖4 隨用戶數(shù)量變化的AUC曲線Fig.4 AUC curves varying with the number of users
從圖4可以看出,在用戶數(shù)量較少的時候,MIC算法優(yōu)于其他算法,包括組合算法。但隨著用戶數(shù)量的增加,MIC的AUC曲線急劇下降,而組合算法由于CFSFDP在用戶增多時受影響較少,所以組合算法的下降速度比其他算法的下降速度慢。說明本文提出的自適應(yīng)組合檢測算法更適合竊電用戶數(shù)量較多的臺區(qū)進(jìn)行竊電檢測。
本文提出了一種適用于不同竊電類型的自適應(yīng)組合竊電檢測方法。首先分析了竊電的一般場景,建立了竊電模型。然后給出了基于相關(guān)性的竊電檢測方法,分析了竊電用戶與管理線損的關(guān)聯(lián)。最后針對存在與管理線損無關(guān)竊電類型的情況,提出了相關(guān)性算法與CFSFDP的聚類算法結(jié)合的自適應(yīng)融合檢測算法框架,通過不同方法對竊電嫌疑用戶進(jìn)行竊電可能性排序,融合不同算法的優(yōu)勢改進(jìn)了基于相關(guān)性的竊電檢測方法的準(zhǔn)確性與適應(yīng)性。結(jié)果表明這種組合算法適用于多種竊電類型,效果很好。