黃悅?cè)A 郭思涵 鮑 剛 程江洲 諶 橋 王藝潔
(三峽大學 電氣與新能源學院, 湖北 宜昌 443002)
隨著用電用戶的迅速增加和智能電表的普及,供電企業(yè)能夠從配電網(wǎng)中收集到海量的運行數(shù)據(jù)[1],因此電力企業(yè)需要對用戶用電信息采集系統(tǒng)收集到的數(shù)據(jù)進行整理與挖掘,獲取隱藏其中的信息[2].用電數(shù)據(jù)信息來源廣,結(jié)構(gòu)復雜,對企業(yè)進行數(shù)據(jù)分析造成了困難[3].數(shù)據(jù)挖掘技術(shù)能實現(xiàn)數(shù)據(jù)整理、數(shù)據(jù)分類、異常數(shù)據(jù)查找等功能[4],以此推動泛在電力物聯(lián)網(wǎng)的建設(shè),提升電網(wǎng)的全息感知能力[5].
目前按照對用電行為的定義方式分類,基于用電信息采集系統(tǒng)的研究主要有兩類:第一類是抽取、提煉用電負荷曲線,從中提取用電特征再對其進行分析.文獻[6]提出了一種融合K-means聚類算法和異常點查找算法的竊電識別方法;文獻[7]提出了基于無監(jiān)督學習的異常用電模型檢測方法,將網(wǎng)格分析的方法引入異常點查找算法.以上文獻聚焦于異常數(shù)據(jù)點的查找,通過結(jié)合不同的聚類方法減少異常點檢測算法所計算的數(shù)據(jù)點,能顯著提高檢測效率.文獻[8]基于改進的K-means聚類算法對用戶負荷數(shù)據(jù)進行日負荷曲線的特性分類,但文中并未針對竊電情形對分類中出現(xiàn)的異常情況進行挖掘.第二類是基于用戶用電過程中產(chǎn)生的電參量記錄,從與其有關(guān)的時間序列中選取特征,將其描述為樣本點后再進行分析.文獻[9]提出一種基于深度學習的用戶異常用電模式檢測模型,構(gòu)建了特征提取網(wǎng)絡(luò)和多層特征匹配網(wǎng)絡(luò),具有較高的準確性,但在實際應用的過程中,需要大量帶有標記的訓練集才能獲得模型的較高準確性.文獻[10]使用基于距離的離群點查找方法,繪出竊電方法魚骨圖對所研究用戶電流電壓曲線進行研究,通過觀測對象與質(zhì)心的歐幾里得距離甄別竊電用戶,但文中并未考慮供電及測量裝置故障等因素導致的異常觀測點.文獻[11]利用大數(shù)據(jù)針對多種類型竊電手段,建立竊電特征模型,但并未將高級測量體系(advanced metering infrastruc-ture,AMI)下對智能電表的攻擊納入考慮.
本文提出針對專變用戶基于用電模式特征的無監(jiān)督方式異常用電檢測方法.首先引入LOF(local outlier factor)離群點檢測算法,基于電參量的時間序列考慮攻擊者行為特點,構(gòu)建異常用電特征;然后設(shè)計異常用電評價流程量化用戶用電的異常程度,得到用戶異常行為的發(fā)生時刻;最后綜合考慮異常用電評價指標與異常用電持續(xù)時間減小技術(shù)性因素帶來的誤差.
目前用戶用電采集系統(tǒng)能進行一定程度的異常用電分析并記錄,通過接口上報到相關(guān)部門[12-14].對這些數(shù)據(jù)的技術(shù)分析能探查到一定數(shù)量的異常用電用戶,跟蹤重點用戶用電情況,但隨著AMI體系下異常用電模式的多樣化,竊電行為越來越隱蔽,異常用電行為與正常用電行為的區(qū)分度越來越小,造成了管理難度的加大[15].
專變用戶的電能計量采取高供高計、高供低計的方式.根據(jù)用戶接線方式的不同,采集樣本中存在不同類型的數(shù)據(jù).高供高計采用三相三線的計量方式,高供低計采用三相四線的計量方式.在數(shù)據(jù)收集與分析的過程中,將高供低計三元件計量方式產(chǎn)生的三相數(shù)據(jù)記為A、B、C三相,高供高計二元件計量方式產(chǎn)生的兩項數(shù)據(jù)記為A、C兩相.
電網(wǎng)運行中的輸配電損失可分為技術(shù)性損失和非技術(shù)性損失.常見技術(shù)性損失有計量裝置的故障以及線路故障.智能電表在使用過程中產(chǎn)生故障和失誤造成計量異常,這些情況會使用電信息數(shù)據(jù)呈現(xiàn)出異常的波動,甚至超出計量范圍,另一個因素線路故障即供電異常也會導致用電數(shù)據(jù)的異常,這些故障導致的用電數(shù)據(jù)的異常容易從用電信息采集數(shù)據(jù)所返回的數(shù)據(jù)判斷出來.非技術(shù)損失以竊電形成的異常用電行為為首,是造成供電企業(yè)經(jīng)濟損失的主要原因.竊電行為不僅嚴重影響了企業(yè)的收益,對配電網(wǎng)的安全運行和發(fā)展造成阻礙,而且由于竊電行為一般通過對計量裝置和供電回路的私自改裝實施,極易發(fā)生安全事故,使用高電壓、高用電量的專變用戶更是如此.因互感器變比較大,僅需電表較少的走字誤差即能獲得較大的非法收益[16].因此在異常用電行為的挖掘過程中,對于高壓專變用戶的竊電行為的防范應是重中之重.除傳統(tǒng)的欠流法、欠壓法之外,AMI下又催生惡意攻擊通信系統(tǒng),篡改數(shù)據(jù)管理系統(tǒng)中電表測量值的情形,加大了竊電行為發(fā)掘的難度[17].
用戶用電采集系統(tǒng)采集的主要數(shù)據(jù)項有電能量數(shù)據(jù),交流模擬量、工況數(shù)據(jù)、電能質(zhì)量越限統(tǒng)計數(shù)據(jù)、事件記錄數(shù)據(jù)以及費控信息等數(shù)據(jù)[18],目前供電企業(yè)對以上數(shù)據(jù)的分析限于統(tǒng)計,大量數(shù)據(jù)隱含的信息被浪費.因此需要提出AMI下針對專變用戶的更精細的特征提取方法.用戶用電采集系統(tǒng)所獲取的數(shù)據(jù)在時間序列上呈現(xiàn)出高維度的特點.首先對96點電參量數(shù)據(jù)采取降維處理后,構(gòu)建異常用電特征集合U.集合U由用電不平衡特征、電壓異常特征、電流異常特征3個子集構(gòu)成.
用戶在正常用電行為時呈現(xiàn)出三相用電平衡的特征,電表讀取的電壓數(shù)據(jù)在額定值的上下有輕微的浮動,電流的不平衡也在數(shù)值0附近波動.三相用電的專變用戶出現(xiàn)的竊電行為能夠從電壓和電流不平衡率的偏移中體現(xiàn)出來.按照下式分別定義高供高計、高供低計專變用戶電壓、電流不平衡:
其中:Ui.n表示i相在時刻n的電壓采集數(shù)值,xV.n表示時刻n的電壓不平衡度,Ii.n為i相在時刻n的電流采集數(shù)值,xI.n表示時刻n的電流不平衡度.
建立用電不平衡特征矩陣Xn表征用戶在時刻n的用電不平衡度.
其中,XV=(xV.1,xV.2,…,xV.n),XI=(xI.1,xI.2,…,xI.n).
對二維空間中用電不平衡特征矩陣Xn所構(gòu)成的樣本點進行離群點分析.局部離群因子(local outlier factor,LOF)檢測算法是一種基于密度的無監(jiān)督離群點檢測算法,對離群點有較高的靈敏性.離群點指的是在樣本空間中與其他數(shù)據(jù)特征顯著不一致的數(shù)據(jù).雖然這些數(shù)據(jù)總量較少,但包含著大量研究者需要重點研究的信息.離群點挖掘?qū)⒂行У刈R別出數(shù)據(jù)集中的異常數(shù)據(jù)并從中挖掘出有意義的潛在信息作為目標,使它適用于用戶用電行為分析[19].若用戶的用電行為正常,則用電不平衡特征矩陣每一行所對應的二維觀測點在樣本空間中應是密集的簇,不應存在顯著偏離簇的觀測點,此時的局部離群因子即LOF值接近1;當異常用電發(fā)生時電壓和電流的不平衡度會產(chǎn)生較大偏移,LOF值非常大,進而形成離群點.
離群點檢測步驟如下[20]:
Step1:定義各觀測點與距其第k個最近的觀測點的距離為第K距離Kdist(p);
Step2:計算各觀測點的第k距離鄰域Nk(p)={q∈N/{p}|dist(p,q)≤Kdist(p)|},其中,dist(p,q)表示數(shù)據(jù)中第p個觀測點與第q個觀測點之間的距離;
Step3:計算各觀測點的局部可達距離Dreach(p,q)=max{Kdist(p)dist(p,q)};
Step4:計算各觀測點的局部可達密度lrdk(p):
其中:o表示被計算的第k距離鄰域Nk(p)中任意觀測點;
Step5:定義各對象的局部異常因子LOFk(p)
經(jīng)過離群點分析后,n時刻數(shù)據(jù)計算所得局部異常因子LOFk(p)記為xn,形成關(guān)于時間的用電不平衡特征序列X=(x1,x2,…,xn).
電壓異常表現(xiàn)為在某時刻電壓記錄值偏移額定值或趨于零,電壓數(shù)值異常降低通常能夠判斷存在竊電行為發(fā)生.定義電壓異常特征序列反映用戶用電過程中的電壓偏移額定值的用電行為.
用戶電能計量裝置的失壓記錄可能存在兩種情況,計量回路斷開或供電異常.目前國內(nèi)各地供電可靠性逐步提高,用戶平均停電時間4~5 h[21],因此設(shè)置失壓持續(xù)時間剔除無計劃停電所造成的失壓記錄,避免因短時停電事故造成的技術(shù)性損失重復報警.采取4 h作為失壓持續(xù)時間的評判標準.失壓持續(xù)時間在4 h以內(nèi)記為暫時的供電異常,不記錄為電壓異常.電壓異常特征序列生成過程如圖1所示.
其中電壓異常特征序列表示為n維向量Y=(y1,y2,y3,…,yn).未失壓時由式(6)分別定義高供低計、高供高計用戶用電壓采集數(shù)值與額定電壓的偏移程度.
圖1 電壓異常特征序列生成流程
由電能計算公式W=U·I·cosφ·t可知,在功率因數(shù)cosφ和電壓U較為恒定的情況下,改變電流I的計量能夠達到用戶竊電的目的,即減少電費的計量.非法用戶可能會將某時段內(nèi)的電流計量修改為0,或?qū)㈦娏髑€進行移峰,使用電曲線的峰值轉(zhuǎn)移到低電價時段[15].而對專變用戶來說,每日電力負荷曲線是相似的,這就決定了正常用電用戶的每日電流曲線也同樣具有相似性.如圖2所示的某專變用戶的日電流曲線集合,能夠看出每日A相電流曲線的波動有較大的相似性.
圖2 某專變用戶電流曲線
若電流曲線相較于前幾日電流曲線的聚類中心有較大波動,則可能發(fā)生異常用電行為.
計算電流異常特征序列步驟如下:
Step1:選取A相電流作為參考,計算前10日電流記錄值聚類中心(本文中按照均值計算),得到聚類中心曲線.其中時刻t對應的聚類中心取值mean(IA.t)=∑d=(0,1,2,…,10)IA.d.t.其中IA.d.t表示前d日t時刻的A相電流記錄值;
Step2:計算每日時刻t的電流記錄值與前10日電流聚類中心曲線時刻t的距離zD.t=|mean(IA.t)-IA.D.t|;
Step3:生成電流異常特征序列Z=(zD.t)=(z1,z2,…,zn).其中,n=24D+t,序列Z表示將每日zD.t按照時刻排序所得到的序列.
本文采用專變用戶電流電壓曲線數(shù)據(jù)作為挖掘樣本.根據(jù)專變用戶的用電特征和常見的竊電手法提出了一種基于用電特征分析的無監(jiān)督異常用電檢測方法.引入離群點分析算法,將采集數(shù)據(jù)進行特征提取,凝練出用電特征序列,隨后對其進行特征分析,得到異常指數(shù)序列,將用電行為的異常程度進行量化并通過所提出的異常用電評價流程在持續(xù)時間上作出劃分以減少誤報的可能性.異常用電檢測方法總體設(shè)計如圖3所示.
圖3 異常用電檢測方法總體設(shè)計
第2節(jié)基于電參量構(gòu)建了用電特征以表征用電異常程度,但無法從某個單一的特征做出判別.因此本文建立異常用電評價指標綜合量化用戶在時間序列上的用電異常程度,為異常用電的判別提供依據(jù).
對原始數(shù)據(jù)進行歸一化處理,以消除量綱對計算結(jié)果的影響.由公式(6)容易看出yn∈[0,1],因此電壓異常特征序列Y=(y1,y2,y3,…,yn)所有取值都在[0,1]之間,不需要采取歸一化這一步驟.將用電不平衡特征序列X=(x1,x2,x3,…,xn)、電流異常特征序列Z=(z1,z2,z3,…,zn)進行歸一化處理.轉(zhuǎn)換結(jié)果如下:
轉(zhuǎn)換函數(shù)為
定義異常用電評價指標
得到異常指數(shù)序列
以10日作為一個檢測周期進行計算,將序列T=(t1,t2,…,t240)中的成分進行排序,輸出序列T中的前p%數(shù)值作為閾值T1,排序中前q%數(shù)值作為閾值T2,返回數(shù)據(jù)集查找用戶的異常用電時刻.此處p、q取值可參考臺區(qū)以往竊電率.查找異常用電時刻流程如圖4所示.
圖4 異常用電評價流程
由于竊電行為通常持續(xù)數(shù)小時[22],因此檢測過程中將異常用電評價指標持續(xù)5 h超過閾值T1判斷為持續(xù)異常用電行為,此時的用電行為容易指向竊電的發(fā)生.異常用電評價指標超過閾值T2,判斷為暫時異常用電行為,有較大的可能為采集異?;蚴枪╇姰惓?此方法能夠剔除因閾值設(shè)置造成評價指標靠前的正常用電用戶和技術(shù)性損失造成的異常用電記錄,減少誤報發(fā)生的可能性.
根據(jù)電力公司實際采集的數(shù)據(jù),基于高斯分布生成大規(guī)模模擬數(shù)據(jù),驗證所提出檢測方法的可行性.模擬數(shù)據(jù)集中添加異常數(shù)據(jù),共446400條.其中異常數(shù)據(jù)占比2.68%.根據(jù)模擬數(shù)據(jù)集規(guī)模對參數(shù)k、p、q進行選取.此次實驗中選取k=20,p=5,q=2時能達到較好的分類效果.根據(jù)典型竊電電參量曲線構(gòu)建異常樣本,其中包括:(a)電壓不平衡;(b)電流不平衡;(c)電流異常降低;(d)電流曲線移峰;(e)電壓異常降低及供電異常.各類異常數(shù)據(jù)部分電參量曲線如圖5所示.
圖5 各類異常數(shù)據(jù)曲線
異常用電檢測過程的實質(zhì)是二元分類問題,所有樣本將被劃分為正類(異常數(shù)據(jù))或負類(正常數(shù)據(jù)),當檢測樣本中的正、負類樣本分布極端不均衡時,直接使用檢測結(jié)果的正確率衡量其檢測效果將失去意義.因此為了檢驗檢測方法的可行性,用二元分類問題評判標準混淆矩陣及相關(guān)參數(shù)評判檢測方法的可行性.異常用電檢測結(jié)果組成的混淆矩陣見表1.
表1 異常用電檢測結(jié)果
從表中能夠得到本文所提出的異常用電檢測方法針對大規(guī)模數(shù)據(jù)的查準率達到0.80,召回率為0.81.其中,查準率為被正確分類的樣本與總樣本的比值,召回率為被正確分類樣本與真實正類樣本的比值.查準率和召回率的調(diào)和平均值F1值達到0.81,檢測方法的分類效果良好.
本文采用的數(shù)據(jù)集為某市級供電公司智能電表采集的經(jīng)脫敏處理含有竊電用戶的50戶專變用戶電壓、電流數(shù)據(jù).將正常用電時刻標記為0,暫時異常時刻標記為1,持續(xù)異常標記為2.部分驗證結(jié)果見表2.
表2 異常用電指數(shù)及判別結(jié)果
計算結(jié)果與真實情況基本相符.值得注意的是在挖掘過程中,異常用電行為首先會被判定為暫時異常用電行為,當異常用電時間超過設(shè)定的持續(xù)時間閾值后將被判定為持續(xù)異常用電行為.稽查人員能夠通過異常種類和發(fā)生頻率判斷異常用電發(fā)生時刻.當異常用電行為經(jīng)常發(fā)生時,可以判斷用戶發(fā)生了竊電行為,需要工作人員實施現(xiàn)場勘查.在實際應用中,此檢測方法能夠為監(jiān)控人員追蹤竊電行為提供有力參考.
本文提出了基于用電特征分析的無監(jiān)督方式異常用電檢測方法,解決了竊電檢測需要大規(guī)模訓練集的問題.通過用戶用電信息采集系統(tǒng)采集的電參量曲線,引入離群點檢測算法設(shè)計用電特征提取手段,量化用電異常.建立異常用電評價指標,對用電過程中的用電異常情況進行分類,以異常持續(xù)時間進行劃分,得出更加精準的分析結(jié)果.該方法不存在迭代的過程,計算量較小,能有效檢測出高用電量專變用戶持續(xù)性的異常用電行為.通過模擬數(shù)據(jù)的分析和算例的驗證,證明了本方法對于異常用電行為檢測的有效性.檢測方法仍需要進行完善,后續(xù)將研究應對電力公司多渠道來源、多數(shù)據(jù)種類海量數(shù)據(jù),將異常用電檢測方法運用到反竊電系統(tǒng)研究中,進一步提高對異常用電檢測的準確性以滿足企業(yè)及時精準探查竊電行為的需求.