陳啟鑫, 鄭可迪, 康重慶, 皇甫奮宇
(1. 電力系統(tǒng)及發(fā)電設(shè)備控制和仿真國家重點(diǎn)實(shí)驗(yàn)室, 清華大學(xué), 北京市 100084;2. 內(nèi)蒙古電力經(jīng)濟(jì)技術(shù)研究院分公司, 內(nèi)蒙古自治區(qū)呼和浩特市 010020)
電網(wǎng)運(yùn)行中的輸配電損失可以分為技術(shù)性損失(technical loss,TL)和非技術(shù)性損失(non-technical loss,NTL)兩大類。NTL是指電網(wǎng)輸配電損失中剔除TL后剩余無法用技術(shù)解釋的部分,用戶異常用電行為如竊電等,則是造成NTL的主要原因[1-2]。根據(jù)不完全統(tǒng)計,中國福建省每年因竊電行為造成的電費(fèi)損失可達(dá)1億元人民幣,可以估計,在全國范圍內(nèi)的損失每年可達(dá)幾十億元人民幣。美國在2009 年因用戶竊電而導(dǎo)致電力提供商的損失約60億美元[3]。美國智能電網(wǎng)咨詢服務(wù)公司Northeast Group在2017年1月發(fā)布的研究報告[4]中指出,50個被調(diào)研的發(fā)展中國家大多面臨嚴(yán)重的NTL,每年合計的損失達(dá)到647億美元??v向比較Northeast Group公司從2014年至今發(fā)布的同一系列報告[5],被調(diào)研的50個發(fā)展中國家2013年至2016年NTL的年均增長率約為11%,遠(yuǎn)遠(yuǎn)高于大多數(shù)發(fā)展中國家年均4%~5%的GDP增速。因此,NTL問題仍是一個亟待解決的難題。而隨著中國新一輪電力市場化改革的不斷深入,售電側(cè)市場建設(shè)不斷推進(jìn)[6],在試點(diǎn)地區(qū)開始出現(xiàn)“自擔(dān)風(fēng)險,自負(fù)盈虧”的獨(dú)立配電、售電公司,NTL的管理將直接決定售電公司的利潤,因此異常用電檢測對獨(dú)立配電、售電公司的經(jīng)營顯得尤為重要。
與此同時,隨著智能電網(wǎng)的發(fā)展,高級量測體系(advanced metering infrastructure,AMI)正逐漸建立,智能電表的普及率也不斷上升。美國聯(lián)邦調(diào)查局在2010年的一份報告[7]中指出,用戶對智能電表的篡改每年造成波多黎各電力公司4億美元的損失。中國2013年的新聞報道了全國首例智能電表高科技特大竊電案[8],竊電者為用戶的智能電表安裝竊電模塊以減小表計的數(shù)值??梢?,過去用戶進(jìn)行竊電所依靠的破壞傳統(tǒng)電表或私拉電線等手段已經(jīng)轉(zhuǎn)變?yōu)橥ㄟ^數(shù)字存儲技術(shù)和網(wǎng)絡(luò)通信技術(shù)對智能電表的攻擊[9],通過數(shù)據(jù)的篡改使對應(yīng)時刻的用電量變小或直接歸零,以幫助攻擊者降低應(yīng)付電費(fèi)。
AMI體系下,用戶的異常用電行為檢測將從以下兩個方面分別帶來挑戰(zhàn)與契機(jī):一方面,針對智能電表的攻擊將使得NTL的產(chǎn)生更加“沒有頭緒”;而另一方面,相比于傳統(tǒng)電表的人工定期抄表,智能電表可實(shí)現(xiàn)每天數(shù)十次以上頻度的用戶用電數(shù)據(jù)記錄,這些海量數(shù)據(jù)將為異常用電行為的檢測提供“證據(jù)”。應(yīng)用先進(jìn)的異常用電檢測方法,還可以進(jìn)一步對異常用電用戶進(jìn)行更加精準(zhǔn)的定位與更加細(xì)致的行為分析。研究表明,意大利某配電公司在安裝智能電表后對竊電的檢測率從5%提升至50%[10],效果明顯。
傳統(tǒng)意義上對于竊電行為的檢測主要依靠配電公司派遣技術(shù)人員進(jìn)行人工篩查,也有一些依靠攝像頭或無人機(jī)監(jiān)控以防止竊電發(fā)生的方法[11],這些方法通常會消耗配電公司較多的人力和物力。同時,物理上的監(jiān)控依然無法避免通信和網(wǎng)絡(luò)中的高級攻擊手段對電表進(jìn)行操縱或篡改。本文認(rèn)為,為了解決異常用電行為帶來的NTL經(jīng)濟(jì)損失,配電公司一方面需要在硬件技術(shù)層面提升電表的安全性;另一方面,應(yīng)當(dāng)進(jìn)一步構(gòu)建基于用戶用電數(shù)據(jù)的異常用電檢測工作體系,充分利用AMI的海量數(shù)據(jù)對電力異常用戶進(jìn)行篩查定位,這也是本文研究工作的重點(diǎn)。關(guān)于硬件反竊電計量技術(shù)方面的研究,讀者可以參照文獻(xiàn)[12-14]。
嚴(yán)格來說,異常用電檢測與用戶行為分析存在一定程度上的重疊。傳統(tǒng)的用戶行為分析目的是對用戶進(jìn)行精細(xì)化建模,提高負(fù)荷預(yù)測、需求響應(yīng)等的精度,更側(cè)重用戶行為的分布、相關(guān)性研究以及可視化。異常用電檢測則不僅局限于在用戶用電行為中找出與期望不符的模式,還可以結(jié)合配電網(wǎng)運(yùn)行狀態(tài)、竊電者與配電公司之間的博弈行為進(jìn)行更深入的研究。
本節(jié)主要介紹該領(lǐng)域研究的基本模型與共性問題,即攻擊者與檢測者在AMI下的相互關(guān)系與數(shù)據(jù)信息。現(xiàn)有的研究工作中,主要涉及的研究內(nèi)容包括用戶異常行為建模、異常檢測算法研究、檢測效果評價等。本質(zhì)上,用戶異常用電并非隨機(jī)用電,即其異常行為由于其目的性也往往具有一定規(guī)律,攻擊者模型即描述了這一規(guī)律。檢測者模型則從檢測異常的角度描述了一般檢測算法的普遍性的數(shù)學(xué)目標(biāo),這也是后續(xù)所有分析工作的基礎(chǔ)。最后,對研究中采用的數(shù)據(jù)集進(jìn)行了簡要介紹,這也是開展用電異常行為檢測的基礎(chǔ)性內(nèi)容。
(1)
即篡改后的電費(fèi)較原來更低。用戶可能會將某幾個時刻的智能電表讀數(shù)直接篡改為0,或按一定比例削減自己的用電量,也有可能在不改變自己總體用電量的同時對自己的用電曲線進(jìn)行移峰,以取得式(1)的效果。大部分竊電者通常會選擇前兩種篡改方法,有關(guān)移峰以規(guī)避高電價時段的更深入的討論可以參見文獻(xiàn)[15]。文獻(xiàn)[16-17]提出了8種用戶惡意篡改電表的模式,均與式(1)的形式相契合。
圖1展示了實(shí)際中存在的6種攻擊模式[17]對原始用電曲線造成的不同影響,可見在AMI體系下異常用電行為對用電曲線產(chǎn)生的變化多樣。由于用戶用電行為的隨機(jī)性,異常模式識別的難度較大。
圖1 6種攻擊模式產(chǎn)生的異常用電曲線Fig.1 Abnormal electricity consumption curves resulted from six attacking modes
檢測者在AMI和智能電表數(shù)據(jù)的支持下,可以應(yīng)用集中式的電表數(shù)據(jù)管理(meter data management,MDM)[18]系統(tǒng)對收集到的數(shù)據(jù)進(jìn)行分析。在MDM中,檢測者可以應(yīng)用一些軟件和算法對用戶側(cè)的時間序列數(shù)據(jù)進(jìn)行分析,并將其與歷史趨勢和同類型的數(shù)據(jù)進(jìn)行對比,以檢測竊電者或異常用戶。當(dāng)然,檢測者也可以致力于提高電表的安全性和反入侵系統(tǒng)的構(gòu)建。本文所討論的檢測方法主要是指MDM中的數(shù)據(jù)分析和異常檢測算法。
D:{Mi}→{0,1}
(2)
式中:0代表正常用戶,1代表異常用戶。
還有一些檢測方法不是直接對用戶數(shù)據(jù)進(jìn)行分類,而是給出了用戶的異常指標(biāo),指標(biāo)越大的用戶異常程度越大:
D:{Mi}→[0,1]
(3)
式(2)和式(3)的表述沒有本質(zhì)的不同,最終還將歸結(jié)到用戶行為的分類。雖然整體上檢測者的模型均符合式(2)、式(3)的形式,但是在實(shí)際應(yīng)用中,為了建立從用電數(shù)據(jù)集到用電異常集的映射關(guān)系,研究者們從不同的角度建立了相關(guān)模型。本文從基于系統(tǒng)狀態(tài)、基于數(shù)據(jù)驅(qū)動和基于博弈論3個角度對這些方法進(jìn)行了歸類,分別對應(yīng)于物理系統(tǒng)、用電習(xí)慣、互動行為3個層面。從傳統(tǒng)的物理系統(tǒng)層面,主要采用基于系統(tǒng)狀態(tài)的方法,其核心思想是利用配電網(wǎng)狀態(tài)估計與用戶計量數(shù)據(jù)之間的矛盾進(jìn)行NTL的檢測。從用戶用電習(xí)慣層面,主要采用基于數(shù)據(jù)驅(qū)動的方法,其核心思想是直接從用戶用電曲線的形狀和電量分布等特征出發(fā)實(shí)現(xiàn)異常檢測。從用戶和檢測者的互動行為層面,主要采用基于博弈論的方法,其核心思想是根據(jù)攻擊者和檢測者的行為互動分析相應(yīng)的博弈均衡,從而對不同類型用戶間電量分布的差異進(jìn)行NTL檢測。
當(dāng)算法完成對用戶的分類后,檢測者還需要消耗人力資本對檢測出的異常用戶進(jìn)行調(diào)查,因此,檢測方法D的準(zhǔn)確性就顯得至關(guān)重要。一方面檢測者希望更多的竊電者被檢測出來;另一方面則希望正常用戶不會被誤檢為竊電者。為了衡量方法D的好壞,檢測者通常應(yīng)用表1所示的混淆矩陣。
表1 異常用電行為檢測中應(yīng)用的混淆矩陣Table 1 Confusion matrix applied in detection for abnormal electricity consumption behaviors
混淆矩陣將所有用戶按照其實(shí)際歸屬和檢測歸屬分為TP,F(xiàn)N,F(xiàn)P和TN這4類,TP和TN為正確分類的部分,比例越高說明檢測效果越好。定義命中率(true positive rate,TPR)和誤檢率(false positive rate,F(xiàn)PR):
(4)
(5)
容易知道,TPR和FPR的取值區(qū)間為[0,1],TPR越接近1,F(xiàn)PR越接近0說明檢測效果越好。除了TPR和FPR外,檢測者常用的衡量指標(biāo)還包括準(zhǔn)確率ACC和F1值等。
改變D的分類閾值,使之由寬松到嚴(yán)格,可以得到連接點(diǎn)(0,0)和(1,1)的(FPR,TPR)的軌跡,即圖2中的受試者工作特性(receiver operating characteristic,ROC)曲線[19]。越靠近左上的ROC曲線意味著在同樣的檢測命中率下造成的誤檢率越低,檢測效果越好。隨機(jī)猜測的ROC曲線是一條直線,任何情況下都滿足FPR=TPR。
圖2 3種檢測方法及隨機(jī)猜測的ROC曲線Fig.2 ROC curves by three detection methods and random guess
該領(lǐng)域研究目前的一個局限是沒有開放的異常用電行為數(shù)據(jù)集。文獻(xiàn)[20-22]等使用電網(wǎng)公司提供的保密數(shù)據(jù)集,而文獻(xiàn)[16-17]等則基于開放的智能電表數(shù)據(jù)集和由作者定義的異常用電函數(shù)(符合本文1.1節(jié)中的攻擊者模型)以生成包含用戶異常用電行為的數(shù)據(jù)集。高質(zhì)量的開放數(shù)據(jù)集包括:愛爾蘭智能電表數(shù)據(jù)集[23]、倫敦低碳項(xiàng)目數(shù)據(jù)集[24]和澳大利亞居民負(fù)荷數(shù)據(jù)集[25]。
電網(wǎng)的物理本質(zhì)決定了系統(tǒng)電壓、注入功率等物理量的量測結(jié)果應(yīng)基本符合潮流計算的結(jié)果,即系統(tǒng)狀態(tài)具有一致性。在實(shí)際中,用戶可能對功率讀數(shù)進(jìn)行篡改,也可能篡改電壓、電流等配電網(wǎng)量測數(shù)據(jù),但對多數(shù)用戶來說,對這些數(shù)據(jù)同時篡改的難度較大,即使篡改也很難實(shí)現(xiàn)數(shù)據(jù)間的協(xié)同。因此可以利用用戶側(cè)的智能電表數(shù)據(jù),結(jié)合配電網(wǎng)中的電壓、電流和節(jié)點(diǎn)功率等額外量測數(shù)據(jù)進(jìn)行檢驗(yàn)。
文獻(xiàn)[26]利用配電系統(tǒng)中的功率和電流數(shù)據(jù)進(jìn)行線性回歸,估計了配電線路的電阻,進(jìn)而估計出配電網(wǎng)絡(luò)的NTL,最終確定竊電用戶。為了保證電阻估計值的準(zhǔn)確性,必須保證回歸所用到的數(shù)據(jù)是未經(jīng)篡改的真實(shí)的功率數(shù)據(jù)和電流數(shù)據(jù)。文獻(xiàn)[27]讀入各種測量系統(tǒng)提供的配電系統(tǒng)的拓?fù)浼案鞴?jié)點(diǎn)的電壓幅值、相位及有功無功的注入,使用加權(quán)最小二乘法對系統(tǒng)進(jìn)行狀態(tài)估計,并計算系統(tǒng)目標(biāo)函數(shù)值,當(dāng)該值超過一定閾值時,即認(rèn)為系統(tǒng)中存在測量值與正常值偏離的情況。隨后,可以通過比較正規(guī)化的殘差值來剔除經(jīng)過篡改的測量值,使用余下的測量值重新對系統(tǒng)進(jìn)行狀態(tài)估計,直到目標(biāo)函數(shù)值不再超過閾值。用最后的狀態(tài)估計結(jié)果與最初的測量結(jié)果進(jìn)行對比,即可確定經(jīng)過篡改的數(shù)據(jù)。文獻(xiàn)[28]利用配電網(wǎng)各節(jié)點(diǎn)的電壓幅值和相角以及功率的有功無功數(shù)據(jù)和配電網(wǎng)的導(dǎo)納矩陣,使用局部線性化的思想估計了配電網(wǎng)在各個時段的TL。作者假設(shè)總損失和TL均滿足正態(tài)分布,通過各個時段的數(shù)據(jù)和計算結(jié)果容易知道二者滿足的均值和方差。如果總損失和TL在概率分布上出現(xiàn)明顯的差別,則一定存在NTL。文獻(xiàn)[29]使用狀態(tài)估計的思想,當(dāng)狀態(tài)估計的電壓與實(shí)測節(jié)點(diǎn)電壓出現(xiàn)差值時,從配電網(wǎng)的根節(jié)點(diǎn)出發(fā),進(jìn)行廣度優(yōu)先搜索,比較同一深度下的差值大小,以確定產(chǎn)生NTL的源頭。當(dāng)搜索至葉節(jié)點(diǎn)時,即完成了NTL 的路徑尋找。此外,作者還考慮了地理信息系統(tǒng)(geographic information system,GIS)等作為輔助手段。文獻(xiàn)[30]根據(jù)電網(wǎng)結(jié)構(gòu)和實(shí)時測量結(jié)果進(jìn)行系統(tǒng)狀態(tài)估計,隨后針對狀態(tài)估計的結(jié)果應(yīng)用深度置信網(wǎng)絡(luò)進(jìn)行實(shí)時壞數(shù)據(jù)注入(false data injection,F(xiàn)DI)檢測,在仿真情況下檢測準(zhǔn)確率高達(dá)95%。
文獻(xiàn)[31]假定竊電者在篡改電表時,篡改前后的數(shù)據(jù)滿足非時變的函數(shù)關(guān)系。對該函數(shù)進(jìn)行泰勒展開后可以用一定次數(shù)的多項(xiàng)式進(jìn)行近似,當(dāng)擁有區(qū)域內(nèi)可靠的總能耗數(shù)據(jù)及各個子區(qū)域的電表讀數(shù)時,可以通過拉格朗日插值法計算泰勒多項(xiàng)式的系數(shù),確定篡改前后數(shù)據(jù)的函數(shù)關(guān)系。文獻(xiàn)[11]是文獻(xiàn)[31]工作的一個特例,當(dāng)竊電者按一定比例篡改電表數(shù)據(jù)時,可以對總能耗數(shù)據(jù)及各子區(qū)域電表讀數(shù)進(jìn)行遞歸最小二乘(recursive least square,RLS),以較快的計算速度獲得竊電的比例系數(shù)。文獻(xiàn)[11,31]較好地解決了非時變竊電策略的情況,但在實(shí)際中,用戶的異常行為幾乎不可能一成不變,這將導(dǎo)致泰勒多項(xiàng)式的比例系數(shù)不再固定,作者提出的方法也不再收斂。
大部分狀態(tài)估計的方法都依賴于配電網(wǎng)的詳細(xì)拓?fù)浣Y(jié)構(gòu)和參數(shù),但在實(shí)際中,配電網(wǎng)的某些連接會發(fā)生變化,而參數(shù)也未必一成不變,因此文獻(xiàn)[27-29]中的算例以配電網(wǎng)中NTL的節(jié)點(diǎn)定位為主,而無法確定節(jié)點(diǎn)下具體發(fā)生異常用電的用戶。文獻(xiàn)[11,31]的方法則可以較好地應(yīng)用于同一節(jié)點(diǎn)下竊電用戶的定位問題,只要知道該節(jié)點(diǎn)下真實(shí)的總能耗數(shù)據(jù)和節(jié)點(diǎn)下各用戶的能耗記錄數(shù)據(jù),就可以使用此方法確定發(fā)生竊電的用戶。其缺點(diǎn)在于,當(dāng)篡改前后的電表讀數(shù)不再是固定的函數(shù)關(guān)系時,方法存在收斂性問題。
智能電網(wǎng)時代下用戶用能數(shù)據(jù)被賦予了海量、高速和多樣(volume,velocity & variety,3V)[32]的特性。數(shù)以百萬計的智能電表每天以固定的高頻收集大量的用電數(shù)據(jù),氣象和經(jīng)濟(jì)多樣數(shù)據(jù)也被加入用戶用能行為分析中,為基于數(shù)據(jù)驅(qū)動的異常用電行為檢測提供了基礎(chǔ)。本文將近年來應(yīng)用于用戶用電行為異常檢測領(lǐng)域的數(shù)據(jù)驅(qū)動方法分為基于分類、基于回歸以及基于聚類的3個子類。分類和回歸屬于有監(jiān)督學(xué)習(xí)(supervised learning)的方法,而聚類則屬于無監(jiān)督學(xué)習(xí)(unsupervised learning)的方法。雖然這些方法的思想和模型不盡相同,但都遵循一個共同的假設(shè),即異常用電者的行為模式將較正常模式發(fā)生偏離。
此類方法或模型根據(jù)輸入的特征量將輸入對應(yīng)的集合劃分為幾類。在異常用電檢測中,分類的目標(biāo)則是根據(jù)用戶的特征量將用戶集劃分為正常和異常兩類。通常情況下,基于分類的方法需大量帶標(biāo)簽的訓(xùn)練集提供樣本,通過訓(xùn)練以提高分類的精度。
文獻(xiàn)[22]使用了極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)神經(jīng)網(wǎng)絡(luò)作為分類器,將標(biāo)幺化的用戶日負(fù)荷曲線作為特征輸入,即可輸出該用戶是否存在竊電。作者使用了馬來西亞某配電公司提供的數(shù)據(jù)驗(yàn)證方法的有效性,選取了sigmoid 和徑向基函數(shù)(radical basis function,RBF)兩種激活函數(shù),最終分類的最高準(zhǔn)確率達(dá)到54.61%。文獻(xiàn)[33]使用了支持向量機(jī)(support vector machine,SVM)作為分類器,數(shù)據(jù)亦由TNB配電公司提供,除用戶的日負(fù)荷曲線外還引入了配電公司給每個用戶的信用評級作為特征輸入。作者針對訓(xùn)練集進(jìn)行了SVM的參數(shù)優(yōu)化,使得最終的準(zhǔn)確率超過了60%。文獻(xiàn)[34]使用了多層感知器(multi-layer perceptron,MLP)神經(jīng)網(wǎng)絡(luò)作為分類器,并引入了一些新的優(yōu)化算法,使得檢測效果較原本的誤差反向傳播(back propagation,BP)算法有一個顯著的提升。在一家巴西的電網(wǎng)公司提供的工商業(yè)和居民數(shù)據(jù)庫上測試,檢測準(zhǔn)確率達(dá)到90% 以上。文獻(xiàn)[21]將深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)應(yīng)用到異常用電檢測中,并在國家電網(wǎng)提供的數(shù)據(jù)集中達(dá)到了90%~95%的準(zhǔn)確率。
文獻(xiàn)[35]討論了幾種用戶用電數(shù)據(jù)異常的類型,針對這些類型對用戶數(shù)據(jù)進(jìn)行了特征提取,并使用k-近鄰(k-nearest neighbors,KNN)算法對異常數(shù)據(jù)進(jìn)行分類。文獻(xiàn)[36]利用基于隨機(jī)權(quán)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)構(gòu)建隨機(jī)森林(random forest,RF)模型,并對其進(jìn)行稀疏化,通過Hadoop分布式計算實(shí)驗(yàn)驗(yàn)證了稀疏RF分類器對異常用電行為的辨識能力。文獻(xiàn)[20]測試了邏輯回歸(logistic regression,LR),KNN,SVM 和RF四種分類算法在NTL檢測中的效果,并額外在特征輸入中增加了鄰居信息,各方法準(zhǔn)確率約為60%。加入了鄰居信息后的分類效果顯著優(yōu)于單純對用戶用電序列的分類效果。
一個分類模型的建立過程一般較為復(fù)雜,通常涉及激活函數(shù)的選取和參數(shù)的優(yōu)化。由于使用了帶標(biāo)簽的數(shù)據(jù)集,因此基于分類的方法具有較高的檢測準(zhǔn)確率,但帶標(biāo)簽的數(shù)據(jù)集也成為其在實(shí)際應(yīng)用中的一個短板。在智能電表安裝初期,對應(yīng)區(qū)域的竊電數(shù)據(jù)集完全空白,若想獲得一個成規(guī)模的數(shù)據(jù)集,配電公司必須安排技術(shù)人員上門排查并對用戶曲線進(jìn)行標(biāo)記。由于竊電發(fā)生的頻率不高,因此獲得數(shù)據(jù)集的過程將會是一個相當(dāng)消耗人力、財力、時間的過程。
在電力系統(tǒng)中,回歸方法常用于負(fù)荷預(yù)測、消費(fèi)預(yù)測和電價預(yù)測等。應(yīng)用此類方法進(jìn)行異常用電行為檢測的通常思路為:首先對目標(biāo)用戶進(jìn)行短期負(fù)荷預(yù)測,再根據(jù)實(shí)際耗電量與預(yù)測量的偏差進(jìn)行異常判斷。假定負(fù)荷預(yù)測足夠準(zhǔn)確,當(dāng)用戶行為嚴(yán)重偏離預(yù)測值時,即出現(xiàn)異常情況,而一個經(jīng)常出現(xiàn)異常情況的用戶則很有可能是竊電者。
文獻(xiàn)[37]首先根據(jù)用戶的歷史用電數(shù)據(jù)進(jìn)行加權(quán)平均以預(yù)測未來的用電情況,再根據(jù)實(shí)際觀測到的用電量與預(yù)測的用電量之間的偏離大小作為衡量用戶用電行為異常程度的指標(biāo)。文獻(xiàn)[38]應(yīng)用了差分整合移動平均自回歸模型(autoregressive integrated moving average model,ARIMA)和人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)對樓宇的天然氣消耗量進(jìn)行了短期預(yù)測,將預(yù)測值與實(shí)際值偏離較大的情況認(rèn)為是異常情況。文獻(xiàn)[39]使用了考慮外生變量的周期自回歸(periodic auto-regression with eXogenous variables,PARX),并引入溫度作為外生變量,根據(jù)歷史數(shù)據(jù)給出用戶用電量的預(yù)測,再假定用戶用電量滿足高斯分布,計算實(shí)際觀測點(diǎn)對應(yīng)的概率密度函數(shù),當(dāng)其小于一定閾值時即標(biāo)記為異常點(diǎn)。
近年來學(xué)術(shù)界對電力負(fù)荷預(yù)測的相關(guān)研究非常深入,在信息足夠的情況下對區(qū)域整體的負(fù)荷預(yù)測精度可以達(dá)到很高,但是由于用戶用電行為的隨機(jī)性,單一用戶短期負(fù)荷預(yù)測的精度還不夠理想。另外,由于每個人的用電模式不同,因此在異常檢測時通常需要對每個用戶建立回歸模型,這將產(chǎn)生很大的計算量。為了提高預(yù)測精度,通常還需將電價預(yù)測、天氣預(yù)報等外生數(shù)據(jù)作為模型的輸入,即使如此,偶然事件所造成的用戶用電不符合預(yù)期的情況仍無法避免。另外,基于回歸的方法重視的是用戶本身用電行為的變化,而缺乏了用戶之間的橫向?qū)Ρ?。如果用戶持續(xù)而有規(guī)律地進(jìn)行竊電,則很難依靠現(xiàn)有的方法進(jìn)行準(zhǔn)確檢測。
聚類通過某些特定的算法將相似的對象通過靜態(tài)分類的方法分成不同的組別或者更多的子集,使得在同一個子集中的對象都具有相似的一些屬性。近年來聚類被廣泛應(yīng)用于用戶肖像描繪[40-41]中,以提取用戶的典型特征。在異常檢測中,需要對用戶用電特征進(jìn)行提取,并找出不符合多數(shù)用戶用電行為的少數(shù)異常用電者。常見的聚類方法有基于劃分、基于層次、基于密度和基于網(wǎng)絡(luò)的等[42],應(yīng)用于用電異常行為檢測的主要有基于劃分的和基于密度的兩類?;趧澐值木垲悓⒂脩舻奶卣骷辖?jīng)過劃分后將子集合中離中心較偏遠(yuǎn)的離群點(diǎn)作為異常點(diǎn),基于密度的聚類則認(rèn)為那些遠(yuǎn)離高密度點(diǎn)并且自己本身處于低密度區(qū)域的點(diǎn)屬于異常點(diǎn)。
文獻(xiàn)[43]使用了最優(yōu)路徑森林(optimum-path forest,OPF)聚類方法,并與著名的基于劃分的聚類方法如k-均值(k-means)聚類、高斯混合模型(Gaussian mixture model,GMM)聚類和吸引子傳播(affinity propagation,AP)聚類等進(jìn)行比較,幾類方法的準(zhǔn)確率均在60%附近。文獻(xiàn)[44]使用了模糊C-均值(fuzzyC-means,F(xiàn)CM)聚類以檢測用戶負(fù)荷曲線中的異常情況,并根據(jù)負(fù)荷曲線歸屬到各類的模糊程度來判斷異常程度。文獻(xiàn)[17]在k-means聚類、FCM和自組織映射(self-organized map,SOM)的基礎(chǔ)上構(gòu)建了半自動特征提取方法,實(shí)現(xiàn)基于特征的異常用電檢測邏輯判斷規(guī)則,在特定的攻擊者模型測試中取得了較高的檢測準(zhǔn)確率。
文獻(xiàn)[45]使用DBSCAN(density-based spatial clustering of applications with noise)聚類方法對用戶負(fù)荷曲線的波動區(qū)間進(jìn)行分簇,并計算離群對象的得分作為異常檢測的依據(jù),對比了不同參數(shù)下的ROC曲線。DBSCAN是一種基于密度的聚類方法,在該方法中,預(yù)先指定鄰域的大小和閾值,即可將所有的數(shù)據(jù)點(diǎn)劃分為核心點(diǎn)、可達(dá)點(diǎn)和異常點(diǎn)。文獻(xiàn)[46]結(jié)合分布式流式計算平臺Spark Streaming設(shè)計并實(shí)現(xiàn)了面向大數(shù)據(jù)流的快速流式DBSCAN聚類算法,提高了檢測系統(tǒng)的實(shí)時性,使得密度聚類方法更貼近于異常檢測的應(yīng)用層面。
由于采用了無監(jiān)督學(xué)習(xí)的方法,聚類的優(yōu)點(diǎn)是不需要帶標(biāo)簽的數(shù)據(jù)集即可進(jìn)行檢測,這非常適用于檢測者在初期尚未構(gòu)建異常用電數(shù)據(jù)集時的檢測。其缺點(diǎn)是,傳統(tǒng)的聚類方法如k-means聚類和DBSCAN等對參數(shù)的依賴性很強(qiáng),而參數(shù)的選取通常不是一個簡單的問題。尤其是DBSCAN中還需要對多個外生參數(shù)進(jìn)行選取,甚至需要涉及網(wǎng)格優(yōu)化等手段來提升效果,使得算法的復(fù)雜程度上升了至少一個量級。而在實(shí)際應(yīng)用中,由于區(qū)域之間用電行為的不同,優(yōu)化后的參數(shù)在不同區(qū)域甚至不同季節(jié)時段的適用性也不同,在新的區(qū)域或新的時段應(yīng)用聚類時又必須考慮參數(shù)的重新優(yōu)化。
博弈論[47]一直是研究多方主體決策行為的重要方法,目前在生物學(xué)、經(jīng)濟(jì)學(xué)和政治學(xué)等領(lǐng)域有著廣泛的應(yīng)用。近年來,美國和法國的學(xué)者們將博弈論應(yīng)用到異常用電檢測的領(lǐng)域[48-50],以分析配電公司和竊電者的決策行為,提出相應(yīng)的異常用電檢測方法,并為市場監(jiān)管者和配電公司提供了相關(guān)建議。根據(jù)博弈論,每個用戶的決策行為均為最大化自身效用,竊電用戶的決策集與正常用戶不同,最終將影響雙方在付費(fèi)電量分布上的不同,可以基于這種區(qū)別實(shí)現(xiàn)異常檢測。
文獻(xiàn)[48]對用戶用電偏好和配電公司在存在竊電者時的利潤進(jìn)行了建模,分別分析了配電公司在未受電價管制和受到電價上限管制兩種情況下的配電公司—用戶博弈模型。用戶的決策變量為付費(fèi)電量qB和竊電電量qU,配電公司的決策變量為其向用戶提供的電價方案T(·),需要向電網(wǎng)或發(fā)電廠購買的電量Q和反竊電設(shè)備投資水平e。配電公司和用戶之間構(gòu)成了非零和Stackelberg博弈。文中主要討論了配電公司在反竊電設(shè)備投入方面的激勵,以及電價上限管制對最優(yōu)決策結(jié)果的影響。
文獻(xiàn)[50]在文獻(xiàn)[49]的基礎(chǔ)上對博弈論的應(yīng)用進(jìn)行了更深入的研究,并對用戶和配電公司效用建模中包括電價、竊電者比例等在內(nèi)的更多參數(shù)進(jìn)行了討論,簡化了似然比檢驗(yàn)在用戶用電量服從指數(shù)分布時的形式。作者討論了竊電者在配電公司不同排查力度下的最大剩余情況,并與正常用戶的最大剩余進(jìn)行比較,闡述了用戶本身存在著竊電的趨勢。另外,作者還分析了配電公司在寡頭壟斷和完全競爭兩種情況下的決策行為。
在博弈論的模型中,e的取值對應(yīng)了圖2的ROC曲線上的某一具體位置。在某一種特定檢測方法下,e越大,則檢測者投入的人力資本越大,允許派遣技術(shù)人員進(jìn)行檢查的人數(shù)越多,(FPR,TPR)越接近(1,1)。博弈論的應(yīng)用可與其他方法相結(jié)合,指導(dǎo)檢測者選取合適的閾值,最大化檢測者剩余。
博弈論的方法貫徹了經(jīng)濟(jì)學(xué)研究的思想,更重視存在竊電情況下配電公司和用戶雙方主體的決策行為分析和建模,在具體的異常用電檢測方案上沒有過多的討論,只提出了似然比檢驗(yàn)的方法。其效用一致化和用戶用電量獨(dú)立同分布的假設(shè),忽視了用戶用電偏好的多樣性和用電行為的差異性。而且,應(yīng)用了博弈論的方法只經(jīng)過了理論的推導(dǎo)和仿真,尚未得到實(shí)證的檢驗(yàn)。
表2對比了基于系統(tǒng)狀態(tài)、基于數(shù)據(jù)驅(qū)動和基于博弈論的NTL檢測方法特點(diǎn)。由于各類方法對應(yīng)文獻(xiàn)較多,使用算法各不相同,命中率和誤檢率也有所差異,本文只給出其總體上的定性比較結(jié)果。
表2 各異常用電行為檢測方法對比Table 2 Detection methods comparison of abnormal electricity consumption behaviors
檢測者從AMI和智能電表數(shù)據(jù)出發(fā),建立檢測模型到最終完成異常用電檢測,所涉及的關(guān)鍵技術(shù)包括數(shù)據(jù)集的處理、模型的選取構(gòu)建、高效精確的求解技術(shù)等。
雖然在實(shí)際中,異常用電行為造成了嚴(yán)重的經(jīng)濟(jì)損失,但在數(shù)據(jù)集中,異常用電用戶占全部用戶的比例通常很低。不平衡的數(shù)據(jù)集會影響到算法的檢測效果,因此檢測方法必須適應(yīng)不平衡數(shù)據(jù)集。假設(shè)100個用戶中有5個異常用電者,若算法將所有用戶都標(biāo)記為正常用戶,其準(zhǔn)確率將達(dá)到95%,若算法將所有用戶都標(biāo)記為異常用戶,則其準(zhǔn)確率只有5%。由于許多算法本身是精度驅(qū)動的,模型的目標(biāo)是最小化總體誤差,而異常用戶這一子類對總體誤差的貢獻(xiàn)很低,算法趨向于提高正常用戶的分類準(zhǔn)確率,往往忽視了異常用電者的檢測率[51]。為了解決數(shù)據(jù)集不平衡問題,需要通過對數(shù)據(jù)集的重構(gòu)與篩選,構(gòu)建一個相對平衡的數(shù)據(jù)集,或基于表1的混淆矩陣提出更契合實(shí)際問題的檢測效果衡量指標(biāo)作為模型的優(yōu)化目標(biāo)。
特征選擇是機(jī)器學(xué)習(xí)中的重要一步,直接影響到相關(guān)的異常用電檢測算法的模型訓(xùn)練時間和最終檢測效果。用戶用電數(shù)據(jù)存在漂移、波動和可分解等特性,好的特征可以捕捉到用戶數(shù)據(jù)的本質(zhì)特征,提高模型在特定場景下的適用性,極大提升異常用電檢測的效率。檢測者可以選擇直接將用戶用電序列作為特征,也可以從負(fù)荷特性出發(fā),構(gòu)建如波動區(qū)間、曲線毛刺寬度等特征,還可以應(yīng)用時間序列分析和機(jī)器學(xué)習(xí)的算法進(jìn)行特征提取。時間序列分析算法包括傅里葉變換和Hilbert-Huang變換等,機(jī)器學(xué)習(xí)算法包括主成分分析(principal components analysis,PCA)[52]和稀疏編碼[53]等。
不同的文獻(xiàn)在測試檢測模型效果時選用的數(shù)據(jù)集不盡相同。數(shù)據(jù)集包含的用戶數(shù)量、NTL比例和時間尺度等因素均影響了檢測效果,因此不能單純從文獻(xiàn)中的結(jié)果出發(fā)進(jìn)行模型的選取。檢測者需要從模型的基本原理出發(fā),基于數(shù)據(jù)集實(shí)際的特點(diǎn)進(jìn)行模型選取,綜合考慮時間復(fù)雜度、空間復(fù)雜度和檢測效果對模型進(jìn)行構(gòu)建。通常來說,復(fù)雜度較高的模型對于數(shù)據(jù)的挖掘可能更深入,但是在對檢測實(shí)時性要求較高的場合,則需要兼顧模型的復(fù)雜度和檢測效果。此外,考慮到用戶數(shù)據(jù)的隨機(jī)性,單一模型往往很難適應(yīng)不同的場景,難以實(shí)現(xiàn)穩(wěn)定的高準(zhǔn)確度檢測。檢測者需要選取多個適用場景類似的模型,再使用Ensemble[54]等方法對模型進(jìn)行綜合構(gòu)建,以優(yōu)化檢測效果。
未來的研究將與大數(shù)據(jù)技術(shù)結(jié)合,適應(yīng)新的用戶用能形勢,檢測方法也將更貼近真實(shí)場景,并能挖掘、利用更多信息。下文將從4個方面進(jìn)行展望。
用戶用能數(shù)據(jù)3V特性中的海量和高速特性需要應(yīng)用高效的分布式計算和流式計算[55]等新的算法形式。現(xiàn)有文獻(xiàn)中的方法以靜態(tài)、集中式的為主,雖然在小數(shù)據(jù)集測試中取得了較好的效果,但較難適應(yīng)大數(shù)據(jù)場景下的實(shí)際應(yīng)用。目前常見的流式實(shí)時分布式計算平臺包括Spark和Storm等,開發(fā)新的異常用電檢測算法,并將其與這些計算平臺進(jìn)行結(jié)合將是未來的研究趨勢。
另外,近年來數(shù)據(jù)挖掘領(lǐng)域的研究工作也取得了令人矚目的成果,深度學(xué)習(xí)的方法在語音識別、圖像識別和自然語言處理等方面達(dá)到了前所未有的高度。除了深度學(xué)習(xí)的方法外,還出現(xiàn)了新的統(tǒng)計分析方法[56]、密度聚類方法[57]等。將這些新的大數(shù)據(jù)方法進(jìn)行改進(jìn)并應(yīng)用于異常用電檢測,有望取得更高的檢測率和更快的檢測速度。
在能源互聯(lián)網(wǎng)時代,可再生能源以高滲透率接入配電網(wǎng),帶來了新的不確定性[58]。隨著分布式電源、儲能和電動汽車在需求側(cè)的普及,電能將在智能電表兩端發(fā)生雙向流動,用戶用電行為也將發(fā)生較大變化。現(xiàn)有的異常檢測方法主要基于對分布式電源和儲能出力的估計而對用戶實(shí)際用電量進(jìn)行修正[59],精確的異常檢測還需要更好地理解用戶在源儲車接入時用電行為的變化機(jī)理和外在表現(xiàn)。近幾年的研究利用電價、氣象等多元數(shù)據(jù)對能源互聯(lián)網(wǎng)下的用戶用電行為進(jìn)行了更深入的研究,結(jié)合多元數(shù)據(jù)對用戶在能量雙向流動下的用電行為構(gòu)建異常檢測模型將是未來研究的熱點(diǎn)。
許多NTL檢測算法的應(yīng)用場景有所不同,應(yīng)有所區(qū)別,也可有機(jī)結(jié)合?;谙到y(tǒng)狀態(tài)的方法重視NTL的節(jié)點(diǎn)定位,另外一些方法則試圖利用總能耗數(shù)據(jù)和用戶能耗數(shù)據(jù)進(jìn)行NTL的用戶定位;基于數(shù)據(jù)驅(qū)動的方法側(cè)重于在一定規(guī)模用戶數(shù)據(jù)中找出異常用電的用戶;基于博弈論的方法則主要考慮對用戶用電序列進(jìn)行假設(shè)檢驗(yàn)。各類方法的應(yīng)用場景各不相同,缺乏通用場景下的檢測方法[60]。而在實(shí)際中,配電公司所面臨的檢測場景卻往往有限,場景集本身具有較高的相似性。檢測者通常擁有配電網(wǎng)的量測數(shù)據(jù)和一定量的用戶數(shù)據(jù),在這種情況下,需要將幾種方法綜合在一起,構(gòu)建一個更為系統(tǒng)的異常用電行為檢測框架,實(shí)現(xiàn)全場景下的異常用電行為檢測。
現(xiàn)有的研究工作幾乎都著眼于從用戶曲線和智能電表實(shí)時能耗數(shù)據(jù)的角度進(jìn)行異常用電行為的檢測,這種實(shí)時數(shù)據(jù)中蘊(yùn)含的信息量無疑也是最高的。然而,電網(wǎng)公司、配電公司等檢測者在實(shí)際中還掌握了其他多時間尺度的數(shù)據(jù),如用戶的日電量、月度電量等。對于這些數(shù)據(jù)的挖掘,探索其中的行為特征與規(guī)律,無疑對于異常用電行為檢測的過濾、分類、標(biāo)簽辨識和有效性印證等具有重要意義,也有利于降低異常用戶定位工作的復(fù)雜度,提升整個檢測過程的效率和準(zhǔn)確率。因此,面向不同時間尺度的異常檢測算法也是未來的一個研究趨勢。
近年來,NTL給世界各國的電網(wǎng)企業(yè)帶來了嚴(yán)重的經(jīng)濟(jì)損失,而利用AMI體系下的量測數(shù)據(jù)實(shí)現(xiàn)異常用電檢測將有助于提高電網(wǎng)企業(yè)規(guī)避相應(yīng)的損失,提高運(yùn)營效率。本文首先介紹了異常用電檢測的基本模型,將其抽象為一個普遍性的攻擊者和檢測者的互動模型。隨后,對相關(guān)領(lǐng)域的文獻(xiàn)進(jìn)行了廣泛的調(diào)研分析,將異常用電檢測的方法歸類為基于系統(tǒng)狀態(tài)、基于數(shù)據(jù)驅(qū)動和基于博弈論3個基本類型,對不同方法的原理進(jìn)行了論述,并從數(shù)據(jù)依賴、模型應(yīng)用、建模復(fù)雜度、檢測準(zhǔn)確率等方面進(jìn)行了比較,總結(jié)了不同方法的優(yōu)缺點(diǎn)。最后,從數(shù)據(jù)和模型的角度歸納了異常用電檢測的若干關(guān)鍵技術(shù),并展望了未來的研究方向。
隨著能源互聯(lián)網(wǎng)的建設(shè)和電力市場化進(jìn)程的加速,用戶側(cè)數(shù)據(jù)將更加豐富,而檢測結(jié)果的應(yīng)用場景也將進(jìn)一步呈現(xiàn),這些無疑將促進(jìn)該領(lǐng)域研究工作的不斷深入。
陳啟鑫(1982—),男,通信作者,副教授,博士生導(dǎo)師,主要研究方向:電力市場、電力系統(tǒng)規(guī)劃等。E-mail: qxchen@tsinghua.edu.cn
鄭可迪(1995—),男,博士研究生,主要研究方向:用電大數(shù)據(jù)、能源互聯(lián)網(wǎng)及負(fù)荷預(yù)測。
康重慶(1969—),男,教授,博士生導(dǎo)師,主要研究方向:電力系統(tǒng)規(guī)劃、電力經(jīng)濟(jì)與信息等。