摘 要:智能電表的出現(xiàn)與普及帶來了一場用電信息采集方式的變革,在給人們帶來便利的同時(shí),也產(chǎn)生了海量的數(shù)據(jù),這就使得不法分子的竊電行為更不易被發(fā)現(xiàn),給電力公司帶來巨大的經(jīng)濟(jì)損失。針對(duì)這一現(xiàn)象,國內(nèi)外很多的學(xué)者都對(duì)此進(jìn)行了深入的研究,并且提出了很多異常用電檢測的手段。本文對(duì)基于機(jī)器學(xué)習(xí)的異常用電檢測技術(shù)的發(fā)展現(xiàn)狀進(jìn)行介紹,指出了當(dāng)前研究中出現(xiàn)的一些問題,并提出了一些解決措施。
關(guān)鍵詞:智能電表;用電信息采集;異常用電檢測;機(jī)器學(xué)習(xí)
DOI:10.16640/j.cnki.37-1222/t.2019.18.170
0 引言
智能電表的普及產(chǎn)生了海量的數(shù)據(jù),這也導(dǎo)致了異常用電的檢測變得困難。在智能電網(wǎng)的時(shí)代下,這些數(shù)據(jù)普遍具有著“3V[1]”的特點(diǎn),即海量(volume)、高速(velocity)和多樣(variety)。電力損失主要分為兩種,即是技術(shù)性損失和非技術(shù)性損失。技術(shù)性損失即能量傳輸損失,這一部分損失可以使用技術(shù)或?qū)<抑R(shí)進(jìn)行解釋;非技術(shù)性損失是指電網(wǎng)輸配電損失中剔除技術(shù)性損失后剩余無法用技術(shù)解釋的部分,例如竊電行為等。近些年來隨著機(jī)器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展,使得對(duì)大規(guī)模數(shù)據(jù)集的挖掘與分析成為了可能,很多研究人員將異常用電檢測與機(jī)器學(xué)習(xí)兩個(gè)領(lǐng)域相結(jié)合,取得了不錯(cuò)的成果,同時(shí)也遇到了一些難題。
1 基于機(jī)器學(xué)習(xí)的異常用電檢測
1.1 基于有監(jiān)督學(xué)習(xí)的異常用電檢測
基于機(jī)器學(xué)習(xí)的異常用電檢測算法可分為兩個(gè)類型:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)就是我們把正確答案交給計(jì)算機(jī)讓其進(jìn)行學(xué)習(xí),以達(dá)到從新樣本中預(yù)測正確答案的目的。假設(shè)我們將數(shù)據(jù)集中的用戶分為兩類:即正常用電的用戶和疑似竊電的用戶。那么在異常用電檢測領(lǐng)域,有監(jiān)督學(xué)習(xí)的過程是我們同時(shí)給出用戶的用電數(shù)據(jù)以及用戶的標(biāo)簽,對(duì)模型進(jìn)行訓(xùn)練,最后達(dá)到通過用電數(shù)據(jù)預(yù)測用戶類型的目的。常用的有監(jiān)督學(xué)習(xí)算法包括線性回歸、邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)SVM、決策樹、樸素貝葉斯算法等。
文獻(xiàn)[2]介紹了MIDAS項(xiàng)目開發(fā)的兩種檢測異常用電數(shù)據(jù)的方法:基于神經(jīng)網(wǎng)絡(luò)的方法和基于統(tǒng)計(jì)學(xué)的方法。在基于神經(jīng)網(wǎng)絡(luò)的方法中,作者先對(duì)用電客戶進(jìn)行聚類分析,減少需要分析的樣本數(shù)目,再通過算法找到嫌疑較大的用戶。
文獻(xiàn)[3]介紹了基于深度學(xué)習(xí)方法的異常用電檢測,作者使用了Tensor Flow構(gòu)建深度學(xué)習(xí)框架,并將算法與長短期記憶網(wǎng)絡(luò)(LSTM)進(jìn)行對(duì)比,驗(yàn)證了算法的優(yōu)越性。本文還將非技術(shù)性損失模型分為三類,除了大部分文獻(xiàn)都提到的基于統(tǒng)計(jì)學(xué)和基于數(shù)據(jù)驅(qū)動(dòng)的方法外,還提出了基于專家知識(shí)的模型。
文獻(xiàn)[4]作者使用了多分類SVM算法并且考慮到了電力公司與竊電者之間的博弈。作者認(rèn)為使用的數(shù)據(jù)集規(guī)模越小,用戶隱私的保密程度就越強(qiáng),因此采樣率的選擇就轉(zhuǎn)化成了如何在隱私保密性和算法精度上進(jìn)行取舍。同時(shí)作者假定了算法分類器遭受到了最壞程度的攻擊,即假定竊電者在知曉分類算法規(guī)則的情況下進(jìn)行竊電活動(dòng),此外竊電者還會(huì)通過修改數(shù)據(jù)的方式污染數(shù)據(jù)集。這樣的假設(shè)對(duì)的算法性能評(píng)估更加客觀,但是算法建立的過程難度會(huì)增大。
1.2 基于無監(jiān)督學(xué)習(xí)的異常用電檢測
與有監(jiān)督學(xué)習(xí)的過程相反,無監(jiān)督學(xué)習(xí)是我們把沒有標(biāo)簽數(shù)據(jù)集交給計(jì)算機(jī)進(jìn)行學(xué)習(xí),讓計(jì)算機(jī)自己對(duì)數(shù)據(jù)進(jìn)行分類的過程。在異常用電檢測中,我們只給出用戶的用電數(shù)據(jù),在不知曉用戶標(biāo)簽的情況下對(duì)用戶進(jìn)行分類。常用的無監(jiān)督學(xué)習(xí)算法有:K-均值算法、主成分分析法(PCA)、DBSCAN算法、BIRCH算法、限制玻爾茲曼機(jī)等。
文獻(xiàn)[5]提出了一種基于兩階段k-means聚類算法的異常用電檢測模型,通過灰色關(guān)聯(lián)分析法分析溫度和濕度兩個(gè)特征對(duì)電力負(fù)荷的影響,利用k-means算法對(duì)負(fù)荷模式進(jìn)行提取,最后將樣本的負(fù)荷曲線與標(biāo)準(zhǔn)負(fù)荷曲線進(jìn)行比較,計(jì)算每一個(gè)時(shí)刻預(yù)測值與實(shí)際值之間的歐氏距離,將這個(gè)距離進(jìn)行統(tǒng)計(jì)后從大到小排列,將排名靠前的幾個(gè)用戶列為嫌疑用戶并逐一進(jìn)行排查。文中提出的算法可以縮小嫌疑用戶范圍,但是只將溫度和濕度兩個(gè)相近特征進(jìn)行關(guān)聯(lián)性分析,對(duì)結(jié)果的影響有限,可以通過參考更多的特征來優(yōu)化模型。
文獻(xiàn)[6]使用DBSCAN聚類方法進(jìn)行異常用電檢測。文中將流式計(jì)算框架與DBSCAN聚類法結(jié)合到一起。流式計(jì)算框架具有動(dòng)態(tài)計(jì)算、在內(nèi)存中直接處理、在線數(shù)據(jù)處理三個(gè)特點(diǎn),可以快速反映系統(tǒng)當(dāng)前的狀態(tài)。通過DBSCAN對(duì)于最近一段時(shí)間產(chǎn)生的歷史數(shù)據(jù)進(jìn)行聚類分析,當(dāng)新產(chǎn)生的數(shù)據(jù)達(dá)到一定規(guī)模時(shí),替換部分歷史數(shù)據(jù),重新進(jìn)行DBSCAN聚類分析,進(jìn)而形成新的聚類,達(dá)到在線檢測的效果,其實(shí)驗(yàn)結(jié)果證明,將流式計(jì)算與DBSCAN相結(jié)合具有和原始DBSCAN同樣的精度。該模型的優(yōu)勢(shì)在于可以通過分析實(shí)時(shí)性更強(qiáng)的數(shù)據(jù),得到更具有參考價(jià)值的結(jié)果,也可以更快地確定嫌疑目標(biāo)。
文獻(xiàn)[7]通過重新定義樣本之間的密度關(guān)系改進(jìn)了k-means算法,使得k-means算法可以處理高維數(shù)據(jù)。使用了Hadoop平臺(tái)實(shí)現(xiàn)了云計(jì)算,利用并行處理技術(shù)可以同時(shí)處理大規(guī)模的數(shù)據(jù)。作者利用了k-means算法可以克服局部最優(yōu)解的優(yōu)勢(shì),簡單高效地實(shí)現(xiàn)了大數(shù)據(jù)下的智能用電數(shù)據(jù)挖掘。但是仍然可以在k-means算法中的k值選擇處進(jìn)行相應(yīng)的優(yōu)化,使得算法的精度和速度更優(yōu)秀。
2 異常用電檢測中出現(xiàn)的問題
2.1 數(shù)據(jù)集的不平衡
目前很多帶標(biāo)簽的數(shù)據(jù)集都存在正常樣本與異常樣本的比例嚴(yán)重不平衡的情況,由于異常樣本的數(shù)量過少,對(duì)異常用電樣本進(jìn)行建模就變得很困難,對(duì)于這種情況,研究者們一般采用以下三種方法:對(duì)算法改進(jìn)使得可以適應(yīng)異常樣本過少的情況;只使用正常樣本進(jìn)行建模,將新的樣本與得到的模型進(jìn)行比較,差異較大的就是異常樣本;手動(dòng)平衡樣本,通過模擬異常樣本的特征,增加異常樣本的數(shù)量。以上三種方法雖然能一定程度上減輕數(shù)據(jù)集不平衡帶來的影響,但是仍然不及對(duì)優(yōu)秀的數(shù)據(jù)集進(jìn)行分析的效果更好。因此,更加平衡、高質(zhì)量的數(shù)據(jù)集在研究當(dāng)中是十分重要的一環(huán)。
2.2 用戶的消費(fèi)模式改變
大多數(shù)用戶的消費(fèi)模式都會(huì)隨著時(shí)間改變,工作日、周末、節(jié)假日這三個(gè)時(shí)間段用戶的生活方式會(huì)發(fā)生明顯的變化,因此這三個(gè)時(shí)間段的電力負(fù)荷也會(huì)呈現(xiàn)出不同的特征;再例如季節(jié)的改變,用戶在夏季和冬季的用電模式也會(huì)發(fā)生改變:夏天由于天氣熱,空調(diào)的使用以及熱水器的使用量會(huì)明顯增加,其用電量相比春季會(huì)提高;到了冬天,采暖設(shè)備的使用也會(huì)導(dǎo)致用戶的用電模式發(fā)生改變。以上這些變化都可以從用戶長期的用電數(shù)據(jù)中捕捉到,除了這些長期的改變,還有一些非時(shí)間因素的改變。例如用戶購置了新電器導(dǎo)致用電量發(fā)生了突變;家庭聚會(huì)導(dǎo)致某一天的用電量很大;用戶生病導(dǎo)致某幾天的用電量低于預(yù)期,這些因素都會(huì)或多或少影響著模型的搭建。
2.3 對(duì)于竊電者的分析
當(dāng)前大多數(shù)模型都是從用戶的歷史負(fù)荷數(shù)據(jù)來進(jìn)行建模,這種方法的好處是能清楚的了解大多數(shù)用戶的用電習(xí)慣,從而找到異常用電的個(gè)體,但是缺點(diǎn)是由于數(shù)據(jù)集不平衡特征的制約,沒有辦法詳細(xì)的分析竊電者的特征。我們可以參考文獻(xiàn)[4],引入對(duì)抗性學(xué)習(xí),充分地考慮了供電公司與竊電者之間的博弈,分析竊電者攻擊方式與攻擊策略的選擇,還可以把同一區(qū)域內(nèi)用戶之間的關(guān)系引入到模型之中,這樣更加有利于判斷竊電者所在的區(qū)域?;蛘邊⒖嘉墨I(xiàn)[1],搭建竊電者模型去預(yù)測竊電者的竊電時(shí)間與竊電方式。
2.4 模型的泛化能力
不同的數(shù)據(jù)集記錄的用電數(shù)據(jù)大不相同,其數(shù)據(jù)的格式、記錄的特征數(shù)目、用戶所在的地理位置、用戶生活習(xí)慣、當(dāng)?shù)氐募竟?jié)更替時(shí)間都不同,因此僅通過一個(gè)數(shù)據(jù)集得到的模型其泛化能力是極為有限的,解決這一問題有兩個(gè)方向:一是獲得更高質(zhì)量,具有代表性的數(shù)據(jù)集,使其得到的模型也具有更強(qiáng)的代表性;二是在使用相同的計(jì)量設(shè)備的不同地區(qū),獲得的用電數(shù)據(jù),通過這些數(shù)據(jù)去進(jìn)行綜合性的分析。
3 結(jié)論
綜上,目前有關(guān)于異常用電行為的研究大多數(shù)聚焦于利用不同的機(jī)器學(xué)習(xí)手段從數(shù)據(jù)集中發(fā)現(xiàn)潛藏的異常用電數(shù)據(jù)。機(jī)器學(xué)習(xí)的各種算法已經(jīng)趨于成熟但是仍在不斷地有性能更強(qiáng)的算法出現(xiàn),例如近些年來,在面對(duì)大數(shù)據(jù)處理時(shí),深度學(xué)習(xí)這一領(lǐng)域的算法已經(jīng)越來越展示出在大數(shù)據(jù)下的優(yōu)越性能。因此異常用電檢測領(lǐng)域也會(huì)隨著算法的更新和更高質(zhì)量的數(shù)據(jù)集的出現(xiàn)而不斷更新。除了機(jī)器學(xué)習(xí)領(lǐng)域和統(tǒng)計(jì)學(xué)的應(yīng)用,博弈論與異常檢測的結(jié)合也會(huì)在異常用電檢測領(lǐng)域發(fā)揮更大的作用。
參考文獻(xiàn):
[1]陳啟鑫,鄭可迪,康重慶,皇甫奮宇.異常用電的檢測方法:評(píng)述與展望[J].電力系統(tǒng)自動(dòng)化,2018(17):189-199
[2]??igo Monedero,F(xiàn)élix Biscarri,Carlos León,Jesús Biscarri,Rocío Millán.MIDAS: Detection of Non-technical Losses in Electrical Consumption Using Neural Networks and Statistical Techniques[J].Lecture Notes in Computer Science Computational Science and Its Applications - ICCSA 2006,2006(05):725-734.
[3]趙文清,沈哲吉,李剛.基于深度學(xué)習(xí)的用戶異常用電模式檢測[J].電力自動(dòng)化設(shè)備,2018(09):34-38.
[4]Daisuke Mashima,Alvaro A.Cárdenas.Evaluating Electricity Theft Detectors in Smart Grid Networks[J].International Workshop on Recent Advances in Intrusion Detection,2012:210-229.
[5]張鐵峰,張靖.k_means兩階段用電異常檢測方法[J].電力科學(xué)與工程,2018(12):25-31.
[6]王桂蘭,周國亮,趙洪山,米增強(qiáng).大規(guī)模用電數(shù)據(jù)流的快速聚類和異常檢測技術(shù)[J].電力系統(tǒng)自動(dòng)化,2016(24):27-33.
[7]趙莉,候興哲,胡君,傅宏,孫洪亮.基于改進(jìn)k_means算法的海量智能用電數(shù)據(jù)分析[J].電網(wǎng)技術(shù),2014(10):2715-2720.
作者簡介:張紋碩(1995-),男,吉林長春人,研究生在讀,研究方向:機(jī)器學(xué)習(xí)在電力系統(tǒng)的應(yīng)用。