基于機(jī)器學(xué)習(xí)的異常用電檢測技術(shù)的發(fā)展現(xiàn)狀

2019-07-19 06:03:19張紋碩

山東工業(yè)技術(shù) 2019年18期

摘要：智能電表的出現(xiàn)與普及帶來了一場用電信息采集方式的變革，在給人們帶來便利的同時(shí)，也產(chǎn)生了海量的數(shù)據(jù)，這就使得不法分子的竊電行為更不易被發(fā)現(xiàn)，給電力公司帶來巨大的經(jīng)濟(jì)損失。針對(duì)這一現(xiàn)象，國內(nèi)外很多的學(xué)者都對(duì)此進(jìn)行了深入的研究，并且提出了很多異常用電檢測的手段。本文對(duì)基于機(jī)器學(xué)習(xí)的異常用電檢測技術(shù)的發(fā)展現(xiàn)狀進(jìn)行介紹，指出了當(dāng)前研究中出現(xiàn)的一些問題，并提出了一些解決措施。

關(guān)鍵詞：智能電表;用電信息采集;異常用電檢測;機(jī)器學(xué)習(xí)

DOI：10.16640/j.cnki.37-1222/t.2019.18.170

0 引言

智能電表的普及產(chǎn)生了海量的數(shù)據(jù)，這也導(dǎo)致了異常用電的檢測變得困難。在智能電網(wǎng)的時(shí)代下，這些數(shù)據(jù)普遍具有著“3V[1]”的特點(diǎn)，即海量（volume）、高速（velocity）和多樣（variety）。電力損失主要分為兩種，即是技術(shù)性損失和非技術(shù)性損失。技術(shù)性損失即能量傳輸損失，這一部分損失可以使用技術(shù)或?qū)＜抑R(shí)進(jìn)行解釋;非技術(shù)性損失是指電網(wǎng)輸配電損失中剔除技術(shù)性損失后剩余無法用技術(shù)解釋的部分，例如竊電行為等。近些年來隨著機(jī)器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展，使得對(duì)大規(guī)模數(shù)據(jù)集的挖掘與分析成為了可能，很多研究人員將異常用電檢測與機(jī)器學(xué)習(xí)兩個(gè)領(lǐng)域相結(jié)合，取得了不錯(cuò)的成果，同時(shí)也遇到了一些難題。

1 基于機(jī)器學(xué)習(xí)的異常用電檢測

1.1 基于有監(jiān)督學(xué)習(xí)的異常用電檢測

基于機(jī)器學(xué)習(xí)的異常用電檢測算法可分為兩個(gè)類型：有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)就是我們把正確答案交給計(jì)算機(jī)讓其進(jìn)行學(xué)習(xí)，以達(dá)到從新樣本中預(yù)測正確答案的目的。假設(shè)我們將數(shù)據(jù)集中的用戶分為兩類：即正常用電的用戶和疑似竊電的用戶。那么在異常用電檢測領(lǐng)域，有監(jiān)督學(xué)習(xí)的過程是我們同時(shí)給出用戶的用電數(shù)據(jù)以及用戶的標(biāo)簽，對(duì)模型進(jìn)行訓(xùn)練，最后達(dá)到通過用電數(shù)據(jù)預(yù)測用戶類型的目的。常用的有監(jiān)督學(xué)習(xí)算法包括線性回歸、邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)SVM、決策樹、樸素貝葉斯算法等。

文獻(xiàn)[2]介紹了MIDAS項(xiàng)目開發(fā)的兩種檢測異常用電數(shù)據(jù)的方法：基于神經(jīng)網(wǎng)絡(luò)的方法和基于統(tǒng)計(jì)學(xué)的方法。在基于神經(jīng)網(wǎng)絡(luò)的方法中，作者先對(duì)用電客戶進(jìn)行聚類分析，減少需要分析的樣本數(shù)目，再通過算法找到嫌疑較大的用戶。

文獻(xiàn)[3]介紹了基于深度學(xué)習(xí)方法的異常用電檢測，作者使用了Tensor Flow構(gòu)建深度學(xué)習(xí)框架，并將算法與長短期記憶網(wǎng)絡(luò)（LSTM）進(jìn)行對(duì)比，驗(yàn)證了算法的優(yōu)越性。本文還將非技術(shù)性損失模型分為三類，除了大部分文獻(xiàn)都提到的基于統(tǒng)計(jì)學(xué)和基于數(shù)據(jù)驅(qū)動(dòng)的方法外，還提出了基于專家知識(shí)的模型。

文獻(xiàn)[4]作者使用了多分類SVM算法并且考慮到了電力公司與竊電者之間的博弈。作者認(rèn)為使用的數(shù)據(jù)集規(guī)模越小，用戶隱私的保密程度就越強(qiáng)，因此采樣率的選擇就轉(zhuǎn)化成了如何在隱私保密性和算法精度上進(jìn)行取舍。同時(shí)作者假定了算法分類器遭受到了最壞程度的攻擊，即假定竊電者在知曉分類算法規(guī)則的情況下進(jìn)行竊電活動(dòng)，此外竊電者還會(huì)通過修改數(shù)據(jù)的方式污染數(shù)據(jù)集。這樣的假設(shè)對(duì)的算法性能評(píng)估更加客觀，但是算法建立的過程難度會(huì)增大。

1.2 基于無監(jiān)督學(xué)習(xí)的異常用電檢測

與有監(jiān)督學(xué)習(xí)的過程相反，無監(jiān)督學(xué)習(xí)是我們把沒有標(biāo)簽數(shù)據(jù)集交給計(jì)算機(jī)進(jìn)行學(xué)習(xí)，讓計(jì)算機(jī)自己對(duì)數(shù)據(jù)進(jìn)行分類的過程。在異常用電檢測中，我們只給出用戶的用電數(shù)據(jù)，在不知曉用戶標(biāo)簽的情況下對(duì)用戶進(jìn)行分類。常用的無監(jiān)督學(xué)習(xí)算法有：K-均值算法、主成分分析法（PCA）、DBSCAN算法、BIRCH算法、限制玻爾茲曼機(jī)等。

文獻(xiàn)[5]提出了一種基于兩階段k-means聚類算法的異常用電檢測模型，通過灰色關(guān)聯(lián)分析法分析溫度和濕度兩個(gè)特征對(duì)電力負(fù)荷的影響，利用k-means算法對(duì)負(fù)荷模式進(jìn)行提取，最后將樣本的負(fù)荷曲線與標(biāo)準(zhǔn)負(fù)荷曲線進(jìn)行比較，計(jì)算每一個(gè)時(shí)刻預(yù)測值與實(shí)際值之間的歐氏距離，將這個(gè)距離進(jìn)行統(tǒng)計(jì)后從大到小排列，將排名靠前的幾個(gè)用戶列為嫌疑用戶并逐一進(jìn)行排查。文中提出的算法可以縮小嫌疑用戶范圍，但是只將溫度和濕度兩個(gè)相近特征進(jìn)行關(guān)聯(lián)性分析，對(duì)結(jié)果的影響有限，可以通過參考更多的特征來優(yōu)化模型。

文獻(xiàn)[6]使用DBSCAN聚類方法進(jìn)行異常用電檢測。文中將流式計(jì)算框架與DBSCAN聚類法結(jié)合到一起。流式計(jì)算框架具有動(dòng)態(tài)計(jì)算、在內(nèi)存中直接處理、在線數(shù)據(jù)處理三個(gè)特點(diǎn)，可以快速反映系統(tǒng)當(dāng)前的狀態(tài)。通過DBSCAN對(duì)于最近一段時(shí)間產(chǎn)生的歷史數(shù)據(jù)進(jìn)行聚類分析，當(dāng)新產(chǎn)生的數(shù)據(jù)達(dá)到一定規(guī)模時(shí)，替換部分歷史數(shù)據(jù)，重新進(jìn)行DBSCAN聚類分析，進(jìn)而形成新的聚類，達(dá)到在線檢測的效果，其實(shí)驗(yàn)結(jié)果證明，將流式計(jì)算與DBSCAN相結(jié)合具有和原始DBSCAN同樣的精度。該模型的優(yōu)勢(shì)在于可以通過分析實(shí)時(shí)性更強(qiáng)的數(shù)據(jù)，得到更具有參考價(jià)值的結(jié)果，也可以更快地確定嫌疑目標(biāo)。

文獻(xiàn)[7]通過重新定義樣本之間的密度關(guān)系改進(jìn)了k-means算法，使得k-means算法可以處理高維數(shù)據(jù)。使用了Hadoop平臺(tái)實(shí)現(xiàn)了云計(jì)算，利用并行處理技術(shù)可以同時(shí)處理大規(guī)模的數(shù)據(jù)。作者利用了k-means算法可以克服局部最優(yōu)解的優(yōu)勢(shì)，簡單高效地實(shí)現(xiàn)了大數(shù)據(jù)下的智能用電數(shù)據(jù)挖掘。但是仍然可以在k-means算法中的k值選擇處進(jìn)行相應(yīng)的優(yōu)化，使得算法的精度和速度更優(yōu)秀。

2 異常用電檢測中出現(xiàn)的問題

2.1 數(shù)據(jù)集的不平衡

目前很多帶標(biāo)簽的數(shù)據(jù)集都存在正常樣本與異常樣本的比例嚴(yán)重不平衡的情況，由于異常樣本的數(shù)量過少，對(duì)異常用電樣本進(jìn)行建模就變得很困難，對(duì)于這種情況，研究者們一般采用以下三種方法：對(duì)算法改進(jìn)使得可以適應(yīng)異常樣本過少的情況;只使用正常樣本進(jìn)行建模，將新的樣本與得到的模型進(jìn)行比較，差異較大的就是異常樣本;手動(dòng)平衡樣本，通過模擬異常樣本的特征，增加異常樣本的數(shù)量。以上三種方法雖然能一定程度上減輕數(shù)據(jù)集不平衡帶來的影響，但是仍然不及對(duì)優(yōu)秀的數(shù)據(jù)集進(jìn)行分析的效果更好。因此，更加平衡、高質(zhì)量的數(shù)據(jù)集在研究當(dāng)中是十分重要的一環(huán)。

2.2 用戶的消費(fèi)模式改變

大多數(shù)用戶的消費(fèi)模式都會(huì)隨著時(shí)間改變，工作日、周末、節(jié)假日這三個(gè)時(shí)間段用戶的生活方式會(huì)發(fā)生明顯的變化，因此這三個(gè)時(shí)間段的電力負(fù)荷也會(huì)呈現(xiàn)出不同的特征;再例如季節(jié)的改變，用戶在夏季和冬季的用電模式也會(huì)發(fā)生改變：夏天由于天氣熱，空調(diào)的使用以及熱水器的使用量會(huì)明顯增加，其用電量相比春季會(huì)提高;到了冬天，采暖設(shè)備的使用也會(huì)導(dǎo)致用戶的用電模式發(fā)生改變。以上這些變化都可以從用戶長期的用電數(shù)據(jù)中捕捉到，除了這些長期的改變，還有一些非時(shí)間因素的改變。例如用戶購置了新電器導(dǎo)致用電量發(fā)生了突變;家庭聚會(huì)導(dǎo)致某一天的用電量很大;用戶生病導(dǎo)致某幾天的用電量低于預(yù)期，這些因素都會(huì)或多或少影響著模型的搭建。

2.3 對(duì)于竊電者的分析

當(dāng)前大多數(shù)模型都是從用戶的歷史負(fù)荷數(shù)據(jù)來進(jìn)行建模，這種方法的好處是能清楚的了解大多數(shù)用戶的用電習(xí)慣，從而找到異常用電的個(gè)體，但是缺點(diǎn)是由于數(shù)據(jù)集不平衡特征的制約，沒有辦法詳細(xì)的分析竊電者的特征。我們可以參考文獻(xiàn)[4]，引入對(duì)抗性學(xué)習(xí)，充分地考慮了供電公司與竊電者之間的博弈，分析竊電者攻擊方式與攻擊策略的選擇，還可以把同一區(qū)域內(nèi)用戶之間的關(guān)系引入到模型之中，這樣更加有利于判斷竊電者所在的區(qū)域?；蛘邊⒖嘉墨I(xiàn)[1]，搭建竊電者模型去預(yù)測竊電者的竊電時(shí)間與竊電方式。

2.4 模型的泛化能力

不同的數(shù)據(jù)集記錄的用電數(shù)據(jù)大不相同，其數(shù)據(jù)的格式、記錄的特征數(shù)目、用戶所在的地理位置、用戶生活習(xí)慣、當(dāng)?shù)氐募竟?jié)更替時(shí)間都不同，因此僅通過一個(gè)數(shù)據(jù)集得到的模型其泛化能力是極為有限的，解決這一問題有兩個(gè)方向：一是獲得更高質(zhì)量，具有代表性的數(shù)據(jù)集，使其得到的模型也具有更強(qiáng)的代表性;二是在使用相同的計(jì)量設(shè)備的不同地區(qū)，獲得的用電數(shù)據(jù)，通過這些數(shù)據(jù)去進(jìn)行綜合性的分析。

3 結(jié)論

綜上，目前有關(guān)于異常用電行為的研究大多數(shù)聚焦于利用不同的機(jī)器學(xué)習(xí)手段從數(shù)據(jù)集中發(fā)現(xiàn)潛藏的異常用電數(shù)據(jù)。機(jī)器學(xué)習(xí)的各種算法已經(jīng)趨于成熟但是仍在不斷地有性能更強(qiáng)的算法出現(xiàn)，例如近些年來，在面對(duì)大數(shù)據(jù)處理時(shí)，深度學(xué)習(xí)這一領(lǐng)域的算法已經(jīng)越來越展示出在大數(shù)據(jù)下的優(yōu)越性能。因此異常用電檢測領(lǐng)域也會(huì)隨著算法的更新和更高質(zhì)量的數(shù)據(jù)集的出現(xiàn)而不斷更新。除了機(jī)器學(xué)習(xí)領(lǐng)域和統(tǒng)計(jì)學(xué)的應(yīng)用，博弈論與異常檢測的結(jié)合也會(huì)在異常用電檢測領(lǐng)域發(fā)揮更大的作用。

參考文獻(xiàn)：

[1]陳啟鑫，鄭可迪，康重慶，皇甫奮宇.異常用電的檢測方法：評(píng)述與展望[J].電力系統(tǒng)自動(dòng)化，2018（17）：189-199

[2]??igo Monedero，F(xiàn)élix Biscarri，Carlos León，Jesús Biscarri，Rocío Millán.MIDAS： Detection of Non-technical Losses in Electrical Consumption Using Neural Networks and Statistical Techniques[J].Lecture Notes in Computer Science Computational Science and Its Applications - ICCSA 2006，2006（05）：725-734.

[3]趙文清，沈哲吉，李剛.基于深度學(xué)習(xí)的用戶異常用電模式檢測[J].電力自動(dòng)化設(shè)備，2018（09）：34-38.

[4]Daisuke Mashima，Alvaro A.Cárdenas.Evaluating Electricity Theft Detectors in Smart Grid Networks[J].International Workshop on Recent Advances in Intrusion Detection，2012：210-229.

[5]張鐵峰，張靖.k_means兩階段用電異常檢測方法[J].電力科學(xué)與工程，2018（12）：25-31.

[6]王桂蘭，周國亮，趙洪山，米增強(qiáng).大規(guī)模用電數(shù)據(jù)流的快速聚類和異常檢測技術(shù)[J].電力系統(tǒng)自動(dòng)化，2016（24）：27-33.

[7]趙莉，候興哲，胡君，傅宏，孫洪亮.基于改進(jìn)k_means算法的海量智能用電數(shù)據(jù)分析[J].電網(wǎng)技術(shù)，2014（10）：2715-2720.

作者簡介：張紋碩（1995-），男，吉林長春人，研究生在讀，研究方向：機(jī)器學(xué)習(xí)在電力系統(tǒng)的應(yīng)用。