卿柏元,陳玨羽,李金瑾,蔣雯倩
(廣西電網(wǎng)有限責任公司計量中心,廣西南寧 530023)
電力系統(tǒng)中配電網(wǎng)的電能損失分為技術(shù)損失(Technical Loss,TL)和非技術(shù)損失(Non-technical Loss,NTL)[1],造成NTL 的原因多數(shù)與用戶側(cè)竊電相關(guān).竊電用戶的竊電非法行為不僅對電力公司造成巨大的經(jīng)濟損失、擾亂電力市場供電秩序,而且對電網(wǎng)安全穩(wěn)定運行造成巨大風險[2].因此,研究如何提高竊電檢測準確率,降低非技術(shù)損失,對于電力公司運營和社會發(fā)展具有重大價值與意義.
傳統(tǒng)的竊電檢測是利用人工現(xiàn)場稽查的方式對可疑用戶進行排查,需耗費巨大人力成本且效率低.隨著智能電網(wǎng)的發(fā)展,能源互聯(lián)網(wǎng)作為智能電網(wǎng)逐漸演變的產(chǎn)物,擁有能源和信息流雙向性的特征,而由智能電表、集中器、通信網(wǎng)絡(luò)及數(shù)據(jù)管理系統(tǒng)組成的高級量測體系(Advanced Metering Infrastructure,AMI)作為能源互聯(lián)網(wǎng)信息流的主要組成部分正逐步在電網(wǎng)建立與完善.隨著AMI的快速發(fā)展,使得利用智能電表的海量數(shù)據(jù)進行竊電檢測成為更加高效的檢測方式[3].在AMI 下利用智能電表數(shù)據(jù)對竊電行為進行檢測的方法可分為以下3類[1].
第1 類為基于電網(wǎng)狀態(tài)的檢測方法.該類方法通過分析配電網(wǎng)的拓撲結(jié)構(gòu),結(jié)合網(wǎng)絡(luò)潮流計算、系統(tǒng)狀態(tài)等理論,計算用戶數(shù)據(jù)的理論值,再與實際量測值比較,實時檢測竊電用戶[4].文獻[5]提出使用電力用戶的有功和無功功率歸一化殘差檢測和定位配電網(wǎng)中的異常用電.文獻[6]提出基于狀態(tài)估計和電源管理單元的竊電用戶檢測和定位模型,通過分析功率和電壓的量測值偏差對竊電嫌疑用戶定位.當前實際電網(wǎng)結(jié)構(gòu)和設(shè)備種類較多、數(shù)據(jù)復雜、計算難度大,電網(wǎng)完整的網(wǎng)絡(luò)拓撲和參數(shù)往往難以獲取,且在配電網(wǎng)中安裝額外設(shè)備輔助檢測,不僅安裝困難且需額外設(shè)備支出[7].
第2 類為基于博弈論的檢測方法.該類方法認為竊電用戶與電力公司之間存在博弈,且可從博弈均衡中獲得竊電用戶和正常用戶消費的不同分布[8].文獻[9]構(gòu)建納什均衡模型,建立竊電用戶集與供電企業(yè)間的Stackelberg 博弈.文獻[10]提出使用博弈論解決新型智能家居環(huán)境下的電力市場模型構(gòu)建問題,由于基于博弈論的方法側(cè)重于具有強大假設(shè)的理論分析,尚未得到實證的檢驗[8].
第3 類為基于人工智能檢測方法.該類方法是AMI 下最為廣泛的竊電行為檢測方法,可基于用戶負荷曲線和用電量的特征對竊電用戶識別[11].針對無標簽的用戶數(shù)據(jù),可采用基于聚類等無監(jiān)督學習的方法對竊電行為檢測,該類方法通過分析用戶間的用電關(guān)系發(fā)現(xiàn)離群點,以此作為依據(jù)對竊電行為進行檢測[12-13].而現(xiàn)階段基于無監(jiān)督學習的竊電檢測方法因其參數(shù)難以設(shè)置,從而無法達到較高的檢測精度,且難以處理大規(guī)模的高維數(shù)據(jù)[14].為克服無監(jiān)督學習方法不足,通過采用有監(jiān)督學習對帶有標簽的用戶歷史用電量數(shù)據(jù)進行學習,尋找異常用電模式,再對其他用戶進行竊電檢測.神經(jīng)網(wǎng)絡(luò)因其網(wǎng)絡(luò)訓練次數(shù)過多易出現(xiàn)過擬合[15],而當采用SVM 或決策樹方法時,若用電數(shù)據(jù)集中含有數(shù)據(jù)缺失等噪聲時檢測結(jié)果較差[16-18],對于用戶用電高維數(shù)據(jù),基于淺層結(jié)構(gòu)的模型無法有效檢測[19].上述基于有監(jiān)督學習方法均采用單一學習器進行竊電檢測,由于不同學習器預(yù)測結(jié)果可能存在差異,因此,基于單一學習器無法通過訓練獲取準確的檢測模型[20-21].文獻[22]采用XGboost集成學習方法檢測竊電行為,但是該方法在處理海量用電數(shù)據(jù)時,無法實現(xiàn)準確預(yù)測分類,且消耗內(nèi)存資源大,尤其在遍歷分割點時,需進行分裂增益計算,導致模型訓練時間較長.
本文針對電網(wǎng)中跨類雜糅竊電行為的快速、準確檢測難題,首先,對AMI下采集的用戶原始用電數(shù)據(jù)進行預(yù)處理,通過CNN 對預(yù)處理用電數(shù)據(jù)進行特征提??;再以決策樹為基學習器的LightGBM 集成學習方法對數(shù)據(jù)訓練獲得竊電檢測模型,據(jù)此建立基于卷積神經(jīng)網(wǎng)絡(luò)輕梯度提升機(Convolutional Neural Network-Light Gradient Boosting Machine,CNN-LG)模型的竊電行為檢測方法;最后通過國家電網(wǎng)數(shù)據(jù)集和愛爾蘭智能能源徑(Irish Smart Energy Trail,ISET)數(shù)據(jù)集分別對本文提出方法的準確性和有效性進行驗證與分析.
用戶用電數(shù)據(jù)時間序列特征的準確提取是實現(xiàn)竊電用戶識別的關(guān)鍵環(huán)節(jié).卷積神經(jīng)網(wǎng)絡(luò)由輸入、卷積層、池化層、全連接層及輸出層組成[23].CNN 模型框架如圖1 所示.CNN 擁有表征學習能力,對輸入數(shù)據(jù)能按其網(wǎng)絡(luò)結(jié)構(gòu)層層學習,基于CNN 提取特征效果明顯,對數(shù)據(jù)沒有額外的特征工程要求.因此,本文采用CNN對用戶用電數(shù)據(jù)特征自適應(yīng)提取.
由圖1 可知,卷積層為CNN 的核心組成模塊,由一組平行特征圖組成,通過卷積核對輸入特征圖進行卷積運算,得到輸出特征圖,該特征圖中所有元素均通過同一個卷積核計算,即權(quán)值和偏置項共享.卷積運算如下:
圖1 CNN模型框架Fig.1 Architecture of the CNN model
式中:x為卷積運算后得到的數(shù)據(jù).
池化層在CNN 中用于縮小模型體積,提高計算速度,同時提高所提取特征的魯棒性,在減少冗余特征量同時,保留用電行為主要特征,通過減少計算參量以達到降維效果,防止過擬合現(xiàn)象,提高模型泛化能力.實際上池化操作為一種下采樣操作,其操作包括最大池化、均值池化、隨機池化等.池化操作計算式為:
式中:a(u,v)表示池化層輸入矩陣中行列的值;p(i,j)表示池化層輸出矩陣第i行j列的值;w表示參與集合區(qū)域的邊值.
全連接層將CNN中最后一個池化層的所有神經(jīng)元進行全連接操作,其模型可表示為:
式中:x為全連接層的輸入;w為權(quán)值矩陣;b為偏置向量.全連接層起到所學到的分布式特征映射到樣本標記空間的作用.
LightGBM 由Ke 等于2017 年提出[24],該方法為Boosting 算法重要成員,屬于輕量級的提升決策樹(Gradient Boosting Decision Tree,GBDT)算法,以使用決策樹為學習算法的基分類器.LightGBM 主要提升GBDT 在處理高維度大數(shù)據(jù)時算法訓練效率和準確度,采用分布式的算法框架,支持高效率并行訓練,具有訓練速度快、內(nèi)存消耗低、準確度高及支持分布式計算以達到快速處理海量用戶用電數(shù)據(jù)的優(yōu)點.算法主要通過基于直方圖(Histogram)的決策樹算法、帶深度限制的按葉生長(Leaf-wise)策略、基于梯度的單邊采樣(Gradient-based one-side Sampling,GOSS)算法以及互斥特征捆綁(Exclusive Feature Bundling,EFB)算法進行優(yōu)化.
直方圖算法也稱為Histogram 算法,先把連續(xù)的浮點特征值離散化成k個整數(shù),同時構(gòu)造一個寬度為k的直方圖.直方圖算法示意圖如圖2所示.
圖2 直方圖算法示意圖Fig.2 Schematic diagram of Histogram algorithm
由圖2 可知,在遍歷數(shù)據(jù)時,根據(jù)離散化后的值作為索引在直方圖中累積統(tǒng)計量,當遍歷一次數(shù)據(jù)后,在直方圖中累積需要的統(tǒng)計量,再根據(jù)直方圖的離散值,遍歷尋找最優(yōu)的分割點.
LightGBM 算法使用按葉生長(Leaf-wise)策略,如圖3 所示.每次在當前葉子節(jié)點中,尋找出分裂增益最大的葉子節(jié)點進行分裂,而其他結(jié)點不再分裂,這樣可以提高精度,但缺點是可能會長出較深的決策樹,產(chǎn)生過擬合.為此,在Leaf-wise 上增加maxdepth 參數(shù)進行限制,以控制模型的復雜度,同時防止過擬合現(xiàn)象發(fā)生.
圖3 按葉生長(Leaf-wise)策略示意圖Fig.3 Schematic diagram of Leaf-wise tree growth strategy
LightGBM 通過基于梯度的單邊采樣算法減少數(shù)據(jù)量和互斥特征捆綁算法減少特征量以優(yōu)化模型訓練效率.基于梯度的單邊采樣算法,通過對樣本采樣的方法減少計算目標函數(shù)增益時的復雜度,在計算信息增益時,梯度更大的樣本點占有更重要的作用;在對樣本進行下采樣時,保留梯度較大的樣本點,并隨機去除梯度較小的樣本點.具體做法:首先,將樣本按照梯度排序,選出梯度最大的a×100%個樣本;在剩下小梯度數(shù)據(jù)中隨機選取b×100%個樣本,在計算信息增益時,將選出來的b×100%小梯度樣本的信息增益擴大1-a∕b的倍數(shù).互斥特征捆綁算法是將互斥特征綁在一起以減少特征維度,該算法可有效減少用于構(gòu)建直方圖的特征數(shù)量,降低計算復雜度,尤其當特征中包含大量稀疏特征時,LightGBM算法訓練速度提升更為明顯.
針對單一卷積神經(jīng)網(wǎng)絡(luò)模型,在竊電用戶分類預(yù)測應(yīng)用中存在功能單一導致準確率不足的問題,本文提出2 種模型的融合算法,通過LightGBM 代替卷積神經(jīng)網(wǎng)絡(luò)中的Softmax 層,使網(wǎng)絡(luò)中最后一層歸一化處理,變成對用電特征集成學習分類的優(yōu)化處理,從而實現(xiàn)竊電行為的準確識別.
為實現(xiàn)竊電行為準確檢測,采用CNN 提取時間序列的關(guān)聯(lián)特征,將CNN 結(jié)構(gòu)中Softmax 層用Light-GBM 代替,構(gòu)建基于CNN-LG 的竊電行為檢測方法.CNN-LG 竊電行為檢測模型如圖4 所示,實現(xiàn)步驟如下.
圖4 CNN-LG竊電行為檢測模型Fig.4 CNN-LG electricity theft behavior detection model
1)將初始化卷積神經(jīng)網(wǎng)絡(luò)用預(yù)處理后的數(shù)據(jù)集通過兩個卷積層和兩個池化層進行預(yù)訓練,并將訓練好的權(quán)重固定,保存CNN模型參數(shù).
2)將預(yù)處理后數(shù)據(jù)分為訓練集、驗證集和測試集.
3)設(shè)置網(wǎng)絡(luò)訓練迭代次數(shù),利用訓練集對網(wǎng)絡(luò)進行訓練,輸出每次迭代的準確率,并與全局準確率比較,若準確率更高則更新權(quán)重,否則不更新.
4)利用已經(jīng)訓練完成的卷積神經(jīng)網(wǎng)絡(luò)對用電數(shù)據(jù)集進行特征提取.
5)將步驟4)中提取的特征輸入至LightGBM 模型,首先初始化n棵分類決策樹,其中訓練樣例的權(quán)重為1∕n;訓練弱分類器f(x),根據(jù)訓練誤差確定當前弱分類器f(x)的權(quán)重λ;當達到最大迭代次數(shù),訓練得到最終分類器,如式(5)所示.
式中:n為算法迭代次數(shù);i為第i次迭代,0≤i≤n.將測試集輸入至訓練完成的CNN-LG 模型中,以此獲得檢測結(jié)果.
本文提出的CNN-LG 算法流程圖如圖5 所示.該算法有效利用卷積神經(jīng)網(wǎng)絡(luò)可自適應(yīng)提取特征,且對數(shù)據(jù)無額外特征工程要求的優(yōu)點,結(jié)合Light-GBM 具有并行訓練效率高、訓練速度快、內(nèi)存消耗低、準確度高的優(yōu)勢,對國家電網(wǎng)中海量用戶用電數(shù)據(jù)進行竊電行為檢測.CNN-LG 模型參數(shù)設(shè)置如表1所示.
表1 CNN-LG模型參數(shù)設(shè)置Tab.1 CNN-LG model parameter setting
圖5 CNN-LG算法流程圖Fig.5 CNN-LG algorithm flow chart
采用2 種不同數(shù)據(jù)集驗證本文提出方法的有效性和準確性.第1 種是國家電網(wǎng)(State Grid Corporation of China,SGCC)公開數(shù)據(jù)集,該數(shù)據(jù)集包含正常用戶和竊電用戶,提供是否竊電的標簽[25-26].第2 種為ISET 數(shù)據(jù)集,該數(shù)據(jù)集被認為只包含正常用戶.本文通過篡改用電數(shù)據(jù)以模擬用戶竊電,其中選取6種模式對正常數(shù)據(jù)進行模擬竊電攻擊模式.
SGCC 數(shù)據(jù)集由中國國家電網(wǎng)提供某地區(qū)的用戶用電數(shù)據(jù),該數(shù)據(jù)集包含從2014 年1 月—2016 年10月,近147周42 372個用戶每天的用電量.該數(shù)據(jù)集分為正常用戶和竊電用戶,其中竊電用戶為3 615個,占總用戶數(shù)的8.53%;正常用戶為38 757個,占總用戶數(shù)的91.47%.
對SGCC 數(shù)據(jù)集進一步分析得到正常用戶和竊電用戶電量值分別如圖6和圖7所示.由圖6(a)和7(a)可知,很難發(fā)現(xiàn)以天為單位的正常用戶日用電量和竊電用戶日用電量的用電規(guī)律;由圖6(b)和7(b)可知,正常用戶日用電量趨勢大致相同,即第3 d 用電量為峰值,第5 d 用電量為谷值;竊電用戶在前些周日用電量呈一定幅度的周期性波動,而從某周開始竊電用戶的日用電量隨時間變化呈下降趨勢,并維持在較低用電量水平,且該147 周數(shù)據(jù)呈現(xiàn)類似規(guī)律.進一步提煉竊電用戶行為特征可知,竊電用戶初始用電量相比正常用戶更多(正常用戶日用電量為2~4 kWh,竊電用戶日用電量為10~40 kWh),由此可知,竊電用戶竊電行為收益更大、竊電動機更足.
圖6 正常用戶的電量圖Fig.6 Power consumption graph of normal users
圖7 竊電用戶的電量圖Fig.7 Power consumption graph of theft users
為進一步挖掘竊電用戶和正常用戶間用電量的區(qū)別,本文采用Pearson 相關(guān)系數(shù)進行分析,計算式如下:
圖8 2種用戶的相關(guān)系數(shù)矩陣Fig.8 Pearson correlation coefficient of two kinds of users
ISET 數(shù)據(jù)集由愛爾蘭CER(The Commission for Energy Regulation)組織的Electricity Customer Behaviour Trial 提供,該組織通過智能電表記錄居民和商業(yè)共5 000 個用戶,從2009 年—2010 年共533 d 的用電數(shù)據(jù)[27].該數(shù)據(jù)集提供各用戶每天每半小時用電量,可用向量X=[x1,x2,…,x48]代表某個用戶一天的用電量情況,該數(shù)據(jù)集被認為全部是正常用戶的用電量數(shù)據(jù).為了對竊電檢測模型進行訓練,本文采用6 種攻擊模式對該數(shù)據(jù)集進行篡改,模擬產(chǎn)生竊電行為[28].該6種篡改模式數(shù)學式如表2所示.其中,類型1 表示所有讀數(shù)乘以相同的隨機生成的參數(shù)(0.2~0.8);類型2 表示電表讀數(shù)乘以不同的隨機數(shù)αt;類型3 表示電表在t1-t2時間段內(nèi)發(fā)送其抄表數(shù),并在其他時間段發(fā)送零,t1-t2是一個隨機定義的超過6 h 的時間段;類型5 表示電表將當天計量數(shù)據(jù)的平均值發(fā)送到數(shù)據(jù)管理系統(tǒng);類型4在類型5的基礎(chǔ)上乘以隨機因子αt;類型6表示竊電用戶顛倒一天中的抄表順序.
表2 6種篡改模式Tab.2 Six types of malicious samples
對任何企圖竊電的用戶來說,其目的是減少或消除自己所需支付的電費.設(shè)在t時段,經(jīng)過篡改后電表所記錄的用戶用電量為xt,對應(yīng)時刻的單位電價為pt,而用戶實際的用電量為,則
即篡改后的電費較原來更低.
用電用戶可能會將某些時刻的電表讀數(shù)直接篡改為0,或按一定比例削減自己的用電量,也有可能在不改變總體用電量的同時對用電曲線進行移峰,以取得如式(7)所示的效果.6 種攻擊模式下產(chǎn)生的用電量曲線如圖9所示.
圖9 6種攻擊模式下產(chǎn)生的用電量曲線Fig.9 Electricity curve generated by six attack modes
智能電能表采集的用戶用電量數(shù)據(jù)中可能包含錯誤數(shù)據(jù)或有數(shù)據(jù)缺失,因此需對缺失數(shù)據(jù)進行補值處理,本文采用牛頓差值法對采集數(shù)據(jù)的缺失值進行處理.已知n個點對(x1,y1),(x2,y2),…,(xn,yn)的所有階差商式分別為:
聯(lián)立式(8)~式(11),建立差值多項式f(x),有
式中:P(x)表示牛頓差值逼近函數(shù);R(x)表示誤差函數(shù).將缺失點x代入f(x)求得缺失值.
針對智能電能表采集的錯誤值(即離群點值),本文采用3σ定律對離群值進行修復,計算式如下:
式中:σ(Xi)為向量Xi的標準差;xi為某用戶在一個周期內(nèi)的用電量值;NaN 表示xi為非數(shù)值符號或0 時的情況.
為平衡樣本數(shù)據(jù),本文采用隨機過采樣方法,通過復制少數(shù)類示例來平衡數(shù)據(jù),以消除數(shù)據(jù)不平衡帶來的影響.
竊電行為檢測本質(zhì)上為二元分類問題,當算法完成對用戶的分類后,需對檢測方法的準確性進行評估.混淆矩陣是衡量方法優(yōu)劣的重要工具,表3 為竊電行為檢測中的混淆矩陣.
表3 竊電行為檢測中的混淆矩陣Tab.3 Confusion matrix in the detection of electricity theft
混淆矩陣將所有被檢測用戶按照實際歸屬和檢測歸屬分為TP、FN、FP和TN這4類,TP和TN為模型檢測下正確分類的部分,比例越高說明檢測效果越好.命中率TPR和誤檢率FPR計算式分別如下:
由式(14)和式(15)可知,TPR越接近1,F(xiàn)PR越接近0,說明檢測效果越好.通過表3 的混淆矩陣定義召回率(Recall)、精度(Precision)以及F1值,對應(yīng)式(16)~式(18)所示.
式中:Recall表示在實際為正的樣本中被預(yù)測為正樣本的概率.
式中:Precision表示被分為正例的樣本中實際為正例的比例;F1表示使用調(diào)和平均結(jié)合召回率和精度的指標.
ROC 曲線下區(qū)域面積AUC(Area Under ROC Curve)可通過接收者操作特征曲線(Receiver Operating Characteristic,ROC)下的各部分面積和求得,AUC值越大越好,當AUC=1 時為理想分類器.AUC計算式如下[25]:
式中:Ranki代表樣本i的排序值;M為正樣本的個數(shù);N為負樣本的個數(shù).
平均精度均值MAP(Mean Average Precision)用于評估模型檢測性能.MAP@N定義為在前N個嫌疑度最高的用戶中,檢測模型正確識別為竊電用戶的平均精度均值[25],即
式中:r代表在前N個嫌疑度最高的用戶中竊電用戶的數(shù)量.P@ki定義為:
式中:Yki表示在前k個嫌疑度最高的用戶中正確識別竊電用戶的數(shù)量;ki(i=1,2,3,…,r)表示k的位置,本文采用MAP@100和MAP@200作為評價指標.
為驗證本文提出算法的有效性和準確性,實驗平臺采用64 位6 核心十二線程的Intel Core i7-8750H CPU@2.20 GHz,深度學習框架采用Tensor-Flow 和Keras.實驗數(shù)據(jù)為基于中國國家電網(wǎng)(SGCC)公開數(shù)據(jù)集和ISET公開數(shù)據(jù)集,具體介紹詳見本文第2 節(jié).本文通過對CNN、LightGBM(該方法簡稱LG)、CNN+隨機森林(CNN 用于特征提取,隨機森林用于分類,該方法簡稱CNN-RF)[29]、CNN+XGboost(CNN用于特征提取,XGboost用于分類,該方法簡稱CNN-XG)以及本文方法進行比較.
針對SGCC數(shù)據(jù)集的檢測試驗,各模型輸入項為經(jīng)預(yù)處理后的數(shù)據(jù)集.本文隨機選取50%輸入數(shù)據(jù)作為訓練樣本(其中40%作為訓練集,10%作為驗證集),余下50%數(shù)據(jù)作為測試樣本.基于SGCC 數(shù)據(jù)集下不同竊電檢測方法的結(jié)果如表4所示.
表4 基于SGCC數(shù)據(jù)集下不同竊電檢測方法的結(jié)果Tab.4 Results of different electrical theft detection methods based on the SGCC dataset
由表4可知,本文采用的CNN-LG竊電行為檢測模型在SGCC 數(shù)據(jù)集下各項指標均優(yōu)于其他幾種方法,在CNN 和LightGBM 模型基礎(chǔ)上檢測精度均有一定提升,其中F1值達到0.894 17,MAP@100為0.990 29;AUC值由原CNN 的0.792 08 和LightGBM 的0.744 77提升至0.863 33.由此可知,本文提出方法有效利用二者優(yōu)點,實現(xiàn)竊電行為準確檢測,且CNN 和Light-GBM 模型融合相比于CNN 與其他兩種集成學習方法融合檢測效果更好.采用ROC 曲線對所有方法的實驗結(jié)果進行可視化描述,如圖10 所示,在ROC 空間坐標中,越靠近左上的ROC 曲線意味著在同樣的檢測命中率下造成的誤檢率(FPR)越低,檢測效果越好;AUC為ROC 曲線下的各部分面積和,其值為竊電檢測非常重要的評價指標,本文提出的基于CNN-LG模型的竊電行為檢測方法AUC值表現(xiàn)優(yōu)于其他方法.
圖10 SGCC數(shù)據(jù)集下不同方法的ROC曲線Fig.10 The ROC curve of different methods under the SGCC dataset
竊電行為的快速檢測為電力公司現(xiàn)場稽查提供依據(jù).對本文提出的CNN-LG 竊電行為檢測模型的實時性進行驗證,隨機選取SGCC 數(shù)據(jù)集50%作為實驗數(shù)據(jù),通過與CNN-XG、CNN-RF 以及CNN-LG 3 種融合模型訓練時間進行比較,其中CNN 訓練模型的迭代次數(shù)為10.各方法的實驗結(jié)果如圖11 所示,由圖11 可見,CNN-XG 模型、CNN-RF 模型、CNN-LG模型訓練時間分別為93.86 s、81.74 s、42.47 s.由此可知,本文提出方法的模型訓練時間遠低于其他兩種方法,在實際電網(wǎng)環(huán)境下的數(shù)據(jù)集中實時性表現(xiàn)更好.
圖11 SGCC數(shù)據(jù)集下不同方法的模型訓練時間Fig.11 The model training time of different methods under SGCC dataset
針對ISET 數(shù)據(jù)集的檢測試驗,在用戶533 d 的樣本中隨機選擇50%的樣本,采用表2中的6種竊電手段,隨機選擇50%數(shù)據(jù)作為訓練集(其中40%作為訓練集,10%作為驗證集),剩余50%數(shù)據(jù)作為測試集,以驗證模型的有效性.基于ISET 數(shù)據(jù)集下不同竊電檢測方法的結(jié)果如表5所示.
表5 基于ISET數(shù)據(jù)集下不同竊電檢測方法的結(jié)果Tab.5 Results of different electrical theft detection methods based on the ISET dataset
由表5可知,本文采用的CNN-LG竊電行為檢測模型在ISET 數(shù)據(jù)集下各項指標均優(yōu)于其他幾種方法,在CNN 和LightGBM 模型基礎(chǔ)上檢測精度均有一定提升,其中F1值達到0.877 75,MAP@100為1,MAP@200為0.992 16;AUC值由原CNN 的0.837 31 和LightGBM 的0.783 84提升至0.963 44,提升效果明顯,而CNN-RF的AUC值為0.935 25,CNN-XG 的AUC值為0.958 41,由此可知,CNN和LightGBM 模型融合相比于CNN與其他兩種集成學習方法融合檢測效果更好.采用ROC曲線對所有方法的實驗結(jié)果進行可視化描述,如圖12 所示,可明顯看出,本文提出方法的AUC值表現(xiàn)優(yōu)于其他方法.
圖12 ISET數(shù)據(jù)集下不同方法的ROC曲線Fig.12 The ROC curve of different methods under the ISET dataset
對本文提出的基于CNN-LG 模型竊電行為檢測方法的實時性進行驗證,隨機選擇經(jīng)篡改后的ISET數(shù)據(jù)集50%數(shù)據(jù)作為實驗數(shù)據(jù),通過與CNN-XG、CNN-RF 以及CNN-LG 3 種融合模型訓練時間進行比較,其中CNN 訓練模型的迭代次數(shù)為10.圖13 為ISET 數(shù)據(jù)集下不同方法的模型訓練時間,其中CNN-XG 模型訓練時間為16.37 s,CNN-RF 模型訓練時間為14.84 s,CNN-LG模型的訓練時間為10.76 s.由此可知,本文提出方法的模型訓練時間遠低于其他兩種方法,在ISET數(shù)據(jù)集中實時性表現(xiàn)更好.
圖13 ISET數(shù)據(jù)集下不同方法的模型訓練時間Fig.13 The model training time of different methods under ISET dataset
通過上述2 種不同數(shù)據(jù)集的實驗可知,本文提出的基于CNN-LG 模型竊電行為檢測方法在實際電網(wǎng)數(shù)據(jù)集下檢測準確度高,相比于其他幾種方法,各項評價指標均更優(yōu),表現(xiàn)出良好的泛化性能,且該融合模型相比于其他融合模型實時性更好.
本文提出基于CNN-LG 模型的竊電行為檢測方法,實現(xiàn)了竊電行為的快速準確檢測,通過國家電網(wǎng)和ISET 兩種不同實際電網(wǎng)數(shù)據(jù)集對本文所提方法進行實驗驗證.結(jié)果表明,通過卷積神經(jīng)網(wǎng)絡(luò)和LightGBM 的融合模型可有效利用二者優(yōu)點對竊電行為進行快速準確檢測,該模型可從用戶用電數(shù)據(jù)準確提取電力特征,避免人為特征提取的不確定性和復雜性.LightGBM 用于分類預(yù)測,進一步提高檢測準確度,通過減少數(shù)據(jù)量和特征量提高檢測效率,降低內(nèi)存占用率以達到快速檢測效果,且擁有更小的計算復雜度,在保證高效率的同時防止過擬合現(xiàn)象的出現(xiàn),相比于現(xiàn)有單模型和融合模型方法,表現(xiàn)出更高準確度、良好的泛化性能以及更好的實時性.本文提出方法更適用于電網(wǎng)中各類竊電行為檢測,有助于提高電力公司稽查效率,為電力公司在對非法用戶竊電行為現(xiàn)場稽查取證時,提供有效的依據(jù)和可靠的目標.