田 野,張 程,毛昕儒,劉 驥
(1.重慶大學(xué) 計算機學(xué)院, 重慶 400044; 2.國網(wǎng)重慶永川電力公司, 重慶 402160)
運用PCA改進BP神經(jīng)網(wǎng)絡(luò)的用電異常行為檢測
田 野1,張 程1,毛昕儒2,劉 驥1
(1.重慶大學(xué) 計算機學(xué)院, 重慶 400044; 2.國網(wǎng)重慶永川電力公司, 重慶 402160)
針對目前用戶用電行為和異常檢測的傳統(tǒng)方式所遇到的資源耗費、效率低下、檢測困難等問題,結(jié)合數(shù)據(jù)挖掘技術(shù)設(shè)計實現(xiàn)了適用于大規(guī)模用電數(shù)據(jù)挖掘的算法,并建立了有效的異常特征提取模型。通過使用基于統(tǒng)計的特征提取方式確定異常指標(biāo),并使用主成分分析方法對特征數(shù)據(jù)降維,進行異常用電信息的分析、辨識和處理,之后對處理后的用電數(shù)據(jù)建立BP神經(jīng)網(wǎng)絡(luò)完成用電異常行為檢測。檢測結(jié)果表明:該方法可以有效地提取出用電行為特征,并且能有效用于用電異常檢測。
用電行為;異常檢測;特征提?。恢鞒煞址治?;神經(jīng)網(wǎng)絡(luò)
隨著電網(wǎng)系統(tǒng)信息化程度的不斷提高和用戶用電數(shù)據(jù)量的迅速增長,各類電網(wǎng)裝置及系統(tǒng)都有大量的數(shù)據(jù)要處理,數(shù)據(jù)規(guī)模龐大,蘊含的事件信息種類繁多。然而,從大量價值密度較低的數(shù)據(jù)中挖掘出有價值的信息仍是電力企業(yè)面臨的重要問題[1]。同時,由于通信、設(shè)備故障、電網(wǎng)波動以及用戶異常用電行為等原因,出現(xiàn)了大量數(shù)據(jù)異常的現(xiàn)象,這些異常數(shù)據(jù)影響了電能數(shù)據(jù)的準(zhǔn)確性。因此,本文針對上述問題研究適用于大數(shù)據(jù)的用戶用電行為分析方法,并建立一個有效的異常發(fā)現(xiàn)模型。
早期對于設(shè)備故障產(chǎn)生的用電異常多采用的是現(xiàn)場檢測方法,即技術(shù)人員到用電現(xiàn)場進行排查。這種處理方式極其耗費人力、物力資源,效率低、效果差,而且很難獲取計量設(shè)備的電壓、電流、功率等瞬時量數(shù)據(jù)[2]。同時,這種方式還存在極大的人為因素,不利于電力行業(yè)的管理。近年來,國內(nèi)外專家學(xué)者提出了一些基于數(shù)據(jù)挖掘技術(shù)和智能優(yōu)化算法的用電異常檢測方法,其中人工神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域興起的研究熱點。
本文以用戶日常用電行為檢測為主,以提取數(shù)據(jù)有用特征和提高分類精度為主要目的,結(jié)合數(shù)據(jù)挖掘的方法解決時序數(shù)據(jù)分類的問題,實現(xiàn)用電異常檢測的概率預(yù)警。該方法降低了電網(wǎng)公司檢測分析的時間及成本,提高了異常檢測精確度及工作效率,具有重大的經(jīng)濟效益。
1.1 智能電網(wǎng)的發(fā)展
一般的用電異常指標(biāo)分為線損異常和瞬時量異常兩類。早期的用電異常檢測辦法是確定各個用電異常指標(biāo)以及每個異常指標(biāo)的閾值,并其賦予不同的權(quán)重分值,累加后計算每個用戶的竊電嫌疑系數(shù)[3]。即根據(jù)這些異常指標(biāo)設(shè)計竊電識別模型,通過計算嫌疑系數(shù)來識別竊電用戶。然而這類異常數(shù)據(jù)大多由設(shè)備故障產(chǎn)生,需要到現(xiàn)場檢測排查,導(dǎo)致效率太低且不利于統(tǒng)計管理。
近年來,隨著智能電網(wǎng)的高速發(fā)展建設(shè),智能電表的快速普及,使得電網(wǎng)能夠更方便、更準(zhǔn)確地獲取并查詢用戶的用電信息。它利用現(xiàn)代網(wǎng)絡(luò)通信技術(shù)進行信息海量交互,實現(xiàn)電網(wǎng)設(shè)備間的信息交換,并自動完成信息采集、測量和檢測等基本功能,有利于現(xiàn)代化管理,并方便用于數(shù)據(jù)挖掘分析。
1.2 用電行為分析
國內(nèi)外許多專家學(xué)者對用戶用電行為特征進行了大量研究。近年來,一些基于數(shù)據(jù)挖掘技術(shù)和智能優(yōu)化算法的異常檢測方法相繼提出,包括決策樹、模糊C均值、人工神經(jīng)網(wǎng)絡(luò)、負荷模式、SVM、OPF分類以及極限學(xué)習(xí)機等。
1.2.1 異常檢測算法相關(guān)研究
謝濤等[4]針對非法用電行為構(gòu)建線性方程組數(shù)學(xué)模型,提出了基于智能電表的分布式檢測方法。簡富俊等[5]使用單類SVM無監(jiān)督機器學(xué)習(xí)架構(gòu)對電力用戶負荷異常進行檢測,在小樣本及樣本分類不均衡環(huán)境下提高檢測的準(zhǔn)確性。馮曉蒲等[6]使用模糊C均值算法對其進行聚類分析,得到負荷簇和負荷代表曲線,分析了屬于各行業(yè)和電價類的用戶負荷聚類結(jié)果。林嘉暉[7]構(gòu)建了適用于電網(wǎng)企業(yè)的用戶行為分析系統(tǒng)并實現(xiàn)了部分數(shù)據(jù)挖掘算法,能夠?qū)Υ罅坑脩魯?shù)據(jù)進行分析。
Cabral等[8]提出了一種基于粗糙集的異常用電檢測統(tǒng)計方法。Nagi等[9]提出一種基于改進SVM的異常檢測模型,并使用包含知識和專家意見的模糊推理系統(tǒng)。Ramos等[10]提出一種基于和聲搜索算法和OPF分類的混合特征選擇算法,并成功應(yīng)用到電力系統(tǒng)。Pereira等[11]提出一種利用電場算法訓(xùn)練多層感知機的人工神經(jīng)網(wǎng)絡(luò)方法。
1.2.2 特征提取方法研究現(xiàn)狀
現(xiàn)有的時間序列特征提取的方法有分別基于統(tǒng)計方法、模型、變換和分形維數(shù)的特征提取。 基于統(tǒng)計特征的提取就是提取數(shù)據(jù)波形的均值、方差等統(tǒng)計特征來代表原有的時序數(shù)據(jù)作為特征矢量;而基于變換的特征提取方法包括SVD、主成分分析(PCA)和線性判別式分析等。其中,利用PCA方法的變換可以在信息損失最小的前提下,用較少的分量來代替原來的高維數(shù)據(jù),達到降維的效果[12]。
楊光[13]使用BP神經(jīng)網(wǎng)絡(luò)算法建立異常用電檢測模型,然而該模型缺乏數(shù)據(jù)特征提取過程,不能用于本實驗含有大量噪聲和隨機性的時序數(shù)據(jù)。胡殿剛等[14]在訓(xùn)練數(shù)據(jù)前做了基于CFS方法的特征選擇過程,但由于數(shù)據(jù)類型的差異,在本實驗中不能取得很好的效果,所以需要針對本實驗數(shù)據(jù)集提出更合適的特征提取方法。
1.3 BP神經(jīng)網(wǎng)絡(luò)技術(shù)
人工神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域興起的研究熱點。近幾年,BP神經(jīng)網(wǎng)絡(luò)的研究工作不斷深入,在許多實際應(yīng)用領(lǐng)域中取得了很大的進展,成功地解決了許多現(xiàn)代計算機難以解決的實際問題,表現(xiàn)出了良好的智能特性。目前,在手寫字體的識別、語音識別、文本—語言轉(zhuǎn)換、圖像識別以及生物醫(yī)學(xué)信號處理方面已有實際的應(yīng)用[15]。
BP神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
BP網(wǎng)絡(luò)具有很強的非線性映射能力,而且網(wǎng)絡(luò)的中間層數(shù)、各層神經(jīng)元個數(shù)及網(wǎng)絡(luò)的學(xué)習(xí)系數(shù)等參數(shù)可以根據(jù)實際情況設(shè)定,有很大的靈活性,經(jīng)過學(xué)習(xí)能夠把樣本隱含的特征和規(guī)則分布在神經(jīng)網(wǎng)絡(luò)的連接權(quán)上。
隨著電力系統(tǒng)升級、智能電力設(shè)備的普及,國家電網(wǎng)公司可以實時收集海量的用戶用電行為數(shù)據(jù)。如圖2所示,為國家電網(wǎng)搜集到的2015年全年近10 000個用戶的每日用電量數(shù)據(jù)表。其中,用戶日用電量表記錄了所有用戶每日用電量千瓦時、當(dāng)天及前一天的總用電量表示值,每個用戶擁有一組維度為334的時序數(shù)據(jù)。用戶清單確定了用戶標(biāo)識信息,提供了對應(yīng)編號用戶是否為用電異常用戶的標(biāo)識。
圖2 用戶部分用電數(shù)據(jù)實例
2.1 特征提取方法
本文結(jié)合已獲取的用戶用電時序數(shù)據(jù),使用基于統(tǒng)計特征和基于PCA變換的提取方法,對用電數(shù)據(jù)建立特征提取模型。首先對用戶用電數(shù)據(jù)中的噪聲干擾進行清洗處理;然后確定出各類統(tǒng)計特征指標(biāo);最后采用PCA方法對用電數(shù)據(jù)特征降維。
2.2 數(shù)據(jù)清洗
數(shù)據(jù)清洗過程用于發(fā)現(xiàn)并糾正數(shù)據(jù)集中可識別的錯誤,包括檢查數(shù)據(jù)一致性、處理無效值和缺失值等。不符合要求的數(shù)據(jù)主要分為殘缺數(shù)據(jù)、錯誤數(shù)據(jù)、重復(fù)數(shù)據(jù)3類。
首先,對本實驗所用的數(shù)據(jù)集做歸一化處理后計算所有用戶同一天用電量的均值,并得出一年用電量的平均走勢圖,如圖3所示。圖4為每個用戶一年的用電量走勢。從圖中可以看出:數(shù)據(jù)集中用戶在10月份的用電量數(shù)據(jù)均有大部分缺失,故在數(shù)據(jù)處理時去除10月份的時序片段。
圖3 所有用戶全年平均用電走勢
圖4 所有用戶全年用電量時序
然后,在對原始數(shù)據(jù)集的觀察中得知:有部分用戶全年的日用電量數(shù)據(jù)大部分為0或者缺失,如圖5所示。這類用戶數(shù)據(jù)信息殘缺嚴重,在對數(shù)據(jù)特征提取階段會造成一定干擾,所以需要去除這類殘缺用戶的數(shù)據(jù)。本實驗定義當(dāng)單個用戶的日用電數(shù)值為0或缺失的天數(shù)占全年時間的60%以上時認為該用戶為殘缺用戶。
對于數(shù)據(jù)缺失量低于60%的用戶,通過計算缺失位置前后兩天的均值來做填充補全處理。
圖5 部分用戶的大量缺失數(shù)據(jù)
2.3 建立統(tǒng)計特征
參考用戶用電行為相關(guān)研究并結(jié)合實際用電數(shù)據(jù)分析,本文首先對用電行為特征在時間上以年、季度、月份為單位劃分,并計算每個用戶的單位時間均值、標(biāo)準(zhǔn)差和離散系數(shù)序列;然后在用電走勢上大致分為變動趨勢、波動趨勢、升降趨勢3種趨勢類型?;诮y(tǒng)計方法提取的特征如表1所示。
表1 統(tǒng)計特征指標(biāo)
假設(shè)本實驗所用到的數(shù)據(jù)集為X={xn,n=1,…,N},數(shù)據(jù)集中包含N個日常用電用戶,每個用戶劃分為D天、M個月、Q個季度的用電數(shù)據(jù),則:
每個用戶的日用電量序列:
xn={xnd,d=1,…,D}
月用電量序列:
季度用電量序列:
2.3.1 波動趨勢
在統(tǒng)計中標(biāo)準(zhǔn)差被用來評估序列可能的變化或波動程度,標(biāo)準(zhǔn)差越大,數(shù)值波動的范圍就越大。所以,這里計算用電量標(biāo)準(zhǔn)差std來表示用電數(shù)據(jù)的波動特征。同時,計算用電離散系數(shù)cv來衡量用戶用電的離散程度。令某一時間段用電平均值為μ,則用電量標(biāo)準(zhǔn)差:
(1)
用電離散系數(shù):
cv=std/μ
(2)
2.3.2 變動趨勢
變動性特征是指用戶用電量的前后差異性度量,即由某一時間段與前一相鄰時間段的平均用電量比較,其差值和比值來反映用電量變動的快慢程度。定義計算方式如下:
相鄰k月或k季度用電均值的差值:
(3)
相鄰k月或k季度用電均值的比值:
(4)
2.3.3 升降趨勢
上升下降趨勢特征是指通過根據(jù)用戶連續(xù)幾日的用電量做出下一次用電量的預(yù)測,并與下一次實際用電量比較,得出上升或下降的可能性。這里使用簡單移動平均法來確定升降趨勢的特征向量。簡單移動平均法根據(jù)時間序列逐項推移,依次計算固定項數(shù)的一組平均值,并作為下一次的預(yù)測值。令k為移動項數(shù),t時刻實際值為xnt,則升降特征的計算方法得
t時刻預(yù)測值:
Ft=(xn(t-1)+xn(t-2)+…+xn(t-k)/k
(5)
t時刻升降趨勢:
tr=xnt-Ft
(6)
若tr<0,則表明用電趨勢下降;若tr>0,則用電趨勢上升。
2.4 主成分分析
在進行時序數(shù)據(jù)的特征提取的過程中,提取的特征維數(shù)太多會導(dǎo)致特征在匹配時過于復(fù)雜,消耗系統(tǒng)資源,因此需要對數(shù)據(jù)進行特征降維,將高緯度的特征經(jīng)過某種函數(shù)映射至低緯度作為新的特征。
主成分分析(PCA,principal component analysis)就是一種常用的數(shù)據(jù)降維方法。PCA算法通過提取數(shù)據(jù)的主要特征分量,將高維數(shù)據(jù)投影到較低維空間,將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,使得處理數(shù)據(jù)的時間和費用大大降低。另一方面,由于各主成分是相互垂直的,所以增大了類間距,減小了類內(nèi)差異,可提高分類精度。
對于n維向量的m個樣本值,形成一個m×n的矩陣X。將X的每一列減去對應(yīng)該列的均值得X′,再計算它的協(xié)方差矩陣C。然后求出協(xié)方差矩陣C的特征值λ及對應(yīng)的特征向量V:
CV=λV
(7)
將特征值由大到小排列:λ=[λ1,λ2, …,λn],并取前k個特征值對應(yīng)的特征向量,得到一個n×k的矩陣A。計算:Ym×k=Xm×nAn×k,Y即為降維到k維后的新特征數(shù)據(jù)。
在PCA算法中,對于新的特征維度k值的確定,需要進一步分析每個主成分對信息的貢獻。如果取的k值小,則數(shù)據(jù)的維數(shù)低,便于分析,同時也降低了噪聲,但可能丟失一些有用的信息。所以定義主成分貢獻率r作為k的取值標(biāo)準(zhǔn)。貢獻率是指主成分對應(yīng)的特征值在整個數(shù)據(jù)中承擔(dān)的比重,當(dāng)取前k個主成分來代替原始數(shù)據(jù)特征時,累計貢獻率的大小反映了新特征的可靠性,累計貢獻率越大,則可靠性越大。本實驗要求選取的新特征的累計貢獻率達95%以上,即:
(8)
3.1 異常檢測模型
本文的模型設(shè)計流程大致分為數(shù)據(jù)采集、數(shù)據(jù)清洗、特征提取、神經(jīng)網(wǎng)絡(luò)設(shè)計、模型建立、實驗分析這6個部分。基于PCA改進BP神經(jīng)網(wǎng)絡(luò)的用戶用電異常行為檢測模型的總體結(jié)構(gòu)如圖6所示。
圖6 用戶用電異常檢測模型結(jié)構(gòu)
3.2 BP神經(jīng)網(wǎng)絡(luò)
本實驗將特征提取步驟中對原始數(shù)據(jù)樣本提取的6個特征維度作為輸入因素,最后輸出用電異常和用電正常2種可能結(jié)果,分別以0和1表示,即網(wǎng)絡(luò)模型為多輸入單輸出二類分類模型,如圖7所示。相對于一般的BP神經(jīng)網(wǎng)絡(luò),本文針對用電時序數(shù)據(jù)樣本量較大和維度較高的特征,在BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計上采用雙隱含層,使數(shù)據(jù)處理精度得到保證。
圖7 本文所用BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
為保證在實際訓(xùn)練時網(wǎng)絡(luò)具有較高的收斂速度,同時減少變化的幅度以便降低調(diào)整權(quán)重的難度,對輸入數(shù)據(jù)進行歸一化的處理。樣本數(shù)據(jù)歸一化區(qū)間限于[0,1]。隱含層的激活函數(shù)分別選擇tansig和logsig兩種Sigmoid型激活函數(shù),其表達式和誤差函數(shù)分別為:
(9)
其中:Ti為期望輸出;Oi為實際輸出。輸出層函數(shù)選擇purelin線性激活函數(shù)。訓(xùn)練函數(shù)選擇收斂速度較快的LM優(yōu)化算法trainlm。
4.1 數(shù)據(jù)測試
本實驗選取的原始數(shù)據(jù)集來自重慶某地電網(wǎng)9 956個用戶從2015-01-01—2015-12-31共一年的日用電量數(shù)據(jù),具體實驗過程如下:
1) 對原始數(shù)據(jù)做數(shù)據(jù)清理。本實驗中經(jīng)清理后得到334天可供分析的有效數(shù)據(jù)維度和8 146個數(shù)據(jù)有效的用戶訓(xùn)練集。其中包含6 977個正常用戶和1 169個異常用戶,異常用戶比例為14.35%。
2) 對清理后的數(shù)據(jù)集建立統(tǒng)計特征。根據(jù)表1對實驗數(shù)據(jù)提取49個維度的統(tǒng)計特征。
4) 對PCA降維處理后的新特征數(shù)據(jù)集做相關(guān)性分析,得到的相關(guān)系數(shù)矩陣如表3所示。
從表3中可以看出各個特征之間的線性相關(guān)程度,其中cor表示相關(guān)系數(shù)。|cor|越接近1,表示這兩個特征間線性關(guān)系越密切;|cor|越接近于0,則這兩個特征的線性相關(guān)越弱??梢?,經(jīng)PCA處理后得到的新特征幾乎相互獨立,消除了信息重疊。
表2 總貢獻率高于0.95的特征值
表3 基于新特征的相關(guān)系數(shù)
圖8 d1與d2維度的空間分布
6) 根據(jù)已提取的6個新的特征數(shù)據(jù),構(gòu)建用于BP神經(jīng)網(wǎng)絡(luò)的6個輸入向量及1個輸出向量,并進行歸一化處理。然后根據(jù)構(gòu)建的模型,利用Matlab建立含有2個隱含層的BP神經(jīng)網(wǎng)絡(luò),如圖11所示。設(shè)置2個隱含層的激活函數(shù)分別為 tansig和logsig,輸出層激活函數(shù)為線性函數(shù)purelin,訓(xùn)練函數(shù)為trainlm,訓(xùn)練次數(shù)為5 000次、目標(biāo)精度為1e-5。
圖9 d1與d3維度的空間分布
圖10 d2與d3維度的空間分布
圖11 利用Matlab建立BP神經(jīng)網(wǎng)絡(luò)
4.2 實驗結(jié)果
經(jīng)過本實驗建立的用電行為異常檢測模型分析得出的結(jié)果如表4所示,其中輸出異常檢測值res在[0,1]之間。若res<0.5,則判斷用戶無異常用電行為;若res≥0.5,則用戶存在用電異常嫌疑。
本實驗分別使用了傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)算法和改進的BP神經(jīng)網(wǎng)絡(luò)算法對樣本數(shù)據(jù)集進行異常嫌疑判斷,統(tǒng)計了兩種檢測方式的分類準(zhǔn)確率。
從以上實驗結(jié)果(表5)可以看出:基于PCA的特征提取方法提高了分類的準(zhǔn)確率。同時,本實驗提出的基于PCA的改進BP神經(jīng)網(wǎng)絡(luò)的整體分類準(zhǔn)確率達88.58%,高于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)算法。在基于PCA的各項分類上,傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)和改進的BP神經(jīng)網(wǎng)絡(luò)之間正常用戶的分類準(zhǔn)確率相差只有0.25%,都達到了很高的分類精度。但本實驗的改進方法在異常檢測的分類上比傳統(tǒng)方法高4.45%,說明本實驗所建立的基于改進BP神經(jīng)網(wǎng)絡(luò)的用電異常檢測模型在性能上更加有效,檢測效果更好。
表4 部分異常檢測實驗結(jié)果
表5 檢測算法的分類準(zhǔn)確率對比
4.3 結(jié)論分析
本實驗首先對用原始用電時序數(shù)據(jù)集進行了基于統(tǒng)計和主成分分析的特征提取處理,處理后的數(shù)據(jù)特征集之間線性不相關(guān),基本消除了原始數(shù)據(jù)中的信息重疊。同時,主成分的選擇將高維度特征映射到更低的維度,使得模型訓(xùn)練收斂速度更快,顯著提升計算效率,也提高了分類精度。
結(jié)合特征提取后的數(shù)據(jù)對改進的BP神經(jīng)網(wǎng)絡(luò)做訓(xùn)練,異常檢測準(zhǔn)確率相比傳統(tǒng)網(wǎng)絡(luò)更高,說明兩層隱含層的設(shè)計明顯提高了用電異常檢測的精度。但是,從兩類用電用戶分類效果比較可以看出異常用戶分類誤差較大。實驗分析得出的原因有:原始數(shù)據(jù)集本身不均衡,異常用戶所占的比重較少;時間序列數(shù)據(jù)本身軌跡不規(guī)則,在特征提取分析上還有待進一步研究。
傳統(tǒng)的用電異常檢測技術(shù)效率低、效果差,為此本文研究了時序數(shù)據(jù)特征提取方法和機器學(xué)習(xí)分類算法,提出了基于PCA的改進BP神經(jīng)網(wǎng)絡(luò)的異常用電檢測模型,模型包括統(tǒng)計特征提取、主成分分析、BP神經(jīng)網(wǎng)絡(luò)改進這幾個部分。在理論研究的基礎(chǔ)上,通過電網(wǎng)公司的真實時序數(shù)據(jù)實例驗證用電異常分析效果,發(fā)現(xiàn)基于數(shù)據(jù)挖掘技術(shù)的異常檢測模型具有較高的科學(xué)性。本文方法為用電異常檢測提供了一種新的可行思路,避免傳統(tǒng)檢測工作的資源浪費,有著廣闊的應(yīng)用前景。
后續(xù)的研究將針對時序數(shù)據(jù)特征分析和樣本類型分布不均衡問題,結(jié)合混沌時序分析和單類分類,進一步提高異常用電檢測的準(zhǔn)確率和檢測效率。
[1] 中國電機工程學(xué)會電力信息化專業(yè)委員會.中國電力大數(shù)據(jù)發(fā)展白皮書[M].北京:中國電力出版社,2013.
[2] 姚偉智,林幕群,紀素娜,等.基于用電行為分析的低壓用戶竊電在線監(jiān)測分析方法研究[J].中國新通信,2015,17(2):97-99.
[3] 譚致遠.基于用電行為分析的在線用電異常及風(fēng)險監(jiān)測系統(tǒng)的設(shè)計與實現(xiàn)[D].廣州:華南理工大學(xué),2015.
[4] 謝濤,靳丹,馬志程,等.基于智能電網(wǎng)的分布式非法用電行為檢測方法[J].微型電腦應(yīng)用,2015,31(2):54-57.
[5] 簡富俊,曹敏,王磊,等.基于SVM的AMI環(huán)境下用電異常檢測研究[J].電測與儀表,2014,(6):64-69.
[6] 馮曉蒲,張鐵峰.基于實際負荷曲線的電力用戶分類技術(shù)研究[J].電力科學(xué)與工程,2010,26(9):18-22.
[7] 林嘉暉.基于數(shù)據(jù)挖掘的電網(wǎng)用戶行為分析系統(tǒng)的設(shè)計與實現(xiàn)[D].廣州:中山大學(xué),2013.
[8] CABRAL J E,PINTO J O P,GONTIJO E M,et al.Fraud detection in electrical energy consumers using rough sets[C]//IEEE Int Conf.Systems,Man and Cybernetics.USA:[s.n.],2004:3625-3629.
[9] NAGI J,YAP K S,TIONG S K,et al.Improving SVM-based nontechnical loss detection in power utility using the fuzzy inference system[J].IEEE Transactions on power delivery,2011,26(2):1284-1285.
[10]RAMOS C C,SOUZA A N,CHIACHIA G,et al.A novel algorithm for feature selection using Harmony Search and its application for non-technical losses detection[J].Computers and Electrical Engineering,2011(37):886-894.
[11]PEREIRA L A M,AFONSO L C S,PAPA J P,et al.Multilayer perceptron neural networks training through charged system search and its application for non-technical losses detection[C]//IEEE Innovative Smart Grid Technologies Latin America(ISGT LA),USA:[s.n.],2013:1-6.
[12]林珠,邢延.數(shù)據(jù)挖掘中適用于分類的時序數(shù)據(jù)特征提取方法[J].計算機系統(tǒng)應(yīng)用,2012,21(10):224-229.
[13]楊光.基于神經(jīng)網(wǎng)絡(luò)的異常用電檢測算法模型研究[J].供用電,2016(10):56-59.
[14]胡殿剛,李韶瑜,樓俏,等.ELM 算法在用戶用電行為分析中的應(yīng)用[J].計算機系統(tǒng)應(yīng)用,2016,25(8):155-161.
[15]毛健,趙紅東,姚婧婧.人工神經(jīng)網(wǎng)絡(luò)的發(fā)展及應(yīng)用[J].電子設(shè)計工程,2011,19(24):62-65.
(責(zé)任編輯 陳 艷)
Research on Abnormal Behavior of Power Consumption Based on BP Neural Network with PCA
TIAN Ye1, ZHANG Cheng1, MAO Xinru2, LIU Ji1
(1.College of Computer Science, Chongqing University, Chongqing 400044, China; 2.State Grid Corporation, Chongqing 402160, China)
According to the problems of resource wasting, low efficiency and difficult detection encountered in the traditional way of detecting user’s abnormal power consumption, the algorithm for large-scale data mining was designed and realized combined with data mining technology, and an effective anomaly feature extraction model was established. It determines the abnormal indicators using the statistic-based feature extraction method, and reduces the dimension of the characteristic data using the principal component analysis method to achieve the analysis, identification and processing for abnormal power consumption. Then, the back-propagation neural network was established to detect the abnormal behavior from the power consumption information. The test result shows that this method can effectively extract the characteristics of power consumption behavior, and can be effectively used in the detection of electricity-using anomaly.
power consumption behavior; anomaly detection; feature extraction; principal component analysis; neural network
2017-03-24 基金項目:國家自然科學(xué)基金資助項目(61502060)
田野(1992—),男,重慶人,碩士,主要從事數(shù)據(jù)挖掘、機器學(xué)習(xí)研究,E-mail:403521937@qq.com。
田野,張程,毛昕儒,等.運用PCA改進BP神經(jīng)網(wǎng)絡(luò)的用電異常行為檢測[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2017(8):125-133.
format:TIAN Ye, ZHANG Cheng, MAO Xinru,et al.Research on Abnormal Behavior of Power Consumption Based on BP Neural Network with PCA[J].Journal of Chongqing University of Technology(Natural Science),2017(8):125-133.
10.3969/j.issn.1674-8425(z).2017.08.021
TP302.7
A
1674-8425(2017)08-0125-09