李春芳,張銳峰,賈 璐,王 芳,郭 飛
(國網(wǎng)寧夏電力有限公司寧東供電公司,寧夏靈武 750411)
隨著用電采集系統(tǒng)的全覆蓋與升級改造,傳統(tǒng)的人工現(xiàn)場抄表作業(yè)方式基本被淘汰。用電采集系統(tǒng)使抄表效率大幅提高、人工成本也顯著減少,但同時也降低了供電部門與用戶的直接接觸次數(shù),從而導(dǎo)致無法及時、準確地獲知用戶的實際用電行為,使用戶的竊電行為成為了可能。文獻[1]中統(tǒng)計了每年國家電網(wǎng)因用戶的竊電行為造成高達百億元的損失。傳統(tǒng)的竊電稽查方式為定期人工對高損臺區(qū)進行巡視檢查或安裝反竊電裝置,但稽查效率低下且耗費大量人力[2-5]。
盡管用戶的竊電方式具有多樣性,但竊電行為均會導(dǎo)致用戶的實時用電數(shù)據(jù)異?;?。全覆蓋的用電采集系統(tǒng)能夠收集居民的用電大數(shù)據(jù)信息,在此基礎(chǔ)上通過人工智能算法對居民的用電大數(shù)據(jù)進行分析,從而有效識別出異常用電用戶[6-10]。文獻[7]基于集成學(xué)習(xí)方式Bagging 提出了多個體學(xué)習(xí)器的竊電識別模型,其可從大量用戶中篩選竊電用戶樣本,但步驟復(fù)雜且實際操作難度較大。文獻[8]結(jié)合PSO和SVM 兩種算法,在確定竊電異常支路的基礎(chǔ)上進一步識別竊電用戶,但實際的電力網(wǎng)絡(luò)復(fù)雜多變,難以準確識別竊電支路。文獻[9]建立了竊電用戶的綜合評價指標體系來確定竊電嫌疑用戶范圍,但最終篩選的竊電嫌疑用戶范圍過大,無法準確定位。
針對上述問題,該文提出了一種通過異常用電狀態(tài)識別的竊電檢測方法,其可有效縮小竊電嫌疑用戶范圍。通過分析用戶用電大數(shù)據(jù)信息建立綜合用電信息指標,并利用k-means 算法對指標進行聚類分析,得到竊電嫌疑用戶范圍。最終,通過現(xiàn)場勘查確定該識別模型的有效性。
k-means 算法由James MacQuee 在1967 年提出,其可歸類為以距離為計算要素的一種迭代聚類算法。由于k-means 算法的簡潔、高效性,從而被廣泛推廣[11-12]。
k-means 算法的原理為:選定某些樣本數(shù)據(jù)為聚類中心,大量的原始樣本數(shù)據(jù)通過歐式距離遠近依附聚類中心形成多個聚類簇。聚類簇重新選定聚類中心后再次迭代聚類,最終達到最優(yōu)聚類效果。
假設(shè)樣本集X={x1,x2,x3,…,xn}中有n個樣本,每個樣本有p個特征參數(shù),xi={xi1,xi2,xi3,…,xip}。隨機選取k個樣本v1={v1,v2,v3,…,vk}作為初始聚類中心,則每個樣本xi與初始聚類中心vk的歐式距離為:
通常重新計算的聚類中心不變或迭代次數(shù)達到最大時迭代終止,約束函數(shù)為:
式中,ki為形成的聚類簇,zj為ki中的樣本,vk為ki的聚類中心。
傳統(tǒng)的聚類算法雖然簡潔、高效,但必須事先確定k個聚類中心;在進行竊電驗證時,如隨機選擇某個數(shù)據(jù)作為聚類中心,則容易陷入局部最優(yōu)且無法獲得最佳聚類簇[13-16]。由此,該文針對這兩方面進行改進。
在樣本集X中,樣本xi與樣本集中其余樣本的平均歐式距離為:
式中,xj為樣本集中其余樣本。
如果在樣本xi的平均歐式距離內(nèi)存在樣本的數(shù)量越多,則說明xi為樣本集中某一區(qū)域的中心。以xi作為聚類中心將更容易使約束函數(shù)收斂,定義Num(xi,S(xi)) 為樣本xi在距離S(xi) 范圍內(nèi)的樣本數(shù)量:
計算出所有樣本的Num(xi,S(xi))后,根據(jù)聚類個數(shù)k按從大到小順序選擇聚類中心xi。
假定樣本集X分為k個中心時的聚類效果最佳,此時Li為聚類簇內(nèi)每個數(shù)據(jù)到聚類中心的距離,d為不同聚類中心間的距離:
式中,pj為聚類簇中的樣本數(shù),xj為聚類簇中的其他樣本,xi為第i個聚類簇的聚類中心。
定義評估值DM,當(dāng)DM 取最小值時,各聚類簇內(nèi)每個數(shù)據(jù)到聚類中心的距離最近,且各聚類中心之間的距離最遠。此時,聚類簇內(nèi)部最緊密集中,選擇這一時刻的k值聚類效果最佳:
其中:
式中,cm、cn為不同聚類簇的聚類中心。
隨著智能電表與用電信息采集系統(tǒng)的全覆蓋,使得用戶海量用電數(shù)據(jù)的遠程集抄成為可能。采集系統(tǒng)可以實時采集用戶的電壓、電流、功率因素、三相不平衡等用電參數(shù),也可實時采集臺區(qū)線損變化率。當(dāng)某個用戶進行竊電時,采集系統(tǒng)反饋的用電數(shù)據(jù)必然與其他正常用戶的數(shù)據(jù)之間出現(xiàn)差異,會存在異常的用電狀態(tài),同時這些差異與臺區(qū)線損的變化率有緊密的關(guān)系。
為準確預(yù)測出竊電用戶,將某一時段用戶的電壓、電量、功率等采集信息進行分析,從而提取特征參數(shù)。
由于采集信息數(shù)量較多,各用戶用電信息參數(shù)差距較大。為降低計算難度,對電量、電壓、線損等參數(shù)進行歸一處理后并提取特征參數(shù)。
提取電量的特征參數(shù)為:
式中,n為數(shù)據(jù)采集的天數(shù),qi為用戶第i天的用電量,qˉ為用戶n天內(nèi)的平均用電量,yi為臺區(qū)第i天的線損率,yˉ為臺區(qū)i天內(nèi)的平均線損率。
電壓的特征參數(shù)為:
式中,n為數(shù)據(jù)采集的天數(shù),ua、ub、uc為用戶第i天三相的平均相電壓值,uˉ為用戶第i天的三相均值。
用戶的電量、電壓特征參數(shù)組合可在一定程度上反映用戶的用電信息,通過兩種特征參數(shù)定義T為用戶綜合用電信息指標:
通過設(shè)定權(quán)重系數(shù)ω的值來體現(xiàn)電量、電壓在用戶綜合用電信息指標中的重要度,ω的值可以根據(jù)竊電查處現(xiàn)場勘察的上述參數(shù)與竊電的關(guān)系度來制定,文中選取ω1=ω2=0.5。
為驗證用戶綜合用電信息指標的有效性,對1名竊電用戶、2 名正常用戶在7 月1 日-7 月14 的用電信息進行驗證。
通過圖1 可看出,竊電用戶的綜合用電信息指標波動較大;正常用戶的綜合竊電指標波動較小,且變化軌跡較為相近。從中驗證綜合用電信息指標,能有效地區(qū)分竊電用戶和正常用戶。
為保證采集數(shù)據(jù)的完整性與合規(guī)性,首先對數(shù)據(jù)進行預(yù)處理,清除不一致、重復(fù)的數(shù)據(jù),使原始數(shù)據(jù)轉(zhuǎn)換為有效值,以提高后續(xù)程序運算速度。數(shù)據(jù)清洗的路徑如圖2 所示,具體的步驟有:運用Z-score標準化的方法,去除提取數(shù)據(jù)中采集信息缺失嚴重的用戶;為了提高分析的準確性和針對性,去除居民合表、小區(qū)公用設(shè)施用電數(shù)據(jù);剔除日電量不連續(xù)、各時段電量數(shù)據(jù)畸變等數(shù)據(jù)。
基于改進k-means 聚類的竊電查處流程主要步驟如下:
1)通過采集系統(tǒng)獲取高損臺區(qū)的用戶電力信息;
2)運用Z-score 標準化的方法對原始數(shù)據(jù)進行預(yù)處理;
3)通過式(8)-(9)提取電量與電壓的用電特征參數(shù),建立用戶綜合用電信息指標;
4)將用戶綜合用電信息指標數(shù)據(jù)導(dǎo)入k-means算法,通過計算確定出聚類個數(shù)與聚類中心;
5)對k-means 算法進行分類計算,得到聚類簇;
6)對聚類簇中心進行更新并在此迭代聚類,直至得到最優(yōu)聚類效果。
全流程示意圖如圖3 所示。值得注意的是,為了提高計算的效率,需要對整個計算過程中所有的數(shù)據(jù)均進行歸一化處理。
為檢驗竊電識別模型的有效性,對實際采集數(shù)據(jù)進行模擬分析,此次數(shù)據(jù)樣本來源于某電力公司高損臺區(qū)114 戶用戶2020.7.15-2020.7.25 期間采集的用電數(shù)據(jù)。該文通過Matlab 軟件,對竊電識別模型進行仿真驗證。
從圖4 中可以看出,當(dāng)聚類個數(shù)為4 時,評估值DM 最小。此時聚類簇內(nèi)部最緊密集中,因此該案例分析選取k值為4。
通過式(4)對114 戶用戶的Num 值進行排序。從圖5 中可以看出,第15、26、43、86 名用戶的Num 值最大,將這4 名用戶作為聚類中心。
文獻[10]也采用k-means 算法對多維特征因子關(guān)聯(lián)模型進行聚類,獲取竊電嫌疑用戶。為驗證該文竊電識別模型的有效性與準確性,利用文中改進的k-means 算法與文獻[10]中的算法從114 名用戶中篩選出了竊電用戶,并對嫌疑用戶進行現(xiàn)場驗證。聚類結(jié)果如表1、表2 所示。
表1 該文聚類結(jié)果
表2 文獻[10]的聚類結(jié)果
從表中可以看出,表1 聚類簇4 數(shù)量最少;而文獻[10]聚類了5 個簇,簇1 中用戶最少。正常而言,竊電只是極少數(shù)用戶的行為,因此表1 聚類簇4 中的3名用戶和表2 聚類簇1 中的7 名用戶有竊電嫌疑,且表1 聚類簇4 與表2 的聚類簇1 出現(xiàn)了重疊。
為驗證算法成效,安排電力稽查人員前往嫌疑用戶現(xiàn)場進行核實?,F(xiàn)場核實發(fā)現(xiàn),兩種方法計算得出的重疊用戶的計量柜、接線盒、電表的鉛封封閉不完整,且具有竊電行為。兩名竊電用戶接線恢復(fù)后,該臺區(qū)恢復(fù)至正常。同時稽查人員再次隨機抽取10 名用戶進行現(xiàn)場檢查,均未發(fā)現(xiàn)竊電現(xiàn)象。仿真實驗結(jié)果表明,相較于文獻[10],文中改進的竊電識別模型能更準確地發(fā)現(xiàn)竊電用戶。
該文通過改進k-means 聚類算法,提出了一種新型竊電行為識別模型。首先通對系統(tǒng)采集的電量、電壓等用電數(shù)據(jù)進行特征提取,建立用戶綜合用電信息指標;其次利用改進k-means 聚類確定值與聚類中心,識別出具有竊電嫌疑行為的用戶;最終,現(xiàn)場稽查核實用戶是否具有竊電行為。通過對高損臺區(qū)114 戶居民測試樣本的仿真,驗證了識別模型的有效性?,F(xiàn)場稽查結(jié)果表明,該識別模型能極大縮小工作人員現(xiàn)場檢查范圍。與其余竊電識別方法相比,該模型能更有效的識別竊電用戶。該識別模型目前僅能應(yīng)用于低壓居民用戶,下一步將建立高壓專變用戶的識別模型。