基于改進k-means 算法和大數(shù)據(jù)分析的新型竊電識別模型與仿真

2022-11-18 14:01:30李春芳張銳峰

電子設(shè)計工程 2022年22期

李春芳，張銳峰，賈璐，王芳，郭飛

（國網(wǎng)寧夏電力有限公司寧東供電公司，寧夏靈武 750411）

隨著用電采集系統(tǒng)的全覆蓋與升級改造，傳統(tǒng)的人工現(xiàn)場抄表作業(yè)方式基本被淘汰。用電采集系統(tǒng)使抄表效率大幅提高、人工成本也顯著減少，但同時也降低了供電部門與用戶的直接接觸次數(shù)，從而導(dǎo)致無法及時、準確地獲知用戶的實際用電行為，使用戶的竊電行為成為了可能。文獻[1]中統(tǒng)計了每年國家電網(wǎng)因用戶的竊電行為造成高達百億元的損失。傳統(tǒng)的竊電稽查方式為定期人工對高損臺區(qū)進行巡視檢查或安裝反竊電裝置，但稽查效率低下且耗費大量人力[2-5]。

盡管用戶的竊電方式具有多樣性，但竊電行為均會導(dǎo)致用戶的實時用電數(shù)據(jù)異?；?。全覆蓋的用電采集系統(tǒng)能夠收集居民的用電大數(shù)據(jù)信息，在此基礎(chǔ)上通過人工智能算法對居民的用電大數(shù)據(jù)進行分析，從而有效識別出異常用電用戶[6-10]。文獻[7]基于集成學(xué)習(xí)方式Bagging 提出了多個體學(xué)習(xí)器的竊電識別模型，其可從大量用戶中篩選竊電用戶樣本，但步驟復(fù)雜且實際操作難度較大。文獻[8]結(jié)合PSO和SVM 兩種算法，在確定竊電異常支路的基礎(chǔ)上進一步識別竊電用戶，但實際的電力網(wǎng)絡(luò)復(fù)雜多變，難以準確識別竊電支路。文獻[9]建立了竊電用戶的綜合評價指標體系來確定竊電嫌疑用戶范圍，但最終篩選的竊電嫌疑用戶范圍過大，無法準確定位。

針對上述問題，該文提出了一種通過異常用電狀態(tài)識別的竊電檢測方法，其可有效縮小竊電嫌疑用戶范圍。通過分析用戶用電大數(shù)據(jù)信息建立綜合用電信息指標，并利用k-means 算法對指標進行聚類分析，得到竊電嫌疑用戶范圍。最終，通過現(xiàn)場勘查確定該識別模型的有效性。

1 改進k-means算法原理

1.1 k-means算法

k-means 算法由James MacQuee 在1967 年提出，其可歸類為以距離為計算要素的一種迭代聚類算法。由于k-means 算法的簡潔、高效性，從而被廣泛推廣[11-12]。

k-means 算法的原理為：選定某些樣本數(shù)據(jù)為聚類中心，大量的原始樣本數(shù)據(jù)通過歐式距離遠近依附聚類中心形成多個聚類簇。聚類簇重新選定聚類中心后再次迭代聚類，最終達到最優(yōu)聚類效果。

假設(shè)樣本集X={x1,x2,x3,…,xn}中有n個樣本，每個樣本有p個特征參數(shù)，xi={xi1,xi2,xi3,…,xip}。隨機選取k個樣本v1={v1,v2,v3,…,vk}作為初始聚類中心，則每個樣本xi與初始聚類中心vk的歐式距離為：

通常重新計算的聚類中心不變或迭代次數(shù)達到最大時迭代終止，約束函數(shù)為：

式中，ki為形成的聚類簇，zj為ki中的樣本，vk為ki的聚類中心。

1.2 k-means聚類算法的改進

傳統(tǒng)的聚類算法雖然簡潔、高效，但必須事先確定k個聚類中心；在進行竊電驗證時，如隨機選擇某個數(shù)據(jù)作為聚類中心，則容易陷入局部最優(yōu)且無法獲得最佳聚類簇[13-16]。由此，該文針對這兩方面進行改進。

在樣本集X中，樣本xi與樣本集中其余樣本的平均歐式距離為：

式中，xj為樣本集中其余樣本。

如果在樣本xi的平均歐式距離內(nèi)存在樣本的數(shù)量越多，則說明xi為樣本集中某一區(qū)域的中心。以xi作為聚類中心將更容易使約束函數(shù)收斂，定義Num(xi,S(xi)) 為樣本xi在距離S(xi) 范圍內(nèi)的樣本數(shù)量：

計算出所有樣本的Num(xi,S(xi))后，根據(jù)聚類個數(shù)k按從大到小順序選擇聚類中心xi。

假定樣本集X分為k個中心時的聚類效果最佳，此時Li為聚類簇內(nèi)每個數(shù)據(jù)到聚類中心的距離，d為不同聚類中心間的距離：

式中，pj為聚類簇中的樣本數(shù)，xj為聚類簇中的其他樣本，xi為第i個聚類簇的聚類中心。

定義評估值DM，當(dāng)DM 取最小值時，各聚類簇內(nèi)每個數(shù)據(jù)到聚類中心的距離最近，且各聚類中心之間的距離最遠。此時，聚類簇內(nèi)部最緊密集中，選擇這一時刻的k值聚類效果最佳：

其中：

式中，cm、cn為不同聚類簇的聚類中心。

2 竊電識別模型的建立

隨著智能電表與用電信息采集系統(tǒng)的全覆蓋，使得用戶海量用電數(shù)據(jù)的遠程集抄成為可能。采集系統(tǒng)可以實時采集用戶的電壓、電流、功率因素、三相不平衡等用電參數(shù)，也可實時采集臺區(qū)線損變化率。當(dāng)某個用戶進行竊電時，采集系統(tǒng)反饋的用電數(shù)據(jù)必然與其他正常用戶的數(shù)據(jù)之間出現(xiàn)差異，會存在異常的用電狀態(tài)，同時這些差異與臺區(qū)線損的變化率有緊密的關(guān)系。

為準確預(yù)測出竊電用戶，將某一時段用戶的電壓、電量、功率等采集信息進行分析，從而提取特征參數(shù)。

2.1 特征參數(shù)的提取

由于采集信息數(shù)量較多，各用戶用電信息參數(shù)差距較大。為降低計算難度，對電量、電壓、線損等參數(shù)進行歸一處理后并提取特征參數(shù)。

提取電量的特征參數(shù)為：

式中，n為數(shù)據(jù)采集的天數(shù)，qi為用戶第i天的用電量，qˉ為用戶n天內(nèi)的平均用電量，yi為臺區(qū)第i天的線損率，yˉ為臺區(qū)i天內(nèi)的平均線損率。

電壓的特征參數(shù)為：

式中，n為數(shù)據(jù)采集的天數(shù)，ua、ub、uc為用戶第i天三相的平均相電壓值，uˉ為用戶第i天的三相均值。

2.2 用戶綜合用電信息指標的建立

用戶的電量、電壓特征參數(shù)組合可在一定程度上反映用戶的用電信息，通過兩種特征參數(shù)定義T為用戶綜合用電信息指標：

通過設(shè)定權(quán)重系數(shù)ω的值來體現(xiàn)電量、電壓在用戶綜合用電信息指標中的重要度，ω的值可以根據(jù)竊電查處現(xiàn)場勘察的上述參數(shù)與竊電的關(guān)系度來制定，文中選取ω1=ω2=0.5。

為驗證用戶綜合用電信息指標的有效性，對1名竊電用戶、2 名正常用戶在7 月1 日-7 月14 的用電信息進行驗證。

通過圖1 可看出，竊電用戶的綜合用電信息指標波動較大；正常用戶的綜合竊電指標波動較小，且變化軌跡較為相近。從中驗證綜合用電信息指標，能有效地區(qū)分竊電用戶和正常用戶。

3 用戶竊電識別流程

3.1 原始數(shù)據(jù)的預(yù)處理

為保證采集數(shù)據(jù)的完整性與合規(guī)性，首先對數(shù)據(jù)進行預(yù)處理，清除不一致、重復(fù)的數(shù)據(jù)，使原始數(shù)據(jù)轉(zhuǎn)換為有效值，以提高后續(xù)程序運算速度。數(shù)據(jù)清洗的路徑如圖2 所示，具體的步驟有：運用Z-score標準化的方法，去除提取數(shù)據(jù)中采集信息缺失嚴重的用戶；為了提高分析的準確性和針對性，去除居民合表、小區(qū)公用設(shè)施用電數(shù)據(jù)；剔除日電量不連續(xù)、各時段電量數(shù)據(jù)畸變等數(shù)據(jù)。

3.2 基于改進k-means聚類的竊電查處流程

基于改進k-means 聚類的竊電查處流程主要步驟如下：

1）通過采集系統(tǒng)獲取高損臺區(qū)的用戶電力信息；

2）運用Z-score 標準化的方法對原始數(shù)據(jù)進行預(yù)處理；

3）通過式（8）-（9）提取電量與電壓的用電特征參數(shù)，建立用戶綜合用電信息指標；

4）將用戶綜合用電信息指標數(shù)據(jù)導(dǎo)入k-means算法，通過計算確定出聚類個數(shù)與聚類中心；

5）對k-means 算法進行分類計算，得到聚類簇；

6）對聚類簇中心進行更新并在此迭代聚類，直至得到最優(yōu)聚類效果。

全流程示意圖如圖3 所示。值得注意的是，為了提高計算的效率，需要對整個計算過程中所有的數(shù)據(jù)均進行歸一化處理。

4 案例測試與數(shù)據(jù)分析

為檢驗竊電識別模型的有效性，對實際采集數(shù)據(jù)進行模擬分析，此次數(shù)據(jù)樣本來源于某電力公司高損臺區(qū)114 戶用戶2020.7.15-2020.7.25 期間采集的用電數(shù)據(jù)。該文通過Matlab 軟件，對竊電識別模型進行仿真驗證。

4.1 k值的確定

從圖4 中可以看出，當(dāng)聚類個數(shù)為4 時，評估值DM 最小。此時聚類簇內(nèi)部最緊密集中，因此該案例分析選取k值為4。

4.2 聚類中心的確立

通過式（4）對114 戶用戶的Num 值進行排序。從圖5 中可以看出，第15、26、43、86 名用戶的Num 值最大，將這4 名用戶作為聚類中心。

4.3 聚類結(jié)果與分析

文獻[10]也采用k-means 算法對多維特征因子關(guān)聯(lián)模型進行聚類，獲取竊電嫌疑用戶。為驗證該文竊電識別模型的有效性與準確性，利用文中改進的k-means 算法與文獻[10]中的算法從114 名用戶中篩選出了竊電用戶，并對嫌疑用戶進行現(xiàn)場驗證。聚類結(jié)果如表1、表2 所示。

表1 該文聚類結(jié)果

表2 文獻[10]的聚類結(jié)果

從表中可以看出，表1 聚類簇4 數(shù)量最少；而文獻[10]聚類了5 個簇，簇1 中用戶最少。正常而言，竊電只是極少數(shù)用戶的行為，因此表1 聚類簇4 中的3名用戶和表2 聚類簇1 中的7 名用戶有竊電嫌疑，且表1 聚類簇4 與表2 的聚類簇1 出現(xiàn)了重疊。

為驗證算法成效，安排電力稽查人員前往嫌疑用戶現(xiàn)場進行核實?，F(xiàn)場核實發(fā)現(xiàn)，兩種方法計算得出的重疊用戶的計量柜、接線盒、電表的鉛封封閉不完整，且具有竊電行為。兩名竊電用戶接線恢復(fù)后，該臺區(qū)恢復(fù)至正常。同時稽查人員再次隨機抽取10 名用戶進行現(xiàn)場檢查，均未發(fā)現(xiàn)竊電現(xiàn)象。仿真實驗結(jié)果表明，相較于文獻[10]，文中改進的竊電識別模型能更準確地發(fā)現(xiàn)竊電用戶。

5 結(jié)束語

該文通過改進k-means 聚類算法，提出了一種新型竊電行為識別模型。首先通對系統(tǒng)采集的電量、電壓等用電數(shù)據(jù)進行特征提取，建立用戶綜合用電信息指標；其次利用改進k-means 聚類確定值與聚類中心，識別出具有竊電嫌疑行為的用戶；最終，現(xiàn)場稽查核實用戶是否具有竊電行為。通過對高損臺區(qū)114 戶居民測試樣本的仿真，驗證了識別模型的有效性?，F(xiàn)場稽查結(jié)果表明，該識別模型能極大縮小工作人員現(xiàn)場檢查范圍。與其余竊電識別方法相比，該模型能更有效的識別竊電用戶。該識別模型目前僅能應(yīng)用于低壓居民用戶，下一步將建立高壓專變用戶的識別模型。