李 昂,向翰丞,錢瑞琦,張 蕾
(1.陜西理工大學(xué) 電氣工程學(xué)院,陜西 漢中 723000;2.陜西省地方電力(集團(tuán))有限公司 漢中供電分公司,陜西 漢中 723000)
電網(wǎng)公司經(jīng)過數(shù)十年的積累,已儲(chǔ)存了海量的歷史數(shù)據(jù)[1]。伴隨著信息化技術(shù)的高速發(fā)展和信息量的迅猛增長(zhǎng),電力企業(yè)開始走向信息化管理道路[2]。為此,電網(wǎng)公司先后建立了SG186與GIS系統(tǒng)來存儲(chǔ)與展示數(shù)據(jù)[3-4]。然而,這些信息只是存儲(chǔ)在服務(wù)器中,并沒有得到有效的綜合利用。文獻(xiàn)[5]中提到,如何整理有用信息,從歷史數(shù)據(jù)中提取有用的價(jià)值,是現(xiàn)階段的發(fā)展方向。本文的研究?jī)?nèi)容是如探索何從歷史用電量數(shù)據(jù)中找出用戶潛在的關(guān)聯(lián)性。具體地,通過K-means算法對(duì)用戶進(jìn)行聚類分析,提供良好的分類依據(jù),實(shí)現(xiàn)對(duì)用戶電量信息的分類統(tǒng)計(jì),從而提高電量預(yù)測(cè)精確度。需要注意,同類別用戶的用電量情況較為接近,不同類別用戶的用電量情況相差較大。
本文使用的數(shù)據(jù)源是某市部分用戶的用電量信息,注意包含的信息字段有表箱名稱、戶號(hào)、采集時(shí)間和用電量[6-7]等。
居民用電以表箱為一級(jí)單位,表箱上連接多個(gè)用戶,而每戶有唯一的戶號(hào)。采集每月一次,對(duì)應(yīng)的用電量即該用戶的每月用電量。原數(shù)據(jù)中的采集時(shí)間為2017年4月至7月共四個(gè)月。該數(shù)據(jù)有表箱1 572個(gè),連接的用戶有12 573戶,4個(gè)月的數(shù)據(jù)用電量信息共50 292條。
在分析收集的數(shù)據(jù)前,首先要明確數(shù)據(jù)類型、規(guī)模,初步理解數(shù)據(jù),同時(shí)要對(duì)數(shù)據(jù)中的“噪聲”進(jìn)行處理。電量信息在采集和統(tǒng)計(jì)的過程中,會(huì)存在諸如電量數(shù)據(jù)缺失、名稱不一致、電量異常等情況。由于本文要對(duì)用戶進(jìn)行聚類分析,不宜填充或刪除大量數(shù)據(jù),否則會(huì)導(dǎo)致聚類結(jié)果的不準(zhǔn)確或不具有代表性。所以,對(duì)于缺失1~2個(gè)月用電量數(shù)據(jù)信息的用戶采取均值或中位數(shù)填充法,而缺失更多信息的用戶將直接剔除;名稱不一致的情況,需要半自動(dòng)校驗(yàn)半人工方式找出可能存在的問題,并把信息最終一致化;對(duì)于電量異常的情況,將采用如圖1所示的箱線圖法,對(duì)月用電量出現(xiàn)異常的用戶視具體情況用均值替代或直接剔除。
如圖1所示,箱線圖有n個(gè)數(shù)據(jù),第一四分位數(shù)Q1所在位置為(n+1)/4,第二四分位數(shù)即中位數(shù)Q2所在位置為2(n+1)/4,第三四分位數(shù)Q3所在位置為4(n+1)/4。此時(shí),令I(lǐng)QR=Q3-Q1,則上邊界位置為Q3+1.5IQR,下邊界位置為Q1-1.5IQR。確定好上下界限的位置,按位置查找對(duì)應(yīng)數(shù)值,即可得到上下界限,其中超出界限的即為異常數(shù)據(jù)值。
圖2為本文選用數(shù)據(jù)源的箱線圖,上下邊界分別為377和0。經(jīng)統(tǒng)計(jì),超出上下界限的數(shù)據(jù)有3 815個(gè),涉及956個(gè)表箱上的1 496戶;3 781個(gè)為用電量較高的用戶,不屬于異常數(shù)據(jù);34個(gè)數(shù)據(jù)較其相鄰月份用電量增幅達(dá)60%以上,可能存在統(tǒng)計(jì)錯(cuò)誤的情況,需以相鄰月均值替換該數(shù)據(jù)。
圖1 箱線圖法
圖2 數(shù)據(jù)源箱線圖
本文采用K-Means算法對(duì)用戶進(jìn)行聚類。算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同的類別,使得評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使同一個(gè)聚類中的樣本相似度較高,而不同聚類中的樣本相似度較小。
K-Means模型一般采用平方誤差準(zhǔn)則,定義為:
這里E是數(shù)據(jù)集中所有樣本的平方誤差的綜合;p是空間中的點(diǎn),表示每月的用電量;mi是聚類Ci的平均值,即同類別的月用電量平均值。該準(zhǔn)則使生成的聚類結(jié)果盡可能緊湊和獨(dú)立。
K-Means算法中,對(duì)于樣本點(diǎn)屬于哪一類,是依據(jù)該點(diǎn)到類質(zhì)心的距離確定的。樣本點(diǎn)會(huì)被劃分到距離最近的一類中,距離函數(shù)采用歐氏距離:
其中,xi是樣本x的第i個(gè)變量值,yi是類質(zhì)心y的第i個(gè)變量值。
模型搭建如圖3所示,從左往右依次是數(shù)據(jù)源、替換缺失值、K-means聚類和輸出excel四個(gè)模塊。其中,缺失值并非統(tǒng)計(jì)結(jié)果的缺失,而是由于某用戶上月用電量為0,本月用電量為正數(shù),導(dǎo)致本月的電量變化率無法計(jì)算,記為缺失。
計(jì)算步驟如下:
(1)訓(xùn)練樣本{x1,x2,…,xn}∈Rn,選取k=3個(gè)類心;
(2)用式(2)計(jì)算其余各點(diǎn)與中心點(diǎn)的距離;
(3)根據(jù)距離最近原則,將各點(diǎn)歸屬于不同類別,
(4)重新計(jì)算中心點(diǎn),
(5)重復(fù)步驟(2)~步驟(4),直至類心不再發(fā)生變化或變化量小到對(duì)分類無影響。
圖3 模型流程圖
對(duì)本文所使用的數(shù)據(jù)源,以電量、電量變化量和電量變化率為變量值,按電量的最大值、中間值以及最小值為初始聚類中心,經(jīng)過64次迭代后,聚類中心內(nèi)不再變化,終止迭代。初始聚類中心和最終聚類中心,分別如表1和表2所示。
表1 K-means初始類心
表2 K-means迭代結(jié)果
聚類結(jié)果顯示,I類用戶數(shù)量最多,用電量居中;II類用戶數(shù)量次之,用電量最小;III類用戶數(shù)量最少,用電量最大。此外,數(shù)據(jù)顯示,有效聚類用戶數(shù)50 264,缺失28。各類別電量等信息關(guān)系如圖3所示。
圖3(a)為各類電量箱線圖,展示了各類別的用電量情況。I類用戶箱線圖的上邊界為327 kW·h,下邊界為139 kW·h,有少量用戶超出范圍;II類用戶箱線圖的上邊界為142 kW·h,下邊界為0 kW·h,所有用戶都在范圍內(nèi);III類用戶箱線圖的上邊界為620 kW·h,下邊界為324 kW·h,有部分用戶超出邊界。綜合看來,I類用戶的用電量居中,聚類效果較好,超出界限的用戶占I類總用戶的3.12%;II類用戶的用電量最小,但聚類效果最好,無超出界限用戶;III類用戶的用電量最大,聚類效果較好,超出界限用戶占III類總數(shù)的3.58%。
圖3(b)展示了電量與電量變化量的關(guān)系??梢钥闯觯琁類用戶電量變化量范圍最大,浮動(dòng)較大,極端值甚至出現(xiàn)-100 kW·h的變化;II類用戶的電量變化量范圍最小,基本維持在±50 kW·h之內(nèi),屬于最穩(wěn)定的一類用戶;III類用戶電量變化量相對(duì)居中,較為穩(wěn)定。
圖3(c)展示了電量與電量變化率的關(guān)系??煽闯觯琁類與III類用戶的變化率無較大差異,基本符合正常生活用電習(xí)慣;但是,有的II類用戶的用電變化率出現(xiàn)了極大波動(dòng)。
圖3(d)展示了各類別的電量變化量與變化率的關(guān)系??梢郧逦闯觯琁I類用戶的電量變化量不大,但變化率出現(xiàn)異常。查看這些用戶的數(shù)據(jù)得知,這些用戶多為上月用電量很少甚至為個(gè)位數(shù),而本月用電量正常,遂導(dǎo)致電量變化率激增。
聚類結(jié)果總結(jié)如表3所示:
圖4 聚類結(jié)果圖
表3 聚類結(jié)果總結(jié)
利用綜合用電量、用電變化量以及用電變化率對(duì)用戶聚類,將用戶按其用電特性分類,從而為電量管理、電量預(yù)測(cè)提供數(shù)據(jù)支持。其中,電量預(yù)測(cè)中最重要的一步聚類,而具有代表性的聚類將提高預(yù)測(cè)精度。例如,本文中將用戶分為I、II、III類,在預(yù)測(cè)中對(duì)不同的類別建立不同的預(yù)測(cè)模型,再將預(yù)測(cè)電量綜合,即可得到更高精度的預(yù)測(cè)結(jié)果。
本文基于K-means算法分析計(jì)算用戶用電量、電量變化量以及電量變化率等數(shù)據(jù),將用戶聚類為三種不同的類型。每個(gè)類別都有其特點(diǎn),各類別間相差較大,對(duì)數(shù)據(jù)管理具有重要意義,如利用海量的歷史數(shù)據(jù)發(fā)掘其特點(diǎn),對(duì)電量預(yù)測(cè)和階梯電價(jià)的制定等具有一定的指導(dǎo)意義。綜上所述,一個(gè)合理的聚類結(jié)果,將大大提高電量預(yù)測(cè)的準(zhǔn)確度,從而對(duì)階梯電價(jià)的制定提供合理的理論依據(jù)。