徐毅,吳鳴,李廣瑋,王昕揚(yáng)
(1.上海電力大學(xué) 電子與信息工程學(xué)院,上海 200090; 2.中國(guó)電力科學(xué)研究院有限公司,北京 100192)
近年來(lái),隨著智能電網(wǎng)的深入和推進(jìn),越來(lái)越多的高級(jí)量測(cè)體系(Advanced Metering Infrastructure,AMI)投入運(yùn)營(yíng)中,電力負(fù)荷數(shù)據(jù)變得易于感知和測(cè)量,為電網(wǎng)公司提供了海量的用戶(hù)負(fù)荷數(shù)據(jù)[1]。通過(guò)聚類(lèi)技術(shù)可以從大量的用戶(hù)負(fù)荷數(shù)據(jù)中挖掘出其典型的用電特征,能夠?yàn)殡娋W(wǎng)公司實(shí)現(xiàn)負(fù)荷預(yù)測(cè)[2]、需求側(cè)管理[3]等方面提供強(qiáng)有力支撐。因此研究合理準(zhǔn)確的負(fù)荷曲線(xiàn)聚類(lèi)方法具有十分重要的現(xiàn)實(shí)意義。
目前國(guó)內(nèi)外對(duì)負(fù)荷曲線(xiàn)的聚類(lèi)大致上可分為直接法和間接法[4]。直接法是對(duì)經(jīng)采集過(guò)的負(fù)荷數(shù)據(jù)直接進(jìn)行聚類(lèi),常見(jiàn)的聚類(lèi)算法有K-means[5]、FCM、SOM等。但隨著負(fù)荷數(shù)據(jù)規(guī)模的不斷增長(zhǎng),直接法帶來(lái)了存儲(chǔ)和計(jì)算效率的雙重挑戰(zhàn)。
間接法可以解決這一矛盾。間接法是指先提取負(fù)荷曲線(xiàn)的特征,再根據(jù)其特征進(jìn)行聚類(lèi)分析。間接法可分為變換和降維兩種方法。常見(jiàn)的變換方法有離散小波變換[6]、離散傅里葉變換[7]等。降維是指將負(fù)荷數(shù)據(jù)維數(shù)進(jìn)行降低,再進(jìn)行聚類(lèi)。例如文獻(xiàn)[8]采用了6個(gè)有明確物理意義的特征指標(biāo)作為負(fù)荷曲線(xiàn)降維的依據(jù),再利用加權(quán)K-means聚類(lèi)方法進(jìn)行聚類(lèi)。文獻(xiàn)[9]采用主分量分析方法得到日負(fù)荷曲線(xiàn)的部分主要特征作為降維聚類(lèi)的指標(biāo),再利用加權(quán)K-means方法進(jìn)行聚類(lèi)。文獻(xiàn)[10]采用奇異值分解方法將數(shù)據(jù)旋轉(zhuǎn)變換至新的坐標(biāo)系中,然后將各坐標(biāo)軸上的坐標(biāo)作為降維指標(biāo),再利用改進(jìn)的K-means方法進(jìn)行聚類(lèi)。文獻(xiàn)[11]采用SAX算法對(duì)負(fù)荷曲線(xiàn)進(jìn)行降維并提取特征,再運(yùn)用改進(jìn)AP聚類(lèi)算法對(duì)負(fù)荷曲線(xiàn)進(jìn)行聚類(lèi)。文獻(xiàn)[12]采用主成分分析進(jìn)行降維,再用四種聚類(lèi)方法進(jìn)行聚類(lèi),最后用共識(shí)矩陣對(duì)各聚類(lèi)成員進(jìn)行聚類(lèi)融合。
上述選取的不同降維方法雖然都能進(jìn)行有效的聚類(lèi),但在聚類(lèi)過(guò)程中均存在兩個(gè)問(wèn)題:(1)采用降維破壞了原本曲線(xiàn)之間的差異性,對(duì)原始曲線(xiàn)信息造成一定程度損失,可能會(huì)導(dǎo)致原本被分成一類(lèi)的曲線(xiàn)通過(guò)降維被分成不同類(lèi)別,進(jìn)而會(huì)對(duì)曲線(xiàn)聚類(lèi)的準(zhǔn)確度造成影響;(2)通過(guò)降維得到的指標(biāo)是有重要程度之分的,需要對(duì)其進(jìn)行權(quán)重配置。
多維縮放(Multi-Dimensional Scaling,MDS)是一種典型的降維算法,它是保持了樣本在原始空間和低維空間的距離不改變?yōu)樵瓌t,最大程度地減小了數(shù)據(jù)“失真”的現(xiàn)象[13]。這樣可以很好的解決因降維后所導(dǎo)致的樣本間差異性降低的問(wèn)題。
假設(shè)有n個(gè)用戶(hù),每個(gè)用戶(hù)采集到m維數(shù)據(jù),可以計(jì)算出在原始m維空間中的距離矩陣D∈Rn×n(這里采用歐式距離),其中dij表示第i個(gè)用戶(hù)和第j個(gè)用戶(hù)之間的距離。若把數(shù)據(jù)降維到q維空間中去,得到所有用戶(hù)點(diǎn)在q維空間中的表示為矩陣Z∈Rn×q,其中第i行數(shù)據(jù)zi=[zi,1,zi,2,…,zi,q]表示第i個(gè)樣本,并且任意兩個(gè)用戶(hù)在q維空間中的距離等于原始空間中的距離。由此,可推導(dǎo)出滿(mǎn)足此條件矩陣Z的解析解[14]。
由保持距離原則可知:
(1)
假設(shè)低維空間中的樣本是中心化的,即:
(2)
對(duì)式(1)左右兩邊求和有:
(3)
(4)
(5)
定義內(nèi)積矩陣B=ZZT∈Rn×n,bij是矩陣B中第i行第j列的元素,即bij=zizTj。則由式(1)可知:
(6)
由式(2)~式(6)可得
(7)
對(duì)矩陣B做特征分解,得到:
B=VΛVT
(8)
式中Λ是由B的特征值生成的對(duì)角矩陣;V是特征向量作為列的矩陣。
由矩陣B的定義則有:
(9)
為了能實(shí)現(xiàn)降維,往往僅需降維后的距離與原始空間中的距離盡可能接近,而不必嚴(yán)格相等。若降到q維空間中去,則選取前q個(gè)最大的特征值及其所對(duì)應(yīng)的特征向量,得到Λq和Vq,則降維后的特征表示為:
(10)
求出矩陣B的特征值并按照從大到小(取前m個(gè))排列為:λ1≥λ2≥…≥λq…≥λm
定義sq為累計(jì)貢獻(xiàn)率,其公式如下:
(11)
累計(jì)貢獻(xiàn)率越大,則說(shuō)明降維后的矩陣保留了越多的信息。通常累計(jì)貢獻(xiàn)率達(dá)到95%即可確定降維的數(shù)目。
文中據(jù)預(yù)處理包括異常數(shù)據(jù)處理、數(shù)據(jù)歸一化處理和曲線(xiàn)平滑處理三部分。
2.1.1 異常數(shù)據(jù)處理
在數(shù)據(jù)采集的過(guò)程中,由于數(shù)據(jù)傳輸、裝置故障、線(xiàn)路等問(wèn)題會(huì)產(chǎn)生異常數(shù)據(jù)[15]。對(duì)異常數(shù)據(jù)需要通過(guò)負(fù)荷變化率來(lái)判別,當(dāng)某條日負(fù)荷曲線(xiàn)的數(shù)據(jù)異常量超過(guò)10%時(shí),需剔除;若小于10%時(shí),則通過(guò)均值替換法進(jìn)行修正。其計(jì)算方式如下:
設(shè)第i條曲線(xiàn)的第k個(gè)數(shù)據(jù)值xi,k為異常數(shù)據(jù)點(diǎn),修正值為:
(12)
2.1.2 數(shù)據(jù)歸一化處理
由于采集到的日負(fù)荷曲線(xiàn)數(shù)據(jù)之間存在較大的差異,為消除負(fù)荷數(shù)量級(jí)對(duì)聚類(lèi)效果的影響,因此要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
通過(guò)歸一化可將用戶(hù)負(fù)荷特性數(shù)據(jù)壓縮在區(qū)間[0,1]中。文中用極值歸一化方法,表達(dá)式如下:
(13)
式中x(i,k)是經(jīng)采集過(guò)的第i條用電曲線(xiàn)在第k點(diǎn)的負(fù)荷數(shù)據(jù);x′(i,k)是經(jīng)歸一化后的第i條用電曲線(xiàn)在第k點(diǎn)的負(fù)荷數(shù)據(jù);x(i)max和x(i)min是第i條負(fù)荷曲線(xiàn)的最大、最小用電量。
2.1.3 曲線(xiàn)平滑處理
電網(wǎng)在實(shí)際運(yùn)行時(shí)由于受到通信中斷、軟硬件故障、信號(hào)干擾等影響會(huì)使得負(fù)荷數(shù)據(jù)產(chǎn)生失真情況,導(dǎo)致負(fù)荷曲線(xiàn)出現(xiàn)較大波動(dòng),從而影響聚類(lèi)結(jié)果。而高斯濾波法可以更有效地“消除干擾”,進(jìn)一步突出曲線(xiàn)形狀,反映出曲線(xiàn)的總體趨勢(shì)[16]。故采用高斯法處理數(shù)據(jù),經(jīng)過(guò)處理前后的負(fù)荷曲線(xiàn)如圖1所示。
圖1 負(fù)荷曲線(xiàn)的平滑處理
2.2.1 基于CRITIC—熵權(quán)法的指標(biāo)權(quán)重配置方法
基于MDS的理論,若降低到q維空間中去,則取出前q個(gè)最大的特征值。這說(shuō)明特征值的大小反映出了該維空間的重要程度,也同時(shí)說(shuō)明降維指標(biāo)是有重要程度之分的。若將降維后的矩陣直接進(jìn)行K-means聚類(lèi),則會(huì)忽略降維指標(biāo)的重要程度,將在很大程度上影響負(fù)荷聚類(lèi)質(zhì)量。故需要進(jìn)行降維指標(biāo)權(quán)重配置。
單一的CRITIC法未能考慮指標(biāo)間的差異性對(duì)指標(biāo)權(quán)重的影響,而熵權(quán)法則是充分運(yùn)用指標(biāo)的數(shù)據(jù)信息的差異來(lái)確定指標(biāo)權(quán)重,可以彌補(bǔ)這一不足;但是單一的熵權(quán)法又容易受到指標(biāo)數(shù)值變動(dòng)的影響,指標(biāo)值的變動(dòng)很小或者很突然地變大變小會(huì)使得熵權(quán)法用起來(lái)有局限。故本文將兩種方法相融合,優(yōu)勢(shì)互補(bǔ),構(gòu)建了基于CRITIC—熵權(quán)法的指標(biāo)權(quán)重配置方法[17]。
設(shè)降維后的矩陣Z=(zij)n×q,i=1,2,…,n;j=1,2,…,q。則熵權(quán)法步驟如下:
(1)計(jì)算信息熵
(14)
(15)
式中Pij是第i個(gè)用戶(hù)在第j個(gè)降維指標(biāo)下的貢獻(xiàn)度;Ej是第j個(gè)降維指標(biāo)的信息熵。
(2)確定權(quán)重
(16)
式中wj是第j個(gè)降維指標(biāo)的權(quán)重。
CRITIC法步驟如下:
(1)計(jì)算指標(biāo)信息量
(17)
式中Cj是第j個(gè)降維指標(biāo)所含有的數(shù)據(jù)信息量;δj是第j個(gè)降維指標(biāo)所含有的數(shù)據(jù)標(biāo)準(zhǔn)差;rkj是k、j兩個(gè)降維指標(biāo)之間的相關(guān)系數(shù)。
(2) 確定權(quán)重
(18)
進(jìn)而得到降維指標(biāo)的綜合權(quán)重為:
(19)
由此即可確定權(quán)重向量W=[W1,W2,…,Wq]。
2.2.2 改進(jìn)的K-means聚類(lèi)方法
以降維后的矩陣Z為輸入,以歐式距離作為相似性判據(jù),進(jìn)行聚類(lèi),其處理過(guò)程如下:
Step2:樣本分類(lèi)。計(jì)算每條日負(fù)荷曲線(xiàn)到K個(gè)子聚類(lèi)中心的加權(quán)歐式距離,再將該條日負(fù)荷曲線(xiàn)劃分到距離它最近的子聚類(lèi)中心。從樣本zi到第j個(gè)聚類(lèi)中心zj=[zj,1,zj,2,…,zj,q]的加權(quán)歐式距離可由式(20)計(jì)算:
(20)
Step3:更新聚類(lèi)中心。根據(jù)Step2中所得到的結(jié)果,對(duì)每個(gè)類(lèi)簇中的所有日負(fù)荷曲線(xiàn)求取平均值,并將其作為各類(lèi)簇的新聚類(lèi)中心;
Step4:迭代計(jì)算。計(jì)算聚類(lèi)中心是否收斂,若未收斂則跳轉(zhuǎn)至Step2,重復(fù)步驟Step2和Step3;若收斂則算法結(jié)束。
聚類(lèi)有效性檢驗(yàn)是使用聚類(lèi)有效性指標(biāo),對(duì)聚類(lèi)后的結(jié)果進(jìn)行評(píng)價(jià),以此來(lái)明確最優(yōu)類(lèi)簇?cái)?shù)的過(guò)程[18]。常見(jiàn)的聚類(lèi)有效性指標(biāo)有輪廓系數(shù)(Silhouette Coefficient, SC)、CHI指標(biāo)(Calinski-Harabasz Index,CHI)、戴維森堡丁指數(shù)(Davies-Bouldin Index,DBI)。
由于SC是通過(guò)極值點(diǎn)來(lái)判斷最優(yōu)類(lèi)簇?cái)?shù),而極值點(diǎn)相比較于拐點(diǎn)從視覺(jué)上更易覺(jué)察出;此外SC的內(nèi)聚度指標(biāo)和分離度指標(biāo)使用的是樣本的平均歐式距離,穩(wěn)定性強(qiáng),不易受到類(lèi)簇中心干擾,所以采用SC作為聚類(lèi)有效性指標(biāo)[19]。
設(shè)曲線(xiàn)被分成K個(gè)類(lèi)簇U1,U2,…,UK,當(dāng)計(jì)及權(quán)重向量W時(shí),則對(duì)于第i個(gè)樣本其對(duì)應(yīng)的向量修正輪廓系數(shù)為:
(21)
其中:
式中a(i)為i向量到同一簇內(nèi)其他點(diǎn)不相似程度的平均值,該值越小,簇內(nèi)越緊湊;b(i)為i向量到其他簇的平均不相似程度的最小值,該值越大,簇間分離程度越高。
將所有樣本的輪廓系數(shù)求平均值,就是該聚類(lèi)結(jié)果的總輪廓系數(shù)Sn(i):
(22)
Sn(i)可用于評(píng)估聚類(lèi)的總體質(zhì)量,其值越大就表明聚類(lèi)的效果越好,對(duì)應(yīng)于最大值時(shí)的聚類(lèi)數(shù)目K就是該聚類(lèi)結(jié)果的最優(yōu)類(lèi)簇?cái)?shù)?;贛DS的負(fù)荷聚類(lèi)算法的流程圖如圖2所示。
圖2 基于MDS的負(fù)荷聚類(lèi)流程圖
文中實(shí)驗(yàn)數(shù)據(jù)集來(lái)自于SEAI發(fā)布的愛(ài)爾蘭智能電表實(shí)際測(cè)量數(shù)據(jù),其覆蓋了2009年~2011年6 369個(gè)家庭用戶(hù)及中小型企業(yè)用戶(hù),負(fù)荷數(shù)據(jù)每30 min采集一次,每個(gè)用戶(hù)每天共采集48個(gè)數(shù)據(jù)點(diǎn)[20]。
本文共選取2 945戶(hù)負(fù)荷數(shù)據(jù)作為樣本進(jìn)行實(shí)驗(yàn),經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,最終獲得了共計(jì)2 732條有效的日負(fù)荷曲線(xiàn),構(gòu)成了2 732×48階矩陣A。
采用MDS降維并求累計(jì)貢獻(xiàn)率sq,如圖3所示。
圖3 累計(jì)貢獻(xiàn)率
由圖3可知,當(dāng)降維指標(biāo)數(shù)目達(dá)到3時(shí)其累計(jì)貢獻(xiàn)率可達(dá)到95%以上,故選取降維指標(biāo)數(shù)目q=3,由此得到2 732×3階降維矩陣Z。再經(jīng)熵權(quán)法確定權(quán)重,得權(quán)重向量W=[0.780 6,0.084 5,0.134 9]。采用改進(jìn)K-means算法對(duì)矩陣Z進(jìn)行聚類(lèi),經(jīng)過(guò)計(jì)算得出總的輪廓系數(shù)Sn(i)和聚類(lèi)數(shù)目K之間的曲線(xiàn)如圖4所示。
圖4 基于MDS降維的聚類(lèi)指標(biāo)曲線(xiàn)
由圖4可知當(dāng)K=5時(shí),Sn(i)取最大值為0.935 4,此時(shí)聚類(lèi)效果最好,故最優(yōu)類(lèi)簇?cái)?shù)為5。這時(shí)得到的日負(fù)荷曲線(xiàn)聚類(lèi)結(jié)果如圖5所示。
圖5 基于MDS降維的日負(fù)荷曲線(xiàn)聚類(lèi)結(jié)果
計(jì)算每類(lèi)簇中所有日負(fù)荷曲線(xiàn)的平均值,并將其作為該類(lèi)簇負(fù)荷的典型日負(fù)荷曲線(xiàn),則得到的結(jié)果如圖6所示。
圖6 基于MDS降維的典型日負(fù)荷曲線(xiàn)圖
在圖6中,各類(lèi)簇曲線(xiàn)按照順序依次呈避峰型負(fù)荷、平穩(wěn)型負(fù)荷、單峰型負(fù)荷、雙峰型負(fù)荷和錯(cuò)峰型負(fù)荷。在聚類(lèi)結(jié)果中屬于各類(lèi)簇的曲線(xiàn)數(shù)目依次為566,222,819,220和605。
類(lèi)簇1為避峰型負(fù)荷,主要用電量在18:00-次日6:00期間,這類(lèi)負(fù)荷主要是夜間營(yíng)業(yè)用電量大,符合酒店、酒吧、KTV等的用電特征。類(lèi)簇2為平穩(wěn)型負(fù)荷,全天用電量較為平坦,這類(lèi)負(fù)荷應(yīng)為一些保障民生生活類(lèi)的負(fù)荷,全天無(wú)休,如供電、供暖等。類(lèi)簇3為單峰型負(fù)荷,表現(xiàn)為在白天9:00-17:00期間用電量大,負(fù)荷曲線(xiàn)較為平滑,這類(lèi)負(fù)荷包括學(xué)校、醫(yī)院、辦公樓等。類(lèi)簇4為雙峰型負(fù)荷,兩個(gè)負(fù)荷峰期集中在9:00-12:00和14:00-17:00期間,多為政府機(jī)關(guān)、企事業(yè)辦事機(jī)構(gòu)等行業(yè)性用戶(hù)。類(lèi)簇5為錯(cuò)峰型負(fù)荷,主要用電量在0:00-6:00和15:00-24:00期間,在凌晨左右有小范圍的波動(dòng),所以主要呈夜間用電特征,這類(lèi)負(fù)荷主要為家庭用戶(hù)白天不在家用電在晚上,同時(shí)符合一些用電量大的企業(yè)利用峰谷電價(jià)在電價(jià)低谷時(shí)安排企業(yè)進(jìn)行生產(chǎn)的習(xí)慣。
各類(lèi)簇曲線(xiàn)走勢(shì)符合數(shù)據(jù)集的特征,故基于MDS降維的聚類(lèi)算法能夠較為準(zhǔn)確地對(duì)日負(fù)荷曲線(xiàn)進(jìn)行分類(lèi),分類(lèi)結(jié)果較為合理。
將原始數(shù)據(jù)經(jīng)數(shù)據(jù)預(yù)處理及曲線(xiàn)平滑處理后,直接采用以48個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)為輸入,利用傳統(tǒng)K-means算法進(jìn)行聚類(lèi)。此時(shí)得出總的輪廓系數(shù)Sn(i)和聚類(lèi)結(jié)果分別如圖7、圖8所示。
圖7 基于K-means降維的聚類(lèi)指標(biāo)曲線(xiàn)
圖8 基于K-means降維的日負(fù)荷曲線(xiàn)聚類(lèi)結(jié)果
此時(shí)得到屬于各類(lèi)簇的曲線(xiàn)數(shù)目依次為570,222,815,224和601。與采用MDS降維聚類(lèi)的結(jié)果相比可知雙峰型負(fù)荷和錯(cuò)峰型負(fù)荷顯得雜亂無(wú)章,
負(fù)荷曲線(xiàn)不平滑。
將使用MDS降維聚類(lèi)得到的輪廓系數(shù)、運(yùn)行時(shí)間等數(shù)據(jù)和采用傳統(tǒng)K-means聚類(lèi)算法得到的運(yùn)行數(shù)據(jù)作對(duì)比,結(jié)果見(jiàn)表1所示。
表1 MDS算法和k-means算法聚類(lèi)結(jié)果對(duì)比
由表1可知,兩種算法的最優(yōu)類(lèi)簇?cái)?shù)都是5,說(shuō)明分類(lèi)數(shù)目選擇合理。在采用MDS降維算法時(shí)的總輪廓系數(shù)Sn(i)略大于傳統(tǒng)K-menas聚類(lèi)算法,則前者的聚類(lèi)質(zhì)量?jī)?yōu)于后者,這是因?yàn)椴捎肕DS降維提取出負(fù)荷最本質(zhì)的特征,忽略了無(wú)關(guān)緊要的信息的干擾,同時(shí)也說(shuō)明了采用MDS降維聚類(lèi)的準(zhǔn)確度高于采用傳統(tǒng)K-menas聚類(lèi)。MDS降維聚類(lèi)算法的程序總運(yùn)行時(shí)間約為傳統(tǒng)K-menas聚類(lèi)算法7/11。因此,使用MDS降維聚類(lèi)算法的分類(lèi)數(shù)選擇準(zhǔn)確,分類(lèi)結(jié)果合理,并且在聚類(lèi)準(zhǔn)確度和聚類(lèi)時(shí)間兩方面均優(yōu)于傳統(tǒng)K-means聚類(lèi)算法。
綜上,MDS降維聚類(lèi)算法較傳統(tǒng)K-means方法更能準(zhǔn)確地反映用戶(hù)的功耗特性,具有更好的技術(shù)應(yīng)用價(jià)值。
文章提出一種基于多維縮放的日負(fù)荷曲線(xiàn)聚類(lèi)方法,通過(guò)多維縮放進(jìn)行降維處理、CRITIC—熵權(quán)法確定降維指標(biāo)的權(quán)重并采用加權(quán)歐式距離作為相似性判據(jù),對(duì)日負(fù)荷曲線(xiàn)進(jìn)行聚類(lèi)。算例結(jié)果顯示該降維聚類(lèi)方法應(yīng)用于日負(fù)荷曲線(xiàn)聚類(lèi)提高了聚類(lèi)的準(zhǔn)確度,提升了聚類(lèi)的質(zhì)量。
文中使用的是K-means聚類(lèi)算法進(jìn)行聚類(lèi),初始的聚類(lèi)中心隨機(jī)選取,易陷于局部最優(yōu),后續(xù)研究可以提出一種選擇初始的聚類(lèi)中心的方法,亦可將MDS降維和其他聚類(lèi)算法相結(jié)合。此外,研究方法是將其應(yīng)用于負(fù)荷曲線(xiàn)聚類(lèi)領(lǐng)域,其關(guān)注點(diǎn)是曲線(xiàn)形態(tài)的走勢(shì),后續(xù)研究可以將文中方法應(yīng)用于其他領(lǐng)域當(dāng)中。