徐明杰 趙 健 王小宇 宣 羿 陳伯建
基于多任務(wù)聯(lián)合模型的居民用電模式分類方法
徐明杰1趙 健1王小宇1宣 羿2陳伯建3
(1. 上海電力大學(xué)電氣工程學(xué)院 上海 200090 2. 國網(wǎng)浙江省電力有限公司杭州供電公司 杭州 310016 3. 國網(wǎng)福建省電力有限公司電力科學(xué)研究院 福州 350000)
識別海量居民用戶的用電行為模式并進(jìn)行合理分類,可為需求側(cè)精益化管理提供輔助決策。該文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)自動編碼器與層次聚類多任務(wù)聯(lián)合模型的居民用電模式分類方法。首先,提出基于同時(shí)刻量測數(shù)據(jù)均值的缺失值填補(bǔ)方法和基于季節(jié)性極端學(xué)生化偏差檢驗(yàn)的異常點(diǎn)檢測方法,對海量且高維的用電數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與修正;其次,利用卷積神經(jīng)網(wǎng)絡(luò)自動編碼器對居民用電數(shù)據(jù)進(jìn)行特征提取,獲取可表征用戶用電行為的特征向量;然后,結(jié)合層次聚類算法以及輪廓系數(shù)指標(biāo)確定用戶聚類個(gè)數(shù)以及聚類中心向量,并利用聚類中心向量初始化神經(jīng)網(wǎng)絡(luò)聚類層,進(jìn)行用戶聚類,將特征提取過程與用戶聚類過程進(jìn)行聯(lián)合,組成多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)端到端的用電模式分類;最后,結(jié)合環(huán)境溫度和電價(jià)影響因素,在實(shí)際數(shù)據(jù)集進(jìn)行驗(yàn)證。
居民負(fù)荷 負(fù)荷聚類 卷積神經(jīng)網(wǎng)絡(luò) 自動編碼器 聯(lián)合模型
居民負(fù)荷是電力負(fù)荷的重要組成部分,有效分析居民用戶的用電特性有助于洞悉用戶用電行為模式,為需求側(cè)精益化管理、分時(shí)電價(jià)制定及新能源就地消納等應(yīng)用提供決策支撐,協(xié)助電力公司在保障民生的同時(shí),進(jìn)一步推動實(shí)現(xiàn)“碳中和”[1-5]。然而居民智能電表所量測的用電數(shù)據(jù)高維且海量,數(shù)據(jù)質(zhì)量不一,蘊(yùn)含大量非線性關(guān)系[6]。并且居民負(fù)荷之間的用電特性差異大[7],負(fù)荷調(diào)控潛力各不相同。如何針對海量居民用戶進(jìn)行精準(zhǔn)的用電模式分類,把握其用電行為與能耗模式,成為推動電力供需互動發(fā)展亟需解決的問題。
海量用戶的用電模式分類通常利用聚類算法將具有相似用電行為模式的用戶劃分為同一類別[8],其主要可分為直接聚類法和間接聚類法。直接聚類以用戶用電數(shù)據(jù)作為輸入,利用聚類算法進(jìn)行分類。在文獻(xiàn)[9-12]中,分別采用改進(jìn)Kmeans算法、模糊C均值聚類和動態(tài)聚類算法對電力用戶的日負(fù)荷曲線進(jìn)行分類。文獻(xiàn)[13]結(jié)合時(shí)間序列的動態(tài)時(shí)間扭曲距離和密度峰值聚類方法獲取典型負(fù)荷曲線。然而將高維的用電數(shù)據(jù)直接進(jìn)行聚類難以提取復(fù)雜的用電行為變化特性,若僅采用單個(gè)典型日的負(fù)荷數(shù)據(jù)又難以考慮負(fù)荷在長時(shí)間尺度上的時(shí)序變化特性。
間接聚類主要利用特征提取方法減少數(shù)據(jù)維度后再進(jìn)行聚類。典型的特征提取方法包含人工特征提取法與降維算法等。人工特征提取法通過用電曲線的用電特征指標(biāo)表征用戶用電行為[8],例如,日最大負(fù)荷、日負(fù)荷率、不同用電時(shí)間段的平均負(fù)荷等指標(biāo)[14-15]。但以上指標(biāo)難以描述用戶用電行為的時(shí)序變化特性,所以許多研究引入降維算法進(jìn)行分析。文獻(xiàn)[16-17]引入分段聚合近似法及深度置信網(wǎng)絡(luò)對負(fù)荷曲線進(jìn)行近似。文獻(xiàn)[18-19]采用主成分分析法對用戶量測數(shù)據(jù)進(jìn)行降維,然而該算法屬于線性降維,難以考慮數(shù)據(jù)間的非線性關(guān)系。文獻(xiàn)[20]提出一種基于長短期記憶網(wǎng)絡(luò)自動編碼器的負(fù)荷聚類方法,但是長短期記憶網(wǎng)絡(luò)的輸入需是單個(gè)且連續(xù)的時(shí)間序列,難以實(shí)現(xiàn)多用戶的分類。
針對以上問題,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)自動編碼器(Convolutional Neural Networks Auto-Encoder, CNN-AE)與層次聚類聯(lián)合模型的居民用電模式分類方法。首先,提出一種基于同時(shí)刻量測數(shù)據(jù)均值(Mean Value of Simultaneous Data, MVSD)的缺失值填補(bǔ)方法和基于季節(jié)性極端學(xué)生化偏差檢驗(yàn)(Seasonal Hybrid Extreme Studentized Deviate Test, S-H-ESD)的異常點(diǎn)檢測方法,減小數(shù)據(jù)缺失值以及異常值對模型分類的影響;其次,提出一種用于用電行為特征提取和用戶聚類的聯(lián)合神經(jīng)網(wǎng)絡(luò)模型,該模型通過CNN-AE對居民用電數(shù)據(jù)進(jìn)行特征提取,挖掘其內(nèi)在非線性關(guān)系以及時(shí)序變化特性,獲取表征居民用電行為的特征向量,同時(shí)結(jié)合層次聚類算法自定義一個(gè)神經(jīng)網(wǎng)絡(luò)層用于用戶聚類;然后,將特征提取模型與用戶分類模型進(jìn)行聯(lián)合,組成多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型;最后,通過聯(lián)合模型的部分神經(jīng)網(wǎng)絡(luò)參數(shù)共享,同步優(yōu)化其特征提取誤差與聚類誤差,避免特征提取模型過擬合的同時(shí)降低用戶聚類的誤差,實(shí)現(xiàn)端到端的居民用電模式分類,并結(jié)合環(huán)境溫度和電價(jià)因素,在實(shí)際公開數(shù)據(jù)集中驗(yàn)證了本文方法的有效性。
由于居民用戶智能電表在量測及信息傳輸過程中會存在量測誤差和數(shù)據(jù)上傳失敗等問題,導(dǎo)致量測數(shù)據(jù)存在數(shù)據(jù)缺失、異常,從而影響模型準(zhǔn)確。同時(shí)考慮到神經(jīng)網(wǎng)絡(luò)模型對訓(xùn)練數(shù)據(jù)的輸入維度有嚴(yán)格要求,所以需要對數(shù)據(jù)集進(jìn)行預(yù)處理清洗及修正。針對此問題,本文提出基于同時(shí)刻量測數(shù)據(jù)均值的缺失值填補(bǔ)方法和基于季節(jié)性極端學(xué)生化偏差檢驗(yàn)算法的異常點(diǎn)檢測方法。通過計(jì)算MVSD數(shù)值對數(shù)據(jù)缺失值進(jìn)行填補(bǔ),并利用S-H-ESD算法對用戶的用電數(shù)據(jù)進(jìn)行異常檢測。將所檢測出的異常點(diǎn)數(shù)值重新定義為缺失值,并再次進(jìn)行填補(bǔ),直至完成對整個(gè)數(shù)據(jù)集的清洗。
為了減小異常值對算法模型的影響,提出基于S-H-ESD算法的居民用戶量測數(shù)據(jù)異常點(diǎn)檢測方法。該方法結(jié)合時(shí)間序列分解的季節(jié)性成分和絕對中位差(Median Absolute Deviation, MAD)對ESD算法進(jìn)行改進(jìn),提升了對高占比異常數(shù)據(jù)時(shí)間序列異常檢測的魯棒性。
假設(shè)被檢測的單變量時(shí)間序列為,首先對該時(shí)間序列進(jìn)行時(shí)序分解,獲取該時(shí)間序列的周期分量,并計(jì)算余項(xiàng)分量與絕對中位差MAD,計(jì)算方法為
再計(jì)算余項(xiàng)分量與均值偏離最遠(yuǎn)的殘差R,計(jì)算公式為
式中,為殘差的計(jì)算次數(shù);為時(shí)間序列的異常點(diǎn)存在個(gè)數(shù)。
完成殘差計(jì)算之后,計(jì)算對應(yīng)的分布的臨界值λ,其計(jì)算公式為
式中,為被檢測時(shí)間序列的樣本數(shù);t1為顯著度等于、自由度為1時(shí)的分布的臨界值;為所選取的置信度水平大小,在本文中取0.95。
當(dāng)R>λ,則定義該樣本點(diǎn)為異常數(shù)據(jù)點(diǎn)。完成一次異常值檢測之后,在進(jìn)行下一次計(jì)算時(shí),應(yīng)刪除上一輪計(jì)算的最大殘差樣本數(shù)據(jù),并重新計(jì)算,直到完成所有樣本的檢測。
自動編碼器是一種數(shù)據(jù)壓縮的算法,具有良好的非線性特征提取能力,可以獲取能夠代表輸入數(shù)據(jù)結(jié)構(gòu)以及隱藏非線性特性的特征向量。最基本的自動編碼器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 自動編碼器示意圖
層次聚類通過計(jì)算不同類別數(shù)據(jù)點(diǎn)間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹,聚類質(zhì)量高[22]。假設(shè)利用所提出的模型針對用戶所提取的特征向量為,用戶的特征向量為,選擇歐式距離作為聚類相似性度量,則用戶與用戶之間的距離相似度d, j為
所以對于個(gè)用戶數(shù)據(jù)的輸入,則用戶間的距離相似度矩陣為
在矩陣中,對距離值最小的兩個(gè)數(shù)據(jù)點(diǎn)進(jìn)行組合,再次計(jì)算距離相似度矩陣。對于組合后數(shù)據(jù)點(diǎn)(,)與單個(gè)數(shù)據(jù)點(diǎn)的距離相似度(j,k),m計(jì)算方法為
再次尋找計(jì)算后未被組合的數(shù)據(jù)點(diǎn)距離相似度的最小值,并對其組合。完成所有數(shù)據(jù)點(diǎn)組合后,對于組合間的距離,選取兩個(gè)組合數(shù)據(jù)點(diǎn)中距離最遠(yuǎn)的兩個(gè)數(shù)據(jù)點(diǎn)間的距離作為這兩個(gè)組合數(shù)據(jù)點(diǎn)的距離,將距離值最小的兩個(gè)數(shù)據(jù)點(diǎn)再次進(jìn)行合并,依此類推,直到完成所有數(shù)據(jù)的合并,形成層次聚類樹。
傳統(tǒng)的間接用戶分類方法先進(jìn)行特征提取,再利用聚類算法進(jìn)行分類。然而特征提取過程中只考慮數(shù)據(jù)的信息損失誤差,聚類算法只考慮分類誤差,未在兩個(gè)計(jì)算模型之間建立聯(lián)系,所以會導(dǎo)致降維算法所提取的特征向量并不是最優(yōu)的用于區(qū)分用戶相似程度的向量。為了將聚類計(jì)算過程結(jié)合到特征提取過程中,提出一種基于CNN-AE與層次聚類算法的聯(lián)合模型,其具體結(jié)構(gòu)如圖2所示。
圖2 聯(lián)合模型結(jié)構(gòu)
具體地,整個(gè)模型可分為CNN-AE模型和編碼-聚類模型兩個(gè)子模型。由于居民的用電數(shù)據(jù)高維且蘊(yùn)含大量非線性關(guān)系,利用CNN-AE可有效對這些序列數(shù)據(jù)進(jìn)行特征提取,降低數(shù)據(jù)維度的同時(shí)獲取可代表用戶用電行為特性的特征向量。編碼-聚類模型負(fù)責(zé)對CNN-AE的編碼器部分所提取的特征向量進(jìn)行聚類,得到最終的用戶聚類結(jié)果。下面對這兩個(gè)模型進(jìn)行詳細(xì)分析。
CNN-AE的學(xué)習(xí)目標(biāo)是獲取能夠代表用戶典型用電特性的特征向量。對于CNN-AE的網(wǎng)絡(luò)架構(gòu)選取,本文選擇對計(jì)算機(jī)視覺領(lǐng)域經(jīng)典網(wǎng)絡(luò)VGGNET-16進(jìn)行改進(jìn)。VGGNET-16相比簡單的圖像處理網(wǎng)絡(luò)例如LeNet、AlexNet,其層數(shù)更深,對數(shù)據(jù)的特征提取能力更強(qiáng),同時(shí)相較其他大型的圖像處理網(wǎng)絡(luò),其結(jié)構(gòu)簡單,減少了計(jì)算成本的同時(shí)保證了模型的精確度。傳統(tǒng)的VGGNET-16神經(jīng)網(wǎng)絡(luò)在進(jìn)行卷積池化特征提取操作之后,將獲得的特征向量進(jìn)行展平,再緊接多個(gè)全連接層,最終實(shí)現(xiàn)圖像分類等應(yīng)用。由于需要對用戶的用電時(shí)間序列進(jìn)行特征提取,所以將其神經(jīng)網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)換為自編碼結(jié)構(gòu)。考慮到卷積神經(jīng)網(wǎng)絡(luò)層數(shù)過多會導(dǎo)致過擬合,對典型VGGNET-16進(jìn)行簡化改進(jìn),減少一定的特征提取層數(shù)。經(jīng)改進(jìn)后的模型首先利用卷積層與降采樣池化層對用電序列數(shù)據(jù)進(jìn)行特征提取,得到隱特征向量,再通過逆卷積層與上采樣池化層對隱特征向量進(jìn)行重構(gòu),并基于數(shù)據(jù)的重建誤差進(jìn)行反向傳播調(diào)整神經(jīng)網(wǎng)絡(luò)權(quán)重。本文選用方均誤差作為數(shù)據(jù)重建誤差的衡量指標(biāo),所以該模型的損失函數(shù)CA為
假設(shè)居民用戶的用電序列每隔半小時(shí)采樣一次,則一天采樣點(diǎn)數(shù)為48個(gè),對于個(gè)量測用戶天的輸入數(shù)據(jù)維度為(,, 48, 1)。需要指出的是,這里將量測天數(shù)作為通道數(shù)放在輸入維度第二位,與傳統(tǒng)的圖像識別輸入數(shù)據(jù)并不完全相同。輸入數(shù)據(jù)經(jīng)過CNN-AE的編碼與解碼處理之后,其輸出維度仍為(,, 48, 1),中間層隱特征向量維度選取為(1, 48)。
編碼-聚類模型由CNN-AE的編碼層和自定義聚類層組成,其中自定義聚類層的主要計(jì)算步驟如下:
(1)初始化自定義聚類層權(quán)重。首先利用CNN-AE模型對輸入數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,得到隱特征向量,再利用層次聚類算法對隱特征向量進(jìn)行初步聚類,獲取各個(gè)類別的聚類中心向量,并將其設(shè)置為自定義聚類層的網(wǎng)絡(luò)參數(shù)權(quán)重。假設(shè)用戶群體總聚類個(gè)數(shù)為,單用戶的用電特征向量輸出維度為(1,),則自定義網(wǎng)絡(luò)層的權(quán)重參數(shù)的維度為(,)。
(2)特征向量獲取。完成聚類層權(quán)重初始化之后,通過CNN-AE的編碼器部分獲取能夠代表用戶用電特性的隱特征向量,作為自定義聚類層的輸入。
(3)距離相似度計(jì)算。計(jì)算每一個(gè)居民用戶的隱特征向量與自定義聚類層中每一個(gè)聚類中心之間的歐式距離,分別記為(d1,d2, …,d),其中d(1≤≤)表示用戶與第類聚類中心之間的歐式距離相似度。
(4)距離相似度轉(zhuǎn)換。為了更確切地將步驟(3)的計(jì)算結(jié)果轉(zhuǎn)換為該用戶所屬該聚類中心的概率,可利用學(xué)生分布將距離相似度轉(zhuǎn)換為概率分布,其轉(zhuǎn)換公式為
式中,q為用戶屬于類別的概率;在非監(jiān)督學(xué)習(xí)中可設(shè)置=1。
通過自定義聚類層計(jì)算,可得到每個(gè)用戶所屬各個(gè)類別的概率,為了定義聚類層的損失函數(shù),本文引入Kullback-Leibler散度(KL散度)指標(biāo)。KL散度又稱為相對熵,是兩個(gè)概率分布間差異的非對稱性度量,其具體的推導(dǎo)過程見附錄。所以除已有概率分布外,還需引入輔助目標(biāo)概率分布。參考文獻(xiàn)[23],可設(shè)置輔助概率分布為
式中,p為用戶屬于類別的輔助概率值。
所以根據(jù)KL散度的定義,自定義聚類層的損失函數(shù)cluster可寫為
需要注意的是,在步驟(1)初始化自定義聚類層權(quán)重時(shí),需利用層次聚類算法在模型外部先確定聚類的個(gè)數(shù)。在未知實(shí)際分類類別數(shù)情況下,本文引入聚類指標(biāo)輪廓系數(shù)(Silhouette Coefficient, SC)衡量聚類效果的好壞。單個(gè)樣本的輪廓系數(shù)S計(jì)算公式為
式中,a為樣本與其所屬類中其他樣本的平均距離;b為樣本與其他類樣本的平均距離。對于整個(gè)數(shù)據(jù)集的聚類結(jié)果的SC計(jì)算公式為
SC的取值范圍為[-1,1],其取值越大,代表聚類的效果越理想。結(jié)合聚類個(gè)數(shù)大小與SC指數(shù)之間變化關(guān)系可確定最終的聚類個(gè)數(shù)。
完整的分類模型將CNN-AE模型和編碼-聚類模型進(jìn)行聯(lián)合,組成多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。多任務(wù)學(xué)習(xí)可通過部分神經(jīng)網(wǎng)絡(luò)參數(shù)共享,不同任務(wù)之間可以相互學(xué)習(xí)。本文將兩個(gè)子模型的損失函數(shù)進(jìn)行累加,得到整個(gè)聯(lián)合模型的損失函數(shù)為
通過該損失函數(shù)可以將兩個(gè)子模型進(jìn)行聯(lián)合,利用Adam求解器同步優(yōu)化CNN-AE的重建誤差和編碼-聚類模型的分類誤差。在特征提取的同時(shí),也可實(shí)時(shí)計(jì)算分類結(jié)果。并且編碼-聚類模型可通過KL散度誤差調(diào)整CNN-AE編碼器部分的神經(jīng)網(wǎng)絡(luò)參數(shù),實(shí)現(xiàn)端到端的居民用電模式分類。用戶分類整體的計(jì)算流程如圖3所示。
本文所選用的數(shù)據(jù)集來自Low Carbon London project下的Smart meter energy consumption data in London households[24],數(shù)據(jù)集包含5 567個(gè)居民用戶每半小時(shí)的用電量(一天48個(gè)采樣點(diǎn),單位kW·h)。整個(gè)數(shù)據(jù)集被分為兩種用電模式客戶,第一種為固定電價(jià)用戶,第二種為動態(tài)電價(jià)用戶。該數(shù)據(jù)集提供了2013年全年的實(shí)時(shí)電價(jià),所以本文選擇2013年全年的數(shù)據(jù)進(jìn)行分析,經(jīng)去除部分無效量測用戶后,還包含3 946個(gè)固定電價(jià)用戶,1 016個(gè)動態(tài)電價(jià)用戶。對篩選后用戶數(shù)據(jù)進(jìn)行缺失值填補(bǔ)與異常點(diǎn)檢測處理,得到清洗后數(shù)據(jù)。
圖3 用戶分類整體計(jì)算流程
考慮到數(shù)據(jù)集包含兩種不同類型的用戶,動態(tài)電價(jià)用戶可能會參與電價(jià)激勵(lì)響應(yīng)導(dǎo)致用電特性發(fā)生改變,所以為了更加精確地對用戶進(jìn)行分類建模,對兩種類型用戶進(jìn)行分別分析。同時(shí)由于居民用戶的用電行為與外界溫度密切相關(guān),所以本文另結(jié)合倫敦地區(qū)2013年的月平均溫度,其變化情況如附圖1所示。從附圖1可知,1月、2月、3月、4月、11月、12月的平均溫度全部低于10℃,其他月份的平均溫度則高于10℃。所以結(jié)合溫度以及電價(jià)類型因素將整個(gè)數(shù)據(jù)集劃分為四個(gè)子數(shù)據(jù)集,劃分結(jié)果見表1。
表1 考慮電價(jià)與溫度因素的數(shù)據(jù)集劃分結(jié)果
Tab.1 Dataset division results considering electricity price and temperature factors
對于動態(tài)電價(jià)用戶,其電價(jià)類型分為高電價(jià)(67.20p/(kW·h))、正常電價(jià)(11.76p/(kW·h))及正常電價(jià)(3.99p/(kW·h)),其中p為貨幣單位便士。電力運(yùn)營商會根據(jù)當(dāng)?shù)嘏渚W(wǎng)的運(yùn)行狀態(tài)以及可再生能源的發(fā)電情況將未來一天各個(gè)時(shí)段的電價(jià)提前一天通過短信等方式發(fā)送給用戶,由用戶決定是否改變自身的用電行為。
如3.2節(jié)所述,在初始化自定義聚類層權(quán)重時(shí),需先確定聚類個(gè)數(shù)。對四個(gè)數(shù)據(jù)集分別進(jìn)行預(yù)訓(xùn)練特征提取、聚類之后,結(jié)合SC指標(biāo)確定各個(gè)數(shù)據(jù)集的聚類個(gè)數(shù)。各個(gè)數(shù)據(jù)集的SC指標(biāo)大小與聚類個(gè)數(shù)之間的關(guān)系如圖4所示。
圖4 聚類個(gè)數(shù)與SC指標(biāo)變化關(guān)系
由圖4可知,對于數(shù)據(jù)集1和數(shù)據(jù)集2,在聚類數(shù)為2時(shí)取得最大的輪廓系數(shù);對于數(shù)據(jù)集3和數(shù)據(jù)集4,分別在聚類數(shù)為4和2時(shí)取得最大輪廓系數(shù)??紤]到用戶分類在智能電網(wǎng)中的應(yīng)用,以及為能源零售商、負(fù)荷聚合商的政策制定提供支持,所選的聚類個(gè)數(shù)不宜過大,也不宜過小[25]。所以綜合SC的變化曲線,選取各個(gè)數(shù)據(jù)集的聚類個(gè)數(shù)為3。
4.2.1 固定電價(jià)用戶分析結(jié)果
首先對固定電價(jià)用戶進(jìn)行分析,經(jīng)過本文所提出的模型進(jìn)行用戶分類之后,對同類用戶各個(gè)時(shí)間點(diǎn)的用電數(shù)據(jù)繪制箱線圖得到該類用戶的典型用電箱線圖。箱線圖可以反映用電數(shù)據(jù)的分布特征,能顯示出一組數(shù)據(jù)的最大值、最小值及上下四分位數(shù)等,并用綠色標(biāo)記標(biāo)識出平均值。對同類別的每個(gè)用戶的各個(gè)時(shí)間點(diǎn)量測值取均值,得到該類所有用戶的典型用電曲線。數(shù)據(jù)集1中各類用戶的典型用電箱線圖與典型用電曲線如圖5所示。
圖5 數(shù)據(jù)集1各類用戶典型用電箱線圖與曲線圖
由圖5a可知,對于數(shù)據(jù)集1,在用電量消耗大小層面,Ⅱ類用戶群體用電消耗量較小,各個(gè)時(shí)段的用電消耗量均值均未超過0.25kW·h;第Ⅰ類用戶群體用電消耗量中等,各個(gè)時(shí)段的用電消耗量均值處在0.25kW·h左右;Ⅲ類用戶群體用電消耗量較高,各個(gè)時(shí)段用電消耗量均值基本都大于0.25kW·h。由圖5b可知,在用電能耗變化趨勢層面,Ⅰ類與Ⅱ類用戶群體用電曲線波動性較小,變化較為規(guī)律,Ⅲ類用戶群體用電曲線波動性大。Ⅰ類和Ⅲ類用戶群體在時(shí)段12~20存在小的用電高峰,在時(shí)段36~44存在大的用電高峰,整體呈現(xiàn)雙峰型用電曲線;對于Ⅲ類用戶群體,部分用戶的用電高峰出現(xiàn)在時(shí)段0~4。
數(shù)據(jù)集2中每類用戶的典型用電箱線圖與典型用電曲線如附圖2所示。對于數(shù)據(jù)集2,由附圖2a可知,在用電量消耗大小層面,Ⅰ類用戶群體在各個(gè)時(shí)段用電量均值大,Ⅱ類與Ⅲ類用戶群體用電量消耗均值小。由附圖2b可知,在用電能耗變化趨勢層面,Ⅱ類與Ⅲ類用戶群體的用電曲線波動性小,Ⅰ類用戶群體的用電曲線波動性大。所有三類用戶群體整體都呈現(xiàn)雙峰型用電曲線,類似于數(shù)據(jù)集1,在時(shí)段16~20與時(shí)段36~44出現(xiàn)用電高峰,并且Ⅰ類用戶群體在時(shí)段0~4的用電量消耗也處于較高水平。
為驗(yàn)證本文模型所提取的低維用電特征向量具有良好的用戶區(qū)分度,利用分布隨機(jī)近鄰嵌入(t-distributed Stochastic Neighbor Embedding, t-SNE)算法將所提取的特征向量降至2維,并結(jié)合散點(diǎn)圖對其進(jìn)行可視化。t-SNE是一種強(qiáng)大的高維數(shù)據(jù)降維方法,相比于其他降維算法,其主要優(yōu)勢為可保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu)與全局結(jié)構(gòu)[26]。將降至2維后的數(shù)據(jù)分別命名為1和2。對數(shù)據(jù)集1所提取的特征向量降維后散點(diǎn)圖如圖6所示。
圖6 數(shù)據(jù)集1特征向量降維后散點(diǎn)圖
數(shù)據(jù)集2特征向量降維后散點(diǎn)圖如附圖3所示。通過圖6和附圖3可以發(fā)現(xiàn),各類用戶的特征向量數(shù)據(jù)經(jīng)過t-SNE降維后具有明顯的區(qū)分度,同類別用戶明顯屬于同一簇,不同類用戶之間的簇界限明顯。
4.2.2 動態(tài)電價(jià)用戶分類結(jié)果分析
對于動態(tài)電價(jià)用戶,類似地,數(shù)據(jù)集3中每類用戶的典型用電箱線圖與典型用電曲線如圖7所示。數(shù)據(jù)集4每類用戶的典型用電箱線圖與典型用電曲線如附圖4所示。由圖7和附圖4可知,對于數(shù)據(jù)集3,在用電量消耗大小層面,Ⅱ類用戶群體用電量消耗水平較低;Ⅲ類用戶群體用電量水平中等,整體均值在0.25~0.5kW·h左右;相比于以上兩類,Ⅰ類用戶群體用電量大小水平高,整體均值為0.5kW·h。對于數(shù)據(jù)集4,Ⅰ類、Ⅱ類、Ⅲ類用戶群體的用電量大小水平分別呈低、高、中變化,整體均值水平分別在0.2kW·h、0.5kW·h、0.3kW·h左右。在用電能耗變化趨勢層面,數(shù)據(jù)集3和數(shù)據(jù)集4的各個(gè)類別的用戶群體具有大致相似的用電行為特性,在時(shí)段12~16存在用電量消耗攀升的過程,并且在時(shí)段16~32的消耗趨于平緩,時(shí)段32~40再次出現(xiàn)用電消耗高峰,往后的剩余時(shí)段用電量消耗逐漸下降并趨于平緩。
圖7 數(shù)據(jù)集3各類用戶典型用電箱線圖與曲線圖
對數(shù)據(jù)集3提取的特征向量降維后可視化散點(diǎn)圖如圖8所示。數(shù)據(jù)集4特征向量降維后散點(diǎn)圖如附圖5所示。由圖8和附圖5可知,對動態(tài)電價(jià)用戶數(shù)據(jù)集所提取的特征向量,經(jīng)t-SNE降維并可視化后,相同類別的用戶聚于同一簇,不同類別的用戶群體之間的界限明顯。
圖8 數(shù)據(jù)集3特征向量降維后散點(diǎn)圖
由于動態(tài)電價(jià)用戶實(shí)行階梯電價(jià),用戶會根據(jù)實(shí)時(shí)電價(jià)的變化情況選擇是否參與電價(jià)激勵(lì)響應(yīng)。為驗(yàn)證用戶分類結(jié)果在評估用戶負(fù)荷調(diào)控潛力中的應(yīng)用,在動態(tài)電價(jià)用戶分類結(jié)果的基礎(chǔ)上,根據(jù)動態(tài)電價(jià)信息選擇典型的電價(jià)變化日期,對不同類型用戶群體的典型用電曲線進(jìn)行對比。對于數(shù)據(jù)集3,本文選取間隔較近的日期2013-12-18與2013-12-22作對比,這兩日為間隔較近的日期,所以用戶用電量需求不會發(fā)生大的改變,其中12月18日各個(gè)時(shí)段均為正常電價(jià),12月22日各時(shí)段的電價(jià)類型不同,包含高、正常、低水平電價(jià),為階梯電價(jià)。分別對各個(gè)類別用戶群體的用電序列在各個(gè)時(shí)刻取均值,得到該類用戶的典型用電曲線,具體對比如圖9所示。
圖9 數(shù)據(jù)集3各類用戶不同電價(jià)下用電曲線對比
在圖9中,不同區(qū)間代表所實(shí)行動態(tài)電價(jià)的不同電價(jià)水平,可以發(fā)現(xiàn)不同類別的用戶群體對電價(jià)激勵(lì)響應(yīng)情況不相同。Ⅰ類和Ⅲ類用戶群體明顯地參與電價(jià)激勵(lì)響應(yīng),相比于12月18日各時(shí)段只實(shí)行正常電價(jià)時(shí)的典型用電曲線,這些用戶群體在12月22日的低電價(jià)時(shí)段大幅增加了用電量,Ⅱ類用戶群體對電價(jià)激勵(lì)響應(yīng)并不積極,未明顯改變自身的用電行為。在高電價(jià)時(shí)段,各類用戶群體基本均未改變自身的用電習(xí)慣。
對于數(shù)據(jù)集4,選擇2013-7-22與2013-7-23作為對比日期,其中7月22日的各時(shí)段電價(jià)不發(fā)生變化,均為正常電價(jià),7月23日的不同時(shí)段電價(jià)類型不同,為階梯電價(jià)。具體對比如附圖6所示,Ⅰ類和Ⅲ類用戶群體對電價(jià)激勵(lì)進(jìn)行響應(yīng),在低電價(jià)時(shí)段適當(dāng)增加了自身的用電量,Ⅱ類用戶群體未明顯改變自身的用電行為??紤]數(shù)據(jù)集4所在日期的平均溫度相比于數(shù)據(jù)集3較高,用戶的制熱負(fù)荷少,所以在用戶群體參與電價(jià)激勵(lì)響應(yīng)時(shí)所改變的用電量較少。
為了驗(yàn)證本文所提出模型的優(yōu)越性,引入PCA-Kmeans聚類方法、PCA-層次聚類法及先用CNN-AE特征提取再單獨(dú)聚類的非聯(lián)合模型方法進(jìn)行對比。同時(shí)為更全面地評價(jià)各類方法的優(yōu)劣,另引入DBI(Davies-Bouldin Index)指標(biāo)以及CH(Calinski-Harabas)指標(biāo)。
DBI指標(biāo)衡量同一簇中數(shù)據(jù)的緊密性,其值越小代表分類效果越好,其計(jì)算公式為
CH指標(biāo)通過計(jì)算類內(nèi)各點(diǎn)與類中心的距離二次方和來度量類內(nèi)的緊密度,其值越大代表類內(nèi)自身越緊密,類與類之間越分散,即聚類結(jié)果更優(yōu)。
結(jié)合SC指標(biāo)、DBI指標(biāo)和CH指標(biāo),計(jì)算各方法在聚類數(shù)為3時(shí)對應(yīng)的指標(biāo)值,結(jié)果見表2。
表2 PCA-Kmeans、PCA-層次聚類法、非聯(lián)合模型和聯(lián)合模型算法性能對比
Tab.2 Performance comparison among PCA-Kmeans, PCA hierarchical clustering, non-joint model, joint model
由表2可知,本文所提出的聯(lián)合模型與其余算法相比,SC指標(biāo)更高,DBI值更小,CH值更高,分類效果更好。非聯(lián)合模型相比基于PCA降維的分類方法各指標(biāo)提升效果不大,然而采用多任務(wù)學(xué)習(xí)的聯(lián)合模型對分類有效性提升明顯。
為了進(jìn)一步驗(yàn)證本文方法的適用性,本文另在愛爾蘭CER公開數(shù)據(jù)集上選取700名固定電價(jià)居民用戶進(jìn)行了方法驗(yàn)證[27],算例仿真結(jié)果如附圖7、附圖8和附表1所示。經(jīng)驗(yàn)證,本文方法在CER數(shù)據(jù)集上具有一定優(yōu)越性。
針對居民用戶用電數(shù)據(jù)的海量高維性以及非線性關(guān)系難以提取問題,本文提出一種基于CNN-AE與層次聚類聯(lián)合模型的居民用電模式分類方法,并以實(shí)際公開數(shù)據(jù)集為例,驗(yàn)證了本文所提分類方法的有效性。算例結(jié)果表明:
1)考慮溫度因素和用戶電價(jià)類型,分時(shí)段、分類型對用戶進(jìn)行劃分,可對用戶進(jìn)行更加精細(xì)化的分類。
2)利用本文模型所提取的居民用戶用電特征向量具有良好的用戶區(qū)分度。
3)與所引入的其他算法對比,本文所提算法模型在多個(gè)聚類有效性指標(biāo)上表現(xiàn)更佳,具備明顯優(yōu)勢。
4)對于動態(tài)電價(jià)用戶,利用本文所提算法模型可以有效挖掘用電行為變化特性,進(jìn)行合理分類,可為負(fù)荷調(diào)控、實(shí)時(shí)電價(jià)制定提供理論支撐。
信息量的期望稱為熵,假設(shè)事件共有種可能,發(fā)生事件x的概率為(x),則該事件的熵()為
KL散度又稱為相對熵,如果對于同一個(gè)隨機(jī)變量有兩個(gè)單獨(dú)的概率分布()和(),可以使用KL散度來衡量這兩個(gè)分布的差異,計(jì)算公式為
式中,為樣本的真實(shí)分布;為模型所預(yù)測的分布。
附圖1 2013年倫敦月平均溫度
App.Fig.1 Average monthly temperature in London in 2013
附圖2 數(shù)據(jù)集2各類用戶用電箱線圖與用電曲線圖
App.Fig.2 Typical power consumption box diagram and curve diagram of various users in Dataset 2
附圖3 數(shù)據(jù)集2特征向量降維后散點(diǎn)圖
App.Fig.3 Feature vector scatter plot after dimensionality reduction of Dataset 2
附圖4 數(shù)據(jù)集4各類用戶的典型用電箱線圖與曲線圖
App.Fig.4 Typical power consumption box diagram and curve diagram of various users in Dataset 4
附圖5 數(shù)據(jù)集4特征向量降維后散點(diǎn)圖
App.Fig.5 Feature vector scatter plot after dimensionality reduction of Dataset 4
附圖6 數(shù)據(jù)集4各類用戶不同電價(jià)下用電曲線對比
App.Fig.6 Comparison of electricity consumption curves of various users in Dataset 4 under different electricity prices
附圖7 CER數(shù)據(jù)集各類用戶典型用電箱線圖與用電曲線
App.Fig.7 Typical power consumption box diagram and curve diagram of various users in Dataset CER
附圖8 CER數(shù)據(jù)集特征向量降維后散點(diǎn)圖
App.Fig.8 Feature vector scatter plot after dimensionality reduction of Dataset CER
附表1 CER數(shù)據(jù)集各算法性能對比
App.Tab.1 Performance comparison of various algorithms in Dataset CER
[1] 雷怡琴, 孫兆龍, 葉志浩, 等. 電力系統(tǒng)負(fù)荷非侵入式監(jiān)測方法研究[J]. 電工技術(shù)學(xué)報(bào), 2021, 36(11): 2288-2297.
Lei Yiqin, Sun Zhaolong, Ye Zhihao, et al. Research on non-invasive load monitoring method in power system[J]. Transactions of China Electrotechnical Society, 2021, 36(11): 2288-2297.
[2] Wang Yi, Chen Qixin, Hong Tao, et al. Review of smart meter data analytics: applications, methodologies, and challenges[J]. IEEE Transactions on Smart Grid, 2019, 10(3): 3125-3148.
[3] 王孝慈, 董樹鋒, 王莉, 等. 基于電器狀態(tài)關(guān)聯(lián)分析的民可平移負(fù)荷辨識[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(23): 4961-4970.
Wang Xiaoci, Dong Shufeng, Wang Li, et al. Resident shiftable loads monitoring based on load states set correlation analysis[J]. Transactions of China Electrotechnical Society, 2020, 35(23): 4961-4970.
[4] 周東國, 張恒, 周洪, 等. 基于狀態(tài)特征聚類的非侵入式負(fù)荷事件檢測方法[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(21): 4565-4575.
Zhou Dongguo, Zhang Heng, Zhou Hong, et al. Non-intrusive load event detection method based on state feature clustering[J]. Transactions of China Electrotechnical Society, 2020, 35(21): 4565-4575.
[5] 涂青宇, 苗世洪, 張迪, 等. 分布式發(fā)電市場化環(huán)境下基于價(jià)格型需求響應(yīng)的農(nóng)村光伏交易模式研究[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(22): 4784-4797.
Tu Qingyu, Miao Shihong, Zhang Di, et al. Research on rural photovoltaic trading pattern based on price-based demand response under marketization environment of distributed generation[J]. Transactions of China Electrotechnical Society, 2020, 35(22): 4784-4797.
[6] Kong Weicong, Dong Zhaoyang, Jia Youwei, et al. Short-term residential load forecasting based on LSTM recurrent neural network[J]. IEEE Transactions on Smart Grid, 2019, 10(1): 841-851.
[7] 王帥, 杜欣慧, 姚宏民, 等. 面向含多種用戶類型的負(fù)荷曲線聚類研究[J]. 電網(wǎng)技術(shù), 2018, 42(10): 3401-3412.
Wang Shuai, Du Xinhui, Yao Hongmin, et al. Research on load curve clustering with multiple user types[J]. Power System Technology, 2018, 42(10): 3401-3412.
[8] 王毅, 張寧, 康重慶, 等. 電力用戶行為模型: 基本概念與研究框架[J]. 電工技術(shù)學(xué)報(bào), 2019, 34(10): 2056-2068.
Wang Yi, Zhang Ning, Kang Chongqing, et al. Electrical consumer behavior model: basic concept and research framework[J]. Transactions of China Electrotechnical Society, 2019, 34(10): 2056-2068.
[9] 徐磊, 楊秀, 張美霞. 基于數(shù)據(jù)挖掘的工業(yè)用戶用電行為分析[J]. 電測與儀表, 2017, 54(16): 68-74.
Xu Lei, Yang Xiu, Zhang Meixia. Industrial users of electricity behavior analysis based on data mining[J]. Electrical Measurement & Instrumentation, 2017, 54(16): 68-74.
[10] 李欣然, 姜學(xué)皎, 錢軍, 等. 基于用戶日負(fù)荷曲線的用電行業(yè)分類與綜合方法[J]. 電力系統(tǒng)自動化, 2010, 34(10): 56-61.
Li Xinran, Jiang Xuejiao, Qian Jun, et al. A classifying and synthesizing method of power consumer industry based on the daily load profile[J]. Automation of Electric Power Systems, 2010, 34(10): 56-61.
[11] 楊浩, 張磊, 何潛, 等. 基于自適應(yīng)模糊C均值算法的電力負(fù)荷分類研究[J]. 電力系統(tǒng)保護(hù)與控制, 2010, 38(16): 111-115, 122.
Yang Hao, Zhang Lei, He Qian, et al. Study of power load classification based on adaptive fuzzy C means[J]. Power System Protection and Control, 2010, 38(16): 111-115, 122.
[12] Benítez I, Quijano A, Díez J L, et al. Dynamic clustering segmentation applied to load profiles of energy consumption from Spanish customers[J]. International Journal of Electrical Power & Energy Systems, 2014, 55: 437-448.
[13] 金偉超, 張旭, 劉晟源, 等. 基于剪枝策略和密度峰值聚類的行業(yè)典型負(fù)荷曲線辨識[J]. 電力系統(tǒng)自動化, 2021, 45(4): 20-28.
Jin Weichao, Zhang Xu, Liu Shengyuan, et al. Identification of typical industrial power load curves based on pruning strategy and density peak clustering[J]. Automation of Electric Power Systems, 2021, 45(4): 20-28.
[14] 趙晉泉, 夏雪, 劉子文, 等. 電力用戶用電特征選擇與行為畫像[J]. 電網(wǎng)技術(shù), 2020, 44(9): 3488-3496.
Zhao Jinquan, Xia Xue, Liu Ziwen, et al. User electricity consumption feature selection and behavioral portrait[J]. Power System Technology, 2020, 44(9): 3488-3496.
[15] Haben S, Singleton C, Grindrod P. Analysis and clustering of residential customers energy behavioral demand using smart meter data[J]. IEEE Transactions on Smart Grid, 2016, 7(1): 136-144.
[16] 王瀟笛, 劉俊勇, 劉友波, 等. 采用自適應(yīng)分段聚合近似的典型負(fù)荷曲線形態(tài)聚類算法[J]. 電力系統(tǒng)自動化, 2019, 43(1): 110-118.
Wang Xiaodi, Liu Junyong, Liu Youbo, et al. Shape clustering algorithm of typical load curves based on adaptive piecewise aggregate approximation[J]. Automation of Electric Power Systems, 2019, 43(1): 110-118.
[17] 徐春華, 陳克緒, 馬建, 等. 基于深度置信網(wǎng)絡(luò)的電力負(fù)荷識別[J]. 電工技術(shù)學(xué)報(bào), 2019, 34(19): 4135-4142.
Xu Chunhua, Chen Kexu, Ma Jian, et al. Recognition of power loads based on deep belief network[J]. Transactions of China Electrotechnical Society, 2019, 34(19): 4135-4142.
[18] Wang Yi, Chen Qixin, Kang Chongqing, et al. Clustering of electricity consumption behavior dynamics toward big data applications[J]. IEEE Transactions on Smart Grid, 2016, 7(5): 2437-2447.
[19] 孫毅, 毛燁華, 李澤坤, 等. 面向電力大數(shù)據(jù)的用戶負(fù)荷特性和可調(diào)節(jié)潛力綜合聚類方法[J]. 中國電機(jī)工程學(xué)報(bào), 2021, 41(18): 6259-6271.
Sun Yi, Mao Yehua, Li Zekun, et al. A comprehensive clustering method of user load characteristics and adjustable potential based on power big data[J]. Proceedings of the CSEE, 2021, 41(18): 6259-6271.
[20] 龐傳軍, 余建明, 馮長有, 等. 基于LSTM自動編碼器的電力負(fù)荷聚類建模及特性分析[J]. 電力系統(tǒng)自動化, 2020, 44(23): 57-63.
Pang Chuanjun, Yu Jianming, Feng Changyou, et al. Clustering modeling and characteristic analysis of power load based on long-short-term-memory auto-encoder[J]. Automation of Electric Power Systems, 2020, 44(23): 57-63.
[21] 盧錦玲, 郭魯豫. 基于改進(jìn)深度殘差收縮網(wǎng)絡(luò)的電力系統(tǒng)暫態(tài)穩(wěn)定評估[J]. 電工技術(shù)學(xué)報(bào), 2021, 36(11): 2233-2244.
Lu Jinling, Guo Luyu. Power system transient stability assessment based on improved deep residual shrinkage network[J]. Transactions of China Electrotechnical Society, 2021, 36(11): 2233-2244.
[22] 張斌, 莊池杰, 胡軍, 等. 結(jié)合降維技術(shù)的電力負(fù)荷曲線集成聚類算法[J]. 中國電機(jī)工程學(xué)報(bào), 2015, 35(15): 3741-3749.
Zhang Bin, Zhuang Chijie, Hu Jun, et al. Ensemble clustering algorithm combined with dimension reduction techniques for power load profiles[J]. Proceedings of the CSEE, 2015, 35(15): 3741-3749.
[23] Xie Junyuan, Girshick R, Farhadi A. Unsupervised deep embedding for clustering analysis[EB/OL]. 2015, arXiv: 1511.06335. https://arxiv.org/abs/1511.06335.
[24] London Government. Smart meter energy use data in London households[DB/OL]. [2015-09-26]. https:// old.datahub.io/dataset/smartmeter-energy-use-data-in- london-households.
[25] Alonso A M, Nogales F J, Ruiz C. Hierarchical clustering for smart meter electricity loads based on quantile autocovariances[J]. IEEE Transactions on Smart Grid, 2020, 11(5): 4522-4530.
[26] Van Der Maaten L, Hinton G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2625.
[27] Commission for Energy Regulation. CER smart metering project[DB/OL]. [2012-03-01]. https://www.ucd.ie/ issda /data/commissionforenergyregulationcer/.
Residential Electricity Consumption Pattern Classification Method Based on Multi-Task Joint Model
Xu Mingjie1Zhao Jian1Wang Xiaoyu1Xuan Yi2Chen Bojian3
(1. College of Electrical Engineering Shanghai University of Electric Power Shanghai 200090 China 2. Hangzhou Power Supply Company State Grid Zhejiang Electric Power Co. Ltd Hangzhou 310016 China 3. Power Science Research Institute of State Grid Fujian Electric Power Co. Ltd Fuzhou 350000 China)
Identifying the electricity consumption behavior patterns of massive residential users and then making a reasonable classification, can provide auxiliary decision-making for demand-side lean management. This paper proposes a method of residential electricity consumption pattern classification based on a multi-task joint model of convolutional neural network auto-encoder(CNN-AE) and hierarchical clustering. Firstly, a method for filling missing values based on the mean value of simultaneous measurement data and an outlier detection method based on seasonal hybrid extreme studentized deviate test, were proposed to clean and correct massive and high-dimensional electricity data. Secondly, the CNN-AE was used to extract the features of the residential electricity consumption data, and obtained the feature vector which could characterize the residents' electricity consumption behavior. Then, combining the hierarchical clustering algorithm and silhouette coefficient to determine the number of users' cluster and each cluster centers' vector, initialized the neural network layer for user clustering with cluster centers' vector; and joined the feature extraction process and user clustering process to form a multi-task learning neural network. This network was used to achieve end-to-end classification of residential electricity consumption patterns. Finally, considering environmental temperature and electricity price factors, the proposed method was verified on actual dataset.
Residential load, load clustering, convolutional neural network, auto-encoder, joint model
10.19595/j.cnki.1000-6753.tces.210763
TM769; TP193
國家重點(diǎn)專項(xiàng)(2020YFB1506804)、國家自然科學(xué)基金(51907114)和上海市教育發(fā)展基金會晨光計(jì)劃(19CG61)資助項(xiàng)目。
2021-05-27
2021-09-13
徐明杰 男,1997年生,碩士研究生,研究方向?yàn)殡娏Υ髷?shù)據(jù)。E-mail:xmj36@foxmail.com
趙 健 男,1990年生,副教授,研究方向?yàn)橹袎号潆娋W(wǎng)精益化管理,圖像處理、自然語言處理技術(shù)在電力系統(tǒng)運(yùn)營管理中的應(yīng)用等。E-mail:zhaojianee@foxmail.com(通信作者)
(編輯 赫蕾)