劉家丞,吳 江,劉鵬遠(yuǎn),2,徐占伯,李曉鵬,管曉宏
(1. 智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室(西安交通大學(xué)),陜西省西安市 710049;2. 國網(wǎng)陜西省電力公司西安供電公司,陜西省西安市 710048)
近年來,能源互聯(lián)網(wǎng)架構(gòu)下的電力數(shù)據(jù)資源急劇增長[1]。電力大數(shù)據(jù)分析具有從用電客戶精確定位,到電力生產(chǎn)反饋指導(dǎo),再到國民經(jīng)濟(jì)精準(zhǔn)還原的全方位價(jià)值[1-2]。大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用主 要 集 中 在 需 求 響 應(yīng)[3-4]、負(fù) 荷 預(yù) 測[5-7]、故 障 診斷[8-9]、異常用電檢測[10-11],還可用于研究電動汽車充電站部署[12]、光伏設(shè)備技術(shù)性能分析[13]等新興負(fù)荷問題。
電力系統(tǒng)天然呈現(xiàn)分布式特征,在供給側(cè)和需求側(cè)都有所體現(xiàn)。供給側(cè)方面,電網(wǎng)接入了眾多分布在全國各地的微電網(wǎng)和發(fā)電站[14];需求側(cè)方面,諸如居民用電、商業(yè)用電多離散分布在各城市中,其用電數(shù)據(jù)通常存儲在不同地理位置的電力數(shù)據(jù)中心[15]。
在區(qū)域電網(wǎng)背景下,應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行電力大數(shù)據(jù)分析,若采用獨(dú)立式訓(xùn)練會由于樣本數(shù)據(jù)量少導(dǎo)致結(jié)果差;而集中式訓(xùn)練對于具有分布式屬性的電力大數(shù)據(jù),則需進(jìn)行跨中心的數(shù)據(jù)調(diào)度。因此,當(dāng)數(shù)據(jù)量急劇增加時(shí)會產(chǎn)生以下3 個(gè)問題[16],使得傳統(tǒng)的集中式機(jī)器學(xué)習(xí)在分布式大數(shù)據(jù)環(huán)境下不可行。
1)隱私保護(hù)問題
在智能電網(wǎng)中存在許多隱私保護(hù)的問題[17],例如智能電表收集到的負(fù)荷數(shù)據(jù)可以用于監(jiān)測電網(wǎng)狀態(tài)[18],然而從截獲的數(shù)據(jù)中可以辨別出用戶的活動,使得用戶隱私受到威脅[19]。電網(wǎng)通常對傳輸?shù)臄?shù)據(jù)進(jìn)行加密來保證其安全性,但仍有密鑰管理等問題[20]。
2)數(shù)據(jù)時(shí)延問題
數(shù)據(jù)在網(wǎng)絡(luò)中傳播需要經(jīng)過多個(gè)轉(zhuǎn)發(fā)節(jié)點(diǎn),導(dǎo)致數(shù)據(jù)時(shí)延,短時(shí)間進(jìn)行大量數(shù)據(jù)的傳輸更會加重時(shí)延。滿足使用需求的拓?fù)湓O(shè)計(jì)模型已經(jīng)被提出[21],但數(shù)據(jù)越多,傳輸時(shí)延越大,可能會造成電網(wǎng)的控制性能惡化,帶來更大的成本[19]。
3)傳輸成本問題
電網(wǎng)大數(shù)據(jù)進(jìn)行跨數(shù)據(jù)中心的傳輸會占據(jù)大量的稀缺帶寬資源[22],并且跨數(shù)據(jù)中心傳輸?shù)某杀具h(yuǎn)超在一個(gè)數(shù)據(jù)中心內(nèi)進(jìn)行傳輸?shù)某杀荆?9]。
為避免以上問題,同時(shí)實(shí)現(xiàn)區(qū)域電網(wǎng)下多地理節(jié)點(diǎn)的負(fù)荷特性分析,本文研究了地理分布式情景下的負(fù)荷特征聚類算法。針對隱私保護(hù)問題,采用基于主成分分析(PCA)-負(fù)荷指標(biāo)的特征加權(quán)組合算法,提取原始數(shù)據(jù)的抽象特征,實(shí)現(xiàn)用戶數(shù)據(jù)脫敏??紤]地理節(jié)點(diǎn)之間的拓?fù)潢P(guān)系,設(shè)計(jì)基于參數(shù)共識的分布式聚類算法,使數(shù)據(jù)中心之間僅傳輸極少量的拓?fù)涮卣?降低數(shù)據(jù)時(shí)延,并可構(gòu)建全局聚類模型。針對傳輸成本問題,搭建考慮特征遷移的遷移學(xué)習(xí)框架,在原有模型基礎(chǔ)上快速構(gòu)建新模型,減少跨數(shù)據(jù)中心的交互次數(shù)。本文選取愛爾蘭電網(wǎng)和中國北方部分城市電網(wǎng)的實(shí)際負(fù)荷數(shù)據(jù)進(jìn)行測試,驗(yàn)證所提地理分布式協(xié)同聚類算法的有效性。
能源互聯(lián)網(wǎng)架構(gòu)下,電力系統(tǒng)覆蓋全國千家萬戶,電力數(shù)據(jù)也在電力用戶與電網(wǎng)的交互中不斷產(chǎn)生。為了最大限度減小基礎(chǔ)服務(wù)設(shè)施與電力終端用戶之間時(shí)延以及方便監(jiān)管區(qū)域電力用戶,電力數(shù)據(jù)中心通常分散建立在不同地理位置的各個(gè)城市中,呈現(xiàn)典型的地理分布式屬性[23]。然而,考慮到數(shù)據(jù)的隱私保護(hù)問題,這些數(shù)據(jù)中心通常相互獨(dú)立存儲、獨(dú)立維護(hù),彼此間難以相互通信,形成了電力數(shù)據(jù)孤島。針對這類處理地理分布數(shù)據(jù)集的機(jī)器學(xué)習(xí)應(yīng)用,可以稱之為“地理分布機(jī)器學(xué)習(xí)”[23]。相較于傳統(tǒng)分布式針對復(fù)雜問題分而劃之解決,地理分布式更注重在克服地理隔離的困難下搭建模型。
傳統(tǒng)聚類模型的構(gòu)建,通常需要一次訪問多個(gè)區(qū)域的數(shù)據(jù),考慮到隱私保護(hù)及傳輸成本等問題,原始數(shù)據(jù)難以在各電力數(shù)據(jù)孤島之間進(jìn)行通信,往往僅能傳輸少量脫敏信息,如模型參數(shù)等[24]。本文針對數(shù)據(jù)孤島背景下的數(shù)據(jù)中心提出了地理分布式協(xié)同聚類框架,該框架允許地理分布式數(shù)據(jù)中心在僅傳輸少量脫敏參數(shù)的情況下獨(dú)立搭建聚類模型,使得每個(gè)數(shù)據(jù)中心都能生成一個(gè)具有全局信息的聚類模型,且不同的聚類模型受不同地理位置影響呈現(xiàn)地理分布式特性,如圖1 所示。
圖1 地理分布式協(xié)同聚類框架Fig.1 Framework of geo-distributed collaborative clustering
第2 至4 章將分別闡述圖1 所展示特征提取模塊的特征加權(quán)組合算法、模型構(gòu)建模塊中考慮密度峰值信息[25]的分布式聚類算法以及遷移學(xué)習(xí)模塊的特征遷移算法。
在聚類模型構(gòu)建之前,首先需要提取適合模型的負(fù)荷特征。特征提取一方面可以將原始的用戶負(fù)荷數(shù)據(jù)抽象為難以理解的特征數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)脫敏、用戶隱私保護(hù);另一方面也可以降維壓縮龐大的用戶數(shù)據(jù),大大減少傳輸成本。
本文采用將PCA 特征與負(fù)荷指標(biāo)特征加權(quán)組合的方式,針對用戶的月負(fù)荷數(shù)據(jù)進(jìn)行特征降維提取處理,以兩電網(wǎng)6 月數(shù)據(jù)為例,該數(shù)據(jù)原始維度為1 440 維。PCA 降維特征較為抽象,不能很好地說明原始數(shù)據(jù)的物理意義;負(fù)荷指標(biāo)是先驗(yàn)知識,反映電力負(fù)荷的經(jīng)驗(yàn)特性,但很多重要的抽象特征卻無法體現(xiàn)。兩類特征反映不同的特性,組合在一起可以獲得更全面的負(fù)荷信息。
通過特征加權(quán)組合,電網(wǎng)6 月數(shù)據(jù)集最終的特征維度可壓縮至12 維,相較于原始數(shù)據(jù)降低了1 428 維,極大減小了數(shù)據(jù)傳輸量,降低了傳輸成本。同時(shí),文獻(xiàn)[26]證明加權(quán)組合的特征聚類效果要顯著優(yōu)于單獨(dú)使用以上二者時(shí)的結(jié)果。
各節(jié)點(diǎn)通過特征加權(quán)組合算法完成特征提取,即可將提取到的特征用于構(gòu)建分布式聚類模型。分布式聚類算法的第1 步是在各節(jié)點(diǎn)進(jìn)行密度峰值聚類,并借助多節(jié)點(diǎn)結(jié)果求眾數(shù),共同確定統(tǒng)一的聚類中心數(shù)目;第2 步是一個(gè)迭代過程,該過程首先采用K-means 算法進(jìn)行一次聚類構(gòu)建局部聚類模型并獲得局部模型參數(shù),接著通過參數(shù)共識算法使各節(jié)點(diǎn)模型參數(shù)交互計(jì)算并返回給原節(jié)點(diǎn)模型,最后各節(jié)點(diǎn)再根據(jù)返回的新參數(shù)進(jìn)行一輪模型更新,此時(shí)完成一輪迭代。該算法會反復(fù)執(zhí)行從局部聚類到模型更新的過程,直至整個(gè)模型收斂,最終每個(gè)節(jié)點(diǎn)都會得到一個(gè)全局聚類模型。接下來將逐步介紹本文模型中的密度峰值聚類算法、參數(shù)共識以及分布式Kmeans 算法。
本文采用密度峰值的快速聚類(clustering by fast search and density peak,CFSFDP)算法[25]預(yù)先確定K-means 算法所需的類簇?cái)?shù)目。對于每一個(gè)數(shù)據(jù),該算法需要計(jì)算局部密度和相對距離這兩個(gè)參數(shù)。當(dāng)數(shù)據(jù)點(diǎn)局部密度和相對距離都大于其他點(diǎn)時(shí),該數(shù)據(jù)點(diǎn)被定義為聚類中心,進(jìn)一步地計(jì)算存在多少這樣的數(shù)據(jù)點(diǎn),從而可以確定類簇?cái)?shù)目。
各節(jié)點(diǎn)首先采用密度峰值算法確定各自的類簇?cái)?shù)目,隨后統(tǒng)計(jì)所有節(jié)點(diǎn)類簇?cái)?shù)目的眾數(shù),以該數(shù)作為之后局部聚類和分布式聚類的聚類數(shù)量,可以避免單個(gè)節(jié)點(diǎn)異常結(jié)果,該過程僅需在初始化時(shí)進(jìn)行一次。本文選取一個(gè)典型節(jié)點(diǎn)繪制“局部密度ρ-相對距離δ”決策圖。由圖2 可知,有4 個(gè)點(diǎn)的局部密度和相對距離遠(yuǎn)大于其他數(shù)據(jù)點(diǎn),最終本文確定類簇?cái)?shù)目為4。
圖2 CFSFDP 算法決策圖Fig.2 Decision graph of CFSFDP algorithm
考慮到單個(gè)數(shù)據(jù)節(jié)點(diǎn)獨(dú)立聚類時(shí),所用到的用戶數(shù)量較少、類別較為單調(diào),難以獲得理想的聚類效果。參數(shù)共識算法可以將每個(gè)節(jié)點(diǎn)得到的模型參數(shù)進(jìn)行整合,構(gòu)建得到擁有所有節(jié)點(diǎn)特征的全局模型。該算法僅利用抽象的模型參數(shù),實(shí)現(xiàn)了數(shù)據(jù)脫敏,同時(shí)極大壓縮了傳輸數(shù)據(jù),降低了數(shù)據(jù)時(shí)延。
參數(shù)共識是多個(gè)參與節(jié)點(diǎn)在預(yù)設(shè)規(guī)則下,通過節(jié)點(diǎn)信息交互,從而獲得對各節(jié)點(diǎn)均適用參數(shù)的過程。該共識問題的數(shù)學(xué)表述如下:記加權(quán)無向圖為G=(V,E,A),其邊集和頂點(diǎn)集分別為E、V,邊的加權(quán)鄰接矩陣為A=(auv)。定義與節(jié)點(diǎn)v直接相連節(jié)點(diǎn)所組成的集合為Uv={u∈V:(u,v)∈E},zv為節(jié)點(diǎn)v的觀測值。若對于節(jié)點(diǎn)v與u,存在zv=zu,則稱v與u共識。進(jìn)一步地,若圖中所有節(jié)點(diǎn)v與j,均存在zv=zu,就稱圖G達(dá)到共識狀態(tài)[27]。
本文中各節(jié)點(diǎn)采用的共識策略為平均共識。該算法獲得的共識結(jié)果是各節(jié)點(diǎn)的參數(shù)均值,其中的加權(quán)鄰接矩陣需為雙隨機(jī)矩陣,本文采用文獻(xiàn)[28]給定的一種方式構(gòu)造該矩陣,具體公式描述可見3.3 節(jié)。
分布式聚類模型主要基于K-means 算法,由局部聚類、參數(shù)共識、全局更新3 個(gè)階段組成。Kmeans 算法的基本思想是將數(shù)據(jù)集中的所有數(shù)據(jù)劃分為K個(gè)類別,使得不同類別的數(shù)據(jù)呈現(xiàn)較大差異,而同一類別中的數(shù)據(jù)表現(xiàn)相似。本文采用歐氏距離作為評價(jià)數(shù)據(jù)相似度的指標(biāo)。
局部聚類階段,各節(jié)點(diǎn)首先構(gòu)建各自的局部聚類模型。記t時(shí)刻節(jié)點(diǎn)v的第k個(gè)聚類中心為cv,k(t),Cv(t)=[cv,1(t),cv,2(t),…,cv,K(t)] 為t時(shí)刻節(jié)點(diǎn)v的類簇中心集?;趥鹘y(tǒng)K-means 算法的局部聚類模型在多地理節(jié)點(diǎn)背景下的表達(dá)式為[29]:
式中:Iv,k為節(jié)點(diǎn)v中屬于類簇k的數(shù)據(jù)點(diǎn)集合。根據(jù)以上表達(dá)式即可完成局部聚類模型搭建。
參數(shù)共識階段,首先需要在局部聚類模型的基礎(chǔ)上計(jì)算得到數(shù)據(jù)總數(shù)與特征矢量之和這兩個(gè)模型參數(shù)。記節(jié)點(diǎn)v在t+1 時(shí)刻屬于類簇k的數(shù)據(jù)總數(shù)為Pv,k(t+1),矢量之和為Qv,k(t+1),表達(dá)式為:
式中:auv為節(jié)點(diǎn)v與節(jié)點(diǎn)u的鄰接權(quán)重;?為參數(shù)共識算法的迭代次數(shù);A為拓?fù)鋱D結(jié)構(gòu)映射的鄰接矩陣,表征地理節(jié)點(diǎn)之間的連接關(guān)系。
A矩陣借助隨機(jī)數(shù)在以下兩個(gè)條件的約束下計(jì)算構(gòu)建[27]:一是A為雙隨機(jī)矩陣,其各行、各列之和皆為1;二是對于鄰居節(jié)點(diǎn)u和v,需滿足auv≥ξ,avv≥ξ,其中ξ為任意小的正數(shù)。經(jīng)過快速迭代收斂,各節(jié)點(diǎn)的模型參數(shù)可以達(dá)到共識狀態(tài)。
全局更新階段,各節(jié)點(diǎn)獲取參數(shù)共識后的模型參數(shù),并通過該參數(shù)計(jì)算新的類簇中心。記共識停止步驟為Φ,并通過下式計(jì)算類簇中心cv,k(t+1):
經(jīng)過上述3 個(gè)階段,節(jié)點(diǎn)v完成了分布式聚類算法的一次迭代,之后算法會再次進(jìn)行局部聚類到參數(shù)共識再到全局更新的整個(gè)過程。當(dāng)算法達(dá)到規(guī)定迭代次數(shù)或cv,k(t+1)收斂時(shí),該分布式聚類算法停止。實(shí)驗(yàn)證明分布式K-means 是可以收斂的[29]。
該算法在節(jié)點(diǎn)之間僅傳輸模型參數(shù),即使被截獲也無法獲得用戶信息,實(shí)現(xiàn)了數(shù)據(jù)脫敏,解決了用戶隱私保護(hù)問題。此外,相較于原本需要在節(jié)點(diǎn)之間傳輸千萬條數(shù)據(jù),該算法僅需傳輸2 個(gè)參數(shù)數(shù)據(jù),大大降低了數(shù)據(jù)時(shí)延。但是算法中的共識步驟增加了節(jié)點(diǎn)之間的交互更新次數(shù),模型收斂速度有所降低,傳輸成本問題仍需進(jìn)一步改善。
綜上,本文所提分布式聚類方法首先采用PCA-負(fù)荷指標(biāo)的加權(quán)組合算法對各節(jié)點(diǎn)用戶負(fù)荷數(shù)據(jù)進(jìn)行特征提取,隨后通過密度峰值聚類確定統(tǒng)一的類簇?cái)?shù)目。在此基礎(chǔ)上,分布式聚類模型基于K-means 算法,以聚類中心作為共識參數(shù),通過局部聚類、參數(shù)共識、全局更新3 個(gè)階段反復(fù)迭代更新,直至模型收斂,最終各節(jié)點(diǎn)都可構(gòu)建出適用的模型且模型的聚類中心一致。
當(dāng)數(shù)據(jù)分布發(fā)生變化時(shí),傳統(tǒng)機(jī)器學(xué)習(xí)方法需重新進(jìn)行建模,遷移學(xué)習(xí)則能夠解決傳統(tǒng)機(jī)器學(xué)習(xí)無法適用于訓(xùn)練集與測試集屬于不同特征空間的問題[30]。本文采用遷移成分分析(transfer component analysis,TCA)算法進(jìn)行遷移學(xué)習(xí),使得新模型可快速迭代收斂,減少了各節(jié)點(diǎn)之間的數(shù)據(jù)交互次數(shù),從而降低了傳輸成本。
TCA 算法是一種基于特征的遷移學(xué)習(xí)[31],可以解決源域與目標(biāo)域數(shù)據(jù)分布不同的問題,其目的是將源域與目標(biāo)域的特征變換到同一特征空間下使得二者近似服從相同的分布進(jìn)行學(xué)習(xí)。在遷移學(xué)習(xí)之前,采用最大平均差異(maximum mean discrepancy,MMD)距離來評估源域與目標(biāo)域之間的可遷移性。該距離最小為0,表征源域與目標(biāo)域分布完全相同;距離大于1 表示可遷移性較差,易產(chǎn)生負(fù)遷移。TCA 算法中存在超參數(shù)優(yōu)化問題,不同的超參數(shù)最終獲得的結(jié)果也會有所不同。本文采用網(wǎng)格化搜索的方式,比對選取最好的遷移學(xué)習(xí)結(jié)果,從而確定合適的超參數(shù)[32]。
針對分布式聚類的遷移學(xué)習(xí),當(dāng)有新的數(shù)據(jù)中心融入該拓?fù)鋱D中時(shí),原拓?fù)浣Y(jié)構(gòu)將發(fā)生改變。一方面,對于新節(jié)點(diǎn)的數(shù)據(jù),采用數(shù)據(jù)規(guī)約方法將其轉(zhuǎn)換為與原有數(shù)據(jù)相似的范圍,并通過與原有節(jié)點(diǎn)相同的特征提取方法獲得新節(jié)點(diǎn)特征,隨后計(jì)算新節(jié)點(diǎn)與原有節(jié)點(diǎn)之間的MMD 距離,當(dāng)距離小于1 時(shí)判斷源域與目標(biāo)域之間具備可遷移性,并通過TCA算法使新節(jié)點(diǎn)與原有節(jié)點(diǎn)的特征近似服從相同的分布;另一方面,新節(jié)點(diǎn)將獲得并采納原先構(gòu)建全局模型的模型參數(shù),隨后通過參數(shù)共識算法與其余節(jié)點(diǎn)重新進(jìn)行迭代共識,直至新模型收斂。
本文選取2010 年愛爾蘭電網(wǎng)數(shù)據(jù)集CER[33-34]和2019 年中國北方部分城市電網(wǎng)負(fù)荷數(shù)據(jù)為研究對象,驗(yàn)證本文所提分布式聚類算法的有效性。其中,愛爾蘭電網(wǎng)數(shù)據(jù)分屬6 個(gè)獨(dú)立的數(shù)據(jù)中心,共6 085 個(gè)用戶,時(shí)間粒度為30 min;中國北方部分城市電網(wǎng)數(shù)據(jù)分屬4 個(gè)獨(dú)立的數(shù)據(jù)中心,共219 個(gè)用戶,時(shí)間粒度為1 h。
為更好驗(yàn)證算法的可行性,本文以全局?jǐn)?shù)據(jù)點(diǎn)與類簇中心之間距離的誤差平方和(sum of squared errors,SSE)作為算法收斂的判斷條件之一,對比展示傳統(tǒng)集中式K-means 聚類、無特征加權(quán)組合分布式算法與本文所提分布式K-means 算法聚類收斂情況,SSE 的計(jì)算表達(dá)式為:
以愛爾蘭電網(wǎng)6 月負(fù)荷數(shù)據(jù)為例,各類算法收斂情況如圖3 所示。
圖3 算法收斂結(jié)果對比Fig.3 Comparison of algorithm convergence results
由圖3 可見,3 種聚類算法均能在迭代一定次數(shù)后收斂,表明了分布式聚類算法的可收斂性。無特征加權(quán)組合分布式聚類的SSE 相較于分布式和集中式聚類收斂更慢,且收斂效果更差,驗(yàn)證了特征加權(quán)組合算法的有效性。同時(shí),分布式初始的SSE 相較于集中式聚類算法大,但經(jīng)過1 次迭代后能夠斷崖式收斂到與集中式聚類相近甚至相同的位置。這是因?yàn)槎鄠€(gè)獨(dú)立分布的數(shù)據(jù)節(jié)點(diǎn)由于局部信息不同,初始化類簇中心時(shí)也會有非常大的差距,經(jīng)過1 次參數(shù)共識,各節(jié)點(diǎn)利用大區(qū)域特征達(dá)到共識狀態(tài),從而實(shí)現(xiàn)加速收斂。
為驗(yàn)證分布式聚類算法的有效性,本文對比分析了不同算法聚類結(jié)果情況,算法包括集中式聚類、分布式聚類、獨(dú)立式聚類、基于密度的有噪空間聚類(density-based spatial clustering of applications with noise,DBSCAN)、層次聚類和分布式密度聚類(density based distributed clustering,DBDC)[35],其中獨(dú)立式聚類算法是指各個(gè)節(jié)點(diǎn)僅進(jìn)行局部聚類而不進(jìn)行參數(shù)共識。考慮到不同類型電力用戶的負(fù)荷偏度和負(fù)荷散度之間具有較大差異,根據(jù)這兩個(gè)指標(biāo)可以更直觀地區(qū)分不同用戶[26],因而圖4 選取了負(fù)荷數(shù)據(jù)中負(fù)荷偏度和散度作為橫縱坐標(biāo),以愛爾蘭電網(wǎng)2010 年6 月與中國北方城市電網(wǎng)2019 年6 月負(fù)荷數(shù)據(jù)為例,繪制3 種算法對用戶負(fù)荷的分類情況。愛爾蘭電網(wǎng)結(jié)果如圖4 和附錄B 圖B1 所示,中國北方城市電網(wǎng)結(jié)果見附錄B 圖B2 和圖B3。
由圖4 可以看出,集中式、分布式和層次聚類算法都能很好地將用戶負(fù)荷分為4 種類型(Ⅰ、Ⅱ、Ⅲ、Ⅳ型),且4 種類型之間的界限較為明顯;DBSCAN和DBDC 算法能將用戶有層次地分為4 種類型,但類型界限不清晰且噪聲點(diǎn)過多;而獨(dú)立式聚類結(jié)果非常差,類簇之間差距很小,難以看出用戶分類情況。分析其原因在于DBSCAN 和DBDC 算法根據(jù)樣本間距和樣本密度逐步尋找類簇,而電力用戶數(shù)據(jù)樣本密度不均勻且間距差較大,導(dǎo)致很多高耗能的工商業(yè)用戶易被識別為噪聲點(diǎn)。DBDC 算法更是由于地理節(jié)點(diǎn)樣本數(shù)量少、間距大且節(jié)點(diǎn)之間沒有進(jìn)行有效通信,難以進(jìn)行有效聚類。而獨(dú)立式聚類中,各個(gè)節(jié)點(diǎn)僅利用各自的局部信息進(jìn)行分類,而局部信息本身由于地理分布不同,導(dǎo)致各節(jié)點(diǎn)局部信息之間差異較大,進(jìn)一步影響了聚類結(jié)果。對比圖4 與附錄B 圖B1 至圖B3 可以看到,分布式聚類得到的結(jié)果和集中式聚類基本相同,且分布式聚類中各節(jié)點(diǎn)模型基本一致,是因?yàn)榉植际骄垲惒捎昧藚?shù)共識策略,各節(jié)點(diǎn)之間能夠有效傳遞不同的區(qū)域特征,使得每個(gè)節(jié)點(diǎn)最終都享有全局信息,并能收斂得到很好的聚類模型。為了更量化地反映各個(gè)聚類模型所得結(jié)果的差異性,本文對6 種聚類模型采用輪廓系數(shù)(silhouette coefficient,SC)、戴維森堡丁指數(shù)(Davies-Bouldin index, DBI) 、 CH (Calinski-Harabasz,CH)指標(biāo)和鄧恩指數(shù)(Dunn validity index,DVI)衡量對負(fù)荷用戶分類的效果。SC 綜合了內(nèi)聚度和分離度兩種系數(shù),其數(shù)值范圍為[-1,1],越接近于1,效果越好;DBI 計(jì)算類簇內(nèi)平均距離和類簇之間最小距離的比值,該值越小,聚類效果越好;CH 指標(biāo)計(jì)算類簇內(nèi)各點(diǎn)與類簇中心的距離平方和來評估類內(nèi)的緊密程度,該值越大說明類簇自身越緊密;DVI 綜合衡量簇內(nèi)和簇間距離,其值越大說明聚類效果越好。以愛爾蘭電網(wǎng)2010 年6 月與中國北方部分城市電網(wǎng)2019 年6 月負(fù)荷數(shù)據(jù)為例,進(jìn)行20 次實(shí)驗(yàn)并取各指標(biāo)的均值,不同算法聚類結(jié)果的性能指標(biāo)和計(jì)算時(shí)長見附錄B 表B1。
圖4 CER 聚類結(jié)果Fig.4 Clustering results of CER
由附錄B 表B1 可知,本文所提分布式聚類多數(shù)指標(biāo)都能達(dá)到最佳,集中式與分布式協(xié)同聚類算法結(jié)果相近,層次聚類法各項(xiàng)指標(biāo)居中,而獨(dú)立式聚類、DBSCAN 和DBDC 結(jié)果最差,證明分布式聚類算法可以通過參數(shù)共識步驟實(shí)現(xiàn)數(shù)據(jù)集中訓(xùn)練并獲得較好的效果。從DBI 簇間指標(biāo)來看,層次聚類能夠?qū)崿F(xiàn)非常好的不同簇間劃分,分布式和集中式聚類的簇間劃分次之;從CH 簇內(nèi)指標(biāo)來看,分布式聚類簇內(nèi)劃分最好,集中式劃分次之,層次聚類簇內(nèi)劃分稍差;從SC、DVI 綜合指標(biāo)來看,分布式和集中式聚類能夠很好地平衡簇內(nèi)和簇間距離,實(shí)現(xiàn)優(yōu)質(zhì)分類,層次聚類綜合而言沒有分布式K-means 算法好,而獨(dú)立式聚類、DBSCAN 和DBDC 在樣本數(shù)據(jù)量小、樣本間距較大的情況下表現(xiàn)最差。從算法耗時(shí)來看,分布式聚類的計(jì)算時(shí)長遠(yuǎn)小于集中式聚類和DBDC 算法,略大于獨(dú)立式、層次聚類法和DBSCAN 算法。集中式聚類由于所用數(shù)據(jù)量較大,多次迭代計(jì)算耗時(shí)也較大;DBDC 算法為了實(shí)現(xiàn)分布式聚類進(jìn)行了多次劃分導(dǎo)致計(jì)算耗時(shí)增大;層次聚類和DBSCAN 僅進(jìn)行一次聚類或劃分,算法復(fù)雜度小,因而耗時(shí)最少;分布式和獨(dú)立式聚類的單節(jié)點(diǎn)數(shù)據(jù)量小,計(jì)算耗時(shí)也較小。
進(jìn)一步對比集中式和分布式聚類算法數(shù)據(jù)傳輸量和時(shí)間的不同,如附錄B 表B2 所示??梢院苊黠@看到,分布式聚類的數(shù)據(jù)傳輸量約是集中式的千分之一,傳輸速度比集中式快約3 000 倍。因?yàn)榉植际骄垲愒诟鞴?jié)點(diǎn)之間僅傳輸兩個(gè)脫敏的模型參數(shù),實(shí)現(xiàn)了用戶數(shù)據(jù)隱私保護(hù)的同時(shí)也大大降低了數(shù)據(jù)的傳輸時(shí)延。但相較于集中式僅需傳輸一次數(shù)據(jù),分布式聚類由于共識算法需要多次傳輸?shù)?增加了模型構(gòu)建時(shí)間。然而分布式僅比獨(dú)立式聚類慢約1 s,這也證明了參數(shù)共識步驟耗時(shí)極小。
綜上結(jié)果可以看出,在地理分布式的背景下,分布式聚類算法綜合簇內(nèi)和簇間的劃分最好,實(shí)現(xiàn)了數(shù)據(jù)脫敏并減少了傳輸成本,且計(jì)算速度遠(yuǎn)快于集中式聚類和DBDC 算法。
為驗(yàn)證算法的可遷移性,選取愛爾蘭電網(wǎng)和中國北方部分城市電網(wǎng)負(fù)荷數(shù)據(jù)分別進(jìn)行分布式聚類并將聚類結(jié)果簡單拼接到同一坐標(biāo)中,如附錄C 圖C1 所示??梢钥闯?兩地電網(wǎng)用戶分布不同,具有不同的區(qū)域地理特征。以愛爾蘭電網(wǎng)數(shù)據(jù)作為源域,中國北方部分城市電網(wǎng)數(shù)據(jù)作為目標(biāo)域,計(jì)算兩者之間的MMD 距離為0.112,證明兩地?cái)?shù)據(jù)特征分布有所不同且具備可遷移性。接下來將對兩地?cái)?shù)據(jù)集采用TCA 算法進(jìn)一步驗(yàn)證模型可遷移性。
選取愛爾蘭電網(wǎng)負(fù)荷數(shù)據(jù)先構(gòu)建包含6 個(gè)地理節(jié)點(diǎn)的分布式聚類模型,隨后將中國北方城市電網(wǎng)4 個(gè)地理節(jié)點(diǎn)的負(fù)荷數(shù)據(jù)依次加入拓?fù)鋱D中作為新加入的地理節(jié)點(diǎn),分布式聚類模型類簇中心移動遷移情況如附錄C 圖C1(d)所示,遷移前后評價(jià)指標(biāo)見表C1。
對比圖C1(c)和(d)可以看到,經(jīng)過特征遷移后兩地電網(wǎng)中均有部分用戶的歸類發(fā)生偏移且類簇中心也有輕微偏移,最終可以收斂得到容納兩地?cái)?shù)據(jù)的新聚類模型,說明分布式聚類遷移學(xué)習(xí)具有很好的效果。根據(jù)附錄C 表C1,特征遷移后DBI、CH、SC 指標(biāo)相較于遷移前略差,是由于兩電網(wǎng)用戶數(shù)據(jù)分布不同,經(jīng)過特征遷移類簇中心發(fā)生移動,原有的小部分用戶被重新分配導(dǎo)致指標(biāo)略差。而MMD 距離遷移后趨近于0,說明兩電網(wǎng)特征分布近乎相同,也證明本文所提分布式聚類算法能夠在原有節(jié)點(diǎn)的基礎(chǔ)上融入新節(jié)點(diǎn)實(shí)現(xiàn)在線快速聚類,可以較好地應(yīng)用在遷移學(xué)習(xí)框架下。
采用分布式聚類模型進(jìn)行聚類,標(biāo)記所得聚類結(jié)果每一類的類簇中心作為典型用電負(fù)荷用戶,根據(jù)標(biāo)記抽取原始負(fù)荷數(shù)據(jù)集的典型用戶負(fù)荷數(shù)據(jù),可以繪制出對應(yīng)4 類典型負(fù)荷曲線進(jìn)行分析,結(jié)果見圖5 和附錄D 圖D1。
圖5 分布式協(xié)同聚類典型用戶負(fù)荷曲線Fig.5 Typical user load curves of distributed collaborative clustering
以電網(wǎng)6 月數(shù)據(jù)結(jié)果為例,如圖5 所示,可以看出用戶用電模式豐富多變,Ⅰ型用戶負(fù)荷水平普遍很高,一般有兩個(gè)高峰用電時(shí)段,集中在08:00—12:00 和14:00—18:00 時(shí)段,晚間仍有高負(fù)荷水平,屬于高負(fù)荷部分迎峰用電;Ⅱ型曲線負(fù)荷水平比其他3 類都低且較為均勻,用電量基本不超過0.8 MW,高峰用電通常在06:00—09:00、12:00—14:00 和19:00—23:00 這3 個(gè)時(shí)段,屬于低負(fù)荷迎峰用電;Ⅲ型用戶日間08:00—19:00 時(shí)段的負(fù)荷水平較大,午間和晚間有負(fù)荷小峰值,夜間負(fù)荷水平急速下降,是典型的日間高負(fù)荷用電;Ⅳ型用戶06:00—11:00 和14:00—19:00 時(shí)段負(fù)荷水平較高,夜間用電趨近于0,峰谷形態(tài)與Ⅱ型互補(bǔ),屬于低負(fù)荷部分迎峰用電。
采用本文所提的分布式聚類算法,可以清楚地將電網(wǎng)負(fù)荷用戶劃分成4 類負(fù)荷用戶類型,為電網(wǎng)后期運(yùn)行、規(guī)劃打下基礎(chǔ),也證明了該算法的有效性和可行性。
本文針對地理分布式背景下的電力數(shù)據(jù),構(gòu)建了考慮特征遷移的分布式聚類模型框架,提出了一種基于參數(shù)共識利用局部信息得到全局聚類模型的分布式協(xié)同聚類算法。算法針對單地理節(jié)點(diǎn)采用PCA-負(fù)荷指標(biāo)獲得加權(quán)組合特征,考慮密度峰值信息確定類簇?cái)?shù)目,通過參數(shù)共識利用局部模型參數(shù)使得每一個(gè)電力數(shù)據(jù)中心獲得包含全局信息的全局聚類模型。針對新加入的數(shù)據(jù)中心,采用TCA 算法進(jìn)行遷移學(xué)習(xí),實(shí)現(xiàn)在線構(gòu)建分布式聚類模型。通過算法對比試驗(yàn)表明,本文所提的分布式協(xié)同聚類算法能夠在地理分布式背景下借助少量脫敏數(shù)據(jù)傳輸,實(shí)現(xiàn)用戶隱私保護(hù),有效降低數(shù)據(jù)時(shí)延,同時(shí)能保留區(qū)域特征,并利用整體區(qū)域特征實(shí)現(xiàn)加速收斂、快速構(gòu)建全局聚類模型,獲得很好的負(fù)荷用戶分類效果,幫助分析電力用戶負(fù)荷特性。
然而,算法中的共識步驟需要節(jié)點(diǎn)之間多次交互迭代,傳輸成本問題仍有待進(jìn)一步解決。此外,多個(gè)地理節(jié)點(diǎn)聚類數(shù)目要求一致的條件稍顯苛刻,限制了方法的應(yīng)用。在今后的研究工作中,一方面需要改善參數(shù)共識算法,減少節(jié)點(diǎn)之間交互;另一方面也需增強(qiáng)算法的靈活性,對不同地理節(jié)點(diǎn)不同聚類數(shù)目也可構(gòu)建和遷移模型。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。