陳文進(jìn),楊曉豐,祁煒雯,王建軍,趙峰,陳建國,王健
(1.國網(wǎng)浙江省電力有限公司,杭州 310007;2.國網(wǎng)浙江省電力有限公司紹興供電公司,浙江 紹興 312362;3.河海大學(xué) 能源與電氣學(xué)院,南京 211100)
光伏發(fā)電作為一種可再生能源發(fā)電技術(shù),具有推進(jìn)能源轉(zhuǎn)型、保護(hù)生態(tài)環(huán)境、減緩氣候變化的作用,是我國實(shí)現(xiàn)碳達(dá)峰、碳中和目標(biāo)的重要途徑[1]。我國太陽能資源豐富,大多數(shù)地區(qū)的年平均日輻射量在4 kWh/m 以上,年日照時(shí)數(shù)大于2 000 h的地區(qū)占2/3以上[2]。光伏發(fā)電技術(shù)的成熟促進(jìn)了光伏電站的大規(guī)模發(fā)展,在光伏發(fā)電滲透率不斷提高的背景下,光伏電站的集群劃分、出力預(yù)測、等值建模以及故障診斷等問題接踵而至[3-5]。因此,采用對應(yīng)模型直接求解會(huì)面臨求解問題規(guī)模過大、時(shí)間過長、效果不理想等問題。
應(yīng)對大規(guī)模問題求解,現(xiàn)有研究均借助了聚類算法,對問題進(jìn)行降維,將求解規(guī)??s減到適當(dāng)?shù)拇笮『?,再采用常?guī)化方法進(jìn)行針對性處理。文獻(xiàn)[4,6-7]基于FCM(模糊C 均值算法)或其組合改進(jìn)算法解決光伏電站功率預(yù)測、等效建模和故障診斷問題。張永新等[4]提出基于Canopy-FCM算法的分布式光伏電站等效建模方法,通過Canopy算法進(jìn)行預(yù)處理,解決FCM對初始點(diǎn)的依賴性問題,提高光伏發(fā)電單元聚類等值建模的精確性。王開艷等[6]基于氣象變量的數(shù)據(jù)特征提出了模糊C 均值聚類方法,將氣象數(shù)據(jù)進(jìn)行聚類,用于光伏功率短期區(qū)間概率預(yù)測,提高模型的預(yù)測性能。劉圣洋等[7]提出基于高斯核FCM 聚類的光伏陣列故障診斷方法,通過高斯FCM聚類算法對特征向量進(jìn)行聚類,實(shí)現(xiàn)光伏陣列多重故障診斷功能,極大地提高了故障診斷的準(zhǔn)確率。但是FCM系聚類算法解決大規(guī)模聚類問題的時(shí)間成本較大,對非凸數(shù)據(jù)集聚類問題并不適用。梁嘉文等[8]提出基于K-Mediods 聚類的分布式光伏臺(tái)區(qū)線損異常感知算法,提高對分布式光伏線損異常數(shù)據(jù)的檢測準(zhǔn)確率,但K-Mediods 難以應(yīng)對大規(guī)模聚類問題和非凸數(shù)據(jù)集聚類問題。董雪等[9]提出基于SOM(自組織映射網(wǎng)絡(luò))聚類的聚類方法,提高光伏出力的超短期預(yù)測精確率,但SOM易受網(wǎng)絡(luò)結(jié)構(gòu)影響,導(dǎo)致聚類結(jié)果出現(xiàn)較大差異且其自身收斂性不佳。王磊等[10]提出了基于Fast Unfolding聚類算法的分布式光伏電源集群劃分方法,為配電網(wǎng)規(guī)劃運(yùn)行等提供技術(shù)支持,但Fast Unfolding 算法在解決大規(guī)模聚類問題時(shí)不易收斂,并且存在過擬合的問題。
現(xiàn)有的光伏聚類算法在一定程度上解決了光伏發(fā)電發(fā)展進(jìn)程中存在的集群劃分不合理、出力預(yù)測準(zhǔn)確度不高、故障診斷誤判率高以及等值建模不精準(zhǔn)等問題,但仍有以下不足:當(dāng)考慮多個(gè)時(shí)段的光伏數(shù)據(jù)時(shí),數(shù)據(jù)集往往是非凸的,現(xiàn)有的聚類算法在應(yīng)對非凸數(shù)據(jù)集上的效果并不理想;當(dāng)面對較大數(shù)量的光伏電站聚類集群劃分問題時(shí),傳統(tǒng)的聚類算法時(shí)間成本太大。
為彌補(bǔ)現(xiàn)有光伏聚類集群劃分算法的不足,本文提出一種基于k-means++原型提取和改進(jìn)譜聚類原型聚類[11]的光伏電站快速集群劃分方法。該算法先采用隨機(jī)抽樣法從原數(shù)據(jù)集中抽取一定比例的樣本數(shù)據(jù),再基于k-means++算法進(jìn)行光伏電站初次聚類,得到原型電站,實(shí)現(xiàn)光伏電站的原型提取,提高算法對大規(guī)模聚類問題的適應(yīng)度。最后,基于譜聚類對非凸數(shù)據(jù)集聚類問題的適用性,采用改進(jìn)譜聚類算法對原型光伏電站聚類,再根據(jù)就近原則完成所有光伏電站的集群劃分,方便電站運(yùn)行人員對光伏電站進(jìn)行監(jiān)測與管理。
1.1.1 光伏電站發(fā)電數(shù)據(jù)歸一化處理
對任意一個(gè)分布式光伏電站的狀態(tài)數(shù)據(jù)Xi=[Ai1,…,Aij,…,Aim]T,其中Aij表示第i個(gè)電站在第j個(gè)時(shí)段的運(yùn)行狀態(tài)數(shù)據(jù)。每個(gè)時(shí)段的運(yùn)行狀態(tài)數(shù)據(jù)都由多個(gè)氣象數(shù)據(jù)與光伏出力數(shù)據(jù)組成,具體氣象數(shù)據(jù)包括總輻照度、直射輻照度、散射輻照度、總云量、低云量、地面百葉箱氣溫、地面百葉箱濕度、地面10 m風(fēng)速、地面10 m風(fēng)向、空氣質(zhì)量、地面氣壓、每15 min 降水、總輻射、直射輻射、散射輻射和環(huán)境溫度等16 類氣象數(shù)據(jù)。各類氣象數(shù)據(jù)的量綱和量級存在差異,需要進(jìn)行歸一化處理。按照同類物理屬性進(jìn)行歸一化處理[12]:
式中:xmax為光伏電站某類發(fā)電數(shù)據(jù)的最大值;xmin為光伏電站某類發(fā)電數(shù)據(jù)的最小值。
1.1.2 光伏電站發(fā)電數(shù)據(jù)相關(guān)性分析
光伏發(fā)電數(shù)據(jù)中包含總輻照度、直射輻照度、散射輻照度、百葉箱氣溫、百葉箱相對濕度、地面10 m風(fēng)速、地面10 m風(fēng)向、總輻射、直射輻射和散射輻射等10 類氣象監(jiān)測數(shù)據(jù)。這些因素對光伏實(shí)際出力的影響權(quán)重大小各異,剔除影響權(quán)重低的因素能在一定程度上提高聚類效果。
Pearson 線性相關(guān)系數(shù)是較為常用的線性相關(guān)系數(shù)[13],其計(jì)算表達(dá)式為:
式中:Rxy為自變量與因變量的相關(guān)系數(shù),其范圍從-1到+1,-1表示完全負(fù)相關(guān),+1表示完全正相關(guān),0 表示不相關(guān);xi為自變量;yi為因變量;xˉ為自變量平均值;yˉ為因變量平均值;N為樣本個(gè)數(shù)。
k-means++算法與傳統(tǒng)k-means算法最大的不同點(diǎn)在于對初始點(diǎn)的選擇[14]。k-means++算法采用距離衡量法限定初始點(diǎn)的選擇范圍,確保在算法啟動(dòng)時(shí),各個(gè)初始簇中心點(diǎn)具備較大的相異性。具體距離計(jì)算公式如式(3)所示:
式中:xj為第j個(gè)樣本數(shù)據(jù);ui為第i個(gè)簇中心;dj為第j個(gè)樣本數(shù)據(jù)與前k個(gè)簇中心的距離和。具體算法流程參見表1。
表1 k-means++算法流程Table 1 Flowchart of k-means++ algorithm
SC(譜聚類算法)[15]源于譜圖理論[16],是基于圖論的現(xiàn)代聚類算法,通過對數(shù)據(jù)之間的相似度構(gòu)建拉普拉斯圖,再使用切圖算法把拉普拉斯圖分割為若干個(gè)不相連接的子圖,從而實(shí)現(xiàn)對樣本的劃分。傳統(tǒng)的聚類算法如k-means 算法、FCM算法以及最大期望算法等在非凸數(shù)據(jù)上的表現(xiàn)較差,而SC算法卻沒有這個(gè)限制,對于不同分布的數(shù)據(jù)都有很好的劃分效果[17]。
譜聚類算法主要為兩個(gè)步驟:拉普拉斯圖構(gòu)建和拉普拉斯圖切割。
1.3.1 拉普拉斯圖的構(gòu)建
拉普拉斯圖構(gòu)建的核心是鄰接矩陣W的構(gòu)建,對于k近鄰內(nèi)數(shù)據(jù)間的相似度計(jì)算方式如式(4)所示。
式中:wij為鄰接矩陣W中第i行和第j列的元素,同時(shí)表示第i個(gè)數(shù)據(jù)和第j個(gè)數(shù)據(jù)的相似度;σ為帶寬參數(shù)。
基于鄰接矩陣W,按照式(5)、式(6)計(jì)算度矩陣D。
通過式(7)構(gòu)建非標(biāo)準(zhǔn)拉普拉斯矩陣L。
通過式(8)對非標(biāo)準(zhǔn)拉普拉斯矩陣進(jìn)行標(biāo)準(zhǔn)化處理,得到對稱拉普拉斯矩陣LN。
上述是譜聚類算法中的拉普拉斯圖構(gòu)建方法。該方法在解決原型聚類問題時(shí),其拉普拉斯圖僅包含了原型數(shù)據(jù)間的相似度關(guān)系,忽略了原型與全數(shù)據(jù)集之間的關(guān)系[18]。為了解決此問題,改進(jìn)拉普拉斯圖構(gòu)建方法[19-20],按照式(9)和式(10)定義新的鄰接矩陣W′。
根據(jù)新的鄰接矩陣,通過式(5)—(8)得到改進(jìn)的對稱拉普拉斯矩陣。
1.3.2 拉普拉斯圖的切割
給定一個(gè)無向圖G,譜聚類的目標(biāo)是將圖G(V,E)分割為k個(gè)子圖,其中V表示圖中的點(diǎn),而E為圖中的邊的集合,表示數(shù)據(jù)之間的相似度。切割出的k個(gè)子圖分表表示為:{A1,A2,…,Ak},這些子圖之間的交集為空集,且所有子圖的并集為全集。
對于兩個(gè)不相交的子集A、B,定義它們之間的切為:
對式(12)進(jìn)行擴(kuò)展,定義所有子圖間的切圖權(quán)重:
切圖的目標(biāo)是最小化式(13),為了獲得較理想的切圖結(jié)果,采用歸一化切圖方法。歸一化切圖兼顧類內(nèi)和類間的連接關(guān)系,定義為:
最終的切圖問題轉(zhuǎn)化為式(16)的優(yōu)化問題:
式中:H為一個(gè)n行p列的指示矩陣。
式(16)是標(biāo)準(zhǔn)的跡優(yōu)化形式,根據(jù)Rayleigh-Ritz定理[15]可知,該問題的最優(yōu)解為L的前p個(gè)特征值對應(yīng)的特征向量,將特征向量按列方向排序,組成解空間H∈Rn×p,對H的行向量執(zhí)行一次kmeans聚類即可得到聚類結(jié)果。圖1為改進(jìn)原型譜聚類算法流程。
圖1 改進(jìn)原型譜聚類算法流程Fig.1 Improved spectral clustering algorithm for prototype
在光伏電站原型提取前,基于隨機(jī)抽樣法從原始數(shù)據(jù)集中抽取一定比例(η)的樣本數(shù)據(jù)集。該步驟的預(yù)期目標(biāo)是在保留原始數(shù)據(jù)集數(shù)據(jù)分布特征的前提下,有效縮減數(shù)據(jù)集大小。基于k-means++算法對抽樣的樣本數(shù)據(jù)集進(jìn)行聚類,提取光伏電站原型。原型電站的提取比例(ρ)即k-means++算法的聚類中心占樣本數(shù)據(jù)集的比例。超參數(shù)η、ρ的確定方法見2.3節(jié)。
對于任意一個(gè)分布式光伏電站數(shù)據(jù)Xi=[Ai1,Aij,…,Aim]T,其中Aij表示第i個(gè)光伏電站第j個(gè)時(shí)段的運(yùn)行狀態(tài)向量。
基于1.3 節(jié)給出的k-means++算法對光伏電站進(jìn)行原型提取。顯然,最終提取的原型依然是高維數(shù)據(jù),為了可視化原型提取的結(jié)果,做如下處理:按照時(shí)段進(jìn)行均值處理,消去時(shí)間維度;將處理后的數(shù)據(jù)向總輻照度、直射輻照度和光伏出力3個(gè)維度投影。從光伏電站中選取部分電站進(jìn)行原型提取,得到如圖2所示的光伏電站原型提取效果。
圖2 光伏電站原型提取效果Fig.2 Extraction of PV plant prototype
由圖2可知,將光伏發(fā)電數(shù)據(jù)向總輻照度、直射輻照度和光伏出力3個(gè)維度投影后,光伏電站發(fā)電數(shù)據(jù)顯現(xiàn)較強(qiáng)的線性關(guān)系。通過k-means++算法進(jìn)行原型電站提取,得到的原型電站用紅星標(biāo)注。
基于k-means++算法獲得光伏電站原型,通過改進(jìn)譜聚類算法對原型光伏電站進(jìn)行聚類。改進(jìn)譜聚類結(jié)果如圖3所示。由于高維數(shù)據(jù)難以可視化,與圖2相似,選擇與光伏出力相關(guān)系數(shù)最大的前兩個(gè)維度進(jìn)行可視化。
圖3 光伏電站原型聚類效果Fig.3 Prototype clustering of PV plants
圖3中,紅色五角星代表原型電站,黑色六角星代表中心電站。對比圖2可知,原型電站仍然保留了原光伏電站的分布特性,但是圖3中所展現(xiàn)的中心電站的分布在直觀上并不具有代表性。這是因?yàn)樵趫D像可視化的過程中忽略了其他維度的信息,導(dǎo)致可視化后的效果圖代表性不強(qiáng)。
在本文所提算法中存在3個(gè)超參數(shù):隨機(jī)抽樣比例參數(shù)η、原型電站比例參數(shù)ρ和最終聚類中心數(shù)k。這3 個(gè)超參數(shù)的取值會(huì)影響最終的聚類效果。為優(yōu)化聚類結(jié)果,找出合適的參數(shù)值,采用不同的超參數(shù)組合進(jìn)行對照分析,比較不同參數(shù)值的聚類效果。在超參數(shù)搜索的方法上基于分層優(yōu)化思想[21],先劃定3 個(gè)參數(shù)的取值范圍,通過枚舉法,遍歷所有的取值組合,計(jì)算每種組合下的聚類指標(biāo),基于分層優(yōu)化思想,根據(jù)聚類指標(biāo)確定聚類超參數(shù)值。圖4給出了聚類超參數(shù)的搜索思路。如圖4所示,選定待聚類的光伏電站集群,采用η→ρ→k逐層優(yōu)化的方式搜索每個(gè)超參數(shù)的取值。
圖4 聚類超參數(shù)搜索思路示意圖Fig.4 Schematic diagram of the search strategy for clustering hyperparameters
本文提出的基于原型提取和聚類算法的光伏電站快速集群劃分方法主要環(huán)節(jié)有:光伏電站數(shù)據(jù)處理、基于隨機(jī)抽樣法的光伏電站抽樣、基于k-means++的光伏電站原型提取和基于改進(jìn)譜聚類算法的光伏電站原型集群劃分。算法流程如圖5所示。
圖5 算法流程Fig.5 Schematic diagram of the search strategy for clustering hyperparameters
1)光伏電站聚類數(shù)據(jù)處理??紤]到光伏數(shù)據(jù)包含多個(gè)物理量,量綱與數(shù)量級存在差異,對同類物理量采用歸一化處理;再考慮到輻照度、風(fēng)速、溫度和氣壓等因素與光伏出力的相關(guān)性大小,采用Pearson相關(guān)系數(shù)法剔除弱相關(guān)因素。
2)基于隨機(jī)抽樣法對光伏電站進(jìn)行初次抽樣,在保留光伏電站分布特性的同時(shí),縮減聚類問題求解規(guī)模。
3)基于k-means++算法對光伏電站進(jìn)行原型提取,該環(huán)節(jié)與前環(huán)節(jié)一同起到聚類問題降維、提高聚類速度的作用。
4)基于改進(jìn)譜聚類算法再對前一環(huán)節(jié)得到的原型光伏電站聚類,改進(jìn)譜聚類算法對非凸數(shù)據(jù)集有著優(yōu)良的聚類效果,再計(jì)算所有電站與中心電站的距離,根據(jù)“就近原則”得到光伏電站集群劃分結(jié)果。
常用的聚類度量指標(biāo)有DBI 指數(shù)(戴維森-堡丁指數(shù))、DI指數(shù)(鄧恩指數(shù))、SSEI指數(shù)(平方誤差和指數(shù))和CHI 指數(shù)(卡林斯基-哈拉巴斯指數(shù))[22]。
1)DBI指數(shù)
DBI 指數(shù)將類內(nèi)緊密度和類間分散度綜合考慮,如式(18)、(19)所示,其數(shù)值越小表示聚類的效果越好。
式中:avg(C)為類C內(nèi)樣本間的平均距離;|C|為類C中的樣本總數(shù)。
DBI 指數(shù)的物理含義為類內(nèi)距離與類間距離的比值,那么類內(nèi)距離越小、類間距離越大則聚類效果越理想。
2)DI指數(shù)
DI 指標(biāo)用于衡量樣本緊湊度(類內(nèi)最大距離)和簇群離散程度(類間最小距離),其定義如式(21)—(23)所示,DI值越大則聚類效果越理想。
式中:dmin(A,B)為類A與類B中最小樣本距離;diam(C)為類C內(nèi)最大樣本距離。
DI 指數(shù)的物理含義為類間最小樣本距離與類內(nèi)最大樣本距離的比值,那么類間最小樣本距離越大、類內(nèi)最大樣本距離越小則聚類效果越理想。
3)SSEI指數(shù)
SSEI 指數(shù)是一個(gè)以樣本與類中心點(diǎn)的距離平方和來度量樣本的距離信息的指標(biāo),用聚類后數(shù)據(jù)樣本中所有的子類中的數(shù)據(jù)到其隸屬的類簇的聚類中心的歐幾里得距離度量。
式中:ui為類Ci的類中心。
SSEI 指數(shù)的物理含義為各類樣本與類中心距離和,其值越小則聚類效果越理想。
4)CHI指數(shù)
CHI 指數(shù)的本質(zhì)是類間距離與類內(nèi)距離的比值,也稱為方差比準(zhǔn)則。
式中:BG為類間差異矩陣的跡;WG為類內(nèi)差異矩陣的跡;為第i類樣本之間的平均距離;dˉ2為所有樣本集之間的平均距離。
CHI 指數(shù)的物理含義為類間協(xié)方差與類內(nèi)協(xié)方差的比值,所以類間協(xié)方差越大、類內(nèi)協(xié)方差越小則聚類效果越理想。
5)綜合指數(shù)
前文介紹了4種聚類指標(biāo),并未考慮聚類速度對聚類效果的影響。綜合考慮多種指標(biāo)的影響,按照式(26)定義綜合指數(shù)CI。
式中:分子為負(fù)向指標(biāo),分母為正向指標(biāo),最終得到的CI指數(shù)也是負(fù)向指標(biāo),即CI值越小則聚類的綜合效果越好。需要說明的是,式中出現(xiàn)的各個(gè)指標(biāo)皆是通過式(1)歸一化后的數(shù)值。
選用光伏電源數(shù)量為1 500的算例,將16種氣象因素作為自變量,光伏電站有功出力作為因變量,根據(jù)式(2)計(jì)算得到各氣象因素與光伏出力的相關(guān)系數(shù),結(jié)果如表2所示。
表2 氣象因素與光伏出力相關(guān)系數(shù)Table 2 Correlation coefficients of meteorological factors and PV output power
當(dāng)相關(guān)系數(shù)的絕對值小于0.1時(shí),認(rèn)為自變量與因變量之間不相關(guān),反之,則存在相關(guān)性。根據(jù)表1結(jié)果分析可知,光伏出力與總輻照度、直射輻照度、散射輻照度、百葉箱氣溫、百葉箱相對濕度、地面10 m 風(fēng)速、地面10 m 風(fēng)向、總輻射、直射輻射和散射輻射等10類氣象因素存在相關(guān)性。故在后續(xù)的研究中只保留上述10 種氣象因素。需要說明的是,表2中空氣質(zhì)量的相關(guān)系數(shù)為NaN,因?yàn)樵擁?xiàng)數(shù)值都為同一數(shù)值,在本文中無法得出空氣質(zhì)量與光伏出力的相關(guān)性結(jié)果,故不予考慮。
孤例不證,為避免最優(yōu)超參數(shù)選取的偶然性,本文設(shè)置3種算例場景,分別選擇光伏電源數(shù)量為500(場景一)、1 000(場景二)和1 500(場景三)的3種算例場景進(jìn)行聚類。如圖6所示,將3種場景的聚類綜合指標(biāo)繪制成雷達(dá)圖。
圖6 聚類綜合指標(biāo)雷達(dá)圖Fig.6 Radar charts of composite cluster indexes
判斷每個(gè)超參數(shù)的取值優(yōu)劣的依據(jù)是綜合指數(shù)CI,當(dāng)CI取最小值時(shí)對應(yīng)的超參數(shù)即為最優(yōu)超參數(shù)。圖6 中,同心圓的半徑對應(yīng)CI 的值,CI 為負(fù)向指標(biāo),即半徑越大則效果越差。因?yàn)楸疚年P(guān)注重點(diǎn)并非是超參數(shù)的優(yōu)化求解,所以通過簡單枚舉結(jié)合分層優(yōu)化的方式確定了3 個(gè)場景中CI 值最小時(shí)對應(yīng)的超參數(shù)取值。3個(gè)子圖分別展示了3類超參數(shù)不同取值下的聚類綜合指標(biāo)結(jié)果。圖6(a)給出了搜索最優(yōu)參數(shù)η時(shí)的聚類綜合指標(biāo)雷達(dá)圖,隨著取值的遞增,3 種場景下的CI 值并非呈現(xiàn)遞減關(guān)系,當(dāng)η取0.75時(shí),本文所提方法在場景一和場景二都有較好的聚類表現(xiàn),當(dāng)η取0.5 時(shí),所提算法在場景三的效果最佳,但綜合考慮3個(gè)場景的聚類效果,選定η=0.75。圖6(b)給出了搜索最優(yōu)參數(shù)ρ時(shí)的聚類綜合指標(biāo)雷達(dá)圖,當(dāng)ρ取0.4 時(shí),所提方法在場景一和場景三都有較好的聚類表現(xiàn),當(dāng)ρ取0.2 時(shí),所提算法在場景二的效果最佳,綜合考慮3個(gè)場景的聚類效果,選定ρ=0.4。圖6(c)給出了搜索最優(yōu)參數(shù)k時(shí)的聚類綜合指標(biāo)雷達(dá)圖,當(dāng)k取3 時(shí),所提方法在3 種場景下都有較好的聚類表現(xiàn),選定k=3。
將所提方法與其他聚類算法作對照,進(jìn)一步驗(yàn)證所提方法在光伏電站快速分群問題上的有效性。
除了本文所提聚類方法(算法4)外,另選擇kmeans算法(算法1)、k-means譜聚類算法(算法2)和k-means++譜聚類算法(算法3),共計(jì)4 種算法作為對照算法,在3種場景下進(jìn)行聚類計(jì)算并對聚類指標(biāo)進(jìn)行分析。整理4種算法在3種場景下的聚類結(jié)果,計(jì)算聚類指標(biāo)值得到結(jié)果如表3—5所示。
表3 場景一中各算法聚類指標(biāo)值Table 3 Cluster indexes of each algorithm in scenario 1
表3、表4 和表5 分別為場景一、場景二和場景三下的4種聚類算法的聚類指標(biāo)值。根據(jù)3.2 節(jié)的各指標(biāo)定義可知,DBI、SSEI和t這3 個(gè)指標(biāo)為負(fù)向指標(biāo),即指標(biāo)值越小聚類效果越好;DI和CHI這兩個(gè)指標(biāo)是正向指標(biāo),即指標(biāo)值越大聚類效果越好。為了更直觀地比較場景與算法對聚類結(jié)果的影響,通過場景維度和算法維度,一縱一橫兩個(gè)角度進(jìn)行對比分析。在分析場景對聚類結(jié)果的影響時(shí),將對應(yīng)場景下的4 個(gè)算法聚類結(jié)果取均值,得到各場景聚類指標(biāo)對比圖,如圖7所示。在分析算法對聚類結(jié)果的影響時(shí),將對應(yīng)算法的3個(gè)場景聚類結(jié)果取加權(quán)均值,得到各算法聚類指標(biāo)對比圖,如圖8所示。
圖7 各場景聚類指標(biāo)對比Fig.7 Comparison of cluster indexes in each scenario
圖8 各算法聚類指標(biāo)對比Fig.8 Comparison of cluster indexes of each algorithm
表4 場景二中各算法聚類指標(biāo)值Table 4 Cluster indexes of each algorithm in scenario 2
表5 場景三中各算法聚類指標(biāo)值Table 5 Cluster indexes of each algorithm in scenario 3
需要說明的是,表格中的DBI、SSEI、CHI、DI和t等指標(biāo)值未經(jīng)標(biāo)準(zhǔn)化處理,但在圖7和圖8中,需要將所有指標(biāo)展示在同一坐標(biāo)系中,所以對指標(biāo)值進(jìn)行了標(biāo)準(zhǔn)化處理。
圖7中給出了各場景聚類指標(biāo)結(jié)果,根據(jù)對比可知,隨著光伏數(shù)量的上升,負(fù)向指標(biāo)數(shù)值呈現(xiàn)上升趨勢,正向指標(biāo)數(shù)值呈現(xiàn)下降趨勢。說明隨著光伏數(shù)量的上升,算法處理聚類任務(wù)的難度隨之增大。圖7 中的SSEI指標(biāo)和CHI指標(biāo)表現(xiàn)出了增長的一致性,但是SSEI指標(biāo)為負(fù)向指標(biāo),CHI指標(biāo)為正向指標(biāo),兩者存在一定的矛盾。這表明不管是正向指標(biāo)還是負(fù)向指標(biāo)都有一定的局限性,所以為提高對照實(shí)驗(yàn)的可信度,算例對照環(huán)節(jié)需要參考對照多組指標(biāo)。
將各算法在3 個(gè)場景下的結(jié)果加權(quán)平均處理,得到各算法聚類指標(biāo)結(jié)果,如圖8所示。在場景權(quán)重值方面按照場景一權(quán)重占比20%、場景二權(quán)重占比30%、場景三權(quán)重占比50%進(jìn)行設(shè)定。
圖8給出各算法聚類指標(biāo)結(jié)果,算法1在時(shí)間上較其他算法有明顯優(yōu)勢,傳統(tǒng)k-means算法在3個(gè)場景的運(yùn)行都十分迅速,但其余聚類指標(biāo)較其他算法有著一定的劣勢。這說明在應(yīng)對本文所提問題上,傳統(tǒng)k-means 算法聚類速度快但聚類效果不佳。算法2—4 對比算法1 在聚類時(shí)間上有著明顯的提升,因?yàn)樗惴?—4 較算法1 增加了譜聚類的環(huán)節(jié)。同時(shí),由于引入譜聚類環(huán)節(jié),在一定程度上提升了聚類效果。
圖7和圖8從場景和算法維度對聚類指標(biāo)進(jìn)行對比,但多個(gè)指標(biāo)大小各異,難以直觀地對聚類效果進(jìn)行綜合評價(jià)。綜合指標(biāo)CI計(jì)算方式參見式(25)。在計(jì)算綜合指標(biāo)前,需對表3—5 中的指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化處理后的數(shù)據(jù)如表6—8所示。將計(jì)算得到的綜合指標(biāo)進(jìn)行整理,具體結(jié)果如圖9所示。
圖9 各算法聚類綜合指標(biāo)對比Fig.9 Comparison of composite cluster indexes of each algorithm
表6 場景一中各算法聚類指標(biāo)Table 6 Cluster indexes of each algorithm in scenario 1
表7 場景二中各算法聚類指標(biāo)Table 7 Cluster indexes of each algorithm in scenario 2
表8 場景三中各算法聚類指標(biāo)Table 8 Cluster indexes of each algorithm in scenario 3
圖9 中的算法1 是傳統(tǒng)k-means 算法,不難發(fā)現(xiàn):k-means 算法對計(jì)算規(guī)模有著較高的敏感性,其聚類綜合指標(biāo)隨著聚類規(guī)模的增大呈現(xiàn)超線性增長,并且該算法較其余3種算法有著較為明顯的劣勢。算法2—4 都是k-means 系算法與譜聚類系算法的組合算法,該類組合算法基本上對聚類的規(guī)模不敏感,其聚類綜合指標(biāo)隨著聚類規(guī)模的增大變化不明顯。具體地,在這3種組合算法中,算法3 和算法4 都由k-means++算法組成。通過比較可知:這兩種算法得到的聚類指標(biāo)更加穩(wěn)定,這是因?yàn)閗-means++算法在挑選初始聚類中心點(diǎn)的過程中更加合理,避免陷入局部最優(yōu)。通過對比算法3 和算法4 可知,算法4 即本文所提方法在處理較大規(guī)模的光伏電站聚類問題上有著更加優(yōu)越的聚類性能。
本文提出了一種基于原型提取和聚類的光伏電站快速集群劃分方法,并通過多場景和多算法對照測試了所提算法的有效性,所得結(jié)論如下:
1)通過Pearson相關(guān)性分析篩選出對光伏出力影響較大的關(guān)鍵因素,剔除無用數(shù)據(jù),提高算法的執(zhí)行效率。
2)所提算法有較好的集群劃分效果,對求問題規(guī)模大小敏感度低。
3)所提算法結(jié)合譜聚類優(yōu)勢,克服傳統(tǒng)算法處理非凸聚類問題已陷入局部最優(yōu)的缺點(diǎn)。
但是本文在超參數(shù)尋優(yōu)環(huán)節(jié)上存在一定的局限性,僅通過簡單的枚舉方法來確定各個(gè)超參數(shù)的大致取值,在后續(xù)研究中可以進(jìn)一步細(xì)化超參數(shù)選優(yōu)方法,提高算法的整體性能。