顏宏文,盛成功
(長沙理工大學 計算機與通信工程學院,長沙 410114)(*通信作者電子郵箱yan_hongwen@126.com)
母線負荷可以定義為由變電站的主變壓器供給一個相對較小的供電區(qū)域的終端負荷的總和[1],是系統(tǒng)負荷的細化。對母線負荷的精確預測是改善電網(wǎng)安全性、穩(wěn)定性和經(jīng)濟性,提高用電質(zhì)量的重要保證。母線負荷不同于系統(tǒng)負荷,它具有以下特點:母線負荷易受氣象因素變化影響,如氣溫的突然升高和降低,將引起居民用電特別是空調(diào)負荷的劇烈變化,大面積降雨后會引起排漬負荷的突然增加[2];電網(wǎng)系統(tǒng)中母線數(shù)目眾多、量大面廣、負荷基數(shù)小,波動性大,不同母線之間負荷差異較大,難以人工逐一深入分析。因此,對母線負荷進行精準的預測具有較高的難度。
國內(nèi)外眾多學者對母線負荷預測進行了大量研究。文獻[3]采用的是模糊系統(tǒng)和人工神經(jīng)網(wǎng)絡的方法;文獻[4]提出了輔助預測狀態(tài)估計和多層感知器神經(jīng)網(wǎng)絡組成的混合預測方法;文獻[5]引入預測模型有效度概念,提出基于關聯(lián)度的組合模型集確定方法和模型有效度灰色預測方法;文獻[6]針對正常日的母線負荷,提出基于最小二乘支持向量機和馬爾可夫鏈的預測方法;文獻[7]提出小波分解的支持向量機預測母線負荷的方法;文獻[8]根據(jù)母線負荷源荷屬性進行分類,將地區(qū)有源網(wǎng)的電源成分和負荷成分分開考慮,改進母線負荷的預測方法等。但以上方法籠統(tǒng)地用待測日之前一段時間作為相似日,沒有考慮到影響母線負荷波動的因素而造成的特殊性,如季節(jié)、氣候、星期及節(jié)假日規(guī)律等多重因素對負荷變化的影響一直制約著預測精度的提高[9]。對于節(jié)假特殊日來說,例如,春節(jié)假期與春節(jié)假期之前雖然日期相鄰,但是負荷一般會相差非常大;同理,對于天氣特殊日來說,在季節(jié)交替之時,天氣會出現(xiàn)驟變的情況,導致相鄰日期的負荷相差較大。如果使用這些特殊日之前的母線負荷作為訓練樣本,特殊日的負荷預測會存在較大偏差。
本文提出一種基于層次聚類(Hierarchical Clustering, HC)和極限學習機(Extreme Learning Machine, ELM)的母線短期負荷預測方法。該方法先用層次聚類法對歷史負荷進行聚類,結(jié)合歷史日的氣象信息和日期類型建立決策樹,得到分類規(guī)則;然后將待測日屬性根據(jù)分類規(guī)則查詢到該日的負荷分類類型,用該類的歷史母線負荷數(shù)據(jù)訓練極限學習機并對待測日母線負荷進行預測。該方法充分考慮天氣因素和日期類型對母線負荷的影響,不僅能提高對普通日的母線負荷預測精度,而且對特殊日期的負荷預測也有較好的效果。
為了克服前饋神經(jīng)網(wǎng)絡學習速度較慢的缺點,Huang等[10]提出一種名為ELM的新型單隱含層式前饋神經(jīng)網(wǎng)絡。ELM基于經(jīng)驗風險最小化理論,其訓練過程只需要一次迭代,與其他神經(jīng)網(wǎng)絡相比具有更加優(yōu)越的泛化能力、魯棒性和更快的學習速率。目前ELM被廣泛用于分類、預測和回歸問題,因此本文也采用ELM預測母線負荷。ELM的核心是隨機設置輸入權(quán)值和偏差,通過最小化訓練誤差來優(yōu)化輸出層的權(quán)值。
設有N個訓練樣本{(ξi,τi)|ξi∈Rn,τi∈R,i=1,2,…,N},其中ξi=[ξi1,ξi2,…,ξin]為輸入向量,τi是對應的期望輸出值。含有M個隱層節(jié)點和激活函數(shù)為f(x)的ELM數(shù)學模型可以表示為:
(1)
其中:ωi=[ωi1,ωi2,…,ωin]T表示連接第i個隱層節(jié)點和輸入節(jié)點權(quán)值;βi=[βi1,βi2,…,βin]T表示連接第i個隱層節(jié)點和輸出節(jié)點的權(quán)值;εi=[εi1,εi2,…,εiM]T表示第i個隱層節(jié)點的偏差。式(1)可以用矩陣的形式簡寫:
Y=Tβ
(2)
其中:
T=
(3)
其中,T為隱層節(jié)點的輸出矩陣。輸出權(quán)值的求解是保證損失函數(shù)(4)取得最小值:
(4)
可由解以下方程組(5)的最小二乘解求得:
(5)
其中T+是矩陣T的Moore-Penrose廣義逆矩陣[11]。
(6)
先將歷史母線日負荷的96點數(shù)據(jù)作為一個原子簇,計算鄰近度矩陣,簇之間的鄰近度采用組平均規(guī)則計算,相繼合并兩個最接近的簇,直到只剩下一個簇[12],或者滿足某個最終條件。
如果聚類數(shù)目太小,差異較大的樣本數(shù)據(jù)就會劃分到同一類中,這樣得到歷史相似日的母線負荷特征相差較大,從而導致ELM預測模型預測不準確;然而如果聚類數(shù)目太大,個別類中的樣本數(shù)據(jù)過少,本屬于同一個聚類的樣本數(shù)據(jù)就會劃分到不同的聚類中,也會增大ELM預測模型的預測誤差。因此,母線負荷預測的一個關鍵問題就是選擇合適的聚類數(shù)目,針對不同的母線負荷特征,選擇的聚類數(shù)目也會有所差異。
本文研究了湖南省某兩類220 kV母線日負荷數(shù)據(jù),為了預測的準確性,經(jīng)作者實驗選取的聚類數(shù)目為20,不僅能保證類中有足夠的數(shù)據(jù)樣本數(shù),而且能保證高相似度的數(shù)據(jù)樣本聚為一類。
決策樹是功能強大的分類和預測算法,它是一種有監(jiān)督的學習算法,以樹狀圖為基礎,其輸出結(jié)果為一系列簡單使用的規(guī)則[13]。決策樹生成算法中,經(jīng)典的ID3算法用信息增益選擇屬性,存在傾向于選擇取值多的屬性的不足[14],在此基礎上提出的改進算法C4.5則采用信息增益比率作為在增長樹的每一步中選取最佳屬性特征的度量標準[15]。在樹構(gòu)造過程中進行剪枝,不僅能夠完成對連續(xù)屬性的離散化處理,而且能夠?qū)Σ煌暾麛?shù)據(jù)進行處理,產(chǎn)生的分類規(guī)則易于理解,準確率更高,故本文采用的決策樹算法為C4.5算法。
母線日負荷以及其聚類結(jié)果都由每日的天氣情況和日期類型直接決定,因此,可以用決策樹將此關系以樹狀圖的方式呈現(xiàn)出來,歷史母線負荷的聚類結(jié)果和影響因素分別作為決策樹的結(jié)果節(jié)點和決策值。針對影響母線負荷的因素,本文選取每日24點實際天氣信息數(shù)據(jù)的日最高氣溫、日平均氣溫、日平均相對濕度作為衡量影響母線負荷的天氣因素;星期類型分為星期一至星期日;節(jié)假日類型分為國家法定節(jié)假日、節(jié)假日的后一日和普通日。
傳統(tǒng)的母線負荷預測模型更多使用待測日前一段時間的歷史負荷數(shù)據(jù)訓練預測模型,但天氣、星期類型和節(jié)假類型的不同會導致前一段時間與待測日的特征相差很大,導致預測精度欠佳。為了充分考慮天氣因素和日期類型對母線負荷的影響,提高對普通日的母線負荷預測精度,更好地預測特殊日期的母線負荷,本文采用層次聚類法先對歷史母線負荷進行聚類,結(jié)合歷史日的氣象信息和日期類型建立決策樹,得到分類規(guī)則,將待測日屬性根據(jù)分類規(guī)則查詢到該日的負荷分類類型,用該類的歷史母線負荷數(shù)據(jù)訓練極限學習機并對待測日母線負荷進行預測。
基于HC和ELM的母線負荷短期預測模型輸入為220 kV母線96點的歷史負荷數(shù)據(jù)、歷史天氣數(shù)據(jù)和日期類型以及待測日的天氣數(shù)據(jù)和日期類型;輸出為預測日96點的負荷值。
基于HC和ELM的母線負荷短期預測算法步驟為:
1)輸入歷史母線日負荷96點數(shù)據(jù),采用層次聚類法對其進行聚類。
2)選取以下日屬性作為決策樹的決策值:
①天氣因素:日最高氣溫、日平均氣溫和日平均相對濕度;
②日期類型:星期類型和節(jié)假日類型。
3)數(shù)據(jù)數(shù)量化和歸一化。星期類型數(shù)量化為D={1,2,3,4,5,6,7},其中1至7依次代表星期一至星期日。將節(jié)假日類型數(shù)量化為H={0,1,2},其中0表示該日是國家法定假日,1表示該日為國家法定節(jié)假日之后的第一天,2表示其他日期。本文采用線性變換的方法進行數(shù)據(jù)歸一化處理,公式如下:
yi=(xi-xmin)/(xmax-xmin)
(7)
其中:xi是樣本數(shù)據(jù)需要轉(zhuǎn)換的數(shù)值,yi是樣本數(shù)據(jù)轉(zhuǎn)換后的數(shù)值,xmax是該樣本數(shù)據(jù)中的最大值,xmin是該樣本數(shù)據(jù)的最小值。
4)歷史母線日負荷經(jīng)層次聚類得到的分類結(jié)果作為決策樹的結(jié)果節(jié)點,并建立決策樹。
5)經(jīng)天氣預報得到待預測日的日最高氣溫、日平均氣溫和日平均濕度,另外查詢得到其星期類型和節(jié)假日類型的日屬性,根據(jù)建立的決策樹的內(nèi)部節(jié)點自頂向下得到分類規(guī)則,在葉節(jié)點得到待預測日的分類。
6)極限學習機參數(shù)設置。本文極限學習機的輸入層和輸出層節(jié)點數(shù)設置為1,隱層節(jié)點數(shù)為80。
7)在聚類結(jié)果中得到該類歷史母線負荷,用其訓練極限學習機,輸出最終預測值。
以上算法預測流程如圖1所示。
圖1 母線負荷預測流程
本文實驗硬件環(huán)境為Intel Core i5 2.53 GHz的CPU,內(nèi)存為2 GB RAM,軟件環(huán)境為Windows 7操作系統(tǒng)、Matlab R2010a和Python 3.4開發(fā)環(huán)境,所使用的程序語言為Matlab和Python。本文提出的基于HC和ELM的預測算法簡記為HC-ELM。母線歷史負荷、日最高氣溫、日平均氣溫、日平均濕度、星期類型以及節(jié)假日類型使用預測日前一年內(nèi)的歷史數(shù)據(jù)。以平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)作為誤差評價標準,其計算公式為:
(8)
實驗對象采用湖南省某兩類不同的220 kV母線的歷史數(shù)據(jù),兩條母線分別稱之為母線1和母線2。對母線1的2016年2月7日進行母線負荷預測,該日為春節(jié)的第一天;對母線2的2015年12月24日進行母線負荷預測,該日為普通日。分別對以上兩個預測日前一年365日的歷史負荷數(shù)據(jù)進行層次聚類,兩條母線的聚類結(jié)果分別如表1、2所示。
由表1和表2可知,母線1、2均各自有365個樣本數(shù)據(jù),分別有94.5%和93.4%的樣本被分在樣本數(shù)大于10的類別中,這樣就有足夠的樣本數(shù)據(jù)來訓練預測模型。值得注意的是,層次聚類能夠篩選出異常的母線負荷,有的類別中樣本很少,比如表1、2中有許多類只有1個樣本,這種異常的原因通常是數(shù)據(jù)采集存在錯誤、極端的天氣影響、用戶檢修設備或者斷路器跳閘等,本文暫不考慮這些異常。
表1 母線1全年負荷數(shù)據(jù)聚類結(jié)果
表2 母線2全年負荷數(shù)據(jù)聚類結(jié)果
根據(jù)母線1和母線2全年負荷數(shù)據(jù)聚類結(jié)果,結(jié)合歷史天氣和日期類型數(shù)據(jù)建立決策樹如圖2、3所示。
圖2 母線1全年負荷分類決策樹
圖3 母線2全年負荷分類決策樹
圖2、3中,X[0]~X[4]依次代表日最高氣溫、日平均氣溫、日平均濕度、星期類型以及節(jié)假日類型。母線1中,預測日是2016年2月7日,星期日,春節(jié)的第一天,最高氣溫16.7度,平均氣溫8.4度,平均相對濕度45.4%,根據(jù)決策樹查詢分類規(guī)則如圖2,該日為第18類,則該日母線負荷也屬于第18類。母線2中,預測日是2015年12月24日,星期五,普通日,最高氣溫8.8度,平均氣溫7.3度,平均相對濕度83.7%,根據(jù)決策樹查詢分類規(guī)則如圖3,該日為第17類,則該日母線負荷也屬于第17類。選取母線1全年負荷數(shù)據(jù)聚類結(jié)果中第18類的樣本數(shù)據(jù)和母線2全年負荷數(shù)據(jù)聚類結(jié)果中第17類的樣本數(shù)據(jù)分別訓練ELM預測模型并對兩個預測日的母線負荷進行預測;傳統(tǒng)ELM預測方法則分別選取兩個預測日前30天的負荷數(shù)據(jù)來訓練ELM預測模型并對兩個預測日的母線負荷進行預測。預測結(jié)果對比如圖4和圖5。
圖4 2月7日母線1負荷預測結(jié)果比較
從圖6和圖7中可知,HC-ELM的預測誤差小于ELM,經(jīng)計算可得:母線1中,HC-ELM的MAPE為2.89%,ELM的MAPE為4.33%;母線2中,HC-ELM的MAPE為4.21%,ELM的MAPE為5.73%。可見采用的新方法可以提高預測精度。
圖5 12月24日母線2負荷預測結(jié)果比較
圖6 2月7日母線1的MAPE值比較
圖7 12月24日母線2的MAPE值比較
為了進一步驗證HC-ELM的有效性,對于母線1,預測了從2016年2月8日至2月14日連續(xù)一周的母線負荷,其中2月8日至13日為春節(jié),14日為工作日,母線負荷預測結(jié)果比較如圖8;對于母線2,預測了從2015年25日至31日連續(xù)一周普通日的母線負荷,母線負荷預測結(jié)果比較如圖9。母線1、2的MAPE的計算結(jié)果如表3所示,可以看出,利用HC-ELM計算母線1和母線的MAPE的平均值比ELM分別降低了1.4個百分點和0.8個百分點。
為了提高對母線短期預測的效果,提出一種基于層次聚類和極限學習機的母線短期負荷預測算法。本文使用層次聚類法選取了與待測日相似度更高的訓練樣本,彌補了傳統(tǒng)預測算法選取的相似日與待測日特征相似度欠佳的不足。根據(jù)實驗分析可知,本文提出的HC-ELM與傳統(tǒng)算法相比,不僅提高了普通日母線負荷預測的效果,特別地,針對特殊日的母線負荷預測同樣具有更高的預測精度。下一步工作要考慮負荷類型對母線負荷的影響,以及將該模型應用到Hadoop或Spark等大數(shù)據(jù)平臺上。
圖8 2月8日—2月14日母線1負荷預測結(jié)果比較
圖9 12月25日—12月31日母線2負荷預測結(jié)果比較
%