李 鑫,李海明,馬 健
(上海電力大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 200000)
負(fù)荷預(yù)測(cè)是智能電網(wǎng)發(fā)展過程中的一項(xiàng)重要任務(wù)。負(fù)荷預(yù)測(cè)值過高,會(huì)造成電力系統(tǒng)能源的浪費(fèi);相反,預(yù)測(cè)值過低,將給電力系統(tǒng)帶來諸多問題,比如降低系統(tǒng)可靠性,使電能質(zhì)量下降等。準(zhǔn)確的負(fù)荷預(yù)測(cè)對(duì)于電力系統(tǒng)調(diào)度和安全、可靠、經(jīng)濟(jì)的系統(tǒng)運(yùn)行至關(guān)重要?,F(xiàn)如今隨著可再生能源并入電網(wǎng)、電動(dòng)汽車的日益普及和配電網(wǎng)負(fù)荷需求的時(shí)變性,不可避免地增加了系統(tǒng)的復(fù)雜性、不確定性和負(fù)荷序列的非平穩(wěn)性,使負(fù)荷的準(zhǔn)確預(yù)測(cè)變得更為困難。
在負(fù)荷數(shù)據(jù)預(yù)處理階段,文獻(xiàn)[2][3]對(duì)缺失值采用取均值,插值法等,表面上是填充了缺失值,但實(shí)際上相當(dāng)于間接引入了誤差;對(duì)異常值直接舍去,可能會(huì)忽略某些重要因素,存在一定缺陷。如今智能電表基礎(chǔ)設(shè)施(SMI)在國內(nèi)的不斷發(fā)展和廣泛普及,為推動(dòng)傳統(tǒng)電力系統(tǒng)向智能電網(wǎng)發(fā)展奠定了基礎(chǔ)。這種大規(guī)模部署所獲取的負(fù)荷相關(guān)數(shù)據(jù)較為完善,存在較少的缺失異常值。在此基礎(chǔ)上,文中未對(duì)缺失異常值直接進(jìn)行處理,而是在數(shù)據(jù)歸一化階段解決了這方面的問題。在特征提取方面,文獻(xiàn)[2][4]采用person相關(guān)系數(shù)分析對(duì)電力負(fù)荷進(jìn)行特征選擇。但由于電力系統(tǒng)相關(guān)數(shù)據(jù)是多維非線性的。采用線性相關(guān)的Pearson系數(shù)分析并不合適。
電力負(fù)荷預(yù)測(cè)模型主要有傳統(tǒng)模型和人工智能模型。近些年來,人工智能模型由于對(duì)非線性序列具有良好的預(yù)測(cè)能力,從而廣泛應(yīng)用于電力系統(tǒng)負(fù)荷預(yù)測(cè)中。人工智能預(yù)測(cè)算法主要有支持向量回歸(SVR)、多層感知機(jī)(MLP)、深度學(xué)習(xí)以及集成預(yù)測(cè)。文獻(xiàn)[5]考慮了負(fù)荷及氣象因素多種特征,并采用PSO-SVM預(yù)測(cè)模型。 結(jié)果表明,PSO-SVM具有較好的泛化能力,但隨著輸入特征維度增加,SVM預(yù)測(cè)模型訓(xùn)練時(shí)間變長,精度有所下降。文獻(xiàn)[6]采用灰色系統(tǒng)與神經(jīng)網(wǎng)絡(luò)組合搭建預(yù)測(cè)模型,有效的提高了預(yù)測(cè)精度。但神經(jīng)網(wǎng)絡(luò)易于陷入局部最優(yōu)解,存在收斂速度慢的缺點(diǎn)。文獻(xiàn)[7]提出了一種基于深度信念網(wǎng)絡(luò)(DBN)的短期負(fù)荷方法,結(jié)果表明此方法能夠較好處理高維、復(fù)雜非線性數(shù)據(jù),但DBN在計(jì)算過程中存在著訓(xùn)練時(shí)間較長、容易過擬合的缺點(diǎn)。基于小波神經(jīng)網(wǎng)絡(luò)(WNN)的預(yù)測(cè)模型將天氣預(yù)報(bào)變量以及歷史負(fù)荷數(shù)據(jù)作為輸入特征。在文獻(xiàn)[9]中提出了使用溫度預(yù)測(cè)數(shù)據(jù)作為預(yù)測(cè)因子。由于電氣負(fù)荷與天氣部分相關(guān),因此合理準(zhǔn)確的天氣預(yù)報(bào)可以顯著提高預(yù)測(cè)準(zhǔn)確性?;谔鞖忸A(yù)報(bào)的模型需要可靠的互聯(lián)網(wǎng)連接,這在大容量電力系統(tǒng)中通常非??煽俊?/p>
極限學(xué)習(xí)機(jī)(ELM)是一個(gè)前向傳播的神經(jīng)網(wǎng)絡(luò),相對(duì)于 傳統(tǒng)神經(jīng)網(wǎng)絡(luò),其最大的特點(diǎn)在于再保證一定學(xué)習(xí)精度的前提下,能夠較少一半的運(yùn)算量,使學(xué)習(xí)速度更快。廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)是徑向基神經(jīng)網(wǎng)絡(luò)(RBF)的一種。GRNN是利用密度函數(shù)來預(yù)測(cè)輸出,具有很強(qiáng)的非線性映射能力,而且收斂速度快。但是,由于GRNN中每個(gè)測(cè)試數(shù)據(jù)需要與全部訓(xùn)練數(shù)據(jù)進(jìn)行計(jì)算,因此計(jì)算復(fù)雜度高。而且因?yàn)闆]有模型參數(shù),需要存儲(chǔ)全部的訓(xùn)練數(shù)據(jù),這就導(dǎo)致空間復(fù)雜度增加。
因此,為提高負(fù)荷預(yù)測(cè)精度,本文提出提出一種單步負(fù)荷預(yù)測(cè)的雙層LSTM模型。首先,采用最大信息系數(shù)(MIC)對(duì)多源異構(gòu)特征進(jìn)行選擇。隨機(jī)森林和遞歸特征消除(RFE)進(jìn)行特征選擇。在預(yù)處理過程中采用對(duì)含異常值敏感的Robust標(biāo)準(zhǔn)化方法進(jìn)行處理。最后預(yù)測(cè)模型采用單步預(yù)測(cè)的雙層LSTM層訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò),并得出最終預(yù)測(cè)結(jié)果。與其它基準(zhǔn)預(yù)測(cè)模型做對(duì)比,結(jié)果表明本文方法具有更高預(yù)測(cè)精度。在可預(yù)測(cè)的能源管理應(yīng)用中,尤其是在負(fù)荷分布更加不穩(wěn)定的小型微電網(wǎng)中,可以采用3步和24步范圍。最后,在ELM,GRNN和LSTM算法中建立實(shí)驗(yàn)?zāi)P停栽u(píng)估LSTM模型的性能。
本文以美國德州西部地區(qū)的總荷載為基準(zhǔn)。來自同一地區(qū)不同本地?cái)?shù)據(jù)中心的每小時(shí)天氣數(shù)據(jù)是從國家可再生能源實(shí)驗(yàn)室(NREL)網(wǎng)站收集的2012-2015年期間的數(shù)據(jù)。
X
,Y
為隨機(jī)變量,則互信息定義為(1)
其中,p
(x
,y
)為聯(lián)合概率密度函數(shù),p
(x
)和p
(y
)為邊緣密度函數(shù)。兩個(gè)變量之間互信息越大,則相關(guān)性越強(qiáng)。而MIC
克服了互信息對(duì)連續(xù)變量計(jì)算不便的缺點(diǎn),當(dāng)擁有足夠的統(tǒng)計(jì)樣本時(shí)可以捕獲廣泛的關(guān)系,更能體現(xiàn)屬性之間的關(guān)聯(lián)程度。MIC
計(jì)算主要分為三步:2)對(duì)最大互信息值進(jìn)行歸一化處理,將互信息值轉(zhuǎn)化到(0,1)區(qū)間;
3)選擇不同網(wǎng)格尺度下互信息的最大值作為最終MIC
值。MIC
的整體求值公式為(2)
式中:|X
|*|Y
|<B
表示網(wǎng)格劃分總數(shù)約束條件, 一般小于B
(B
為數(shù)據(jù)總量的0.
6次方)。 不同網(wǎng)格尺度即為給定多種(m
,n
)值來進(jìn)行網(wǎng)格劃分。MIC
是一種歸一化的最大互信息,具有比互信息更高的準(zhǔn)確度。兩個(gè)變量之間MIC
值越大,則其相關(guān)性越強(qiáng);相反,則相關(guān)性越弱。文中依據(jù)最大信息系數(shù)(MIC
)選出相關(guān)性強(qiáng)的特征作為預(yù)測(cè)模型輸入。輸入的總體特征F
為F
=[A
,Q
1,Q
2,…,D
1,D
2,…](3)
其中,A
為待預(yù)測(cè)負(fù)荷所屬日類型,定義A
=1為工作日,A
=0為周末或假日;Q
1,Q
2,… 表示經(jīng)MIC
特征選擇后的氣象特征變量,D
1,D
2,… 表示日期類型特征變量,下標(biāo)i
為對(duì)應(yīng)負(fù)荷時(shí)刻的氣象和日期類型變量,i
=1,2,3….n
,n
為輸入負(fù)荷值個(gè)數(shù)。數(shù)據(jù)提取結(jié)果如圖1。圖1 MIC特征(屬性)提取
隨機(jī)森林是機(jī)器學(xué)習(xí)中的算法之一。它根據(jù)特征的重要性來選擇特征。使用每個(gè)決策樹中的節(jié)點(diǎn)雜質(zhì)來計(jì)算特征的重要性。隨機(jī)森林中,最終的特征重要性是所有決策樹特征重要性的平均值。而遞歸特征消除(Recursive Feature Elimination),簡(jiǎn)稱RFE。針對(duì)哪些特征含有權(quán)重的預(yù)測(cè)模型,RFE通過遞歸的方式,不斷減少特征集的規(guī)模來選擇需要的特征。通過選擇性能最差或最好的功能來反復(fù)構(gòu)建任何模型。RFE計(jì)算等級(jí)和維度,并僅基于等級(jí)和維度保留最重要的功能。特征重要性如圖2。
圖2 隨機(jī)森林特征重要性
選擇前6個(gè)與負(fù)荷相關(guān)性強(qiáng)的屬性,并依據(jù)對(duì)應(yīng)的權(quán)重值作為預(yù)測(cè)模型的輸入。
負(fù)荷數(shù)據(jù)預(yù)處理主要包括缺失異常值處理和歸一化。如將缺失異常值舍去或取均值填充,可能會(huì)忽略某些重要信息或摻入噪聲,對(duì)預(yù)測(cè)結(jié)果造成不良影響。一般歸一化方法是采用去除均值和縮放到單位方差來完成。但異常值通常會(huì)以負(fù)面方式影響樣本均值/方差。而RobustScaler標(biāo)準(zhǔn)化算法的魯棒性好,可根據(jù)四分位數(shù)、中位數(shù)對(duì)每個(gè)特征進(jìn)行獨(dú)立的居中和縮放,能更好的的處理離群點(diǎn),降低異常值對(duì)樣本的影響,產(chǎn)生更好的預(yù)測(cè)結(jié)果。
LSTM網(wǎng)絡(luò)是通過一種被稱為存儲(chǔ)塊的結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行丟棄或者添加信息。典型的LSTM 神經(jīng)網(wǎng)絡(luò)包括多個(gè)層,包括序列輸入層,LSTM層和回歸輸出層。 LSTM層的基本單位稱為存儲(chǔ)塊,存儲(chǔ)塊的內(nèi)部架構(gòu)如圖3。
圖3 LSTM神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)
f
(τ
)=σ
(W
x
(τ
)+U
h
(τ
-1)+b
)(9)
i
(τ
)=σ
(W
x
(τ
)+U
h
(τ
-1)+b
)(10)
(11)
o
(τ
)=σ
(W
x
(τ
)+U
h
(τ
-1)+b
)(12)
(13)
h
(τ
)=o
(τ
)?φ
(c
(τ
))(14)
使用sigmoid函數(shù)(σ
)和雙曲正切函數(shù)(φ
)作為激活函數(shù)。 特殊符號(hào)“?”用于表示按元素的乘法。元素函數(shù)σ
和φ
定義如下(15)
(16)
τ
-1)的輸入矩陣單元:選擇回溯時(shí)間點(diǎn)的數(shù)量,即輸入序列長度M
。輸入特征序列的方式如下:
過去M
個(gè)時(shí)間步的每小時(shí)電負(fù)荷為(17)
將過去M
個(gè)時(shí)間步長的每小時(shí)溫度設(shè)置為(18)
將過去M
個(gè)時(shí)間步的每小時(shí)相對(duì)濕度設(shè)置為(19)
將星期特征設(shè)置為P
∈R
, 其中P
∈N
,1≤P
≤7。當(dāng)今智能電表基礎(chǔ)設(shè)施(SMI)采集的歷史負(fù)荷缺失異常值較少,文中在含有少量異常值基礎(chǔ)上,保持負(fù)荷及相關(guān)數(shù)據(jù)的原始性,不直接對(duì)數(shù)據(jù)做缺失異常值處理,而是在數(shù)據(jù)歸一化階段采用Robust標(biāo)準(zhǔn)化方法來針對(duì)離群點(diǎn)做出處理。
最后,歸一化的輸入特征以(10×M
)輸入矩陣陣列的形式為(20)
此后,通過堆疊兩個(gè)LSTM層來獲得深度學(xué)習(xí)網(wǎng)絡(luò)。 第一個(gè)LSTM層按順序接受輸入矩陣陣列,并為每個(gè)完整的輸入序列樣本更新M次存儲(chǔ)塊。 第二層LSTM層存儲(chǔ)塊與第一層同步更新。第二層中與序列中最后一個(gè)時(shí)間步相對(duì)應(yīng)的最后更新輸出被發(fā)送到輸出層以生成標(biāo)量輸出。此輸出是預(yù)測(cè)的下一步負(fù)荷為Y
(τ
-1)={l
(τ
)}∈R
。設(shè)計(jì)的預(yù)測(cè)方法總體流程如圖4。
圖4 改進(jìn)LSTM流程圖
1)特征選擇與預(yù)處理:對(duì)原始數(shù)據(jù)集利用MIC特征選擇技術(shù)選出與歷史負(fù)荷相關(guān)性較大的因素,然后進(jìn)一步利用隨機(jī)森林與遞歸特征消除(RFE)選取強(qiáng)相關(guān)性特征,處理過程中采用對(duì)含有少量異常值,魯棒性好的Robust標(biāo)準(zhǔn)化方法對(duì)數(shù)據(jù)歸一化;
2)將數(shù)據(jù)轉(zhuǎn)化為輸入準(zhǔn)備數(shù)據(jù)形式,訓(xùn)練單步預(yù)測(cè)的LSTM模型;
3)結(jié)果與評(píng)價(jià):最后經(jīng)單步預(yù)測(cè)模型輸出最終預(yù)測(cè)結(jié)果。根據(jù)負(fù)荷需求輸出預(yù)測(cè)值和真實(shí)值評(píng)價(jià)指標(biāo)MAE,RMSE和MAPE對(duì)預(yù)測(cè)結(jié)果做出評(píng)估,并在GRNN和ELM中實(shí)現(xiàn)相同的單步預(yù)測(cè)算法來對(duì)LSTM的預(yù)測(cè)模型進(jìn)行比較。
誤差評(píng)估指標(biāo)采用平均絕對(duì)誤差(MAE),平均絕對(duì)百分比誤差(MAPE)和歸一化均方根誤差(RMSE),公式如下:
(21)
(22)
(23)
其中,n
為預(yù)測(cè)點(diǎn)個(gè)數(shù)。訓(xùn)練模型使用2012年至2014年期間的數(shù)據(jù)集進(jìn)行訓(xùn)練,而2015年的數(shù)據(jù)集用于測(cè)試算法。第一和第二個(gè)LSTM層分別包含55個(gè)神經(jīng)元和50個(gè)神經(jīng)元。
預(yù)測(cè)模型的性能對(duì)輸入序列的長度很敏感。因此,探索了具有不同輸入序列長度,即回溯時(shí)間窗口中不同時(shí)間步長的算法的性能,以確定最有效的序列長度。18步序列實(shí)現(xiàn)了最低的誤差,見表1。因此,使用18步預(yù)測(cè)算法來訓(xùn)練和測(cè)試所提出的模型。
表1 LSTM單步算法預(yù)測(cè)性能
由于每日負(fù)荷曲線隨季節(jié)變化,因此,通過不同季節(jié)對(duì)模型的預(yù)測(cè)準(zhǔn)確性進(jìn)行了研究,結(jié)果見表2。
表2 單步預(yù)測(cè)模型對(duì)季節(jié)變化的預(yù)測(cè)
為了研究季節(jié)性影響,使用移動(dòng)平均法對(duì)每個(gè)季節(jié)每個(gè)月的實(shí)際負(fù)荷曲線進(jìn)行平滑處理,以創(chuàng)建基本負(fù)荷曲線(Pb)。從實(shí)際負(fù)荷輪廓減去基本負(fù)荷輪廓,以將波動(dòng)量化為波動(dòng)。最后,通過將Pb視為信號(hào),將Pf視為噪聲,來計(jì)算信噪比作為揮發(fā)性度量。根據(jù)表2,在夏季出現(xiàn)的最低預(yù)測(cè)誤差具有最小的波動(dòng)性度量如圖5。單步預(yù)測(cè)模型的性能如圖6。
圖5 季節(jié)波動(dòng)對(duì)負(fù)荷的影響
圖6 單步負(fù)荷預(yù)測(cè)模型性能
通過在GRNN和ELM中實(shí)現(xiàn)相同的算法來對(duì)基于LSTM的預(yù)測(cè)模型進(jìn)行基準(zhǔn)測(cè)試。單步負(fù)荷預(yù)測(cè)模型通過18步回溯窗口實(shí)現(xiàn)。冬季三天的預(yù)測(cè)比較如圖7。
圖7 單步負(fù)荷預(yù)測(cè)模型的比較
下面對(duì)不同算法在單步負(fù)荷預(yù)測(cè)算法上的性能進(jìn)行了比較見表3。
表3 預(yù)測(cè)性能比較
從表3中可知,LSTM網(wǎng)絡(luò)相比其它兩種算法具有優(yōu)越性。
針對(duì)智能電網(wǎng)下影響負(fù)荷因素眾多、負(fù)荷數(shù)據(jù)存在少量缺失異常值和序列非平穩(wěn)性的特點(diǎn),提出了一種基于最大信息系數(shù)(MIC)與小波分解的雙模型集成的短期負(fù)荷預(yù)測(cè)模型,并通過真實(shí)電網(wǎng)數(shù)據(jù)進(jìn)行了驗(yàn)證。得出以下結(jié)論:
1)影響負(fù)荷的因素眾多,利用適用于非性數(shù)據(jù)的最大信息系數(shù)MIC選出相關(guān)性大的影響因素,再使用隨機(jī)森林并結(jié)合遞歸特征消除(RFE)選取強(qiáng)相關(guān)特征,可提高預(yù)測(cè)精度。
2)預(yù)處理過程中,未直接對(duì)少量缺失異常值處理,這樣保證了數(shù)據(jù)的原始性。在歸一化時(shí)通過對(duì)異常值敏感的Robust標(biāo)準(zhǔn)化方法間接對(duì)異常值作出處理,解決異常值的問題。
3)選取高維數(shù)據(jù)預(yù)測(cè)良好模型LSTM進(jìn)行改進(jìn),改進(jìn)后的單步預(yù)測(cè)LSTM模型,可有效避免了過擬合和梯度消失問題。并且在與其它兩種算法相比,LSTM網(wǎng)絡(luò)生成的模型擁有更強(qiáng)的泛化能力,進(jìn)一步提升負(fù)荷預(yù)測(cè)精度,而且在實(shí)際應(yīng)用中更具有價(jià)值。