武明義 焦超凡 瞿博陽(yáng) 焦岳超 付 凱
(中原工學(xué)院電子信息學(xué)院,鄭州 450007)
在能源危機(jī)和環(huán)境污染的大背景下,光伏發(fā)電已成為現(xiàn)代能源互聯(lián)網(wǎng)中重要的能源來(lái)源形式之一。隨著光伏發(fā)電普及率的提高,光伏發(fā)電本身具有的波動(dòng)性和間歇性使電力系統(tǒng)能源管理和調(diào)度問(wèn)題變得越來(lái)越復(fù)雜[1]。因此,精準(zhǔn)可靠的光伏發(fā)電預(yù)測(cè)對(duì)堅(jiān)強(qiáng)智能電網(wǎng)的建設(shè)具有重要意義。
傳統(tǒng)的光伏發(fā)電預(yù)測(cè)方法有物理學(xué)方法和統(tǒng)計(jì)學(xué)方法[2]。物理學(xué)方法根據(jù)氣象和地理等信息直接建立模型計(jì)算光伏出力,雖然不需要?dú)v史數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練,但抗干擾能力較差;常見(jiàn)的統(tǒng)計(jì)學(xué)方法以時(shí)間序列法、灰色理論等為代表,所需參數(shù)少,模型簡(jiǎn)單,但對(duì)原始時(shí)間序列的平穩(wěn)性要求較高。近年來(lái),以深度學(xué)習(xí)為代表的人工智能算法快速發(fā)展,給光伏發(fā)電預(yù)測(cè)模型的發(fā)展帶來(lái)了新的契機(jī)[3],以人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(support vector machine, SVM)為代表的神經(jīng)網(wǎng)絡(luò)模型在光伏發(fā)電預(yù)測(cè)方面取得了不錯(cuò)的效果,但是由于結(jié)構(gòu)參數(shù)不容易確定,很容易導(dǎo)致結(jié)果陷入局部最優(yōu)[4]。在此基礎(chǔ)上,通過(guò)粒子群算法對(duì)網(wǎng)絡(luò)的權(quán)值和閾值進(jìn)行優(yōu)化,得到的模型取得了較好的預(yù)測(cè)效果[5]。應(yīng)用全局學(xué)習(xí)自適應(yīng)細(xì)菌覓食算法可以提高傳統(tǒng)的最大功率點(diǎn)跟蹤技術(shù)的精確度[6]。運(yùn)用改進(jìn)的魚(yú)群算法和最小二乘支持向量機(jī)進(jìn)行短期負(fù)荷預(yù)測(cè),取得了較好的預(yù)測(cè)結(jié)果[7]。通過(guò)對(duì)負(fù)荷的特性和影響負(fù)荷的氣候特征進(jìn)行分析研究,改進(jìn)預(yù)測(cè)模型,也可以提高預(yù)測(cè)的精度[8-10]。此外,混合深度學(xué)習(xí)光伏發(fā)電模型,利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提取數(shù)據(jù)的時(shí)間特征,然后利用卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)的空間特征,也取得了較好的預(yù)測(cè)效果[11]。為提高光伏發(fā)電預(yù)測(cè)模型的預(yù)測(cè)精度和泛化能力,本文利用改進(jìn)相似日算法(improved similarity day algorithm, ISDA)搜索歷史數(shù)據(jù),將得到的相似日數(shù)據(jù)結(jié)合氣候和歷史負(fù)荷時(shí)序特性等因素作為決策變量輸入決策樹(shù)學(xué)習(xí)器中,使用Bagging 集成學(xué)習(xí)進(jìn)行模型訓(xùn)練,通過(guò)與反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)及SVM 對(duì)比實(shí)驗(yàn)結(jié)果,表明本文提出的光伏發(fā)電混合預(yù)測(cè)模型具有較高的預(yù)測(cè)精度。
本文采用基于權(quán)重因子的新歐幾里德范數(shù)(Euclidean norm, EN)來(lái)衡量相似度的大小,將日溫度、濕度和輻照度作為帶有權(quán)重因子的變量來(lái)評(píng)估歷史光伏出力[12],ENt越小,則表明相似度越高,有
式中:Tt、TPt、ΔTt分別對(duì)應(yīng)預(yù)測(cè)日、歷史日在第t時(shí)刻的溫度及二者之差;Ht、HPt、ΔHt分別對(duì)應(yīng)預(yù)測(cè)日、歷史日在第t時(shí)刻的濕度及二者之差;Ft、FPt、ΔFt分別對(duì)應(yīng)預(yù)測(cè)日、歷史日在第t時(shí)刻的輻照度及二者之差;是基于歷史光伏出力數(shù)據(jù)建立的多項(xiàng)式回歸模型的權(quán)重因子。
假設(shè)光伏出力為W,溫度為T(mén),濕度為H,輻照度為F,則有
建立數(shù)據(jù)集D={(T1,H1,F1), (T2,H2,F2), …, (Tn,Hn,Fn)},根據(jù)最小二乘法,可以得到預(yù)測(cè)值與實(shí)際值之間的方差,即
將式(6)中的方差α分別對(duì)T、H、F求偏導(dǎo),并令其等于0,即可求得方差最小時(shí)的
Bagging 集成學(xué)習(xí)作為并行式集成學(xué)習(xí)的代表,通過(guò)自助采樣法將原始數(shù)據(jù)集劃分成不同的訓(xùn)練集,每個(gè)訓(xùn)練集輸入決策樹(shù)基學(xué)習(xí)器中進(jìn)行訓(xùn)練,得到各自預(yù)測(cè)結(jié)果后,將所有的預(yù)測(cè)結(jié)果通過(guò)平均法進(jìn)行結(jié)合,得出最終的預(yù)測(cè)結(jié)果[13]。Bagging 集成學(xué)習(xí)通過(guò)結(jié)合多個(gè)學(xué)習(xí)器的預(yù)測(cè)結(jié)果,使整體的預(yù)測(cè)精度和泛化性能得到提升,Bagging 集成學(xué)習(xí)示意圖如圖1 所示。
圖1 Bagging 集成學(xué)習(xí)示意圖
假設(shè)有數(shù)據(jù)集D={(ym,xm),m=1, 2,…,M},為輸入特征向量,ym為輸出值,m為樣本的個(gè)數(shù)。該模型的算法流程如圖2 所示。
1)采用皮爾遜相關(guān)系數(shù)法等,針對(duì)影響光伏發(fā)電的所有因素,包括溫度、濕度、輻照度、風(fēng)速、風(fēng)向、壓強(qiáng),進(jìn)行特征貢獻(xiàn)度定量分析[14],即
圖2 混合模型算法流程
式中:xi為輸入特征;為輸入特征平均數(shù);yi為實(shí)際光伏出力;為實(shí)際光伏出力的平均數(shù);r為特征貢獻(xiàn)度。將貢獻(xiàn)度低的影響因素刪除,保留貢獻(xiàn)度高的因素:溫度、濕度、輻照度,從而初步簡(jiǎn)化輸入特征向量。
2)根據(jù)歷史光伏出力數(shù)據(jù),對(duì)溫度、濕度、輻照度因素建立回歸模型來(lái)確定對(duì)應(yīng)的權(quán)重因子
3)使用改進(jìn)相似日算法通過(guò)ENt在數(shù)據(jù)集D中找出與預(yù)測(cè)日天氣氣候相似的歷史日。
4)結(jié)合氣象站數(shù)據(jù)中的預(yù)測(cè)日當(dāng)日溫度、濕度、輻照度,以及負(fù)荷歷史時(shí)間序列特性數(shù)據(jù)組成輸入特征向量。
5)初始化決策樹(shù)學(xué)習(xí)模型,為平衡計(jì)算的復(fù)雜度和精確度,選擇分類(lèi)回歸樹(shù)(classification and regression tree, CART)[13]的數(shù)量為130。
6)采用自助采樣法(Bootstarp)隨機(jī)有放回地產(chǎn)生130 個(gè)訓(xùn)練集,形成Bagging 集成學(xué)習(xí)模型。
7)將130 棵決策樹(shù)的預(yù)測(cè)結(jié)果求平均,得出最后的預(yù)測(cè)結(jié)果,即預(yù)測(cè)日的光伏出力值,模型的輸出為
式中:H(x)為模型的輸出;T為基本學(xué)習(xí)器個(gè)數(shù);hi(x)為第i個(gè)基本學(xué)習(xí)器的預(yù)測(cè)結(jié)果。
為評(píng)估所提模型的預(yù)測(cè)能力,計(jì)算預(yù)測(cè)值和實(shí)際值的平均絕對(duì)誤差百分比(mean absolute percentage error, MAPE)和平均絕對(duì)誤差(mean absolute error,MAE),即
式中:Wi為實(shí)際值;為預(yù)測(cè)值;N為預(yù)測(cè)點(diǎn)的個(gè)數(shù)。MAPE 評(píng)估實(shí)際值和預(yù)測(cè)值之間誤差的相對(duì)大小和波動(dòng)性[15],MAE 則反映了平均誤差的絕對(duì)大小。
算例的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于2017 國(guó)能日新某光伏電站的數(shù)據(jù),光伏出力數(shù)據(jù)為電站脫敏后的實(shí)際值,氣象數(shù)據(jù)為對(duì)應(yīng)地區(qū)的氣象站預(yù)測(cè)數(shù)據(jù),電站的裝機(jī)量為50MW。選取2017 年5 月5 日00:00 到2017年8 月7 日23:45 的歷史光伏數(shù)據(jù)作為數(shù)據(jù)集,每15min 采集一次數(shù)據(jù),本文中的樣本數(shù)為9 109 個(gè)。數(shù)據(jù)集包括每個(gè)采樣點(diǎn)的溫度、濕度、輻照度、風(fēng)速、風(fēng)向、壓強(qiáng)和光伏出力。將2018 年8 月7 日全天的96 個(gè)采樣點(diǎn)的光伏出力看作預(yù)測(cè)目標(biāo)。
為了研究不同因素對(duì)光伏發(fā)電的影響,采用皮爾遜相關(guān)系數(shù)法定量分析影響光伏出力的主要因素,得到的不同輸入特征貢獻(xiàn)度見(jiàn)表1。由表1 可知,影響光伏發(fā)電的主要因素有輻照度、溫度和濕度,而風(fēng)速、壓強(qiáng)和風(fēng)向的影響較小。因此,將溫度、濕度、輻照度這3 種影響光伏發(fā)電的主要因素組成輸入特征向量,剔除壓強(qiáng)等次要因素,初步簡(jiǎn)化輸入特征向量,以簡(jiǎn)化模型。
表1 不同輸入特征貢獻(xiàn)度
考慮到時(shí)序特性[16],將預(yù)測(cè)日時(shí)刻t的前兩個(gè)時(shí)刻、預(yù)測(cè)日前兩天時(shí)刻t、歷史相似日時(shí)刻t的光伏出力、溫度、濕度、輻照度作為輸入向量。此外,由于光伏出力容易受到不同季節(jié)的氣候、云層等因素的影響[17],考慮4 種不同的日類(lèi)型,模型輸入和輸出見(jiàn)表2。
表2 模型輸入和輸出
將輸入向量輸入到?jīng)Q策樹(shù)學(xué)習(xí)器中進(jìn)行模型訓(xùn)練,再將數(shù)量為130 的決策樹(shù)的計(jì)算結(jié)果進(jìn)行結(jié)合,訓(xùn)練20 次,取平均值作為最后的預(yù)測(cè)結(jié)果。
為了驗(yàn)證改進(jìn)相似日算法的有效性及Bagging集成學(xué)習(xí)的優(yōu)越性,將改進(jìn)相似日算法處理后的數(shù)據(jù)和未經(jīng)處理的數(shù)據(jù)輸入到Bagging 集成學(xué)習(xí)模型和經(jīng)典的BPNN 模型、SVM 模型中,計(jì)算MAPE和MAE,計(jì)算結(jié)果見(jiàn)表3。由表3 數(shù)據(jù)可知,在三種模型中,經(jīng)過(guò)改進(jìn)相似日算法處理后的數(shù)據(jù)誤差要明顯低于未處理的數(shù)據(jù),驗(yàn)證了改進(jìn)相似日算法的有效性。另外,從表3 還能明顯看出,Bagging集成學(xué)習(xí)的誤差要低于BPNN 和SVM 的預(yù)測(cè)誤差。這主要有兩方面的原因:①相似日算法通過(guò)在歷史數(shù)據(jù)中搜索和預(yù)測(cè)日氣候特點(diǎn)相似的歷史日,可以避免大量不相關(guān)日期光伏出力的干擾,確保模型能夠找到正確的變化趨勢(shì);②通過(guò)集成學(xué)習(xí),可以綜合多個(gè)單一學(xué)習(xí)器模型的特點(diǎn),克服單一學(xué)習(xí)器模型容易陷入局部最優(yōu)的缺點(diǎn),保證預(yù)測(cè)結(jié)果更加接近真實(shí)值。所以,相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型,本文提出的混合預(yù)測(cè)模型更適合光伏發(fā)電出力的預(yù)測(cè)。
表3 不同預(yù)測(cè)模型結(jié)果的誤差對(duì)比
預(yù)測(cè)日當(dāng)天所有采樣點(diǎn)的光伏出力預(yù)測(cè)值和實(shí)際值如圖3 所示,其中預(yù)測(cè)值用方塊圖標(biāo)表示,實(shí)際值用圓形圖標(biāo)表示。由圖3 可知,在實(shí)際的出力時(shí)間點(diǎn),模型的預(yù)測(cè)值和實(shí)際光伏出力的趨勢(shì)基本保持一致,除去少數(shù)點(diǎn)有很小的偏差,大概保持在-1.5MW 到0.7MW 以內(nèi),表明混合預(yù)測(cè)模型的預(yù)測(cè)精度較高,能夠較好地預(yù)測(cè)光伏出力的趨勢(shì)。
圖3 混合模型預(yù)測(cè)結(jié)果
圖4 給出了SVM、BPNN、Bagging 集成學(xué)習(xí)3種預(yù)測(cè)模型在加入相似日處理的數(shù)據(jù)集進(jìn)行訓(xùn)練后得到的預(yù)測(cè)結(jié)果誤差曲線。從圖4 可以看出,Bagging集成學(xué)習(xí)和BPNN 的誤差接近且效果較好,SVM 相對(duì)誤差較大。這是由于短期光伏發(fā)電具有很大的隨機(jī)性,對(duì)于隨機(jī)性較大的數(shù)據(jù)集,Bagging 集成學(xué)習(xí)和BPNN 模型的預(yù)測(cè)效果要好于SVM。綜上所述,基于改進(jìn)相似日算法和Bagging 集成學(xué)習(xí)的混合預(yù)測(cè)模型對(duì)于短期光伏出力預(yù)測(cè)具有較高的精度,可用于實(shí)際的光伏發(fā)電預(yù)測(cè)和調(diào)度。
圖4 SVM 、BPNN 和Bagging 集成學(xué)習(xí)模型預(yù)測(cè)誤差對(duì)比
本文基于決策樹(shù)學(xué)習(xí),將改進(jìn)相似日算法和Bagging 集成學(xué)習(xí)應(yīng)用到短期光伏發(fā)電預(yù)測(cè)中,提出了一種混合預(yù)測(cè)模型。首先對(duì)影響光伏出力的不同因素的貢獻(xiàn)度進(jìn)行分析,初步簡(jiǎn)化輸入特征向量,其次,通過(guò)改進(jìn)相似日算法搜索歷史數(shù)據(jù),將相似日的氣候因素、光伏出力及預(yù)測(cè)日的氣候因素、時(shí)序特征和日類(lèi)型組成輸入向量,在Bagging 集成學(xué)習(xí)框架下進(jìn)行模型訓(xùn)練。
該模型提取有效的歷史數(shù)據(jù),將相似日的光伏出力和氣候因素加入輸入特征向量,提高了預(yù)測(cè)的精度,且采用集成學(xué)習(xí)的方式,避免了單一模型陷入局部最優(yōu)的缺點(diǎn)。與BPNN、SVM 進(jìn)行對(duì)比的實(shí)驗(yàn)結(jié)果表明,該模型具有較高的預(yù)測(cè)精度,可用于實(shí)際的短期光伏電站發(fā)電預(yù)測(cè)及調(diào)度。