劉曉鋒 李太斌 范偉寧 李棟梁 曹哲銘
(1.中國華能集團(tuán)有限公司 北京市 100031 2.華能四川水電有限公司 四川省成都市 610041)
(3.華能信息技術(shù)有限公司 山東省青島市 266000 4.太極計算機(jī)股份有限公司 北京市 100102)
隨著電力系統(tǒng)的增長和可再生能源的普及,系統(tǒng)的復(fù)雜性和不確定性水平顯著提高。過去的大多數(shù)研究都集中在開發(fā)精確的水力發(fā)電點(diǎn)預(yù)測方法,包括最早的也是最為簡單的回歸分析,以及后來隨著計算機(jī)技術(shù)發(fā)展,逐漸提出了時間序列法、頻譜分析法以及近年的神經(jīng)網(wǎng)絡(luò)方法都被應(yīng)用于水流量和發(fā)電量的預(yù)測中。但是由于天氣系統(tǒng)的混沌性和水流量的極大波動性,水電預(yù)測中的誤差是不可避免的,而且往往是非常嚴(yán)重的。
因此本文為了量化誤差和提高預(yù)測的可靠性,通過收集三個發(fā)電站水牛家、自一里、木座的相關(guān)數(shù)據(jù),在對數(shù)據(jù)進(jìn)行一定分析和預(yù)處理之后,采取了極限學(xué)習(xí)機(jī)和長短期記憶網(wǎng)絡(luò)兩種模型對其水流量和發(fā)電量進(jìn)行了區(qū)間預(yù)測,并對預(yù)測誤差進(jìn)行了一定的評估。
本文選取了水電站數(shù)據(jù)中的水牛家、自一里、木座三個水電站進(jìn)行屬性分析,通過選取三個水電站2008年-2018年水流量和發(fā)電量的完整數(shù)據(jù)集來進(jìn)行建模,其中2008年-2017年共4384 條數(shù)據(jù)為訓(xùn)練集,2018年的數(shù)據(jù)為訓(xùn)練集來對所建預(yù)測模型進(jìn)行檢驗(yàn)。通過建立時間序列預(yù)測模型,預(yù)測這三個水電站的發(fā)電量和來水量,對所收集數(shù)據(jù)進(jìn)行描述性分析,結(jié)果如表1所示。
時間序列指的是按照時間順序的一組數(shù)列,時間序列分析(Time-Series Analysis)是指將原來的數(shù)據(jù)分解為四部分來看——趨勢、周期、時期和不穩(wěn)定因素,然后綜合這些因素,提出預(yù)測。對收集到的水電站的時間序列數(shù)據(jù)進(jìn)行處理以便后續(xù)的模型分析。在對數(shù)據(jù)的時間序列進(jìn)行分析預(yù)測的時候,數(shù)據(jù)相對越平穩(wěn)越好,剔除掉異常值就是減少特殊狀況對數(shù)據(jù)的影響,從而使得最終預(yù)測結(jié)果越準(zhǔn)確。因此從數(shù)據(jù)的時間序列圖和箱型圖中觀察異常值,對異常值采取先剔除后填補(bǔ)的方式對其進(jìn)行處理,減少異常值對模型預(yù)測的影響。
本文選取了極限學(xué)習(xí)機(jī)(Extreme learning machine,ELM)和長短期記憶網(wǎng)絡(luò)(Long and short-term memory network,LSTM)兩個模型對水電站的水流量和發(fā)電量進(jìn)行區(qū)間預(yù)測。
極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)或“超限學(xué)習(xí)機(jī)”是一類基于前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,FNN)構(gòu)建的機(jī)器學(xué)習(xí)系統(tǒng)或方法,適用于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)問題。
LSTM(Long Short Term Memory Network)長短時記憶網(wǎng)絡(luò),是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題,在時間序列預(yù)測問題上面有廣泛的應(yīng)用。
表1:水電站數(shù)據(jù)描述性統(tǒng)計
任何數(shù)據(jù)的預(yù)測都不可以避免相關(guān)誤差,因此預(yù)測目標(biāo)計算公式可以概括為:
其中ti為預(yù)測目標(biāo),xi是相關(guān)輸入變量,包括水電站歷史水流量和發(fā)電量的數(shù)據(jù),ε(xi)則表示測量噪音,因?yàn)樵胍舻拇嬖谑沟脺y量目標(biāo)偏離其真實(shí)值而趨向于其測量值,而且我們假設(shè)ε(xi)服從高斯分布,其均值為0,方差為δ2ε。因此對于預(yù)測中的誤差就分為了兩個部分:
圖1:長短期記憶網(wǎng)絡(luò)模型下自一里水電站發(fā)電量預(yù)測
本模型種選取了預(yù)測區(qū)間覆蓋率(PICP)、預(yù)測區(qū)間歸一化平均寬度(PINAW)、預(yù)測區(qū)間歸一化均方根寬度(PINRW)以及基于覆蓋寬度的準(zhǔn)則(CWC)四個指標(biāo)對區(qū)間預(yù)測結(jié)果進(jìn)行評估。其中,PICP 表示概率目標(biāo)值被上下界覆蓋的概率。較大的PICP 意味著更多的目標(biāo)位于構(gòu)建的預(yù)測區(qū)間內(nèi),反之亦然。令N 表示樣本總數(shù),則理想狀態(tài)當(dāng)然是PICP 達(dá)到100%,這意味著所有值均被預(yù)測區(qū)間所覆蓋。但是在這其中容易忽視預(yù)測區(qū)間跨度的問題,如果預(yù)測區(qū)間跨度大,則很容易達(dá)到較高的PICP 值,因此較寬的預(yù)測區(qū)間對于決策毫無用處,預(yù)測區(qū)間的寬度決定了它們的信息性。因此還需要采用PINAW 指標(biāo)將所有區(qū)間寬度歸一化。其公式為其中R 為預(yù)測目標(biāo)的范圍(最大值減去最小值)。PINAW 的格式類似于用于點(diǎn)預(yù)報的平均絕對百分比誤差(MAPE)。它賦予每個預(yù)測區(qū)間寬度相等的權(quán)重。PINRW 則相當(dāng)于點(diǎn)預(yù)測中的均方誤差(MSE),計算公式為但是不管是PICP 還是PINAW(或PINRW)都只單獨(dú)評估預(yù)測區(qū)間的一個方面,這可能會導(dǎo)致誤導(dǎo)性的結(jié)果。在實(shí)踐中,要求同時兼PICP 和PINAW 這兩個方面,對項(xiàng)目信息系統(tǒng)的整體質(zhì)量進(jìn)行綜合評價。因此在本文中還引入了CWC 這一參考指標(biāo),其中η 和μ 是兩個控制參數(shù),μ 可根據(jù)其置信區(qū)間來設(shè)定,η 是放大PICP 和μ 之間差異的超參數(shù)。如果預(yù)分配的PICP 不滿足,則CWC 將對此項(xiàng)進(jìn)行指數(shù)懲罰。而。在評估測試預(yù)測區(qū)間時,如果PICP 不小于指定的μ,則給出相等的PICP 測量值。否則,并且相應(yīng)的結(jié)果將在CWC 數(shù)值上展現(xiàn)出來。
本文采取ELM 和LSTM 兩種模型對水電站的水流量和發(fā)電量的區(qū)間預(yù)測用上述四個指標(biāo)進(jìn)行評估。
對于所有的模型預(yù)測結(jié)果,PICP 均超過75%,這說明預(yù)測區(qū)間較高概率地覆蓋了目標(biāo)值,且無論是PINAW 或是PINRW 都低于25%,因此預(yù)測區(qū)間寬度也是在合理范疇的。但是需注意的是,無論是采用極限學(xué)習(xí)機(jī)還是長短期記憶網(wǎng)絡(luò)模型,自一里水電站預(yù)測區(qū)間的PINAW 和PINRW 的值都是高于其它兩個水電站的。預(yù)測區(qū)間的寬度是與于數(shù)據(jù)集的不確定性水平有一定關(guān)聯(lián),因此自一里水電站相較于另外兩個水電站其水流量和發(fā)電量具有更高的不確定性。而從CWC 指標(biāo)來看,對于三個水電站的發(fā)電量預(yù)測區(qū)間的CWC 值均高于水流量區(qū)間預(yù)測的CWC 值,反映出水流量相較于發(fā)電量有更大的不確定性影響了對其區(qū)間的預(yù)測。但是從整體評價指標(biāo)來看,所提出的預(yù)測區(qū)間對于水電站的水流量和發(fā)電量的預(yù)測還是可取的,對于水電站未來管理是有一定參考價值。
利用極限學(xué)習(xí)機(jī)和長短期記憶網(wǎng)絡(luò)對水電站的發(fā)電量和來水量進(jìn)行預(yù)測最終形成的預(yù)測區(qū)間時間序列圖如圖1所示(僅選取自一里水電站X270 進(jìn)行展示)。
由圖1 可以看出,大多數(shù)實(shí)際值位于預(yù)測區(qū)間之內(nèi),區(qū)間預(yù)測比點(diǎn)預(yù)測有更大的誤差包容性。
我國水電站數(shù)量眾多,因此為了保證水力發(fā)電的穩(wěn)定運(yùn)行,對于水電站的水流量和發(fā)電量進(jìn)行預(yù)測至關(guān)重要。本文提出了基于極限學(xué)習(xí)機(jī)和長短期記憶網(wǎng)絡(luò)兩種模型對水電進(jìn)行區(qū)間估計的方法,有效解決了點(diǎn)估計種存在的預(yù)測誤差較大的問題,從模型評估結(jié)過來看,兩種模型各有其優(yōu)勢所在,這兩種算法對于日后水電站的穩(wěn)定運(yùn)營以及負(fù)荷預(yù)測有著廣泛的應(yīng)用前景和指導(dǎo)意義。