李冰簫,張世偉,鄭舒宇,趙志帆
(四川中電啟明星信息技術有限公司,四川成都 611700)
近年來,國家新型電力系統(tǒng)建設與電力市場化改革發(fā)展,水電作為主力的清潔能源,在新形勢下迎來了新的挑戰(zhàn)與發(fā)展機遇。四川是全國水電大省,2021年水電裝機容量達到9 315 萬千瓦時,按照規(guī)劃到2030 年四川水電裝機將突破1.3 億千瓦,約占全國水電裝機容量的,水電容量大,相應的水電站發(fā)電量波動也較大,容易造成“棄水”,所以準確把握未來水情氣象信息(降雨、徑流、洪水、干旱),使用水情氣象綜合監(jiān)測系統(tǒng),對水電站的防洪決策和發(fā)電調度起著重要作用,還可以提高水電站經(jīng)濟運行水平和災害性預警能力。所以預測其來水的功率也是非常重要的一步。
文賢馗[1]等人發(fā)明了一種考慮前池水位的小水電功率預測方法及預測系統(tǒng), 主要是用到了SVM 以及BP 神經(jīng)網(wǎng)絡。還有張晶[2]的基于大數(shù)據(jù)技術的徑流式小水電功率預測。辜庭帥[3]的小水電集群短期功率預測系統(tǒng)。本研究以福堂電站水機大量的歷史原始數(shù)據(jù)為對象,對功率預測方法進行了研究, 提出一種結合多元線性回歸(MLR)和整合移動平均自回歸模型(ARIMA)的水電功率預測新方法。
崔上書[4]等人先是采用主成分分析得出影響該地區(qū)空氣質量的3 大指標,再通過多元線性回歸得出空氣質量指數(shù)與3 大指標的多元線性回歸方程,最終得出空氣質量指數(shù)與空氣污染物質量濃度的多元線性回歸方程。馬旭[5]針對功率曲線擬合度差和風電功率預測準確度不高,提出了結合深度置信網(wǎng)絡(DBN)和多元線性回歸(MLR) 的深度學習模型對風電功率進行預測。多元線性回歸的模型方程:y=b0+b1x1+b2x2+…+bkxk+e 其中,b0為常數(shù)項,b1,b2,…bk為回歸系數(shù)。樣本與自變量的選取。
從福堂電站水機的數(shù)據(jù)中,選取2022 年1 月5日至2022 年5 月5 日的功率數(shù)據(jù)作為研究樣本。先是要對數(shù)據(jù)進行清洗操作,然后分析數(shù)據(jù),構建訓練集與測試集,根據(jù)該數(shù)據(jù)中功率的特點,假設X1為耗水流量數(shù)據(jù),X2為導葉開度數(shù)據(jù),X1、X2為自變量;Y是功率數(shù)據(jù)為因變量。然后使用LinearRegression()來進行多元線性預測。
使用最小二乘法對影響因素建立多元線性回歸模型,使用Python 對以上兩個因素建立最小二乘法的模型,獲得4 臺電站水機最小二乘法的線性回歸模型:
Y=-6.245-1.181X1+0.346X2
Y=-1.125-1.449X1+0.054X2
Y=-3.085-1.710X1-0.117X2
Y=-3.878-0.430X1+0.958X2
分別將X1~X2的值代入公式后可基于多元線性回歸模型迭代計算未來的水電功率。本研究使用的是擬合優(yōu)度(R2)來進行檢驗。
具體步驟為:
(1)總平方和SST(total sum of squares):
(2)回歸平方和SSR(regression sum of squares):
(3)殘差平方和SSE(error sum of squares):
確定系數(shù):
從上列公式可以看出,SST=SSR+SSE,總變異來自兩個方面的影響,一個是來自因變量x 的影響(SSR),一個是來自無法預測的殘差干擾(SST),想要回歸直線擬合的越好,就需要讓能被回歸可解釋的部分(SSR/SST) 占比越高,無法被回歸解釋的部分(SSE/SST)占比越小。經(jīng)計算后發(fā)現(xiàn)擬合優(yōu)度均在0.85 左右,一般來說,擬合優(yōu)度達到0.8 以上認為數(shù)據(jù)擬合效果好。圖1 為1F 電站預測數(shù)據(jù)。
圖1 多元線性回歸預測數(shù)據(jù)
ARIMA(p,d,q)模型全稱為差分自回歸移動平均模型(Autoregressive Integrated Moving Average Model,簡記ARIMA)。
ARIMA[6]模型的方程為:yi=θ0+φ1yt-1+φ2yt-2+…+φpyt-p+εt-θ1εt-1-θ2εt-2+…-θqεt-q其中,φi(i=1,2,…,q)表示AR 的系數(shù),θi=(1,2,…,q)表示MA 的系數(shù)。p 表示預測模型中采用的時序數(shù)據(jù)本身的滯后數(shù),d 表示時序數(shù)據(jù)需要進行幾階差分化,才是穩(wěn)定的,q 表示預測模型中采用的預測誤差的滯后數(shù)。使用ARIMA 模型預測水電功率首先獲取水電數(shù)據(jù)的時間序列數(shù)據(jù)繪圖,觀察其是否為平穩(wěn)性時間序列,對于非平穩(wěn)時間序列要先進行d 階差分運算,化為平穩(wěn)時間序列。再求得其自相關系數(shù)ACF 和偏自相關系數(shù)PACF,通過對自相關圖和偏自相關圖的分析,得到最佳的階層p 和階數(shù)q,d 為差分運算的次數(shù),最后由以上得到的d、q、p,得到ARIMA 模型,然后開始對得到的模型進行模型檢驗。
數(shù)據(jù)處理:
(1) 導入數(shù)據(jù),可視化觀察數(shù)據(jù)趨勢,并劃分測試集和訓練集。
(2) 平穩(wěn)性檢驗:單位根檢驗ADF。
(3) 若不平穩(wěn),使時間序列平穩(wěn)化:d 階差分。
建模預測:
計算自相關系數(shù)ACF 和偏相關系數(shù)PACF,對模型定階,如圖2 所示,為1F 電站的ACF 和PACF 圖形。AR 模型是自回歸模型,其基本假設是當前的序列值取決于它之前的值,且存在一定滯后。p 值可從PACF 圖的最大滯后點來大致判斷,q 值可從ACF 圖的最大滯后點來大致判斷,也可以遍歷搜索AIC 和BIC 最小的參數(shù)組合。AIC 和BIC 都是量統(tǒng)計模型擬合優(yōu)良性的一種標準,且引入了對模型參數(shù)過多過復雜的懲罰項,避免過擬合(BIC 的懲罰項比AIC 的大,還考慮了樣本數(shù)量過多)最后由d,p,q 得到ARIMA模型。
圖2 自相關系數(shù)ACF 和偏相關系數(shù)PACF
多元線性回歸和ARIMA 組合模型預測步驟[7-8]:
首先,將水電站的4 臺電站水機及相關水流因素四個月的數(shù)據(jù)分為兩組,前三個月數(shù)據(jù)作為訓練集,后一個月數(shù)據(jù)作為驗證集。通過多元線性回歸預測模型得到xt,通過ARIMA 預測模型得到y(tǒng)t。
將多元線性回歸預測模型的結果xt與ARIMA 預測模型的結果yt進行組合,組合模型的預測結果為zt,組合的公式如下:
式中:θ+φ=1,且θ,φ∈[0,1]。通過對θ 和φ 進行循環(huán)迭代,以0.01 為標準。對模型的精度的評估選擇RMSE、MAE 和MAPE,以1F 電站水機為例,通過評估后最終取最優(yōu)結果θ=0.08 和φ=0.92,多元線性回歸和ARIMA 組合模型的計算公式為:
使用最后一個月的數(shù)據(jù)即驗證集再進行一次上述步驟操作,獲得多元線性回歸模型、ARIMA 模型及其組合模型的RMSE、MAE 和MAPE 的精度評估,3個模型的誤差見表1。該表的數(shù)據(jù)明顯可以看到,本研究所使用的組合模型的RMSE、MAE 和MAPE 小于多元線性回歸模型和ARIMA 模型,即表示該組合模型在預測的精度上有所提升。
表1 3 個模型的誤差比對
實證分析:
本研究所使用的多元線性回歸-ARIMA 組合模型對水電功率進行預測,然后作出最后一個月的原始數(shù)據(jù)與該模型預測出的最后一個月的數(shù)據(jù)進行作圖分析,見圖3,其中“長線”為水電功率原始數(shù)據(jù),“點線”為多元線性回歸-ARIMA 模型預測功率的數(shù)據(jù)。由圖3 可知,本研究所使用的多元線性回歸-ARIMA 組合模型在水電功率預測結果上較好,具有一定的使用價值。
圖3 多元線性回歸-ARIMA 組合模型預測數(shù)據(jù)
本研究對水電功率進行預測驗證,結果表明,多元線性回歸模型與ARIMA 組合模型相對于單獨的多元線性回歸或者是ARIMA 模型在水電功率預測中的有效性,可以較準確地對未來的水電功率進行短期預測。水電功率一般受天氣,環(huán)境等多種因素的影響,本研究引入了多元線性回歸模型,在一定的程度上提高了模型預測的效果。對于引入ARIMA,多元線性回歸模型在此可以預防模型的過擬合和滯后性。通過上述實證分析,該模型的擬合度在實用的環(huán)境中發(fā)揮不錯。在此工作下的長遠考慮是引入更多對水電功率影響的因素,比如一些不可避免的隨機因素,引入的因素越多,對于模型預測的準確性越強。