李福威,孫凱昕,丁 偉
(1.國電電力和禹水電開發(fā)公司,遼寧 本溪 117201;2.大連理工大學水利工程學院,遼寧 大連 116024)
中長期徑流預(yù)報是水資源規(guī)劃和水利工程運行研究的重要部分,可靠的徑流預(yù)報對于開展水庫優(yōu)化調(diào)度、制定水電站發(fā)電計劃、跨流域調(diào)水等工作具有重要的指導(dǎo)作用。
為提高徑流預(yù)報精度,國內(nèi)外學者開展了預(yù)報模型方面的大量研究[1,2],提出了多種模型,包括成因分析法、水文統(tǒng)計法和人工智能方法[3]。成因分析法綜合分析大氣環(huán)流、水文氣象因素和下墊面物理環(huán)境與徑流變化的內(nèi)在聯(lián)系,挖掘水文過程的演變機理,但其高度依賴氣象資料,難以推廣。水文統(tǒng)計法原理簡單,計算量少,但對歷史數(shù)據(jù)資料要求較高[4]。近年來出現(xiàn)的支持向量機[5]、灰色系統(tǒng)[6]、人工神經(jīng)網(wǎng)絡(luò)[7,8]、模糊算法[9]等人工智能方法能處理復(fù)雜的非線性問題,在徑流中長期預(yù)報中應(yīng)用最為廣泛,但存在過學習和穩(wěn)定性不強的缺點。由于每個模型各有優(yōu)勢,模型間并非相互排斥,而是相互聯(lián)系與補充,因此許多學者研究通過適當?shù)姆绞饺诤隙鄠€單一預(yù)報模型實現(xiàn)融合預(yù)報,發(fā)現(xiàn)融合模型能充分利用各模型優(yōu)勢,有效提升預(yù)報的準確性和可靠性。徐煒等[10]使用自適應(yīng)聯(lián)邦濾波算法對多元線性回歸、BP 神經(jīng)網(wǎng)絡(luò)、季節(jié)自回歸和新安江模型進行融合,桓仁流域應(yīng)用結(jié)果表明信息融合模型可有效提高預(yù)報精度。
研究基于機器學習方法的多模型融合方法在桓仁流域中長期徑流預(yù)測中的適用性,基于BP 神經(jīng)網(wǎng)絡(luò)、多元線性回歸、支持向量機、結(jié)合主成分分析的BP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建4個單一徑流預(yù)報模型,采用信息熵法、BP神經(jīng)網(wǎng)絡(luò)模型、SVM模型建立3 種信息融合模型,系統(tǒng)分析各信息融合模型在桓仁流域的適用性。
已有研究提出了大量的中長期徑流預(yù)報模型,其中,BP 神經(jīng)網(wǎng)絡(luò)模型(BP Neural Network,BP)[11,12]具有較強的非線性映射能力、自學習能力、數(shù)據(jù)適應(yīng)能力等優(yōu)勢,被廣泛應(yīng)用于預(yù)測、分類、模式識別和聚類等領(lǐng)域,也是徑流預(yù)報中應(yīng)用最廣泛的模型之一。多元線性回歸模型(Multiple Linear Regressive,MLR)[13]理論簡單,易于實現(xiàn),可用于處理非函數(shù)性問題,是中長期徑流預(yù)報的一個重要手段。支持向量機模型(Support Vector Machine,SVM)基于結(jié)構(gòu)風險最小化原理,能夠更快速的處理小樣本問題和非線性問題,具有較強的泛化能力等優(yōu)勢,一直是徑流預(yù)測的研究熱點。為此本文基于相關(guān)系數(shù)法篩選預(yù)報因子,選用BP 神經(jīng)網(wǎng)絡(luò)、多元線性回歸、支持向量機構(gòu)建單一徑流預(yù)報模型,在此基礎(chǔ)上進一步采用主成分分析(Principal Component Analysis,PCA)解決預(yù)報因子的信息冗余問題,構(gòu)建PCA-BP模型。
為了充分發(fā)揮各單一模型的優(yōu)勢,提高預(yù)報精度,降低預(yù)報誤差,通過信息熵法和機器學習兩種融合方式,構(gòu)建基于信息熵、BP神經(jīng)網(wǎng)絡(luò)、支持向量機的3種信息融合徑流預(yù)報模型。
1.2.1 基于信息熵的徑流預(yù)報融合模型
基于信息熵(Entropy)的信息融合模型是根據(jù)信息熵確定各模型權(quán)重[14]。假設(shè)流域?qū)嶋H徑流量為X,對于有m個單一預(yù)報模型,n個模型擬合程度評價指標的體系,構(gòu)造評價矩陣G,計算公式為:
式中:eij為第i個預(yù)報模型的第j個評價指標值。
對矩陣G進行歸一化處理,得到標準化矩陣R,計算公式為:
式中:rij為第i個預(yù)報模型的第j個評價指標的標準化值。第i個模型的信息熵計算公式為:
式中:pij為第j個評價指標下第i個模型的標準化值所占的比重。Ei為第i個預(yù)報模型的信息熵,表征了預(yù)報序列的變異程度,變異程度越大,信息熵Ei越大,表明數(shù)據(jù)序列提供了更多的有用信息量。為此,Ei越大的模型在融合預(yù)報模型中應(yīng)獲得更大的權(quán)重[15,16],權(quán)重ωi的計算公式為:
信息融合預(yù)報模型的預(yù)測值計算公式為:
式中:Y為融合預(yù)測值;Yi為第i個單一模型預(yù)測值;ωi為第i個單一模型的權(quán)重。
1.2.2 基于機器學習算法的徑流預(yù)報融合模型
圖1 基于信息熵的多模型融合示意圖Fig.1 Schematic diagram of multi-model fusion based on information entropy
考慮到不同徑流預(yù)報模型的結(jié)果與實際徑流之間的關(guān)系并不一定為簡單的線性關(guān)系,而是復(fù)雜的非線性關(guān)系,本文基于機器學習算法對多模型進行非線性融合[17]。選擇具有強大非線性映射能力的BP 神經(jīng)網(wǎng)絡(luò)和支持向量機作為融合方法,以單一模型的預(yù)報結(jié)果作為輸入,實際徑流量作為輸出,利用模型的自學習能力優(yōu)化單一模型在融合模型中的權(quán)重,對流域徑流進行模擬,最終得到可用于流域旬徑流預(yù)報的基于BP 神經(jīng)網(wǎng)絡(luò)(BP)和支持向量機(SVM)的信息融合模型,見圖2。
圖2 基于BP神經(jīng)網(wǎng)絡(luò)的多模型融合示意圖Fig.2 Schematic diagram of multi-model fusion based on BP neural network
采用平均絕對誤差(MAE)、均方根誤差(RMSE)和預(yù)報合格率(QR)來評定模型預(yù)報精度,使用公式如下:
式中:Qobs,t為實測值;Qsim,t為預(yù)報值;T為序列長度;n為合格預(yù)報次數(shù);m為預(yù)報總次數(shù)。
MAE和RMSE值越小,QR值越大,說明模型的預(yù)報精度越高。預(yù)報合格率的計算根據(jù)我國現(xiàn)行《水文情報預(yù)報規(guī)范》GB∕T 22482-2008 中規(guī)定的中長期水文要素定量預(yù)報總水量的許可誤差限為多年同期變幅的20%[18]。
桓仁水庫位于渾江流域中游,是一座以發(fā)電為主,兼有防洪、灌溉等綜合利用的不完全年調(diào)節(jié)水庫,總庫容為34.6 億m3,壩址控制流域面積為10 364 km2,年平均徑流量為45.67 億m3。流域?qū)儆跍貛Ъ撅L型大陸性氣候,多山地,山勢陡峭,多年平均年降水量為860 mm,多年平均徑流系數(shù)為0.52,冬季一般從11月份開始到翌年3月末或4月初結(jié)束,期間以降雪為主,積雪融化期主要在3月至4月?;溉仕畮焓菧喗Y源梯級開發(fā)中的第一級,提升桓仁水庫的徑流預(yù)報精度,不但對桓仁水庫的水資源管理、水利工程運行具有重要意義,也為整個渾江流域梯級水庫群發(fā)電優(yōu)化調(diào)度方案的制定提供可靠的輸入信息。由于流域內(nèi)汛期與非汛期的水文氣象特征呈現(xiàn)出較大的差異性,為準確描述旬徑流變化特征,本文分別建立汛期與非汛期旬徑流預(yù)報模型,以及考慮融雪影響的春汛期旬徑流預(yù)報模型。
2.2.1 預(yù)報因子選擇
根據(jù)桓仁水庫流域的水文特征,在考慮降雨、徑流實測信息的基礎(chǔ)上,將美國國家環(huán)境預(yù)報中心(NCEP)中期(1~14 d)數(shù)值降雨預(yù)報信息作為輸入因子。本文采用相關(guān)系數(shù)法確定汛期、非汛期的關(guān)鍵預(yù)報因子,見圖3。由圖3可知,影響汛期徑流的主要因素為本旬和下旬的降雨量,而非汛期主要受徑流影響。
圖3 各預(yù)報因子與旬徑流量的相關(guān)性Fig.3 Correlation between each forecast factor and ten-day runoff
2.2.2 預(yù)報模型構(gòu)建
分別建立桓仁水庫流域的單一徑流預(yù)報模型和融合徑流預(yù)報模型,各模型結(jié)果如表1所示。單一徑流預(yù)報模型的構(gòu)建以1967-1995 共29年資料作為率定期,1996-2012 共17年資料為驗證期,以預(yù)報合格率為指標確定模型最優(yōu)參數(shù),其中BP 神經(jīng)網(wǎng)絡(luò)模型的節(jié)點數(shù)(5,5,1)表示輸入層、隱含層的最優(yōu)節(jié)點數(shù)為5。融合模型的輸入因子是各單一模型的預(yù)報值,為此利用單一模型驗證期的模擬結(jié)果構(gòu)建融合模型,將1996-2005年作為率定期,2006-2012年作為驗證期,以預(yù)報合格率為優(yōu)化指標確定汛期和非汛期融合預(yù)報模型的參數(shù)。其中構(gòu)建基于信息熵(Entropy)的融合預(yù)報模型時,首先選取均方根誤差(RMSE)、均方誤差(MSE)、平均絕對誤差(MAE)、均方百分比誤差(MSPE)和平均絕對百分比誤差(MAPE)5個誤差評價指標對單一預(yù)報模型的預(yù)測結(jié)果進行評估,再基于信息熵理論確定各模型在融合模型中的權(quán)重系數(shù)。
表1 各模型的主要結(jié)構(gòu)Tab.1 Main structure of the models
2.2.3 預(yù)報結(jié)果分析
圖4展示了各模型的徑流預(yù)報結(jié)果,由圖4可知,大部分模型在驗證期的預(yù)報精度低于率定期,其中BP 模型降低最為明顯,模型存在過擬合。對比汛期和非汛期,汛期各指標在不同模型間的差異要比非汛期大,且總體上汛期預(yù)報合格率高于非汛期,汛期合格率介于70%~90%,而非汛期合格率均在70%以下。其原因主要是非汛期來水少,允許誤差小,導(dǎo)致合格率評價指標值偏低,如在桓仁水庫流域4月份平均流量為153 m3∕s,1月份平均流量僅為10 m3∕s。綜合對比單一模型和融合模型的各項指標發(fā)現(xiàn),在汛期基于機器學習算法的融合模型預(yù)報精度均優(yōu)于單一模型,且SVM 融合模型在各項指標中提升幅度最大,各項指標均為最優(yōu),MAE和RMSE分別是77 和135,預(yù)報合格率達到86%。
圖4 7種預(yù)報模型評價指標對比圖Fig.4 Comparison chart of evaluation indicators of 7 forecast models
圖5展示了各模型的實測與模擬徑流過程線,由圖5可知,各模型的模擬徑流與實測徑流吻合程度較高,能較準確地模擬桓仁流域徑流的變化趨勢,且融合模型比單一模型具有更高的吻合度。各單一預(yù)報模型的模擬徑流雖然在波谷段與實測值基本吻合,但在波峰段與實測值偏離較大,其中BP 模型的預(yù)測結(jié)果偏離最大,汛期峰值段的模擬誤差均在30%以上。另外,基于信息熵的融合模型的模擬結(jié)果在汛期與非汛期均高于實測值,考慮存在系統(tǒng)誤差。
圖5 流域各模型實測與模擬旬徑流過程對比Fig.5 Comparison of the measured and forecasted ten-day runoff for each model in the basin
為進一步分析各模型在年內(nèi)不同季節(jié)的模擬效果,分汛期和非汛期統(tǒng)計分析各旬預(yù)報合格率,見圖6和圖7。從圖中可以看出,由于徑流年內(nèi)分配不均,各單一預(yù)報模型在不同旬的預(yù)報精度不同,沒有模型能夠在全年各旬都保持最高精度,該結(jié)果論證了僅憑一個模型無法對所有旬徑流情況做出準確預(yù)報,有必要構(gòu)建融合模型。
由圖6可知,SVM融合模型在汛期的提升效果最優(yōu),將汛期5 個旬的預(yù)報合格率提升到100%;BP 融合模型的預(yù)報精度次之,也提升了5 個旬的預(yù)報合格率,其中將6月中旬的預(yù)報合格率從76%提高到100%,提升了24%。而基于信息熵的融合模型有約6個月預(yù)報合格率低于60%,擬合效果不佳。由此可見,基于機器學習算法的融合模型可以更好的融合各單一模型的優(yōu)點,其在汛期的預(yù)報能力高于單一模型和基于信息熵的融合模型。主要原因是BP 神經(jīng)網(wǎng)絡(luò)和支持向量機具有強大的線性和非線性映射能力,不受信息熵加權(quán)平均的線性關(guān)系限制,可以更準確的刻畫各單一模型間的復(fù)雜關(guān)系,從而對各旬徑流做出準確預(yù)報。
圖6 7種旬徑流預(yù)報模型的模擬精度(汛期)Fig.6 Simulation accuracy of seven ten-day runoff forecasting models (flood season)
由圖7可知,各融合模型的預(yù)報能力在非汛期相差不大,共提升非汛期4個旬的預(yù)報精度,其中基于BP和信息熵的融合模型均將4月上旬的預(yù)報合格率從單一模型的76%提高到100%,但其整體預(yù)報精度與單一模型相比并未展示出明顯優(yōu)勢。此外,各模型的預(yù)報精度在非汛期各旬間差異大,在11月和12月大部分模型的預(yù)報合格率都達到80%,其中PCA-BP 模型預(yù)報精度最高。但在1月到4月,模型的預(yù)報合格率普遍較低,主要是因為這個時期是桓仁水庫的結(jié)冰期和融雪期,一方面,1月和2月氣溫低,流域的降雨大多凝結(jié)成固態(tài)冰塊,徑流量達到全年最低,各旬允許誤差均小于10 m3∕s,允許誤差小,導(dǎo)致合格率指標值偏低;另一方面,積雪融化期主要在3月到4月,此時桓仁水庫的徑流受降水和冬季融雪的共同作用,而構(gòu)建的旬徑流預(yù)報模型由于未考慮到春季融雪因素,徑流預(yù)報結(jié)果偏小。
圖7 7種旬徑流預(yù)報模型的模擬精度(非汛期)Fig.7 Simulation accuracy of seven ten-day runoff forecasting models (non-flood season)
為提升桓仁水庫春汛期(3-4月)徑流預(yù)報精度,本文考慮融雪影響,基于BP 神經(jīng)網(wǎng)絡(luò)模型重新構(gòu)建融雪期的旬徑流預(yù)報模型。預(yù)報因子考慮氣溫、降水、徑流三類,其中降雨和溫度考慮自11月至預(yù)報期各旬的數(shù)值,采用逐步優(yōu)選確定神經(jīng)網(wǎng)絡(luò)模型的輸入因子,見表2。
表2 考慮融雪影響的旬徑流預(yù)報模型輸入因子Tab.2 Input factors of ten-day runoff forecasting model considering snowmelt
以1967-1995年為率定期,1996-2012年為驗證期,以預(yù)報合格率為指標確定模型最優(yōu)參數(shù),最終得到考慮融雪影響的BP神經(jīng)網(wǎng)絡(luò)模型的節(jié)點數(shù)(4,5,1),模型的預(yù)報結(jié)果如表3所示??梢钥闯觯诼识ㄆ?,除3月上旬外,其他各旬的合格率均在90%以上,最高可達97%;對于驗證期,合格率均在90%以上,預(yù)報精度較不考慮融雪影響的模型有極大提升,尤其是3月上旬,合格率由47%提升到90%。由此可見,考慮融雪影響的神經(jīng)網(wǎng)絡(luò)模型可大幅提高非汛期徑流預(yù)報能力,為桓仁水庫調(diào)度提供更精確可靠的預(yù)報信息。
表3 考慮融雪影響的神經(jīng)網(wǎng)絡(luò)模型模擬精度%Tab.3 Simulation accuracy of neural network model considering snowmelt
基于上述8 個模型在各旬的模擬效果,以合格率為指標選取各旬中模擬精度最高的模型作為該旬推薦使用的預(yù)報模型,若多模型合格率相同,選擇MAE、RMSE指標值偏小的模型,見表4??梢钥闯?,汛期各旬除了6月下旬合格率為76%,其他旬合格率高于80%,總體預(yù)報效果較好;非汛期除了2月外,其他旬預(yù)報合格率大部分高于80%。
表4 各旬推薦使用模型%Tab.4 The recommended model for each ten-day period
以桓仁水庫流域為研究對象,提出了一種基于機器學習算法的多模型融合的旬徑流預(yù)報方法,構(gòu)建了基于信息熵和機器學習的信息融合模型,以平均絕對誤差、均方根誤差和預(yù)報合格率為預(yù)報評價指標,系統(tǒng)分析了各模型不同旬的預(yù)報結(jié)果。結(jié)果表明,各單一模型在不同旬的預(yù)測精度不同,基于BP 神經(jīng)網(wǎng)絡(luò)和支持向量機的融合模型能夠很好地融合各模型優(yōu)勢,有效提升徑流預(yù)報精度,提高了汛期10 個旬的預(yù)報合格率,其中將6個旬的預(yù)報合格率提升到100%,最大提升率達到24%。針對春汛期融雪影響,構(gòu)建了考慮融雪的徑流預(yù)報模型,有效提高了5個旬的預(yù)報合格率。提出的信息融合模型預(yù)報方法在桓仁水庫流域取得了較好的效果,提高了該流域的徑流預(yù)報能力,可為其他流域的徑流預(yù)報研究提供借鑒。