劉揚(yáng),王立虎,楊禮波,劉雪梅
(華北水利水電大學(xué) 信息工程學(xué)院,河南 鄭州 450046)
河川徑流作為水循環(huán)的關(guān)鍵節(jié)點(diǎn),對(duì)其進(jìn)行精確預(yù)報(bào)具有重要意義。變化環(huán)境下徑流的波動(dòng)系數(shù)不斷加大,極端氣候背景下的徑流趨勢(shì)呈現(xiàn)更大的波動(dòng)性,給徑流的準(zhǔn)確預(yù)報(bào)提出了更高的要求。如何根據(jù)不同流域,提出更加穩(wěn)定、高效的預(yù)報(bào)模型,具有重要的理論意義和應(yīng)用價(jià)值。
目前,以物理認(rèn)識(shí)為基礎(chǔ)的機(jī)理驅(qū)動(dòng)模型和以統(tǒng)計(jì)科學(xué)為基礎(chǔ)的數(shù)據(jù)驅(qū)動(dòng)模型在徑流預(yù)報(bào)領(lǐng)域取得了一定的進(jìn)展。以氣象數(shù)據(jù)作為輸入,利用半分布式水文模型對(duì)徑流進(jìn)行預(yù)測(cè),并以異常相關(guān)系數(shù)作為評(píng)估指標(biāo),實(shí)驗(yàn)結(jié)果表明,確定性預(yù)測(cè)精度較高[1]。將分布式水文模型和氣象遙相關(guān)分析相結(jié)合,采用水文模型提供初始條件,利用遙相關(guān)指數(shù)確定氣象輸入,開(kāi)展流域水庫(kù)入庫(kù)徑流的長(zhǎng)期預(yù)測(cè)[2]。然而,機(jī)理驅(qū)動(dòng)模型往往存在可解釋性差,主觀干擾因素眾多等問(wèn)題。數(shù)據(jù)驅(qū)動(dòng)模型可以有效緩解機(jī)理模型帶來(lái)的不足[3-6]。例如,以支持向量回歸(support vector regression,SVR)模型預(yù)測(cè)集水區(qū)洪水發(fā)生概率,結(jié)果表明,SVR 模型對(duì)于提前1~3 h的預(yù)測(cè)具有令人滿(mǎn)意的預(yù)測(cè)性能[7]。利用自適應(yīng)神經(jīng)模糊推理系統(tǒng)(adaptive neuro-fuzzy inference system,ANFIS)對(duì)區(qū)域徑流進(jìn)行預(yù)測(cè)。結(jié)果表明,ANFIS 模型的平均絕對(duì)誤差優(yōu)于其他模型[8]。然而,以統(tǒng)計(jì)科學(xué)為基礎(chǔ)的數(shù)據(jù)模型往往存在預(yù)測(cè)精度低,可解釋性差等問(wèn)題?;旌夏P涂捎行Ь徑鈹?shù)據(jù)模型的不足。結(jié)合人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)模型和Muskingum-Cunge 方法,進(jìn)而構(gòu)建一種基于BR-ANN 的洪水預(yù)報(bào)模型。研究區(qū)的驗(yàn)證對(duì)比結(jié)果表明,BR-ANN 模型具有優(yōu)越的綜合預(yù)測(cè)能力[9]。將 SWAT 模型與ANN 模型結(jié)合并用于區(qū)域徑流預(yù)測(cè),結(jié)果表明SWAT-ANN 的預(yù)測(cè)精度優(yōu)于SWAT 模型[10]。結(jié)合經(jīng)驗(yàn)?zāi)J椒纸猓╡mpirical mode decompostion,EMD)算法與長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory networks,LSTM),進(jìn)而構(gòu)建EMD-LSTM 模型。并使用均方根誤差(root mean square error,RMSE)、決定系數(shù)、Willmott 一致性指數(shù)(Willmott index,WI)和Legates-McCabe 指數(shù)(legates McCabe index,LMI)作為評(píng)估標(biāo)準(zhǔn),結(jié)果表明該方法在特大洪水年預(yù)測(cè)可靠性較高[11]。然而,EMD 方法在分解過(guò)程中往往存在模態(tài)混疊和端點(diǎn)效應(yīng)[12-14]。
針對(duì)以上問(wèn)題,本文結(jié)合改進(jìn)集合經(jīng)驗(yàn)?zāi)B(tài)分解(ensemble empirical mode decomposition,EEMD)與門(mén)控制循環(huán)單元神經(jīng)網(wǎng)絡(luò)(goted recurrent unit,GRU)構(gòu)建一種基于改進(jìn)EEMD 的神經(jīng)網(wǎng)絡(luò)模型(EEMD-GRU)。該模型將改進(jìn)EEMD 方法和GRU 模型進(jìn)行融合,同時(shí)引入并行計(jì)算思想,實(shí)現(xiàn)對(duì)徑流的精確、高效、穩(wěn)定預(yù)測(cè)。經(jīng)驗(yàn)證,相比于結(jié)合了EMD 的SVR 模型,并行EEMD-GRU 模型表現(xiàn)出更加高效、可靠的性能。
GRU 基于循環(huán)神經(jīng)網(wǎng)絡(luò)。同循環(huán)神經(jīng)網(wǎng)絡(luò)相比,GRU 具有計(jì)算效率高,邏輯簡(jiǎn)單等優(yōu)勢(shì)[15]。其基本結(jié)構(gòu)如圖1 所示。
圖1 GRU 神經(jīng)元結(jié)構(gòu)Fig.1 GRU neuron structure
GRU 的提出是為了克服RNN 無(wú)法很好地處理遠(yuǎn)距離依賴(lài)的問(wèn)題,在保持了LSTM 效果的同時(shí)使結(jié)構(gòu)更加簡(jiǎn)單。GRU 僅保留了重置門(mén)和更新門(mén),即圖中r(t)和z(t),其中重置門(mén)輸出矩陣rt可定義為
式中:wr為重置門(mén)的權(quán)重矩陣;σ為sigmoid 函數(shù);h(t?1)為t?1 時(shí)刻的隱含狀態(tài);x(t)為t時(shí)刻輸入數(shù)據(jù)。更新門(mén)輸出矩陣zt可定義為
式中:wz為更新門(mén)的權(quán)重矩陣;則GRU 網(wǎng)絡(luò)的輸出可定義為
式中:Wo為輸出權(quán)重矩陣;c為輸出偏置[16-18]。
EEMD 在經(jīng)驗(yàn)?zāi)B(tài)分解的基礎(chǔ)上,通過(guò)引入白噪聲,有效消除了模態(tài)混疊現(xiàn)象,使得EEMD的分解結(jié)果更加具有物理意義[19-24],集合經(jīng)驗(yàn)?zāi)B(tài)分解的基本原理可以描述如下:
1)將正態(tài)分布的白噪聲信號(hào)ni(t)加到原始信號(hào)x(t)得到信號(hào)xi(t),定義為
xi(t)=x(t)+ni(t)
2)將加入白噪聲的信號(hào)作為一個(gè)整體,然后進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解(EMD),得到各IMF 分量,定義為
式中:cij(t)為第i次加入白噪聲后分解得到的第j個(gè)IMF 分量;ri(t)是分解后的剩余分量;n為IMF 分量的個(gè)數(shù)。
3)重復(fù)1)~2),對(duì)各階分量取平均,得到最終IMF 分量cj(t)為
式中w為添加白噪聲的次數(shù),即總體平均數(shù)。
EEMD 的提出是解決EMD 分解過(guò)程中出現(xiàn)的模態(tài)混疊現(xiàn)象,使得在模態(tài)分解過(guò)程中可以很好地避免IMF 分量不精確等問(wèn)題[25-26]。
解決集合經(jīng)驗(yàn)?zāi)B(tài)分解邊界效應(yīng)的方法一般是對(duì)信號(hào)進(jìn)行邊界拖延。本文利用極限學(xué)習(xí)算法作為模態(tài)分解端點(diǎn)效應(yīng)的解決方案,具體步驟如下:
1)以右邊界為例,選取合適的拓延步長(zhǎng),作為原始信號(hào)的拓延信號(hào)序列長(zhǎng)度;
2)將原始信號(hào)劃分為測(cè)試集、訓(xùn)練集,進(jìn)而構(gòu)建極限學(xué)習(xí)預(yù)測(cè)模型;
3)將原始信號(hào)右端點(diǎn)利用預(yù)測(cè)模型進(jìn)行預(yù)測(cè),預(yù)測(cè)信號(hào)與原始信號(hào)合并;
4)利用相同的原理拓延原始信號(hào)的左邊界。
綜合實(shí)時(shí)采集技術(shù),以黃河流域部分干流共32 個(gè)水文站的實(shí)際水文數(shù)據(jù)作為數(shù)據(jù)支撐,進(jìn)行數(shù)據(jù)清洗、分解、預(yù)測(cè)、重構(gòu)等一系列操作,最終獲得高精度徑流預(yù)測(cè)值,進(jìn)而為水庫(kù)的安全運(yùn)行和區(qū)域防洪減災(zāi)提供決策支持。圖2 給出了并行EEMD-GRU 的數(shù)據(jù)流程圖,其基本實(shí)現(xiàn)如下。
圖2 并行EEMD-GRU 流程Fig.2 Parallel EEMD-GRU flow
1)以黃河流域部分干流為實(shí)驗(yàn)對(duì)象,實(shí)時(shí)采集水文站徑流數(shù)據(jù)f(t),通過(guò)數(shù)據(jù)清洗技術(shù),對(duì)空數(shù)據(jù)、非數(shù)值型數(shù)據(jù)等非法數(shù)據(jù)進(jìn)行過(guò)濾,然后對(duì)其進(jìn)行歸一化,其中歸一化方程可定義為
式中:max(x)為樣本數(shù)據(jù)的最大值;min(x)為樣本數(shù)據(jù)的最小值。
2)基于帶外誤差理論,以目標(biāo)站點(diǎn)為基準(zhǔn),將目標(biāo)預(yù)測(cè)站上下游水文站徑流數(shù)據(jù)作為特征x?,對(duì)目標(biāo)預(yù)測(cè)站進(jìn)行特征選擇。首先,將徑流樣本通過(guò)重復(fù)抽樣的方式構(gòu)建樣本,訓(xùn)練模型,然后利用剩余樣本對(duì)模型進(jìn)行評(píng)估,并計(jì)算樣本誤差,記作E1,最后將剩余樣本加入噪聲,計(jì)算剩余樣本的誤差,記作E2,特征fi(x?)的重要性可定義為
fi(x?)值越大,表明特征x?的重要程度越高。
3)將歸一化并經(jīng)過(guò)特征選擇的數(shù)據(jù)首先進(jìn)行邊界拓延,然后進(jìn)行EEMD 分解,分解為若干本征模態(tài)分量,并將各分量分別拆分為訓(xùn)練集和測(cè)試集;
4)對(duì)訓(xùn)練集與測(cè)試集進(jìn)行數(shù)據(jù)劃分,將過(guò)去5 d(通過(guò)實(shí)驗(yàn)分析,將預(yù)測(cè)集序列長(zhǎng)度設(shè)置為5模型效果最優(yōu))設(shè)置為輸入變量,分別對(duì)未來(lái)1、4、6、16、21、31 d 進(jìn)行預(yù)測(cè);
5)對(duì)預(yù)測(cè)分量進(jìn)行重組,由此得到輸出序列。
本文選取黃河流域2002—2019 年徑流觀測(cè)數(shù)據(jù)作為數(shù)據(jù)支撐,以EMD-SVR[27]和GRU[28]作為對(duì)比模型,以納什指數(shù)(Ens)、平均絕對(duì)誤差、相關(guān)誤差、運(yùn)行時(shí)間(run time)作為評(píng)估標(biāo)準(zhǔn),實(shí)現(xiàn)對(duì)算法的可信度、穩(wěn)定度、精準(zhǔn)度和執(zhí)行效率的全面評(píng)估。其中Ens納什效率系數(shù)用于評(píng)估預(yù)測(cè)模型的可信度與穩(wěn)定度。Ens取值為負(fù)無(wú)窮至1,Ens接近1,表示模式質(zhì)量好,模型可信度高。相對(duì)誤差和平均絕對(duì)誤差分別評(píng)估實(shí)時(shí)誤差與整體誤差。
并行EEMD-GRU 方法及EMD-SVR 方法分別對(duì)未來(lái)1、4、6、16、21、31 d 徑流深度進(jìn)行預(yù)測(cè),結(jié)果如圖3 所示。
圖3 不同模型不同時(shí)間尺度下的預(yù)測(cè)曲線(xiàn)對(duì)比Fig.3 Comparison of prediction curves under different models and different time scales
根據(jù)圖3 可知,在低延時(shí)的未來(lái)預(yù)測(cè)中,EEMDGRU 與GRU 表現(xiàn)能力相似,但是隨著預(yù)測(cè)天數(shù)的增加,EEMD-GRU 相對(duì)于GRU 和EMD-SVR 具有較高的精確度。由于EEMD 可有效提高GRU模型的魯棒性。使得固定未來(lái)天數(shù),調(diào)整預(yù)測(cè)序列的特征和序列長(zhǎng)度,EEMD-GRU 相比GRU 模型穩(wěn)定性高。
根據(jù)圖4 可以了解到,EEMD-GRU 相對(duì)于GRU 模型和EMD-SVR 模型,預(yù)測(cè)誤差更小,精度更高,且相對(duì)于其他模型更加穩(wěn)定。由于EMD方法存在模態(tài)混疊和端點(diǎn)效應(yīng),EMD-SVR 模型預(yù)測(cè)精度最差。
圖4 不同模型不同時(shí)間尺度下的相對(duì)誤差對(duì)比Fig.4 Comparison of relative errors of different models and different time scales
綜合表1 與圖5,由于EEMD-GRU 引入了分解合成策略,有效提高了模型的非穩(wěn)態(tài)信號(hào)處理能力,模型的預(yù)測(cè)精度提高,可信度增強(qiáng)。算法的運(yùn)行時(shí)間可以作為算法運(yùn)行效率的一個(gè)衡量標(biāo)準(zhǔn),EEMD-GRU 模型相對(duì)于EMD-SVR 模型由于加入了并行計(jì)算的概念,使得模型的整體預(yù)測(cè)效率提高。
圖5 智能計(jì)算模型指標(biāo)評(píng)估圖Fig.5 Intelligent calculation model index evaluation chart
表1 不同模型不同時(shí)間尺度下指標(biāo)數(shù)值對(duì)比Table 1 Comparison of index values under different models and different time scales
續(xù)表 1
圖6 反應(yīng)了各個(gè)算法在預(yù)測(cè)過(guò)程中的實(shí)時(shí)可信度表現(xiàn)。在中長(zhǎng)期徑流預(yù)測(cè)中,預(yù)見(jiàn)期的增加,序列的非穩(wěn)態(tài)性增強(qiáng),對(duì)模型的魯棒性要求更高。預(yù)見(jiàn)期為未來(lái)16 d、31 d 時(shí),EMD-SVR 和GRU 模型相對(duì)于EEMD-GRU 模型,可信度較差。
圖6 智能計(jì)算模型 Ens評(píng)估圖Fig.6 Intelligent calculation model Ens evaluation chart
本文在模態(tài)分解方法與深度學(xué)習(xí)方法的思想上,構(gòu)造了并行EEMD-GRU 徑流預(yù)測(cè)方法,主要結(jié)論有:
1)本文所提出的并行EEMD-GRU 模型對(duì)于不同預(yù)測(cè)步長(zhǎng),預(yù)測(cè)時(shí)間均有有較高的精度、可信度和預(yù)測(cè)效率,預(yù)測(cè)模型具有一定的泛化性和魯棒性,通過(guò)與原生GRU 模型和EMD-SVR 模型的對(duì)比中發(fā)現(xiàn),所構(gòu)建的混合模型精準(zhǔn)度、可信度和效率高于其他模型。
2)由于引入了EEMD 分解算法,使得混合模型整體計(jì)算性能有所下降,雖然所引入的并行計(jì)算思想可以有效解決模型計(jì)算消耗,但隨之而來(lái)的的確是內(nèi)存消耗問(wèn)題,希望在今后的研究中更加關(guān)注模型的高性能計(jì)算,使得模型綜合能力可以進(jìn)一步提升。