,
(華中科技大學(xué) a.水電與數(shù)字化工程學(xué)院; b.數(shù)字流域科學(xué)與技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430074)
近年來(lái),我國(guó)洪澇干旱災(zāi)害頻繁發(fā)生,給我國(guó)社會(huì)經(jīng)濟(jì)可持續(xù)發(fā)展造成了重大影響。準(zhǔn)確可靠的水文預(yù)報(bào)信息是流域水資源規(guī)劃管理和水利工程運(yùn)行調(diào)控的重要基礎(chǔ),能有效降低洪澇干旱等自然災(zāi)害帶來(lái)的損失,對(duì)水資源優(yōu)化配置和利用有著重要的意義。
徑流的形成受氣象、水文、地形、地貌、流域下墊面和人類活動(dòng)等多方面因素的影響,呈復(fù)雜非線性動(dòng)力特性[1]。傳統(tǒng)確定性數(shù)學(xué)模型及預(yù)測(cè)方法主要研究時(shí)間序列的外在表現(xiàn)及其隨機(jī)因素的影響,但難以刻畫水文過(guò)程內(nèi)在特性和演化機(jī)理。作為研究非線性隨機(jī)動(dòng)力系統(tǒng)結(jié)構(gòu)特性和過(guò)程潛能的新興學(xué)科,混沌理論為人類認(rèn)識(shí)復(fù)雜水循環(huán)內(nèi)在動(dòng)力特性提供了新途徑。Hense等[2]于20世紀(jì)80年代首次將混沌建模理論引入水文學(xué)領(lǐng)域,為后續(xù)水文徑流系統(tǒng)的混沌特性識(shí)別和混沌預(yù)測(cè)兩個(gè)方面的研究指明了方向。Hu等[3]運(yùn)用混沌建模和相空間重構(gòu)理論證實(shí)了新疆瑪納斯河流域徑流過(guò)程本質(zhì)上具有很強(qiáng)的混沌特性。王秀杰等[4]建立了基于小波技術(shù)、混沌理論和神經(jīng)網(wǎng)絡(luò)的日徑流預(yù)報(bào)模型,取得了較為滿意的預(yù)報(bào)精度。于國(guó)榮和夏自強(qiáng)[5]分析了宜昌站月徑流時(shí)間序列的混沌特性,建立了耦合混沌相空間重構(gòu)理論和支持向量機(jī)(Support Vector Machine,SVM)的月徑流預(yù)報(bào)模型,并通過(guò)實(shí)例分析驗(yàn)證了該模型的可行性和有效性。郭曉亮等[6]結(jié)合混沌相空間重構(gòu)理論構(gòu)建了模糊支持向量機(jī)月徑流時(shí)間序列模型,實(shí)驗(yàn)證明該模型能有效降低徑流預(yù)報(bào)誤差。Hong等[7]采用遺傳算法對(duì)相空間重構(gòu)理論進(jìn)行改進(jìn),建立了基于改進(jìn)相空間的中長(zhǎng)期徑流預(yù)報(bào)模型,研究結(jié)果表明所建模型能較好地反映中長(zhǎng)期徑流時(shí)間序列的非線性和混沌特征,取得較為可靠和穩(wěn)定的預(yù)報(bào)結(jié)果。
目前,對(duì)于徑流時(shí)間序列預(yù)測(cè)的研究大多集中在基于參數(shù)優(yōu)化[8-9]、數(shù)據(jù)預(yù)處理[10-12]及加權(quán)組合預(yù)測(cè)[13-14]等方面,而對(duì)單個(gè)模型的性能進(jìn)行集成學(xué)習(xí)的研究還比較少。大量水文預(yù)測(cè)研究方法表明,沒(méi)有某一種預(yù)報(bào)方法能夠完全優(yōu)于另一種方法,且單一預(yù)測(cè)模型存在參數(shù)難以確定,極易陷入局部最優(yōu)、過(guò)擬合,以及流域不同時(shí)空物理背景場(chǎng)的適應(yīng)性和局限性等問(wèn)題。AdaBoost算法[15]通過(guò)迭代產(chǎn)生多個(gè)弱學(xué)習(xí)器,在每次迭代過(guò)程中,通過(guò)抽樣產(chǎn)生不同的訓(xùn)練樣本,并將弱學(xué)習(xí)器加權(quán)組合形成強(qiáng)學(xué)習(xí)器,以克服單一預(yù)測(cè)模型的局限,提高弱學(xué)習(xí)算法的預(yù)測(cè)精度。
機(jī)器學(xué)習(xí)模型以其不需要考慮水循環(huán)過(guò)程物理機(jī)制的優(yōu)點(diǎn)在徑流預(yù)報(bào)中應(yīng)用廣泛。目前常見(jiàn)的機(jī)器學(xué)習(xí)模型包括傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)、SVM支持向量機(jī)和極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)模型等。其中BP神經(jīng)網(wǎng)絡(luò)和ELM模型主要基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,模型不穩(wěn)定且易陷入局部最優(yōu);SVM模型主要基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,穩(wěn)定性高,但SVM模型更適用于小樣本的訓(xùn)練,且其預(yù)報(bào)性能對(duì)懲罰參數(shù)和核參數(shù)異常敏感;相比于BP神經(jīng)網(wǎng)絡(luò)和SVM模型,ELM模型不需要調(diào)整輸入權(quán)值及隱層偏置,收斂速度更快。綜上,研究工作選取ELM極限學(xué)習(xí)機(jī)模型作為AdaBoost集成模型的單項(xiàng)弱學(xué)習(xí)器[16],通過(guò)對(duì)樣本和預(yù)報(bào)模型的雙重加權(quán)增強(qiáng)極限學(xué)習(xí)機(jī)弱學(xué)習(xí)器的建模精度和穩(wěn)定性。
本文以長(zhǎng)江上游干流攀枝花水文站、北碚水文站和宜昌水文站為研究對(duì)象,對(duì)3個(gè)站點(diǎn)的月平均徑流序列進(jìn)行混沌特性分析。在月徑流時(shí)間序列具有混沌屬性研究的基礎(chǔ)上,采用相空間重構(gòu)方法對(duì)一維時(shí)間序列進(jìn)行多維重構(gòu),得到預(yù)測(cè)模型輸入變量。進(jìn)一步提出一種基于自適應(yīng)動(dòng)態(tài)閾值的改進(jìn)AdaBoost.RT集成極限學(xué)習(xí)機(jī)模型,對(duì)混沌月徑流時(shí)間序列進(jìn)行預(yù)測(cè),以期獲得高精度的水文預(yù)報(bào)信息。
徑流時(shí)間序列是一個(gè)復(fù)雜的非線性動(dòng)力系統(tǒng),其運(yùn)行狀態(tài)的改變是多種物理因素相互作用的結(jié)果,徑流時(shí)間序列只能反映其中一部分信息。以相空間重構(gòu)為基礎(chǔ),可以對(duì)徑流時(shí)間序列的混沌特性進(jìn)行識(shí)別并進(jìn)行進(jìn)一步的預(yù)測(cè)分析。相空間重構(gòu)的基本原理是通過(guò)引入刻畫時(shí)間序列采樣間隔的時(shí)間延遲和反映徑流序列周期要素的嵌入維數(shù),將一維空間映射至多維可以表征原系統(tǒng)動(dòng)力學(xué)特性的相空間[17]。
對(duì)于某一離散的徑流時(shí)間序列{x(t),t=1,2,...,n},n為時(shí)間序列長(zhǎng)度。經(jīng)過(guò)時(shí)間延遲τ嵌入到m維相空間中可表示為
(1)
式中:l=n-(m-1)τ;i=1,2,…,l;τ為時(shí)間延遲;X(i)為m維相空間中的相點(diǎn),每個(gè)相點(diǎn)有m維分量[x(i),x(i+τ),…,x(i+(m-1)τ)]相點(diǎn)間的連線刻畫了徑流非線性動(dòng)力系統(tǒng)在m維相空間的演化軌跡。
時(shí)間延遲τ和嵌入維數(shù)m對(duì)重構(gòu)相空間的效果起著重要作用。τ太大會(huì)產(chǎn)生不相關(guān)誤差,τ太小會(huì)產(chǎn)生冗余誤差。本文采用序列相關(guān)法中的自相關(guān)函數(shù)求取徑流時(shí)間序列的自相關(guān)系數(shù),并以相關(guān)系數(shù)首次過(guò)0點(diǎn)時(shí)所得到的τ為重構(gòu)相空間的最佳時(shí)間延遲τ。計(jì)算公式為
(2)
Takens指出,當(dāng)維數(shù)足夠多(m≥2D+1,D為飽和關(guān)聯(lián)維數(shù))時(shí),就可以刻畫出系統(tǒng)的奇異吸引子,恢復(fù)系統(tǒng)原來(lái)的動(dòng)力學(xué)形態(tài)[18]。本文采用飽和關(guān)聯(lián)維數(shù)(G-P)法來(lái)計(jì)算不同嵌入維數(shù)下徑流時(shí)間序列的關(guān)聯(lián)維數(shù)Dm,當(dāng)Dm不再變化時(shí),即系統(tǒng)飽和時(shí)的嵌入維數(shù)為重構(gòu)相空間的最佳嵌入維數(shù)。
對(duì)于m維相空間的序列{X(i),i=1,2,...,l},X(i)與X(j)之間的歐氏距離表示為
rijm=‖Xi-Xj‖ 。
(3)
式中rijm是相空間維數(shù)m的函數(shù)。
給定一個(gè)數(shù)r0,其取值在rij的數(shù)值范圍內(nèi),適當(dāng)調(diào)整r0的取值,算出一組lnr0與lnCr0,m的值,當(dāng)r0→0時(shí)的lnCr0,m與lnr0的比值即為關(guān)聯(lián)維數(shù)Dm,即
(4)
H(x)為Heaviside函數(shù),定義如下:
(5)
不同嵌入維數(shù)下關(guān)聯(lián)維數(shù)Dm不再變化時(shí)的關(guān)聯(lián)維數(shù)為飽和關(guān)聯(lián)維數(shù)。飽和關(guān)聯(lián)維數(shù)的取值結(jié)果是判斷系統(tǒng)是否存在混沌特性的一個(gè)重要標(biāo)準(zhǔn),混沌系統(tǒng)具有正的分?jǐn)?shù)維飽和關(guān)聯(lián)維數(shù),且飽和關(guān)聯(lián)維數(shù)可描述非線性系統(tǒng)的復(fù)雜程度,根據(jù)飽和關(guān)聯(lián)維數(shù)的取值可判定系統(tǒng)的形成受幾個(gè)主要狀態(tài)變量影響。
Lyapunov指數(shù)刻畫了重構(gòu)相空間中2個(gè)相鄰序列間的平均指數(shù)發(fā)散率,可以用于度量混沌運(yùn)動(dòng)對(duì)初始條件的敏感性,它和飽和關(guān)聯(lián)維數(shù)是判斷徑流系統(tǒng)是否具有混沌特性的充分必要條件,可以通過(guò)計(jì)算重構(gòu)相空間中任意2個(gè)相鄰序列間的最大Lyapunov指數(shù)識(shí)別系統(tǒng)的混沌特征。
i,j=1,2,…,l。
(6)
在證實(shí)徑流時(shí)間序列具有正的分?jǐn)?shù)維飽和關(guān)聯(lián)維數(shù)和正的Lyapunov指數(shù)的基礎(chǔ)上,通過(guò)相空間重構(gòu)理論建立與一維徑流時(shí)間序列保持微分同胚且具有滯后坐標(biāo)的重構(gòu)相空間,可以恢復(fù)復(fù)雜水文系統(tǒng)的時(shí)空結(jié)構(gòu),還原徑流時(shí)間序列的主要特性,進(jìn)而以m維重構(gòu)相空間作為預(yù)測(cè)模型的輸入變量對(duì)徑流時(shí)間序列進(jìn)行預(yù)測(cè)。其中,重構(gòu)相空間的嵌入維數(shù)m表示徑流系統(tǒng)可以用m個(gè)變量進(jìn)行描述,延遲時(shí)間τ表示重構(gòu)相空間的采樣間隔。對(duì)于給定時(shí)間序列xt,t=1,2,...,n,通過(guò)序列相關(guān)法和關(guān)聯(lián)維數(shù)法分別確定月徑流時(shí)間序列的時(shí)間延遲τ和嵌入維數(shù)m,根據(jù)相空間重構(gòu)理論可以得到式(7)所示的樣本序列:
(7)
式中:N=n-1-m-1τ,為樣本點(diǎn)的個(gè)數(shù);x為訓(xùn)練樣本集的輸入變量;y為訓(xùn)練樣本集的輸出變量。
極限學(xué)習(xí)機(jī)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)[16],在訓(xùn)練極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)的過(guò)程中,不需要調(diào)整輸入權(quán)值及隱層偏置,因此,其訓(xùn)練速度遠(yuǎn)大于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型。給定一組訓(xùn)練樣本xt,yt,t=1,2,..,N,其中xt=xt1,xt2,...,xtnT∈Rn為輸入變量,yt=yt1,yt2,...,ytmT∈Rm為輸出變量,則激勵(lì)函數(shù)為g,隱層結(jié)點(diǎn)數(shù)為L(zhǎng)的極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型可表述為
(8)
式中:wi=w1i,w2i,...,wni表示輸入層結(jié)點(diǎn)與第i個(gè)隱層結(jié)點(diǎn)之間的權(quán)值向量;βi=βi1,βi2,...,βimT表示隱層結(jié)點(diǎn)與第m個(gè)輸出層結(jié)點(diǎn)的權(quán)值向量;bi為隱層結(jié)點(diǎn)閾值;ot=ot1,ot2,...,otmT為網(wǎng)絡(luò)輸出值。
式(9)可以簡(jiǎn)化為
Hβ=Y。
(10)
其中:
(12)
H是ELM關(guān)于訓(xùn)練樣本的隱層輸出矩陣。極限學(xué)習(xí)機(jī)的系數(shù)β可通過(guò)求解下述方程的最小二乘解獲得,即
(13)
最終解可表示為
(14)
式中H?是H的Moore-Penrose廣義逆矩陣。
AdaBoost.RT是一種應(yīng)用廣泛的集成學(xué)習(xí)算法[19],是AdaBoost.R[15]算法的變種,它主要針對(duì)回歸問(wèn)題的應(yīng)用。AdaBoost.RT首先通過(guò)迭代產(chǎn)生若干個(gè)弱學(xué)習(xí)器,然后通過(guò)不斷調(diào)整弱學(xué)習(xí)器輸出樣本權(quán)值來(lái)加強(qiáng)迭代過(guò)程中弱學(xué)習(xí)器對(duì)訓(xùn)練誤差大的樣本的學(xué)習(xí),最后將弱學(xué)習(xí)器預(yù)報(bào)值進(jìn)行加權(quán)集成得到最終的預(yù)測(cè)結(jié)果。本文采用基于自適應(yīng)動(dòng)態(tài)閾值的改進(jìn)AdaBoost.RT算法來(lái)改進(jìn)極限學(xué)習(xí)機(jī)模型的學(xué)習(xí)性能?;谙嗫臻g重構(gòu)、改進(jìn)AdaBoost.RT算法和ELM的集成學(xué)習(xí)模型對(duì)月徑流時(shí)間序列進(jìn)行預(yù)測(cè)的具體步驟如下:
(1)根據(jù)混沌相空間重構(gòu)理論,通過(guò)式(7)構(gòu)造模型的輸入輸出樣本序列x1,y1,…,xN,yN。
(2)對(duì)于N個(gè)訓(xùn)練樣本x1,y1,…,xN,yN,確定閾值的初值φ0<φ<1、基本學(xué)習(xí)算法(極限學(xué)習(xí)機(jī))和最大迭代次數(shù)K,令當(dāng)前迭代次數(shù)k=1。
(3)設(shè)置N個(gè)樣本的初始權(quán)重值為Dki=1/N,令誤差率εk=0。
(4)在給定的樣本權(quán)重分布下訓(xùn)練ELM網(wǎng)路,建立回歸模型,使得fkx=y,fkx表示極限學(xué)習(xí)機(jī)映射函數(shù),x表示輸入向量,y表示輸出向量。
(5)計(jì)算每個(gè)樣本的誤差及基學(xué)習(xí)器的誤差:
(15)
(16)
式中:Eki為第k次迭代第i個(gè)樣本的訓(xùn)練誤差;εk為第k次迭代的總體訓(xùn)練誤差。
(17)
(7)令k=k+1,跳轉(zhuǎn)至步驟4,直到K次迭代后跳出循環(huán)。將訓(xùn)練好的K個(gè)弱學(xué)習(xí)器進(jìn)行加權(quán)集成,構(gòu)成一個(gè)強(qiáng)預(yù)測(cè)模型,并將檢驗(yàn)樣本代入強(qiáng)預(yù)測(cè)模型,得到檢驗(yàn)期預(yù)測(cè)結(jié)果ffinalx,即
k=1,…,K。
(18)
從上述描述可以看出,在AdaBoost.RT算法的迭代過(guò)程中,閾值φ的取值很重要且很難進(jìn)行選擇。Shrestha等[20]關(guān)于AdaBoost.RT算法的研究表明,AdaBoost.RT算法的性能對(duì)閾值φ的取值敏感。如果φ太小,則難以獲得足夠的正確預(yù)測(cè)樣本,反之,φ太大則不利于對(duì)困難樣本的學(xué)習(xí)。為此,在對(duì)極限學(xué)習(xí)機(jī)進(jìn)行集成學(xué)習(xí)的過(guò)程中,本文引入基于自適應(yīng)動(dòng)態(tài)閾值的改進(jìn)AdaBoost.RT算法更新AdaBoost.RT算法的閾值[21],即依據(jù)每次迭代訓(xùn)練樣本的均方根誤差調(diào)整閾值φ的大小,使得訓(xùn)練誤差越大的樣本在下次迭代中的弱學(xué)習(xí)器輸出樣本權(quán)值越大,反之,誤差越小的樣本權(quán)值越小。閾值φ的具體更新步驟如下:
(1)計(jì)算每次迭代中訓(xùn)練結(jié)果的均方根誤差,即
(19)
(2)根據(jù)下式更新每次迭代中的閾值φk,使得φk隨訓(xùn)練誤差的增加而增加,即
(20)
基于改進(jìn)AdaBoost.RT的極限學(xué)習(xí)機(jī)集成學(xué)習(xí)預(yù)測(cè)模型的詳細(xì)流程如圖1所示。
圖1 基于相空間重構(gòu)、改進(jìn)AdaBoost.RT和ELM的集成預(yù)測(cè)模型流程Fig.1 Flowchart of the integrated prediction model based on phase space reconstruction, improved AdaBoost.RT and extreme learning machine
以長(zhǎng)江上游攀枝花、向家壩和宜昌3個(gè)代表性水文站點(diǎn)的月平均徑流量時(shí)間序列為對(duì)象,分析流域徑流時(shí)間序列的混沌動(dòng)力特性。攀枝花水文站為長(zhǎng)江上游金沙江流域主要水文控制站,其控制流域集水面積約25.92萬(wàn)km2。向家壩水文站為金沙江向家壩水電站樞紐工程專用水文站,流域面積45.88萬(wàn)km2。宜昌水文站是長(zhǎng)江上游流域的總控制站,控制流域面積達(dá)101 km2。3個(gè)站點(diǎn)的具體位置如圖2所示。
圖2 攀枝花水文站、向家壩水文站、宜昌水文站在長(zhǎng)江上游流域的位置Fig.2 Locations of Panzhihua, Xiangjiaba and Yichang hydrologic stations in the upper reaches of the Yangtze River
選取3個(gè)水文站點(diǎn)1959年1月—2008年12月(600個(gè)樣本數(shù)據(jù)點(diǎn))的實(shí)測(cè)月平均徑流數(shù)據(jù)作為樣本數(shù)據(jù),采用序列相關(guān)法中的自相關(guān)函數(shù)來(lái)確定徑流時(shí)間序列相空間重構(gòu)系數(shù)τ,采用G-P法來(lái)確定徑流時(shí)間序列相空間重構(gòu)的系數(shù)m。以攀枝花站為例,月徑流時(shí)間序列的自相關(guān)函數(shù)變化曲線圖、不同嵌入維下lnr-lnCr曲線圖、關(guān)聯(lián)維數(shù)Dm與不同嵌入維m之間的關(guān)系圖如圖3所示。
圖3 攀枝花站月徑流時(shí)間序列相關(guān)系數(shù)、lnr-lnC(r)及m-D(m)關(guān)系曲線Fig.3 Autocorrelation function and lnr-lnC(r) and m-D(m) curves of monthly runoff at Panzhihua Station
由圖3(a) 可知,攀枝花站月徑流時(shí)間序列自相關(guān)系數(shù)隨τ的增大而減小,且當(dāng)τ=3時(shí),自相關(guān)系數(shù)圖第一次過(guò)0點(diǎn),因此攀枝花站徑流混沌分析相空間重構(gòu)系數(shù)τ值取為3。同理,分析長(zhǎng)江干流向家壩站和宜昌站的自相關(guān)系數(shù)圖可得,長(zhǎng)江干流上向家壩站和宜昌站自相關(guān)系數(shù)圖首次過(guò)0點(diǎn)的時(shí)間延遲均在3附近,由此,長(zhǎng)江上游3個(gè)主要站點(diǎn)相空間重構(gòu)系數(shù)τ的取值都為3。在時(shí)間延遲確定的基礎(chǔ)上,用G-P法確定月徑流時(shí)間序列相空間重構(gòu)的最佳嵌入維數(shù)。從圖3(b)可看出,lnr-lnCr曲線圖的直線部分隨著嵌入維數(shù)m的增大逐漸趨于平行,圖中每條曲線中直線部分的斜率為不同嵌入維數(shù)m下的關(guān)聯(lián)維數(shù)Dm,由此可以作出如圖3(c)所示的m-Dm關(guān)系圖。從圖3(c)可以看出,當(dāng)嵌入維數(shù)m=12時(shí),m-Dm曲線趨于平穩(wěn),所以攀枝花站月徑流時(shí)間序列相空間重構(gòu)的系數(shù)m取值為12。同理,如圖4所示,當(dāng)嵌入維數(shù)m=12時(shí),向家壩站和宜昌站的m-Dm曲線圖趨于平穩(wěn),因此,長(zhǎng)江上游3個(gè)主要站點(diǎn)的相空間重構(gòu)系數(shù)m取值都為12。
圖4 向家壩站和宜昌站月徑流時(shí)間序列m-D(m)關(guān)系曲線Fig.4 Curves of m-D(m) of monthly runoff at Xiangjiaba Station and Yichang Station
由圖3(c)和圖4可知,當(dāng)長(zhǎng)江干流攀枝花站、向家壩站和宜昌站徑流時(shí)間序列的m-Dm曲線趨于平穩(wěn)時(shí),飽和關(guān)聯(lián)維數(shù)取值分別為2.89,3.19,3.46。由此可見(jiàn),長(zhǎng)江上游3站點(diǎn)月徑流時(shí)間序列系統(tǒng)的飽和關(guān)聯(lián)維數(shù)均為正的分?jǐn)?shù),具有分維特征,表示3個(gè)月徑流時(shí)間序列系統(tǒng)均具有混沌特性。從上游攀枝花站點(diǎn)到下游宜昌站點(diǎn),飽和關(guān)聯(lián)維數(shù)從2.89增加到3.46,表明在整個(gè)長(zhǎng)江上游徑流系統(tǒng)中,攀枝花站月徑流混沌系統(tǒng)相對(duì)簡(jiǎn)單,向家壩站月徑流混沌系統(tǒng)次之,宜昌站月徑流混沌系統(tǒng)最為復(fù)雜,說(shuō)明長(zhǎng)江干流下游站點(diǎn)徑流時(shí)間序列在形成的過(guò)程中受到的影響因素比上游站點(diǎn)多,混沌特性更復(fù)雜,符合河川徑流下游比上游復(fù)雜,影響因素多的自然現(xiàn)象。從定量的角度進(jìn)行分析,可以得出:攀枝花站月徑流時(shí)間序列在形成的過(guò)程中受3個(gè)主要狀態(tài)變量的影響,而向家壩站和宜昌站受4個(gè)主要狀態(tài)變量的影響,表明了不同站點(diǎn)徑流過(guò)程受氣象、水文和陸面過(guò)程影響的差異性。
根據(jù)第2.3小節(jié)描述的方法,求得長(zhǎng)江上游攀枝花站、向家壩站和宜昌站徑流時(shí)間序列的最大Lyapunov指數(shù)分別為0.214,0.300,0.335,進(jìn)一步說(shuō)明了長(zhǎng)江干流3個(gè)站點(diǎn)水文序列存在混沌特性,且下游站點(diǎn)混沌特性比上游站點(diǎn)混沌特性稍強(qiáng)。計(jì)算3個(gè)站點(diǎn)最大Lyapunov指數(shù)的倒數(shù)可得,攀枝枝花站、向家壩站和宜昌站徑流時(shí)間序列的可預(yù)測(cè)時(shí)間尺度分別為5,3,3個(gè)月,證明了流域徑流的可預(yù)測(cè)性。
通過(guò)以上分析可得,長(zhǎng)江上游3站點(diǎn)月徑流時(shí)間序列都具有混沌特性,且相空間重構(gòu)系數(shù)τ和m的取值均分別為3和12,在此基礎(chǔ)上,根據(jù)式(7)對(duì)時(shí)間序列進(jìn)行相空間重構(gòu),得到的總樣本個(gè)數(shù)為566,將第1—第446個(gè)樣本用于訓(xùn)練,第447—第566個(gè)樣本用于測(cè)試檢驗(yàn)。本文極限學(xué)習(xí)機(jī)的隱層結(jié)點(diǎn)個(gè)數(shù)通過(guò)網(wǎng)絡(luò)搜索算法確定,網(wǎng)格搜索范圍設(shè)置為2n-20,2n+20,其中,n為輸入層結(jié)點(diǎn)個(gè)數(shù),本文n的取值為12,搜索步長(zhǎng)設(shè)置為1;改進(jìn)AdaBoost.RT的最大迭代次數(shù)K即生成極限學(xué)習(xí)機(jī)弱學(xué)習(xí)器的個(gè)數(shù)設(shè)置為20,閾值的初值φ設(shè)置為0.2。
為評(píng)價(jià)模型的預(yù)報(bào)性能,本文選取水文預(yù)報(bào)中常用的4種評(píng)價(jià)指標(biāo):均方根誤差RMSE、平均絕對(duì)誤差MAE、確定性系數(shù)DC及合格率QR。評(píng)價(jià)指標(biāo)計(jì)算公式如下:
(21)
(22)
(23)
(24)
為了驗(yàn)證本文所提方法的有效性和優(yōu)越性,除AdaBoost-ELM(簡(jiǎn)稱AELM)模型外,同時(shí)還建立了BP神經(jīng)網(wǎng)絡(luò)、SVM模型和ELM模型3種較為常見(jiàn)的模型。表1為攀枝花站4種模型的預(yù)測(cè)結(jié)果誤差統(tǒng)計(jì)情況。
表1 攀枝花站檢驗(yàn)期預(yù)報(bào)結(jié)果誤差統(tǒng)計(jì)Table 1 Statistical error of forecast results forPanzhihua Station in validation stage
圖5 各模型徑流量預(yù)報(bào)結(jié)果對(duì)比Fig.5 Comparison of runoff forecast results among different models
圖5展示了攀枝花站、向家壩站、宜昌站檢驗(yàn)期1999—2008年共計(jì)120個(gè)月4種模型的預(yù)測(cè)結(jié)果。由表1和圖5(a)可知,BP,SVM,ELM,AELM模型均具有較好的擬合精度,均能較好地對(duì)月徑流時(shí)間序列進(jìn)行擬合。從均方根誤差RMSE、平均絕對(duì)誤差MAE、確定性系數(shù)DC和合格率QR這4個(gè)評(píng)價(jià)指標(biāo)來(lái)看,AELM模型的預(yù)報(bào)結(jié)果除QR稍低于SVM模型外,其它誤差指標(biāo)均表現(xiàn)最好,說(shuō)明AELM模型的整體預(yù)報(bào)效果最好。
以RMSE為例,AELM模型的預(yù)報(bào)結(jié)果誤差為613.41 m3/s,其它BP,SVM,ELM3個(gè)模型的預(yù)報(bào)結(jié)果分別為632.69,636.71,626.58 m3/s。通過(guò)對(duì)比ELM和AELM模型的預(yù)報(bào)結(jié)果可以看出,AELM模型的RMSE和MAE比ELM模型小,且DC和QR比ELM模型大,說(shuō)明AELM模型的預(yù)報(bào)效果明顯優(yōu)于ELM模型,改進(jìn)的AdaBoost.RT算法能有效地提高弱學(xué)習(xí)算法的精度。從圖5(a)的頂部子圖可知,相比于ELM模型,AELM模型能更好地對(duì)月徑流時(shí)間序列進(jìn)行擬合:在高流量階段,AELM模型預(yù)測(cè)曲線比ELM模型預(yù)測(cè)曲線稍高,更接近實(shí)測(cè)曲線;在低流量階段,AELM模型能夠在一定程度上減輕ELM模型模擬徑流時(shí)間序列的波動(dòng),說(shuō)明改進(jìn)AdaBoost.RT算法能夠減輕ELM算法的隨機(jī)性對(duì)預(yù)報(bào)結(jié)果的影響,從而提高預(yù)報(bào)精度。
為了進(jìn)一步研究AELM模型的預(yù)報(bào)能力,本文將BP,SVM,ELM,AELM 4種模型分別應(yīng)用于向家壩站和宜昌站的混沌月徑流時(shí)間序列。表2顯示了向家壩站和宜昌站4種模型的預(yù)報(bào)結(jié)果誤差統(tǒng)計(jì)情況。同時(shí)圖5(b)和圖5(c)通過(guò)對(duì)4種模型預(yù)報(bào)結(jié)果誤差進(jìn)行對(duì)比,得出了與攀枝花站預(yù)報(bào)結(jié)果相一致的結(jié)論:①與BP,SVM,ELM模型相比,AELM模型預(yù)報(bào)效果最好;②AELM模型的預(yù)報(bào)效果優(yōu)于ELM模型,改進(jìn)AdaBoost.RT算法能夠減輕ELM算法的隨機(jī)性對(duì)預(yù)報(bào)結(jié)果的影響,進(jìn)而提高弱學(xué)習(xí)算法的泛化性能。
表2 向家壩站和宜昌站檢驗(yàn)期預(yù)報(bào)結(jié)果誤差統(tǒng)計(jì)Table 2 Statistical error of the results of XiangjiabaStation and Yichang Station in validation stage
(1)本文通過(guò)對(duì)長(zhǎng)江上游流域攀枝花、向家壩和宜昌水文站月徑流時(shí)間序列進(jìn)行非線性動(dòng)力建模與分析,推求了月徑流時(shí)間序列相空間重構(gòu)的最佳時(shí)間延遲和嵌入維數(shù)、飽和關(guān)聯(lián)維數(shù)和最大Lyapunov指數(shù),從定性和定量的角度驗(yàn)證了長(zhǎng)江上游月徑流時(shí)間序列的混沌特性,得出了該三站點(diǎn)月徑流時(shí)間序列不僅具有混沌特性且下游站點(diǎn)比上游站點(diǎn)混沌特性更強(qiáng)的結(jié)論。
(2)在此基礎(chǔ)上,引入Adaboost.RT算法對(duì)ELM算法進(jìn)行集成學(xué)習(xí),提出了基于相空間重構(gòu)、改進(jìn)AdaBoost.RT和ELM算法的集成學(xué)習(xí)模型,并將該方法應(yīng)用于月徑流時(shí)間序列混沌預(yù)測(cè)建模研究。
(3)在采用AdaBoost.RT集成算法對(duì)ELM弱學(xué)習(xí)算法進(jìn)行集成學(xué)習(xí)的過(guò)程中,通過(guò)自適應(yīng)動(dòng)態(tài)閾值法不斷調(diào)整訓(xùn)練樣本可以提高預(yù)測(cè)精度。
(4)用訓(xùn)練好的集成學(xué)習(xí)模型對(duì)不同站點(diǎn)月徑流時(shí)間序列進(jìn)行預(yù)測(cè),并與前饋BP神經(jīng)網(wǎng)絡(luò)模型、SVM模型和ELM模型進(jìn)行對(duì)比,結(jié)果表明所提模型的預(yù)報(bào)效果優(yōu)于其它模型,且能夠顯著提高ELM模型預(yù)報(bào)結(jié)果的穩(wěn)定性,從而獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。