何中政,方 麗,劉 萬,遲英凡,王永強(qiáng),付吉斯,熊 斌
(1. 南昌大學(xué)工程建設(shè)學(xué)院,江西 南昌 330031; 2. 長江水利委員會(huì)長江科學(xué)院,湖北 武漢 4 30010;3. 南昌大學(xué) 鄱陽湖環(huán)境與資源利用教育部重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330031)
流域徑流過程受眾多因素的相互作用與影響,使得徑流時(shí)間序列表現(xiàn)出復(fù)雜的非線性特性[1],具有顯著的非平穩(wěn)、高維度和模糊性等復(fù)雜特征[2,3],研究預(yù)測精度高和穩(wěn)定性好的徑流預(yù)測模型仍是當(dāng)前水文水資源研究領(lǐng)域熱點(diǎn)問題之一。而目前水文預(yù)測方法主要可分為過程(機(jī)理)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)模型兩大類:過程驅(qū)動(dòng)模型以水文過程的物理機(jī)制或規(guī)律為基礎(chǔ)[4],需要大量且可靠的水文數(shù)據(jù)來建立模型,從而進(jìn)行流域徑流模擬或預(yù)測,但由于水文模型對水循環(huán)過程的簡化處理,往往難以精準(zhǔn)刻畫非線性的徑流過程,且由于部分水文數(shù)據(jù)資料缺失或可靠性差等因素影響,過程驅(qū)動(dòng)模型在實(shí)際徑流預(yù)報(bào)中存在局限性[5];而隨著計(jì)算機(jī)硬件、軟件和理論技術(shù)的發(fā)展,數(shù)據(jù)驅(qū)動(dòng)模型依托統(tǒng)計(jì)學(xué)或其他人工智能技術(shù),無需考慮水文過程物理機(jī)制[6],通過對時(shí)間序列進(jìn)行分析從而建立對預(yù)測對象和預(yù)測因子間復(fù)雜非線性關(guān)系刻畫更為完備的模型,使得數(shù)據(jù)驅(qū)動(dòng)模型在水文數(shù)據(jù)資料缺少或復(fù)雜非線性的徑流過程將具有更好的適用性[2]。近年來,學(xué)者們將多種常見的人工智能模型引入到水文預(yù)測中,如前饋式神經(jīng)網(wǎng)絡(luò)[7](Back-Propagation neural network,BP)、多元線性回歸[8](Multiple Linear Regression,MLR)、支持向量機(jī)[9](Support Vector Machine,SVM)等,相關(guān)研究均取得了較好的效果[10],如何應(yīng)用人工智能技術(shù)開展流域徑流預(yù)測已經(jīng)成為未來發(fā)展的重要研究方向之一[11]。
高斯過程回歸(Gaussian Process Regression,GPR)作為一種新型的機(jī)器學(xué)習(xí)方法,采用高斯過程對先驗(yàn)數(shù)據(jù)進(jìn)行回歸分析,以統(tǒng)計(jì)學(xué)理論為基礎(chǔ),在處理高維、非線性、小樣本等復(fù)雜的回歸問題時(shí)都具有很強(qiáng)的泛化能力,因而在各類研究領(lǐng)域得到應(yīng)用[12]。黃亞等人[3]采用GPR 模型在廣西天峨水文站進(jìn)行短期徑流預(yù)測;孫斌等人[13]采用GPR 模型在進(jìn)行短期風(fēng)速預(yù)測;李成宇[14]采用GPR 模型進(jìn)行了土石壩沉降預(yù)測研究;周靖楠等人[15]采用GPR 模型與MI-KPCA 結(jié)合在北汝河進(jìn)行中長期徑流預(yù)測。劉龍龍等人[16]采用GPR 模型與蜻蜓算法結(jié)合對居民社區(qū)時(shí)用水量動(dòng)態(tài)實(shí)時(shí)區(qū)間預(yù)測。GPR 模型已在非線性回歸分析問題中得到成功應(yīng)用,GPR 回歸分析能力不僅取決于模型參數(shù),還受核函數(shù)影響,但目前核函數(shù)的影響還未得到進(jìn)一步研究。Scholkopf 和Smola[17]指出支持向量機(jī)和高斯過程兩種算法的核函數(shù)是等價(jià)的,并提出幾種高斯過程中可選擇的核函數(shù)類型。因此,本文分析了不同核函數(shù)作用下GPR 預(yù)測模型效果,并提出了一種基于指數(shù)核函數(shù)GPR 的流域短期徑流預(yù)測模型,以江西省贛江流域吉安水文站徑流過程為對象例開展實(shí)例分析。
高斯過程(Gaussian Process,GP)是概率論和數(shù)理統(tǒng)計(jì)中隨機(jī)過程的一種,是一系列服從正態(tài)分布的隨機(jī)變量的組合。GP繼承了正態(tài)分布的諸多性質(zhì),其特征主要由數(shù)學(xué)期望和協(xié)方差函數(shù)決定。GPR 則是對數(shù)據(jù)進(jìn)行回歸分析,來建立服從GP 先驗(yàn)信息的非參數(shù)模型[18]。假設(shè)一個(gè)含有n對相互獨(dú)立觀測數(shù)據(jù)的學(xué)習(xí)樣本{,y},其中是由n個(gè)輸入向量組成的輸入集,而y={y1,y2,…,yn}是由n個(gè)相對應(yīng)的一維輸出組成的輸出集。那么GP 的均值μ(x)和方差k(x,x′)可由下式確定:
式中:x,x′代表樣本中任意隨機(jī)變量,E代表數(shù)學(xué)期望。
因此GP可定義為:
而在實(shí)際應(yīng)用中,通常會(huì)進(jìn)行數(shù)據(jù)預(yù)處理使得均值函數(shù)為0,故GP即也表示為:
對于實(shí)際工程中的回歸問題,還應(yīng)考慮輸出y受噪聲影響:
式中:y是受到噪聲污染的觀測值,f為函數(shù)值,x為輸入向量,噪聲ε服從均值為0、方差為σ2n的高斯分布。
從而可以推求得到y(tǒng)的先驗(yàn)分布,見公式(6);以及y和f(x*)的聯(lián)合先驗(yàn)分布,見公式(7)。
式中:x*為測試輸入向量,I是n維單位矩陣,是n×n階的GP 協(xié)方差矩陣,是輸入集與測試輸入向量x*之間的n× 1階協(xié)方差矩陣,K(x*,)同理可知,k(x*,x*)為x*自身的協(xié)方差。
由此可知預(yù)測值f(x*)的后驗(yàn)分布:
其中:
GPR 使用GR 作為先驗(yàn),其訓(xùn)練結(jié)果與預(yù)先設(shè)定的核函數(shù)有關(guān)。在隨機(jī)樣本均值為0 的前提下,核函數(shù)就與協(xié)方差函數(shù)的實(shí)際意義相近,可進(jìn)行樣本間相關(guān)性的描述。不同核函數(shù)作用下的高斯過程回歸特征各不相同,高斯過程模型常用的核函數(shù)主要有以下幾種:
(1)徑向基核函數(shù):
式中:r=‖X1-X2‖,σ為超參數(shù),表征了學(xué)習(xí)樣本間的相似度。徑向基核函數(shù)也被稱為高斯核,常被應(yīng)用于SVM和GPR等各類機(jī)器學(xué)習(xí)算法中,參數(shù)簡單,但在處理樣本數(shù)量大或特征多時(shí)效果一般。
(2)二次有理核函數(shù):
式中:α,l為超參數(shù)。二次有理核函數(shù)可以理解為是無窮個(gè)徑向基核函數(shù)的線性疊加,當(dāng)α→∞時(shí),二次有理核函數(shù)等價(jià)于σ=l的徑向基核函數(shù)。與徑向基核函數(shù)相比,更為省時(shí),作用域廣,但是對參數(shù)十分敏感。
(3)馬頓核函數(shù):
式中:l,ν為超參數(shù),Kν為修正貝塞爾函數(shù)。當(dāng)ν→∞時(shí),相當(dāng)于以l為特征尺度的徑向基核函數(shù)。
(4)指數(shù)核函數(shù):
指數(shù)核函數(shù)是馬頓核在ν= 0.5的特殊形式,這樣的變動(dòng)減少對參數(shù)的依賴性降低,使得模型的訓(xùn)練學(xué)習(xí)難度大大降低,適用情景相對狹窄。
而核函數(shù)中的超參數(shù)一般可依據(jù)極大似然法,建立基于學(xué)習(xí)樣本條件概率的對數(shù)似然函數(shù),見式(15);然后可通過非線性規(guī)劃方法或群智能搜索方法尋找出超參數(shù)的近似最優(yōu)解。
由于徑流預(yù)測往往是采用輸入多個(gè)預(yù)測因子對預(yù)測量進(jìn)行輸出,研究采用多重相關(guān)系數(shù)來篩選預(yù)報(bào)因子。多重相關(guān)系數(shù)是測量單個(gè)因變量與其他多個(gè)自變量之間線性相關(guān)程度的指標(biāo)。多重相關(guān)系數(shù)無法直接計(jì)算,可采用預(yù)測量y和其他多個(gè)預(yù)測因子x1,x2,…,xk線性組合的簡單相關(guān)系數(shù)進(jìn)行測算。
首先,根據(jù)預(yù)測量y和其他多個(gè)預(yù)測因子x1,x2,…,xk進(jìn)行回歸,建立如式(16)的回歸方程,然后進(jìn)一步計(jì)算簡單相關(guān)系數(shù),即為預(yù)測量y和多個(gè)預(yù)測因子x1,x2,…,xk之間的多重相關(guān)系數(shù)R。
式中:β0,β1,β2,…,βk為回歸系數(shù)。
贛江是江西省內(nèi)第一大河流,地理位置為113.58°~116.63°E,24.52°~28.75°N。其發(fā)源于贛閩邊界武夷山西麓,主河道長約823 km,干支流自南向北貫穿整個(gè)江西省,地貌多以山地、丘陵為主,豐水期為3-8月,枯水期為9月-次年2月。
圖1 贛江中下游控制斷面分布示意圖Fig.1 Distribution diagram of control section in the middle and lower reaches of Ganjiang River
研究選取了贛江中游棟背、吉安關(guān)鍵斷面開展實(shí)例分析。棟背站位于江西省萬安縣棟背村,控制流域面積約4.02 萬km2;吉安站是贛江中游主要控制站,控制流域面積約5.62 萬km2;棟背站到吉安站的時(shí)滯約為18~24 h,棟背站對吉安站的流量過程有較大的影響。研究收集整理了兩個(gè)水文站點(diǎn)從2010 年1月1 日0∶00 至2018 年4 月14 日18∶00 的實(shí)測徑流數(shù)據(jù),時(shí)段間隔為6 h,共計(jì)20 000 個(gè)數(shù)據(jù)。
依托項(xiàng)目研究收集得到的數(shù)據(jù)資料,開展基于GPR 模型的徑流預(yù)測研究。具體實(shí)施步驟為:① 整編收集得到的徑流數(shù)據(jù)資料,將前80%作為預(yù)測模型訓(xùn)練期,后20%作為預(yù)測模型檢驗(yàn)期;②根據(jù)率定期徑流資料,計(jì)算預(yù)報(bào)因子-預(yù)測量的多重相關(guān)系數(shù),開展相關(guān)性分析,從而選定預(yù)報(bào)因子;③選取評價(jià)指標(biāo),便于直觀表現(xiàn)模型的預(yù)測效果;④采用GPR 對預(yù)報(bào)因子和預(yù)報(bào)變量進(jìn)行建模,用訓(xùn)練期資料進(jìn)行參數(shù)率定;⑤將訓(xùn)練好的GPR模型用于檢驗(yàn)期的徑流預(yù)報(bào),檢驗(yàn)?zāi)P皖A(yù)報(bào)效果。
為評價(jià)預(yù)測結(jié)果的綜合表現(xiàn),選取了均方根誤差(Root Mean Squared Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)、確定性系數(shù)(Deterministic coefficient,DC)和合格率(Qualified Rate,QR)評價(jià)指標(biāo),具體計(jì)算公式如下:
圖2 基于高斯過程回歸的徑流預(yù)測流程圖Fig.2 Flow chart of runoff prediction based on Gaussian process regression
式中:Si為模擬值;Oi為實(shí)測值;為實(shí)測值的均值;k為樣本中相對誤差小于20%的樣本個(gè)數(shù);n為測試樣本個(gè)數(shù)。評價(jià)指標(biāo)中,RMSE和MAE取值范圍為(0,∞),其值越小表明模型預(yù)測誤差越??;DC取值范圍為[0,1],其值越大表明預(yù)測值和真實(shí)值的相關(guān)性越大;QR取值范圍為[0,100%],其值越大表明模型預(yù)測精度越高。
建立短期徑流預(yù)測模型首先需要篩選預(yù)測因子,記T為當(dāng)前時(shí)段,OT和IT分別表示本站點(diǎn)和上游站點(diǎn)T時(shí)段徑流量。采用IBM SPSS Statistics 26.0 軟件開展見2.3 小節(jié)中的多重相關(guān)系數(shù)分析,多重相關(guān)性分析結(jié)果如表1和表2所示。
表1 僅考慮吉安站的多重相關(guān)性分析結(jié)果Tab.1 The multiple correlation analysis results of Ji'an Station
表2 考慮棟背站和吉安站的多重相關(guān)性分析結(jié)果Tab.2 The multiple correlation analysis results of Dongbei station and Ji'an station
表1 和表2 僅列出了與吉安徑流多重相關(guān)性系數(shù)最大,且預(yù)測因子時(shí)段最短的組合。對比表1 和表2 可知,增加棟背徑流信息對“預(yù)測因子—預(yù)測量”復(fù)相關(guān)性系數(shù)增益較為明顯,因此研究選擇表2中預(yù)測因子開展短期徑流預(yù)測。
采用數(shù)據(jù)留出法[19]進(jìn)行評估,將樣本數(shù)據(jù)的前80%作為模型訓(xùn)練樣本,后20%作為模型檢驗(yàn)樣本,即訓(xùn)練期為2010 年1月1 日0∶00 至2016 年11 月19 日18∶00 的實(shí)測徑流數(shù)據(jù),時(shí)段間隔為6 h;檢驗(yàn)期為2016 年11 月19 日18:00 至2018 年4 月14日的實(shí)測徑流數(shù)據(jù),時(shí)段間隔為6 h。根據(jù)表2 中的預(yù)測因子,建立28 個(gè)基于GPR 的短期徑流預(yù)測模型,分別對面臨T+1~T+28 時(shí)段的吉安徑流進(jìn)行預(yù)測。為分析不同核函數(shù)對GPR 短期徑流預(yù)測模型的作用效果,研究分別選用了有理二次、徑向基、馬頓和指數(shù)核函數(shù)建立不同的GPR 短期徑流預(yù)測模型,還加入了MLR、回歸樹(Regression Tree,RT)、SVM、BP 等模型方法的預(yù)測結(jié)果作為對比。以上模型的訓(xùn)練以及檢驗(yàn)均采用MATLAB R2020b 進(jìn)行處理,GPR、MLR、RT 和SVM 模型訓(xùn)練基于Regression Learner 模塊,BP 模型訓(xùn)練基于采用的Neural Net Fitting模塊。
圖3 給出了吉安站不同模型短期徑流預(yù)測在檢驗(yàn)期的結(jié)果,見T+1~T+27 時(shí)段4 種評價(jià)指標(biāo)的熱力圖。4 張熱力圖均為顏色越深,檢驗(yàn)期預(yù)測效果越差。相關(guān)實(shí)驗(yàn)結(jié)果表明:①從4種指標(biāo)綜合來看,研究建立的4 種GPR 模型和RT 模型均優(yōu)于MLR、SVM、BP 模型,在DC指標(biāo)上差異最為顯著,4 種GPR 模型和RT 模型的DC均在0.9以上,而MLR、SVM、BP 模型DC前2個(gè)時(shí)段大于0.9,隨預(yù)見期增長DC銳減至不足0.4;②從4 種GPR模型對比來看,有理二次、指數(shù)GPR 優(yōu)于徑向基和馬頓GPR,結(jié)合核函數(shù)表達(dá)式(11)~(14)來看,徑向基和馬頓核函數(shù)明顯比有理二次、指數(shù)核函數(shù)更復(fù)雜,這表明復(fù)雜的核函數(shù)形式不一定能提升GPR 模型非線性回歸分析能力;③隨著預(yù)測期的增加,MLR、SVM、BP 模型的4種評價(jià)指標(biāo)均呈現(xiàn)劣化的趨勢,4種GPR 模型和RT 模評價(jià)指標(biāo)有略微波動(dòng),但整體較為穩(wěn)定;④綜合各項(xiàng)評價(jià)指標(biāo)來看,有理二次、指數(shù)GPR 模型結(jié)果最為突出,而指數(shù)GPR 模型的RMSE、MAE、QR明顯優(yōu)于有理二次GPR,指數(shù)GPR 模型在28個(gè)時(shí)段的QR中僅有1處合格率不足100%,明顯少于有理二次GPR 的22 處。綜上所述,本文提出的指數(shù)GPR在吉安站短期徑流預(yù)測中顯著優(yōu)于其他6種模型方法。
圖3 吉安站檢驗(yàn)期各模型評價(jià)指標(biāo)熱力圖Fig.3 Heat map of each model evaluation index for the testing period at Ji'an Station
圖4和表3分別給出了吉安站不同模型短期徑流預(yù)測T+28時(shí)段的預(yù)測結(jié)果和4 種評價(jià)指標(biāo)統(tǒng)計(jì)結(jié)果,7 種模型方法在訓(xùn)練期和檢驗(yàn)期4 項(xiàng)評價(jià)指標(biāo)變化不大。此外,研究發(fā)現(xiàn)4 種GPR 模型檢驗(yàn)期4項(xiàng)評價(jià)指標(biāo)在T+1到T+9時(shí)段逐漸劣化,4項(xiàng)評價(jià)指標(biāo)隨后在T+10到T+28時(shí)段變好并趨于穩(wěn)定。結(jié)合多重相關(guān)性分析結(jié)果,可知T+10 時(shí)段以后預(yù)測模型輸入信息激增,有助于數(shù)據(jù)驅(qū)動(dòng)的GPR 模型開展回歸預(yù)測分析。這也說明應(yīng)用多重相關(guān)性系數(shù)分析篩選出的“預(yù)測因子—預(yù)測量”關(guān)系,并不能完全反映自身和上游站點(diǎn)徑流的非線性關(guān)系。
表3 吉安站T+28時(shí)段訓(xùn)練期和檢驗(yàn)期結(jié)果評價(jià)指標(biāo)Tab.3 Evaluation indexes for the results of the training and testing period of the T+28 period at Ji'an Station
圖4 吉安站檢驗(yàn)期T+28時(shí)段預(yù)測結(jié)果Fig.4 Forecast results for the T+28 period of the testing period at Ji'an Station
(1)以贛江流域吉安水文站為對象的預(yù)測步長為6 h 預(yù)見期為7 d 的實(shí)例分析為例,應(yīng)用不同核函數(shù)的GPR 模型預(yù)測結(jié)果表現(xiàn)存在明顯差異,不同方法預(yù)測表現(xiàn)由好到差分別為指數(shù)GPR、有理二次GPR、RT、馬頓GPR、徑向基GPR、SVM、MLR、BP。指數(shù)GPR 預(yù)測效果最好,28 個(gè)時(shí)段的DC和QR均分別接近1和100%。
(2)從4 種GPR 模型對比來看,徑向基和馬頓核函數(shù)表達(dá)式比有理二次、指數(shù)核函數(shù)更復(fù)雜,但預(yù)測結(jié)果不如有理二次、指數(shù)核函數(shù)的GPR 模型,說明復(fù)雜的核函數(shù)形式不一定能提升GPR模型非線性回歸分析能力。
(3)4 種GPR 模型檢驗(yàn)期預(yù)測精度在T+1 到T+9 時(shí)段逐漸降低,但在T+10 到T+28 時(shí)段,隨預(yù)測模型輸入因子信息激增,預(yù)測精度提高并趨于穩(wěn)定。
(4)多重相關(guān)性系數(shù)分析篩選出的“預(yù)測因子—預(yù)測量”關(guān)系,主要依據(jù)線性關(guān)系,并不能反映自身預(yù)測量和上游站點(diǎn)預(yù)測因子的非線性關(guān)系。在未來的研究中,需探究能夠精準(zhǔn)描述預(yù)測因子與預(yù)測量復(fù)雜非線性關(guān)系的分析方法,從而更為準(zhǔn)確的篩選預(yù)測因子。