,, , ,,
(新疆農(nóng)業(yè)大學(xué) 水利與土木工程學(xué)院,烏魯木齊 830052)
準(zhǔn)確的徑流預(yù)報不僅有助于合理配置水資源,更好地支撐所在區(qū)域的工農(nóng)業(yè)生產(chǎn),而且可以幫助減少氣象災(zāi)害帶來的損失。目前,許多預(yù)報模型和組合模型都已應(yīng)用在中長期徑流預(yù)報中,如人工神經(jīng)網(wǎng)絡(luò)模型[1]、灰色-周期外延模型[2]、組合小波神經(jīng)網(wǎng)絡(luò)模型[3]等。人們對各種預(yù)報方法及模型進行研究發(fā)現(xiàn),模型的輸入變量在一定程度上影響著水文預(yù)報的精度[4]。不同研究區(qū)其流域徑流量受不同相關(guān)因子的影響程度也大不相同,因此對研究區(qū)相關(guān)預(yù)報因子的選擇成為影響該研究區(qū)徑流預(yù)報水平的關(guān)鍵因素。目前,已有學(xué)者對如何選擇徑流預(yù)報因子的問題進行研究:朱永英等[5]借助粗集理論對預(yù)報因子進行優(yōu)化和選擇,提高了大伙房水庫的中長期徑流預(yù)報精度;閃麗潔等[6]運用不同方法優(yōu)選長江流域預(yù)報因子建立人工神經(jīng)網(wǎng)絡(luò)模型進行徑流預(yù)報,對比得到精度最高的預(yù)報因子挑選方法。然而,目前基于互信息理論進行預(yù)報因子選擇的研究較少。趙銅鐵鋼等[7]運用了互信息法確定預(yù)報因子對長江各水文站建立神經(jīng)網(wǎng)絡(luò)徑流預(yù)報模型;盧迪等[8]采用互信息量方法篩選預(yù)報因子作為BP神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),對碧流河流的汛期徑流進行中長期預(yù)報。研究表明互信息量方法可以識別出預(yù)報因子與徑流的復(fù)合相關(guān)性,運用互信息挑選出的預(yù)報因子作為模型輸入可以大大提高模型的預(yù)測精度。
新疆天山西部山區(qū)河流的補給以融雪為主,區(qū)域的水資源相對匱乏,準(zhǔn)確地預(yù)知該區(qū)域的徑流量尤其重要,既能夠支持當(dāng)?shù)毓まr(nóng)業(yè)生產(chǎn),又對當(dāng)?shù)厣鐣捕ê秃侠戆才潘Y源起著決定性作用[9]。鑒于不同區(qū)域產(chǎn)匯流規(guī)律、地貌特征及人類活動等的差異性,目前已有模型并不具有通用性。因此開展天山西部山區(qū)水文中長期預(yù)報的研究具有重要的意義。本文針對天山西部山區(qū)融雪徑流預(yù)報中氣象預(yù)報因子的選擇問題,基于互信息理論對神經(jīng)網(wǎng)絡(luò)預(yù)報模型的輸入因子選擇及衡量因子間復(fù)合相關(guān)關(guān)系的方法進行研究與討論。首先,通過不同的方法初步選擇神經(jīng)網(wǎng)絡(luò)模型的輸入因子,然后通過不同神經(jīng)網(wǎng)絡(luò)模型進行徑流預(yù)測,并進行不同方案的比較,以期了解不同方法的優(yōu)劣。
喀什河流域位于天山西部,屬于伊犁河的支流,整個流域全長約為304 km,面積約為9 541 km2。流域上僅有一個烏拉斯臺水文站以及臨近的尼勒克、伊寧氣象站,基于站點1960—2005年的數(shù)據(jù)統(tǒng)計:流域的多年平均徑流量為102.2 m3/s;多年平均降雨量為561.7 mm;春季最高氣溫為8.97 ℃,最低氣溫為3.03 ℃;夏季最高氣溫為18.33 ℃,最低氣溫為14.77 ℃;秋季最高氣溫為8.40 ℃,最低氣溫為3.40 ℃;冬季最高氣溫為-4.83 ℃,最低氣溫為-13.13 ℃;多年平均氣溫為5.39 ℃。
借助水文數(shù)據(jù)、氣象數(shù)據(jù)、探空數(shù)據(jù)等對研究區(qū)融雪為主河流的徑流量進行中長期水文預(yù)報研究。數(shù)據(jù)主要來源如表1所示。
表1 數(shù)據(jù)來源Table 1 Sources of data
注:1 hPa= 100 Pa
太陽活動也影響著河川徑流變化,因此收集北半球1960—2005年逐月的太陽黑子數(shù)作為預(yù)報的影響因子。表1中有13個影響因子,加上太陽黑子數(shù)合計為14個與研究區(qū)徑流相關(guān)的影響因子。
互信息是一種信息度量,可以用來表示2個或多個變量之間的相關(guān)性,而且能反映變量間線性相關(guān)關(guān)系之外的非線性相關(guān)關(guān)系。如果變量X,Y互不相關(guān),則X,Y的聯(lián)合分布密度等于邊緣分布密度之積,可表示為
pX,Y(x,y)=pX(x)pY(y) 。
(1)
式中:pX(x)為X的概率密度;pY(y)為Y的概率密度;pX,Y(y)為X與Y的聯(lián)合分布密度。
給定N個離散觀測樣本,變量X,Y之間互信息計算公式為
(2)
式中MI為互信息量值。
由式(2)可知,當(dāng)X與Y互不相關(guān)時,MI 取值將趨近于 0;當(dāng)X與Y之間存在函數(shù)關(guān)系時,MI 取值將趨近于正無窮大。
若給定變量X的N個觀測樣本,其概率密度pX(xi)采用核函數(shù)(多維高斯分布密度函數(shù)),進行估計,即
(3)
(4)
借助水文數(shù)據(jù)、氣象數(shù)據(jù)和探空數(shù)據(jù)共14個相關(guān)因子水文序列分別計算與徑流序列的互信息量值MI,結(jié)果如表2所示。
表2 預(yù)報因子與徑流序列的互信息量值Table 2 Coefficient matrix of factor score with MI(mutual information)
表2包括14個相關(guān)因子與徑流序列的互信息MI值以及所占名次(名次是MI值由大到小排序,即名次1為MI值最大所對應(yīng)的因子)。由表2可見,蒸發(fā)、850 hPa氣溫、降水、氣溫、700 hPa氣溫、500 hPa氣溫這6個相關(guān)因子的MI值都>4,是14個相關(guān)因子中的前6名,也就是相關(guān)性最好的6個因子;相對濕度與徑流序列的互信息MI值為3.68,是14個相關(guān)因子中的第7名,相關(guān)性較好僅次于第6名的MI值0.37。選取互信息MI值最好的7個相關(guān)因子(蒸發(fā)、850 hPa氣溫、降水、氣溫、700 hPa氣溫、500 hPa氣溫、相對濕度)作為預(yù)報模型的輸入變量。
目前對預(yù)報因子的挑選已有大量研究,本文選取以下挑選方法進行預(yù)測:
(1)全部預(yù)報因子法(全因子法)。借助水文數(shù)據(jù)、氣象數(shù)據(jù)和探空數(shù)據(jù)共14個相關(guān)因子水文序列直接作為徑流預(yù)測的預(yù)報因子。
(2)相關(guān)系數(shù)法。對選取的14個相關(guān)因子水文序列分別計算與徑流序列的相關(guān)系數(shù)值,選取R2最大的前7個因子作為預(yù)報因子。
(3)主成分分析法。運用主成分分析法對14組相關(guān)因子數(shù)據(jù)進行主成分提取,提取出3組代表14個相關(guān)因子的主要成分X1,X2,X3。
(4)互信息法。借助互信息法計算14組預(yù)報因子與徑流之間的互信息量值MI,選取MI最大的7個預(yù)報因子。
4種方法的具體因子見表3。
表3 烏拉斯臺徑流預(yù)報因子的優(yōu)選結(jié)果Table 3 Optimized predictors for runoff at Wulasitai Station
本文通過相關(guān)系數(shù)法、互信息法及主成分分析方法進行預(yù)報因子的優(yōu)選,確定出3組不同的預(yù)報因子與不進行因子挑選的全部因子(見表3),將這4組數(shù)據(jù)作為模型的輸入因子。并采用組合小波BP神經(jīng)網(wǎng)絡(luò)模型與RBF神經(jīng)網(wǎng)絡(luò)模型對徑流序列進行預(yù)測。
4.1.1 組合小波BP神經(jīng)網(wǎng)絡(luò)模型
以1960年1月—1999年12月逐月預(yù)報因子序列和徑流序列作訓(xùn)練和測試數(shù)據(jù), 2000年1月—2005年12月的徑流序列作為檢驗數(shù)據(jù),建立組合小波BP神經(jīng)網(wǎng)絡(luò)模型進行中長期水文預(yù)報研究。4種挑選方法的預(yù)測結(jié)果如圖1,相對誤差如表4。
圖1 烏拉斯臺站徑流小波BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果Fig.1 Runoff predictions for Wulasitai Station by wavelet BP neural network
年份與實測值的平均相對誤差/%全因子法相關(guān)系數(shù)法主成分分析法互信息法2000-7.50-8.42-5.16-4.032001-12.90-3.53-9.89-1.422002-1.412.93-3.437.502003-7.46-12.99-13.83-10.552004-7.51-2.41-9.77-5.402005-19.51-6.75-11.16-13.48平均值-9.38-5.20-8.87-4.56
由圖1可見:①4種挑選方法對徑流量低值的預(yù)測效果都較好,高值預(yù)測都不太理想、擬合效果不好;②其中全因子方法的擬合效果最差,對于高值與低值的預(yù)測都出現(xiàn)較大的偏差;③互信息法不僅對徑流量的高、低值的擬合效果在4種挑選方法里最好,而且整個徑流過程的擬合程度也較高。因此由互信息法挑選出的預(yù)報因子建立的組合小波BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測出的徑流量與實測值最為接近。
由表4可以看出:①全因子的預(yù)測結(jié)果的相對誤差為-19.51%~-1.41%,平均為-9.38%; ②相關(guān)系數(shù)法的預(yù)測結(jié)果的相對誤差為-12.99%~2.93%,平均為-5.20%;③主成分分析法的預(yù)測結(jié)果的相對誤差為-13.83%~-3.43%,平均為-8.87%;④互信息法的預(yù)測結(jié)果的相對誤差為-13.48%~7.50%,平均為-4.56%;⑤互信息法在這6 a的平均相對誤差最小,較全因子法少4.82%,較相關(guān)系數(shù)法少0.64%,較主成分分析法少4.31%,可作為組合小波BP神經(jīng)網(wǎng)絡(luò)預(yù)報模型的最優(yōu)預(yù)報因子挑選方案。
4.1.2 RBF神經(jīng)網(wǎng)絡(luò)模型
分別采用全因子、相關(guān)系數(shù)法、主成分分析法和互信息法等方法確定的預(yù)報因子,具體見表3。以1960年1月—1999年12月逐月的預(yù)報因子序列和徑流序列作為訓(xùn)練和測試數(shù)據(jù), 2000年1月—2005年12月的徑流序列作為檢驗數(shù)據(jù),建立RBF神經(jīng)網(wǎng)絡(luò)模型進行中長期水文預(yù)報研究。4種挑選方法的預(yù)測結(jié)果如圖2,相對誤差如表5。
由圖2可見:①4種挑選方法對徑流量低值與高值的預(yù)測效果都較好;②其中全因子法和主成分分析法對高值的擬合效果較差;③互信息方法對徑流量的高、低值的擬合效果在4種挑選方法里最好,整個徑流過程的擬合程度也較高。因此由互信息方法挑選出的預(yù)報因子建立的RBF神經(jīng)網(wǎng)絡(luò)模型預(yù)測出的徑流量與實測值最為接近。
圖2 烏拉斯臺站徑流RBF神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果Fig.2 Runoff predictions for Wulasitai Station by RBF neural network
年份與實測值的平均相對誤差/%全因子法相關(guān)系數(shù)法主成分分析法互信息法2000-14.99-1.08-30.905.652001-5.564.16-22.107.352002-19.23-11.07-37.10-9.822003-5.33-5.26-28.92-3.032004-11.75-13.69-36.21-13.3320050.011.52-15.571.48平均值-9.48-4.24-28.47-1.95
計算出2000—2005年每年的平均相對誤差(表5)可以看出:①全因子法預(yù)測結(jié)果的相對誤差最大為-19.23%,最小為0.01%,平均為-9.48%;②相關(guān)系數(shù)法預(yù)測結(jié)果的相對誤差為-13.69%~4.16%,平均為-4.24%;③主成分分析法的預(yù)測結(jié)果的相對誤差為-37.10%~-15.57%,平均相對誤差為-28.47%;④互信息法的預(yù)測結(jié)果的相對誤差為-13.33%~7.35%,平均為-1.95%;⑤互信息法在這6 a的平均相對誤差最小,相對于全因子法減少7.53%,相對于相關(guān)系數(shù)法減少2.29%,相對于主成分分析法減少26.52%,可作為RBF神經(jīng)網(wǎng)絡(luò)預(yù)報模型的最優(yōu)預(yù)報因子挑選方案。
4.1.3 不同方案的預(yù)測結(jié)果分析
將各挑選結(jié)果分別作為2個神經(jīng)網(wǎng)絡(luò)模型輸入數(shù)據(jù),徑流序列作為輸出數(shù)據(jù)。得到不同預(yù)報結(jié)果的相對誤差如表6所示,將互信息法作為最佳預(yù)報因子的挑選方法分別得到2個模型的預(yù)報結(jié)果如圖3所示。
表6 不同方案下烏拉斯臺站徑流的預(yù)測結(jié)果Table 6 Runoff prediction errors for Wulasitai Station by different methods
圖3 烏拉斯臺站徑流預(yù)測結(jié)果Fig.3 Result of runoff predictions for Wulasitai Station
從表6可以看出,不同的輸入數(shù)據(jù)對2種不同模型的預(yù)測結(jié)果都有影響。其中互信息方法挑選出的預(yù)報因子作為輸入因子的預(yù)測效果要好于其他方法挑選預(yù)報因子作為輸入數(shù)據(jù)的預(yù)測效果。在小波BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果中,互信息法的預(yù)測結(jié)果平均相對誤差相對于全因子法減少4.82%,相對于相關(guān)系數(shù)法減少0.64%,相對于主成分分析法減少4.31%。從圖3中可以看出,RBF神經(jīng)網(wǎng)絡(luò)對徑流高、低值及徑流過程的擬合效果都比小波BP神經(jīng)網(wǎng)絡(luò)要理想。
基于相關(guān)系數(shù)法、互信息法和主成分分析法3種方法優(yōu)選預(yù)報因子,以及全因子法得到4種不同的預(yù)報因子挑選結(jié)果。將這4種預(yù)報因子的挑選作為輸入因子,徑流數(shù)據(jù)作為輸出因子對RBF神經(jīng)網(wǎng)絡(luò)和組合小波BP神經(jīng)網(wǎng)絡(luò)進行建模得到8種預(yù)測結(jié)果??梢钥闯觯?/p>
(1)不同預(yù)報因子在神經(jīng)網(wǎng)絡(luò)模型中的預(yù)測結(jié)果都不同,不同預(yù)報因子挑選方法較不進行因子篩選的全因子法相比,其預(yù)報精度有著不同程度(0.51%~7.53%)的提高,因此在進行徑流中長期預(yù)報中重視對預(yù)報因子的挑選,可以在一定程度上提高預(yù)測精度得到更高的合格率。
(2)互信息量可同時反映出預(yù)報因子與徑流序列之間的線性關(guān)系和非線性關(guān)系,較相關(guān)系數(shù)法、全因子法、主成分分析法的預(yù)測結(jié)果,平均相對誤差大大減少。在小波BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果中,互信息法較其他方法的預(yù)報精度提高了0.64%~4.82%;在RBF神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果中,互信息法較其他方法的預(yù)報精度提高了2.29%~26.52%。因此選用互信息量挑選預(yù)報因子作為模型輸入可以提高模型的預(yù)報精度。
(3)以相對誤差作為評價模型精確度的標(biāo)準(zhǔn)得到結(jié)果分析,基于互信息方法挑選出的預(yù)報因子作為RBF神經(jīng)模型輸入數(shù)據(jù)的模型預(yù)測精度最高,較互信息法結(jié)合小波BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度提高了2.61%,因此在天山西部山區(qū)該方法對徑流中長期水文預(yù)報研究具有一定參考價值。
從模擬的結(jié)果來看,盡管預(yù)報模型在天山西部山區(qū)具有較好的適用性,但模擬徑流值與實測徑流值之間仍然存在一定的誤差,所有的大誤差都是出現(xiàn)在尖峰處,該誤差可能來自預(yù)報因子的挑選方面,相關(guān)系數(shù)法只能挑選出與徑流序列線性關(guān)系較好的因子,主成分分析法也只能挑選出因子的主要成分,即便是互信息方法對預(yù)報因子的挑選也存在不足,或者還有影響尖峰變化的因素沒有考慮進去,對水文預(yù)報精度制約的關(guān)鍵因素是模型輸入因子的確定。
在今后的研究中,如果能找到精度更好的挑選因子方法,或加入影響尖峰變化的因素,并充分考慮研究區(qū)的實際情況建立帶有遞歸的動態(tài)神經(jīng)網(wǎng)絡(luò)模型,模型模擬精度可能會進一步提高,以期更好地指導(dǎo)所在區(qū)域融雪徑流模擬研究與洪水預(yù)報方面的工作。