牛志娟,胡紅萍,白艷萍,李 強(qiáng)
(1. 中北大學(xué) 理學(xué)院,山西 太原 030051; 2. 中北大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,山西 太原 030051)
?
基于BP、 PCA-BP和PLS算法對(duì)城市降水量的預(yù)測(cè)研究*
牛志娟1,胡紅萍1,白艷萍1,李強(qiáng)2
(1. 中北大學(xué) 理學(xué)院,山西 太原 030051; 2. 中北大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,山西 太原 030051)
摘要:降水量預(yù)報(bào)對(duì)農(nóng)業(yè)生產(chǎn)、 城市經(jīng)濟(jì)和防控城市內(nèi)澇等具有重要意義. 本文應(yīng)用BP神經(jīng)網(wǎng)絡(luò)、 基于主成分分析的BP神經(jīng)網(wǎng)絡(luò)和偏最小二乘(PLS)算法建立了三種降水量預(yù)測(cè)模型. 通過(guò)比較三種模型的MSE和MAE值,發(fā)現(xiàn)PLS模型的預(yù)測(cè)能力優(yōu)于其它兩種模型. 在PLS模型中,采用PLS算法所提取主成分的因變量總方差比例為0.899,這就說(shuō)明模型具有很好的穩(wěn)定性和預(yù)測(cè)能力. 通過(guò)對(duì)PLS模型進(jìn)行分析,發(fā)現(xiàn)極端最低氣溫(X1)、 極端最高氣溫(X2)、 降水距平百分率(X3)、 平均氣溫(X4)是影響城市降水量的主要因素,且降水量隨著X1、 X2、 X3、 X4的增大而增大.
關(guān)鍵詞:偏最小二乘算法; BP神經(jīng)網(wǎng)絡(luò); 降水量預(yù)測(cè); PCA-BP神經(jīng)網(wǎng)絡(luò)
降水量指一定時(shí)間內(nèi)降落到水面上未經(jīng)滲漏、 流失、 蒸發(fā)而累積起來(lái)的水的深度,是衡量一個(gè)地區(qū)降水多少的數(shù)據(jù). 進(jìn)入汛期以來(lái),在厄爾尼諾現(xiàn)象的影響下,多個(gè)城市降水量達(dá)到或突破了歷史極值,出現(xiàn)小區(qū)被淹、 道路積水、 交通阻滯、 居民受困等現(xiàn)象,導(dǎo)致城市內(nèi)澇防控“雪上加霜”. 城市降水量預(yù)測(cè)是目前被全世界普遍關(guān)注的問(wèn)題之一[1]. 降水量是水文和水力系統(tǒng)中的重要輸入數(shù)據(jù),對(duì)國(guó)民經(jīng)濟(jì)特別是農(nóng)業(yè)生產(chǎn)影響極大. 因此,對(duì)城市降水量進(jìn)行準(zhǔn)確性預(yù)測(cè)為當(dāng)?shù)剞r(nóng)業(yè)、 水利等政府智能部門防治旱澇災(zāi)害的有效手段[2].
降水量預(yù)測(cè)對(duì)農(nóng)業(yè)生產(chǎn)、 城市經(jīng)濟(jì)、 防控城市內(nèi)澇等具有極其重要的作用. 近年來(lái),降水量的預(yù)測(cè)受到了廣泛關(guān)注[3]. 常用的預(yù)測(cè)流域降雨量和水文氣象的方法包括: 人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[4]、 混沌貝葉斯[5]等. 其中,ANN算法逼近復(fù)雜的非線性關(guān)系,被廣泛用于氣象、 水資源等預(yù)測(cè). 然而,由于ANN是一種分布式并行信息處理的算法模型,得到的非線性系統(tǒng)是一個(gè)黑箱,難以對(duì)各項(xiàng)性能指標(biāo)的機(jī)理進(jìn)行解釋. 偏最小二乘(Partial Least Square,PLS)算法計(jì)算量小、 預(yù)測(cè)精度較高、 所構(gòu)造的潛變量較確定、 易于定性解釋,能夠在自變量存在嚴(yán)重相關(guān)性的條件下進(jìn)行回歸建模. 迄今為止,基于PLS算法對(duì)城市降水量預(yù)測(cè)的研究甚少. 由于降水量的變化過(guò)程通常是動(dòng)態(tài)的、 復(fù)雜的非線性問(wèn)題,其準(zhǔn)確性很難預(yù)測(cè),因此,準(zhǔn)確提取影響降水量主要因素之間的相關(guān)信息是當(dāng)前研究的熱點(diǎn)問(wèn)題,對(duì)如何開(kāi)發(fā)有效的多變量降水量預(yù)測(cè)模型具有重要的意義.
本文以張北市2009年月降水為因變量,以影響城市降水量的結(jié)構(gòu)與預(yù)測(cè)精度的指標(biāo)為自變量,分別采用ANN、 PCA-BP和PLS算法建立了降水量預(yù)測(cè)模型,為城市降水量的精確預(yù)測(cè)提供一種較好的方法,進(jìn)而探討了影響城市降水量的主要因素.
1預(yù)測(cè)模型方法
1.1BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)(BP Neural Network)是一種反向傳播算法的非線性動(dòng)態(tài)信息處理系統(tǒng)網(wǎng)絡(luò),是目前氣象應(yīng)用最廣泛的網(wǎng)絡(luò)模型之一[6]. 拓?fù)浣Y(jié)構(gòu)如圖 1 所示.
圖 1 中,X1,X2,…,Xn是網(wǎng)絡(luò)輸入值,Y1,Y2,…,Yn是網(wǎng)絡(luò)預(yù)測(cè)值,ωij和ωjk為網(wǎng)絡(luò)的權(quán)值. 當(dāng)網(wǎng)絡(luò)輸入節(jié)點(diǎn)為n、 輸出節(jié)點(diǎn)數(shù)為m時(shí),BP神經(jīng)網(wǎng)絡(luò)表示從n個(gè)自變量到m個(gè)因變量的函數(shù)影射關(guān)系. 本文建立的基于主成分分析的BP神經(jīng)網(wǎng)絡(luò)模型采用的是一個(gè)3層的前饋網(wǎng)絡(luò)模型,其模型計(jì)算的輸出為
(1)
式中:bi為輸入層到隱含層之間的激活函數(shù)值;ωij是連接權(quán)值;rj為輸出層閾值. 其中f(x)采用Sigmoid函數(shù)
(2)
圖 1 BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖Fig.1 The topology structure of BP neural network
1.2 PCA-BP神經(jīng)網(wǎng)絡(luò)
本文選取張北市1989~2008年間極端最低氣溫(X1)、 極端最高氣溫(X2)、 降水距平百分率(X3)、 降水量(X4)、 平均氣溫距平(X5)、 平均最低氣溫(X6)等6個(gè)因子的數(shù)據(jù)作為網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練樣本,以2009年12個(gè)月的降水量為預(yù)測(cè)對(duì)象,通過(guò)提取影響降水量各指標(biāo)中主成分,建立基于主成分分析的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型. 由于PCA-BP模型的不穩(wěn)定性,每次的預(yù)測(cè)結(jié)果都有所不同. 所以本文采用均方誤差(MSE)和平均絕對(duì)誤差(MAE)兩種統(tǒng)計(jì)評(píng)價(jià)指標(biāo)來(lái)比較不同主成分個(gè)數(shù)的PCA-BP模型預(yù)測(cè)精度,兩種評(píng)價(jià)指標(biāo)的計(jì)算如式(3),式(4)所示.
(3)
(4)
1.3偏最小二乘(PLS)算法
(5)
式中:n為所建立的模型中訓(xùn)練集的個(gè)數(shù);A是PLS主成分個(gè)數(shù).
本文以1956-2008年的降水量數(shù)據(jù)分別建立了BP、 PCA-BP和PLS模型,然后對(duì)2009年降水量數(shù)據(jù)進(jìn)行預(yù)測(cè). 采用一個(gè)簡(jiǎn)單的三層BP神經(jīng)網(wǎng)絡(luò)將影響降水量6個(gè)因素的數(shù)據(jù)作為網(wǎng)絡(luò)輸入,以Sigmoid函數(shù)作為網(wǎng)絡(luò)的激活函數(shù),2009年降水量作為網(wǎng)絡(luò)的輸出建立預(yù)測(cè)模型. 由于BP算法采用的是梯度下降法,故訓(xùn)練過(guò)程中易出現(xiàn)局部極小值.
主成分分析(Principal Component Analysis)是一種通過(guò)降維技術(shù)把多個(gè)變量化為少數(shù)幾個(gè)主成分的多元統(tǒng)計(jì)方法[8]. 文中將主成分分析和BP神經(jīng)網(wǎng)絡(luò)相結(jié)合(PCA-BP),提取2個(gè)主成分,累計(jì)貢獻(xiàn)率達(dá)到97%,PCA-BP的主要思想是通過(guò)解決數(shù)據(jù)多的非線性問(wèn)題來(lái)克服輸入數(shù)據(jù)的冗余性,進(jìn)而使得預(yù)測(cè)精度較高于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò).
偏最小二乘法在一定程度上解決了小樣本和多因變量問(wèn)題,是主成分分析、 典型相關(guān)分析和多元線性回歸的有機(jī)結(jié)合. PLS回歸類似于主成分分析,不同的是目標(biāo)函數(shù)不一樣,兩者都是用提取成分的辦法來(lái)提煉主要信息,從而減少變量.
2結(jié)果與討論
2.1BP-ANN模型預(yù)測(cè)結(jié)果
采用MATLAB(2014版)軟件對(duì)張北市降水量預(yù)測(cè)模型進(jìn)行分析. 為提高網(wǎng)絡(luò)的學(xué)習(xí)收斂速度,首先對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,歸一化公式為
(6)
選取1956~2008年的數(shù)據(jù)集作為訓(xùn)練集,以2009年的降水量數(shù)據(jù)作為測(cè)試的獨(dú)立樣本. 在BP網(wǎng)絡(luò)訓(xùn)練過(guò)程中,將訓(xùn)練集作為BP神經(jīng)網(wǎng)絡(luò)的輸入,設(shè)定網(wǎng)絡(luò)的目標(biāo)誤差為0.1,訓(xùn)練次數(shù)10 000次,學(xué)習(xí)速率為0.75,BP網(wǎng)絡(luò)中隱含層和輸出層的神經(jīng)元函數(shù)選用S型正切函數(shù)tansing,網(wǎng)絡(luò)的訓(xùn)練函數(shù)為traing. 建立了張北市降水量BP網(wǎng)絡(luò)預(yù)測(cè)模型,預(yù)測(cè)結(jié)果如圖 2. 由圖 2 可知,四、 七、 八、 九月份的誤差較大,四月份的相對(duì)誤差達(dá)到170,其它八個(gè)月份的預(yù)測(cè)值基本趨于實(shí)際值,預(yù)測(cè)效果基本穩(wěn)定. 一月、 十一月份的相對(duì)誤差與實(shí)際值的誤差最小,其預(yù)測(cè)精度優(yōu)于其它月份.
圖 2 采用BP模型對(duì)2009年張北市降水量的預(yù)測(cè)結(jié)果Fig.2 The forecast results of Zhangbei city precipitation in 2009 according to BP neural network
2.2PCA-BP模型預(yù)測(cè)結(jié)果
采用MATLAB (2014版)軟件分析,通過(guò)計(jì)算主成分分析特征值的累積貢獻(xiàn)率來(lái)確定網(wǎng)絡(luò)樣本輸入,建立了基于主成分分析的BP神經(jīng)網(wǎng)絡(luò)(PCA-BP)預(yù)測(cè)模型. 通過(guò)主成分分析,得到影響月平均溫度的6個(gè)相關(guān)系數(shù)矩陣的特征值及貢獻(xiàn)率. 如表 1 所示,前兩個(gè)主成分解釋了原來(lái)6個(gè)因子97%的信息. 通常情況下,當(dāng)因子累積貢獻(xiàn)率達(dá)到90%時(shí),就能較好地反映相關(guān)因子的影響,因此,前2個(gè)成分反映了原始6個(gè)變量的大部分信息.
表 1 基于主成分的BP神經(jīng)網(wǎng)絡(luò)的2009年張北市降水量分析結(jié)果
本文選取2個(gè)主成分個(gè)數(shù)進(jìn)行預(yù)測(cè),其預(yù)測(cè)結(jié)果如圖3所示,由圖3可以看出,五月、六月、九月份的誤差較大,其它9個(gè)月的實(shí)際值和預(yù)測(cè)值趨于吻合,預(yù)測(cè)精度優(yōu)于原始的BP-ANN模型.
圖 3 PCA-BP模型對(duì)2009年張北市降水量的預(yù)測(cè)結(jié)果Fig.3 The forecast results of Zhangbei city precipitation in 2009 according to PCA-BP neural network
2.3PLS模型預(yù)測(cè)結(jié)果
本文以2009年張北市降水量為因變量Y,以極端最低氣溫(X1)、 極端最高氣溫(X2)、 降水距平百分率(X3)、 平均氣溫(X4)、 平均距平(X5)、 平均最低氣溫(X6)等6項(xiàng)指標(biāo)為自變量構(gòu)建張北市降水量PLS預(yù)測(cè)模型(1). 模型(1)結(jié)果顯示如表 2. 由結(jié)果可知,選取了各因子之間的結(jié)構(gòu)參數(shù),確定各因子之間關(guān)系,并對(duì)張北市月降水量的模型進(jìn)行預(yù)測(cè)分析. 該模型的性質(zhì)參數(shù)和結(jié)構(gòu)參數(shù)如表 2.
表 2 張北市2009年月降水量預(yù)測(cè)結(jié)果
PLS模型中各自變量的VIP(Variable Importance in the Projection)值列于表 3 中,根據(jù)準(zhǔn)回歸系數(shù)前的正負(fù)號(hào),可以判斷各自變量對(duì)因變量影響的性質(zhì). 應(yīng)用PLS 算法得到表3中各自變量的準(zhǔn)回歸系數(shù)和常數(shù)項(xiàng)建立的降水量模型,得到的多變量方程為
LogY=1.906+0.229X1+0.199X2+
(7)
表 3 模型(1)中各參數(shù)的VIP值和準(zhǔn)回歸系數(shù)Tab.3 The VIP and the regression coefficient of parameters in model(1)
表 4 模型(1)的結(jié)果分析
在建立的PLS模型中,影響LogY的主要因素是X1(極端最低氣溫)、X2(極端最高氣溫)、X3(降水距平百分率)和X4(平均氣溫). 由式(5)中準(zhǔn)回歸系數(shù)的正負(fù)可以判斷各個(gè)自變量對(duì)因變量的影響,PLS的LogY值隨著X1、X2、X3、X4的增大而增大.
2.4 三種模型結(jié)果比較
綜上所述,影響城市降水量的主要因素有極端最低氣溫(X1)、 極端最高氣溫(X2)、 降水距平百分率(X3)、 平均氣溫(X4)等4個(gè)因素,降水量隨著X1、X2、X3、X4的增大而增大,降水距平百分率也隨之增大.
采用均方誤差(MSE)和平均絕對(duì)誤差(MAE)兩種統(tǒng)計(jì)評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)BP、 PCA-BP、 PLS模型的預(yù)測(cè)精度. 計(jì)算結(jié)果列于表 5,由表 5 可以看出BP模型的均方誤差達(dá)到73.40,平均相對(duì)誤差為49.41,是三種模型中誤差最大的; PLS模型的均方誤差為16.60,平均絕對(duì)誤差12.44,是三種模型中誤差最小的. 因此,PLS模型的預(yù)測(cè)效果優(yōu)于BP、 PCA-BP模型.
表 5 BP、 PCA-BP 、 PLS 三種不同模型的均方誤差和平均絕對(duì)誤差
根據(jù)BP、 PCA-BP、 PLS三種模型的相對(duì)誤差值,采用Excel(2003)繪圖軟件畫出了BP、 PCA-BP、 PLS三種模型的預(yù)測(cè)誤差對(duì)比圖,如圖 4 所示.
圖 4 BP、 PCA-BP、 PLS模型對(duì)2009年張北市降水量的預(yù)測(cè)誤差Fig.4 Prediction error of BP,PCA-BP and PLS models for precipitation of Zhangbei city in 2009
由圖 4 可知,從三種模型相對(duì)降水量預(yù)測(cè)的穩(wěn)定性和預(yù)測(cè)精度來(lái)講,PLS模型都優(yōu)于BP、 PCA-BP兩模型. 從整體來(lái)看,四月、 七月的降水量較多,十一月、 十二月是降水量最少的兩個(gè)月份,六月、 七月、 九月是PLS預(yù)測(cè)模型誤差較大的三個(gè)月.
3結(jié)論
參考文獻(xiàn):
[1]周國(guó)良,張建云. 厄爾尼諾現(xiàn)象及其對(duì)我國(guó)水文氣候的重大影響[J]. 水文,2002,22(3): 14-17.
Zhou Guoliang,Zhang Jianyun. EI Nino and its effects on the climate in China[J]. Hydrology,2002,22(3): 14-17. (in Chinese)
[2]白玉潔. 改進(jìn)時(shí)間序列模型在降水量預(yù)測(cè)中的應(yīng)用研究[J]. 計(jì)算機(jī)仿真,2011, 28(10): 141-145.
Bai Yujie. Application of rainfall base on improved time series model[J]. Computer Simulation, 2011, 28(10): 141-145. (in Chinese)
[3]劉莉,葉文. 基于BP神經(jīng)網(wǎng)絡(luò)時(shí)間序列模型的降水量預(yù)測(cè)[J]. 水資源與水工程學(xué)報(bào),2010,21(5): 156-159.
Liu Li,Ye Wen. Precipitation prediction of time series model based on BP artificial neural network[J]. Journal of water Resources & water Engineering,2010,21(5): 156-159. (in Chinese)
[4]谷曉平,王長(zhǎng)耀,袁淑杰. GA-BP神經(jīng)網(wǎng)絡(luò)模型在流域面雨量預(yù)報(bào)的應(yīng)用研究[J]. 熱帶氣象學(xué)報(bào),2006,22(3): 248-252.
Gu Xiaoping,Wang Changyao,Yuan Shujie. GA-BP ANN model for river catchment precipitation forecast[J]. Journal of Tropical Meteorology,2006,22(3): 248-252. (in Chinese)
[5]Bańbura M,Giannone D,Reichlin L,et al. Large Bayesian vector auto regressions[J]. Journal of Applied Econometrics,2010,25(1): 71-92.
[6]葛彩蓮,蔡煥杰,王健,等. 基于BP神經(jīng)網(wǎng)絡(luò)的降雨量預(yù)測(cè)研究[J]. 節(jié)水灌溉,2010(11): 7-10.
Ge Cailian, Cai Huanjie, Wang Jian, et al. Study on rainfall forecast based on BP neural network[J]. Water Saving Irrigation,2010(11): 7-10. (in Chinese)
[7]Wold S, Sj?str?m M, Eriksson L. PLS-regression: a basic tool of chemometrics[J]. Chemom. Intell. Lab. Syst. ,2001,58: 109-130.
[8]謝中華. MATLAB統(tǒng)計(jì)分析與應(yīng)用: 40個(gè)案例分析[M]. 北京: 北京航空航天大學(xué)出版社,2010.
[9]Chen Jingwen,Peijnenburg WJGM and Quan Xie,et al. Is it possible to develop a QSPR model for directphotolysis half-lives of PAHS under irradiation of sunlight[J]. Environmental Pollution,2001,115: 137- 143.
[10]Niu Junfeng, Yu Gang, Schramm K W. Quantitative structure-property relationships on direct photolysis of PCDD/Fs on surfaces of flyash[J]. SAR & QSAR in Environmental Research , 2004,18(4): 265-277.
Prediction of Urban Precipitation Based on Algorithms of BP,PCA-BP and PLS
NIU Zhi-juan1,HU Hong-ping1,BAI Yan-ping1, LI Qiang2
(1. School of Science,North University of China,Taiyuan 030051,China;2. School of Computer Scince and Control Engineering, North University of China, Taiyuan 030051, China)
Abstract:The precipitation forecast has important meaning to agricultural production,city economy and city water logging prevention and control etc. In this paper, three kinds of models are established. These models are BP neural network, partial least squares (PLS) algorithm and BP neural network based on principal component analysis(PCA-BP) respectely. By comparing the mean square error and the mean absolute error of the three models,we know that the stability and prediction ability of PLS model are better than the two others’. In PLS model, the total variance ratio of principal component is 0.899, which indicates that the model has well predictive ability. Through analysis of PLS model, it is shown that the main factors that affect urban precipitation are extreme minimum temperature (X1),extreme maximum temperature (X2),precipitation anomaly percentage (X3),average temperature (X4) . Furthermore, the precipitation will increase with the increasing of (X1),(X2),(X3) and (X4).
Key words:partial least squares (PLS); BP neural network; prediction of precipitation; PCA-BP neural network
文章編號(hào):1673-3193(2016)02-0181-06
*收稿日期:2015-10-01
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61275120)
作者簡(jiǎn)介:牛志娟(1988-),女,碩士生,主要從事神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方面的研究.通信作者: 胡紅萍(1973-),女,副教授 ,博士,主要從事工程中數(shù)學(xué)問(wèn)題的研究.
中圖分類號(hào):O29
文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.3969/j.issn.1673-3193.2016.02.016