韓瑩 管健 曹允重 羅嘉
摘要基于長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)降水量預(yù)測模型存在過擬合、時滯現(xiàn)象,而寬度學(xué)習(xí)系統(tǒng)(Broad Learning System,BLS) 無需多次迭代的特點有助于解決LSTM的上述缺點.加權(quán)寬度學(xué)習(xí)系統(tǒng)(Weighted Broad Learning System,WBLS)通過在BLS中引入加權(quán)懲罰因子約束分配樣本權(quán)重,降低噪聲和異常值對降水量預(yù)測精度的影響.本文提出一種LSTM-WBLS日降水量預(yù)測模型,選取湖北省巴東站日降水量進(jìn)行實證研究,并考慮氣壓、氣溫、濕度、風(fēng)速和日照等因素對降水量的影響.實驗結(jié)果表明,與現(xiàn)有的預(yù)測模型相比,LSTM-BLS模型在RMSE、MAE和R2等評價指標(biāo)上均有顯著提升.不同時間步長下,本文模型預(yù)測精度均優(yōu)于現(xiàn)有模型,驗證了其穩(wěn)定性.與LSTM相比,WBLS直接計算權(quán)重的特點使得LSTM-WBLS的運算效率并未降低.
關(guān)鍵詞降水量預(yù)測;長短時記憶網(wǎng)絡(luò);寬度學(xué)習(xí)系統(tǒng);加權(quán)寬度學(xué)習(xí)系統(tǒng);多因素預(yù)測
中圖分類號
TP183
文獻(xiàn)標(biāo)志碼
A
收稿日期
2021-10-18
資助項目
南方海洋科學(xué)與工程廣東省實驗室(珠海)基金(SML2020SP007);國家自然科學(xué)基金(62076136)
作者簡介
韓瑩,女,博士,副教授,研究方向為大數(shù)據(jù)處理方法及其應(yīng)用.hanyingcs@163.com
羅嘉(通信作者),女,碩士,研究方向為災(zāi)害應(yīng)急建模與分析、氣象數(shù)據(jù)分析.jeeaaan@qq.com
0 引言
短時強(qiáng)降水會造成暴雨洪澇,繼而引發(fā)山洪、泥石流等次生災(zāi)害,嚴(yán)重威脅人們生命財產(chǎn)安全.因此,熟練掌握降水規(guī)律、精準(zhǔn)預(yù)測日降水量,對洪澇災(zāi)害的研究和控制具有重要指導(dǎo)意義[1].
降水量預(yù)測的方法基本分為兩類:基于過程的方法和數(shù)據(jù)驅(qū)動方法.基于過程的降水量預(yù)測方法的優(yōu)點是對降水物理過程解釋清晰,但物理過程的復(fù)雜性增加了建模難度,需要給出一系列假設(shè)才能夠?qū)δP颓蠼猓當(dāng)?shù)據(jù)驅(qū)動的方法是經(jīng)驗型的,不需要對降水物理過程進(jìn)行分析,只根據(jù)降水量的歷史數(shù)據(jù)進(jìn)行預(yù)測,模型簡單易操作.
統(tǒng)計方法和機(jī)器學(xué)習(xí)是目前最常見的數(shù)據(jù)驅(qū)動的降水量預(yù)測方法.統(tǒng)計方法方面,近年來最為流行的是基于差分自回歸移動平均(AutoRegressive Integrated Moving Average,ARIMA)模型的預(yù)測方法[2-3].研究表明,當(dāng)降水量時間序列是線性或接近線性時,統(tǒng)計模型能產(chǎn)生令人滿意的預(yù)測結(jié)果,但當(dāng)時間序列呈現(xiàn)非線性時,其預(yù)測結(jié)果往往差強(qiáng)人意.有鑒于此,適合復(fù)雜非線性過程建模的機(jī)器學(xué)習(xí)方法廣泛應(yīng)用于降水預(yù)測中.Hartigan等[4]使用隨機(jī)森林(Random Forest,RF)和支持向量回歸(Support Vector Regression,SVR)對悉尼流域內(nèi)降水和氣溫進(jìn)行預(yù)測;Xiang等[5]利用決策樹和FR的雙系統(tǒng)協(xié)同影響模型對重慶市34個氣象觀測站的數(shù)據(jù)進(jìn)行預(yù)測;Peng等[6]基于極限學(xué)習(xí)機(jī)和基因表達(dá)式構(gòu)建了日降水量預(yù)測混合模型;勾志竟等[7]結(jié)合遺傳算法和BP神經(jīng)網(wǎng)絡(luò)的優(yōu)勢研究了天津市日降水等級的預(yù)測方法;Rostam等[8]采用多種優(yōu)化算法對多層感知器算法進(jìn)行優(yōu)化,以探索伊朗首都大尺度氣候指數(shù)與降水之間的任何有意義的聯(lián)系.
然而,傳統(tǒng)機(jī)器學(xué)習(xí)方法無法捕獲輸入序列的長期記憶[9],從而影響預(yù)測精度.長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)克服了上述缺點.王子岳等[10]采用句子狀態(tài)LSTM模型對說話人意圖進(jìn)行識別;王朋等[11]基于小波長短期記憶網(wǎng)絡(luò)對風(fēng)電功率超短期概率進(jìn)行預(yù)測;羅嘉等[12]等融合LSTM與BLS對突發(fā)氣象災(zāi)害事件中公眾情感傾向分析.在降水預(yù)測方面:Nguyen等[13]利用LSTM改進(jìn)基于雷達(dá)的降雨預(yù)報;沈皓俊等[14]利用LSTM研究了中國夏季降水情況;Ni等[15]給出了兩類改進(jìn)的LSTM模型 (WD-LSTM和CNN-LSTM),并分別探討了其在徑流和降雨預(yù)測的應(yīng)用;Kang等[16]選定多輸入變量的LSTM模型對江西景德鎮(zhèn)日降水量進(jìn)行預(yù)測.
雖然基于LSTM的降水預(yù)測模型已經(jīng)顯示出強(qiáng)大的優(yōu)勢,但現(xiàn)有模型都未解決在預(yù)測中存在時滯的問題.這主要是由于LSTM訓(xùn)練中需要循環(huán)調(diào)整權(quán)重造成的.注意到新提出的寬度學(xué)習(xí)系統(tǒng)(Broad Learning System,BLS)具有直接計算權(quán)重,運算簡單、快捷的優(yōu)點,可以用來改進(jìn)LSTM.但是噪聲和異常值對模型會產(chǎn)生不良影響,所以將加權(quán)懲罰因子應(yīng)用于BLS,提出了加權(quán)寬度學(xué)習(xí)系統(tǒng)(Weighted Broad Learning System,WBLS).通過自動為每個樣本分配適當(dāng)?shù)臋?quán)重,給高可靠性的樣本更高的權(quán)重,而可疑的異常值獲得較低的權(quán)重.因此,減少了異常樣本對建模的影響.結(jié)合兩種算法的優(yōu)勢,本文提出LSTM-WBLS日降水量預(yù)測模型.
為了有效地驗證新模型,本文選取湖北省巴東站進(jìn)行日降水量預(yù)測的實證研究.在預(yù)測精度上,與現(xiàn)有降水預(yù)測模型相比較,本文模型在均方根誤差(RMSE)、平均絕對誤差(MAE)和決定系數(shù)(R2)三個評價指標(biāo)上均表現(xiàn)最佳.在穩(wěn)定性上,通過分析時間步長分別為1、3和5 d對各模型預(yù)測精度的影響,證明了雖然所有模型的預(yù)測精度會隨著時間步長增加而降低,但在不同的時間步長下,本文模型在RMSE、MAE和R2三個評價指標(biāo)方面仍然表現(xiàn)最佳.在運算效率上,因為WBLS計算方便、快捷的特點,加入了WBLS的LSTM-WBLS模型與LSTM模型相比,運算效率并未下降.
2 實例分析
2.1 研究地區(qū)以及數(shù)據(jù)集描述
巴東縣,隸屬湖北省恩施土家族苗族自治州,位于湖北省西南部,屬于亞熱帶季風(fēng)氣候,溫暖多雨,濕熱多霧,四季分明.最熱月平均氣溫一般高于22 ℃,最冷月氣溫在0~15 ℃之間;年降水量多在800~1 600 mm.巴東天氣的非周期性變化和降水季節(jié)變化都很顯著,所以對其日降水預(yù)測比較困難.
本文數(shù)據(jù)在國家氣象中心網(wǎng)站獲?。?dāng)?shù)據(jù)的范圍為2000—2020年巴東地區(qū)氣象觀測站實測降水量觀測數(shù)據(jù).將共7 671 d的數(shù)據(jù)以7∶2∶1的比例設(shè)為訓(xùn)練集、驗證集和測試集,測試集為最近幾年的降水量數(shù)據(jù).
2.2 參數(shù)設(shè)置與評價指標(biāo)
將日降水量映射為S×τ×D個張量數(shù)據(jù)作為模型的輸入.其中,S為樣本數(shù)量(samples),τ為時間步長(time steps),D為特征個數(shù)(features),本文模型為氣壓、氣溫、濕度、風(fēng)速、日照以及降水量六個維度的輸入和降水量一個維度的輸出.所以D為6.
采用Dropout退出部分神經(jīng)元來防止過擬合,確定隨機(jī)丟棄比例P值.再通過全連接層,將其輸出作為WBLS層的映射特征,與輸入X一起構(gòu)成隱藏層H,最后算出輸出權(quán)重W.N 1為每個映射特征節(jié)點個數(shù),N 2為映射特征個數(shù),C為L 2正則化參數(shù).本文利用驗證集對本文模型的超參數(shù)進(jìn)行實驗,取值為多次實驗后選取的最優(yōu)值.本文所用的參數(shù)如表1所示.
選取RMSE、MAE和R2對算法的精確度進(jìn)行評估.RMSE對預(yù)測值誤差十分敏感,能夠體現(xiàn)預(yù)測的精準(zhǔn)度.MAE可以避免誤差相互抵消的問題,可以準(zhǔn)確反映實際預(yù)測誤差.R2常用于判斷回歸方程的擬合程度,數(shù)值在0到1之間,越大表示模型的預(yù)測性能越好.
E RMSE=1n∑ni=1((i)-y(i))2,(15)
E MAE=∑ni=1|((i)-y(i))|,? (16)
R2=1-∑ni=1((i)-y(i))2∑ni=1((i)-y(i))2,? (17)
其中,y i表示真實月降水量,表示預(yù)測月降水量,表示平均月降水量.
2.3 與現(xiàn)有模型對比分析
將現(xiàn)有模型與本文模型進(jìn)行對比分析,以預(yù)測長度1 d為例,對比結(jié)果如表2所示.本文模型與現(xiàn)有的SVM[4]、EEMD-ARIMA[3]、LSTM[13]、CNN-LSTM[15]和LSTM-BLS模型相比:RMSE值分別減少了50.20%、47.58%、37.00%、34.80%和17.54%;MAE值分別減少了55.29%、53.19%、49.20%、48.00%和22.72%;R2值分別增加了0.209、0.189、0.078、0.058和0.015.顯然,本文模型表現(xiàn)在三個指標(biāo)上都是最優(yōu)的,證明了本文模型的有效性和準(zhǔn)確性.
為進(jìn)一步驗證本文模型有效性,對LSTM系列相關(guān)模型預(yù)測進(jìn)行可視化.將測試集的降水序列和各個模型的預(yù)測值進(jìn)行擬合,對比可視化如圖4所示.為了方便作圖,其中第1天對應(yīng)2018年11月26日的降水真實值與預(yù)測值,一直到2020年12月31日共767 d.
從圖4可以看出,在降水量突變的日期本文模型的預(yù)測結(jié)果要明顯優(yōu)于現(xiàn)有的所有模型.注意到,現(xiàn)有的基于LSTM模型(圖4a、4b)在預(yù)測上都不可避免地存在滯后性,因此無法精準(zhǔn)預(yù)測.圖4c因加入BLS基本解決了滯后性問題,但是噪聲和異常值對預(yù)測的不良影響依然存在.本文模型在圖4c基礎(chǔ)上加入了加權(quán)懲罰因子,預(yù)測結(jié)果最優(yōu)(圖4d).
2.4 與單因素模型對比
為進(jìn)一步驗證本文模型的有效性,與單因素降水量輸入的模型進(jìn)行對比,結(jié)果如表3所示.可以看出多因素輸入的預(yù)測要遠(yuǎn)遠(yuǎn)高于單因素輸入模型.原因是數(shù)據(jù)中零值過多,單輸入模型無法準(zhǔn)確預(yù)測.部分?jǐn)?shù)據(jù)集如表4所示.綜合考慮各種氣象因素的影響,本文模型可以準(zhǔn)確地對降水量進(jìn)行預(yù)測.
2.5 穩(wěn)定性分析
不改變模型中的參數(shù),將預(yù)測長度分別設(shè)置為3 d和5 d,對日降水量進(jìn)行預(yù)測,結(jié)果如表5所示.結(jié)合預(yù)測長度為1 d的預(yù)測結(jié)果,可以看出隨著預(yù)測長度的增加,所有預(yù)測模型的預(yù)測精度都有所下降.但是,LSTM-WBLS模型在不同預(yù)測長度下,預(yù)測精? 度依然優(yōu)于其他模型.這一結(jié)果驗證了本文模型的穩(wěn)定性.
2.6 運算效率分析
運算效率也是算法的主要評價指標(biāo).在保證LSTM-WBLS與LSTM訓(xùn)練都達(dá)到最優(yōu)結(jié)果的情況下,運算效率對比如表6所示.由表6可以看出,LSTM-WBLS訓(xùn)練時間只比LSTM長2 s左右,效率未明顯下降.其原因是WBLS不需大量運算、直接計算權(quán)重的特點使得LSTM-WBLS相比LSTM,在運算效率上不會有太大的下降.
3 結(jié)論
鑒于現(xiàn)有日降水預(yù)測模型的缺點,本文提出一種LSTM-WBLS日降水預(yù)測模型.通過實證研究,本文模型借助WBLS不用大量訓(xùn)練、直接通過偽逆計算權(quán)重的特點解決了LSTM預(yù)測中存在的滯后問題,且運算效率沒有下降.通過自動為每個樣本分配適當(dāng)?shù)臋?quán)重,給高可靠性的樣本更高的權(quán)重,而可疑的異常值獲得較低的權(quán)重,減少了異常樣本的影響,提高了預(yù)測精度與穩(wěn)定性.本文探討了在降水量預(yù)測中,同時融合深度學(xué)習(xí)與寬度學(xué)習(xí)優(yōu)勢的可能性,為降水量預(yù)測研究提供了新的思路.本文模型僅考慮歷史氣象數(shù)據(jù)和具體日降水?dāng)?shù)據(jù),以后將加入地理、地貌等特征,進(jìn)一步提高日降水預(yù)測精度.
參考文獻(xiàn)
References
[1] 王海鵬,張斌,劉祖涵,等.基于混沌理論的武漢、宜昌近60年來月降水特征的對比研究[J].自然災(zāi)害學(xué)報,2012,21(6):111-118
WANG Haipeng,ZHANG Bin,LIU Zuhan,et al.Chaos theory-based comparative study on monthly rainfall characteristics in Wuhan and Yichang during recent 60 years[J].Journal of Natural Disasters,2012,21(6):111-118
[2] 張改紅.基于ARIMA模型的渭南市降水量趨勢分析與預(yù)測[J].價值工程,2019,38(34):197-199
ZHANG Gaihong.Analysis and prediction of precipitation trend in Weinan city based on ARIMA model[J].Value Engineering,2019,38(34):197-199
[3] 胡盈,吳靜.基于ARIMA模型的降水空間特征分析及預(yù)測[J].江西科學(xué),2021,39(1):99-104
HU Ying,WU Jing.Analysis and prediction of precipitation spatial characteristics based on ARIMA model[J].Jiangxi Science,2021,39(1):99-104
[4] Hartigan J,MacNamara S,Leslie L M,et al.Attribution and prediction of precipitation and temperature trends within the Sydney catchment using machine learning[J].Climate,2020,8(10):120
[5] Xiang B,Zeng C F,Dong X N,et al.The application of a decision tree and stochastic forest model in summer precipitation prediction in Chongqing[J].Atmosphere,2020,11(5):508
[6] Peng Y Z,Zhao H S,Zhang H,et al.An extreme learning machine and gene expression programming-based hybrid model for daily precipitation prediction[J].International Journal of Computational Intelligence Systems,2019,12(2):1512-1525
[7] 勾志竟,任建玲,徐梅,等.基于Hadoop的GA-BP算法在降水預(yù)測中的應(yīng)用[J].計算機(jī)系統(tǒng)應(yīng)用,2019,28(9):140-146
GOU Zhijing,REN Jianling,XU Mei,et al.Application of GA-BP algorithm based on Hadoop in precipitation forecast[J].Computer Systems & Applications,2019,28(9):140-146
[8] Rostam M G,Sadatinejad S J,Malekian A.Precipitation forecasting by large-scale climate indices and machine learning techniques[J].Journal of Arid Land,2020,12(5):854-864
[9] Shen C P.A trans-disciplinary review of deep learning research for water resources scientists [J].Water Resources Research,2018,54(11):8558-8593
[10] 王子岳,邵曦.基于S-LSTM模型利用‘槽值門機(jī)制的說話人意圖識別[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2019,11(6):751-756
WANG Ziyue,SHAO Xi.Speaker intention recognition based on S-LSTM model and slot-gate[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(6):751-756
[11] 王朋,孫永輝,翟蘇巍,等.基于小波長短期記憶網(wǎng)絡(luò)的風(fēng)電功率超短期概率預(yù)測[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2019,11(4):460-466
WANG Peng,SUN Yonghui,ZHAI Suwei,et al.Ultra-short-term probability prediction of wind power based on wavelet decomposition and long short-term memory network[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(4):460-466
[12] 羅嘉,王樂豪,涂姍姍,等.基于LSTM-BLS的突發(fā)氣象災(zāi)害事件中公眾情感傾向分析[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2021,13(4):477-483
LUO Jia,WANG Lehao,TU Shanshan,et al.Analysis of public sentiment tendency in sudden meteorological disasters based on LSTM-BLS[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2021,13(4):477-483
[13] Nguyen D H,Kim J B,Bae D H.Improving radar-based rainfall forecasts by long short-term memory network in urban basins[J].Water,2021,13(6):776
[14] 沈皓俊,羅勇,趙宗慈,等.基于LSTM網(wǎng)絡(luò)的中國夏季降水預(yù)測研究[J].氣候變化研究進(jìn)展,2020,16(3):263-275
SHEN Haojun,LUO Yong,ZHAO Zongci,et al.Prediction of summer precipitation in China based on LSTM network[J].Climate Change Research,2020,16(3):263-275
[15] Ni L L,Wang D,Singh V P,et al.Streamflow and rainfall forecasting by two long short-term memory-based models[J].Journal of Hydrology,2020,583:124296
[16] Kang J L,Wang H M,Yuan F F,et al.Prediction of precipitation based on recurrent neural networks in Jingdezhen,Jiangxi province,China[J].Atmosphere,2020,11(3):246
[17] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780
[18] Chen C L P,Liu Z L,F(xiàn)eng S.Universal approximation capability of broad learning system and its structural variations[J].IEEE Transactions on Neural Networks and Learning Systems,2019,30(4):1191-1204
[19] Chu F,Liang T,Chen C L P,et al.Weighted broad learning system and its application in nonlinear industrial process modeling[J].IEEE Transactions on Neural Networks and Learning Systems,2020,31(8):3017-3031
Application of improved LSTM-WBLS model in daily precipitation forecast
HAN Ying1 GUAN Jian1 CAO Yunzhong1 LUO Jia2
1School of Automation,Nanjing University of Information Science & Technology,Nanjing 210044
2Hubei Public Meteorological Service Center,Wuhan 430074
Abstract The popular Long Short-Term Memory (LSTM) based precipitation prediction models suffer from overfitting and time lag.Broad Learning System (BLS),which does not require multiple iterations,helps to solve the above disadvantages of LSTM.Weighted Broad Learning System (WBLS) reduces the impact of noise and outliers on precipitation prediction accuracy by introducing a weighted penalty factor constraint to assign sample weights in the BLS.Thus a LSTM-WBLS daily precipitation prediction model is proposed in this paper.The daily precipitation at Badong station in Hubei province is selected for empirical study.And the influence of air pressure,temperature,humidity,wind speed and sunshine on precipitation is considered.The experimental results demonstrate that the LSTM-BLS model has significantly improved the prediction accuracy in the evaluation indexes of RMSE,MAE and R2 compared with existing prediction models.The prediction accuracy of the new model outperforms existing models at different time steps,proving its stability.In particular,the direct calculation of weights by WBLS does not make any reduction in operational efficiency of LSTM-WBLS.
Key words precipitation forecast;long short-term memory (LSTM) network;broad learning system (BLS);weighted broad learning system (WBLS);multi-factor predication