摘? 要:為了提高格點(diǎn)風(fēng)場(chǎng)預(yù)報(bào)產(chǎn)品的準(zhǔn)確性,提出了一套基于深度學(xué)習(xí)和集成學(xué)習(xí)的風(fēng)速、風(fēng)向預(yù)報(bào)方法。使用時(shí)間序列上的站點(diǎn)風(fēng)實(shí)況數(shù)據(jù)和空間范圍上的數(shù)值模式預(yù)報(bào)產(chǎn)品建立時(shí)空信息匹配模型,使用了長(zhǎng)短期記憶法(LSTM)和極端梯度提升(XGBoost)建立時(shí)空匹配的聯(lián)合預(yù)報(bào)產(chǎn)品訂正模型,形成72小時(shí)隔3小時(shí)、5千米時(shí)空分辨率的SCMOC風(fēng)速、風(fēng)向預(yù)報(bào)產(chǎn)品。評(píng)估結(jié)果顯示,相較于SCMOC預(yù)測(cè),聯(lián)合模型實(shí)現(xiàn)風(fēng)速平均絕對(duì)誤差(MAE)降低了14.17%,風(fēng)向平均絕對(duì)誤差(MAE)降低了23.61%。模型對(duì)SCMOC風(fēng)場(chǎng)產(chǎn)品的風(fēng)速、風(fēng)向的準(zhǔn)確率有較好的提升,產(chǎn)品釋用效果良好。
關(guān)鍵詞:LSTM;XGBoost;時(shí)空匹配;指導(dǎo)預(yù)報(bào)產(chǎn)品;產(chǎn)品釋用
中圖分類號(hào):TP18? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)24-0016-05
Research on Grid Wind Field Model Prediction Products in Inner Mongolia Based on Machine Learning Method
LIU Hui
(Meteorological Data Center of Inner Mongolia Autonomous Region, Hohhot? 010010, China)
Abstract: In order to improve the accuracy of grid wind field prediction products, a set of wind speed and direction prediction methods based on deep learning and ensemble learning is proposed. The real-time data of station wind in the time series and the numerical model prediction products in the spatial range are used to establish the spatio-temporal information matching model, and the Long short-term memory method (LSTM) and extreme gradient lifting (XGBoost) are used to establish the joint prediction product correction model with spatio-temporal matching, forming the 72 hour SCMOC wind speed and direction prediction products with spatio-temporal resolution of 3 hours and 5 kilometers. The assessment results show that the mean absolute error (MAE) of wind speed realized by the joint model is 14.17% lower than that of SCMOC prediction, and the mean absolute error of wind direction is 23.61% lower than that of SCMOC prediction. The model has significantly improved the accuracy of wind speed and direction for SCMOC wind farm products, and the product has a good interpretation effect.
Keywords: LSTM; XGBoost; spatiotemporal matching; guiding forecast product; product interpretation
0? 引? 言
數(shù)值模式預(yù)報(bào)產(chǎn)品與實(shí)際天氣之間仍存在一些差異,這種誤差主要是由初始場(chǎng)誤差和模型誤差引起的[1]。模式產(chǎn)品釋用(MOS)方法是一種在業(yè)務(wù)中廣泛預(yù)報(bào)應(yīng)用技術(shù),大量的實(shí)踐表明,在特定空間、特定時(shí)間應(yīng)用統(tǒng)計(jì)等方法對(duì)模式輸出結(jié)果進(jìn)行調(diào)整,能夠形成更準(zhǔn)確的預(yù)報(bào)[2]。最近幾年,在傳統(tǒng)統(tǒng)計(jì)學(xué)之外,出現(xiàn)了一些基于集成學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)報(bào)產(chǎn)品釋用的研究,薛諶彬等在研究中提出了一種結(jié)合滑動(dòng)雙權(quán)重平均訂正法和空間誤差逐步訂正法的綜合訂正技術(shù),并對(duì)2016年5月1日至2017年5月1日期間24~168 h預(yù)報(bào)時(shí)效內(nèi)歐洲中期天氣預(yù)報(bào)中(ECMWF)高分辨率模式的2 m最高和最低溫度進(jìn)行偏差訂正和誤差分析,形成的綜合訂正法已成功運(yùn)用于江西省精細(xì)化氣象要素客觀預(yù)報(bào)業(yè)務(wù)系統(tǒng)中[3]。Wei的研究與本項(xiàng)目研究?jī)?nèi)容相似,同樣是研究風(fēng)的,研究將臺(tái)風(fēng)期間WRF模式輸出與臺(tái)灣各實(shí)況觀測(cè)站點(diǎn)數(shù)據(jù)通過深度學(xué)習(xí)(DNN)的方法來輸出新的預(yù)報(bào),結(jié)果較WRF更加逼近實(shí)況值[4]。陳法敬等人基于NCEP集合預(yù)報(bào)應(yīng)用貝葉斯概率進(jìn)行預(yù)報(bào)融合,實(shí)現(xiàn)集合預(yù)報(bào)的概率化[5],這些研究釋用ECMWF高分辨率模式以及WRF模式產(chǎn)品,取得了不錯(cuò)的效果。
利用鄰近臨近信息改進(jìn)目標(biāo)站點(diǎn)的預(yù)報(bào)的所謂時(shí)空預(yù)報(bào)方法越來越受到人們的關(guān)注[6],基于時(shí)間與空間一定范圍內(nèi)的風(fēng)場(chǎng)有某種相互影響,特別是對(duì)于風(fēng),目標(biāo)站點(diǎn)的時(shí)間序列數(shù)據(jù)與其周圍站點(diǎn)的時(shí)間序列數(shù)據(jù)有緊密關(guān)系[7],本文使用時(shí)間序列上的站點(diǎn)風(fēng)數(shù)據(jù)和空間范圍的格點(diǎn)預(yù)報(bào)產(chǎn)品,聯(lián)合長(zhǎng)短期記憶法(LSTM)和極端梯度提升(XGBoost)建立集成模型尋找觀測(cè)與數(shù)值模式輸出之間的關(guān)系模型,并利用該模型將多個(gè)預(yù)報(bào)轉(zhuǎn)變?yōu)橐粋€(gè)單值預(yù)報(bào),以獲得更準(zhǔn)確的預(yù)報(bào)結(jié)果。
1? 研究方法
1.1? LSTM算法
長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),是為了解決一般的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))存在的長(zhǎng)期依賴問題而專門設(shè)計(jì)出來的,所有的RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问?。在?biāo)準(zhǔn)RNN中,這個(gè)重復(fù)的結(jié)構(gòu)模塊只有一個(gè)非常簡(jiǎn)單的結(jié)構(gòu),例如一個(gè)tanh層。與基本的 RNN 相比,LSTM網(wǎng)絡(luò)具有更好的收斂性能。LSTM由多個(gè)函數(shù)組成,而常規(guī)RNN只有一個(gè)函數(shù)。這些函數(shù)試圖記住有用的信息,忘記來自輸入的不必要的信息[8]。圖1顯示了LSTM中的函數(shù)之間的關(guān)系。
1.2? XGBoost算法
XGBoost是Gradient Boost的一種提升版本,Gradient Boost是boosting算法的其中一種[9]。Gradient Boosting中將負(fù)梯度作為上一輪基學(xué)習(xí)器犯錯(cuò)的衡量指標(biāo),算法思想就是不斷地添加樹,不斷地進(jìn)行特征分裂來生長(zhǎng)一棵樹,去擬合上次預(yù)測(cè)的殘差。按這樣的過程重復(fù)訓(xùn)練出M個(gè)學(xué)習(xí)器,最后進(jìn)行加權(quán)組合[10],XGBoost的提升模型也是采用擬合殘差去降低損失函數(shù),不同的是其擬合過程是直接用泰勒展開式將損失函數(shù)展開成二項(xiàng)式函數(shù)[11],圖2為XGBoost算法流程圖。
1.3? LSTM-XGBoost
LSTM-XGBoost算法將LSTM和XGBoost算法結(jié)合使用,使用LSTM進(jìn)行時(shí)間特征訓(xùn)練,使用XGBoost進(jìn)行空間特征訓(xùn)練,將XGBoost模型附加到LSTM輸出上建立集成模型形成時(shí)空數(shù)據(jù)與預(yù)測(cè)值之間的關(guān)系,圖3為L(zhǎng)STM-XGBoost結(jié)構(gòu)圖。
訓(xùn)練過程分為兩步,首先使用SCMOC時(shí)間序列的數(shù)據(jù)輸入到LSTM中,訓(xùn)練生成LSTM預(yù)報(bào)模型,使用T-9、T-6、T-3時(shí)刻數(shù)據(jù)預(yù)測(cè)T時(shí)刻風(fēng)速、風(fēng)向數(shù)據(jù)。第二步用LSTM生成的結(jié)果加上T時(shí)刻SCMOC目標(biāo)轉(zhuǎn)到周圍5×5范圍的風(fēng)速風(fēng)向數(shù)據(jù)輸入XGBoost最終生成T時(shí)刻風(fēng)速、風(fēng)向數(shù)據(jù)。
LSTM-XGBoost模型中LSTM網(wǎng)絡(luò)嘗試捕獲風(fēng)演化信息的隱式特征,XGBoost通過目標(biāo)站點(diǎn)周圍一定范圍風(fēng)場(chǎng)數(shù)據(jù)嘗試捕獲一定范圍內(nèi)風(fēng)場(chǎng)相互影響關(guān)系,LSTM-XGBoost風(fēng)速模型中使用回歸模型,風(fēng)向模型中使用分類模型。
2? 試驗(yàn)與檢驗(yàn)
2.1? 數(shù)據(jù)來源
智能網(wǎng)格指導(dǎo)產(chǎn)品(SCMOC)為2018年至2021年中央氣象臺(tái)每日下發(fā)2次的氣象要素精細(xì)化預(yù)報(bào)指導(dǎo)產(chǎn)品,起報(bào)時(shí)間分別為北京時(shí)間08:00和20:00,格式為grib2,分辨率為5 km格點(diǎn)產(chǎn)品,范圍涵蓋全國區(qū)域(70E~140E、0N~60N)預(yù)報(bào)時(shí)長(zhǎng)為240小時(shí)或72小時(shí)。數(shù)據(jù)來源內(nèi)蒙古自治區(qū)氣象信息中心。
如圖4所示(數(shù)據(jù)來源內(nèi)蒙古自治區(qū)氣象信息中心),站點(diǎn)數(shù)據(jù)為內(nèi)蒙古自治區(qū)2018年至2021年119各國家站地面觀測(cè)資料,氣象要素包括:10 m風(fēng)速、10 m風(fēng)向。
2.2? 數(shù)據(jù)集生成
數(shù)據(jù)預(yù)處理和質(zhì)量控制,第一步進(jìn)行邏輯性檢查對(duì)SCMOC風(fēng)向小于0°或者大于360°,風(fēng)速小于0或者大于120 m/s的樣本剔除,第二步進(jìn)行一致性檢查,對(duì)于SCMOC預(yù)報(bào)風(fēng)速與站點(diǎn)風(fēng)速差的絕對(duì)值大于50 m/s的樣本剔除。
LSTM-XGBoost聯(lián)合模型數(shù)據(jù)集包含兩部分,由于SCMOC模式產(chǎn)品的滯后性,一般滯后12小時(shí),所以3~72小時(shí)任意T時(shí)刻是可以獲取T-3、T-6、T-9時(shí)刻的數(shù)據(jù),實(shí)驗(yàn)中LSTM部分?jǐn)?shù)據(jù)集以T時(shí)刻站點(diǎn)數(shù)據(jù)作為標(biāo)簽,站點(diǎn)對(duì)應(yīng)的SCMOC格點(diǎn)產(chǎn)品最近格點(diǎn)數(shù)據(jù)T-3、T-6、T-9作為訓(xùn)練數(shù)據(jù)。生成LSTM數(shù)據(jù)集。
使用00時(shí)和12時(shí)SCMOC資料目標(biāo)站點(diǎn)周圍一定范圍內(nèi)的格點(diǎn)數(shù)據(jù)作為XGBoost模型預(yù)測(cè)輸入數(shù)據(jù)集。圖5描述了EC模式預(yù)報(bào)和SCMOC預(yù)報(bào)起報(bào)時(shí)間選取數(shù)據(jù)時(shí)間段。
LSTM-XGBoost聯(lián)合模型數(shù)據(jù)集,LSTM部分使用LSTM數(shù)據(jù)集,XGBoost部分使用00時(shí)和12時(shí)SCMOC資料目標(biāo)站點(diǎn)周圍一定范圍內(nèi)的格點(diǎn)數(shù)據(jù)和LSTM輸出數(shù)據(jù)作為XGBoost模型輸入數(shù)據(jù)集。
2.3? 風(fēng)速預(yù)報(bào)模型構(gòu)建
LSTM-XGBoost風(fēng)速模型,使用數(shù)據(jù)集圍為:2018年1月1日~2019年10月1日是數(shù)據(jù),采用訓(xùn)練集數(shù)據(jù)進(jìn)行建模,測(cè)試集數(shù)據(jù)進(jìn)行模,將數(shù)據(jù)集按照80:20的比例劃分為訓(xùn)練集和測(cè)試集,分別生成LSTM、XGBoost和LSTM-XGBoost回歸模型。
2.4? 風(fēng)向預(yù)報(bào)模型的構(gòu)建
LSTM-XGBoost風(fēng)向訂正模型,使用數(shù)據(jù)集與風(fēng)速相同,由于風(fēng)速0~360度沒有實(shí)際意義的大小,使用回歸方法在預(yù)測(cè)值與真實(shí)值大于180度時(shí)失真,為了更好地表示真實(shí)的風(fēng)向意義,項(xiàng)目按照全國智能網(wǎng)格氣象預(yù)報(bào)業(yè)務(wù)規(guī)定(試行)風(fēng)向檢驗(yàn)劃分規(guī)則,將0~360度風(fēng)向按照45度一個(gè)角度分為8個(gè)類別,生成風(fēng)向分類模型,如表1所示。
3? ?檢驗(yàn)評(píng)估
3.1? 檢驗(yàn)方法
3.1.1? 技巧評(píng)分
技巧評(píng)分參照《城鎮(zhèn)氣象要素預(yù)報(bào)的風(fēng)預(yù)報(bào)質(zhì)量檢驗(yàn)辦法(試行)的通知》(氣預(yù)函〔2014〕91號(hào))對(duì)SCMOC和基于機(jī)器學(xué)習(xí)風(fēng)預(yù)報(bào)模型產(chǎn)品進(jìn)行檢驗(yàn)。
風(fēng)向技評(píng)分檢驗(yàn)風(fēng)向按照8個(gè)方位劃分進(jìn)行檢驗(yàn),風(fēng)向預(yù)報(bào)檢驗(yàn)技巧評(píng)分采用如式(1):
式中:SCdi為第i個(gè)站風(fēng)向預(yù)報(bào)得分,詳見表2。NF為預(yù)報(bào)總站(次)數(shù),K為1~8,其中,1~8代表8個(gè)方位。
風(fēng)速預(yù)報(bào)檢驗(yàn)技巧評(píng)分采用如下公式:
式中,SCdi為第i個(gè)站風(fēng)速預(yù)報(bào)得分,詳見表3。NF為預(yù)報(bào)總站(次)數(shù)。
3.1.2? 平均絕對(duì)誤差(MAE)
平均絕對(duì)誤差風(fēng)向的檢驗(yàn)參考中國氣象局《QX/T 229—2014風(fēng)預(yù)報(bào)檢驗(yàn)方法》。評(píng)估風(fēng)向預(yù)報(bào)檢驗(yàn)平均絕對(duì)誤差(MAE)采用式(3):
其中,Oi為站點(diǎn)觀測(cè)值,Gi為實(shí)況分析產(chǎn)品插值到檢驗(yàn)站點(diǎn)得到的數(shù)值,N為參與檢驗(yàn)的總樣本數(shù)(站次數(shù)),風(fēng)速平均絕對(duì)誤差(MAE):
其中,Oi為站點(diǎn)觀測(cè)值,Gi為實(shí)況分析產(chǎn)品插值到檢驗(yàn)站點(diǎn)得到的數(shù)值,N為參與檢驗(yàn)的總樣本數(shù)(站次數(shù))。
3.2? 檢驗(yàn)結(jié)果
基于風(fēng)速預(yù)報(bào)模型,對(duì)全區(qū)119個(gè)自動(dòng)站2019年10月1日到2020年10月1日1年的數(shù)據(jù)進(jìn)行風(fēng)速預(yù)報(bào)評(píng)估。評(píng)估結(jié)果表明,風(fēng)速模型預(yù)報(bào)平均絕對(duì)誤差相對(duì)于指導(dǎo)預(yù)報(bào)(SCMOC)預(yù)報(bào)平均絕對(duì)誤差(MAE)降低14.17%(ML MODEL:1.035,SCMOC:1.20);
評(píng)分提高了4.63%(ML MODEL:0.752,SCMOC:0.719);準(zhǔn)確率提高了13.16%(ML MODEL:0.493 4,
SCMOC:0.436 1);風(fēng)速≤6級(jí)準(zhǔn)確率提高了13.15%(ML MODEL:0.493 8,SCMOC:0.436 4);6~8級(jí)和≥8級(jí)基本相同。
圖6展示了3至72小時(shí)逐3小時(shí)預(yù)報(bào)風(fēng)速模型預(yù)報(bào)評(píng)分和指導(dǎo)預(yù)報(bào)(SCMOC)預(yù)報(bào)評(píng)分對(duì)比。
圖7展示了3至72小時(shí)逐3小時(shí)預(yù)報(bào)風(fēng)速模型預(yù)報(bào)平均絕對(duì)誤差和指導(dǎo)預(yù)報(bào)(SCMOC)預(yù)報(bào)平均絕對(duì)誤差對(duì)比。
3.3? 風(fēng)向預(yù)報(bào)模型效果評(píng)估
基于風(fēng)向預(yù)報(bào)模型,對(duì)全區(qū)119個(gè)自動(dòng)站2019年10月1日到2020年10月1日1年的數(shù)據(jù)進(jìn)行風(fēng)向預(yù)報(bào)評(píng)估。評(píng)估結(jié)果表明,風(fēng)向模型預(yù)報(bào)平均絕對(duì)誤差相對(duì)于指導(dǎo)預(yù)報(bào)(SCMOC)預(yù)報(bào)平均絕對(duì)誤差(MAE)降低23.61%(ML MODEL:43.03,SCMOC:56.35);評(píng)分提高了23.5%(ML MODEL:0.651,SCMOC:0.528);準(zhǔn)確率提高了44.1%(ML MODEL:0.454,SCMOC:0.315)。
圖8展示了3至72小時(shí)逐3小時(shí)預(yù)報(bào)風(fēng)向模型預(yù)報(bào)評(píng)分和指導(dǎo)預(yù)報(bào)(SCMOC)預(yù)報(bào)評(píng)分對(duì)比。
圖9展示了3至72小時(shí)逐3小時(shí)預(yù)報(bào)風(fēng)向模型預(yù)報(bào)平均絕對(duì)誤差和指導(dǎo)預(yù)報(bào)(SCMOC)預(yù)報(bào)平均絕對(duì)誤差對(duì)比。
4? 結(jié)? 論
受制于目前的超算性能和超高分辨率數(shù)值天氣技術(shù)理論尚無突破,數(shù)值模式對(duì)風(fēng)的預(yù)報(bào)能力仍顯不足。本研究通過基于機(jī)器學(xué)習(xí)方法對(duì)數(shù)值模式風(fēng)的預(yù)報(bào)產(chǎn)品進(jìn)行了釋用,建立了較為完整的風(fēng)場(chǎng)預(yù)報(bào)智能模型,從評(píng)估結(jié)果來看風(fēng)速模型、風(fēng)向模型預(yù)測(cè)結(jié)果通過不同的評(píng)估方法評(píng)估結(jié)果相比SCMOC均有提高,為內(nèi)蒙古智能網(wǎng)格預(yù)報(bào)提供技術(shù)支撐。
參考文獻(xiàn):
[1] ZHANG K,MU M,WANG Q.Identifying the sensitive area in adaptive observation for predicting the upstream Kuroshio transport variation in a 3-D ocean model [J].Science China(Earth Sciences),2017,60(5):866-875.
[2] 李莉,朱躍建.T213降水預(yù)報(bào)訂正系統(tǒng)的建立與研究 [J].應(yīng)用氣象學(xué)報(bào),2006(S1):130-134.
[3] 薛諶彬,陳嫻,張瑛,等.ECMWF高分辨率模式2m溫度預(yù)報(bào)誤差訂正方法研究 [J].氣象,2019,45(6):831-842.
[4] WEI C C. Study on Wind Simulations Using Deep Learning Techniques during Typhoons: A Case Study of Northern Taiwan [J/OL].Atmosphere,2019,10(11):684[2023-05-29].https://doi.org/10.3390/atmos10110684.
[5] 陳法敬,矯梅燕,陳靜.一種溫度集合預(yù)報(bào)產(chǎn)品釋用方法的初步研究 [J].氣象,2011,37(1):14-20.
[6] 劉大剛,李志華.大風(fēng)風(fēng)力預(yù)報(bào)準(zhǔn)確率的統(tǒng)計(jì)特征分析 [J].大連海事大學(xué)學(xué)報(bào),2003(4):47-49.
[7] 孫軍波,錢燕珍,陳佩燕,等.登陸臺(tái)風(fēng)站點(diǎn)大風(fēng)預(yù)報(bào)的人工神經(jīng)網(wǎng)絡(luò)方法 [J].氣象,2010,36(9):81-86.
[8] GERS F A,Schmidhuber J,Cummins F,et al. Learning to Forget: Continual Prediction with LSTM [J].Neural Computation,2000,12(10):2451-2471.
[9] CHEN T Q,Guestrin C.XGBoost: A Scalable Tree Boosting System [J/OL].arXiv:1603.02754 [cs.LG].[2023-05-29].https://arxiv.org/abs/1603.02754.
[10] FRIEDMAN J H.Greedy Function Approximation: A Gradient Boosting Machine [J].Annals of Statistics,2001,29(5):1189-1232.
[11] CHEN T Q,HE T,Benesty M,et al. xgboost: Extreme Gradient Boosting [EB/OL].https://cran.r-project.org/web/packages/xgboost/index.html.
作者簡(jiǎn)介:劉輝(1989.03—),男,漢族,陜西洛南人,工程師,本科,研究方向:氣象數(shù)據(jù)處理、衛(wèi)星數(shù)據(jù)遙感。