劉 峻,高 珊,2
(1.廣西大學(xué)計算機(jī)與電子信息學(xué)院,廣西 南寧 530004;2.廣西壯族自治區(qū)氣象服務(wù)中心,廣西 南寧530022)
臺風(fēng)是在溫帶洋面上生成和發(fā)展的熱帶天氣系統(tǒng),引發(fā)的次生災(zāi)害具有極大的破壞性。準(zhǔn)確估算臺風(fēng)強(qiáng)度是臺風(fēng)預(yù)報和災(zāi)害預(yù)警中極為關(guān)鍵的問題,可以為防災(zāi)部門提供有效的信息支持,大大減少生命和財產(chǎn)的損失。
目前,世界上對臺風(fēng)強(qiáng)度預(yù)測仍處于探索研究階段,隨著機(jī)器學(xué)習(xí)在各行業(yè)的應(yīng)用逐漸深入,氣象領(lǐng)域的研究人員開始嘗試將機(jī)器學(xué)習(xí)算法應(yīng)用于天氣預(yù)報領(lǐng)域。自從Knaff等人于2002年開發(fā)了第一版 “統(tǒng)計臺風(fēng)強(qiáng)度預(yù)報方案” (STIPS)以來,研究人員相繼提出了基于人工神經(jīng)網(wǎng)絡(luò)、徑向基函數(shù)網(wǎng)絡(luò)(RBFN)、多層感知器(MLP)、統(tǒng)計多元線性和普通線性回歸等模型的方案對臺風(fēng)強(qiáng)度進(jìn)行預(yù)測。Jin等[1]認(rèn)為臺風(fēng)強(qiáng)度的變化受包括海洋熱量、垂直風(fēng)切變和下墊面變化等許多因素的影響,極端梯度提升算法XGBoost算法可以挖掘、處理多個維度因素,進(jìn)行多因素預(yù)測,因而基于XGBoost模型和風(fēng)云衛(wèi)星影像估算南海熱帶氣旋強(qiáng)度。而Yuan等[2]考慮到影響臺風(fēng)強(qiáng)度的變化因素多呈非線性特征,且往往具有時間相關(guān)性,因此采用LSTM模型將臺風(fēng)強(qiáng)度預(yù)報作為時間序列問題進(jìn)行研究。這些方法在機(jī)器學(xué)習(xí)應(yīng)用到臺風(fēng)強(qiáng)度預(yù)測方面進(jìn)行了有益嘗試,取得了較好的結(jié)果,但仍存在預(yù)測誤差率不夠高、特征提取復(fù)雜等問題。
考慮到XGBoost具有較高的預(yù)測精度、良好的擬合和泛化能力等優(yōu)點,LSTM擅長處理時間序列問題,以及XGBoost樹模型和LSTM神經(jīng)網(wǎng)絡(luò)模型的方法原理不同,兩者進(jìn)行方法組合,產(chǎn)生的結(jié)果相關(guān)性較低,有利于提高預(yù)測的準(zhǔn)確性。因此本文基于XGBoost和LSTM對臺風(fēng)強(qiáng)度進(jìn)行組合建模和預(yù)測,將其預(yù)測結(jié)果與單機(jī)器學(xué)習(xí)模型XGBoost和LSTM進(jìn)行對比,以研究這些機(jī)器學(xué)習(xí)方法在臺風(fēng)預(yù)報與監(jiān)測中的應(yīng)用。
極度梯度提升算法(eXtreme Gradient Boosting,XGBoost)[1]是一種Boosting集成學(xué)習(xí)方法,通過不斷形成新的決策樹來擬合上一步預(yù)測的殘差,逐步縮減真實值與預(yù)測值之間殘差,以達(dá)到準(zhǔn)確分類的效果,十分適合作為臺風(fēng)強(qiáng)度預(yù)測的分類模型。
而長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)[2]是一種時間循環(huán)神經(jīng)網(wǎng)絡(luò),是為了解決一般的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN存在的長期依賴問題而專門設(shè)計出來的,適于對與時間相關(guān)的臺風(fēng)強(qiáng)度影響因素進(jìn)行建模。
本文將XGBoost和LSTM模型組合在一起,進(jìn)行臺風(fēng)強(qiáng)度預(yù)測實驗。預(yù)測模型使用當(dāng)前時間和提前不同時間的臺風(fēng)強(qiáng)度、位置和移動速度等數(shù)據(jù)來共同預(yù)測下一個時間點的臺風(fēng)強(qiáng)度。該過程可以獲得提前6,12,24小時等預(yù)報時間的臺風(fēng)強(qiáng)度數(shù)據(jù)。
組合模型預(yù)測流程為:首先對臺風(fēng)原始數(shù)據(jù)集進(jìn)行預(yù)處理,提取出氣候、環(huán)境、歷史數(shù)據(jù)等特征;然后將這些特征輸入LSTM模型中進(jìn)行訓(xùn)練,得到LSTM模型的初步預(yù)測值;再次,將LSTM模型的初步預(yù)測值作為一個新的特征,與原始數(shù)據(jù)集經(jīng)過預(yù)處理得到的其他氣候、環(huán)境、歷史數(shù)據(jù)特征一起構(gòu)成一個新的數(shù)據(jù)集,將其輸入XGBoost模型中進(jìn)行訓(xùn)練和預(yù)測,得到最終的預(yù)測值。
本文構(gòu)建的XGBoost+LSTM預(yù)測模型的輸入數(shù)據(jù)集,不但包含了對臺風(fēng)原始數(shù)據(jù)集進(jìn)行預(yù)處理而提取出的氣候、環(huán)境、歷史數(shù)據(jù)等特征參數(shù),還包括了經(jīng)過LSTM模型處理得到的初步預(yù)測值作為另一維度特征參數(shù)。兩種特征參數(shù)一起作為XGBoost臺風(fēng)強(qiáng)度預(yù)測模型的輸入,參加臺風(fēng)強(qiáng)度的預(yù)測過程。這一方式主要是利用XGBoost模型和LSTM模型結(jié)構(gòu)上的差異,充分發(fā)揮兩個模型各自的優(yōu)勢,降低模型過擬合的風(fēng)險,提高臺風(fēng)強(qiáng)度的預(yù)測精度。預(yù)測模型流程如圖1所示。
圖1 XGBoost+LSTM臺風(fēng)強(qiáng)度預(yù)測模型流程
本文XGBoost臺風(fēng)強(qiáng)度預(yù)測模型使用的數(shù)據(jù)來自廣西壯族自治區(qū)氣象局及中央氣象臺臺風(fēng)網(wǎng)(http://typhoon.nmc.cn/web.html)。臺風(fēng)強(qiáng)度根據(jù)中國氣象局發(fā)布的《關(guān)于實施<熱帶氣旋等級>國家標(biāo)準(zhǔn)(GB/T 19201—2006)的通知》[3](氣發(fā)〔2006〕154號)中的標(biāo)準(zhǔn)進(jìn)行劃分,熱帶氣旋底層中心附近最大平均風(fēng)速達(dá)到10.8~17.1 m/s(風(fēng)力6~7級)為熱帶低壓,達(dá)到17.2~24.4 m/s(風(fēng)力8~9級)為熱帶風(fēng)暴,達(dá)到24.5~32.6 m/s(風(fēng)力10~11級)為強(qiáng)熱帶風(fēng)暴,達(dá)到32.7~41.4 m/s(風(fēng)力12~13級)為臺風(fēng),達(dá)到41.5~50.9 m/s(風(fēng)力14~15級)為強(qiáng)臺風(fēng),達(dá)到或大于51.0 m/s(風(fēng)力16級或以上)為超強(qiáng)臺風(fēng)。
為了驗證臺風(fēng)強(qiáng)度預(yù)測模型性能,本文使用平均絕對誤差MAE指標(biāo)對模型進(jìn)行評估。由于臺風(fēng)強(qiáng)度一般認(rèn)為由底層中心附近最大平均風(fēng)速決定,因此本文主要對臺風(fēng)不同階段的風(fēng)速進(jìn)行驗證對比。本文將基于XGBoost和LSTM組合的臺風(fēng)強(qiáng)度預(yù)測模型的結(jié)果誤差與單獨基于LSTM和XGBoost的臺風(fēng)強(qiáng)度預(yù)測模型的結(jié)果誤差進(jìn)行了對比分析,并選取提前6小時和提前24小時的預(yù)測誤差,如圖2—3所示。
在提前6小時預(yù)報中,組合模型對于所有臺風(fēng)強(qiáng)度級別的預(yù)測的平均絕對誤差(MAE)均小于單一模型的平均絕對誤差,尤其在強(qiáng)臺風(fēng)以下的級別預(yù)報中,組合模型的MAE誤差值一直保持在5以下,LSTM模型和XGBoost模型的MAE誤差值則一直隨著臺風(fēng)強(qiáng)度級別的增強(qiáng)而不斷上升。
在提前24小時的預(yù)報中,組合模型明顯更適合熱帶低氣壓、臺風(fēng)和強(qiáng)臺風(fēng)等級的預(yù)報,而LSTM模型對熱帶風(fēng)暴、強(qiáng)熱帶風(fēng)暴和超強(qiáng)臺風(fēng)等級的預(yù)報誤差更低一些。
由圖2—3可以看出,在預(yù)報提前時間小于24小時的預(yù)報中,LSTM模型更適合預(yù)報提前時間量偏長的超強(qiáng)臺風(fēng)級別的預(yù)測,而XGBboost+LSTM組合模型更適合預(yù)報提前時間量偏短的臺風(fēng)級別預(yù)測,且適用性更廣。因此,在進(jìn)行臺風(fēng)強(qiáng)度預(yù)報時,可以根據(jù)不同時間階段和不同臺風(fēng)強(qiáng)度等級,采用不同模型進(jìn)行預(yù)測,這樣更能發(fā)揮各自模型算法的優(yōu)勢。
圖2 單一模型和組合模型提前6小時預(yù)報不同強(qiáng)度臺風(fēng)的誤差
圖3 單一模型和組合模型提前24小時預(yù)報不同臺風(fēng)強(qiáng)度的誤差
本文對比分析了基于XGBoost和LSTM的臺風(fēng)強(qiáng)度預(yù)測模型,經(jīng)過多輪迭代訓(xùn)練,優(yōu)化相應(yīng)超參數(shù),構(gòu)建相應(yīng)深度神經(jīng)網(wǎng)絡(luò)對臺風(fēng)強(qiáng)度進(jìn)行了分析和預(yù)測。實驗結(jié)果表明,在不同時間階段和不同臺風(fēng)強(qiáng)度等級的預(yù)測中,模型的正確選擇有利于降低預(yù)測的誤差??傮w而言,與XGBoost和LSTM單機(jī)器學(xué)習(xí)模型相比,由于XGBoost和LSTM組合模型不僅考慮了影響臺風(fēng)強(qiáng)度的因素的時間序列特征,同時又兼顧了這些因素的非線性特征。因此,組合模型的預(yù)測誤差相對更小,穩(wěn)定性也更強(qiáng),更適用于臺風(fēng)強(qiáng)度預(yù)測。今后,筆者將進(jìn)一步擴(kuò)大樣本數(shù)量,優(yōu)化模型的預(yù)測效果,以期將該臺風(fēng)強(qiáng)度預(yù)測模型真正應(yīng)用于實際。