方鴻斌 王珊珊 王曉玲 譚江紅 魯禮炳
1 武漢中心氣象臺,武漢 430074 2 湖北省襄陽市氣象局,襄陽 441022 3 湖北省荊州市氣象局,荊州 434022
提 要:使用2017年9月至2021年3月國家級業(yè)務(wù)化運(yùn)行的智能網(wǎng)格實況分析產(chǎn)品和歐洲中期天氣預(yù)報中心全球模式(EC)產(chǎn)品,根據(jù)湖北省的地理分布特征構(gòu)建6個分區(qū),采用基于LightGBM機(jī)器學(xué)習(xí)算法建立的氣溫預(yù)報方法,生成湖北省0.05°×0.05°格點氣溫預(yù)報產(chǎn)品。利用2021年4—9月的預(yù)報產(chǎn)品和格點實況資料進(jìn)行檢驗,結(jié)果表明:基于機(jī)器學(xué)習(xí)的氣溫預(yù)報方法(MLT)取得了較好的預(yù)報效果,其在0~72 h時效內(nèi)優(yōu)于中央氣象臺下發(fā)的氣溫精細(xì)化指導(dǎo)預(yù)報(SCMOC)和EC產(chǎn)品;MLT在山區(qū)的誤差較平原大,但山區(qū)的訂正幅度大于平原,日最高氣溫的訂正幅度大于日最低氣溫的訂正幅度;4—9月MLT、SCMOC、EC產(chǎn)品的平均絕對誤差(MAE)日變化都呈現(xiàn)了白天偏高、夜間偏低、午后凸起的單峰特征,MLT的MAE值較SCMOC和EC產(chǎn)品的更低,并且在轉(zhuǎn)折性天氣中仍具有優(yōu)勢;站點檢驗與格點檢驗結(jié)論一致,基于格點建模的氣溫預(yù)報產(chǎn)品對站點預(yù)報同樣得到了訂正。機(jī)器學(xué)習(xí)在格點氣溫的模式訂正方面可以作為一個行之有效的手段。
氣溫的高分辨率格點預(yù)報是精細(xì)化預(yù)報業(yè)務(wù)中的一項重要工作,提高格點氣溫預(yù)報的準(zhǔn)確率是氣象預(yù)報業(yè)務(wù)智能化、客觀化的發(fā)展要求,是氣象工作“觀測精密、預(yù)報精準(zhǔn)、服務(wù)精細(xì)”目標(biāo)的內(nèi)在要求。近年來,在國內(nèi)外大力發(fā)展無縫隙精細(xì)化預(yù)報的背景下,我國的格點實況分析場產(chǎn)品也得到了長足的發(fā)展(師春香等,2019;俞劍蔚等,2019)。2017年7月國家級格點實況分析產(chǎn)品(CLDAS-V2.0),正式投入業(yè)務(wù)化運(yùn)行。與此同時,機(jī)器學(xué)習(xí)在氣象預(yù)報領(lǐng)域的應(yīng)用也正在蓬勃發(fā)展,國際上已經(jīng)有越來越多的機(jī)器學(xué)習(xí)方法應(yīng)用在天氣預(yù)報領(lǐng)域中(Haupt et al,2021; Kashinath et al,2021)。歐洲中期天氣預(yù)報中心在2021年初發(fā)布的未來十年發(fā)展規(guī)劃(Machine learning at ECMWF:A roadmap for the next 10-years,https:∥www.ecmwf.int/en/elibrary/81207-machine-learning-ecmwf-roadmap-next-10-years)中闡明了未來機(jī)器學(xué)習(xí)技術(shù)在其數(shù)值天氣預(yù)報流程中的重要性。我國學(xué)者在氣象領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)技術(shù)上也進(jìn)行了諸多探討和實踐(許小峰,2018;李揚(yáng)等,2021;周康輝等,2021a,楊絢等,2022)。通過預(yù)報員主觀手動訂正千米級分辨率的氣溫網(wǎng)格預(yù)報難以做到準(zhǔn)確高效,而利用高分辨率格點實況產(chǎn)品,通過機(jī)器學(xué)習(xí)算法訂正精細(xì)化的格點預(yù)報產(chǎn)品是未來的一大趨勢。
國內(nèi)常見的氣溫模式后處理訂正方法有模式輸出統(tǒng)計(MOS)、卡爾曼濾波、人工神經(jīng)網(wǎng)絡(luò)、站點訂正值向格點傳遞法、最優(yōu)集合預(yù)報訂正法、滑動平均和空間誤差綜合訂正技術(shù)、機(jī)器學(xué)習(xí)訂正方法等(潘留杰等,2017;雷彥森等,2018;郝翠等,2019;薛諶彬等,2019;門曉磊等,2019;任萍等,2020;陳昱文等,2020)。以上方法基本是針對站點的預(yù)報訂正,訂正后的2 m氣溫有不同程度的改進(jìn),但優(yōu)勢不夠突出?;诒镜貥I(yè)務(wù)基礎(chǔ)和天氣特點,也有多種后處理方法。如,吳啟樹等(2017)發(fā)展了最優(yōu)TS評分訂正算法,王建鵬等(2018)研發(fā)了動態(tài)交叉最優(yōu)要素預(yù)報方法,盛春巖等(2020)選擇最優(yōu)的數(shù)值預(yù)報產(chǎn)品,分析不同客觀釋用方法預(yù)報效果,研究適合的最優(yōu)集成預(yù)報方法,生成氣溫智能網(wǎng)格最優(yōu)集成預(yù)報產(chǎn)品。這些方法考慮了本地地理、氣候等特征以及模式偏差,但仍然沒能很好地解決實況分辨率粗的問題,并且方法復(fù)雜不易推廣,沒能充分利用數(shù)值模式環(huán)流預(yù)報較為準(zhǔn)確的優(yōu)勢,中高層物理量對氣溫的影響考慮不足。而針對氣溫預(yù)報,除了需要考慮天氣因子的影響外,地理特征、日變化的特征以及模式固有的偏差都是非常重要的。因此本文提出,結(jié)合地理特征、日變化特征、融合多種影響氣溫預(yù)報的物理因子及模式偏差,基于LightGBM(light gradient boosting machine)算法建立湖北省格點氣溫預(yù)報方法,將該方法生成的溫度預(yù)報產(chǎn)品命名為MLT(matching learning temperature)。
本文資料采用的是2017年9月至2021年9月28.9°~33.4°N、108.25°~116.25°E范圍的 EC模式數(shù)據(jù)、CLDAS-V2.0逐小時格點氣溫實況數(shù)據(jù)及中央氣象臺下發(fā)的氣溫格點預(yù)報產(chǎn)品(SCMOC)。EC模式數(shù)據(jù)時間分辨率為3 h,空間分辨率為0.125°×0.125°;格點氣溫實況的時間分辨率為1 h,空間分辨率為0.05°×0.05°(約5 km);SCMOC時間分辨率為1 h,空間分辨率為0.05°×0.05°。
本文采用線性插值方法分別在時間、空間上做了插值。提取逐小時格點實況數(shù)據(jù)與數(shù)值預(yù)報要素,并進(jìn)行時空對齊,去掉缺失、存在異常的樣本,形成機(jī)器學(xué)習(xí)樣本數(shù)據(jù)庫。為了使建模的特征因子更接近真實值,選取08時和20時起報的0~11 h時效EC模式預(yù)報產(chǎn)品作為樣本。本文采用的EC模式?jīng)]有24 h高溫、低溫產(chǎn)品,所以在檢驗時,采用的是由逐3 h高溫、低溫統(tǒng)計出來的24 h高溫、低溫?;跉夂虿町惡偷匦翁卣?對湖北省進(jìn)行地理分區(qū),6個分區(qū)示意圖如圖1。28.9°~33.4°N、108.25°~116.25°E范圍內(nèi)6個矩形塊分別為鄂西南、鄂中南(江漢平原南部)、鄂東南、鄂西北、鄂中北(江漢平原北部)、鄂東北。本文對數(shù)據(jù)進(jìn)行裁剪,應(yīng)用機(jī)器學(xué)習(xí)算法,針對6個分區(qū)分別建立預(yù)報模型。
圖1 湖北省6個分區(qū)示意圖
機(jī)器學(xué)習(xí)中,常見的算法是決策樹類(樹模型)。該算法具有可解釋性較強(qiáng),在天氣預(yù)報中的連續(xù)性變量(氣溫、濕度、氣壓)預(yù)報效果出色,不亞于深度學(xué)習(xí),具有訓(xùn)練更高效的特點(楊璐等,2021)。近年在樹模型算法中梯度提升算法 (gradient boosting decision tree,GBDT)較為流行,例如XGBoost(extreme gradient boosting)算法、LightGBM算法。LightGBM是一種基于梯度提升樹的機(jī)器學(xué)習(xí)方法,是2016年由微軟公司開發(fā)的一種比較快速的梯度提升框架,較XGBoost有明顯優(yōu)勢。LightGBM是對GBDT的高效實現(xiàn),原理上它和GBDT及XGBoost類似,都采用損失函數(shù)的負(fù)梯度作為當(dāng)前決策樹的殘差近似值,去擬合新的決策樹。XGBoost的不足在于,計算信息增益需要掃描所有樣本,從而找到最優(yōu)劃分點;在面對大量數(shù)據(jù)或者特征維度很高時,其效率和擴(kuò)展性很難使人滿意??紤]到本文采用的數(shù)據(jù)體量較大,訓(xùn)練樣本較多,而LightGBM利用了單邊梯度采樣算法和互斥特征綁定算法,能夠很好地解決上述問題(Ke et al,2017),因此本文選擇LightGBM機(jī)器學(xué)習(xí)算法。
機(jī)器學(xué)習(xí)模型的好壞需要建立在對天氣物理規(guī)律清晰、明確的認(rèn)識基礎(chǔ)之上(周康輝等,2021b)。正確的特征選擇可以降低機(jī)器學(xué)習(xí)任務(wù)的難度,減少計算和存儲開銷,同時優(yōu)化學(xué)習(xí)模型(孫全德等,2019;Pan et al,2019,Wang et al,2021)。因此,本文根據(jù)預(yù)報員經(jīng)驗初選出能夠反映氣團(tuán)冷暖、日照輻射、日變化等56種特征因子,通過機(jī)器學(xué)習(xí)(統(tǒng)計分析)特征重要性排序,綜合考慮硬件環(huán)境、業(yè)務(wù)運(yùn)行耗時及檢驗評估結(jié)果,進(jìn)一步篩選38個特征因子形成最優(yōu)因子集進(jìn)行建模。
構(gòu)建模型使用的要素主要有預(yù)報場的各層風(fēng)場、濕度場、溫度場、海平面氣壓場以及平均位勢高度(用500 hPa場代替)。本文選取的風(fēng)場數(shù)據(jù)層次包括10 m、925 hPa、850 hPa、700 hPa,一定程度上體現(xiàn)了影響某地的天氣系統(tǒng)。相對濕度,用于體現(xiàn)當(dāng)?shù)厣峡盏奶炜諣顩r以衡量輻射因子。氣溫方面,選取了1000~850 hPa氣溫,用以表征大氣的基本冷暖狀態(tài)。
相似的天氣特征,由于格點所處位置的不同,格點實況值往往有較大差異。因此構(gòu)建特征時,分別把6個分區(qū)的格點進(jìn)行編碼。每個分區(qū)有約2840個格點,每個分區(qū)用從0開始的正整數(shù),逐一將格點編碼,并在訓(xùn)練時把格點編碼作為類別特征。經(jīng)機(jī)器學(xué)習(xí)特征重要性排序,格點編碼排名第一,說明格點的位置是氣溫客觀預(yù)報應(yīng)該考慮的一個重要特征。此外,氣溫存在明顯的日變化特征,因此在逐小時的樣本中將小時作為特征之一,并且把小時作為類別變量。預(yù)報員做主觀預(yù)報時往往會考慮到模式近期預(yù)報的偏差,所以在24 h內(nèi)的預(yù)報建模當(dāng)中,使用過去5 d對應(yīng)時刻的氣溫預(yù)報偏差作為特征之一進(jìn)行建模。本文建模及預(yù)報流程如圖2。
圖2 機(jī)器學(xué)習(xí)氣溫預(yù)測流程圖
LightGBM將連續(xù)特征離散化成直方圖特征,減少了數(shù)據(jù)的存儲空間和計算復(fù)雜度;訓(xùn)練過程中通過高效的垂直并行化計算,提高了訓(xùn)練速度;通過設(shè)置類別變量參數(shù)(categorical_feature),選擇類別變量,基于類別特征值的最優(yōu)分割,對經(jīng)緯度編碼和小時特征設(shè)置為類別變量,較one-hot編碼更方便、高效,可以有效反映時空特征。
在硬件環(huán)境及時間允許范圍內(nèi)進(jìn)行個別關(guān)鍵參數(shù)的網(wǎng)格搜索,尋找最優(yōu)參數(shù),6個分區(qū)建模的關(guān)鍵參數(shù)保持一致,LightGBM建模關(guān)鍵參數(shù)的最優(yōu)值詳見表1。值得說明的是,迭代次數(shù)(num_iterations)設(shè)置為10 000,同時設(shè)置早停(earlystopping_rounds)參數(shù)為30,即如果一個驗證集的評估指標(biāo)在最近30次循環(huán)中沒有繼續(xù)改善(誤差降低或者準(zhǔn)確率提高),訓(xùn)練將提前停止訓(xùn)練,而不會進(jìn)行到第10 000次。6個分區(qū)雖然面積相差不大,但是由于迭代循環(huán)中,平原地區(qū)的誤差改進(jìn)小進(jìn)而迭代次數(shù)相對少,所以耗時短,山區(qū)則相反。機(jī)器學(xué)習(xí)訓(xùn)練調(diào)優(yōu)之后,保存一份含有最優(yōu)參數(shù)的模型,用來進(jìn)行預(yù)報?;跈C(jī)器學(xué)習(xí)的氣溫預(yù)報MLT從獲取EC模式數(shù)據(jù)到未來24 h的產(chǎn)品生成,可以在3 min內(nèi)完成。
表1 LihgtGBM建模關(guān)鍵參數(shù)的最優(yōu)值
智能網(wǎng)格檢驗業(yè)務(wù)相關(guān)要求使用平均絕對誤差(MAE)進(jìn)行氣溫預(yù)報性能對比。機(jī)器學(xué)習(xí)一般采用均方根誤差(RMSE)作為損失函數(shù)進(jìn)行回歸建模。分析氣溫預(yù)報偏高、偏低問題,通常使用平均誤差(ME);在對比多種產(chǎn)品的站點預(yù)報性能時,本文使用氣溫的預(yù)報準(zhǔn)確率。即本文共使用了4種檢驗方法,分別是ME、MAE、RMSE、氣溫預(yù)報準(zhǔn)確率。以上檢驗方法均是參照全國智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品檢驗評估辦法(2021版)。
利用2021年4—9月時間段的格點實況數(shù)據(jù)進(jìn)行檢驗,對比24、48、72 h時效MLT、SCMOC、EC預(yù)報產(chǎn)品的高溫、低溫預(yù)報在6個分區(qū)的MAE和RMSE(圖3)。由圖3a、3b可見,MLT低溫MAE在6個分區(qū)24~72 h時效預(yù)報誤差均在1℃左右,與EC相比,西部山區(qū)低溫訂正幅度較大,平原地區(qū)訂正幅度略小。MLT低溫在6個分區(qū)的RMSE均在1℃左右,與MAE相差不大,由于RMSE對誤差的反映更敏感,也證明了MLT低溫較接近于實況。由圖3c、3d可見,MLT高溫與EC預(yù)報產(chǎn)品相比,西部山區(qū)高溫訂正幅度較大,平原地區(qū)訂正幅度略小。SCMOC高溫24 h預(yù)報較EC預(yù)報產(chǎn)品有正訂正,隨著時效的延長,訂正幅度降低。MLT高溫在6個分區(qū)的RMSE,明顯低于EC和SCMOC預(yù)報產(chǎn)品的相應(yīng)數(shù)值,且與MAE相差不大。綜合分析表明,MLT高溫、低溫的預(yù)報效果優(yōu)于SCOMC與EC預(yù)報產(chǎn)品,預(yù)報誤差較小且較穩(wěn)定。
圖3 2021年4—9月08時起報的24 h、48 h、72 h時效MLT、SCMOC、EC(a,c)日最低氣溫和(b,d)日最高氣溫預(yù)報產(chǎn)品在湖北省6個分區(qū)的(a,b)平均絕對誤差和(c,d)均方根誤差
圖4、圖5分別展示了湖北省區(qū)域內(nèi)MLT、SCMOC和EC高溫、低溫預(yù)報產(chǎn)品的MAE空間分布對比。EC預(yù)報產(chǎn)品高溫較大的MAE除位于鄂西山區(qū)外,鄂東北的大別山區(qū)和鄂東南的幕府山區(qū)也有兩個小中心。從SCMOC和MLT高溫預(yù)報產(chǎn)品的訂正效果看,SCMOC在平原地區(qū)24 h訂正較好,MAE基本在1.5℃以下,但是鄂西山區(qū)和大別山、幕府山一帶訂正效果不明顯。SCMOC在48 h和72 h對山區(qū)和平原的訂正效果均不明顯。MLT在山區(qū)有明顯的訂正效果,24~48 h西部山區(qū)的MAE在2℃以下,72 h的MAE有所增大,但是比EC預(yù)報產(chǎn)品低0.4~0.5℃,比SCMOC低0.1~0.3℃。綜上所述,MLT對EC高溫、低溫預(yù)報產(chǎn)品有較好的訂正效果,與SCMOC相比,MLT高低溫的偏差也有一定的降低,特別是西部山區(qū)降低的幅度更大。
圖4 2021年4—9月08時起報的24 h、48 h和72 h時效MLT、SCMOC、EC日最低氣溫預(yù)報產(chǎn)品的平均絕對誤差
圖5 2021年4—9月08時起報的24 h、48 h和72 h時效MLT、SCMOC、EC日最高氣溫預(yù)報產(chǎn)品的平均絕對誤差
對比SCMOC和MLT的方法,可以發(fā)現(xiàn)SCMOC主要基于CMA-GFS模式為基礎(chǔ),采用格點化MOS方法(韋青等,2020;趙聲蓉等,2012),其主要思路和MLT的方法是一致的,都是通過選取最優(yōu)的要素,利用回歸的方法建立氣溫預(yù)報方法,但是在回歸方法、要素和建模方案上存在一定的差別。SCMOC產(chǎn)品輸出的是全國的氣溫,相較MLT不夠精細(xì),雖然鄂西北和鄂西南都是山區(qū),但是氣溫變化規(guī)律不同,鄂西北升溫和降溫幅度都很大,而鄂西南一般云系多,夜間氣溫降幅小,因此精細(xì)的分區(qū)有利于找到更準(zhǔn)確的地域規(guī)律。另外MLT是直接利用格點氣溫實況建模,而SCMOC是先利用MOS建模得到城鎮(zhèn)站點預(yù)報結(jié)果,再通過插值得到格點預(yù)報(金榮花等,2019),即MLT減少了中間環(huán)節(jié),更接近于格點實況。
對比2021年4—9月08 時起報的SCMOC、EC預(yù)報產(chǎn)品24 h逐小時整點氣溫預(yù)報的MAE日變化特征(圖6),可以發(fā)現(xiàn)24 h時效內(nèi)三種預(yù)報產(chǎn)品的逐小時平均絕對誤差在白天較大,夜間較小;誤差最大出現(xiàn)在7 h、8 h時效,誤差最小出現(xiàn)在23 h時效左右。圖6a、6d分別為鄂西南與鄂西北的氣溫誤差日變化特征,可以看出湖北西部高海拔山地區(qū)域逐小時平均絕對誤差較其他地區(qū)大,15 時和16時的氣溫誤差最大;平原地區(qū)占比較多的地區(qū)(圖6b、6c、6e、6f),逐小時MAE較小;三種預(yù)報產(chǎn)品在6個分區(qū)表現(xiàn)出了一致的誤差日變化特征,即同時段山區(qū)誤差較大,同地區(qū)每個時段MLT的預(yù)報效果都是最好的。20 時起報的產(chǎn)品(圖7)也有類似的這種日變化特征,高溫時段誤差較大。
圖6 2021年4—9月08時起報的24 h時效MLT、SCMOC、EC逐小時整點氣溫預(yù)報產(chǎn)品在湖北省6個分區(qū)的平均絕對誤差
圖7 2021年4—9月20時起報的24 h時效MLT、SCMOC、EC逐小時整點氣溫預(yù)報產(chǎn)品在湖北省6個分區(qū)的平均絕對誤差
結(jié)合圖6、圖7對不同分區(qū)整點氣溫的MAE日變化分析可以看出,SCMOC在平原地區(qū)低溫預(yù)報誤差較小,但山區(qū)誤差仍較大,而MLT低溫在平原和山區(qū)都較小。在24 h時效內(nèi),EC 對白天的氣溫預(yù)報誤差明顯偏大(1~3℃),尤其是中午至下午時段,鄂西山區(qū)更為突出(1.5~3.0℃);SCMOC對白天的氣溫有一定的正訂正效果,但對夜間氣溫卻是負(fù)效果;MLT對白天、夜間的氣溫都有明顯的訂正效果,尤其是對山區(qū)白天的氣溫訂正幅度更大。
以湖北經(jīng)緯度范圍內(nèi)的171個站實況作為真值,檢驗MLT、SCMOC在2021年4月1日至9月30日的逐小時氣溫。由圖8可見,SCMOC小時氣溫的MAE和ME明顯高于MLT(圖8a、8b);SCMOC在湖北地區(qū)的氣溫預(yù)報東部偏高,西部偏低;SCMOC、MLT的準(zhǔn)確率分別是77%、84%,MLT較SCMOC提高了7%(圖8e)。站點的空間誤差檢驗表明:SCMOC、MLT在東部平原地區(qū)的預(yù)報較西部山區(qū)更好,同時MLT在西部山區(qū)的預(yù)報結(jié)果比SCMOC更有優(yōu)勢,該結(jié)論與格點檢驗的結(jié)論一致。
注:各圓點以相應(yīng)站點數(shù)值為半徑;設(shè)置時以批量站點數(shù)據(jù)的平均值為基準(zhǔn),當(dāng)某站點數(shù)值超出或小于基準(zhǔn)時,則以其絕對值為半徑,以凸顯偏差情況。
對比分析逐小時整點氣溫預(yù)報的日變化特征(圖9)。EC、SCMOC和MLT的準(zhǔn)確率都存在單低谷的日變化特征,即在14—17時出現(xiàn)準(zhǔn)確率低谷值。上述時段大致為汛期最高溫的出現(xiàn)時間,氣溫起伏較大,導(dǎo)致預(yù)報準(zhǔn)確率較低。MLT在站點逐小時整點預(yù)報中每一個觀測時間預(yù)報準(zhǔn)確率都高于SCMOC,這與格點的平均絕對誤差日變化結(jié)論保持一致。形成上述檢驗結(jié)果的原因可能是:汛期白天氣溫變化幅度較大,高溫出現(xiàn)時段三種產(chǎn)品的預(yù)報誤差較大,所以在14—17時出現(xiàn)準(zhǔn)確率低谷值;而MLT建模時是逐1 h作為一個樣本,以小時為單位將時間作為類別變量建模,可以有效學(xué)習(xí)到氣溫日變化。
圖9 2021年4—9月湖北省各站點整點氣溫預(yù)報準(zhǔn)確率
該算法目前已經(jīng)在業(yè)務(wù)中實時運(yùn)行,本文雖然沒有將常規(guī)天氣和轉(zhuǎn)折天氣分開建模,但是由于模型在訓(xùn)練的過程中充分考慮了各層的濕度,可以理解為考慮了云的情況,所以該產(chǎn)品在轉(zhuǎn)折天氣中仍有較好的表現(xiàn)。2021年4—9月的檢驗結(jié)果表明,MLT的24 h高溫預(yù)報準(zhǔn)確率優(yōu)于EC和SCMOC;同時,其在晴雨轉(zhuǎn)換天氣中也有較好表現(xiàn)。
以2021年4月7日為例,湖北省自西向東出現(xiàn)了降雨,SCMOC的高溫預(yù)報比實況偏高,準(zhǔn)確率僅為56.7%,MLT的準(zhǔn)確率達(dá)到96.1%。圖10a、10b分別為MLT和SCMOC的高溫預(yù)報MAE,SCMOC為2.09℃,MLT則為0.69℃,即MLT比SCMOC的MAE降低了1.40℃,預(yù)報結(jié)果更接近實況。2021年4月12日過程,是一次雨轉(zhuǎn)晴的過程,SCMOC的高溫預(yù)報比實況偏低,準(zhǔn)確率為52.3%,MAE為2.19℃(圖10d),MLT的高溫預(yù)報也偏低,但是偏低的幅度要小于SCMOC,MAE為0.95℃(圖10c),即MLT比SCMOC的MAE降低了1.24℃,準(zhǔn)確率也達(dá)到89.2%。
圖10 2021年4月(a,b)6日20時,(c,d)11日20時起報的24 h時效(a,c)MLT和(b,d)SCMOC格點日最高氣溫平均絕對誤差
本文建立了一種基于機(jī)器學(xué)習(xí)的氣溫預(yù)報方法(MLT),應(yīng)用于湖北地區(qū),并與SCMOC和EC模式的預(yù)報產(chǎn)品進(jìn)行了對比檢驗。主要有以下結(jié)論:
(1)通過格點氣溫實況產(chǎn)品和主客觀篩選的30多個特征量,利用LightGBM方法建立的格點氣溫預(yù)報方法,可以提供時間分辨率為1 h、空間分辨率為0.05°×0.05°的氣溫預(yù)報產(chǎn)品。在0~72 h時效內(nèi)MLT的MAE、RMSE較SCMOC與EC的低。
(2)MLT在山區(qū)的誤差較平原大,但山區(qū)的訂正幅度大于平原,日最高溫的訂正幅度大于日最低溫。RMSE比MAE略大,但誤差分布是一致的。在模型中設(shè)置格點編碼和小時特征為類別變量,較好地分別反映了格點氣溫的地理特征和日變化特征。
(3)MLT以站點為真值檢驗,仍然有很好的預(yù)報效果。這說明應(yīng)用機(jī)器學(xué)習(xí)基于格點實況建模的格點氣溫預(yù)報產(chǎn)品對站點預(yù)報同樣有訂正作用。
(4)2021年4—9月MLT、SCMOC、EC 的MAE日變化都呈現(xiàn)了白天偏高、夜間偏低,午后凸起的單峰特征,MLT不僅在湖北全省累計平均誤差較低,在單時次、單區(qū)域的平均誤差較SCMOC、EC仍較低,并且在轉(zhuǎn)折性天氣中仍具有優(yōu)勢。檢驗結(jié)果表明,MLT在湖北的氣溫預(yù)報準(zhǔn)確率優(yōu)于EC和SCMOC。
由此可見,機(jī)器學(xué)習(xí)在格點氣溫的模式訂正方面可以作為一個行之有效的手段。本文運(yùn)用的機(jī)器學(xué)習(xí)方法對EC氣溫預(yù)報模式訂正表現(xiàn)出了較好的效果,對其他模式或其他要素預(yù)報訂正仍具有很大的潛力。未來可以在天氣學(xué)的物理意義指導(dǎo)下進(jìn)行更精細(xì)的數(shù)據(jù)處理、特征工程,應(yīng)可挖掘出更多的可訂正的時空誤差信息,進(jìn)而達(dá)到更好的預(yù)報效果。