池 欽
基于隨機(jī)森林的降雨預(yù)報(bào)季節(jié)性分析
池 欽
(安徽理工大學(xué)空間信息與測(cè)繪工程學(xué)院,安徽 淮南 232001)
全球?qū)Ш叫l(wèi)星系統(tǒng)(Global Navigation Satellite Systems,GNSS)能夠以高精度和高時(shí)間分辨率有效地反演大氣可降水量(precipitable water vapor,PWV)。GNSS衍生的PWV可用于反映強(qiáng)對(duì)流天氣過(guò)程中的水汽變化。通過(guò)研究PWV、氣象參數(shù)與降雨的相關(guān)系可以幫助研究人員利用隨機(jī)森林模型進(jìn)行降雨預(yù)報(bào)。但缺少測(cè)站位置的氣象參數(shù)限制了PWV的進(jìn)一步應(yīng)用。因此,文章利用GPT3模型得到經(jīng)驗(yàn)氣象參數(shù)幫助GNSS反演PWV,并利用wuh2測(cè)站建立隨機(jī)森林降雨預(yù)報(bào)模型,研究季節(jié)性對(duì)預(yù)報(bào)效果的影響。結(jié)果表明,在7月—9月的預(yù)報(bào)效果是最好的,達(dá)到了93%以上,1月—3月的效果是最差的,但也在75%以上。在今后的研究中,可以針對(duì)不同季度改變建模策略,來(lái)提高預(yù)報(bào)的精度。
GPT3;隨機(jī)森林;PWV;短臨降雨;季節(jié)性
GNSS信號(hào)在穿過(guò)對(duì)流層時(shí)會(huì)發(fā)生延遲和彎曲,這個(gè)誤差在天頂方向被定義為天頂對(duì)流層延遲(Zenith tropospheric delay,ZTD)。利用GNSS獲取ZTD反演PWV具有高精度和低成本等優(yōu)勢(shì),能廣泛應(yīng)用于氣象研究。但缺少測(cè)站位置的氣象參數(shù)時(shí),工作人員很難獲得高精度的PWV,因此本文利用最新的GPT3模型得到測(cè)站位置的氣象參數(shù),反演計(jì)算測(cè)站上空的PWV。
已經(jīng)有眾多學(xué)者對(duì)PWV的降雨預(yù)報(bào)性能進(jìn)行研究。施闖等[1]研究了中國(guó)中南半島區(qū)域的大氣水汽在地理位置、季節(jié)性上的周期特征以及大氣水汽含量同降雨的相關(guān)性;王勇等[2]利用小波變換的方法,對(duì)重構(gòu)后的PWV和氣象參數(shù)數(shù)據(jù)分析相關(guān)性;李黎等[3]進(jìn)一步利用小波變換方法對(duì)PWV分解后的數(shù)據(jù)同暴雨信息聯(lián)系分析,探究暴雨發(fā)生時(shí)的異常點(diǎn);Wang H、Shou K J、Li G等[4-6]研究實(shí)驗(yàn)結(jié)果表明基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的降雨預(yù)報(bào)模型比傳統(tǒng)的統(tǒng)計(jì)方法更能發(fā)掘數(shù)據(jù)的潛在聯(lián)系,從而準(zhǔn)確預(yù)測(cè)出降雨情況。因此本文研究當(dāng)?shù)貧庀笳精@取的氣象參數(shù)、PWV與降雨的相關(guān)性并利用隨機(jī)森林模型研究季節(jié)性對(duì)預(yù)報(bào)效果的影響。
Landskron和bohm提出的GPT3(Development of Global Pressure and T emperature)模型是GPT系列的最新版本。GPT3模型可以輸出壓力、溫度、溫度遞減率、大氣加權(quán)平均溫度、水氣壓、干濕延遲映射函數(shù)系數(shù)、水汽遞減率、大地水準(zhǔn)面波動(dòng)、干濕延遲東北梯度等一系列共計(jì)13個(gè)參數(shù),這一組氣象量包含平均值、年和半年振幅,可應(yīng)用于一系列的大地測(cè)量、氣象和氣候等方面。這些氣象參數(shù)分局ERA-Interim區(qū)域的月平均氣壓水平數(shù)據(jù)計(jì)算,并以全球分辨率為1°×1°格網(wǎng)數(shù)據(jù)導(dǎo)出。通過(guò)GPT3模型的公式計(jì)算大氣壓力(Atmospheric pressure,P)和大氣加權(quán)平均溫度(Weighted average temperature of the atmosphere,Tm):
ZTD由天頂靜力延遲(Zenith hydrostatic delay,簡(jiǎn)稱(chēng)ZHD)和天頂濕延遲(Zenith wet delay,ZWD):
Saastamoinent模型已被廣泛用于ZHD的計(jì)算,公式如下:
ZWD是大氣中的水蒸氣在非靜態(tài)平衡狀態(tài)下引起的。一般采用經(jīng)驗(yàn)?zāi)P秃虶NSS站的氣象參數(shù)獲得ZHD,然后從ZTD中推導(dǎo)ZHD,得到ZWD。
ZWD和PWV之間的線性關(guān)系可以表示為:
隨機(jī)森林模型是一個(gè)集成模型,通過(guò)使用訓(xùn)練樣本子集來(lái)生成多組決策樹(shù)聯(lián)合進(jìn)行預(yù)測(cè)。每個(gè)決策樹(shù)都是獨(dú)立生成的,沒(méi)有任何剪枝,每個(gè)節(jié)點(diǎn)使用用戶定義的特征數(shù)量進(jìn)行分割,隨機(jī)選擇。
通過(guò)將決策樹(shù)數(shù)量增長(zhǎng)到訓(xùn)練模型定義的一個(gè)量,使該模型具有高方差和低偏差的樹(shù)的效果。最終通過(guò)對(duì)所有生成樹(shù)計(jì)算出的類(lèi)別分配概率利用算數(shù)平均值來(lái)進(jìn)行分類(lèi)決策。當(dāng)我們輸入一個(gè)新的沒(méi)有標(biāo)簽的數(shù)據(jù)后,將根據(jù)集合中創(chuàng)建的所有決策樹(shù)進(jìn)行評(píng)估,并且每個(gè)樹(shù)投票選擇一個(gè)類(lèi)成員。得票最多的分類(lèi)將是最終被選中的分類(lèi),隨機(jī)森林概念圖如圖1所示。
圖1 隨機(jī)森林概念圖
這些數(shù)據(jù)來(lái)源于IGS提供的提供的GNSS數(shù)據(jù)和對(duì)流層延遲產(chǎn)品和rp5.ru網(wǎng)站提供的氣象數(shù)據(jù)。收集wuh2站一年的觀測(cè)數(shù)據(jù)和對(duì)流層延遲產(chǎn)品和來(lái)自武漢57494氣象站一年的氣象數(shù)據(jù)。收集到的GNSS數(shù)據(jù)和氣象數(shù)據(jù)的特征變量是:以毫米為單位的對(duì)流層延遲(ZTD);以毫米為單位的每三小時(shí)降雨量;以兆帕為單位的氣壓(P);以華氏度為單位的溫度(T);以華氏度為單位的露點(diǎn)溫度(DPT);以百分比為單位的相對(duì)濕度(RH)。通過(guò)轉(zhuǎn)換公式計(jì)算的數(shù)據(jù)是以毫米為單位的大氣可降水量(PWV)。
特征向量之間的單位并不統(tǒng)一,為了更加直觀的展示特征向量之間的關(guān)系,首先使用z-score標(biāo)準(zhǔn)化的方法,將數(shù)據(jù)通過(guò)處理規(guī)劃均值為0,標(biāo)準(zhǔn)差為1的大小。計(jì)算公式如式(6)所示:
圖2展示了數(shù)值特征之間的關(guān)系。氣溫和露點(diǎn)溫度、對(duì)流層延遲和大氣可降水量是兩組具有明顯線性正相關(guān)性的特征,相關(guān)性達(dá)到了0.9以上。露點(diǎn)溫度和氣壓是具有明顯線性負(fù)相關(guān)性的特征,相關(guān)性達(dá)到了-0.9。溫度、露點(diǎn)溫度和對(duì)流層延遲、大氣可降水量這四組數(shù)據(jù)具有一定程度的正相關(guān)性,達(dá)到了0.6以上。氣壓和對(duì)流層延遲、溫度、大氣可降水量這三組數(shù)據(jù)具有一定程度的負(fù)相關(guān)性,達(dá)到了-0.6以下。其他數(shù)據(jù)組之間表現(xiàn)出了弱相關(guān)性,因此通過(guò)分析多特征向量的非線性關(guān)系達(dá)到降雨預(yù)報(bào)的目的是有必要的。
圖2 PWV與氣象參數(shù)相關(guān)性分析
GNSS測(cè)站一般不設(shè)專(zhuān)用氣象測(cè)量裝置,自身采集的氣象數(shù)據(jù)精度不高,也會(huì)遇到缺少數(shù)據(jù)的情況,而氣象站57494距離GNSS測(cè)站40 km左右,利用氣象站的采集數(shù)據(jù)應(yīng)用到GNSS測(cè)站的PWV計(jì)算當(dāng)中誤差較大,因此計(jì)劃采用GPT3模型計(jì)算測(cè)站位置的Tm和P。首先利用GAMIT處理GNSS數(shù)據(jù)得到ZTD,通過(guò)Saastamoinent模型計(jì)算ZHD,經(jīng)過(guò)式(4)得到ZWD,最后經(jīng)過(guò)式(5)得到測(cè)站上空的PWV,公式中用到的Tm和P來(lái)自GPT3模型的計(jì)算結(jié)果。
根據(jù)季節(jié)性特點(diǎn)將時(shí)間劃分為四組,分別對(duì)應(yīng)1月—3月、4月—6月、7月—9月和10月—12月,將每組的前兩個(gè)月作為訓(xùn)練集,探究降雨預(yù)報(bào)模型的在季節(jié)性方面的影響。將PWV和氣象站獲取的氣象參數(shù)組合特征向量(ZTD、P、T、DPT、RH、PWV和降水)輸入隨機(jī)森林模型,確定隨機(jī)森林模型的分類(lèi)標(biāo)準(zhǔn)為Gini系數(shù),通過(guò)網(wǎng)格搜索和交叉驗(yàn)證方法對(duì)隨機(jī)森林模型的最大特征數(shù)、決策樹(shù)最大深度、內(nèi)部節(jié)點(diǎn)再劃分最小樣本數(shù)、葉子結(jié)點(diǎn)最少樣本數(shù)和最大迭代次數(shù)五個(gè)參數(shù)進(jìn)行調(diào)優(yōu)。通過(guò)對(duì)每組前兩個(gè)月的訓(xùn)練,將3月、6月、9月和12月作為測(cè)試集進(jìn)行未來(lái)3小時(shí)的降雨預(yù)報(bào)測(cè)試。
準(zhǔn)確率(Accuracy)、精確率(Precision)和假負(fù)率(False Negative Rate,簡(jiǎn)稱(chēng)FNR)是衡量分類(lèi)器性能的指標(biāo),分別表示分類(lèi)器的整體準(zhǔn)確率、成功預(yù)報(bào)降雨的正確率和沒(méi)有成功預(yù)報(bào)降雨的錯(cuò)誤率。
圖3和表1展示了wuh2站四個(gè)季節(jié)性分組的降雨預(yù)報(bào)結(jié)果。可以從圖中清晰地看到在準(zhǔn)確性方面四個(gè)分組是逐級(jí)遞增的,10月—12月的整體預(yù)報(bào)性能是最好的,達(dá)到了96.7%;精確性方面,4月—6月和7月—9月兩組都達(dá)到了90%以上,其中7月—9月這組是最高的,達(dá)到了93.27%,其次是10月—12月這組也預(yù)報(bào)到了84.62%的降雨情況;假負(fù)率方面,7月—9月這組是最低的,達(dá)到了6.73%,證明這段時(shí)間內(nèi)的降雨被誤報(bào)的情況很少,10月—12月和4月—6月這兩組的假負(fù)率在這之后,分別達(dá)到了15.38%和24.04%。
接著利用ROC(receiver operating characteristic)曲線和PR(Precision Recall)曲線對(duì)四個(gè)分組的結(jié)果進(jìn)行評(píng)估,AUC(Area Under Curve)和AP(Average precision)值表示曲線與坐標(biāo)圍成的面積,值越大說(shuō)明分類(lèi)器的效果越好。
圖4、圖5展示了wuh2站的ROC曲線和PR曲線結(jié)果??梢钥吹?月—9月的曲線ROC曲線和PR曲線是最凸的,預(yù)報(bào)效果是最好的,AUC值和AP值分別是0.95656和0.93852;4月—6月的預(yù)報(bào)效果排在第二位,AUC值和AP值分別是0.95441和0.92221,與7月—9月的預(yù)報(bào)效果幾乎相近。10月—12月雖然有比1月—3月更好的ROC曲線,更高的AUC值,但是PR曲線很不穩(wěn)定,變化幅度較大,AP值也比1月—3月更低。
圖3 隨機(jī)森林模型的季節(jié)性效果
圖4 四個(gè)季度的ROC和AUC曲線
圖5 四個(gè)季度的PR和AP曲線
本文首先針對(duì)GNSS站氣象數(shù)據(jù)缺失的問(wèn)題,利用GPT3模型獲取相關(guān)的P和Tm,以此得到測(cè)站上空的PWV,從而與當(dāng)?shù)貧庀笳精@取的氣象數(shù)據(jù)結(jié)合,在分析多特征向量之間的相關(guān)性后,利用隨機(jī)森林模型構(gòu)建降雨預(yù)報(bào)模型,分析季節(jié)性對(duì)預(yù)報(bào)效果的影響。
在整體上隨機(jī)森林模型能很好地對(duì)3小時(shí)后的降雨情況進(jìn)行預(yù)報(bào),能正確預(yù)報(bào)出未來(lái)3小時(shí)80%以上降雨情況,誤報(bào)率也在40%以下。通過(guò)綜合準(zhǔn)確率、精確率、假負(fù)率、ROC曲線和PR曲線的結(jié)果,可以看到隨機(jī)森林模型在第三季度(7月—9月)的效果是最好的,能達(dá)到93%左右的準(zhǔn)確率,誤報(bào)率是最低的6.73%,其次是第二季度(4月—6月),第四季度(10月—12月)的效果排在第三位,最差的效果是第一季度(1月—3月)。
分析可能導(dǎo)致的原因:(1)在第二季度和第三季度所對(duì)應(yīng)的季節(jié)是夏季和秋季,是季風(fēng)活躍的時(shí)間,容易發(fā)生降雨,使訓(xùn)練模型有充足的樣本進(jìn)行分析,有更好的性能,而第一季度和第四季度發(fā)生降雨的情況少,樣本數(shù)相對(duì)比較少;(2)活躍的季風(fēng)帶來(lái)的影響是相關(guān)性較強(qiáng)的水汽信息,強(qiáng)對(duì)流產(chǎn)生的降雨使其與對(duì)流層延遲相關(guān)性在第二季度和第三季度相對(duì)較高,訓(xùn)練后的隨機(jī)森林模型具有對(duì)PWV和ZTD的敏感性,使預(yù)報(bào)更加準(zhǔn)確。
[1] 施闖,張衛(wèi)星,曹云昌,等. 基于北斗/GNSS 的中國(guó)-中南半島地區(qū)大氣水汽氣候特征及同降水的相關(guān)分析[J]. 測(cè)繪學(xué)報(bào),2020,49(9): 1112-1119.
[2] 王勇,劉備,劉嚴(yán)萍,等. 基于小波變換的GPS水汽與氣象要素相關(guān)性分析[J]. 大地測(cè)量與地球動(dòng)力學(xué),2017,37(7): 721-725.
[3] 李黎,宋越,周嘉陵. 利用小波變換對(duì)暴雨過(guò)程中GNSS氣象要素的初步探索[J]. 大地測(cè)量與地球動(dòng)力學(xué),2020,40(3): 225-230.
[4] Wang H, Asefa T, Sarkar A. A novel non-homogeneous hidden Markov model for simulating and predicting monthly rainfall[J]. Theoretical and Applied Climatology, 2021, 143(1): 627-638.
[5] Shou K J, Lin J F. Evaluation of the extreme rainfall predictions and their impact on landslide susceptibility in a sub-catchment scale[J]. Engineering Geology, 2020, 265: 105434.
[6] Li G, Chang W, Yang H. A novel combined prediction model for monthly mean precipitation with error correction strategy[J]. IEEE Access, 2020, 8: 141432-141445.
Seasonal Analysis of Rainfall Forecast Based on Random Forest
Global Navigation Satellite Systems (GNSS) can effectively retrieve the precise water vapor (PWV) with high accuracy and high time resolution. The PWV derived from GNSS can be used to reflect the changes of water vapor in the process of severe convective weather. By studying the correlation between PWV, meteorological parameters and rainfall, we can help us to use the random forest model to forecast rainfall. However, the lack of meteorological parameters at the station location limits the further application of PWV. Therefore, this paper uses the empirical meteorological parameters obtained by GPT3 model to help GNSS retrieve PWV, and uses wuh2 station to establish a random forest rainfall prediction model to study the influence of seasonality on the prediction effect. The results show that the forecast effect from July to September is the best, reaching more than 93%, and the forecast effect from January to March is the worst, but also more than 75%. In the future research, the modeling strategy can be changed according to different seasons to improve the accuracy of prediction.
GPT3; random forest; PWV; short term and imminent rainfall; seasonal
P426
A
1008-1151(2022)10-0017-04
2022-06-16
池欽(1998-),男,浙江瑞安人,安徽理工大學(xué)空間信息與測(cè)繪工程學(xué)院在讀碩士研究生,研究方向?yàn)镚NSS水汽反演。