覃衛(wèi)堅(jiān),何莉陽,蔡悅幸
(廣西壯族自治區(qū)氣候中心,南寧 530022)
汛期氣候預(yù)測(cè)為各級(jí)政府防災(zāi)減災(zāi)決策部署工作提供了技術(shù)支撐,是每年氣象部門氣候預(yù)測(cè)服務(wù)重中之重的工作任務(wù)。氣候變暖背景下極端異常降水事件頻發(fā),進(jìn)一步加大了旱澇預(yù)測(cè)的難度,因此開展汛期氣候預(yù)測(cè)方法的研究具有重要的科學(xué)意義和應(yīng)用價(jià)值。目前我國(guó)短期氣候預(yù)測(cè)的科技水平和業(yè)務(wù)能力已從傳統(tǒng)的統(tǒng)計(jì)分析發(fā)展到了動(dòng)力-統(tǒng)計(jì)相結(jié)合的預(yù)測(cè)技術(shù)和方法,發(fā)展動(dòng)力-統(tǒng)計(jì)相結(jié)合的氣候預(yù)測(cè)方法是現(xiàn)階段及未來很長(zhǎng)時(shí)期內(nèi)提高氣候預(yù)測(cè)準(zhǔn)確率的重要途徑[1-4]。國(guó)家氣候中心第二代季節(jié)預(yù)測(cè)模式系統(tǒng)(BCC_CSM1.1)預(yù)測(cè)能力較第一代得到了很大的提高,對(duì)大尺度環(huán)流預(yù)報(bào)能力較高[5-6],對(duì)華南地區(qū)夏季降水量預(yù)測(cè)能力偏弱[7-8]。如何利用更有效的氣候模式預(yù)測(cè)信息,就這個(gè)問題統(tǒng)計(jì)降尺度方法在氣候預(yù)測(cè)中得到了應(yīng)用,對(duì)氣候模式具有較高預(yù)測(cè)技巧的大尺度環(huán)流信息和局地氣象要素進(jìn)行相關(guān)統(tǒng)計(jì),建立預(yù)測(cè)模型,從而提高了氣候預(yù)測(cè)能力[9-10],如顧偉宗等[11]分別計(jì)算了預(yù)報(bào)對(duì)象和模式資料的預(yù)報(bào)因子場(chǎng)以及再分析資料的預(yù)報(bào)因子場(chǎng)的相關(guān)系數(shù),利用最優(yōu)回歸方法建立預(yù)測(cè)模型,降水預(yù)測(cè)效果遠(yuǎn)高于模式直接輸出的預(yù)測(cè)結(jié)果;封國(guó)林等[12]利用氣候模式回報(bào)資料篩選出能反映模式預(yù)報(bào)誤差分布特征的關(guān)鍵預(yù)報(bào)因子,通過計(jì)算檢驗(yàn)得到最優(yōu)多因子配置,建立汛期降水集成預(yù)測(cè)模型,提高了降水預(yù)測(cè)能力;郭渠等[13]利用BCC_CSM 模式環(huán)流預(yù)測(cè)資料,建立多元回歸預(yù)報(bào)模型,提高了夏季降水的預(yù)報(bào)技巧。以上統(tǒng)計(jì)降尺度方法主要使用傳統(tǒng)的回歸方法和集成建模預(yù)測(cè),而把粒子群-神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法等機(jī)器學(xué)習(xí)方法應(yīng)用其中還不多見。粒子群-神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法具有較強(qiáng)的處理非線性問題的能力,在氣象預(yù)報(bào)中有了很好的應(yīng)用效果,如陸虹等[14]、覃衛(wèi)堅(jiān)等[15-16]、孔慶燕等[17]、吳建生等[18]、田心如等[19]把粒子群-神經(jīng)網(wǎng)絡(luò)方法應(yīng)用在廣西冷濕天氣、寒露風(fēng)日數(shù)、降水量、夏季空調(diào)負(fù)荷預(yù)報(bào)中,預(yù)報(bào)準(zhǔn)確度較線性回歸方法有明顯提高;Kim H L 和Kim B H[20]把隨機(jī)森林方法應(yīng)用于城市洪水災(zāi)害等級(jí)預(yù)測(cè)中,預(yù)測(cè)準(zhǔn)確率得到了提高。因此,利用BCC_CSM1.1 氣候模式回算資料,對(duì)廣西后汛期降水距平百分率進(jìn)行EOF 分解,分別計(jì)算各模態(tài)時(shí)間系數(shù)和氣候模式預(yù)測(cè)回算資料、氣候模式回算資料和再分析資料的相關(guān),得到高相關(guān)區(qū)域,使用逐步回歸方法計(jì)算篩選得到預(yù)報(bào)因子,利用粒子群-神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法進(jìn)行建模預(yù)測(cè),為提高后汛期降水預(yù)測(cè)率提供新的思路。
資料包括:(1)1991—2021 年后汛期(7—9 月)廣西90 個(gè)地面氣象觀測(cè)站逐月降水距平百分率資料;(2)1991—2015 年NCEP/NCAR 2.5°×2.5°格 點(diǎn)月再分析資料,包括高度場(chǎng)、風(fēng)場(chǎng)等;(3)1991—2021年BCC_CSM1.1 氣候模式6 月起報(bào)7—9 月逐月回報(bào)數(shù)據(jù),包括高度場(chǎng)、風(fēng)場(chǎng)、降水距平值等。BCC_CSM1.1氣候模式是第二代季節(jié)氣候預(yù)測(cè)模式系統(tǒng),為一個(gè)包含海陸冰氣系統(tǒng)、植被和碳循環(huán)的全耦合氣候系統(tǒng)模式,模式分辨率為2.5°×2.5°。
Ps 評(píng)分計(jì)算公式:
其中:N0為氣候趨勢(shì)預(yù)測(cè)正確的站數(shù),N1為一級(jí)異常預(yù)測(cè)正確的站數(shù),N2為二級(jí)異常預(yù)測(cè)正確的站數(shù),M 為沒有預(yù)報(bào)二級(jí)異常而實(shí)況出現(xiàn)降水距平百分率≥100%或等于-100%的站數(shù)(稱漏報(bào)站)。20%≤降水距平百分率絕對(duì)值<50%為一級(jí)異常,降水距平百分率絕對(duì)值≥50%為二級(jí)異常。
同號(hào)率指各站降水距平值實(shí)況和預(yù)報(bào)正負(fù)符號(hào)相同的站數(shù)占總站數(shù)的百分比。
Kennedy J and Eberhart R[21]1995 年提出了粒子群算法,粒子群-神經(jīng)網(wǎng)絡(luò)最優(yōu)解的數(shù)學(xué)函數(shù)[17]:
(2)-(3)式中,ω 為網(wǎng)絡(luò)權(quán)值,n 為樣本數(shù),θ 為網(wǎng)絡(luò)閥值,xi為訓(xùn)練樣本的輸入,θ 實(shí)際輸出,yi期望輸出。粒子的位置更新調(diào)整公式[22]:
(6)式中,f(s)為種群多樣性指數(shù),S 為種群中粒子總數(shù),,n為維數(shù)。為粒子第j 維的平均值。
當(dāng)f(s)<dlow時(shí),dir=-1,種群遠(yuǎn)離最優(yōu)位置;當(dāng)f(s)>dhigh時(shí),dir=1,種群向整體最優(yōu)位置靠攏。具體計(jì)算步驟[23]如下:
(1)初始化粒子群;
(2)計(jì)算每個(gè)粒子的適應(yīng)度;
(3)隨機(jī)輸入個(gè)體最佳初始值及全局最佳初始值,再根據(jù)粒子的適應(yīng)度進(jìn)行更新;
(4)使用權(quán)重系數(shù)矩陣控制著網(wǎng)絡(luò)權(quán)值和閥值的大小;
(5)連接結(jié)構(gòu)矩陣變量矩陣控制著隱節(jié)點(diǎn)數(shù),計(jì)算更新位置矩陣中的連接結(jié)構(gòu)矩陣。
(6)反復(fù)進(jìn)行(2)-(5)步驟的計(jì)算,當(dāng)?shù)螖?shù)達(dá)到了最大訓(xùn)練次數(shù)或滿足最小訓(xùn)練誤差時(shí),停止計(jì)算,并輸出最優(yōu)解。
Breiman[24]2001 年提出基于bagging 思想的隨機(jī)森林算法,是一種使用多棵決策樹對(duì)樣本進(jìn)行訓(xùn)練和預(yù)測(cè)的分類器,它由不完全相同的單棵決策樹組成,利用多棵決策樹投票機(jī)制來決定最終的分類[25]。隨機(jī)森林算法具有分類速度快、可調(diào)節(jié)參數(shù)少、計(jì)算效率高、減少過擬合現(xiàn)象等特征。設(shè)定含有N 個(gè)樣本的原始樣本集,從原始樣本集中隨機(jī)抽樣,組成多個(gè)訓(xùn)練集,建立N 棵決策樹[26]:
x 為輸入的自變量和因變量,θn為服從獨(dú)立同分布隨機(jī)向量。
在訓(xùn)練決策樹模型的節(jié)點(diǎn)時(shí),隨機(jī)從節(jié)點(diǎn)上所有樣本特征中選擇一部分樣本特征,以其中最優(yōu)的一個(gè)特征來劃分決策樹的左右子樹,訓(xùn)練結(jié)束后進(jìn)行投票得到所有模態(tài)的平均值作為輸出:
對(duì)1991—2015 年廣西90 站后汛期降水距平百分率進(jìn)行EOF 分解,得到主要空間模態(tài)和各模態(tài)的時(shí)間系數(shù)。各特征向量能夠反映出后汛期降水變化的空間結(jié)構(gòu),第一模態(tài)是后汛期降水變化最具有代表性的分布場(chǎng),其次為第二模態(tài)、第三模態(tài)等,前三個(gè)模態(tài)的方差貢獻(xiàn)率分別為51.4%、13.7%、7.2%,前三個(gè)模態(tài)累計(jì)方差貢獻(xiàn)率達(dá)到了72.3%,第四個(gè)模態(tài)方差貢獻(xiàn)率僅為4.1%,相對(duì)前三個(gè)模態(tài)方差較小,為了減少計(jì)算量,只計(jì)算前三個(gè)模態(tài)的時(shí)間系數(shù)。第一模態(tài)特征向量值基本為正值(圖1a),體現(xiàn)了廣西后汛降水的一致性變化這一重要特征。第二模態(tài)特征向量值呈桂北為正值、桂南為負(fù)值的空間分布特征(圖1b),說明了桂南和桂北降水存在反相的變化特征。第三模態(tài)特征向量值桂西為正值、桂東為負(fù)值的空間分布特征(圖1c),即桂西和桂東降水存在反相變化特征。從各模態(tài)時(shí)間系數(shù)歷年變化來看,第一時(shí)間系數(shù)(PC1)1990—2010 年呈現(xiàn)出減小趨勢(shì),2011 年以后為增大趨勢(shì);第二時(shí)間系數(shù)(PC2)為減小趨勢(shì),其中1991—2003 年變化幅度比較大,2003 年之后變化趨于平緩;第三時(shí)間系數(shù)(PC3)1991—2000、2010—2015年變化比較平緩,2000—2010 年變化幅度大(圖1d)。
圖1 廣西后汛期降水EOF 前三個(gè)模態(tài)空間分布及時(shí)間系數(shù)
因子查找從兩個(gè)方面入手:一方面,計(jì)算后汛期降水距平百分率的前三個(gè)模態(tài)時(shí)間系數(shù)與BCC_CSM1.1模式6 月起報(bào)的環(huán)流預(yù)測(cè)資料的相關(guān)系數(shù),得到顯著相關(guān)的區(qū)域;另一方面,計(jì)算BCC_CSM1.1 模式環(huán)流預(yù)測(cè)和NCEP/NCAR 實(shí)況場(chǎng)的相關(guān)系數(shù),得到模式環(huán)流預(yù)測(cè)的高技巧區(qū),即相關(guān)系數(shù)通過水平為0.05 的顯著性檢驗(yàn)區(qū)域。選出各模態(tài)時(shí)間系數(shù)與模式預(yù)測(cè)資料的相關(guān)顯著區(qū)域,同時(shí)這區(qū)域也是模式預(yù)測(cè)高技巧區(qū),把區(qū)域格點(diǎn)值進(jìn)行平均后作為預(yù)選因子。為了保證在已選定的一批因子中得到最優(yōu)的因子,使用逐步回歸方法再進(jìn)一步篩選,建立第一模態(tài)時(shí)間系數(shù)逐步回歸預(yù)報(bào)方程:
式(9)中,x1、x2、x3分別為巴爾喀什湖和貝加爾湖之間區(qū)域、秘魯西海岸附近、南非的200hPa 經(jīng)向風(fēng),如圖2a 所示。
第二模態(tài)時(shí)間系數(shù)逐步回歸預(yù)報(bào)方程:
式(10)中,x1為南非以南地區(qū)200hPa 高度場(chǎng),如圖2b 所示;x2、x3分別為巴爾喀什湖以南附近地區(qū)、美國(guó)和墨西哥交界地區(qū)500hPa 高度場(chǎng),如圖2c 所示。
第三模態(tài)時(shí)間系數(shù)逐步回歸預(yù)報(bào)方程:
式(11)中,x1為貝加爾湖東部地區(qū)海平面氣壓,如圖2d 所示;x2為澳大利亞南部850hPa 緯向風(fēng),如圖2e 所示;x3為南美洲西部沿海200hPa 經(jīng)向風(fēng),如圖2f 所示。式(9)—式(11)σ 表示剩余標(biāo)準(zhǔn)差,R 表示復(fù)相關(guān)系數(shù)。
圖2 1991—2015 年第一模態(tài)時(shí)間系數(shù)與模式200hPa 經(jīng)向風(fēng)的相關(guān)(a),第二模態(tài)時(shí)間系數(shù)與模式200hPa 高度場(chǎng)(b)、500hPa 高度場(chǎng)(c)的相關(guān),第三模態(tài)時(shí)間系數(shù)與模式海平面氣壓(d)、850hPa 緯向風(fēng)(e)和200hPa 經(jīng)向風(fēng)(f)預(yù)測(cè)值的相關(guān)分析(陰影為通過0.1 顯著性水平檢驗(yàn)的區(qū)域)
通過逐步回歸方程篩選得到預(yù)測(cè)因子,使用粒子群-神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法建立預(yù)報(bào)模型。粒子群-神經(jīng)網(wǎng)絡(luò)預(yù)報(bào)模型輸出節(jié)點(diǎn)個(gè)數(shù)為1,隱節(jié)點(diǎn)下限為0.3,隱節(jié)點(diǎn)上限為1.5,目標(biāo)誤差為0.01,學(xué)習(xí)速率為0.5,動(dòng)量因子為0.75,訓(xùn)練次數(shù)為200,個(gè)體最優(yōu)導(dǎo)向系數(shù)為2,全局最優(yōu)導(dǎo)向系數(shù)為2,粒子位置下限為-3,粒子位置上限為3,種群規(guī)模為50,最大迭代次數(shù)為100。隨機(jī)森林算法策略樹的數(shù)量為50,構(gòu)建決策樹時(shí)對(duì)于節(jié)點(diǎn)數(shù)量沒有限制,沒有限制計(jì)算量,利用最大資源建模直至得到最優(yōu)解。
利用粒子群-神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林算法、逐步回歸方法對(duì)三個(gè)模態(tài)時(shí)間系數(shù)進(jìn)行預(yù)測(cè),得到2016—2021 年各模態(tài)時(shí)間系數(shù)預(yù)報(bào)值,再與對(duì)應(yīng)的特征向量相乘,最后合成得到降水距平百分率的預(yù)報(bào)場(chǎng)。表1 給出了2016—2021 年粒子群-神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林算法、逐步回歸方法和氣候模式的后汛期降水預(yù)測(cè)Ps 得分和同號(hào)率,兩種機(jī)器學(xué)習(xí)方法預(yù)測(cè)得分均高于逐步回歸方法和氣候模式,其中粒子群-神經(jīng)網(wǎng)絡(luò)方法平均得分最高,為81.53,較逐步回歸方法和氣候模式分別提高了2.78、29.22;其次為隨機(jī)森林算法,平均得分為81.25,較逐步回歸方法和氣候模式提高了2.5、28.94;兩種機(jī)器學(xué)習(xí)方法預(yù)測(cè)和實(shí)況同號(hào)率比逐步回歸方法提高了0.04、比氣候模式預(yù)測(cè)提高了0.31。從6a 的預(yù)測(cè)試驗(yàn)來看,2017 和2021 年氣候模式預(yù)測(cè)誤差較大,2017 年廣西降水實(shí)況為偏多,而模式預(yù)測(cè)降水偏少;2021 年氣候模式預(yù)測(cè)廣西降水偏多,而實(shí)況是偏少??梢?,利用模式有效的環(huán)流預(yù)測(cè)信息來建模預(yù)測(cè),能夠明顯的提高降水的預(yù)測(cè)能力。
表1 粒子群-神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林算法、逐步回歸方法、氣候模式后汛期降水預(yù)測(cè)Ps 得分和同號(hào)率
利用BCC_CSM1.1 氣候模式預(yù)測(cè)等資料,使用相關(guān)方法查找和篩選得到預(yù)測(cè)因子,建立基于粒子群-神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林算法的廣西后汛期降水氣候預(yù)測(cè)模型。在2016—2021 年業(yè)務(wù)預(yù)測(cè)試驗(yàn)應(yīng)用中,基于粒子群-神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林算法的后汛期降水預(yù)測(cè)Ps 得分較逐步回歸方法分別提高了2.78分、2.5 分,較氣候模式分別提高了29.22 分、28.94分,預(yù)測(cè)能力有明顯的提升。
本文利用粒子群-神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林算法機(jī)器學(xué)習(xí)方法對(duì)氣候模式降水進(jìn)行訂正,做了初步的預(yù)測(cè)試驗(yàn),取得了良好的預(yù)測(cè)效果。這得益于本研究充分利用了氣候模式有效的預(yù)測(cè)信息,在建模預(yù)測(cè)中機(jī)器學(xué)習(xí)算法具有自學(xué)習(xí)能力,較傳統(tǒng)線性統(tǒng)計(jì)方法對(duì)復(fù)雜的非線性模型能夠更準(zhǔn)確的描述。在后續(xù)的研究中,將增加更多氣候模式資料,做進(jìn)一步的試驗(yàn)和研究。