趙華生 金龍 黃小燕 黃穎
(廣西氣象科學研究所,南寧 530022)
降水是地球水文循環(huán)中一個極其重要環(huán)節(jié),與其它大氣變量相比,降水有著特別高的時空變異性,這些不規(guī)則的特征源于降水云的個體形成和生長有關,而這降水云又與其周圍的大氣流體動力學有著復雜的耦合關系[1]。為此,人們也不斷通過各種方法改進數值天氣預報模型來提高降水的預報能力[2-5]。然而,相比于氣壓、溫度、濕度和風等大氣要素的預測,數值模式對降水的預測能力仍然遠遠落后于其他大氣要素的預測。例如,Stephens 等[6]和Tapiador 等[7]研究表明,數值模式的降水預測通常無法揭示降水的位置、時間、強度以及總累積等許多關鍵方面,為此對數值模式的降水預測進行一定的訂正研究具有重要的現(xiàn)實意義。而實踐也證明了通過訂正數值模式原始的降水產品,通??梢蕴峁└鼮闇蚀_的降水預報[8-9]。
到目前為止,國內外也開展了大量關于利用數值預報產品進行客觀訂正降水預報的釋用技術研究,并在實際的預報業(yè)務中得到了應用。例如,Pan等[10]通過優(yōu)化空間卷積核的層次集來訓練模型,以從周圍的動力場中學習與降水相關的動力特征。以此來訂正數值模式的日降水預報,結果表明,如果有足夠的數據,則該降水的訂正預報方法將優(yōu)于再分析降水產品以及使用線性回歸的訂正預報效果。趙華生等[11]首先利用最大相關最小冗余度對ECMWF集合預報的降水預測進行成員的選擇。其次,按不同的降水強度利用隨機森林算法進行模塊化建模預報。結果表明,該訂正預報方法對暴雨以上量級的降水具有比集合預報的均值更好的預報能力。黃億[12]采用MOS方法、聚類分析方法并結合降水可能函數進行了訂正數值模式降水的研究。Charba等[13]利用美國國家氣象局氣象發(fā)展研究室開發(fā)的高分辨率全球預報系統(tǒng)(Global Forecasting System,GFS)得到美國本土的4 km格距的高分辨率MOS定量降水預報。孫靖等[2]對傳統(tǒng)的消除偏差法進行改進,形成分等級消除偏差法,并使用混合訓練期和60 d滑動強度尺檢驗方法分別應用到ECMWF模式夏季1~5 d的降水預報進行訂正試驗研究。
從上述國內外研究可知,目前數值模式的降水訂正預報研究主要是利用統(tǒng)計降尺度(SD)方法從多角度、多種方法進行訂正,并取得了一定的效果。然而這些訂正預報方法在普查預報因子以及在構建預報因子與預報對象的映射關系時,往往沒有考慮到預報對象中的樣本量分布情況,在本文對試驗預報對象的統(tǒng)計結果中,預報對象的樣本中累積降水量小于1 mm的樣本量是降水量大于1 mm樣本量的4倍左右,是降水量大于25 mm樣本的16倍左右,是降水量大于50 mm樣本量的50倍左右。由此可見,預報對象中的樣本類型分布是極其不均衡的。因此在查找相關預報因子時,如果選擇全樣本去普查相關因子,將可能會漏掉真正觸發(fā)強降水的預報因子,而強降水的訂正預報則是氣象服務的主要內容。一般地,利用統(tǒng)計降尺度(SD)方法對模式降水進行訂正,其效果的好壞很大程度上取決于如何獲取與預測對象相關密切的特征因子。而近年來卷積神經網絡(Convolutional Neural Networks, CNN)則是在特征提取方面表現(xiàn)最為突出的一種方法,與傳統(tǒng)的神經網絡相比,CNN大大增強了人們處理結構化高維數據的能力,它通過利用數據的內部結構來減少模型的結構冗余并實現(xiàn)有效的信息提取。近年來,CNN已發(fā)現(xiàn)可用于提前6個月到1年對ENSO事件預測[14]和用于熱帶氣旋強度的估計[15],并取得了顯著的效果。本文嘗試提出一種基于CNN和隨機森林算法(Random Forest)相結合的ECMWF降水量分級訂正預報方法。該方法首先對ECMWF降水量進行分級,并針對不同等級的降水量樣本利用CNN方法從大量的物理要素場因子中提取與預報對象關系密切的特征因子。其次,利用在回歸模型中泛化能力極強的隨機森林算法進行預報建模。以此探索一種新的數值模式降水的訂正預報方法。
一般而言,數值模式預報產品釋用的效果主要取決于預報因子的選取和預報模型泛化能力的強弱。本文采用卷積神經網絡和隨機森林算法2種方法,其中,卷積神經網絡在過去的幾年中發(fā)展迅猛,目前該方法已在圖像識別和特征提取領域中得到了成功的應用[16-18]。而隨機森林算法因其極強的泛化能力使其在環(huán)境、大氣科學、醫(yī)學和農業(yè)等眾多領域中得到了廣泛應用[19-22]。為此,在預報因子的處理和選取上,嘗試采用具有很強綜合特征提取能力的卷積神經網絡對數值模式的多種物理量預報場和降水量預報場進行綜合特征提取,并將這些與預報對象相關密切的特征因子作為隨機森林算法的輸入因子進行建模預報。主要的建模思路和計算步驟如下:①考慮到預報對象樣本的不均衡性,論文首先將預報對象進行分級(分類);②對于每1個預報對象,分別對不同類別的樣本集進行高相關格點的提取,即從多種物理量預報場和降水量預報場中進行相關普查并提取與預報對像相關性高的格點,并將提取的高相關格點組成1個相關矩陣;③利用CNN網絡對高相關格點矩陣進行特征提取,并選取若干個與預報對象相關性緊密的特征因子作為最終的模型輸入因子。④利用最終的模型輸入因子和隨機森林算法建立最終的預報模型,進行建模預報。
卷積神經網絡由卷積層、下采樣層、全連接層等組成,在結構上具有局部連接、權重共享以及時間或空間上的下采樣等特性。在卷積層中,通過卷積核對像素進行加權求和,從而得到原始圖像的特征圖,實現(xiàn)特征提取。有時為了更充分地提取特征,可以在同一個網絡中采用多個不同的卷積核,以提取不同的特征。而在卷積層中,有局部連接、權重共享等特點,同一特征圖中的每個神經元在和卷積核計算的時候共享權重,極大減少了參數的數量,也降低了過擬合的風險。卷積層的形式如下[23]:
(1)
在卷積層提取特征之后,為進一步減小計算量,通常對得到的特征圖作下采樣。下采樣不會改變特征映射層的數量,但會縮小特征映射圖的尺寸,既能保留主要特征,也能達到降維的效果,還能防止過擬合。下采樣的方法有均值采樣、最大值采樣、重疊采樣、均方采樣、歸一化采樣、隨機采樣、形變約束采樣等,本文采用最大值采樣法。其形式如下:
(2)
全連接層通常是卷積神經網絡的最后一層,在該層輸出神經元和每個輸入神經元都連接。當CNN用在回歸問題時,在這一層將高層特征作為輸入,以預測(擬合)對象作為輸出(圖1)。
圖1 全連接層(圖中x1,x2,…,xn為全連接層的輸入,y為連接層的輸出)
本文采用隨機森林算法[11]構建1個從卷積神經網絡中獲取的特征因子與預報站點之間的非線性映射關系。隨機森林算法可以分為分類和回歸2種模型,其中隨機森林回歸模型(Random Forest Regression,RFR)是由Breiman于2001年提出的一種非線性統(tǒng)計方法[24]。RFR是利用自舉法(Bootstrap)從原始樣本中抽取多個訓練樣本子集,對每個樣本子集分別進行決策樹建模。進一步地,通過組合多棵決策樹進行預測,并通過取平均值得出最終預測結果[25]。其本質與氣象上的集合預報思想相近,是將多棵決策樹建模得到的預測結果進行集成。該算法具有計算速度快,泛化性能好以及參數少等優(yōu)點,同時,也不容易出現(xiàn)人工神經網的“過擬合”現(xiàn)象。為此,本文嘗試利用該方法對降水預報進行建模預報。
RFR算法通過自舉法抽樣技術,由隨機向量θk(回歸決策樹)生長形成{h(X,θk),k=1,…,p}的組合模型。其預測變量為數值型變量。預測值是通過k棵樹{h(X,θk)}的預測結果取平均值得到的。RFR算法的具體實現(xiàn)流程見圖2。
圖2 RFR算法流程
本文在作預報試驗時,使用的資料數據為歐洲中期天氣預報中心(ECMWF)逐日08:00和20:00,0.25°×0.25°,15°~35°N,100°~115°E的降水量場以及200、500、700、850、925 hPa的高度場、U/V風場、溫度場、相對濕度、垂直速度等產品的預報場資料,預報時效均為48 h,選取試驗樣本的時段為2011年1月至2018年10月,除去缺失樣本后,總的樣本量為5675個。
為了測試該模型在不同氣候條件下的適用性,本文選擇了10個廣西主要城市站點的未來24 h累積降水量作為試驗對象(表1)。
表1 10個試驗站點信息
對于每個試驗站的T日起報時,首先利用CNN模型對ECMWF模式眾多物理量要素的(T-1)日48 h預報場進行特征因子的提取,并從中選取若干個特征因子與關鍵的雨量預報格點因子一起作為隨機森林的輸入因子,進行最后的數值模式的訂正預報,具體的構建步驟如下。
(1)訓練樣本的選擇。考慮到目前CNN模型在應用比較成功的圖像識別(分類)領域中,其要識別(分類)對象的樣本量是相當的,這樣在CNN模型訓練的時候,對每一種識別或分類對象才會均衡,不會側重訓練某一類樣本。由于在實況觀測中,大部分的天氣現(xiàn)象屬于晴天或者較小量級的降水事件,因此出現(xiàn)較大量級降水量的樣本在整個統(tǒng)計時段的樣本中占的比重太小。若不對樣本進行選擇,而是將全部樣本帶入模型進行訓練,CNN模型訓練將會側重于對樣本量占比更大的晴天或者降水較少的樣本進行訓練而調整參數,最終訓練好的模型對于這些樣本就有較好的預報性能,但這些樣本數值模式的預報準確性已經基本達到了人們日常需求,人們更關心較大降水、特別是破壞力更強的暴雨以上降水的預報準確率問題。為此,本文以ECMWF數值模式插值(采用三次多項式差值法,下同)到預報站點的降水量EC預報值(EC,單位:mm,下同)的大小進行分級建模預報,即EC>μ(閾值μ的取值依據為:使得建模樣本中降水量小于1 mm的樣本占總樣本量的20%以下,故本文取μ=10,單位:mm)時,則選取該預報站點的歷史樣本中所有EC>μ的樣本進行建模試驗(樣本量為1000左右),并將這部分樣本的最后200個樣本作為獨立樣本,其他樣本為訓練樣本;反之,則選取該預報站點的歷史樣本中所有EC≤μ的樣本進行建模試驗(樣本量為4500左右),并將這部分樣本的最后800個樣本作為獨立樣本,其他樣本為訓練樣本;進一步為便于更好地了解本文提出的這種分級建模訂正預報的有效性,也采用全樣本進行建模的訂正預報,并以全部樣本的最后1000個樣本作為獨立樣本進行訂正預報試驗。
(2)CNN模型輸入構建。CNN模型的輸入一般都是圖片轉換而來,本文的CNN模型輸入則是在ECMWF預報產品的高度場、溫度場、相對濕度等6種物理要素場的每5個層次中,選擇與預報對象相關最好的20個格點,以及ECMWF雨量預報場與預報對象相關最好的25個格點,共625個格點依次組成的一個25×25的數據矩陣。
(3)數據標準化。由于本文的CNN模型的輸入矩陣是由不同的物理要素場格點組成,因此格點之間的量綱差異性較大,因此有必要對輸入數據進行標準化處理,即本文將輸入數據都轉化為[-1,1]之間。
(4)確定CNN模型結構。本文的CNN模型是一個針對回歸問題的模型,即在CNN模型全連接層之后加1層回歸層,具體的網絡結構如圖3所示。
圖3 CNN模型結構
(5)訓練網絡。調用Matlab2018Ra深度學習工具箱中的函數進行訓練,其中主要的可調參數設定為:MaxEpochs:50;InitialLearnRate:1×10-3;LearnRateDropFactor:0.1。
(6)隨機森林回歸模型的輸入。CNN模型訓練完之后,可以從復雜和眾多的物理量因子自行提取了數十個特征,在這些特征因子中,有些與預報對象相關性好,有些相關性差,如何選取存在一定的主觀性,本文為了避免過多的人為主觀影響,對所有的試驗站點均選取與預報站點相關性最高的5個特征因子作為隨機森林回歸模型的輸入特征因子。同時由于ECMWF的雨量預報場是在CNN的卷積過程中,其預報信息有被其他預報因子平滑掉的可能,因此,在2次回歸模型對預報站點進行建模時,有必要將與預報站點相關性最高的雨量預報格點與從CNN模型中選取的5個特征因子一起作為隨機森林回歸模型的最終輸入因子。
(7)模型評估。為檢驗本文提出基于卷積神經網絡(CNN)和隨機森林回歸模型(RFR)的數值模式模式訂正預報方法(CNN-RFR方法)的訂正預報性能,對預報試驗中的獨立樣本計算MAE、RMSE和暴雨及以上(降水量大于50 mm)的TS評分3個指標,并將其與原始ECMWF的雨量預報場插值到站點上的預報(EC)和CNN模型的回歸層輸出進行降水訂正的方法(CNN,下同)比較,其中MAE、RMSE指標主要是考量模型總體的預報精度,而暴雨及以上的TS評分這項指標主要是考慮了模型對強降水預報能力。TS指標(TS)計算如下:
(3)
其中,NA為預報正確的次數;NB為空報次數;NC為漏報次數。
采用CNN模型結構和參數對10個不同的站點進行預報試驗,并且考慮到CNN模型在訓練時,其權值初始化對模型的預報結果有一定的影響,為此, CNN-RFR 方法以其5次試驗的平均值作為該模型的最終預報值。而每個站的樣本是根據EC預報值EC≥10 mm和EC<10 mm分為2部分,分別進行訂正預報。
圖4給出了降水量小于10 mm樣本的訂正預報統(tǒng)計結果,可以看到CNN-RFR方法總體上表現(xiàn)比較穩(wěn)定,該方法在800個獨立樣本的平均絕對偏差MAE和均方根誤差RMSE的統(tǒng)計中,均為3種訂正預報方法中誤差最小,CNN方法次之。其中CNN-RFR方法的MAE和RMSE較EC插值法分別減小了17%~25%和8%~20%,同時CNN的MAE、RMSE的誤差也較EC插值法分別減小了5%~21%和3%~20%。而對于晴雨預報的TS評分統(tǒng)計結果看到,CNN-RFR方法和CNN方法的TS評分相當,穩(wěn)定在0.75左右,明顯高于TS評分穩(wěn)定在0.55左右的EC插值法。綜合分析可知,在對EC預報值小于10 mm的降水(包括晴天無雨)樣本的分類預報訂正建模時,CNN-RFR方法在預報精度和晴雨預報的準確性均優(yōu)于其他2種方法,CNN方法次之。
圖4 預報值EC≤10 mm時CNN-RFR、EC、CNN方法的MAE(a),RMSE(b)及睛雨TS評分(c)(獨立樣本為800個)
由圖5可知,在10個試驗站點的統(tǒng)計結果中,CNN-RFR方法的MAE均比EC插值法小(減少10%~33%)。此外,CNN方法的MAE誤差也比EC插值法的MAE誤差小(減少4%~28%)。對于RMSE誤差的統(tǒng)計,CNN-RFR方法的誤差是3種預報方法中誤差最小的,CNN方法次之。且相比于EC插值法的RMSE誤差,CNN-RFR方法和CNN方法分別減少了6%~28%和5%~24%。對于暴雨及以上降水的TS統(tǒng)計:CNN-RFR方法的TS評分均明顯高于其他2種預報方法。此外,在10個站的獨立樣本試驗中,CNN方法有9個站點的TS評分高于或等于EC插值法,顯示了該訂正模型也具有較好的訂正預報能力。進一步,從空報次數的統(tǒng)計中也可知,CNN-RFR方法有8個試驗站點(除了防城站和北海站)的暴雨及以上降水的空報次數均比EC插值法少,顯示了該訂正預報方法在很多情況下,既可以提高TS評分的同時也降低了相應的空報率。
圖5 預報值EC>10 mm時CNN-RFR、EC、CNN方法的MAE(a)、RMSE(b)、暴雨以上TS評分(c)及空報次數(d)(獨立樣本為200個)
綜上所述,在以EC降水插值預報的大小進行分級建模的獨立樣本試驗中,本文提出的CNN-RFR數值模式降水量訂正預報方法,其MAE和RMSE誤差均小于EC插值法,表明了該方法的降水訂正預報在預報精度方面具有正的技巧。同時在暴雨及以上量級的降水預報和晴雨預報方面,CNN-RFR方法相應的TS評分均明顯高于EC插值法,而且其暴雨及以上量級降水的空報率在大部分情況下也少于EC插值法,顯示了該訂正預報方法具有較好的預報能力。同時,本文給出的CNN模型,其訂正預報的性能雖遜于CNN-RFR方法,但該模型在大部分情況下,其預報精度、晴雨預報和暴雨及以上量級降水預報的TS評分也均明顯優(yōu)于EC插值法。
進一步,為考察本文提出的分級建模的訂正預報方法的有效性,對這10個試驗站點進行了不分級的全樣本建模試驗,并且對于每個試驗站點,均以該站點全部樣本的最后1000個樣本作為獨立樣本,其余樣本作為建模樣本進行預報訂正試驗。
由圖6可知,在對不分級的全樣本進行建模訂正情況下,CNN-RFR方法的10個站的平均MAE和RMSE誤差均比EC插值法小。從這一結果看到,似乎這樣的訂正是比較有效的,但暴雨及以上的TS評分指標可以看到,在單站的統(tǒng)計上,CNN-RFR方法和CNN法分別僅有3個站和2個站的TS評分高于EC插值法。其次,CNN-RFR方法與EC插值法的10個站總體的TS評分持平,兩者均0.19,但優(yōu)于CNN方法的0.12。即在不分級的全樣本訂正預報中,雖然CNN-RFR方法的平均MAE和RMSE明顯減小,但是這種訂正預報誤差的減小主要體現(xiàn)在小降水和晴天樣本中,而暴雨及以上的強降水的訂正預報沒有效果,其原因為在不分級的全部樣本中,小于10 mm(包括無降水)樣本占了絕大部分,暴雨及以上樣本只有很小一部分,這樣用CNN-RFR模型建模時,主要體現(xiàn)了大多數小降水和無降水樣本的特征,所以無法改進暴雨及以上降水的這些小樣本的預報訂正效果,而這些小樣本的預報訂正效果是訂正預報最需要關心的重點,由此可知,用全部樣本(不分級)對暴雨及以上降水預報訂正對實際業(yè)務預報沒有太大意義。
圖6 全樣本建模時CNN-RFR、EC、CNN預報法的MAE(a)、RMSE(b)、暴雨以上TS評分(c)空報次數(d)(獨立樣本為1000個)
另一方面,綜合圖4和圖5的統(tǒng)計結果也可知,在分級建模進行訂正預報的1000個獨立樣本中(圖4為800個獨立樣本,圖5為200個獨立樣本,共1000個獨立樣本),CNN-RFR方法的10個試驗站點的平均MAE和RMSE誤差分別為4.7 mm和8.7 mm,相比于EC插值法的5.8 mm和10.2 mm,其預報精度分別提高了20%和15%。而CNN法的平均MAE和RMSE誤差則分別為5.0 mm和9.2 mm,這2項誤差統(tǒng)計指標雖然差于的CNN-RFR方法,但較EC插值法誤差也分別降低了14%和10%。同時,在暴雨及以上的TS評分指標上,CNN-RFR方法、CNN法以及EC插值法對于10個站總體的TS評分分別為:0.32、0.23和0.19,前2者均優(yōu)于EC插值法。由此可見,本文提出的分級建模訂正預報CNN-RFR方法不僅在預報精度(MAE指標和RMSE指標)上具有較高的正技巧,同時在強降水的預報上也具有顯著的正技巧。
綜合以上結果,可以看出,本文提出的數值模式降水訂正預報是有效的,其原因與本文設計的分級建模有關,即分級后的建模,使得CNN模型能更有針對性地對相應量級的相關因子矩陣進行有效預報信息的綜合提取。而CNN-RFR方法比CNN模型具有更好的訂正預報能力,其原因可能與CNN模型在綜合提取特征信息時,包含了一些噪音的特征信息,而CNN-RFR方法則只是選取了CNN模型全部特征因子中部分相關高的特征因子,從而避免了與預報試驗站點相關性低、包含更多噪音(干擾)的特征因子入選的原因。
本文以ECMWF模式的48 h預報場資料為基礎,采用分級訂正的方法預報未來24 h降水量,該方法主要利用CNN模型對高相關因子矩陣進行特征提取,從而獲得綜合性較高、與預報對象相關性強的特征因子作為隨機森林回歸預報模型的輸入因子,來提高不同降水量級訂正預報的預報精度,其主要特點可歸結為:
(1)與傳統(tǒng)的數值預報訂正預報方法相比,本文提出的分級建模數值模式訂正方法,在查找預報因子和構建回歸模型的映射關系方面更具有針對性。即把預報樣本按降水量大小分成兩類分別進行預報訂正建模更利于模型分別對強降水和小量級的降水進行學習和訓練。
(2)在CNN模型輸入方面,與目前大多數CNN模型以圖片作為輸入不同,本文的CNN模型則利用與預報對象相關密切的數值模式格點數據組成的數據矩陣作為模型輸入,這樣做可以使CNN模型的特征提取更加有針對性,也避免更多無用或者干擾的預報信息的進入。
(3)通過對分級訂正預報和傳統(tǒng)的全部樣本進行數值預報產品訂正預報的2種方法的獨立樣本對比分析可以看到,本文提出的CNN-RFR方法相對于EC插值法具有更高的預報精度,特別是對暴雨及以上強降水的預報訂正TS評分顯著提高。同時,該方法簡單、沒有太多的可調參數(其中隨機森林的回歸模型采取的Matlab工具箱的默認參數),它對廣大業(yè)務預報人員來說是一種比較容易實現(xiàn)的模式產品訂正預報方法。因此,本文提出的模式釋用方法對加強業(yè)務與科研的互動,有效提高預報水平有促進作用。