郝福亮, 王 旭
(1.長沙理工大學 水利與環(huán)境工程學院, 湖南 長沙 410114; 2.水沙科學與水災害防治湖南省重點實驗室,湖南 長沙 410114; 3.天津大學 環(huán)境科學與工程學院, 天津 300072)
數(shù)值模式降雨預測在暴雨預警、水庫調度、徑流預測等實際應用中發(fā)揮著重要作用,但傳統(tǒng)確定性預測經常受到系統(tǒng)模式無法完全模擬大氣過程和初始場資料觀測誤差的影響[1],導致確定性預測的結果表現(xiàn)出較大的不確定性,很難幫助用戶做出正確的判斷。為解決單一確定性預測的結果不確定性問題,近年來降雨預測的模式從確定性預測轉向多成員集合預測,通過初值擾動和模式擾動的方式來描述初始場和模式自身的不確定性,并使用擾動后的數(shù)據(jù)制作一系列的預測結果,以集合的形式來描述未來降雨可能會發(fā)生的概率情況[2]。但由于大氣系統(tǒng)的高度非線性、數(shù)值預測系統(tǒng)的系統(tǒng)性誤差、初始條件的同化及擾動方法不完善等因素導致了數(shù)值集合預測產品存在預測誤差以及集合成員間存在低離散度的問題[3-4],因此集合預測產品無法直接被使用,必須使用校正后處理方法對其進行有效地處理后才能為用戶提供更多的有效信息。
國外學者較早地認識到校正后處理方法對降雨等氣象數(shù)值預測的重要性,開發(fā)出的校正后處理方法在數(shù)值預測中得到廣泛應用[5-8]。目前校正后處理方法主要可以分為非參數(shù)化后處理方法和參數(shù)化后處理方法[9]。非參數(shù)化后處理方法主要有頻率匹配法[10]、集合偽偏差校正[11]等,其原理較為簡單,不需要提前考慮分布函數(shù)模型的問題,在使用中相對靈活,但校正處理時需要大量的數(shù)據(jù)樣本,限制了其在數(shù)據(jù)缺乏區(qū)域的使用。以貝葉斯模型平均法為代表的參數(shù)化后處理方法通過假定預測成員滿足特定連續(xù)概率分布,并且可以利用該分布模型完成數(shù)據(jù)外插[9],在很大程度上減少了對數(shù)據(jù)樣本的需求量。另外非參數(shù)化后處理方法往往不能對降雨預測進行全面的校正,例如Zhao等[12]在評估分位數(shù)映射方法對季節(jié)性降雨預測的校正性能中發(fā)現(xiàn),分位數(shù)映射雖然可以校正預測偏差,但往往會表現(xiàn)出負向的預測技巧性,而參數(shù)化后處理方法貝葉斯聯(lián)合概率建模[13-14]則表現(xiàn)出較為全面的校正效果。2005年Gneiting等[15]在模式輸出統(tǒng)計的基礎上提出非常有代表性的參數(shù)化后處理方法框架 - 集合模式輸出統(tǒng)計(ensemble model output statistics,EMOS),該方法首先給定所需預測天氣變量的概率分布,然后利用函數(shù)將預測分布的參數(shù)與預測成員相連接,并通過優(yōu)化算法求解出模型參數(shù)來實現(xiàn)預測校正[16],例如原始的EMOS方法使用高斯分布對溫度和海平面壓力進行建模,高斯分布的均值是預測成員的映射函數(shù),其方差是集合方差的映射函數(shù)。該方法在概念上相較于目前非常流行的貝葉斯模型平均法更加簡單清晰,對于數(shù)據(jù)樣本的要求量較貝葉斯模型平均法也要少很多,因此在使用中會更加靈活方便[17]。
為能夠使用EMOS方法對截斷變量和非高斯變量進行建模,近十年中陸續(xù)在原始EMOS方法的基礎上發(fā)展出多個統(tǒng)計模型。例如針對降雨預測的后處理,建立了基于左刪失廣義極值分布的EMOS模型[18]。該模型在德國地區(qū)降雨預測校正中有著較為出色的表現(xiàn),但由于開發(fā)時間較短,在降雨校正中的應用效果并未得到充分驗證,特別是針對中國地區(qū)的適用性還很少被探討。因此本文以雅礱江流域為研究對象,使用該方法對流域內的降雨預測進行校正處理,并分析討論了經該方法校正后的預測結果與原始預測結果之間的差異。
雅礱江流域位于青藏高原東側,地處東經96°52′ ~ 102°48′,北緯26°32′ ~ 33°58′,整個流域呈條狀分布由南至北跨越近8個緯度帶,流域面積約13.6×104km2,干流總長度達1 323 km,流域水系、高程及氣象站點分布情況如圖1所示。
圖1 雅礱江流域水系、高程及氣象站點分布
流域內地形復雜,谷嶺高差懸殊,海拔高度多在1 500 m 以上,氣候在不同的地區(qū)和高程均有較為明顯的差異。流域每年雨季(6-9月)受到西太平洋副高脊線北移以及西南季風攜帶大量暖濕水汽的影響,流域內切變線和低渦頻繁活動導致該時期時常會有暴雨、山洪等災害發(fā)生[19-20],支流鮮水河、安寧河為流域重要的產洪區(qū)。在流域的中下游一帶水汽較為豐沛,暴雨量級很大,對流域內居民的生產和生活造成威脅。流域內復雜的地形和惡劣的地理環(huán)境導致水文和氣象監(jiān)測站點分布十分不均勻,特別是甘孜以上的流域站點分布稀疏、數(shù)量少,為當?shù)厮芾砣藛T進行水庫調度和發(fā)電計劃制定增加了很大的難度,因此通過適當?shù)男U筇幚矸椒▽?shù)值模式的降雨集合產品進行校正,并將校正后數(shù)據(jù)應用到流域實際生產中對于雅礱江流域有著非常重要的意義。
降雨集合預測數(shù)據(jù)來自全球集合預測系統(tǒng)(Global Ensemble Forecast System, GEFS),數(shù)據(jù)分辨率為高斯網(wǎng)格0.5°[21]。該系統(tǒng)在世界協(xié)調時00時發(fā)布未來16 d內的降雨預測數(shù)據(jù),集合成員為11個,在本次研究中選用2017年4月1日-9月30日時段內24 h累計降雨預測數(shù)據(jù)。降雨觀測資料來自雅礱江流域12個氣象站點,時效為北京時間20時至次日20時,共24 h累計降雨數(shù)據(jù)。預測數(shù)據(jù)集在世界協(xié)調時00時初始化,而觀測數(shù)據(jù)為北京時間20時至次日20時累計降雨量,導致預測數(shù)據(jù)的起報時間與降雨觀測數(shù)據(jù)開始累計時間相差12 h,因此在整合每日降雨預測數(shù)據(jù)時將開始時間向后推移12 h,從而使降雨預測數(shù)據(jù)與觀測數(shù)據(jù)在時間上是一致的。
基于左刪失廣義極值分布的EMOS模型使用廣義極值分布取代了EMOS模型中的正態(tài)分布,并認為廣義極值分布在零處是左刪失的,即分布中低于零的位置被精確地賦值為零,因此方法中所采用的分布函數(shù)G(y)如下:
(1)
式中:g(y)為廣義極值分布。
確定出分布函數(shù)后便需要將其參數(shù)與合適的預測變量進行連接,如公式(2)、(3)所示。廣義極值分布的平均值與預測變量之間有兩種方式建立關系,可以通過為集合成員賦予不同權重來構建函數(shù)關系,另外也可以通過使用集合均值來構建函數(shù)關系。同時廣義極值分布的比例參數(shù)σ和集合成員的平均差MD(X)之間也可以通過一次函數(shù)構建聯(lián)系,如公式(4)所示。
m=a+b1X1+…+bnXn+sp0
(2)
(3)
σ=c+d·MD(X)
(4)
式中:m為廣義極值分布的平均值參數(shù);p0為集合成員中0值占集合總數(shù)的比例;各項系數(shù)a、b、c、d、s可以通過擬牛頓算法進行優(yōu)化求解,待模型參數(shù)確定后,便可以利用該模型完成統(tǒng)計校正工作。
平均值與預測變量之間構建關系的方式在一定程度上會對模型校正效果產生影響,但目前關于上文中提到的兩種建模形式在不同的數(shù)值預報系統(tǒng)及地區(qū)中的表現(xiàn)并未進行深入探討。因此在本項研究中筆者選取國內的雅礱江流域作為研究區(qū)域,利用基于左刪失廣義極值分布的EMOS模型對數(shù)值預報中心發(fā)布的該地區(qū)降雨預測數(shù)據(jù)進行校正處理,并討論該方法的兩種建模形式在校正中的差異。本次實驗分別在雅礱江流域的上游和下游區(qū)域選取部分氣象站點作為實驗對象,通過在流域不同區(qū)域下分別采用基于左刪失廣義極值分布的EMOS模型的兩種建模形式對降雨預測進行校正,并對兩種形式校正后的結果進行對比分析。
由于建模過程中所采用的數(shù)值預測數(shù)據(jù)是全球網(wǎng)格形式的數(shù)據(jù),因此預測數(shù)據(jù)與氣象站點的觀測數(shù)據(jù)在空間位置上并沒有完全對應,為解決該問題,在數(shù)據(jù)處理中首先從數(shù)值預測數(shù)據(jù)中確定出距離每個氣象站點位置最近的4個格點位置,然后對4個位置上的數(shù)據(jù)進行平均作為本次實驗的預測數(shù)據(jù)。另外基于左刪失廣義極值分布的EMOS模型通常使用校正日期前幾十天的數(shù)據(jù)作為模型參數(shù)訓練數(shù)據(jù)集,雖然采用更多的訓練數(shù)據(jù)可以獲得更加穩(wěn)定的參數(shù)估計,但降雨數(shù)據(jù)季節(jié)性變化可能會對模型校正產生較大影響,因此訓練長度普遍在30~60 d之間。在此次實驗中整理了2017年4-9月每一天的降雨預測和降雨觀測數(shù)據(jù)集,并針對模型訓練日期長度對預測結果的影響進行預實驗,最終確定選取43 d作為本次實驗的最終訓練長度。針對雅礱江流域站點降雨預測,分別采用上述方法的兩種建模形式進行了校正處理工作,并通過計算相應的評價指標對其結果進行了評價。在下文中為方便對結果進行討論,將集合成員賦予不同權重進行校正的形式簡稱為集合預測,將使用集合均值進行校正的形式簡稱為均值預測。
平均絕對誤差(mean absolute error,MAE)為各預測值與實際觀測值偏差絕對值的平均值,是一種較為直觀的確定性評價指標,在氣象水文等領域被廣泛采用。
(5)
式中:N為樣本數(shù);fi為預測值;xi為與預測值對應的觀測值。MAE值越小,表示預測值與觀測值之間的誤差越小,預測能力越強。
連續(xù)排名概率得分(continuous ranked probability score,CRPS)用于衡量預測的累計分布函數(shù)與確定性觀測樣本(真實值)之間的差異。
(6)
式中:y為預測變量;F為預測累計分布函數(shù);H為階躍函數(shù),預測變量小于觀測值時其值為0,大于觀測值時為1;yobs為實際觀測值。完美預測的CRPS值等于0,且該值越大,集合預測系統(tǒng)的預測能力越弱。
本節(jié)中通過計算平均絕對誤差、連續(xù)排名概率得分等指標對原始預測、均值預測、集合預測的預測準確性進行了對比分析,并進一步討論了均值預測在流域不同區(qū)域的校正效果。
通過繪制預測區(qū)間與觀測值的對比情況可以直觀評價預測效果,圖2為雅礱江下游鹽源站122 d的10%~90%預測區(qū)間與觀測值的對比情況。由圖2可以看出,原始預測中大部分的觀測值落在預測分位數(shù)區(qū)間之外,預測分位數(shù)區(qū)間僅能覆蓋到10~30 mm降雨量中的很少一部分值,對于大于30 mm和接近0的降雨量值則很難捕捉到(圖2(a))。另外在原始預測中大部分觀測值低于預測的下四分位數(shù),即原始預測在預測中表現(xiàn)出對降雨量過高的估計,這是目前大多數(shù)數(shù)值集合預測系統(tǒng)存在的問題。均值預測糾正了原始預測結果偏高的問題,可以覆蓋到更多的觀測值(圖2(b)),但是集合預測的結果表現(xiàn)并不理想,在對原始預測結果偏高的問題上表現(xiàn)的過于偏激,很多時候出現(xiàn)預測集合成員均為零值的情況,導致集合預測的預測區(qū)間無法有效覆蓋觀測值(圖2(c))。
圖3為雅礱江上游清水河站122 d的10%~90%預測區(qū)間與觀測值的對比情況。由圖3可以看出,原始預測出現(xiàn)和下游站點同樣的問題,預測集合區(qū)間無法覆蓋到較小的降雨量,過高估計了2 mm以下的降雨量。均值預測和集合預測明顯改善了原始預測高估降雨量的問題,特別是均值預測使絕大部分的觀測值落入到預測區(qū)間內。
圖2 雅礱江流域下游鹽源站降雨量122 d預見期下10%~90%預測區(qū)間與觀測值對比 圖3 雅礱江流域上游清水河站降雨量122 d預見期下10%~90%預測區(qū)間與觀測值對比
通過分析兩種建模方式預測區(qū)間與觀測值的對比情況可以發(fā)現(xiàn)均值預測可以達到更好的校正效果。雖然集合預測通過為集合成員賦予不同權重的方式考慮到集合成員對預測結果的不同貢獻,但并沒有使得預測結果有所提升,反而出現(xiàn)過度校正的問題,特別是下游區(qū)域中出現(xiàn)了多次預測區(qū)間為零的情況,這樣的問題雖然在上游區(qū)域內得到改善,但通過圖3可以發(fā)現(xiàn)集合預測在最后幾天預測中依然存在預測區(qū)間為零的情況。
圖4為雅礱江流域上游和下游區(qū)域降雨量在不同預見期下平均絕對誤差值的對比情況。由圖4可以看出,均值預測和集合預測的平均絕對誤差相較于原始預測均有所減小,兩種形式的校正方法在大部分情況下能夠使平均絕對誤差減小20.0%以上,說明基于廣義極值分布的EMOS方法可以在一定程度上提高原始預測的準確性;均值預測和集合預測的MAE值在不同區(qū)域下具有差異性,均值預測在上游地區(qū)的MAE值要明顯優(yōu)于集合預測(圖4(a)),均值預測的MAE值相較于集合預測能夠減小5.0%以上,特別是在第5、6 d的MAE值分別減小了11.4%和10.0%。但在下游地區(qū)均值預測的MAE值并沒有明顯優(yōu)勢,僅在第4和6 d均值預測的MAE值相較于集合預測減小了22.7%和6.6%,其他情況下則是集合預測的MAE值更小(圖4(b))。根據(jù)3.1節(jié)中預測區(qū)間與觀測值對比分析的結果可知,集合預測在下游站點中的預測效果并不理想,但此時集合預測的MAE值在更多情況下表現(xiàn)得更小,顯示出更高的預測準確性,這一點需要從指標本身進行一定的分析。圖2表明,觀測降雨量為0或接近0的天數(shù)占到了很大的比重,此時集合預測將多數(shù)情況下的集合成員全部預測為0,使得預測集合的均值在更多的時候更加接近觀測值,即使在個別日期下預測集合的均值與觀測值之間有較大的差異,但由于所占比重有限,當對所有預測天數(shù)取平均計算MAE值時,在平均過程中很容易去除掉一些較大預測偏差對整體計算結果的影響,從而導致對預測結果的評判錯誤。
圖4 雅礱江流域上、下游區(qū)域降雨量在不同預見期下的MAE值
圖5為雅礱江流域上、下游區(qū)域降雨量在不同預見期下連續(xù)排名概率得分的對比情況。由圖5可見,均值預測的預測結果擁有明顯優(yōu)勢,上游的CRPS值相較于原始預測減小了15.0%以上,下游的CRPS值減小可以達到30.0%以上,均值校正的方式有效改善了集合成員與實際觀測值之間誤差過大的問題,使得預測結果更加準確、可靠。集合預測的CRPS值則并不理想,在某些情況下大于原始預測的CRPS值,這說明集合預測使得集合成員與實際觀測值之間的誤差變得更大。通過對比圖4(b)和5(b)可以發(fā)現(xiàn),MAE值與CRPS值對于均值預測和集合預測的評價結果并不完全一致,均值預測的MAE值除在第4和6 d預見期下分別比集合預測小1.89、0.45之外,在其他預見期下均略大于集合預測的MAE值,但CRPS值則呈現(xiàn)出不同的評價結果,在不同預見期下集合預測的CRPS值明顯要比均值預測更大。對于MAE值和CRPS值在均值預測和集合預測中評價結果不一致的問題進行進一步探究,發(fā)現(xiàn)MAE值為預測與觀測值之間差值的一次函數(shù),該評價指標對于極大偏差值并不敏感,但CRPS值為預測與觀測值之間差值的平方項指標,相較于MAE值對于預測中一些極大偏差值的影響會更加敏感,因此導致了MAE值與CRPS值兩指標評價結果的差異。
圖6為均值預測的MAE值和CRPS值在雅礱江流域上、下游區(qū)域的差異情況。由圖6可以發(fā)現(xiàn),上游區(qū)域的MAE值和CRPS值相較于下游相應值要小40.0%以上;在不同預見期下評分的表現(xiàn)較為一致,隨著預見期的增加,預測的評價值會有一定程度的增大,第7 d預見期的評價值相較于第1 d的評價值大致提高了7.0%~11.2%。
上游區(qū)域和下游區(qū)域的評價值出現(xiàn)較大差異主要是由極值預測結果的準確性引起的,下游區(qū)域在雨季時受到季風氣候的影響水汽充足,時常會有較大降雨量出現(xiàn),上游區(qū)域的水汽相對于下游少很多,較大降雨量出現(xiàn)的可能性也較小,這一點通過圖2與3的對比可以很好的說明,下游鹽源站20 mm以上的降雨量天數(shù)可以占到2017年所有預測天數(shù)的9.0%,但上游清水河站則僅出現(xiàn)一天接近20 mm的降雨量。均值預測在下游站點中很難對較大雨量做出準確的預測,往往傾向于過低地估計較大雨量,但是在上游地區(qū)這樣的大雨量很少發(fā)生,因而對上游地區(qū)降雨預測的不確定性要遠小于下游地區(qū),所以此時均值預測能夠對絕大部分觀測值做出準確的預測。
圖5 雅礱江流域上、下游區(qū)域降雨量在不同預見期下的CRPS值
圖6 均值預測的MAE值和CRPS值在雅礱江流域上、下游區(qū)域的差異
(1)實驗結果表明,基于左刪失廣義極值分布的EMOS模型能夠在一定程度上改善雅礱江站點降雨的預測性能,但采用為集合成員賦予不同權重的建模形式并沒能達到預期效果,特別是在下游區(qū)域中出現(xiàn)多次預測集合為0的情況。集合預測中由于模型參數(shù)增加導致該方法在校正處理中出現(xiàn)過度擬合的問題,因此采用為集合成員賦予不同權重的建模形式并不適用于本次數(shù)值集合預測的校正處理,但這并不意味該建模形式沒有應用價值,Scheuerer[18]曾在文章中指出,如果一個集合預報中一些成員的預報技能明顯低于其他成員時,該方式所付出過度擬合的代價是值得的。因此在接下來的研究中需要選取多種數(shù)值預報中心的集合預報對該建模形式進行更加充分的驗證。
(2)基于左刪失廣義極值分布的EMOS方法在進行參數(shù)求解時為了能夠獲取足夠多的數(shù)據(jù)進行參數(shù)估計,便將預測區(qū)域內所有站點前期數(shù)據(jù)用于計算,導致所有站點均采用同一套模型參數(shù),而沒有考慮參數(shù)在空間上的差異性,這在一定程度上也會對不同區(qū)域下的校正結果產生影響。如在本次實驗中雅礱江流域下游區(qū)域的水汽較為充足,降雨量在空間上會有較大的變化差異,當每一個站點使用相同的模型參數(shù)時,則降雨量在空間上的變化差異無法得到體現(xiàn),數(shù)據(jù)平均過程使得模型無法對極值降雨量進行準確預測,相反,上游水汽相對較少,降雨量在空間上的差異小于下游,因此上游區(qū)域降水預測受到參數(shù)一致性的影響較小。在接下來的研究中需要進一步明確降水量的空間差異性對該方法的校正效果究竟會產生多大的影響,并在此基礎上對方法進行改進。
本研究將基于左刪失廣義極值分布的EMOS方法應用到雅礱江流域降雨預測的校正后處理中,實現(xiàn)對降雨預測的校正工作。通過分析對比均值預測和集合預測對降雨預測校正效果的差異,可以得到如下主要結論:
(1)基于左刪失廣義極值分布的EMOS模型采用集合成員作為分布參數(shù)預測因子時其預測校正結果并沒有達到預期效果。該方式因在模型構建中為模型賦予過多的參數(shù),使得模型變得更加復雜,導致模型極易發(fā)生過度擬合的問題,無法對降水預測進行有效的校正。
(2)基于左刪失廣義極值分布的EMOS模型采用集合預測均值作為分布參數(shù)預測因子時預測結果準確性相比原始預測得到較大提升,其預測結果明顯優(yōu)于采用集合成員作為分布參數(shù)預測因子方式的預測結果。但該方式的預報結果依然存在漏報問題,特別是針對流域中較大量級降雨的預測不準確。
(3)采用集合預測均值作為分布參數(shù)預測因子的方式無法對較大量級降雨進行準確預測的問題導致該方式預測結果的準確性在流域不同區(qū)域出現(xiàn)較大差異,由于下游區(qū)域的水汽充沛,發(fā)生大量級降雨的次數(shù)明顯大于上游,因此其預測結果在上游的準確性比下游更高。