申子彬 郁懋楠 吳澤亮 岳夢琦
摘? 要:針對當前氣溫預報精細化程度無法滿足經(jīng)濟發(fā)展及人民群眾的需求,利用寧??h22個氣象站2013—2016年的逐日氣溫資料、EC數(shù)值模式氣溫預報資料以及各站點的地理信息資料,實況資料作為輸出,數(shù)值預報、地理信息資料作為輸入,構(gòu)建DBN神經(jīng)網(wǎng)絡氣溫預報模型。經(jīng)過訓練的神經(jīng)網(wǎng)絡模型對數(shù)值預報氣溫資料有正的訂正作用,對站點平均預報準確度縮小1.18 ℃,該模型可以用于氣溫降尺度業(yè)務實際。
關(guān)鍵詞:機器學習;EC數(shù)值預報模式;地理信息資料;氣溫降尺度
中圖分類號:TP181? ? 文獻標識碼:A 文章編號:2096-4706(2021)17-0022-04
Abstract: In view of the fact that the current refinement of temperature forecast can not meet the needs of economic development and the people, the daily temperature data of 22 meteorological stations in Ninghai County from 2013 to 2016, the EC numerical mode temperature forecast data, the geographic information materials of each station and factual information are used as the output, and the numerical forecast and geographic information materials are used as the input, the temperature prediction model based on DBN neural network is constructed. The trained neural network model has a positive correction effect on the numerical temperature prediction data, and the average prediction accuracy of the station is reduced by 1.18 ℃. This model can be used in the practice of temperature downscaling.
Keywords: machine learning; EC numerical prediction model; geographic information materials; temperature downscaling
0? 引? 言
天氣與人類社會的工農(nóng)業(yè)生產(chǎn)、日常生活、軍事行動等各方面聯(lián)系密切,而氣溫則是天氣的重要因素,是表征大氣冷熱程度的物理量,其變化不僅僅能直接影響到公眾的日常生活,同時也對經(jīng)濟活動有著顯著影響。2016年1月20—25日,受幾十年一遇的寒潮天氣影響,寧海出現(xiàn)罕見的低溫雨雪冰凍天氣,全縣農(nóng)、林、漁、交通、城市設施、人民生活等均受到不同程度的影響,其中寧海農(nóng)業(yè)支柱產(chǎn)業(yè)白枇杷幾乎全軍覆滅,橘樹也有不同程度的凍害,大面積的水管、水表凍裂也對人民生活造成了很大影響。目前氣象監(jiān)測站點的建設密度有限,從空間分辨率上、精準度上遠遠無法滿足經(jīng)濟發(fā)展及人民群眾對氣溫精細化監(jiān)測預報的需求。所以對氣溫監(jiān)測數(shù)據(jù)以及預報數(shù)據(jù)的降尺度越來越迫切。
目前國內(nèi)外已有較多的氣溫降尺度研究,如Hofer等[1]利用EOF和多元回歸法將NCEP/NCAR氣溫數(shù)據(jù)降尺度到冰川站點上;Huth[2]利用典型自相關(guān)、多元回歸等方法降尺度NCEP/NCAR冬季日均溫到中西歐的氣象站點上;鈔振華[3]利用基于背景長協(xié)方差的最優(yōu)插值法將ERA-40氣溫數(shù)據(jù)降尺度到中國西部0.125°網(wǎng)格上。這些方法主要利用了再分析資料與觀測數(shù)據(jù)之間的統(tǒng)計關(guān)系,未考慮地表特征的差異,具有一定的不確定性。眾所周知,影響山區(qū)氣溫空間變化的因素很多,從氣候上說,主要包括宏觀地理條件、海拔、地形和下墊面條件等。宏觀地理條件主要指氣象站點所在的經(jīng)緯度、距離大水體遠近、所在山系走向及宏觀氣候背景等;地形主要涉及地形類別、坡度、坡向以及地形遮蔽;下墊面條件包括土壤、植被狀況等[4]。也有不少研究在氣溫降尺度中考慮了地形對氣溫的影響,如楊青等[5]基于EOF特征向量和DEM建立的推算模型、蔡迪花等[6]建立的基于DEM多元線性回歸插值法、楊昕等[7]建立的基于DEM 地形修正模型和張洪亮等[8]建立的地形調(diào)節(jié)統(tǒng)計模型(TASM)等,這些氣溫校正的基礎仍然是空間內(nèi)插(如多元回歸法、樣條插值法、氣溫垂直訂正法)后的結(jié)果。忽略了海陸差異、地形變化對氣溫的影響。
隨著計算機技術(shù)的迅速發(fā)展,機器學習技術(shù)的出現(xiàn),從技術(shù)理論上使得氣象科研工作者可以從大量氣象數(shù)據(jù)中尋找理想的氣溫降尺度方法。本文將充分利用寧海縣域內(nèi)22個氣象觀測站近4年的日氣溫觀測資料、近4年的EC數(shù)值模式氣溫預報資料,縣域地理信息系統(tǒng)DEM高程資料,通過機器學習構(gòu)建包含局地氣象特征的氣溫降尺度模型,最終實現(xiàn)寧??h域內(nèi)氣溫監(jiān)測數(shù)據(jù)以及預報數(shù)據(jù)的降尺度,形成氣溫精細化預報模型。
1? 資料
1.1? 氣象資料
本文采用了寧海縣國家氣象站以及寧??h域內(nèi)21個區(qū)域自動氣象站共計22個站的2013至2016年4年逐日08時、20時氣溫資料;EC數(shù)值模式2013至2016年4年逐日未來12小時預報場08時、20時氣溫預報資料;全縣22個氣象觀測站的基礎信息資料包括經(jīng)緯度、海拔高度、坡度、坡向、距離海岸線距離等資料。
EC數(shù)值模式2013至2016年4年逐日未來12小時預報場08時、20時氣溫預報資料,預報資料為網(wǎng)格化資料,每一個預報時次為一張有一定分辨率的網(wǎng)格化數(shù)據(jù)。根據(jù)站點的經(jīng)緯度,通過插值法,可以獲得數(shù)值預報在每個測站位置的預報數(shù)據(jù)。
1.2? 地理信息資料
地理信息資料為國家地理信息中心提供的浙江省基礎地理背景數(shù)據(jù),提取200 m×200 m分辨率的寧??h數(shù)字高程模型DEM及經(jīng)緯度、海拔高度數(shù)據(jù)。利用ArcGIS自帶函數(shù),計算200 m×200 m分辨率的坡度、坡向數(shù)據(jù)。再利用DEM數(shù)據(jù)、海岸線矢量圖計算各網(wǎng)格點距離海岸線距離:
式(1)中x、y為各網(wǎng)格點的坐標值,x0、y0為海岸線矢量點的坐標值,通過ArcGIS距離分析計算,得到各網(wǎng)格點距離海岸線距離最小值形成柵格數(shù)據(jù),再按點提取離海岸線距離。
2? 研究方法
2.1? DBN神經(jīng)網(wǎng)絡模型
2006年,Hinton[4]提出了逐層貪婪預訓練受限玻爾茲曼機的方法,開啟了深度神經(jīng)網(wǎng)絡發(fā)展的新時代。Hinton將這種基于玻爾茲曼機預訓練的結(jié)構(gòu)稱為深度置信網(wǎng)絡結(jié)構(gòu)(DBN),DBN神經(jīng)網(wǎng)絡模型是目前研究和應用比較廣泛的深度學習結(jié)構(gòu),是由多個受限玻爾茲曼機(RMB)層層疊加而成,而受限玻爾茲曼機(RBM)是一種具有隨機性的生成神經(jīng)網(wǎng)絡結(jié)構(gòu),它本質(zhì)上是一種由具有隨機性的一層可見神經(jīng)元和一層隱藏神經(jīng)元所構(gòu)成的無向圖模型。它只有在隱藏層和可見層神經(jīng)元之間有連接,可見層神經(jīng)元之間以及隱藏層神經(jīng)元之間都沒有連接。并且,隱藏層神經(jīng)元通常取二進制并服從伯努利分布,可見層神經(jīng)元可以根據(jù)輸入的類型取二進制或者實數(shù)值。
DBN 模型它既可以被看作成一個生成模型,也可以被當作成判別模型,其訓練過程是使用非監(jiān)督貪婪逐層方法去預訓練獲得權(quán)值。其核心思想是:
(1)預訓練:對DBN進行分層,分別單獨無監(jiān)督地訓練每一層RBM網(wǎng)絡,將其結(jié)果作為高一層的輸入。
(2)微調(diào):預訓練結(jié)束后,DBN可以利用帶標簽的數(shù)據(jù)及BP算法去調(diào)整網(wǎng)絡結(jié)構(gòu)的性能。RBM網(wǎng)絡訓練模型的過程可以看作是對一個深層BP網(wǎng)絡權(quán)值參數(shù)的初始化,相當于DBN的BP算法只需要對權(quán)值參數(shù)空間進行一個局部的搜索,這使得DBN克服了BP網(wǎng)絡因隨機初始化權(quán)值參數(shù)而容易陷入局部最優(yōu)和訓練時間過長的缺點。在貪婪的學習算法過程中,生成模型使用Wake-Sleep算法進行調(diào)優(yōu)。
2.2? 資料預處理
(1)將EC數(shù)值預報產(chǎn)品網(wǎng)格數(shù)據(jù)插值到22個站點的經(jīng)緯度上,確定22個站點4年內(nèi)逐日兩次預報數(shù)據(jù)。
(2)將每個站點每個時次的預報數(shù)據(jù)、站點經(jīng)緯度、海拔、坡度、坡向、距離海岸線距離、實況氣溫觀測數(shù)據(jù)整合為一條數(shù)據(jù),22個站點4年時間一共形成(365×3+ 366)×2×22=64 284條數(shù)據(jù),將其近似分為5等份。
(3)將每等份數(shù)據(jù)進行歸一化處理,使用min-max標準化方法,將所有數(shù)據(jù)的值映射到[0—1]之間。函數(shù)為:
X*=(X-min)/(max-min)? ? ? ? ? ? ? ? ?(2)
3? DBN模型在氣溫降尺度插值中的應用
3.1? 建立DBN神經(jīng)網(wǎng)絡氣溫降尺度模型
氣象數(shù)值模式的預報產(chǎn)品、縣域內(nèi)的地理因素均與實際氣溫有著良好的相關(guān)性,所以可以利用其相關(guān)性的特征建立DBN氣溫降尺度模型,構(gòu)建一個輸入層因子為EC模式預報氣溫、站點經(jīng)緯度、海拔、坡度、坡向、距離海岸線距離,2層隱藏層的DBN模型,同時將對應站點、對應時間點的實測氣溫數(shù)據(jù)也作為輸入訓練DBN模型。得到一個基于EC數(shù)值模式氣溫預報產(chǎn)品的氣溫訂正模型。具體訓練以及實驗步驟可分以下幾步:
(1)將4年里的各站點EC數(shù)值模式氣溫預報數(shù)據(jù)、站點經(jīng)緯度、海拔高度、坡度、坡向、距離海岸線距離、實況數(shù)據(jù)按站按時次隨機分為5份。
(2)以其中任意4份數(shù)據(jù)為訓練數(shù)據(jù),另一份留作測試數(shù)據(jù),分5次訓練DBN模型。
(3)訓練完畢后,成功構(gòu)建一個基于DBN模型訓練的氣溫預報產(chǎn)品的氣溫訂正模型,將5次訓練后的另一份數(shù)據(jù)作為測試數(shù)據(jù)輸入模型中;輸出模擬值與實況氣溫值。
3.2? 檢驗結(jié)果分析
將測試組數(shù)據(jù)代入形成的訂正模型中,生成的模擬值與實況數(shù)據(jù)進行對比發(fā)現(xiàn),訓練組數(shù)據(jù)經(jīng)模型模擬得到的模擬值與實況值的平均誤差是1.61度,將模擬值與實況值進行相關(guān)分析,R2=0.977 7;而如不經(jīng)過DBN模型,將EC數(shù)值預報的氣溫產(chǎn)品直接與實況值進行對比發(fā)現(xiàn),平均誤差為2.79度,R2=0.9614。數(shù)據(jù)的對比可以發(fā)現(xiàn),基于DBN模型訓練的訂正模型在一定程度上對氣溫預報數(shù)據(jù)有修正作用。經(jīng)模型模擬的數(shù)據(jù)、未經(jīng)模擬的數(shù)據(jù)與實況對比,如圖1所示。
利用寧??h域內(nèi)20 m×20 m分辨率的地理信息數(shù)據(jù)、2016年2月5日EC數(shù)值模式氣溫預報場插值到200 m× 200 m的格點上,將每一個格點的數(shù)據(jù)代入上述訓練模型中,即可得到寧??h域2016年2月5日20時200 m×200 m的精細化氣溫分布情況,如圖2所示。
4? 結(jié)? 論
氣溫精細化預測是一項很有挑戰(zhàn)性的研究,隨著整個人類經(jīng)濟社會的快速發(fā)展,人們對氣溫預測的時空分辨率要求越來越高,氣溫對生產(chǎn)生活有著非同一般的影響,近幾十年來,氣象預報數(shù)值模式得到了長足的發(fā)展,但對小范圍、局地性的溫度變化難以預測預報,在數(shù)值模式中,整個寧??h域1 900多平方公里的地方可能也就寥寥十幾個格點,無論數(shù)值模式的精度如何發(fā)展,僅僅靠數(shù)值模式的預報肯定無法滿足經(jīng)濟社會對氣溫精細化預報的需求。本文著眼于解決氣溫精細化預報的難點,選擇了利用機器學習的方法對海量的氣溫數(shù)據(jù)、地理信息數(shù)據(jù)學習和挖掘,最終得到氣溫精細化預報的模型。主要的工作與結(jié)論有以下幾點:
(1)氣象觀測數(shù)據(jù)、氣象數(shù)值模式預報數(shù)據(jù)以及測站的地理信息數(shù)據(jù)真實性和可靠性是深度學習實驗的基礎,本文使用EC細網(wǎng)格數(shù)值模式氣溫預報數(shù)據(jù)來源于歐洲中期天氣預報中心,數(shù)據(jù)質(zhì)量控制較好。通過數(shù)據(jù)歸一化預處理,將復雜的各類數(shù)據(jù)轉(zhuǎn)化為實驗可用的數(shù)據(jù)格式。
(2)本文使用機器學習模型進行氣溫精細化預測研究,將6萬多個數(shù)據(jù)源分為5份,4/5的數(shù)據(jù)作為訓練源,1/5的數(shù)據(jù)作為測試數(shù)據(jù),最后驗證,經(jīng)DBN模型構(gòu)建的模型有實用價值,模擬值準確度高于數(shù)值預報產(chǎn)品,探明了機器學習方法在氣溫精細化預報上的優(yōu)勢。
(3)隨機選取了一個時次2016年2月5日20時的EC氣溫預報場代入構(gòu)建的模型計算,得到精細化的寧海縣域氣溫分布圖,氣溫分布圖較好的預報了沒有測站區(qū)域的氣溫,也為精細化氣溫預報提供了可行的新方法。
(4)本文考慮影響氣溫的因子有限,沒有包含全縣植被覆蓋資料等其他可能影響氣溫的因子;對機器學習的深入程度還不夠,未選擇更多機器學習模型進行對比實驗,還需在下一步研究中更進一步探討。
參考文獻:
[1] HOFER M ,M?LG T,MARZELON B,et al. Empirical-statistical downscaling of reanalysis data to high-resolution air temperature and specific humidity above a glacier surface (Cordillera Blanca,Peru) [J/OL].Journal of Geophysical Research:Atmospheres,2010,115(D12):[2021-07-24].https://doi.org/10.1029/2009JD012556.
[2] RADAN H. Statistical Downscaling of Daily Temperature in Central Europe [J].Journal of Climate,2002,15(13):1731-1742.
[3] 鈔振華.中國西部地區(qū)氣溫資料的統(tǒng)計降尺度研究 [J].干旱區(qū)研究,2011,28(5):879-884.
[4] 翁篤鳴,羅哲賢.山區(qū)地形氣候 [M].北京:氣象出版社,1990.
[5] 楊青,史玉光,袁玉江,等.基于DEM的天山山區(qū)氣溫和降水序列推算方法研究 [J].冰川凍土,2006(3):337-342.
[6] 蔡迪花,郭鈮,李崇偉.基于DEM的氣溫插值方法研究 [J].干旱氣象,2009,27(1):10-17+28.
[7] 楊昕,湯國安,王春,等.基于DEM的山區(qū)氣溫地形修正模型——以陜西省耀縣為例 [J].地理科學,2007(4):525-530.
[8] 張洪亮,倪紹祥,鄧自旺,等.基于DEM的山區(qū)氣溫空間模擬方法 [J].山地學報,2002(3):360-364.
作者簡介:申子彬(1992—),男,漢族,湖南邵東人,科員,工程師,理學學士學位,研究方向:天氣預報與應用氣象。