魯楊,李典,王雪萌,吳宇童,柴曉玲,班偉龍,張治
(1.沈陽市氣象局;2.沈陽市沈北新區(qū)氣象局,遼寧沈陽110000)
支持向量機(jī)方法在溫度預(yù)報(bào)中的應(yīng)用
——以沈陽地區(qū)為例
魯楊1,李典1,王雪萌2,吳宇童1,柴曉玲1,班偉龍1,張治1
(1.沈陽市氣象局;2.沈陽市沈北新區(qū)氣象局,遼寧沈陽110000)
本文利用沈陽站溫度資料和東北中尺度數(shù)值模式預(yù)報(bào)場資料,采用K-means算法進(jìn)行季節(jié)劃分試驗(yàn),基于支持向量機(jī)方法(Support Vector Machine,簡稱SVM)進(jìn)行交叉驗(yàn)證和預(yù)報(bào)檢驗(yàn),試圖建立溫度季節(jié)預(yù)報(bào)模型。結(jié)果表明:聚類季節(jié)劃分與傳統(tǒng)季節(jié)劃分之間存在差異,傳統(tǒng)的春、秋兩季被劃分為不連續(xù)的兩類,傳統(tǒng)的夏、冬兩季被劃分的不明顯,僅在時(shí)間長度上有所差異;支持向量機(jī)方法對夏季溫度預(yù)報(bào)準(zhǔn)確率最高,各時(shí)次溫度誤差≤2℃的準(zhǔn)確率平均為81.2%。冬季溫度預(yù)報(bào)準(zhǔn)確率最低,各時(shí)次溫度誤差≤2℃的準(zhǔn)確率平均為69.2%。冬季客觀方法對夜間降溫幅度的預(yù)報(bào)能力存在不足,而春季客觀方法對夜間最低氣溫的預(yù)報(bào)能力存在不足。平均絕對誤差除個(gè)別時(shí)次超過2℃外,其他時(shí)次均在誤差范圍內(nèi),客觀預(yù)報(bào)方法是可用的。
支持向量機(jī)方法;聚類分析;季節(jié)劃分
沈陽市位于遼河平原中部,受季風(fēng)影響較大,屬于北溫帶受季風(fēng)影響的半濕潤大陸性氣候,全年溫差較大,四季分明。夏季熱而多雨,冬季寒冷漫長,春秋兩季溫度變化迅速。隨著科技的進(jìn)步和社會的發(fā)展,農(nóng)業(yè)和各種重大活動對氣象服務(wù)的需求日益增高,溫度的精細(xì)化預(yù)報(bào)成為目前天氣預(yù)報(bào)面臨的挑戰(zhàn)與問題。大氣環(huán)流的變化存在復(fù)雜性和非線性,溫度的變化與各種預(yù)報(bào)因子間存在非線性相關(guān),支持向量機(jī)(Support Vector Machine,簡稱SVM)方法是處理非線性分類和回歸等問題的一種有效的方法。近年來,多地氣象部門利用模式直接輸出產(chǎn)品,應(yīng)用SVM方法制作各種氣象要素預(yù)報(bào),取得了一定成果。馮漢中[1]等利用1998年~2000年9~11月T106模式36小時(shí)預(yù)報(bào)的各種輸出產(chǎn)品構(gòu)造因子,以單站有無降水為預(yù)報(bào)對象,采用MOS法方式構(gòu)造樣本,通過建立單站的晴雨SVM分類預(yù)報(bào)模型,利用1990年~2000年4~9月ECMWF北半球的500hPa高度、850hPa溫度、地面氣壓的0小時(shí)分析場資料,確定關(guān)鍵區(qū)域,構(gòu)造預(yù)報(bào)因子,以PP法方式構(gòu)造樣本,通過訓(xùn)練建立了四川盆地內(nèi)單站氣溫的SVM回歸預(yù)報(bào)模型,并進(jìn)行了模擬試驗(yàn),結(jié)果表明無論是單站晴雨的SVM分類預(yù)報(bào)模型還是單站平均氣溫的SVM回歸預(yù)報(bào)模型都顯示出了良好的預(yù)報(bào)能力。高永娜[2]等以風(fēng)向、風(fēng)速、云量、相對濕度、露點(diǎn)溫度、氣壓6個(gè)相關(guān)因素為因子,采用Libsvm軟件進(jìn)行預(yù)測建模,用真實(shí)數(shù)據(jù)進(jìn)行分析對比,得出SVM方法預(yù)測氣溫?cái)?shù)據(jù)與真實(shí)數(shù)據(jù)有較高的擬合度。王在文[3]等利用北京市氣象局中尺度業(yè)務(wù)模式(MM5V3)的數(shù)值預(yù)報(bào)產(chǎn)品和觀測資料,制作北京15個(gè)奧運(yùn)場館站點(diǎn)6~48小時(shí)逐3小時(shí)的氣象要素釋用產(chǎn)品,對比MM5V3模式,2米溫度的均方根誤差減小12.1%,與同期MOS方法預(yù)報(bào)結(jié)果相對,2米溫度預(yù)報(bào)效果SVM略優(yōu)于MOS。
本文采用K-means算法進(jìn)行季節(jié)劃分試驗(yàn),在東北中尺度數(shù)值模式WRF-3KM直接輸出產(chǎn)品的基礎(chǔ)上,基于支持向量機(jī)方法,進(jìn)行交叉驗(yàn)證和預(yù)報(bào)檢驗(yàn),建立本地區(qū)的溫度預(yù)報(bào)的季節(jié)模型,為農(nóng)業(yè)生產(chǎn)及大城市精細(xì)化預(yù)報(bào)業(yè)務(wù)提供保障。
1.1 資料
本文所用資料為沈陽站(站號:54342)歷史同期(1980年~2010年)溫度資料,2013年~2014年東北中尺度數(shù)值模式WRF-3KM未來12~36小時(shí)預(yù)報(bào)場資料和沈陽國家觀測站實(shí)況資料。
1.2 方法
1.2.1 SVM方法 為解決基于數(shù)據(jù)的非線性建模問題,基于V.N.Vapnik等提出的統(tǒng)計(jì)學(xué)習(xí)理論(小樣本理論)[4-8],近年來提出了支持向量機(jī)(Support Vector Machines,簡稱SVM,下同)方法[9-10],其基本思路為:以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為前提,定義最優(yōu)化線性超平面,把尋找最優(yōu)線性超平面的算法歸結(jié)為求解一個(gè)凸規(guī)劃問題,從理論上得到的局部最優(yōu)解,也就是全局的最優(yōu)解;進(jìn)而基于Mercer核展開定理,通過非線性映射,把樣本空間映射到一個(gè)高維乃至于無窮維的特征空間,使在特征空間中可以應(yīng)用線性學(xué)習(xí)機(jī)的方法,解決樣本空間中的非線性分類和回歸的問題。本文通過回歸問題預(yù)報(bào)溫度。
回歸分析又稱函數(shù)估計(jì),其解決的問題是:根據(jù)給定的樣本集{(xi,yi)}|i=1,…,k},其中xi為預(yù)報(bào)因子值,yi為預(yù)報(bào)對象值,尋求一個(gè)反映樣本數(shù)據(jù)的最優(yōu)(按某一規(guī)定的誤差函數(shù)計(jì)算,所得函數(shù)關(guān)系對樣本數(shù)據(jù)集擬合的“最好”)函數(shù)關(guān)系y=f(x)。
1.2.2 K-means算法 K-means算法[11-12]為經(jīng)典的基于劃分的聚類方法,是十大經(jīng)典數(shù)據(jù)挖掘算法之一。其基本思想是:隨機(jī)選擇K個(gè)對象,每個(gè)對象代表一個(gè)簇的初始均值,也稱初始類中心,對剩余的每個(gè)對象,根據(jù)其與各個(gè)簇均值的距離,將其指派到最相似的簇。然后計(jì)算每個(gè)簇的新均值,這個(gè)過程不斷的重復(fù),直到準(zhǔn)則函數(shù)收斂。本文采用K-means算法進(jìn)行季節(jié)劃分試驗(yàn),K值為4。
采用02時(shí)、08時(shí)、14時(shí)和20時(shí)的沈陽站歷史同期資料,對4個(gè)時(shí)次進(jìn)行年平均處理,采用K-means方法,進(jìn)行聚類劃分,按傳統(tǒng)的春、夏、秋、冬4季,將所有樣本數(shù)劃分為4類,結(jié)果如圖1。從圖中可以看出,聚類分析后,將具有相同變化趨勢的樣本劃分為一類,與傳統(tǒng)季節(jié)劃分方式存在差異,將傳統(tǒng)的春、秋兩季劃分為不連續(xù)的兩類,而傳統(tǒng)的夏、冬兩季劃分的變化不明顯,僅在時(shí)間長度上有所差異。
圖1 沈陽地區(qū)氣溫的聚類劃分與傳統(tǒng)劃分的對比圖
3.1 預(yù)報(bào)因子選取
選取與溫度預(yù)報(bào)相關(guān)的因子,因子包括:500hPa位勢高度、700hPa相對濕度、850hPa相對濕度、925hPa相對濕度、850hPa U分量、925hPa U分量、850hPa V分量、925hPa V分量、850hPa垂直速度、925hPa垂直速度、總云量、海平面氣壓、地面氣壓、2米相對濕度、2米溫度、地表溫度、850hPa溫度、10米緯向風(fēng)分量、10米經(jīng)向風(fēng)和總降水量,共20個(gè)預(yù)報(bào)因子。
3.2 預(yù)報(bào)方程構(gòu)建
將樣本隨機(jī)劃分成兩部分,80%的樣本用于方程模型的建立,20%的樣本用于模型的檢驗(yàn)。共隨機(jī)抽取10次,尋求建立最優(yōu)化模型。構(gòu)建方程時(shí),核函數(shù)采用徑向基函數(shù)(參數(shù)包括:參數(shù)c和參數(shù)g),通過尋求參數(shù)c和參數(shù)g,建立最優(yōu)化模型,參數(shù)的選擇沒有規(guī)律,因此需要進(jìn)行大量試驗(yàn)。回歸模型的擇優(yōu)標(biāo)準(zhǔn)為絕對差,損失函數(shù)疊加上界為2000,回歸迭代最大次數(shù)10000。
表1 沈陽地區(qū)冬季溫度客觀預(yù)報(bào)方法參數(shù)選取
表2 沈陽地區(qū)春季溫度客觀預(yù)報(bào)方法參數(shù)選取
表3 沈陽地區(qū)秋季溫度客觀預(yù)報(bào)方法參數(shù)選取
表4 沈陽地區(qū)夏季溫度客觀預(yù)報(bào)方法參數(shù)選取
分析沈陽地區(qū)四季溫度客觀預(yù)報(bào)方法參數(shù)選取表(表1:冬季;表2:春季;表3:秋季;表4:夏季)。冬季參數(shù)c:11~83,參數(shù)g:0.03~0.15,回歸帶寬:2.0,支持向量個(gè)數(shù)占訓(xùn)練樣本的24.4%~57.6%;春季參數(shù)c:4~100,參數(shù)g:0.02~0.21,回歸帶寬:2.0,支持向量個(gè)數(shù)占訓(xùn)練樣本的20.0%~50.7%;秋季參數(shù)c:11~101,參數(shù)g:0.02~0.20,回歸帶寬:1.9~2.0,支持向量個(gè)數(shù)占訓(xùn)練樣本的26.2%~42.1%;夏季參數(shù)c:11~83,參數(shù)g:0.04~0.15,回歸帶寬:2.0,支持向量個(gè)數(shù)占訓(xùn)練樣本的17.9%~34.0%。各季節(jié)及預(yù)報(bào)時(shí)次的參數(shù)之間存在顯著差異,由于冬、春季訓(xùn)練樣本相對較少,所以依賴的支持向量比重相對多一些。
分析沈陽地區(qū)冬季溫度客觀預(yù)報(bào)方法檢驗(yàn)結(jié)果(見表5)。溫度誤差≤2℃的準(zhǔn)確率最高為81.1%,最低為52.3%,平均為69.5%;溫度誤差≤1℃的準(zhǔn)確率最高為48.5%,最低為20.3%,平均為33.1%;溫度誤差≤0.5℃的準(zhǔn)確率最高為28.7%,最低為9.2%,平均為18.6%;從結(jié)果來看,預(yù)報(bào)最差的兩個(gè)時(shí)次時(shí)效為27小時(shí)和30小時(shí),即夜間23時(shí)和02時(shí),說明客觀方法對夜間降溫幅度的把握還存在一定的不足。平均絕對誤差除時(shí)效27小時(shí)外,其他各時(shí)次誤差都在2℃以內(nèi),表明檢驗(yàn)樣本中,大多數(shù)成員的誤差都在2℃以內(nèi),只有少數(shù)成員超過了2℃的誤差,客觀預(yù)報(bào)方法是可用的。
表5 沈陽地區(qū)冬季溫度客觀預(yù)報(bào)方法檢驗(yàn)
表6 沈陽地區(qū)春季溫度客觀預(yù)報(bào)方法檢驗(yàn)
表7 沈陽地區(qū)秋季溫度客觀預(yù)報(bào)方法檢驗(yàn)
表8 沈陽地區(qū)夏季溫度客觀預(yù)報(bào)方法檢驗(yàn)
分析沈陽地區(qū)春季溫度客觀預(yù)報(bào)方法檢驗(yàn)結(jié)果(見表6)。溫度誤差≤2℃的準(zhǔn)確率最高為89.6%,最低為50.0%,平均為75.3%;溫度誤差≤1℃的準(zhǔn)確率最高為53.3%,最低為19.1%,平均為37.6%;溫度誤差≤0.5℃的準(zhǔn)確率最高為34.1%,最低為11.9%,平均為21.2%;春季較冬季預(yù)報(bào)結(jié)果有明顯提高,預(yù)報(bào)最差的兩個(gè)時(shí)次時(shí)效為30小時(shí)和33小時(shí),即清晨02時(shí)和05時(shí),正是夜間最低氣溫出現(xiàn)的時(shí)刻,春季客觀方法對夜間最低氣溫的把握還存在一定的不足。平均絕對誤差各時(shí)次均在2℃以內(nèi),12小時(shí)時(shí)效誤差在1℃以內(nèi),表明檢驗(yàn)樣本中,除少數(shù)極端樣本預(yù)報(bào)出現(xiàn)失誤外,其他成員均在2℃的誤差范圍內(nèi),客觀預(yù)報(bào)方法可用。
分析沈陽地區(qū)秋季溫度客觀預(yù)報(bào)方法檢驗(yàn)結(jié)果(見表7)。溫度誤差≤2℃的準(zhǔn)確率最高為87.2%,最低為69.3%,平均為76.6%;溫度誤差≤1℃的準(zhǔn)確率最高為45.7%,最低為24.0%,平均為40.7%;溫度誤差≤0.5℃的準(zhǔn)確率最高為27.6%,最低為16.0%,平均為22.0%;秋季較冬、春季預(yù)報(bào)結(jié)果有了進(jìn)一步提高,尤其是夜間最低氣溫的預(yù)報(bào),主要是由于秋季最低氣溫變化相對平穩(wěn)。平均絕對誤差除時(shí)效30小時(shí)外,其他各時(shí)次誤差都在2℃以下,客觀預(yù)報(bào)方法可用。
分析沈陽地區(qū)夏季溫度客觀預(yù)報(bào)方法檢驗(yàn)結(jié)果(見表8)。溫度誤差≤2℃的準(zhǔn)確率最高為88.3%,最低為72.2%,平均為81.2%;溫度誤差≤1℃的準(zhǔn)確率最高為50.4%,最低為39.7%,平均為47.0%;溫度誤差≤0.5℃的準(zhǔn)確率最高為29.8%,最低為19.2%,平均為24.3%;夏季客觀方法預(yù)報(bào)是一年四季中最高的,各個(gè)時(shí)次溫度誤差≤2℃的準(zhǔn)確率都在72%以上,各個(gè)時(shí)次的平均絕對誤差為1.27℃,夏季客觀預(yù)報(bào)方法最為準(zhǔn)確。
本文采用K-means算法進(jìn)行季節(jié)劃分試驗(yàn),在東北中尺度數(shù)值模式WRF-3KM直接輸出產(chǎn)品的基礎(chǔ)上,基于支持向量機(jī)方法,進(jìn)行交叉驗(yàn)證和預(yù)報(bào)檢驗(yàn),結(jié)果表明:
聚類季節(jié)劃分與傳統(tǒng)季節(jié)劃分存在差異,將傳統(tǒng)的春、秋兩季劃分為不連續(xù)的兩類,而傳統(tǒng)的夏、冬兩季劃分的變化不明顯,僅在時(shí)間長度上存有差異。
支持向量機(jī)方法對四季溫度進(jìn)行預(yù)報(bào),其中夏季溫度預(yù)報(bào)準(zhǔn)確率最高,各時(shí)次溫度誤差≤2℃的準(zhǔn)確率平均為81.2%。冬季溫度預(yù)報(bào)準(zhǔn)確率最低,各時(shí)次溫度誤差≤2℃的準(zhǔn)確率平均為69.2%。冬季客觀方法對夜間降溫幅度的預(yù)報(bào)能力存在不足,而春季客觀方法對夜間最低氣溫的預(yù)報(bào)能力存在不足。平均絕對誤差除個(gè)別時(shí)次超過2℃外,其他時(shí)次均在誤差范圍內(nèi),客觀預(yù)報(bào)方法是可用的。
[1]馮漢中,楊淑群,劉波.支持向量機(jī)(SVM)方法在氣象預(yù)報(bào)中的個(gè)例試驗(yàn)[J].四川氣象,2005(02):9-12.
[2]高永娜,鄭華珠,劉沈,等.支持向量機(jī)方法在氣溫預(yù)報(bào)中的應(yīng)用[J].寧夏農(nóng)林科技,2012,(06):137-139.
[3]王在文,鄭祚芳,陳敏,等.支持向量機(jī)非線性回歸方法的氣象要素預(yù)報(bào)[J].應(yīng)用氣象學(xué)報(bào),2012,(05):562-570.
[4]Vapnik V N.Statistical Learning Theory.John Wiley& Sons,Inc.New York,1998.
[5]Vapnik V N.The Nature of Statistical Learning Theory.Springer Verlag,New York,2000.
[6]Cristianini N and Shawa-Taylor J.An Introduction of Support Vector Machines and Other Kernel_based Learning Methods.Cambridge University Press,2000.
[7]Burges C J.A tutorial on support vector machines for pattern recognition.Data Mining and Know ledge Di scovery, 1998,2:127-167.
[8]Courant R and Hilbert D,Method of Mathematical Physics, Volume I.Springer Verlag,1953.
[9]陳永義,愈小鼎,高學(xué)浩,等.處理非線性分類和回歸問題的一種新方法(I)——支持向量機(jī)方法簡介[J].應(yīng)用氣象學(xué)報(bào),2004,15(03):345-354.
[10]馮漢中,陳永義.處理非線性分類和回歸問題的一種新方法(Ⅱ)——支持向量機(jī)方法在天氣預(yù)報(bào)中的應(yīng)用[J].應(yīng)用氣象學(xué)報(bào),2004,15(03):355-364.
[11]李凱,常圣領(lǐng).基于K-means聚類的神經(jīng)網(wǎng)絡(luò)分類器集成方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(22):120-123.
[12]石云平.聚類K-means算法的應(yīng)用研究[J].理論與方法,2009,28(08):28-31.
2015年沈陽市科技局項(xiàng)目(F15-109-3-00)和沈陽市精細(xì)化預(yù)報(bào)團(tuán)隊(duì)共同資助
S165
A
10.14025/j.cnki.jlny.2017.15.012
魯楊,本科學(xué)歷,助理工程師,研究方向:天氣預(yù)報(bào)研究。