• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    3種修正的機器學習算法在逐3 h降水量預報中的比較應用

    2020-02-24 02:53:18孫俊奎王占良
    甘肅科學學報 2020年1期
    關鍵詞:訓練樣本降水量降水

    孫俊奎,王占良,張 穎

    (云南省昆明市氣象局,云南 昆明 650034)

    降水預報是天氣預報和防災減災工作的關鍵環(huán)節(jié),特別是定量和定時的降水天氣預報預警呈精準化趨勢[1]。數(shù)值預報模式輸出的降水量預報準確性較低[2]。天氣預報業(yè)務常用的歐洲中心細網(wǎng)格預報場中降水場相對其他物理量場效果差,特別是強降水的預報效果更差。因此,對數(shù)值預報模式的其他物理量場解釋應用再輸出降水量場的研究十分必要。

    數(shù)值預報釋用技術從模式輸出統(tǒng)計(MOS,model output statistics)和完全預報(PP,perfect prognosis)等線性統(tǒng)計回歸方法,發(fā)展到非線性回歸方法。目前常用的非線性機器學習算法有神經(jīng)網(wǎng)絡(BP,back propagation)方法[3]、支持向量機(SVM,support vector machine)方法[4-5]和Logistics判別方法[6-7]等。農(nóng)吉夫等[8]基于主成分徑向基函數(shù)(RBF,radial basis function)神經(jīng)網(wǎng)絡建立了降水預報模型;常軍等[9]和陳超輝等[10]采用SVM回歸方法開展了預測和預報研究;黃健敏等[11]和吳凡等[12]建立了Logistics回歸的區(qū)域地質(zhì)災害和鐵路水害預報模型。在此基礎上,有人選用多家數(shù)值預報模式產(chǎn)品集成不同預報因子方案進行對比分析,優(yōu)選效果較好的預報方案。但是很少有研究綜合多種機器學習算法,優(yōu)化算法參數(shù),綜合各種學習機器的優(yōu)點,對比分析不同量級的降水在各種優(yōu)化算法的特點及優(yōu)劣。

    研究基于3種機器學習算法建立3 h時間間隔的累計降水量預報模型,并分別采用遺傳算法優(yōu)化預報模型和修正的Logistics判別方法構建3種降水量預報模型,最后對比檢驗3種預報模型特點,綜合各種方法的優(yōu)點,在時間上實現(xiàn)了發(fā)布逐3 h分辨率的降水量的短期預報,在業(yè)務上具有一定的實用性。

    1 資料與方法

    1.1 資料

    采用2016—2018年5—9月的歐洲中期天氣預報中心(ECMWF,european centre for medium-range weather forecasts)細網(wǎng)格數(shù)值預報各種物理量場資料,通過插值方法把物理量值插值到石林站點上,構建預報因子。預報量為同期石林觀測站未來3 d的3 h時間間隔的累計降水量。

    首先根據(jù)降水過程的水汽條件和垂直運動條件等天氣學條件,以及降水的物理機制,選取備選預報因子(見表1);然后,計算預報量與備選預報因子的相關系數(shù),排列與預報量相關性較好的因子(見表2)。

    表1 預報因子選取

    表2 預報因子與降水相關系數(shù)

    上述預報因子符合天氣學原理,基本包括了預報站點的溫度、濕度、穩(wěn)定性參數(shù)和垂直速度等。而且各個優(yōu)選預報因子之間的相關性較差,這樣預報因子的共線性特征顯著,預報因子代表性也良好。

    根據(jù)中央氣象臺現(xiàn)行業(yè)務規(guī)定,3 h時間間隔累計降水量≤0 mm為無降水;0~0.1 mm為零星小雨;0.1~2.9 mm為小雨;3.0~9.9 mm為中雨;10.0~19.9 mm為大雨;20.0~49.9 mm為暴雨;50.0~69.9 mm為大暴雨;≥70.0 mm為特大暴雨。

    1.2 機器學習算法

    (1) PNN方法 概率神經(jīng)網(wǎng)絡(PNN,probabilistic neural network)結(jié)構簡單,所需的訓練樣本較少,解決分類問題優(yōu)勢明顯。PNN用線性的算法完成非線性學習算法,是一種具有強大的容錯能力和結(jié)構自適應能力的非線性分類診斷網(wǎng)絡系統(tǒng)。

    PNN網(wǎng)絡結(jié)構如圖1所示。PNN網(wǎng)絡由輸入層、隱含層、求和層和輸出層構成。向量x輸入到隱含層中第i類模式的第j神經(jīng)元的關系定義為[13]

    Φij(x)=1/[(2π)1/2σd]·

    exp[-(x-xij)(x-xij)T/σ2],

    (1)

    其中:i=1,2,…,M,j=1,2,…,L;M為訓練樣本總數(shù);L為第i類神經(jīng)元個數(shù);d為樣本空間數(shù)據(jù)的維數(shù);σ為平滑因子,對網(wǎng)絡性能至關重要。

    圖1 PNN網(wǎng)絡結(jié)構Fig.1 PNN network structure

    (2) SVM方法 支持向量機(SVM)是常見的一種機器學習判別方法,是一個有監(jiān)督的學習模型,通常用來進行模式識別、分類以及回歸分析。SVM方法是通過一個非線性映射提高樣本空間維度,使得在低維度的樣本空間中非線性問題映射后變?yōu)楦呔S度空間中的線性問題。

    根據(jù)SVM回歸理論和降水量樣本的復雜性,優(yōu)選RBF核函數(shù)和Sigmoid 核函數(shù),然后對懲罰系數(shù)C和核參數(shù)γ(γ為1/m,m為樣本空間維數(shù))進行優(yōu)化,構建非線性回歸預報模型,即[14]

    (2)

    K(x,xi)=exp(-γ‖x-xi‖2),

    (3)

    K(x,xi)=tanh(γxTxi+coef),

    (4)

    其中:f(x)為預報函數(shù);M為支持向量的訓練樣本個數(shù);ai、bi、b0為通過訓練樣本確定的最優(yōu)超平面參數(shù);K為核函數(shù);xi為預報因子;coef為偏置系數(shù)。公式(3)即RBF核函數(shù),公式(4)為Sigmoid核函數(shù)。

    (3) Logistics判別方法 Logistics判別方法一般用于二分類問題[15],該函數(shù)方程為

    P(x)=1/[1+exp(-xβ)],

    (5)

    其中:x為樣本矩陣;β為待定參數(shù);P為降水發(fā)生的概率值,位于0和1之間。

    因為Logistic回歸輸出的只是預報概率,無法直接進行分類。一般以0.5為臨界值,進行二類判別。但是在實際問題中,以分類準確率為標準,得到實際問題對應的預報概率的判斷閾值pc。于是判斷大于pc為一類,而小于pc的屬于另一類。

    2 降水預報模型

    構建包含石林地區(qū)各種類型的降水天氣過程的樣本集合。采用2015—2017年5—9月期間的261 d 有效數(shù)據(jù)作為訓練樣本,訓練樣本數(shù)為2 088(每天8份3 h時間間隔累計降水量預報值)。

    2.1 GA-PNN和GA-SVM算法的優(yōu)化

    PNN和SVM訓練過程中容易出現(xiàn)局部最優(yōu)問題。遺傳算法(GA,genetic algorithm)能夠進行全局搜索,通過選擇、交叉和變異產(chǎn)生全局范圍內(nèi)的最優(yōu)個體,從而彌補PNN和SVM模型不足。利用GA算法優(yōu)化PNN網(wǎng)絡平滑參數(shù)和SVM模型的懲罰系數(shù)以及核函數(shù)參數(shù)。

    (1) GA-PNN設計和優(yōu)化 選用11個降水預報因子,設計了PNN輸入層對應有11個結(jié)點,輸出層有8個結(jié)點,分別對應無降水、零星小雨、小雨、中雨、大雨、暴雨、大暴雨、特大暴雨。利用MATLAB函數(shù)newpnn創(chuàng)建的神經(jīng)網(wǎng)絡自動選擇隱含層和求和層,使得誤差盡可能小。

    GA-PNN和GA-SVM算法1[16-17]:

    第1步:參數(shù)設置:定義迭代次數(shù)D,種群規(guī)模B,交叉概率p1和變異概率p2。

    第2步:fori=1∶D

    ① forj=1∶B

    根據(jù)PNN(SVM)準確率定義適應度。

    以適應度為標準進行重抽樣,適應度越高,抽樣概率越大。

    ② 以p1概率進行交叉。

    ③ 以p2概率進行變異。

    第3步:輸出最優(yōu)個體,將最優(yōu)個體帶入PNN(SVM的懲罰系數(shù)和核參數(shù))的平滑參數(shù),得到改進后的模型。

    PNN神經(jīng)網(wǎng)絡的徑向基函數(shù)的平滑參數(shù),一般默認是0.1,研究基于GA算法,通過大量訓練樣本的試驗,以試驗訓練樣本分類的準確率為結(jié)果目標,尋求最優(yōu)平滑參數(shù)。結(jié)果發(fā)現(xiàn),平滑參數(shù)取值0.126 0時,GA-PNN神經(jīng)網(wǎng)絡模型的分類正確率最高。建模試驗的效果如表3所列。

    表3 2種模型降水預報結(jié)果對比

    (2) GA-SVM設計和優(yōu)化 同樣,選用11個降水預報因子,結(jié)果輸出8個降水量級,算法見算法1。選用訓練樣本進行試驗,定義最大迭代數(shù)為400次,最大種群是50,交叉驗證準確率滿足60%。

    SVM主要是尋優(yōu)懲罰系數(shù)和核參數(shù),GA算法尋優(yōu)SVM的迭代過程如圖2所示,大約迭代200次以后,適應度值穩(wěn)定少變。當懲罰系數(shù)為25.861 3,核參數(shù)為0.143 2時,GA-SVM模型的分類正確率最高。

    圖2 遺傳算法優(yōu)化SVM最佳參數(shù)的適應度曲線Fig.2 Fitness curve of the optimal parameters of SVM optimized by GA

    2.2 Logistics回歸判別模型

    (1) Logistics回歸 單個的Logistics回歸只能得到一個降水量級概率,通過判斷閾值可以解決二類問題的分類。首先,建立11個降水預報因子與3 h累計的某一降水量級的線性回歸。線性回歸方程為

    y=β0+β1x1+β2x2+…+β11x11,

    (6)

    采用MATLAB回歸函數(shù)nlinfit。其次,將回歸的方程系數(shù)和預報結(jié)果值代入Logistics回歸方程:

    P=exp(y)/[1+exp (y)]。

    (7)

    最后,由修改后的Logistics回歸方程得到某降水量級是否發(fā)生的概率。

    (2) Logistics判別 Logistics判別的輸出概率與某一閾值比較,得到分類結(jié)果。不同的閾值對應不同分類。受試者工作特征(ROC,receiver operating characteristic)曲線和曲線下方面積(AUC,area under the curve)是判別分類的評價標準。

    不同降水級的ROC曲線如圖3所示。由圖3可知,3條ROC曲線,在假陽率等于0.3處取一條直線,ROC越往上,判別效果越好,晴雨的判別分類最好,大雨的判別分類最差。僅從ROC曲線不能完全體現(xiàn)判別分類的效果,于是通過AUC值輔助判斷分類。AUC 值的計算公式為

    (8)

    其中:x、y為ROC空間坐標軸;M為樣本數(shù);AUC為ROC曲線下的面積,取值在0.5~1。由圖3可見,晴雨、中雨和大雨的AUC分別是0.806 9、0.780 4和0.689 8,晴雨分類最優(yōu),中雨次之,大雨最差。降水量級越大分類效果越差。

    圖3 不同降水級的ROC曲線Fig.3 ROC curves of different precipitation levels

    如果這個分類器設定合適的閾值,則更能有預測價值。再次計算分類結(jié)果跟降水實況誤差值,進而可計算符合氣象預報業(yè)務準確性評價的TS(threat score)評分,從而得到最終的閾值pc。

    以上為某一個降水量級的二分類方法,各級降水量的預報還需要進行多級判斷。

    Logistics判別算法2:

    第1步:Logistics回歸:計算各級降水量的概率p。

    第2步:閾值計算:計算各級降水量AUC值,判斷預報的可能性。在TS評分基礎上計算最佳閾值pc。

    第3步:定義樣本數(shù)M,降水量級數(shù)N,y=1為正樣本,y=0為負樣本,某降水量級預報正樣本正確票數(shù)rv,預報負樣本正確票數(shù)為ro,漏報票數(shù)為lo,空報票數(shù)為ko。

    fori=1∶M

    ① forj=1∶N

    ifp>=pcandy=1

    rv=rv+1

    else ifp

    ro=ro+1

    else ifp

    lo=lo+1

    else ifp>=pcandy=0

    ko=ko+1

    end

    ② 求出每個降水量級的各類票數(shù)和,取最大票數(shù)為最終預報量級。

    ③ 輸出各個訓練樣本的預報結(jié)果以及TS評分、空報率和漏報率。

    對訓練樣本進行計算得出,晴雨、中雨和大雨的概率閾值分別為0.581 7、0.543 0和0.518 2(其他降水量級略)。訓練樣本所得的準確率和TS評分如表4所列。

    表4 Logistics模型降水預報結(jié)果

    3 模型效果檢驗分析

    選用2018年5—8月汛期的100 d有效數(shù)據(jù)作為檢驗樣本,檢驗樣本數(shù)為800(每天8份3 h時間間隔累計降水量預報值)。GA-PNN、GA-SVM和Logistics 3種機器學習算法的檢驗效果見表5,GA-PNN、GA-SVM學習算法的降水量預報分級檢驗效果見表6。

    表5 3種模型降水預報檢驗

    表6 GA-PNN和GA-SVM模型降水預報分量級檢驗

    由表5可知,GA-PNN和GA-SVM預報性能較穩(wěn)定,Logistics算法較差。但是3種算法的漏報率較低。3種算法中GA-PNN和Logistics的泛化能力較好,GA-SVM算法在訓練時最佳,但是檢驗時TS評分降低明顯,可能存在過擬合現(xiàn)象??傮w上看,3種算法可以參考使用,具有一定業(yè)務參考價值。

    由表6的GA-PNN和GA-SVM算法的多級降水量預報檢驗結(jié)果可見,2種算法晴雨TS評分高于50%,較強降水(中雨)的TS評分超過30%,強降水(大雨)的TS評分近28%。而且2種算法的漏報率均在30%以下,GA-SVM的漏報率較大,而GA-PNN的空報率較高。2種算法可以對比使用,取長補短。

    4 結(jié)論

    研究利用GA算法修正PNN和SVM機器學習模型,又擴展Logistics判別算法,實現(xiàn)多級分類功能,修正Logistics輸出概率的閾值判別方法。建立3種機器學習算法模型,對比分析各類算法模型的優(yōu)劣,得到如下結(jié)論:

    (1) 通過修正優(yōu)化了PNN和SVM算法參數(shù),使預報模型本地化,達到更好的預報效果。擴展Logistics判別算法和修正輸出概率的閾值,實現(xiàn)Logistics判別算法多級降水量預報的可能性。

    (2) GA-PNN和GA-SVM檢驗的TS評分在45%以上,Logistics判別算法的TS評分在28%以上,3種算法模型的檢驗漏報率均在20%以下。由此可見,GA-PNN和GA-SVM機器學習算法預報性能穩(wěn)定,有較好的效果,Logistics判別算法效果較差,但也是一種很好的補充。

    (3) 從擴展的Logistics判別算法的多級降水量預報檢驗結(jié)果可見,擴展的Logistics判別算法較強降水(中雨)的TS評分達36%,強降水(大雨)的TS評分近28%。雖然擴展的Logistics判別算法TS評分不高,但不失為一種補充使用的方法。

    3種機器學習算法取得了較好的效果,但是Logistics判別算法的穩(wěn)定性和強降水的TS評分不及30%,仍然需要進一步研究,如在預報因子組合和訓練樣本集合的優(yōu)選方面還需不斷完善。

    猜你喜歡
    訓練樣本降水量降水
    繪制和閱讀降水量柱狀圖
    黑龍江省玉米生長季自然降水與有效降水對比分析
    黑龍江氣象(2021年2期)2021-11-05 07:07:00
    人工智能
    降水量是怎么算出來的
    啟蒙(3-7歲)(2019年8期)2019-09-10 03:09:08
    為什么南極降水很少卻有很厚的冰層?
    家教世界(2018年16期)2018-06-20 02:22:00
    1988—2017年呼和浩特市降水演變特征分析
    寬帶光譜成像系統(tǒng)最優(yōu)訓練樣本選擇方法研究
    融合原始樣本和虛擬樣本的人臉識別算法
    電視技術(2016年9期)2016-10-17 09:13:41
    基于稀疏重構的機載雷達訓練樣本挑選方法
    降水現(xiàn)象儀模擬軟件設計與實現(xiàn)
    花垣县| 高平市| 迁西县| 九江市| 天柱县| 绥芬河市| 哈密市| 阿克苏市| 平乐县| 大英县| 保山市| 广宁县| 兴义市| 牡丹江市| 界首市| 鄢陵县| 平舆县| 民权县| 安新县| 武强县| 台南县| 芒康县| 涟源市| 蓝山县| 根河市| 万年县| 都江堰市| 托克逊县| 雷州市| 奈曼旗| 赫章县| 呼伦贝尔市| 辽中县| 庄浪县| 社旗县| 武乡县| 红桥区| 景德镇市| 竹山县| 盈江县| 江都市|