◎周 慧
(廣西科技大學(xué)理學(xué)院,廣西 柳州 545006)
廣西柳州每年在4—5月份前汛期,由于區(qū)域的暴雨等災(zāi)害性天氣,造成嚴(yán)重的洪澇災(zāi)害.提高前汛期月降水量的預(yù)測可以有效減輕這種嚴(yán)重氣象災(zāi)害對社會造成的損失.國內(nèi)有關(guān)長期降水量業(yè)務(wù)應(yīng)用的多數(shù)統(tǒng)計和動力統(tǒng)計客觀預(yù)測方法中,無法有效選擇建模因子導(dǎo)致預(yù)測模型穩(wěn)定性較差.20世紀(jì)90年代以來,國內(nèi)外在大氣學(xué)科中開展了很多有關(guān)神經(jīng)網(wǎng)絡(luò)預(yù)測建模和氣候分析等應(yīng)用研究.
機(jī)器學(xué)習(xí)方法在實(shí)際應(yīng)用中雖處理非線性問題能力較強(qiáng),但存在訓(xùn)練速度慢、容易陷入局部極小點(diǎn)等缺點(diǎn).近年來提出的極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)應(yīng)用的是一種針對單隱含層的前饋神經(jīng)網(wǎng)絡(luò)算法,只需設(shè)置隱含層神經(jīng)元數(shù)以及激活函數(shù),便可獲得最優(yōu)解,不受學(xué)習(xí)率選擇敏感的影響,具有良好的泛化性能以及極快的學(xué)習(xí)能力等優(yōu)點(diǎn).ELM目前被廣泛應(yīng)用到了各個領(lǐng)域.
由于降水?dāng)?shù)據(jù)具有較強(qiáng)的不確定性和顯著的非線性變化特征,因此用單個方法建立長期數(shù)值預(yù)測模式研究還難以應(yīng)用在預(yù)測業(yè)務(wù)中.為此,本文首先采用均生函數(shù)(Mean Generating Function,MGF)對降水序列進(jìn)行延拓,通過變換極限學(xué)習(xí)機(jī)模型的不同參數(shù)建立柳州月降水量預(yù)測模型,然后用等權(quán)平均法組合不同預(yù)測結(jié)果建立集成降水預(yù)測模型(Extreme Learning Machine Based on Mean Generating Function,MGF-ELM).
90年代初,魏鳳英等拓展了數(shù)理統(tǒng)計中算術(shù)平均值的概念,提出了均生函數(shù)算法.
設(shè)降水?dāng)?shù)據(jù)序列為{yt,t=1,2,…,N},MGF計算方法如下:
(1)
對其作周期延拓計算,得到周期延拓序列
(2)
其中P為預(yù)報步數(shù),則外延均生函數(shù)序列矩陣為
(3)
2004年,南洋理工大學(xué)的Huang提出了ELM算法,將均生函數(shù)的延拓矩陣作為自變量,原始降水序列作為因變量.
ELM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由輸入層、隱含層和輸出層組成,設(shè)輸入層有n個神經(jīng)元,隱含層有r個神經(jīng)元,輸出層有m個神經(jīng)元.
圖1 ELM網(wǎng)絡(luò)結(jié)構(gòu)圖
在ELM模型中,設(shè)該連接權(quán)值A(chǔ)為
(4)
aij表示隱含層第i個神經(jīng)元和輸入層第j個神經(jīng)元間的連接權(quán)值.設(shè)隱含層和輸出層之間的連接權(quán)值B為
(5)
bjk表示隱含層第j個神經(jīng)元與輸出層第k個神經(jīng)元間的連接權(quán)值.設(shè)隱藏節(jié)點(diǎn)的偏差為c,則有:
(6)
設(shè)隱含層神經(jīng)元激活函數(shù)為g(x),則網(wǎng)絡(luò)的輸出S為
(7)
HB=S′
(8)
其中H為ELM的隱含層輸出矩陣.可通過求以下式子的最小二乘解,得到隱含層與輸出層間的連接權(quán)值
(9)
60年代,Bate提出組合預(yù)測方法,通過將不同的單項預(yù)測模型進(jìn)行組合,對各種單項預(yù)測方法提供的信息進(jìn)行綜合利用,來提高模型的預(yù)測精度.等權(quán)平均法即算術(shù)平均法,不同單項預(yù)測模型的權(quán)重相同,可避免精度與權(quán)重大小不匹配的現(xiàn)象.
本文以柳州市1951~2020年每年的4月份70個降水量實(shí)測數(shù)據(jù)為實(shí)例分析,其中1951~2010年60個數(shù)據(jù)作為訓(xùn)練樣本建立MGF-ELM模型,其余2011~2020年10個數(shù)據(jù)作為測試樣本用于檢驗(yàn)?zāi)P皖A(yù)測效果.
為了更精確了解柳州4月份降水量的有關(guān)統(tǒng)計特征,根據(jù)1951~2020年降水預(yù)報資料可知,降水量的最大值為420.3 mm,最小值為33 mm,極差為387.3 mm,標(biāo)準(zhǔn)差為77.434 mm.以上數(shù)據(jù)表明柳州市4月平均降水量年際變化較大的氣候特征.因此,本文采用均生函數(shù)方法對柳州市1951~2020年4月份月降水序列進(jìn)行延拓,得到70×35的均生函數(shù)延拓矩陣.
本文建立了參數(shù)優(yōu)化后ELM模型和等權(quán)平均法組合兩種模型,采用以下四種統(tǒng)計指標(biāo)定量對比模型預(yù)測精度.
對比單一MGF-ELM和集成MGF-ELM模型.
分別改變MGF-ELM模型的激活函數(shù)和隱含層神經(jīng)元的個數(shù),得到15個參數(shù)不同的MGF-ELM模型.采用等權(quán)平均組合法,建立15個ELM模型的等權(quán)法集成模型.
一方面,由表1可以看出與15個單一模型相比,集成模型的RMSE和MAPE值較小,PCC的值大,說明集成模型的擬合精度高于單一模型.同時,選擇激活函數(shù)為sine,設(shè)置隱藏節(jié)點(diǎn)個數(shù)為30時,單一模型的擬合效果最好.由圖2可看出,集成模型的擬合情況明顯優(yōu)于單一模型.
表1 單一MGF-ELM模型和集成MGF-ELM模型的擬合效果統(tǒng)計指標(biāo)
另一方面,表2是兩個模型對柳州2011~2020年4月份10年月降水量的預(yù)測結(jié)果.集成模型預(yù)測降水平均絕對誤差和平均相對誤差分別為109.62和22%,而單一MGF-ELM模型預(yù)測降水的平均絕對誤差和平均相對誤差分別為362.44和38%.由此我們可以看出,集成MGF-ELM 模型預(yù)測能力優(yōu)于單一MGF-ELM模型.
圖2 兩個模型數(shù)據(jù)擬合效果
表2 兩個模型月降水量的預(yù)測結(jié)果
本文利用MGF對降水序列進(jìn)行延拓,以延拓矩陣作為自變量,原始降水序列作為因變量,利用不同ELM激活函數(shù)和不同參數(shù)建立降水預(yù)測模型并把結(jié)果等權(quán)平均組合.該方法具有以下特點(diǎn):
(1)采用均生函數(shù)方法對降水序列進(jìn)行延拓,以延拓矩陣作為自變量,原始降水序列作為因變量,建立ELM降水預(yù)測模型.此模型泛化能力好,更適用于非線性數(shù)據(jù),擬合和預(yù)測精度均明顯高于時間序列模型.
(2)通過調(diào)整ELM算法參數(shù)得到不同輸出結(jié)果,最后采用等權(quán)平均組合預(yù)測法建立降水預(yù)測模型.集成模型對各種單一ELM模型提供的信息進(jìn)行綜合利用,不僅提高了預(yù)測模型精度,也增強(qiáng)了網(wǎng)絡(luò)的穩(wěn)定性.
數(shù)學(xué)學(xué)習(xí)與研究2022年34期