杜 懿,麻榮永
(1.廣西大學(xué)土木建筑工程學(xué)院,廣西南寧530004;2.廣西大學(xué)工程防災(zāi)與結(jié)構(gòu)安全教育部重點實驗室,廣西南寧530004;3.廣西大學(xué)廣西防災(zāi)減災(zāi)與工程安全重點實驗室,廣西南寧530004)
ARIMA模型全稱為自回歸差分滑動平均模型(Autoregressive Integrated Moving Average Model),是由Box和Jenkins于20世紀(jì)70年代初提出的一種時間序列預(yù)測方法[1- 2]。該模型具有較強的物理基礎(chǔ),由于結(jié)構(gòu)簡單、理論完備,在時間序列的預(yù)測中得到廣泛應(yīng)用。
近年來,隨著全球氣候變暖以及區(qū)域下墊面的劇烈變化,相當(dāng)一部分水文時間序列表現(xiàn)出了高度的非線性特點。然而,傳統(tǒng)ARIMA模型結(jié)構(gòu)單一,不具備自適應(yīng)學(xué)習(xí)能力,也難以挖掘出序列的原始信息,在應(yīng)用中精度逐漸無法滿足要求。對此,相關(guān)學(xué)者也進行了大量改進研究,但研究的重點往往集中在如何與其他預(yù)測模型(如灰色理論、神經(jīng)網(wǎng)絡(luò)、支持向量機等)進行加權(quán)組合,并通過優(yōu)化算法(如遺傳算法、粒子群算法、蟻群算法等)來確定最佳分配權(quán)重,進而提高模型預(yù)測精度;但并未涉及模型本身。基于此,筆者在具有高效線性預(yù)測能力的傳統(tǒng)ARIMA模型基礎(chǔ)上,結(jié)合新興的非線性預(yù)測方法,對模型本身進行改進,以期獲得更高精度。
模型的建模原理文獻[3- 4]已有詳細(xì)介紹,在此不再贅述。該模型具有3個參數(shù),分別是自回歸階數(shù)(p)、差分次數(shù)(d)以及滑動平均階數(shù)(q),通常記作ARIMA(p,d,q),表達式為
Xt=φ1Xt-1+φ2Xt-2+…+φpXt-p+
εt-(θ1εt-1+θ2εt-2+…+θqεt-q)
(1)
式中,Xt為研究的時間序列數(shù)據(jù);φ1,φ2,…,φp為自回歸系數(shù);p為自回歸階數(shù);θ1,θ2,…,θq為滑動平均系數(shù);q為滑動平均階數(shù);εt為白噪聲序列。
建模步驟主要包括數(shù)據(jù)預(yù)處理、模式識別、參數(shù)識別和模型檢驗四個部分,具體操作參見文獻[5- 6]。
經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition)方法是由Huang等[7]人于1998年提出的一種信號分析方法。該法是對一個復(fù)雜的序列進行平穩(wěn)化處理,將一系列具有不同層次的波動從原始序列中提取出來,得到若干個具有不同尺度的IMF分量[8- 9]。
對時間序列進行EMD分解,將所得的各項分別建立最合適的ARIMA(p,d,q)模型,再將各項的模擬結(jié)果進行累加求得最終的預(yù)測值。
小波分析在時域和頻域上同時具有良好的局部化特征,在處理非平穩(wěn)時間序列中體現(xiàn)出很大的優(yōu)越性[10]。小波分解時采用的小波種類很重要,目前常用的有Haar正交小波、Daubechies正交小波、樣條小波、雙正交小波等。本文選用db4小波,分解水平取4。
對時間序列進行小波分解,將所得的各項分別建立最合適的ARIMA(p,d,q)模型,再將各項的模擬結(jié)果進行累加求得最終的預(yù)測值。
該模型是利用ARIMA模型來描述原始時間序列的線性關(guān)系,而用神經(jīng)網(wǎng)絡(luò)來擬合時間序列的非線性規(guī)律[11]。具體建模思路如下:
圖1 BP-ANN-ARIMA模型建模過程
本文選用南寧市1961年~2015共55年降水量資料進行預(yù)測研究,所用數(shù)據(jù)均來源自于廣西壯族自治區(qū)統(tǒng)計局提供的《廣西統(tǒng)計年鑒》及《廣西水資源公報》。
借助SPSS 20.0統(tǒng)計分析軟件對南寧市年降水量序列建立ARIMA(p,d,q)模型。先對整體序列進行自相關(guān)檢驗(見圖2)。顯然,原始序列即為平穩(wěn)序列,無需進行差分處理,故差分次數(shù)d=0。為確定最佳自回歸階數(shù)p和滑動平均階數(shù)q,分別初定不同取值進行比較,最終確定選用精度最高的ARIMA(1,0,1)模型。
圖2 南寧市年降水量序列的平穩(wěn)性檢驗
利用MATLAB 7.0編程軟件對南寧市年降水量序列分別進行經(jīng)驗?zāi)B(tài)分解和db4小波分解,結(jié)果見圖3、圖4。
圖3 南寧市年降水量的EMD分解結(jié)果
圖4 南寧市年降水量的db3小波分解結(jié)果
由圖3、4可以看出,兩種分解方法結(jié)果類似,均存在1個低頻成分(res項、s項)和4個高頻成分(imf項、d項),其中低頻成分顯示了時間序列的整體變化趨勢。觀察圖3和圖4,res項基本為一水平直線,而s項呈現(xiàn)出微弱的波動上升趨勢,相比更能反映實際情況。
將兩種分解模式下的各子項分別進行ARIMA建模,再將各子項的預(yù)測結(jié)果進行累加,得到最終的擬合值。在本例中由于s項、d4項、imf4項及res項為非平穩(wěn)序列(經(jīng)自相關(guān)、偏相關(guān)檢驗),需要進行差分處理。分析得出,s項最適應(yīng)ARIMA(1,2,1)模型,d4項、imf4項及res項適合ARIMA(1,1,1)模型,其余各項適應(yīng)于ARIMA(1,0,1)模型。
在BP-ANN-ARIMA模型的建模過程中,先利用ARIMA(1,0,1)模型對原始降水序列進行預(yù)測,經(jīng)與實際值比較得到擬合殘差。再以擬合殘差為基礎(chǔ),建立經(jīng)L-M算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,模型設(shè)置2個歷史節(jié)點,學(xué)習(xí)率取用0.075。最后將神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果與ARIMA(1,0,1)模型的預(yù)測結(jié)果疊加得出最終的擬合值(見圖5)。
圖5 各模型擬合過程比較
計算得,4種擬合模型的平均相對誤差分別為11.2%、10.1%、6.8%、5.1%。其中BP-ANN-ARIMA模型表現(xiàn)最佳,擬合誤差最小,說明了BP神經(jīng)網(wǎng)絡(luò)具有強大的非線性映射能力,十分適用于非平穩(wěn)時間序列的預(yù)測。小波分解較經(jīng)驗?zāi)B(tài)分解效果要好,WA-ARIMA模型的擬合誤差小于EMD-ARIMA模型,造成差別的原因在于對趨勢項的提取,db4小波分解出的趨勢項為波動緩幅上升趨勢,更符合實際情況,而EMD分解沒有體現(xiàn)出來。
以上模型在本次預(yù)測研究中均有較好表現(xiàn),都達到了《水文情報預(yù)報規(guī)范》的規(guī)定。由于ARIMA是一種嚴(yán)格的線性預(yù)測方法,而絕大多數(shù)水文序列屬于線性與非線性的綜合,因而應(yīng)用起來往往精度不高。為克服這一缺點,必須將其與非線性預(yù)測方法結(jié)合,這樣既保留了模型本身的線性預(yù)測能力又彌補了其在非線性預(yù)測方面的不足。
本文將ARIMA模型分別與db4小波、EMD方法以及BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,建立了3種不同的改進模型。實例表明,3種模型的預(yù)測精度均有不同程度的提高,尤其是結(jié)合了BP神經(jīng)網(wǎng)絡(luò)的ARIMA模型,平均相對誤差僅為5.1%,這是基于神經(jīng)網(wǎng)絡(luò)強大的容錯性與自適應(yīng)性。