楊鐵軍,楊 娜,朱春華,張 元
(河南工業(yè)大學 信息科學與工程學院,河南 鄭州 450001)
新中國成立以來,我國糧食產(chǎn)量得到大幅度提高,同時糧食生產(chǎn)也呈現(xiàn)出周期性震蕩上升態(tài)勢[1].為了能夠有效地調(diào)節(jié)我國糧食供給與需求之間的關(guān)系,對未來糧食產(chǎn)量的預測研究就顯得十分必要.目前國內(nèi)外學者提出了多種基于統(tǒng)計學原理的糧食產(chǎn)量預測模型,大體上可以分為三類:第一類是經(jīng)濟發(fā)展模型,它側(cè)重于社會經(jīng)濟發(fā)展因素對糧食產(chǎn)量的長期影響;第二類是氣候模型,它側(cè)重于氣象因素引起的糧食產(chǎn)量的波動;第三類是時間序列模型,它側(cè)重于對變量之間進行因果分析,探究各因素之間的聯(lián)系[2-5].作者在建立第三類模型的基礎上,嘗試以1949—2011 年糧食實際產(chǎn)量為基礎數(shù)據(jù),分別使用傳統(tǒng)[6-8]和改進算法構(gòu)建差分自回歸移動平均(Autoregressive Integrated Moving Average Model,ARIMA)模型,闡明上述兩種算法的差異性,對我國糧食的趨勢產(chǎn)量進行預測,并分析其預測性能的優(yōu)缺點,為宏觀調(diào)控部門更為有效地進行調(diào)控給予技術(shù)支持.
ARIMA 模型預測的基本思想是:將預測對象隨時間推移而形成的數(shù)據(jù)視為一個隨機時間序列,根據(jù)時間序列模型的識別規(guī)則,建立相應的模型.ARIMA 模型根據(jù)原序列是否平穩(wěn)以及回歸中所含部分的不同,包括移動平均過程(MA)、自回歸過程(AR)、自回歸移動平均過程(ARMA)以及ARIMA過程.簡言之,ARIMA 模型是指將非平穩(wěn)時間序列轉(zhuǎn)化為平穩(wěn)時間序列,然后僅對因變量的滯后值以及隨機誤差項的現(xiàn)值和滯后值進行回歸所建立的模型[9].
令ωt=(1-L)dyt,其中,yt是d 階單整序列,ωt為平穩(wěn)序列[10],在t 時刻的觀測值,則ARMA 的一般模型可以表示為:
式中:p,q 分別被稱為自回歸階數(shù)和平均階數(shù).
設L 為滯后算子[7],則
式(1)用滯后算子表示為:
式中:φ(L)=1-φ1L-φ2L2-…-φpLp;Θ(L)=1+θ1L+θ2L2+…+θqLq.
經(jīng)過d 階差分 變換后,(3)式表示ARMA(p,q)模型變?yōu)锳RIMA(p,d,q)模型.
式中:εt是均值為0、方差為σ2的白噪聲過程[10].
圖1 ARIMA 模型糧食產(chǎn)量預測仿真流程Fig.1 The simulation process of grain output prediction based on ARIMA model
運用傳統(tǒng)算法和改進算法建立糧食產(chǎn)量預測ARIMA 模型的仿真流程分別如圖1(a)和圖1(b)所示.這兩種預測模型的不同之處在于,第一,前者是通過觀察波形變化趨勢來判斷差分階次,后者則采用ADF 單位根檢驗的方法確定[11-12];第二,前者用AIC 準則直接確定出模型參數(shù),后者對所確立的模型參數(shù)進行模型適應性檢驗得到最優(yōu)模型.
1.2.1 平穩(wěn)性檢驗
ADF 單位根檢驗根據(jù)觀測值的DF 統(tǒng)計量判斷序列平穩(wěn)性.首先建立零假設(H0)和備擇假設(H1),其中H0為β=1;H1為β<1.在零假設成立條件下,定義DF 統(tǒng)計量,
計算原始序列的DF 值是否在1%、5%和10%的臨界值下都接受假設條件.若DF>臨界值,則接受H0,yt非平穩(wěn);DF<臨界值,則拒絕H0,yt平穩(wěn).
1.2.2 模型識別與定階
自相關(guān)分析法是進行時間序列分析的有效方法,它簡單易行,較為直觀.根據(jù)繪制的自相關(guān)分析圖和偏自相關(guān)分析圖,可以初步識別平穩(wěn)序列的模型類型和模型階數(shù).ARMA 模型的3 種基本形式AR(p)、MA(q)、ARMA(p,q)的相關(guān)性特征如表1 所示.
表1 相關(guān)性特征Table 1 Correlation characteristics
根據(jù)表1 所示的模型相關(guān)性特征,可利用自相關(guān)函數(shù)與偏相關(guān)函數(shù)的截尾性來識別模型類型,并利用偏相關(guān)函數(shù)(PACF)確定AR 模型的滯后階數(shù);利用自相關(guān)函數(shù)(ACF)確定MA 模型的滯后階數(shù).
1.2.3 模型參數(shù)估計
時間序列分析模型的模型結(jié)構(gòu)和階數(shù)經(jīng)過初步識別后,要對模型參數(shù)進行估計.模型參數(shù)的估計方法大體上分為3 類:最小二乘估計、矩估計和利用自相關(guān)函數(shù)的直接估計.采用最小二乘方法來估計模型參數(shù).
已知樣本觀測值(yi,xi)(i=1,2,…,n),假如參數(shù)估計量為,則
1.2.4 殘差檢驗
對1.2.3 中所估計的模型參數(shù)的適應性進行檢驗,實質(zhì)是對模型殘差序列進行白噪聲檢驗.若殘差序列不是白噪聲,說明還有一些重要信息沒被提取,應對擬合模型進行重新設定,直至得到最優(yōu)模型.
計算觀測值與擬合值的殘差,根據(jù)其Durbin-Watson(DW)值判別其是否存在自相關(guān).假設殘差ut存在一階自相關(guān),
那么基于經(jīng)典線性模型,假定采用普通最小二乘法回歸得到的殘差存在,
DW 值一般在2 左右則不存在自相關(guān),但需要對殘差做進一步分析,對生成的殘差序列進行相關(guān)性檢驗,若出現(xiàn)截尾特性,則殘差不存在自相關(guān),說明模型擬合較好.
1.2.5 模型預測
預測方法一般分為動態(tài)預測和靜態(tài)預測.評價預測方法的指標有平均絕對百分誤差、Theil 不等系數(shù)和預測均方差,其中Theil 不等系數(shù)和預測均方差應用較為廣泛.Theil 不等系數(shù)越靠近0,表示單位誤差均方根越小,即預測值與實際值越靠近,模型擬合精度越高.預測均方差包括3 個指標:偏差比、方差比和協(xié)方差比,三者之和為1,預測精度越高,偏差比率和方差比率越小,協(xié)方差比率越大.根據(jù)給定的觀測數(shù)據(jù)的特點,選用靜態(tài)預測方法進行模型預測.
我國糧食產(chǎn)量相關(guān)數(shù)據(jù)來自于《中國統(tǒng)計年鑒》[8](1949—2011 年),我國的主要糧食是谷物、豆類和薯類,其中谷物包含稻谷、小麥和玉米.運用兩種算法對不同的年份區(qū)間進行仿真得到的ARIMA 模型參數(shù)如表2 所示,其中M1=20(1949—1968 年),M2=40(1949—1988 年),M3=60(1949—2008 年).運用這兩種算法得到的預測數(shù)據(jù)與原始數(shù)據(jù)分別如圖2 所示.
表2 不同年份區(qū)間的ARIMA 模型參數(shù)Table 2 ARIMA model parameters of different years interval
圖2 3 個年份區(qū)間的ARIMA 預測數(shù)據(jù)Fig.2 ARIMA forecast data of the three year interval
圖2 中M1、M2、M3 分別表 示1949—1968 年、1969—1988 年、1989—2008 年3 個樣本區(qū)間的原始數(shù)據(jù),M1F、M2F、M3F 表示用改進算法得到的3個區(qū)間的預測值,M20、M40、M60 表示用傳統(tǒng)算法得出的3 個區(qū)間預測值.
對預測數(shù)據(jù)與原始數(shù)據(jù)進行擬合優(yōu)度檢驗,檢驗結(jié)果如表3 所示.R2Adj即調(diào)整后的R2,表示在回歸方程中,自變量對因變量的解釋比例,這一比例越大,回歸方程可以解釋的部分越多,模型越精確,回歸的效果越顯著.R2是一個介于0 和1 的數(shù),越接近1 說明擬合效果越好.
由表3 可以看出,在相同樣本區(qū)間下,運用改進算法得到的R2更大,更能夠準確地擬合原始數(shù)據(jù);在不同樣本區(qū)間下,比較同一種軟件的預測結(jié)果,選取的樣本數(shù)據(jù)越多,預測結(jié)果與原始數(shù)據(jù)的擬合度越高,兩種軟件得到的R2數(shù)據(jù)都驗證了上述結(jié)論.
表3 預測數(shù)據(jù)與原始數(shù)據(jù)的擬合優(yōu)度檢驗Table 3 Goodness of fit test with Forecast data and original data
比較分析了糧食產(chǎn)量預測中使用的ARIMA 模型的仿真流程及預測擬合度性能,采用新中國建國以后的糧食產(chǎn)量數(shù)據(jù),分別利用兩種實現(xiàn)方法得出不同的樣本區(qū)間的ARIMA 預測模型,其擬合優(yōu)度檢驗結(jié)果均表明改進算法建立的ARIMA 模型預測更為精確,進一步分析傳統(tǒng)和改進算法建立的ARIMA 建模思想并深入挖掘更高精度的模型預測方法是下一步要研究的課題.
[1]孫東升,梁仕瑩.我國糧食產(chǎn)量預測的時間序列模型與應用研究[J].農(nóng)業(yè)技術(shù)經(jīng)濟,2010.
[2]高衛(wèi),張電學,雷利君,等.中國糧食產(chǎn)量影響因素分析及研究方法綜述[J].安徽農(nóng)業(yè)科學,2014,42(33):11954-11955.
[3]Brown L R.Who will feed China Wake up call for a small plane[M].New York:W W Norton and Co,1995:1-10.
[4]高衛(wèi),張電學,雷利君,等.中國糧食產(chǎn)量影響因素分析及研究方法綜述[J].安徽農(nóng)業(yè)科學,2014,42(33):11954-11955,11958.
[5]王丹.氣候變化對中國糧食安全的影響與對策研究[D].武漢:華中農(nóng)業(yè)大學,2004.
[6]Suresh K K,Krishna Priya S R.Forecasting sugarcane yield of tamilnadu using ARIMA Models[J].Sugar Tech March,2011,13(1):23-26.
[7]楊德平,劉喜華,孫海濤,等.經(jīng)濟預測方法及MATLAB 實現(xiàn)[M].北京:機械工業(yè)出版社,2012.
[8]魏艷華,王丙參,王轉(zhuǎn)民.基于ARIMA 模型的天水市糧食產(chǎn)量預測與決策[J].天水師范學院學報,2014,3(2):17-21.
[9]陳艷紅,胡勝德,申倩.基于ARIMA 模型的中國糧食供需平衡及預測[J].廣東農(nóng)業(yè)科學,2013(5):230-234.
[10]張恒,高峰,金鑫,等.基于ARIMA 模型的我國糧食產(chǎn)量時間序列分析[J].科技信息,2010,10:121-122.
[11]陳昭.時序非平穩(wěn)性ADF 檢驗法的理論與應用[J].廣州大學學報,2008,7(5):5-10.
[12]夏南新.單位根的DF、ADF 檢驗與PP 檢驗比較研究[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究,2005(9):129-135.
[13]國家統(tǒng)計局.中國統(tǒng)計年鑒2013[M].北京:中國統(tǒng)計出版社,2014.