許金煒(上海大學(xué)理學(xué)院,上海200444)
基于虛擬變量回歸與SARIMA組合模型的GDP預(yù)測(cè)
許金煒
(上海大學(xué)理學(xué)院,上海200444)
文章根據(jù)我國(guó)1992年至2015年的GDP季度數(shù)據(jù),建立了虛擬變量回歸(DVR)模型、SARIMA模型及其組合(DVR-SARIMA)模型,并進(jìn)行了比較與分析,結(jié)果發(fā)現(xiàn)組合(DVR-SARIMA)模型的擬合效果最好,預(yù)測(cè)性能亦是最好,且利用組合(DVR-SARIMA)模型對(duì)我國(guó)未來的季度GDP進(jìn)行了預(yù)測(cè),以期對(duì)我國(guó)未來的總體經(jīng)濟(jì)增長(zhǎng)情況做出合理的分析與判斷。
虛擬變量回歸模型;SARIMA模型;組合模型;GDP;預(yù)測(cè)
國(guó)內(nèi)生產(chǎn)總值(Gross Domestic Product),簡(jiǎn)稱GDP,是指按市場(chǎng)價(jià)格計(jì)算的一個(gè)國(guó)家(或地區(qū))所有常住單位在一定時(shí)期內(nèi)生產(chǎn)勞動(dòng)的最終成果。GDP不僅能夠在總體上度量國(guó)民產(chǎn)出和收入規(guī)模,也能夠在整體上度量經(jīng)濟(jì)波動(dòng)和經(jīng)濟(jì)周期狀態(tài),因此GDP被認(rèn)為是衡量一個(gè)國(guó)家(或地區(qū))經(jīng)濟(jì)狀況的最重要的指標(biāo)之一,同時(shí)也是政府制定經(jīng)濟(jì)發(fā)展戰(zhàn)略和經(jīng)濟(jì)政策的重要依據(jù)。
目前,國(guó)內(nèi)已經(jīng)有很多學(xué)者嘗試使用各種預(yù)測(cè)模型,包括時(shí)間序列分解法、線性回歸模型、指數(shù)平滑法、趨勢(shì)外推法、灰色預(yù)測(cè)以及時(shí)間序列模型等方法,對(duì)我國(guó)GDP進(jìn)行建模分析預(yù)測(cè),但預(yù)測(cè)精度并不算高,依舊有待改善。本文通過將虛擬回歸(DVR)模型與SARIMA模型進(jìn)行組合,從而更加精確地?cái)M合了我國(guó)季度GDP數(shù)據(jù),并且有效降低了預(yù)測(cè)誤差,對(duì)我國(guó)未來的GDP數(shù)據(jù)也進(jìn)行了更加精確地預(yù)測(cè)。
1.1 虛擬變量回歸模型
在回歸分析中,因變量不僅受到定量變量(如收入、產(chǎn)出、價(jià)格、成本、身高、溫度等)的影響,還會(huì)受到定性變量的影響,如季節(jié)、文化程度、性別、種族、宗教和地區(qū)等因素,這些因素在某些情況下是因變量的重要影響因素,建立模型時(shí)不能忽略。量化這些因素的途徑之一,就是構(gòu)造一個(gè)取值為0或1的人工變量,取1表示這種因素起影響作用,取0表示這種因素不起影響作用。假定這種取值為0或1的變量被稱為虛擬變量(Dummy Variable)。這種變量實(shí)質(zhì)上就是一個(gè)將數(shù)據(jù)區(qū)分為相互排斥類別(如男性或女性)的工具。
引入虛擬變量后,回歸方程中同時(shí)含有一般解釋變量和虛擬變量,這種結(jié)構(gòu)的模型便被稱為虛擬變量回歸模型(Dummy Variable Regression Model),在本文中簡(jiǎn)稱為DVR模型。此外,需注意虛擬變量的設(shè)置原則:若定性變量有m個(gè)類別,則回歸方程中只需引入m-1個(gè)虛擬變量,否則就會(huì)陷入“虛擬變量陷阱”,即多重共線性。
由于許多基于季度或月度數(shù)據(jù)的經(jīng)濟(jì)時(shí)間序列都表現(xiàn)出季節(jié)特征(規(guī)則地?cái)[動(dòng)),因此在建立模型時(shí),需要考慮季節(jié)因素變動(dòng)的影響,而虛擬變量法便是其中一種研究方法,本文在應(yīng)用DVR模型研究我國(guó)季度GDP時(shí)間序列時(shí),根據(jù)虛擬變量設(shè)置原則,需引入如下三個(gè)虛擬變量:
則可建立如下DVR模型:
1.2 SARIMA模型
ARMA模型是一種常用的隨機(jī)時(shí)序模型,是時(shí)間序列模型中的經(jīng)典模型,由美國(guó)統(tǒng)計(jì)學(xué)家Box和英國(guó)統(tǒng)計(jì)學(xué)家Jenkins創(chuàng)立,亦稱B-J方法。ARMA模型共有三種基本類型:自回歸模型、移動(dòng)平均模型以及自回歸移動(dòng)平均模型,這三種模型都是平穩(wěn)隨機(jī)過程,如果對(duì)于一個(gè)時(shí)間序列,經(jīng)過差分之后可以變換成一個(gè)平穩(wěn)的ARMA過程,那么該過程則稱為單整自回歸移動(dòng)平均過程。
(1)自回歸(AR)模型
如果時(shí)間序列{Yt}是它的前期值和隨機(jī)項(xiàng)的線性函數(shù),則可表示為:
稱該時(shí)間序列{Yt}為自回歸序列,式(2)為p階自回歸模型,記為AR(p)。c為常數(shù)項(xiàng),實(shí)參數(shù)θ1,θ2,…,θp稱為自回歸系數(shù),是AR(p)模型的待估參數(shù);隨機(jī)項(xiàng)εt是相互獨(dú)立的白噪聲序列,且服從正態(tài)分布N(0,σε2),且隨機(jī)項(xiàng)εt與滯后變量yt-1,yt-2,…,yt-p不相關(guān)。
記Bk為k步滯后算子,即Bkyt=yt-k,則式(2)可表示為:
令θ(B)=1-θ1B-θ2B2-…θpBp,則式(2)可簡(jiǎn)寫為:θ(B)yt=c+εt。
(2)移動(dòng)平均(MA)模型
如果時(shí)間序列{Yt}是它的當(dāng)前和前期的隨機(jī)誤差項(xiàng)的線性函數(shù),則可表示為:
稱該時(shí)間序列{Yt}為移動(dòng)平均序列,式(3)為q階移動(dòng)平均模型,記為MA(q)。c為常數(shù)項(xiàng),實(shí)參數(shù)?1,?2,…,?q稱為移動(dòng)平均系數(shù),是MA(q)模型的待估參數(shù)。
引入滯后算子,并令?(B)=1-?1B-?2B2-…?qBq,則式(3)可簡(jiǎn)寫為:yt=c+?(B)εt。
(3)自回歸移動(dòng)平均(ARMA)模型
如果時(shí)間序列{Yt}是它的當(dāng)前和前期的隨機(jī)誤差項(xiàng)以及前期值的線性函數(shù),則可表示為:
稱該時(shí)間序列{Yt}為自回歸移動(dòng)平均序列,式(4)為(p,q)階的自回歸移動(dòng)平均模型,記為ARMA(p,q)。c為常數(shù)項(xiàng),實(shí)參數(shù)θ1,θ2,…,θp稱為自回歸系數(shù),?1,?2,…,?q稱為移動(dòng)平均系數(shù),都是ARMA(p,q)模型的待估參數(shù)。
引入滯后算子,則式(4)可簡(jiǎn)記為:
(4)單整自回歸移動(dòng)平均(ARIMA)模型
如果時(shí)間序列{Yt}的d階差分 Xt=(1-B)dYt是一個(gè)平穩(wěn)的ARMA(p,q)過程,其中d≥1是整數(shù),則有:
稱該時(shí)間序列{Yt}為單整自回歸移動(dòng)平均序列,即式(5)為(p,d,q)階的單整自回歸移動(dòng)平均模型,記為ARIMA(p,d,q)。
(5)季節(jié)單整自回歸移動(dòng)平均(SARIMA)模型
在一些時(shí)間序列中,存在明顯的周期性變化,這種周期是由于季節(jié)性變化(包括季度、月度等變化)或者其他一些固有因素引起的,這類序列就稱為季節(jié)性時(shí)間序列,季節(jié)時(shí)間序列模型(Seasonal ARIMA Model),或者稱為乘積季節(jié)模型(Multiplicative Seasonal Model),便是處理這類時(shí)間序列的模型之一,記為SARIMA。
設(shè)季節(jié)序列的變化周期為s,則一次季節(jié)差分可以表示為:(1 -Bs)yt=yt-yt-s。對(duì)于非平穩(wěn)時(shí)間序列,有時(shí)需要進(jìn)行D階季節(jié)差分之后才能轉(zhuǎn)換為平穩(wěn)序列。記P表示季節(jié)自回歸最大滯后期,Q表示季節(jié)移動(dòng)平均最大滯后期,于是SARIMA模型的一般表達(dá)式可定義如下:
稱式(6)為(p,d,q)×(P,D,Q)階的季節(jié)時(shí)間序列模型或者乘積季節(jié)模型。如果含有時(shí)間趨勢(shì)項(xiàng),則可以定義如下模型:
1.3 組合模型
結(jié)合模型式(1)與模型式(7),則可定義DVR-SARIMA組合模型,其一般表達(dá)式如下:
稱式(8)為(p,d,q)×(P,D,Q)階的虛擬變量季節(jié)時(shí)間序列組合模型或者虛擬變量乘積季節(jié)組合模型。
1.4 ADF單位根檢驗(yàn)
考慮如下回歸方程:
其中,εt為純粹的白噪聲誤差項(xiàng),Δyt=yt-yt-1,Δyt-1=yt-1-yt-2,以此類推。常數(shù)項(xiàng)c表示漂移項(xiàng),t表示時(shí)間或趨勢(shì)變量。
ADF單位根檢驗(yàn)的原假設(shè)(含有單位根)為H0:δ=0,備擇假設(shè)(不含單位根)為H1:δ<0。對(duì)于式(9),如果拒絕原假設(shè),則認(rèn)為原時(shí)間序列{Yt}具有平穩(wěn)性或退勢(shì)平穩(wěn)性;如果不能拒絕原假設(shè),則依次剔除時(shí)間或趨勢(shì)變量項(xiàng)、漂移項(xiàng)繼續(xù)進(jìn)行ADF單位根檢驗(yàn),直至拒絕原假設(shè),若一直不能拒絕原假設(shè),則說明原時(shí)間序列{Yt}是一個(gè)單位根序列,建立模型前還需做進(jìn)一步的平穩(wěn)性處理。
1.5 模型選擇準(zhǔn)則
(1)R2準(zhǔn)則
一個(gè)回歸模型擬合優(yōu)度的度量指標(biāo)之一就是R2,定義為:
其中,TSS表示離差平方和,反映因變量波動(dòng)的大??;ESS表示回歸平方和,反映由模型解釋變量計(jì)算出來的擬合值的波動(dòng);RSS表示殘差平方和,反映因變量總的波動(dòng)中不能通過回歸模型解釋的部分。
但是用R2作為衡量標(biāo)準(zhǔn)存在一個(gè)問題,即如果將某個(gè)對(duì)因變量影響非常小的變量添加到模型中后,R2并不會(huì)變小。如果僅僅依據(jù)R2增加就將這個(gè)變量包含于模型中,將是不合理的,因?yàn)樾略鲎兞拷档土俗杂啥?。于是可用調(diào)整后的R2進(jìn)行度量,記為Rˉ2,定義為:
其中,n表示樣本量,k表示解釋變量個(gè)數(shù),這樣就可以在一定程度上避免將影響微弱的變量添加到模型中,顯然,
(2)赤池信息準(zhǔn)則(AIC)
在AIC準(zhǔn)則中,進(jìn)一步對(duì)模型中增加自變量進(jìn)行了懲罰,其定義為:
其中,2(k +1)/n為懲罰因子。
(3)施瓦茨信息準(zhǔn)則(SC)
與AIC準(zhǔn)則思想類似,SC準(zhǔn)則的定義為:
在進(jìn)行模型選擇時(shí),通常Rˉ2的值越大越好,而AIC與SC的值則越小越好。
2.1 數(shù)據(jù)來源
本文所使用的我國(guó)1992年至2015年的GDP季度數(shù)據(jù)(單位:億元)均來自于國(guó)家統(tǒng)計(jì)局網(wǎng)站。
2.2 模型建立
2.2.1 ADF單位根檢驗(yàn)
根據(jù)我國(guó)1992年至2015年的GDP季度數(shù)據(jù),可以繪制原GDP季度序列折線圖以及取自然對(duì)數(shù)后的LOG(GDP)季度序列折線圖,分別如圖1和圖2所示:
圖1 GDP季度序列圖
圖2 LOG(GDP)季度序列圖
從圖1和圖2可以看出,無論是原GDP季度序列,還是LOG(GDP)季度序列,隨著時(shí)間的推移,它們均有明顯的上升趨勢(shì),但LOG(GDP)季度序列與時(shí)間的線性關(guān)系更強(qiáng)。
下面分別對(duì)這兩個(gè)序列進(jìn)行ADF單位根檢驗(yàn),其檢驗(yàn)結(jié)果如表1所示:
表1 ADF單位根檢驗(yàn)
從ADF單位根的檢驗(yàn)結(jié)果可以看出,只有含漂移項(xiàng)與時(shí)間趨勢(shì)項(xiàng)的LOG(GDP)序列通過了ADF單位根檢驗(yàn),于是便可以根據(jù)LOG(GDP)序列建立帶有漂移項(xiàng)與時(shí)間趨勢(shì)項(xiàng)的模型。
2.2.2 模型的參數(shù)估計(jì)
記t=1表示1992年第一季度,t=2表示1992年第二季度,以此類推,t=94表示2015年第二季度,則根據(jù)式(1)、式(7)與式(8)模型的具體表達(dá)式,用EViews軟件對(duì)其進(jìn)行參數(shù)估計(jì),所得具體模型的表達(dá)式如下:
DVR模型:
SARIMA模型:
DVR-SARIMA模型:
2.3 模型分析
首先分析模型的基本統(tǒng)計(jì)性質(zhì),如表2所示:
表2 模型的基本統(tǒng)計(jì)性質(zhì)
(2)根據(jù)模型選擇準(zhǔn)則:AIC與SC準(zhǔn)則,DVR-SARIMA模型的AIC與SC值明顯小于DVR模型和SARIMA模型的AIC與SC值;而且DVR-SARIMA模型的殘差平方和也是最小的。
(3)從模型的異方差性來看,根據(jù)White檢驗(yàn)的P值可以看出SARIMA模型的隨機(jī)誤差項(xiàng)序列存在異方差,這將會(huì)影響模型的預(yù)測(cè)精度。而DVR模型與DVR-SARIMA模型均通過White檢驗(yàn),可認(rèn)為隨機(jī)誤差項(xiàng)序列不存在異方差性。
再來分析模型的預(yù)測(cè)性能,如表3所示:均相對(duì)誤差均是最小的,而且DVR-SARIMA模型的Theil系數(shù)的值更接近于0,說明其單位均方根誤差最小,預(yù)測(cè)值更接近于實(shí)際值,模型的擬合效果最好。此外,偏差比率表示預(yù)測(cè)均值與實(shí)際均值的偏離程度,方差比率表示預(yù)測(cè)方差與實(shí)際方差的偏離程度,協(xié)方差比率衡量非系統(tǒng)誤差,三者和為1,根據(jù)表3分析比較,DVR-SARIMA模型的偏差比率與方差比率最小,協(xié)方差比率最大,說明DVR-SARIMA模型的預(yù)測(cè)值與實(shí)際值更接近,誤差更小。
表3 模型預(yù)測(cè)性能
2.4 模型預(yù)測(cè)
本文通過橫向比較各模型本身的預(yù)測(cè)性能,確定預(yù)測(cè)區(qū)間為2012年第三季度至2020年第四季度,這也避免了2008年金融危機(jī)對(duì)未來季度GDP預(yù)測(cè)序列的持續(xù)影響,同時(shí)樣本內(nèi)預(yù)測(cè)區(qū)間共3年,12個(gè)季度,即2012年第三季度至2015年第二季度,可用于比較模型之間的預(yù)測(cè)誤差。上述3個(gè)模型的預(yù)測(cè)結(jié)果如表4所示:
表4 模型的預(yù)測(cè)結(jié)果
從DVR-SARIMA模型的預(yù)測(cè)結(jié)果來看,盡管我國(guó)近幾年經(jīng)濟(jì)增速放緩,但在這樣一個(gè)全球化、信息化日益增強(qiáng)的大數(shù)據(jù)時(shí)代,隨著我國(guó)資源配置和經(jīng)濟(jì)發(fā)展方式的轉(zhuǎn)變,我國(guó)的經(jīng)濟(jì)在未來第十三個(gè)五年規(guī)劃中,將會(huì)得到進(jìn)一步的提升,至2020年,我國(guó)GDP總量超過100萬億元將不再是夢(mèng)想,此外,如果未來五年不發(fā)生經(jīng)濟(jì)危機(jī)或者經(jīng)濟(jì)振蕩,經(jīng)濟(jì)能平穩(wěn)發(fā)展,至2020年,我國(guó)GDP總量甚至有可能突破150萬億元。
本文主要對(duì)我國(guó)的季度GDP預(yù)測(cè)做了更精確地研究,從而為我國(guó)的經(jīng)濟(jì)決策提供一定的參考價(jià)值。本文首先對(duì)實(shí)證分析所涉及的模型進(jìn)行了概述,包括虛擬變量回歸(DVR)模型、季節(jié)單整自回歸移動(dòng)平均(SARIMA)模型以及本文提出的虛擬變量季節(jié)時(shí)間序列組合(DVR-SARIMA)模型;然后根據(jù)我國(guó)實(shí)際GDP季度數(shù)據(jù)進(jìn)行建模分析,并從模型的基本統(tǒng)計(jì)性質(zhì)和模型的預(yù)測(cè)性能兩方面對(duì)上述三種模型進(jìn)行了具體比較與分析,結(jié)果發(fā)現(xiàn),無論是基于模型的基本統(tǒng)計(jì)性質(zhì),還是模型的預(yù)測(cè)性能,DVR-SARIMA模型都表現(xiàn)出了極強(qiáng)的優(yōu)越性,最后,本文根據(jù)DVR-SARIMA模型對(duì)我國(guó)未來的GDP進(jìn)行了預(yù)測(cè),對(duì)我國(guó)未來的經(jīng)濟(jì)增長(zhǎng)形勢(shì)做了簡(jiǎn)要分析:在我國(guó)第十三個(gè)五年規(guī)劃中,我國(guó)經(jīng)濟(jì)將會(huì)持續(xù)增長(zhǎng),此外,隨著我國(guó)經(jīng)濟(jì)轉(zhuǎn)型的成熟化,至2020年,我國(guó)GDP總量將會(huì)突破100萬億元,甚至?xí)懈蟮耐黄啤?/p>
[1]徐國(guó)祥.統(tǒng)計(jì)預(yù)測(cè)與決策(第四版)[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2012.
[2]Gujarati D C.Basic Econometrics[M].New York:Irwin McGraw Hill,2008.
[3]高鐵梅.計(jì)量經(jīng)濟(jì)分析方法與建模:EViews應(yīng)用及實(shí)例(第二版)[M].北京:清華大學(xué)出版社,2009.
[4]張曉峒.EViews使用指南與案例[M].北京:機(jī)械工業(yè)出版社,2007.
[5]張曉峒.應(yīng)用數(shù)量經(jīng)濟(jì)學(xué)[M].北京:機(jī)械工業(yè)出版社,2009.
[6]范劍青,姚琦偉.非線性時(shí)間序列[M].北京:高等教育出版社,2005.
[7]趙喜倉(cāng),周作杰.基于SARIMA模型的我國(guó)季度GDP時(shí)間序列分析與預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2010,(22).
[8]趙盈.我國(guó)GDP時(shí)間序列模型的建立與實(shí)證分析[J].西安財(cái)經(jīng)學(xué)院學(xué)報(bào),2006,19(3).
(責(zé)任編輯/易永生)
F224
A
1002-6487(2016)24-0038-04
許金煒(1991—),男,江蘇如皋人,碩士研究生,研究方向:統(tǒng)計(jì)學(xué)。