蔣 鋒,張 婷,周琰玲
(1.中南財(cái)經(jīng)政法大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,武漢 430073;2.青海省海西州統(tǒng)計(jì)局,青海 德令哈 817099)
財(cái)政收入是衡量一個(gè)地區(qū)經(jīng)濟(jì)實(shí)力的重要標(biāo)準(zhǔn),控制著國(guó)民經(jīng)濟(jì)命脈,而且影響財(cái)政收入的影響因素眾多,各類(lèi)指標(biāo)具有不確定性,因此對(duì)財(cái)政收入做科學(xué)的定量分析以及準(zhǔn)確預(yù)測(cè)具有十分重要的意義,并且可以為相關(guān)部門(mén)實(shí)施相關(guān)的決策提供可靠的理論參考。
近年來(lái),國(guó)內(nèi)外學(xué)者采取了各種方法預(yù)測(cè)財(cái)政收入,根據(jù)預(yù)測(cè)模型的不同主要分為兩類(lèi):第一類(lèi)是采用單一的預(yù)測(cè)模型[1-6],如VAR模型、ARIMA模型、回歸模型、H∞濾波算法、指數(shù)平滑自回歸模型、灰色殘差模型等對(duì)財(cái)政收入預(yù)測(cè);第二類(lèi)是采用組合預(yù)測(cè)模型[7-11],袁宏俊和胡凌云(2011)在建立指數(shù)預(yù)測(cè)模型、時(shí)間序列和回歸預(yù)測(cè)的基礎(chǔ)上,構(gòu)建基于幾何貼近度的組合預(yù)測(cè)模型。李凱揚(yáng)和韓文秀(2003)分別建立回歸和時(shí)間序列這兩個(gè)線性模型,再根據(jù)財(cái)政收入時(shí)間序列建立BP神經(jīng)網(wǎng)絡(luò),最后建立三者的變權(quán)組合預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。孫元和呂寧(2007)結(jié)合時(shí)間序列、多元回歸及SVM方法構(gòu)建組合模型預(yù)測(cè)財(cái)政收入。范敏等(2008)將灰色預(yù)測(cè)模型和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行組合,結(jié)果顯示該方法在地方財(cái)政收入預(yù)測(cè)中是可行的。方博等(2015)采用ARMA-BP神經(jīng)網(wǎng)絡(luò)組合模型預(yù)測(cè)財(cái)政收入,得到組合模型的預(yù)測(cè)優(yōu)于單一模型的結(jié)果。趙海華(2016)結(jié)合回歸分析的思想,建立了基于灰色RBF神經(jīng)網(wǎng)絡(luò)的多因素財(cái)政收入預(yù)測(cè)模型。在以上研究的基礎(chǔ)上,發(fā)現(xiàn)組合模型可以彌補(bǔ)單一模型的不足,發(fā)揮單一模型的長(zhǎng)處,提高預(yù)測(cè)精度。常見(jiàn)的研究一般都是比較單一模型和組合模型的優(yōu)劣,本文通過(guò)比較多個(gè)組合模型,尋找更優(yōu)的組合模型來(lái)預(yù)測(cè)地方財(cái)政收入。
由于影響財(cái)政收入的因素很多,在進(jìn)行預(yù)測(cè)之前,需要剔除一些不重要的變量。Tibshirani[12]在傳統(tǒng)變量選擇方法的基礎(chǔ)上做了改進(jìn),提出Lasso變量選擇方法,該方法在實(shí)現(xiàn)參數(shù)估計(jì)的同時(shí)還可以壓縮變量。因此,本文使用Lasso方法選取影響海西州財(cái)政收入的主要因素,由于各影響因素和地方財(cái)政收入間往往存在復(fù)雜的非線性關(guān)系,Lasso方法并不適合處理這類(lèi)問(wèn)題,所以本文進(jìn)一步采用具有強(qiáng)非線性擬合能力的神經(jīng)網(wǎng)絡(luò)模型,以此來(lái)彌補(bǔ)Lasso方法在非線性映射問(wèn)題方面的不足。GRNN神經(jīng)網(wǎng)絡(luò)具有極強(qiáng)的非線性逼近能力、抗干擾性能,而且具有收斂速度快等優(yōu)點(diǎn),GRNN神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于工業(yè)[13]、股指預(yù)測(cè)[14]和電力負(fù)荷預(yù)測(cè)[15]等領(lǐng)域。根據(jù)以上文獻(xiàn),本文提出了Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型,并將其與Lasso-BP和Lasso-RBF神經(jīng)網(wǎng)絡(luò)模型做比較研究,同時(shí)根據(jù)本文提出的方法預(yù)測(cè)海西州的財(cái)政收入。
Lasso方法是一種壓縮估計(jì),在進(jìn)行參數(shù)估計(jì)時(shí)不僅可以壓縮估計(jì)值,還可以產(chǎn)生稀疏解,使得一些不重要變量的估計(jì)值為零,可以較好解決變量間的多重共線性問(wèn)題。主成分分析方法雖然也能解決多重共線性問(wèn)題,并達(dá)到降維的目的,但是應(yīng)用在本文中效果并不好,所以本文選擇Lasso方法[12,16]來(lái)做變量選擇,減少變量個(gè)數(shù)。
假設(shè)有數(shù)據(jù)集 (X,Y),其中 X=(X1,X2,…,Xp)是p個(gè)指標(biāo)的觀測(cè)值,對(duì)應(yīng)的Y=(yi),i=1,2,…,n 是響應(yīng)變量,并假定X中的數(shù)據(jù)都已經(jīng)被標(biāo)準(zhǔn)化了。Lasso的基本思想就是在最小二乘估計(jì)的基礎(chǔ)上對(duì)回歸系數(shù)增加一個(gè)約束,使其絕對(duì)值之和小于一個(gè)給定的參數(shù)t這里的t是一個(gè)非負(fù)的調(diào)整參數(shù)。
廣義回歸神經(jīng)網(wǎng)絡(luò)[13-15]是徑向基神經(jīng)網(wǎng)絡(luò)的一種,具有很強(qiáng)的非線性映射能力和柔性網(wǎng)絡(luò)結(jié)構(gòu)以及很好的逼近能力、分類(lèi)能力和學(xué)習(xí)速度,網(wǎng)絡(luò)最后收斂于樣本量積聚較多的優(yōu)化回歸面,適合處理非線性問(wèn)題,并且在樣本數(shù)據(jù)較少時(shí),預(yù)測(cè)效果也較好。
GRNN網(wǎng)絡(luò)連接權(quán)值的學(xué)習(xí)修正使用BP算法,由于網(wǎng)絡(luò)隱含層結(jié)點(diǎn)中的作用函數(shù)采用高斯函數(shù),從而具有局部逼近能力,此為該網(wǎng)絡(luò)之所以學(xué)習(xí)速度快的原因。此外,由于GRNN中人為調(diào)節(jié)參數(shù)很少,只有一個(gè)閾值。網(wǎng)絡(luò)的學(xué)習(xí)全部依賴數(shù)據(jù)樣本,這個(gè)特點(diǎn)決定網(wǎng)絡(luò)以最大可能地避免人為主觀假定對(duì)預(yù)測(cè)結(jié)果的影響。
(1)GRNN神經(jīng)網(wǎng)絡(luò)的構(gòu)建
GRNN網(wǎng)絡(luò)由輸入層、模式層、求和層和輸出層構(gòu)成。假設(shè)X為輸入向量,Y為輸出向量,如圖1所示。
圖1 廣義回歸網(wǎng)絡(luò)結(jié)構(gòu)圖
輸入層由學(xué)習(xí)樣本構(gòu)成,輸入層神經(jīng)元個(gè)數(shù)等于學(xué)習(xí)樣本的輸入向量X的維數(shù)。模式層神經(jīng)元數(shù)目是學(xué)習(xí)樣本的數(shù)目n,各神經(jīng)元對(duì)應(yīng)不同的樣本,模式層神經(jīng)元傳遞函數(shù)為高斯函數(shù),即:
其中,Xi為第i個(gè)神經(jīng)元對(duì)應(yīng)的學(xué)習(xí)樣本,σ為光滑因子。求和層是對(duì)模式層的神經(jīng)元進(jìn)行求和。輸出層神經(jīng)元個(gè)數(shù)等于學(xué)習(xí)樣本中輸出向量Y的維數(shù)。
(2)GRNN網(wǎng)絡(luò)的訓(xùn)練過(guò)程
步驟1:對(duì)輸入輸出向量進(jìn)行標(biāo)準(zhǔn)化;
步驟2:確定輸入層和輸出層的神經(jīng)元個(gè)數(shù),本文根據(jù)輸入輸出向量的維數(shù)來(lái)確定神經(jīng)元數(shù)目;
步驟3:計(jì)算樣本集的輸出值與期望值的偏差平方和,當(dāng)偏差平方和小于給定閾值時(shí)結(jié)束訓(xùn)練過(guò)程,否則轉(zhuǎn)入步驟4;
步驟4:根據(jù)輸出值與期望值的偏差,從輸出層反向傳播,逐層調(diào)整閾值和連接權(quán)值,直到輸入層;
步驟5:返回步驟2。
地方財(cái)政收入y的影響因素有很多,根據(jù)相關(guān)文獻(xiàn)初步選取以下19個(gè)指標(biāo)作為影響地方財(cái)政收入的因素,即:財(cái)政支出(x1)、地區(qū)生產(chǎn)總值(x2)、第二產(chǎn)業(yè)增加值(x3)、工業(yè)增加值(x4)、工業(yè)增加值占GDP比重(x5)、第三產(chǎn)業(yè)增加值(x6)、批發(fā)零售業(yè)零售額(x7)、住宿和餐飲零售額(x8)、第二三產(chǎn)業(yè)產(chǎn)值比(x9)、固定資產(chǎn)投資額(x10)、居民消費(fèi)價(jià)格(x11)、城市居民年人均可支配收入(x12)、城鎮(zhèn)單位職工年平均工資(x13)、規(guī)模以上工業(yè)企業(yè)盈虧相抵后的利潤(rùn)總額(x14)、建筑業(yè)增加值(x15)、普通高等學(xué)校專(zhuān)任教師數(shù)(x16)、社會(huì)從業(yè)人數(shù)(x17)、社會(huì)消費(fèi)品零售總額(x18)、年末總?cè)丝?x19)。
本文的數(shù)據(jù)來(lái)源于青海省海西蒙古族藏族自治州統(tǒng)計(jì)局,由于1994年我國(guó)的財(cái)政體制進(jìn)行了重大改革,所以本文只對(duì)1994—2016年的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析。
原數(shù)據(jù)集中有部分指標(biāo)存在缺失值,因此本文首先對(duì)缺失值進(jìn)行處理,主要采用二期移動(dòng)平均方法來(lái)進(jìn)行填充,進(jìn)而對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
運(yùn)用 Lasso方法選擇了 10 個(gè)變量,即 x1、x2、x3、x5、x7、x11、x12、x13、x15、x16。從表 1 中的結(jié)果可知,這 10個(gè)變量的Lasso回歸系數(shù)顯著不為零,即剔除了工業(yè)增加值(x4)、第三產(chǎn)業(yè)增加值(x6)、住宿和餐飲零售額(x8)、第二三產(chǎn)業(yè)產(chǎn)值比(x9)、固定資產(chǎn)投資額(x10)、規(guī)模以上工業(yè)企業(yè)盈虧相抵后的利潤(rùn)總額(x14)、社會(huì)從業(yè)人數(shù)(x17)、社會(huì)消費(fèi)品零售總額(x18)、年末總?cè)丝?x19)這9個(gè)變量。這是因?yàn)楣I(yè)增加值和規(guī)模以上工業(yè)企業(yè)盈虧相抵后的利潤(rùn)總額與工業(yè)增加值占GDP比重存在明顯的多重共線性,第三產(chǎn)業(yè)增加值和第二三產(chǎn)業(yè)產(chǎn)值比與第二產(chǎn)業(yè)增加值相關(guān)性太強(qiáng),而且青海海西的人口比較少,所以人口對(duì)財(cái)政收入的影響不是很大,這與海西州的當(dāng)?shù)厍闆r是相符的。
表1 Lasso回歸系數(shù)
綜上,Lasso變量選擇模型選取了10個(gè)變量,分別是財(cái)政支出(x1)、地區(qū)生產(chǎn)總值(x2)、第二產(chǎn)業(yè)增加值(x3)、工業(yè)增加值占GDP比重(x5)、批發(fā)零售業(yè)零售額(x7)、居民消費(fèi)價(jià)格(x11)、城市居民年人均可支配收入(x12)、城鎮(zhèn)單位職工年平均工資(x13)、建筑業(yè)增加值(x15)、普通高等學(xué)校專(zhuān)任教師數(shù)(x16)。因此,將這10個(gè)變量作為影響該地區(qū)財(cái)政收入的主要影響因素。
將Lasso選取出的這10個(gè)變量作為神經(jīng)網(wǎng)絡(luò)模型中的輸入變量,記為P,以財(cái)政收入數(shù)據(jù)y這1項(xiàng)指標(biāo)的數(shù)據(jù)作為輸出變量,記為T(mén)。將1994—2015年的數(shù)據(jù)作為訓(xùn)練樣本,2016年的數(shù)據(jù)作為測(cè)試樣本,由于訓(xùn)練樣本比較少,所以采用交叉驗(yàn)證的方法訓(xùn)練GRNN神經(jīng)網(wǎng)絡(luò),并采用循環(huán)迭代的方法找出最佳的SPREAD值,本案例中最后循環(huán)得到的最佳SPREAD值為0.9。Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果如圖2所示,從圖2可以看到2016年的預(yù)測(cè)值和真實(shí)值之間相差很小,幾乎重合,表明Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型的樣本外預(yù)測(cè)效果非常好。
圖2 Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)值與真實(shí)值的比較
方博(2015)[10]和趙海華(2016)[11]分別利用BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)地方財(cái)政收入,為了檢驗(yàn)本文提出的Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果,將Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型和Lasso-BP、Lasso-RBF神經(jīng)網(wǎng)絡(luò)模型做比較研究。最后得到三個(gè)組合模型的預(yù)測(cè)對(duì)比結(jié)果如表2所示。
表2 組合模型預(yù)測(cè)結(jié)果
從表2可以看出,Lasso-BP和Lasso-RBF的組合預(yù)測(cè)模型的預(yù)測(cè)相對(duì)誤差分別為3.455%和4.858%,Lasso-RBF的組合預(yù)測(cè)模型效果最差,而Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)相對(duì)誤差非常小,只有0.05%,預(yù)測(cè)精度最高。三組模型的預(yù)測(cè)效果圖見(jiàn)圖3,從圖3中的局部放大圖可以看出,Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型在2016年的地方財(cái)政收入樣本外預(yù)測(cè)值和真實(shí)值之間相差最小。與BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)相比較而言,GRNN神經(jīng)網(wǎng)絡(luò)需要調(diào)整的參數(shù)較少,只有一個(gè)SPREAD值,在計(jì)算速度上占優(yōu)勢(shì),而且GRNN神經(jīng)網(wǎng)絡(luò)在樣本量較小和噪聲較多的情況下預(yù)測(cè)效果也很好,這些都是另外兩種神經(jīng)網(wǎng)絡(luò)模型所無(wú)法比擬的。
圖3 組合預(yù)測(cè)模型的比較
圖3預(yù)測(cè)結(jié)果顯示,海西州1994—2016年的的財(cái)政收入總體上呈上升趨勢(shì),但近幾年的增長(zhǎng)率減緩,且2015年的地方財(cái)政收入相對(duì)于2014年明顯下降,這是因?yàn)楹N髦葚?cái)政收入主要來(lái)自工業(yè),而2015年海西州的工業(yè)增加值占GDP比重相比2014年減少了7.33%,且其他影響該地區(qū)財(cái)政收入的指標(biāo)如財(cái)政支出、地區(qū)生產(chǎn)總值、第二產(chǎn)業(yè)增加值、城鎮(zhèn)居民年人均可支配收入、建筑業(yè)增加值以及普通高校專(zhuān)任教師數(shù)相比2014年均處于一個(gè)較低的水平,因此2015年海西州地方財(cái)政收入受這些因素的影響導(dǎo)致下降,這也驗(yàn)證了前面指標(biāo)選取的合理性和有效性。
總之,經(jīng)過(guò)反復(fù)訓(xùn)練得到Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型具有很好的預(yù)測(cè)效果,因此,可以用該組合模型來(lái)預(yù)測(cè)地方財(cái)政收入,其中2017年各因子的數(shù)值利用指數(shù)平滑法得到,以1994—2016年的數(shù)據(jù)作為訓(xùn)練樣本,2017年的數(shù)據(jù)作為測(cè)試樣本,訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到最佳SPREAD值為0.6,預(yù)測(cè)結(jié)果見(jiàn)圖4。
圖4 2017年地方財(cái)政收入預(yù)測(cè)
從圖4可以看出,雖然在個(gè)別點(diǎn)上預(yù)測(cè)誤差較大,但整體預(yù)測(cè)效果還是很好的。青海海西2017年的財(cái)政收入預(yù)測(cè)結(jié)果為455090萬(wàn)元,略高于2016年的財(cái)政收入,主要是因?yàn)榕l(fā)零售業(yè)、城鎮(zhèn)單位職工年平均工資和建筑業(yè)增加值這三個(gè)指標(biāo)水平相對(duì)于2016年都處于一個(gè)較高的水平,而這三個(gè)指標(biāo)對(duì)地方財(cái)政收入的影響起一定的正向作用,而對(duì)海西財(cái)政收入影響占較大比重的工業(yè)增加值占GDP的比重這個(gè)指標(biāo)相比2016年沒(méi)有很大的提升,這在一定程度上阻礙了海西地區(qū)的經(jīng)濟(jì)發(fā)展。因此,建議青海省海西州著重從工業(yè)、教育、消費(fèi)以及城市居民收入水平這幾個(gè)方面做政策調(diào)整,加大對(duì)工業(yè)和教育的投入,著力提高居民收入水平,加快產(chǎn)業(yè)結(jié)構(gòu)的升級(jí)換代,刺激消費(fèi),拉動(dòng)內(nèi)需,從而更好地促進(jìn)經(jīng)濟(jì)的發(fā)展。
由于地方財(cái)政收入的影響因素眾多,并且一些影響因素之間存在多重共線性問(wèn)題,本文采用Lasso方法篩選影響地方財(cái)政收入的主要指標(biāo),從Lasso的參數(shù)估計(jì)系數(shù)可以看出影響海西地方財(cái)政收入的主要因素有財(cái)政支出、地區(qū)生產(chǎn)總值、第二產(chǎn)業(yè)增加值、工業(yè)增加值占GDP比重、批發(fā)零售業(yè)零售額、居民消費(fèi)價(jià)格、城市居民年人均可支配收入、城鎮(zhèn)單位職工年平均工資、建筑業(yè)增加值、普通高等學(xué)校專(zhuān)任教師數(shù),其中普通高等學(xué)校專(zhuān)任教師數(shù)是影響海西州地方財(cái)政收入的最重要的因素,可見(jiàn)教育是影響一個(gè)地區(qū)乃至國(guó)家經(jīng)濟(jì)的一個(gè)重要因素,因?yàn)閯趧?dòng)者是首要生產(chǎn)力,而教育是培養(yǎng)勞動(dòng)者創(chuàng)新能力的關(guān)鍵,其次工業(yè)增加值占GDP的比重影響次之。然后在變量選擇的基礎(chǔ)上,用GRNN神經(jīng)網(wǎng)絡(luò)模型來(lái)擬合地方財(cái)政收入與各主要影響因素之間的非線性關(guān)系,最后用訓(xùn)練好的Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)地方財(cái)政收入,以青海省海西蒙古族藏族自治州相關(guān)數(shù)據(jù)為例對(duì)海西的財(cái)政收入做預(yù)測(cè),并通過(guò)與Lasso-BP和Lasso-RBF組合預(yù)測(cè)模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,驗(yàn)證了Lasso-GRNN神經(jīng)網(wǎng)絡(luò)組合預(yù)測(cè)模型的優(yōu)越性和有效性,從預(yù)測(cè)精度和收斂速度來(lái)看,Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型都優(yōu)于另外兩個(gè)組合模型。