江艷婷
摘要:為了準(zhǔn)確判斷我國的消費(fèi)形勢,選取我國2000-2018年的經(jīng)濟(jì)月度數(shù)據(jù),首先基于機(jī)器學(xué)習(xí)的方法分別構(gòu)建隨機(jī)森林、支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)三個(gè)單項(xiàng)預(yù)測評價(jià)模型對我國社會(huì)消費(fèi)品零售總額進(jìn)行預(yù)測,由于單項(xiàng)預(yù)測方法存在自身的優(yōu)勢與限制條件,于是引入了基于誤差平方和最小的誘導(dǎo)有序加權(quán)算術(shù)平均(IOWA)組合預(yù)測模型,結(jié)果表明:組合預(yù)測模型各種預(yù)測誤差均小于單項(xiàng)預(yù)測模型,說明文中構(gòu)建的IOWA組合預(yù)測模型預(yù)測性能優(yōu)越,具有較好的運(yùn)用前景。
Abstract: In order to well and truly estimate the consumption situation in China, the economic monthly data of China from 2000 to 2018 was selected. In the first place, based on machine learning methods, three separate forecasting evaluation models of random forest, support vector machine, and BP neural network were used to forecast the total retail sales of social consumer goods in China. Due to the advantages and limitations of the single prediction method, an induced ordered weighted arithmetic average (IOWA) combined prediction model based on the squared error and the smallest error is introduced. The results indicated that: the various prediction errors of the combined prediction model are all smaller than the single prediction model,indicating that the IOWA combined prediction model has predominant forecast performance and good application future that built in this paper.
關(guān)鍵詞:機(jī)器學(xué)習(xí);IOWA算子;組合預(yù)測
0? 引言
隨著我國經(jīng)濟(jì)逐漸進(jìn)入高質(zhì)量發(fā)展階段,消費(fèi)需求已然成為經(jīng)濟(jì)增長的強(qiáng)勁動(dòng)力,由消費(fèi)需求引發(fā)的實(shí)際購買行為稱之為消費(fèi)力,消費(fèi)力本質(zhì)上是生產(chǎn)力的一種,沒有消費(fèi)行為,生產(chǎn)也就無法實(shí)現(xiàn),而社會(huì)消費(fèi)品零售總額是國內(nèi)消費(fèi)需求的最直接體現(xiàn),是反映經(jīng)濟(jì)景氣程度的重要指標(biāo),如何基于現(xiàn)實(shí)發(fā)展的要求,高效準(zhǔn)確的預(yù)測社會(huì)消費(fèi)品零售總額,對于挖掘消費(fèi)潛力并進(jìn)一步加強(qiáng)對經(jīng)濟(jì)增長的推動(dòng)作用極具現(xiàn)實(shí)意義。
對于變量的單項(xiàng)預(yù)測方法較多,由于機(jī)器學(xué)習(xí)算法具有較強(qiáng)的學(xué)習(xí)能力,預(yù)測精度相對較高,因此文中的單項(xiàng)預(yù)測方法均運(yùn)用機(jī)器學(xué)習(xí)去實(shí)現(xiàn),機(jī)器學(xué)習(xí)源于McCulloch、pitts(1943)[1]開始研究的神經(jīng)網(wǎng)絡(luò)模型,到1986年,Rumelhart等(1986)[2]提出的BP神經(jīng)網(wǎng)絡(luò)成為了神經(jīng)網(wǎng)絡(luò)的最基本算法,在二十世紀(jì)90年代后支持向量機(jī)(SVM)衍生出了一系列改進(jìn)和擴(kuò)展算法,并得到了迅速發(fā)展,隨后Leo Breiman(2001)[3]提出了隨機(jī)森林算法,之后在預(yù)測研究中得到廣泛運(yùn)用。但每一種算法都有自身的優(yōu)勢與不足,如BP神經(jīng)網(wǎng)絡(luò)預(yù)測能夠提取合理的計(jì)算規(guī)則,深入解決內(nèi)部機(jī)制復(fù)雜的問題,但同時(shí)很有可能因局部極值問題,使訓(xùn)練失效;隨機(jī)森林運(yùn)行非常穩(wěn)定,泛化能力強(qiáng),但有時(shí)在噪音較大的分類或回歸問題中上會(huì)出現(xiàn)過擬合現(xiàn)象;支持向量機(jī)小集群分類效率高,且可以通過核函數(shù)將線性不可分問題轉(zhuǎn)化為線性可分,但難以確定最優(yōu)核函數(shù),鑒于此,組合預(yù)測方法則成為了研究的新方向,因?yàn)槠淠軌蚪Y(jié)合單項(xiàng)預(yù)測方法的優(yōu)勢并縮小劣勢,降低預(yù)測誤差。而基于誘導(dǎo)有序加權(quán)算術(shù)平均(IOWA)算子的組合預(yù)測方法正是其中一種,區(qū)別于傳統(tǒng)的組合預(yù)測方法,基于預(yù)測精度誘導(dǎo)的各單項(xiàng)預(yù)測方法在各時(shí)點(diǎn)的權(quán)重會(huì)發(fā)生變化[4-5-6],康義等(2016)[7]基于IOWA算子對我國省份的電力發(fā)展水平進(jìn)行了一個(gè)綜合評價(jià),驗(yàn)證了該方法的有效性;孫麗、牟海波(2018)[8]構(gòu)建IOWA算子的組合預(yù)測模型對我國高速鐵路的客運(yùn)量進(jìn)行預(yù)測研究,發(fā)現(xiàn)IOWA算子的組合預(yù)測模型能夠降低預(yù)測誤差,提高預(yù)測精度。由于學(xué)者們對于消費(fèi)預(yù)測的研究較少,且存在可以深化的空間,因此本文分別建立隨機(jī)森林、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和基于IOWA算子的三者組合預(yù)測模型,來尋求對于社會(huì)消費(fèi)品零售總額最合適、高效的預(yù)測方法。
1? 研究方法
1.1 隨機(jī)森林
隨機(jī)森林是由多顆決策樹組合而成的分類器,即由N顆決策樹構(gòu)成,基于原始數(shù)據(jù)訓(xùn)練完成再進(jìn)行預(yù)測,其中X是研究對象的影響因素,即輸入變量,θk表示服從獨(dú)立同分布的隨機(jī)項(xiàng),h(X,θk)為第K顆數(shù)的輸出值,決策樹可以用來分類和回歸,當(dāng)進(jìn)行分類時(shí),隨機(jī)森林會(huì)基于投票制的原則,給予每顆決策樹投票權(quán),然后采用投票最高的那一類作為最終結(jié)果;當(dāng)進(jìn)行回歸時(shí),隨機(jī)森林回歸值為所有決策樹輸出值的平均值。
1.2 支持向量機(jī)
支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論建立起的一種機(jī)器學(xué)習(xí)方法,其原理是將輸入樣本映射到一個(gè)高維空間,在此高維空間將復(fù)雜的非線性問題進(jìn)行線性回歸或分類。設(shè)定樣本集,回歸方程如下:
1.3 BP神經(jīng)網(wǎng)絡(luò)模型
BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成,在進(jìn)行訓(xùn)練時(shí),信號是從正向傳播的,而誤差是從反向傳播的,為了減少誤差,會(huì)由輸出層出發(fā)并向前修正,文中建立三層的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,輸入層為7個(gè)神經(jīng)元,分別為居民消費(fèi)價(jià)格指數(shù)(CPI)、貨幣供應(yīng)量(M1)、消費(fèi)者滿意指數(shù)、消費(fèi)者預(yù)期指數(shù)、消費(fèi)者信心指數(shù)、國家財(cái)政支出和貨運(yùn)量這7個(gè)影響因素,隱含層用來進(jìn)行信息的處理,隱含層設(shè)計(jì)的確定是根據(jù)經(jīng)驗(yàn)公式h=+a,其中h為隱含層神經(jīng)元個(gè)數(shù),m為輸入層神經(jīng)元個(gè)數(shù),n為輸出層神經(jīng)元個(gè)數(shù),a為調(diào)節(jié)參數(shù),取值為[1,10]之間,文中隱含層神經(jīng)元個(gè)數(shù)取值為[3.8,12.8]之間,文中設(shè)為10個(gè)神經(jīng)元,輸出層為1個(gè)神經(jīng)元,代表社會(huì)消費(fèi)品零售總額。
1.4 IOWA算子
1.5 評價(jià)準(zhǔn)則
由xt為t時(shí)刻的實(shí)際值,設(shè)為各預(yù)測模型的預(yù)測值,文中選擇平均相對誤差(MRE)和均方百分比誤差(MSPE)兩種誤差表現(xiàn)形式來評價(jià)各單項(xiàng)預(yù)測模型和組合預(yù)測模型,評價(jià)指標(biāo)體系如下:
2? 變量的選取與數(shù)據(jù)來源
由于我國社會(huì)消費(fèi)品零售總額受到多種因素的影響,本文基于理論與現(xiàn)實(shí)基礎(chǔ),選取影響較大的七個(gè)影響因子,分別為居民消費(fèi)價(jià)格指數(shù)(CPI)、貨幣供應(yīng)量(M1/億元)、消費(fèi)者滿意指數(shù)、消費(fèi)者預(yù)期指數(shù)、消費(fèi)者信心指數(shù)、國家財(cái)政支出(億元)和貨運(yùn)量(億噸)。樣本區(qū)間為2000年1月至2018年12月,選取2000年1月至2017年12月總計(jì)216條數(shù)據(jù)為訓(xùn)練樣本,分別建立隨機(jī)森林、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和組合預(yù)測模型,而2018年1月至2018年12月總計(jì)12條數(shù)據(jù)為測試集,用來驗(yàn)證預(yù)測模型的精度。居民消費(fèi)價(jià)格指數(shù)的原始數(shù)據(jù)是上年同月環(huán)比指數(shù),將其轉(zhuǎn)化為以2000年為基期的定基指數(shù)。社會(huì)消費(fèi)品零售總額共有228個(gè)月份數(shù)據(jù),其中有10個(gè)月份數(shù)據(jù)缺失,于是基于原始數(shù)據(jù)采用指數(shù)平滑的方式進(jìn)行預(yù)測。由于各變量量綱相差較大,為提高機(jī)器學(xué)習(xí)的收斂速度和精度,將數(shù)據(jù)進(jìn)行歸一化,歸一至[0.1,1]區(qū)間內(nèi),歸一化公式如下:
3? 單項(xiàng)預(yù)測與組合預(yù)測結(jié)果比較
基于樣本數(shù)據(jù)分別建立隨機(jī)森林模型、支持向量機(jī)模型、BP神經(jīng)網(wǎng)絡(luò)模型及基于誤差平方和最小的誘導(dǎo)有序加權(quán)算術(shù)平均(IOWA)組合預(yù)測模型,將測試集得出的預(yù)測值與實(shí)際值進(jìn)行比較分析,并驗(yàn)證模型精度如表1所示,樣本期誤差比較如表2所示。
首先由表1預(yù)測精度可知,在三種單項(xiàng)預(yù)測模型中,隨機(jī)森林的預(yù)測平均精度最高,為94.14%,其次是BP神經(jīng)網(wǎng)絡(luò)模型,為92.65%,最后是支持向量機(jī)模型,僅有89.70%,說明在預(yù)測社會(huì)消費(fèi)品零售總額方面,隨機(jī)森林算法預(yù)測穩(wěn)定,擬合較好,具有較優(yōu)的預(yù)測性能,BP神經(jīng)網(wǎng)絡(luò)模型模型次于隨機(jī)森林,可能是由于BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)選擇沒有統(tǒng)一、標(biāo)準(zhǔn)的理論支撐,文中BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)選擇是由經(jīng)驗(yàn)確定的,結(jié)構(gòu)選擇并沒有達(dá)到最優(yōu),所以預(yù)測精度不是很高,支持向量機(jī)預(yù)測精度最差,可能沒有確定最優(yōu)的核函數(shù)。但總體來說,三種單項(xiàng)預(yù)測模型的預(yù)測性能還是較好的,最后,由三種單項(xiàng)預(yù)測模型構(gòu)建的誘導(dǎo)有序加權(quán)算術(shù)平均(IOWA)組合預(yù)測模型在樣本期間內(nèi)的平均精度達(dá)到了95.57%,且高于各種單項(xiàng)預(yù)測方法,說明組合預(yù)測模型預(yù)測最優(yōu)。在誤差度量方面,我們選擇了平均相對誤差和均方百分比誤差這兩種誤差表現(xiàn)形式,由表2可知,在三種單項(xiàng)預(yù)測模型中支持向量機(jī)模型的誤差最高,次高是BP神經(jīng)網(wǎng)絡(luò)模型,再是隨機(jī)森林模型,誤差最低的是組合預(yù)測模型,將各預(yù)測方法的誤差歸一化(各單項(xiàng)預(yù)測方法的預(yù)測誤差與最大預(yù)測誤差的占比),發(fā)現(xiàn)組合預(yù)測模型的平均相對誤差只相當(dāng)于最大平均相對誤差的43.05%,均方百分比誤差只相當(dāng)于最大均方百分比誤差的49.51%,說明文中的組合預(yù)測模型能夠有效降低預(yù)測誤差,體現(xiàn)了組合預(yù)測模型的優(yōu)越性。
4? 總結(jié)
本文首先基于機(jī)器學(xué)習(xí)算法,分別構(gòu)建了隨機(jī)森林、支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)三個(gè)單項(xiàng)預(yù)測評價(jià)模型,發(fā)現(xiàn)隨機(jī)森林預(yù)測性能最優(yōu),表明了隨機(jī)森林的學(xué)習(xí)效率高,可以被運(yùn)用于日常的單項(xiàng)模型預(yù)測中,其次BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果也較優(yōu),但我們要積極結(jié)合理論與實(shí)踐確定最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)選擇。對于支持向量機(jī)預(yù)測模型,只有確定了最優(yōu)的核函數(shù),才能提高模型的預(yù)測精度。由于單一預(yù)測方法都有自身的優(yōu)勢與不足,而且對數(shù)據(jù)信息掌握不夠透徹會(huì)影響預(yù)測結(jié)果,于是基于三種單項(xiàng)預(yù)測方法,構(gòu)建了誘導(dǎo)有序加權(quán)算術(shù)平均(IOWA)組合預(yù)測模型,克服了單一預(yù)測方法的預(yù)測權(quán)重在時(shí)序上不變的限制,將三個(gè)預(yù)測模型的優(yōu)勢結(jié)合起來,大幅度提高了預(yù)測精度,能夠有效的預(yù)測消費(fèi)新變化,為社會(huì)消費(fèi)品零售總額提供了一種預(yù)測新思路,對于正確把握宏觀經(jīng)濟(jì)發(fā)展新形勢,推動(dòng)經(jīng)濟(jì)高質(zhì)量增長極具現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1]McClloch W S, pitts W. A logical calculus of the ideas immanentin nervous activity [J]. The Bulletin of Mathematical Biophysics,1943, 5(4):115-133.
[2]Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation [J]. Nature, 1986,323(99):533-536.
[3]BREIMAN L. Random Forests[J]. Machine Learning, 2001,45(1):5-32.
[4]陳華友,李翔,金磊,等.基于相關(guān)系數(shù)及IOWA算子的區(qū)間組合預(yù)測方法[J].方法應(yīng)用,2012,22(6):83-86.
[5]王曉,劉兮,陳華友,等.基于IOWA算子的區(qū)間組合預(yù)測方法[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理過程版),2010,32(2):221-225.
[6]陳華友,陳啟明,李洪巖.一類基于0WA算子的組合預(yù)測模型及性質(zhì)[J].運(yùn)籌與管理,2006,15(6):34-39.
[7]康義,周一凡,邴煥帥,胡偉,郭健.基于IOWA算子的自主式電力發(fā)展水平綜合評價(jià)[J].中國電力,2016,49(08):110-115.
[8]孫麗,牟海波.基于IOWA組合模型的高速鐵路客運(yùn)量預(yù)測研究[J].鐵道運(yùn)輸與經(jīng)濟(jì),2018,40(09):74-79.