秦 夢,劉 漢
(1.中共中央黨校(國家行政學(xué)院)研究生院,北京 100091;2.吉林大學(xué)數(shù)量經(jīng)濟(jì)研究中心,吉林 長春 130012)
旅游業(yè)作為服務(wù)業(yè)的重要組成部分,是一國人民生活水平和經(jīng)濟(jì)社會發(fā)展的“風(fēng)向標(biāo)”,及時且準(zhǔn)確地預(yù)測旅游需求,不僅有助于旅游部門采取有效措施防止景點(diǎn)承載與游客需求不匹配的現(xiàn)象,以確保高效的資源配置和安全的高質(zhì)量服務(wù),同時還有益于旅游相關(guān)行業(yè)的發(fā)展,調(diào)整相關(guān)產(chǎn)品或服務(wù)的供給,避免供求失衡,以獲得更高的經(jīng)濟(jì)效益,因此,對旅游需求的預(yù)測顯得尤為重要。三亞市作為一個以旅游產(chǎn)業(yè)帶動經(jīng)濟(jì)發(fā)展的典型城市,由于地理位置因素,每年冬季是三亞市客流量的高峰時期,及時準(zhǔn)確地預(yù)測三亞市的旅游需求,一方面有助于游客合理規(guī)劃旅游時間,另一方面有助于三亞市旅游當(dāng)局有效配置旅游資源。
旅游統(tǒng)計部門對數(shù)據(jù)的公布存在一定的滯后性,這限制了旅游信息獲取的實時性,影響了游客的出行計劃和旅游部門的戰(zhàn)略決策調(diào)整,因此,運(yùn)用計量模型對旅游需求進(jìn)行預(yù)測得到了廣泛關(guān)注。傳統(tǒng)的計量模型對旅游需求的預(yù)測方法大多是基于旅游需求自身進(jìn)行預(yù)測,這會導(dǎo)致預(yù)測結(jié)果存在偏誤。這是由于,搜索引擎的發(fā)展為旅游需求的預(yù)測研究開辟了新領(lǐng)域,以三亞市為例,游客出行前會對三亞市的景點(diǎn)、天氣、特產(chǎn)等信息進(jìn)行了解,而搜索引擎是了解這些信息的重要工具,反映搜索行為和關(guān)注度的搜索指標(biāo)在一定程度上可以反映用戶需求,必然與旅游需求息息相關(guān),若未將這一相關(guān)因素考慮在內(nèi),勢必會出現(xiàn)模型誤設(shè)的可能,進(jìn)而導(dǎo)致預(yù)測出現(xiàn)偏差。由于反映搜索行為和關(guān)注度的指標(biāo),如百度指數(shù),兼具公布時效性和與旅游需求強(qiáng)相關(guān)性的特點(diǎn),因此,基于搜索引擎輿情數(shù)據(jù)與旅游需求的內(nèi)在關(guān)聯(lián)性構(gòu)建模型進(jìn)行分析和預(yù)測,能夠指導(dǎo)游客及旅游部門的規(guī)劃和策略,以促進(jìn)區(qū)域旅游業(yè)的可持續(xù)發(fā)展。
早期對旅游需求的預(yù)測廣泛采用自回歸移動平均(ARMA)模型及其拓展形式[1-8]、基于Copula的廣義自回歸條件異方差(GARCH)模型[9]、加入誤差修正項的自回歸分布滯后(ARDL)模型[10]、選取多個預(yù)測模型進(jìn)行對比[11-13]、基于多個模型構(gòu)建組合預(yù)測模型[14-19]等。基于上述模型的預(yù)測雖具有合理性,但忽略了對旅游需求具有指示性作用的相關(guān)變量,隨著互聯(lián)網(wǎng)的高速發(fā)展,游客出行前會通過電子設(shè)備對目的地的相關(guān)信息進(jìn)行搜索,智能手機(jī)的普及使得這一現(xiàn)象尤為突出,因此,就互聯(lián)網(wǎng)搜索量的加入是否能夠提高傳統(tǒng)模型預(yù)測精度這一問題,國內(nèi)外學(xué)者進(jìn)行了諸多研究。
就國外游客而言,谷歌搜索引擎最為常用,因此,國外游客的搜索行為和關(guān)注度大多是由谷歌搜索數(shù)據(jù)來反映,即可基于谷歌搜索數(shù)據(jù)對外國游客旅游需求進(jìn)行預(yù)測。Dinis等認(rèn)為谷歌趨勢數(shù)據(jù)可以作為反映旅游相關(guān)信息的重要工具,通過對葡萄牙旅游的研究表明運(yùn)用谷歌趨勢數(shù)據(jù)有助于了解游客對區(qū)域旅游目的地的興趣和關(guān)注度[20]。Artola等使用谷歌搜索數(shù)據(jù)對西班牙旅游客流量進(jìn)行預(yù)測,發(fā)現(xiàn)直至2012年,預(yù)測效果相當(dāng)可觀,且預(yù)測的均方誤差大幅減小[21]。Gunter和?nder基于谷歌分析數(shù)據(jù)對維也納實際旅游人數(shù)進(jìn)行預(yù)測,并發(fā)現(xiàn)大數(shù)據(jù)的加入更有利于長期預(yù)測效果的改善[22]。Park等基于谷歌搜索數(shù)據(jù)對日本赴韓國游客量進(jìn)行短期預(yù)測,證實了搜索數(shù)據(jù)的加入能夠提高時間序列模型的預(yù)測精度,且樣本外預(yù)測更具有有效性[23]。沈蘇彥等基于谷歌關(guān)鍵詞對入境旅游需求進(jìn)行預(yù)測,得出預(yù)測效果優(yōu)于傳統(tǒng)模型的結(jié)論[24]。
而對于國內(nèi)游客來說,百度搜索引擎的使用頻率最高,相比于谷歌搜索數(shù)據(jù),百度搜索數(shù)據(jù)更能夠反映國內(nèi)游客的搜索行為和關(guān)注度。Xin等基于百度搜索數(shù)據(jù)和谷歌搜索數(shù)據(jù)分別對海南游客量進(jìn)行預(yù)測,并得出前者預(yù)測能力更好的結(jié)論[25]。這主要是由于百度搜索引擎在中國所占的市場份額更大,因此,國內(nèi)游客的搜索行為和關(guān)注度大多是由百度指數(shù)來反映,即可基于百度指數(shù)數(shù)據(jù)對中國游客旅游需求進(jìn)行預(yù)測。黃先開等通過對故宮游客量預(yù)測,發(fā)現(xiàn)百度關(guān)鍵詞的加入顯著提高了ARMA模型的預(yù)測精度[26]。任樂和崔東佳結(jié)合搜索指數(shù)對北京市旅游客流量進(jìn)行預(yù)測,并認(rèn)為搜索指數(shù)的加入能夠降低絕對誤差,且能夠提高擬合優(yōu)度[27]。王煉和賈建民通過對四川省黃金周期間游客量進(jìn)行預(yù)測發(fā)現(xiàn),結(jié)合網(wǎng)絡(luò)搜索量的模型能夠使得預(yù)測誤差大幅減小[28]。陳濤和劉慶龍以北京市為例,探討了旅游大數(shù)據(jù)與神經(jīng)網(wǎng)絡(luò)相結(jié)合在預(yù)測旅游需求方面的準(zhǔn)確性[29]。孫燁等探討了相比于ARMA模型,百度指數(shù)的加入有助于更好地預(yù)測三清山的游客量,且移動端比PC端的預(yù)測更有效[30]。魏瑾瑞和崔浩萌基于網(wǎng)絡(luò)搜索量構(gòu)造區(qū)域旅游指數(shù),并認(rèn)為該指數(shù)可以對西安旅游客流量進(jìn)行實時預(yù)報[31]。
結(jié)合國內(nèi)外學(xué)者的研究可以看出,加入反映搜索行為和關(guān)注度的指標(biāo)的確可以提高旅游需求的預(yù)測效果,但上述研究均是基于同頻數(shù)據(jù)建模預(yù)測。一般而言,搜索量數(shù)據(jù)為日數(shù)據(jù)或周數(shù)據(jù),旅游需求(如旅游人數(shù)、旅游收入等)為月度或季度數(shù)據(jù),傳統(tǒng)模型無法基于頻率不同的數(shù)據(jù)建模,若通過平均、加總、替代或插值法將混頻數(shù)據(jù)轉(zhuǎn)化為同頻數(shù)據(jù)可能造成信息的損失或虛增,因此,為克服這一問題,Ghysels等提出混合數(shù)據(jù)抽樣(MIDAS)模型,可以將頻率不同的數(shù)據(jù)構(gòu)建在同一模型中,而不需要對原始數(shù)據(jù)進(jìn)行處理[32]。MIDAS模型的提出最初是為了運(yùn)用混頻數(shù)據(jù)對股票市場的波動進(jìn)行預(yù)測[33-35]。Clements和Galv?o提出帶有自回歸項的MIDAS(MIDAS-AR)模型,用于解決例如GDP這樣存在自相關(guān)性的時間序列,并證明加入自回歸項的MIDAS模型使得基于月度指標(biāo)對美國季度GDP增長率的預(yù)測更有效[36]。此后,學(xué)者們開始運(yùn)用MIDAS模型對各國GDP進(jìn)行預(yù)測,并證實由于MIDAS模型能夠充分利用混頻數(shù)據(jù)信息,同時可以根據(jù)新公布的高頻信息不斷修正預(yù)測結(jié)果,因此相較于傳統(tǒng)的同頻預(yù)測而言,混頻預(yù)測不僅能夠提高預(yù)測的準(zhǔn)確性,同時可以解決數(shù)據(jù)公布的時滯性問題[37-43]。除了應(yīng)用在股票市場和宏觀經(jīng)濟(jì)的預(yù)測外,隨著MIDAS模型理論和應(yīng)用的不斷完善和發(fā)展,國內(nèi)外學(xué)者也將該模型應(yīng)用于預(yù)測旅游需求,Bangwayoskeete和Skeete基于MIDAS模型證實了運(yùn)用谷歌趨勢搜索數(shù)據(jù)對旅游業(yè)需求進(jìn)行預(yù)測可以提高預(yù)測精度[44]。劉漢和王永蓮將谷歌搜索周數(shù)據(jù)納入預(yù)測旅游需求的同頻自回歸(AR)模型中發(fā)現(xiàn),MIDAS-AR模型的預(yù)測效果更好,且權(quán)重函數(shù)為指數(shù)Almon時的預(yù)測結(jié)果最為精確[45]。Hirashima等基于混頻模型和同頻模型對夏威夷季度旅游人數(shù)和季度食宿服務(wù)部門的勞動力收入進(jìn)行預(yù)測,并發(fā)現(xiàn)高頻預(yù)測指標(biāo)的加入有助于提高預(yù)測精度[46]。
綜上,鑒于搜索行為和關(guān)注度指標(biāo)的加入能夠使得旅游需求的預(yù)測更為精確,但二者的數(shù)據(jù)頻率往往有所差異,混頻預(yù)測的引入不僅能夠充分利用搜索行為和關(guān)注度指標(biāo)的信息,有助于提高旅游需求預(yù)測的準(zhǔn)確性,同時還可以利用向前預(yù)測最優(yōu)步數(shù)進(jìn)行實時預(yù)報,解決了旅游數(shù)據(jù)公布的時滯性問題。相對于已有研究而言,本文的邊際貢獻(xiàn)如下:第一,結(jié)合單變量MIDAS模型和多變量MIDAS模型的建模理論對三亞市旅游需求進(jìn)行預(yù)測,進(jìn)一步拓展了混頻模型的應(yīng)用領(lǐng)域,尤其是應(yīng)用于對區(qū)域旅游需求的實時預(yù)報方面,同時,進(jìn)一步證實了搜索行為和關(guān)注度對旅游需求的指示性作用;第二,將主成分分析法應(yīng)用到同頻模型和混頻模型中,通過對比預(yù)測效果進(jìn)而能夠判斷基于所提取主成分的預(yù)測是否具有有效性,同時主成分分析法與混頻預(yù)測相結(jié)合進(jìn)一步拓展了混頻模型的建模理論。
Ghysels等提出混頻數(shù)據(jù)抽樣(MIDAS)模型,是為了將不同頻率的解釋變量和被解釋變量構(gòu)建在同一模型中,用于研究高頻變量(即解釋變量)變動對低頻變量(即被解釋變量)的影響,運(yùn)用MIDAS模型可以充分利用高頻變量信息,提高對低頻變量的預(yù)測精度[32]。根據(jù)所包含高頻解釋變量的個數(shù)可將MIDAS模型分為單變量MIDAS模型和多變量MIDAS模型。
2.1.1 基礎(chǔ)MIDAS(m,K)模型
2.1.2h步向前預(yù)測的MIDAS(m,K,h)模型
由于對月度旅游需求的預(yù)測須根據(jù)已有信息向前預(yù)測,因此引入h步向前預(yù)測的MIDAS模型可以充分利用已公布的周搜索量數(shù)據(jù)對旅游需求進(jìn)行預(yù)測,相較于同頻模型來說,MIDAS模型可以根據(jù)新公布的數(shù)據(jù)對其預(yù)測進(jìn)行修正,提高了預(yù)測精度,同時解決了數(shù)據(jù)公布的時滯性問題。該模型形式為式(2),即將式(1)中的項轉(zhuǎn)換為項。
在式(2)中,若h=1即可提前一周對該月的數(shù)據(jù)進(jìn)行預(yù)測,若h=4即可提前一月對該月的數(shù)據(jù)進(jìn)行預(yù)測,以此類推,圖1是令K=8并以h=1和h=4為例繪制的混頻預(yù)測時間軸。由圖1可以看出,h的加入使得MIDAS模型可運(yùn)用新公布的周搜索量數(shù)據(jù)對未來旅游需求進(jìn)行預(yù)測,相關(guān)部門也可根據(jù)預(yù)測結(jié)果提前制定政策措施,以確保相關(guān)資源的充分有效利用,具有前瞻性和時效性。
圖1 混頻預(yù)測的時間軸Fig.1 Timeline of the mixed-frequency forecast
2.1.3 包含自回歸項的MIDAS(m,K,h)—AR(p)模型
由于旅游需求可能存在自相關(guān)性,即本期被解釋變量還受上一期被解釋變量的影響,因此根據(jù)Clements和Galv?o提出的帶有自回歸項的MIDAS(MIDAS-AR)模型的建模理論,在模型中引入帶有滯后階數(shù)的被解釋變量,以提高模型預(yù)測的有效性[36]。該模型形式為式(3),即在式(2)的基礎(chǔ)上引入被解釋變量的滯后項,即Yt-j項。
2.1.4 權(quán)重函數(shù)的設(shè)定
對于權(quán)重函數(shù)的設(shè)定,本文為得到預(yù)測精度最優(yōu)模型,選取5種形式的權(quán)重函數(shù),分別為:beta權(quán)重函數(shù)、指數(shù)Almon權(quán)重函數(shù)、Almon權(quán)重函數(shù)、step權(quán)重函數(shù)以及無權(quán)重函數(shù)(U-MIDAS模型[47]),公式如式(4)~式(8)所示。
(1)beta權(quán)重函數(shù)
(2)指數(shù)Almon權(quán)重函數(shù)
為避免待估參數(shù)過多問題,一般令式(5)中的P=2進(jìn)行分析,并且當(dāng)P=2時有一般的約束條件為θ1≤300;θ2<0。
(3)Almon權(quán)重函數(shù)
(4)step權(quán)重函數(shù)
在式(7)中,b0=1<b1<…<bP=K,I為示性函數(shù),k∈[bp-1,bp]時取1,反之取0。
(5)無權(quán)重函數(shù)(U-MIDAS模型)
對于多變量MIDAS模型的建模方法主要有多元MIDAS(M-MIDAS)模型和組合MIDAS(C-MIDAS)模型兩種形式,但M-MIDAS模型是將全部高頻變量構(gòu)建在一個方程中,由于本文高頻解釋變量之間的相關(guān)性很強(qiáng),若將強(qiáng)相關(guān)性的高頻解釋變量構(gòu)建在一個方程中將會出現(xiàn)共線性問題使得回歸預(yù)測的結(jié)果失真,因此本文選取C-MIDAS模型進(jìn)行分析。
C-MIDAS模型是將Bates和Granger開創(chuàng)的組合預(yù)測方法應(yīng)用到MIDAS模型中[48]。Aprigliano等、Winkelried、鄭挺國和尚玉皇、王維國和于揚(yáng)等學(xué)者結(jié)合實證,分析了C-MIDAS模型在預(yù)測方面的有效性[42,49-51]。C-MIDAS模型的建模方法是將n個單變量混頻模型所求得的預(yù)測值按照某一標(biāo)準(zhǔn)賦予權(quán)重,從而得到新的預(yù)測值。對于權(quán)重的設(shè)定,本文主要選取3種賦權(quán)方式,分別為等權(quán)重賦權(quán)、AIC準(zhǔn)則賦權(quán)和RMSE賦權(quán)。其中,等權(quán)重賦權(quán)是指對每個單變量模型所求得的預(yù)測值賦予相同的權(quán)重,權(quán)重均為1/n,而AIC準(zhǔn)則賦權(quán)和RMSE準(zhǔn)則賦權(quán)均為非等權(quán)重賦權(quán),權(quán)重形式分別為式(9)和式(10),為避免AIC值過大導(dǎo)致e-AIC無法得出有效值,本文將AIC準(zhǔn)則賦值的權(quán)重函數(shù)設(shè)定為式(9),由式(9)和式(10)可以看出AIC和RMSE的值越小所賦予的權(quán)重越大。
三亞旅游需求選用三亞月度接待國內(nèi)過夜游客人數(shù)來反映,下文簡稱為三亞旅游人數(shù),數(shù)據(jù)來源于三亞旅游官方政務(wù)網(wǎng)的月度統(tǒng)計數(shù)據(jù)。隨著科學(xué)技術(shù)的飛速發(fā)展,游客出行前通過電子設(shè)備對目的地相關(guān)信息的搜索已成常態(tài),對于國內(nèi)游客來說,無論是PC端還是移動端,百度搜索引擎所占份額最大,因此選用百度指數(shù)來反映國內(nèi)搜索行為,并將百度指數(shù)周數(shù)據(jù)作為MIDAS模型高頻解釋變量對三亞旅游需求預(yù)測。結(jié)合旅游“六要素”吃住行游購?qiáng)室约捌渌糜蜗嚓P(guān)信息選取搜索關(guān)鍵詞,分別將“三亞旅游攻略”“三亞美食”“三亞住宿”“三亞地圖”“三亞景點(diǎn)”“三亞特產(chǎn)”“三亞免稅店”“三亞天氣”作為關(guān)鍵詞,而后對這8個關(guān)鍵詞在百度指數(shù)主頁(index.baidu.com)進(jìn)行百度指數(shù)搜索,并將時間范圍設(shè)定為“全部”,即可得到8個關(guān)鍵詞所對應(yīng)的百度指數(shù)日數(shù)據(jù),包括總搜索量、PC端搜索量和移動端搜索量3部分。
為求得百度指數(shù)周數(shù)據(jù),本文將每個月的前7天作為第1周,第8~第14天作為第2周,第15~第21天作為第3周,該月剩下的天數(shù)作為第4周,并求得每周百度指數(shù)日數(shù)據(jù)所對應(yīng)的平均值,即為本文所使用的百度指數(shù)周數(shù)據(jù)。由于PC端是從2006年開始統(tǒng)計,而移動端是從2011年開始統(tǒng)計,本文選取PC端與移動端之和,即總搜索量作為高頻數(shù)據(jù),因此本文數(shù)據(jù)的時間范圍選取2011年1月—2018年6月?;谏鲜?個關(guān)鍵詞所得百度指數(shù)周數(shù)據(jù)與三亞月度旅游人數(shù)的走勢圖如圖2所示。
由圖2 可以看出,百度指數(shù)周數(shù)據(jù)與三亞旅游人數(shù)波動趨勢大體相仿,但波動幅度有所差異,且三亞旅游人數(shù)總體呈上升趨勢,這反映了我國人民生活水平的提高,對旅游的需求也在不斷增加。另外,冬季的游客人數(shù)明顯要多于其他季節(jié),這與三亞獨(dú)特的地理位置及氣候條件是息息相關(guān)的,也在百度指數(shù)周數(shù)據(jù)上有所體現(xiàn),因此運(yùn)用百度指數(shù)周數(shù)據(jù)預(yù)測三亞旅游需求具有可行性。
圖2 百度指數(shù)周數(shù)據(jù)與三亞月度旅游人數(shù)的走勢圖Fig.2 Trend of weekly Baidu Index data and monthly tourist numbers in Sanya
考慮到數(shù)據(jù)的平穩(wěn)性和季節(jié)性問題,本文分別求得三亞旅游人數(shù)和百度指數(shù)周數(shù)據(jù)的同比增長率,運(yùn)用同比增長率數(shù)據(jù)進(jìn)行回歸預(yù)測。選用2012年1月—2017年6月的三亞月度旅游人數(shù)增長率和2012年1月第1周—2017年6月第4周的百度指數(shù)周數(shù)據(jù)增長率作為樣本內(nèi)數(shù)據(jù)構(gòu)建MIDAS模型,預(yù)測區(qū)間選取 2017年7月—2018年6月共 12 個月的三亞旅游人數(shù)增長率。選擇ARMA模型和ARMAX模型作為同頻模型,以分析MIDAS模型預(yù)測的有效性,根據(jù)預(yù)測精度最優(yōu)原則,ARMA 模型選取ARMA(1,1)模型進(jìn)行分析,ARMAX模型是在ARMA(1,1)模型的基礎(chǔ)上引入百度指數(shù)月數(shù)據(jù)(百度指數(shù)周數(shù)據(jù)平均而得)同比增長率,且ARMA模型和ARMAX模型仍是基于2012年1月—2017年6月的數(shù)據(jù)建模,對12個月的三亞旅游人數(shù)增長率預(yù)測。
為使混頻模型與同頻模型的預(yù)測效果對比的更為清晰,本文選用rARMA和rARMAX指標(biāo),分別表示MIDAS 模型 RMSE 與 ARMA 模型、ARMAX 模型RMSE 的比值,RMSE 即預(yù)測的均方根誤差,如式(11)所示。rARMA和rARMAX指標(biāo)均有小于1 時MIDAS模型的預(yù)測精度更優(yōu),大于1 時MIDAS 模型的預(yù)測精度更劣的結(jié)論。
在式(11)中,i為對三亞月度旅游人數(shù)的預(yù)測期數(shù),其取值范圍是[1,T];T為最高預(yù)測期數(shù),在本文中有T=12,且當(dāng)i=1 時是指對2017年第7月的三亞旅游人數(shù)進(jìn)行預(yù)測,以此類推,當(dāng)i=12 時是指對2018年第6月的三亞旅游人數(shù)進(jìn)行預(yù)測。
由于ARMA模型和ARMAX模型選取的都是1階滯后,因此MIDAS 模型同樣選取被解釋變量滯后1 階,即運(yùn)用MIDAS-AR(1)模型進(jìn)行分析預(yù)測,將8個百度指數(shù)周數(shù)據(jù)增長率作為高頻解釋變量分別構(gòu)建單變量MIDAS 模型對三亞旅游人數(shù)增長率進(jìn)行滾動窗口預(yù)測,限于篇幅,僅列出使得預(yù)測效果最優(yōu)的高頻解釋變量滯后階數(shù)和權(quán)重函數(shù)所求得的預(yù)測誤差,預(yù)測結(jié)果如表1 和圖3 所示,其中,圖3僅列出基于不同百度指數(shù)周數(shù)據(jù)的rARMAX指標(biāo)。
由表1和圖3可以得出如下結(jié)論:
第一,百度指數(shù)的加入能夠提高旅游人數(shù)的預(yù)測精度。通過比較ARMA 模型和ARMAX 模型的預(yù)測誤差可以看出,除三亞地圖、三亞景點(diǎn)和三亞免稅店外,加入百度指數(shù)后ARMA(1,1)模型的預(yù)測精度有所提高,這說明搜索行為和關(guān)注度的確對三亞市旅游需求具有一定的指示性作用,這與先前研究所得結(jié)論相同。
第二,MIDAS模型能夠改善同頻模型的預(yù)測精度。結(jié)合表1 和圖3 可以明顯看出,大部分rARMA和rARMAX指標(biāo)是小于1的,也就是說,總體而言,MIDAS模型的預(yù)測誤差要小于ARMA 模型和ARMAX 模型,對于三亞地圖和三亞免稅店來說雖然ARMA 模型的預(yù)測效果優(yōu)于ARMAX 模型,但明顯不如MIDAS 模型,而三亞景點(diǎn)并不能表現(xiàn)出這一特征,三亞景點(diǎn)預(yù)測效果較差的原因可能是由于本文三亞旅游人數(shù)數(shù)據(jù)選取的是三亞市國內(nèi)過夜游客人數(shù),而部分游覽景點(diǎn)的游客選擇一日游而并沒有在三亞市過夜,例如部分搜索“三亞景點(diǎn)”的游客是距離三亞市2 小時左右動車車程的海口市居民等,因此導(dǎo)致預(yù)測誤差較大。但總體而言,混頻數(shù)據(jù)的運(yùn)用的確能夠提高同頻模型的預(yù)測精度,這說明MIDAS模型能夠充分利用高頻周數(shù)據(jù)信息,避免了平均化處理所造成的信息損失,因此預(yù)測效果更好一些,就平均值而言,基于不同百度指數(shù)周數(shù)據(jù)所構(gòu)建的MIDAS 模型按預(yù)測精度由高及低的順序為:三亞天氣、三亞免稅店、三亞旅游攻略、三亞特產(chǎn)、三亞住宿、三亞美食、三亞地圖、三亞景點(diǎn)。
表1 單變量MIDAS模型的預(yù)測結(jié)果Tab.1 Forecast results of the univariate MIDAS models
圖3 單變量MIDAS模型的預(yù)測結(jié)果(rARMAX)Fig.3 Forecast results of the univariate MIDAS models(rARMAX)
第三,向前預(yù)測步數(shù)的差異導(dǎo)致MIDAS 模型預(yù)測效果有所差異。h不同MIDAS 模型的預(yù)測精度不同,這反映了游客在不同時間段關(guān)注的方面也有所側(cè)重,另外,向前預(yù)測步數(shù)的加入可以利用已公布的百度指數(shù)周數(shù)據(jù)信息對三亞旅游人數(shù)向前預(yù)測,解決了三亞旅游人數(shù)公布的時滯性問題,可令h=1提前1周對該月旅游需求進(jìn)行預(yù)測,h=4對未來1 個月的旅游需求進(jìn)行預(yù)測,h=8對未來2個月的旅游需求進(jìn)行預(yù)測,更大的h可以對更長區(qū)間的旅游需求進(jìn)行預(yù)測,這有助于三亞市旅游業(yè)相關(guān)部門及時采取政策措施以實現(xiàn)旅游資源的充分有效利用。
第四,對于權(quán)重函數(shù)和滯后階數(shù)的選擇應(yīng)具體問題具體分析。通過表1可以明顯看出在高頻變量和向前預(yù)測步數(shù)h不同時,使得預(yù)測效果最優(yōu)的權(quán)重函數(shù)和滯后階數(shù)都有所差異,因此在實際應(yīng)用中還須根據(jù)具體情況具體選擇。
通過相關(guān)性分析發(fā)現(xiàn),高頻變量即百度指數(shù)數(shù)據(jù)間存在很強(qiáng)的相關(guān)性,因此本文選取C-MIDAS模型作為多變量MIDAS 模型來克服多重共線性問題,C-MIDAS 模型的賦權(quán)方式選取3 種:等權(quán)重賦權(quán)、AIC準(zhǔn)則賦權(quán)和RMSE賦權(quán)。另外,本文考慮運(yùn)用主成分分析法將所選百度指數(shù)數(shù)據(jù)通過賦予權(quán)重合成一個綜合指數(shù)構(gòu)建MIDAS 模型進(jìn)行預(yù)測,由于結(jié)合了多個高頻信息,因此本文將基于主成分構(gòu)建的MIDAS 模型也歸納為多變量MIDAS 模型。基于3 種賦權(quán)方式的C-MIDAS 模型和基于主成分的MIDAS 模型均是結(jié)合上述8 個百度指數(shù)數(shù)據(jù)構(gòu)建的,且預(yù)測區(qū)間仍選取 2017年7月—2018年6月共12 個月的三亞旅游人數(shù)增長率,預(yù)測結(jié)果如表2所示。表2 中的rARMA指標(biāo)與上文相同(即基于8 個百度指數(shù)構(gòu)建的多變量MIDAS 模型與ARMA 模型RMSE 的比值),rARMAX指標(biāo)中同頻模型的構(gòu)建分別與基于3 種賦權(quán)方式的C-MIDAS 模型和基于主成分的MIDAS 模型相一致①與基于3種賦權(quán)方式的C-MIDAS模型相一致的同頻模型是指分別基于等權(quán)重賦權(quán)、AIC 準(zhǔn)則賦權(quán)和RMSE 賦權(quán)所構(gòu)造的組合ARMAX(C-ARMAX)模型,與基于主成分的MIDAS模型相一致的同頻模型是指運(yùn)用主成分分析法提取平均化后的8 個月度百度指數(shù)數(shù)據(jù)的主成分,構(gòu)建基于主成分的ARMAX模型。(即基于8 個百度指數(shù)構(gòu)建的多變量MIDAS 模型與相應(yīng)多變量ARMAX 模型RMSE 的比值),百分比是指多變量MIDAS 模型在既定h下,預(yù)測誤差小于表1 中單變量MIDAS 模型所占百分比。
由表2 可以看出,多變量MIDAS 模型的預(yù)測結(jié)果能夠進(jìn)一步驗證單變量MIDAS 模型所得結(jié)論,即百度指數(shù)的加入能夠提高旅游人數(shù)的預(yù)測精度、混頻數(shù)據(jù)的加入能夠改善同頻模型的預(yù)測效果、向前預(yù)測步數(shù)不同導(dǎo)致混頻模型的預(yù)測效果有所差異。除此之外,由表2還可以得出以下結(jié)論:
第一,結(jié)合多個高頻數(shù)據(jù)信息在一定程度上有助于改善預(yù)測效果。無論是同頻預(yù)測還是混頻預(yù)測,總體而言,不同形式的多變量模型的預(yù)測效果優(yōu)于單變量模型,這是由于多變量模型結(jié)合了多個百度指數(shù)的信息,能夠更為充分地體現(xiàn)游客對三亞旅游的搜索行為和關(guān)注度,因此多變量模型能夠使得預(yù)測效果得到改善。
第二,基于3 種賦權(quán)方式的C-MIDAS 模型預(yù)測效果有所差異。就3 種賦權(quán)方式的C-MIDAS 模型預(yù)測誤差的平均值而言,基于RMSE 賦權(quán)所構(gòu)建的C-MIDAS 模型預(yù)測誤差最小,其次是等權(quán)重賦權(quán),預(yù)測效果最差的是基于AIC 準(zhǔn)則賦權(quán)且此時改善單變量MIDAS 模型預(yù)測效果的情況也最少,這是由于C-MIDAS 模型的構(gòu)建是按一定標(biāo)準(zhǔn)賦予權(quán)重,AIC 準(zhǔn)則賦權(quán)和等權(quán)重賦權(quán)并不能保證模型所賦權(quán)重大小與預(yù)測精度大小是相對應(yīng)的,而RMSE賦權(quán)則不會出現(xiàn)這一問題,因此預(yù)測效果更好一些。
第三,主成分分析法在混頻預(yù)測中具有有效性。對于同頻模型來說,基于主成分的ARMAX 模型的預(yù)測效果不僅優(yōu)于ARMA 模型,同時也優(yōu)于組合ARMAX(C-ARMAX)模型;對于混頻模型來說,總體而言,基于主成分的MIDAS 模型預(yù)測效果相較于3種賦權(quán)方式的C-MIDAS 模型更優(yōu),這一結(jié)論在向前預(yù)測步數(shù)h=1~4 時表現(xiàn)的更加明顯,此時預(yù)測誤差小于單變量MIDAS 模型的占比為100%,但在向前預(yù)測步數(shù)h=5~8時預(yù)測效果較差一些,因此,無論是同頻預(yù)測還是混頻預(yù)測都充分說明了將搜索行為和關(guān)注度指標(biāo)與主成分分析法相結(jié)合在預(yù)測三亞市旅游需求中具有重要意義。
表2 多變量MIDAS模型的預(yù)測結(jié)果Tab.2 Forecast results of multivariate MIDAS models
根據(jù)上述實證分析所得結(jié)論可以發(fā)現(xiàn),百度指數(shù)與混頻預(yù)測相結(jié)合對三亞市旅游需求的預(yù)測具有有效性,進(jìn)一步地,本文構(gòu)建基于主成分的MIDAS 模型并令h=4 和h=8 分別對 2018年7月和 8月的三亞市旅游人數(shù)增長率進(jìn)行預(yù)測,并將旅游人數(shù)增長率數(shù)據(jù)轉(zhuǎn)換為旅游人數(shù)數(shù)據(jù),預(yù)測結(jié)果顯示2018年7月和 8月的旅游人數(shù)分別為:1 369 032 人和1 613 304人。相比于5月和6月旅游人數(shù)有了明顯的增加,這是由于7月和8月是暑假期間,雖然氣候環(huán)境的適宜性沒有達(dá)到最佳,但由于學(xué)校放假等因素使得三亞市的旅游需求增多,因此旅游人數(shù)的增多符合實際,并可以發(fā)現(xiàn)三亞旅游人數(shù)的同比增長率仍呈現(xiàn)高于10%的同比增長趨勢。
本文將混頻預(yù)測思想納入?yún)^(qū)域旅游需求的預(yù)測中,將百度指數(shù)周數(shù)據(jù)作為高頻解釋變量對三亞市旅游人數(shù)增長率進(jìn)行預(yù)測,通過分析多個模型的預(yù)測結(jié)果,可以得出如下結(jié)論:無論是同頻模型還是混頻模型,百度指數(shù)周數(shù)據(jù)的加入有助于提高三亞旅游需求的預(yù)測精度,多變量模型的預(yù)測效果較單變量模型更優(yōu),且主成分分析法在旅游人數(shù)的預(yù)測中具有有效性;無論是單變量MIDAS 模型還是多變量MIDAS 模型,都可以得出混頻模型的預(yù)測效果優(yōu)于同頻模型,向前預(yù)測步數(shù)的不同使得混頻預(yù)測的預(yù)測效果也有所差異;對于C-MIDAS 模型來說,基于RMSE 賦權(quán)具有最優(yōu)的預(yù)測效果,但在短期偽樣本外預(yù)測時,C-MIDAS模型的預(yù)測精度不如基于主成分的MIDAS 模型。另外可以發(fā)現(xiàn),滯后階數(shù)、權(quán)重函數(shù)等的選取都沒有一個確定的答案,因此還需根據(jù)不同時間不同區(qū)域進(jìn)行選擇;最后,通過結(jié)合百度指數(shù)與混頻模型對2018年7月和8月的旅游人數(shù)進(jìn)行預(yù)測,可以發(fā)現(xiàn)預(yù)測結(jié)果符合實際,且三亞旅游人數(shù)同比增長率仍呈高于10%的較高速增長趨勢。
結(jié)合本文的相關(guān)研究筆者發(fā)現(xiàn),基于百度指數(shù)和混頻模型對三亞旅游需求的預(yù)測具有有效性,百度指數(shù)與混頻模型相結(jié)合使得旅游需求的預(yù)測兼具時效性和準(zhǔn)確性的特點(diǎn),而相較之下,同頻預(yù)測則相形見絀。本文所得結(jié)論,一方面能夠使得游客合理安排出行時間,避開三亞市的旅游高峰時段,以獲得最大效用;另一方面能夠使得三亞旅游當(dāng)局有效配置旅游資源,避免景區(qū)超載引發(fā)安全性等方面的問題。另外,本文結(jié)論同樣也為其他地區(qū)或景點(diǎn)旅游需求的預(yù)測提供了新思路,游客及旅游業(yè)相關(guān)部門可據(jù)此及時準(zhǔn)確地預(yù)測旅游人數(shù),以實現(xiàn)該地區(qū)旅游業(yè)的蓬勃健康發(fā)展,具有指導(dǎo)意義和實踐意義。
當(dāng)然,本研究還存在很多不足,如本文僅選用百度指數(shù)對旅游需求進(jìn)行預(yù)測,但旅游需求可能還與游客需求的多樣性、環(huán)境的復(fù)雜多變性等因素相關(guān),本文尚未對這一點(diǎn)進(jìn)行討論。此外,單變量MIDAS模型和多變量MIDAS模型在現(xiàn)階段的預(yù)測是有效的,但無法保證未來的預(yù)測效果和有效預(yù)測的持續(xù)時間,這一點(diǎn)還有待未來進(jìn)行實證檢驗。上述問題也將是下一階段的研究重點(diǎn)。