董春嬌,劉曉珂,常乃心,李林玉
(北京交通大學(xué)綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京 100044)
大型活動(dòng)是指已規(guī)劃的在特定時(shí)間和地點(diǎn)發(fā)生的能引起交通需求不正常增長(zhǎng)的特殊事件,大型活動(dòng)的頻繁舉辦給城市交通帶來(lái)了巨大的壓力.隨著2008 年北京奧運(yùn)會(huì)的舉辦,學(xué)者們對(duì)城市大型活動(dòng)的相關(guān)交通問(wèn)題進(jìn)行了研究,主要聚焦于交通組織方法研究[1],交通流特性[2],交通影響評(píng)價(jià)[3],交通需求預(yù)測(cè)[4]等方面.準(zhǔn)確預(yù)測(cè)大型活動(dòng)的客流規(guī)模,及時(shí)得到該活動(dòng)所吸引的參與人數(shù),有助于相關(guān)部門(mén)提早完善相關(guān)區(qū)域的基礎(chǔ)設(shè)施建設(shè)并進(jìn)行相應(yīng)的規(guī)劃與管控.
大型活動(dòng)的客流規(guī)模預(yù)測(cè)方法可以分為調(diào)查法,定性分析和定量分析3 種.孫福亮等[5]建立“場(chǎng)館-賽事-坐席數(shù)-上座率”模型對(duì)觀眾數(shù)進(jìn)行了預(yù)測(cè);孫劍等[6]將世博會(huì)訪客總量分為兩方面預(yù)測(cè),一是利用調(diào)查資料建立世博訪客與相應(yīng)的旅游增長(zhǎng)模型之間的分析模型,二是利用參考以往經(jīng)驗(yàn)利用趨勢(shì)外推法進(jìn)行預(yù)測(cè);尹瑞等[7]建立了展館容量限制的游客出行生成預(yù)測(cè)模型,并將VISUM 與TransCAD 結(jié)合進(jìn)行仿真;王興川等[8]利用AFC 數(shù)據(jù)對(duì)軌道交通客流進(jìn)行預(yù)測(cè),建立了基于小波分解與重構(gòu)的GMARIMA 模型對(duì)活動(dòng)客流進(jìn)行預(yù)測(cè);Silva等[9]對(duì)于季節(jié)性客流數(shù)據(jù),建立了去噪自動(dòng)自回歸神經(jīng)網(wǎng)絡(luò)模型;Wang等[10]采用基于方差倒數(shù)和最優(yōu)加權(quán)的組合模型對(duì)灰色模型進(jìn)行了優(yōu)化,提高了客流量預(yù)測(cè)模型的準(zhǔn)確性.在大型活動(dòng)影響因素方面,相關(guān)研究較少.劉新華等[11]以北京奧運(yùn)會(huì)為例,分析了交通管理政策、交通方式時(shí)效性、交通設(shè)施供給、輿論宣傳引導(dǎo)和觀眾來(lái)源分布等因素對(duì)觀眾抵離交通方式的影響;錢(qián)慧敏等[12]以第九屆中國(guó)國(guó)際園林博覽會(huì)為研究對(duì)象,發(fā)現(xiàn)大型活動(dòng)門(mén)票價(jià)格,公交成本,節(jié)假日等因素會(huì)對(duì)客流規(guī)模產(chǎn)生影響.
綜上所述,出行意愿調(diào)查法是通過(guò)調(diào)查問(wèn)卷的形式來(lái)確定出行者的出行意愿,該方法耗費(fèi)大量人力物力且問(wèn)卷質(zhì)量難以保證;定性分析是類比同等規(guī)模的大型活動(dòng)并借助歷史統(tǒng)計(jì)資料進(jìn)行預(yù)測(cè),但在社會(huì)高速發(fā)展的今天,容易產(chǎn)生較大的偏差且預(yù)測(cè)結(jié)果可借鑒意義不大;國(guó)內(nèi)外在客流規(guī)模預(yù)測(cè)方面的研究成果大多集中在定量分析上,例如時(shí)間序列模型、神經(jīng)網(wǎng)絡(luò)模型等,這些方法預(yù)測(cè)精度高但大多需要?dú)v史數(shù)據(jù)作基礎(chǔ),因此更適合連續(xù)多次舉辦,客流較為穩(wěn)定的活動(dòng).對(duì)于首次舉辦的大型活動(dòng),往往缺乏歷史資料的積累,使得客流規(guī)模預(yù)測(cè)難以進(jìn)行.
隨著網(wǎng)絡(luò)搜索引擎日益成為人們獲得信息的主要來(lái)源,搜索關(guān)鍵詞可以直接反映網(wǎng)民對(duì)活動(dòng)的關(guān)注程度,已有研究表明網(wǎng)絡(luò)搜索數(shù)據(jù)和現(xiàn)實(shí)社會(huì)行為之間具有一定的相關(guān)性,搜索數(shù)據(jù)目前已在酒店客流預(yù)測(cè)[13]、游客量預(yù)測(cè)[14]等多個(gè)領(lǐng)域得到應(yīng)用并取得了研究成果.因此,本文將網(wǎng)絡(luò)搜索數(shù)據(jù)與傳統(tǒng)預(yù)測(cè)方法相結(jié)合,依托于網(wǎng)絡(luò)搜索數(shù)據(jù),利用協(xié)整理論和格蘭杰因果關(guān)系理論分析客流規(guī)模與網(wǎng)絡(luò)搜索數(shù)據(jù),潛在出行人口規(guī)模和吸引度三者之間的關(guān)系,運(yùn)用大型活動(dòng)舉辦地往年的實(shí)際游客量建立PDL 模型預(yù)測(cè)持續(xù)性大型活動(dòng)的客流規(guī)模,挖掘出網(wǎng)絡(luò)關(guān)注度與實(shí)際參會(huì)人員數(shù)量的關(guān)聯(lián),提高無(wú)歷史數(shù)據(jù)的持續(xù)性大型活動(dòng)客流規(guī)模的預(yù)測(cè)精度,為相關(guān)部門(mén)制定科學(xué)的決策和管理措施提供依據(jù).
大型活動(dòng)涉及的種類豐富,形式多樣,例如體育活動(dòng)、國(guó)家慶典、國(guó)際峰會(huì)、節(jié)日集會(huì)等.不同類型的大型活動(dòng)受眾群體構(gòu)成與行為特性也有所不同,客流規(guī)模的預(yù)測(cè)應(yīng)該在分析不同種類的大型活動(dòng)特性的基礎(chǔ)之上.各城市對(duì)大型活動(dòng)的分類主要依據(jù)活動(dòng)性質(zhì),活動(dòng)規(guī)模,活動(dòng)舉辦時(shí)長(zhǎng),活動(dòng)舉辦場(chǎng)所等.在進(jìn)行客流規(guī)模預(yù)測(cè)時(shí),是否有歷史數(shù)據(jù)將會(huì)影響到預(yù)測(cè)模型的選擇,大型活動(dòng)舉辦時(shí)長(zhǎng)與影響因素的選擇有關(guān).本文將大型活動(dòng)分為4 類:連續(xù)舉辦的短時(shí)性大型活動(dòng),連續(xù)舉辦的持續(xù)性大型活動(dòng),非連續(xù)舉辦的短時(shí)性大型活動(dòng),非連續(xù)舉辦的持續(xù)性大型活動(dòng).
活動(dòng)舉辦時(shí)長(zhǎng)較短(幾小時(shí))的大型活動(dòng)稱為短時(shí)性大型活動(dòng),持續(xù)時(shí)間較長(zhǎng)(數(shù)天至數(shù)月)的活動(dòng)稱為持續(xù)性大型活動(dòng).連續(xù)舉辦類活動(dòng)的一大特性是有豐富的歷史數(shù)據(jù),可利用時(shí)間序列,機(jī)器學(xué)習(xí)等模型對(duì)歷史數(shù)據(jù)進(jìn)行分析,總結(jié)變化規(guī)律從而預(yù)測(cè)出未來(lái)的客流規(guī)模;短時(shí)性大型活動(dòng)往往場(chǎng)所固定,可通過(guò)售票情況進(jìn)行客流規(guī)模的預(yù)測(cè),對(duì)于非連續(xù)舉辦的持續(xù)性大型活動(dòng)的客流規(guī)模預(yù)測(cè)的相關(guān)研究較少,主流方法仍是調(diào)查法與類比法,本文將重點(diǎn)研究此類大型活動(dòng).
國(guó)內(nèi)學(xué)者在運(yùn)用引力模型對(duì)國(guó)內(nèi)熱點(diǎn)城市的客源市場(chǎng)及規(guī)模進(jìn)行了預(yù)測(cè)研究,發(fā)現(xiàn)景區(qū)知名度、人口密度、空間距離、人均可支配收入是影響客流量的主要因素[15].本文在已有研究的基礎(chǔ)上將影響因素具象化,選擇綜合搜索指數(shù)W,吸引度H,潛在出行人口規(guī)模P作為影響因素,其中W反映了該活動(dòng)的知名度,P綜合考慮了人口密度和空間距離的影響,H反映了出行花費(fèi)對(duì)出行的影響.影響因素之間的具體關(guān)系如圖1 所示.
圖1 影響因素關(guān)系圖Fig.1 Relationship diagram of influencing factors
出行者在出行前都會(huì)經(jīng)歷一個(gè)決策過(guò)程,隨著網(wǎng)絡(luò)的普及,搜索引擎已經(jīng)成為收集資料的主要方式.大型活動(dòng)網(wǎng)絡(luò)關(guān)注度的高低直接反映了大眾的出行意愿,研究假設(shè)網(wǎng)絡(luò)搜索引擎數(shù)據(jù)與客流規(guī)模之間存在某種聯(lián)系,為了更直觀地展現(xiàn)兩者之間的關(guān)系,本文選用百度瀏覽器并收集了從2016 年1 月至2016 年12 月關(guān)鍵詞“北京旅游”的搜索量對(duì)數(shù)序列與北京各月實(shí)際游客量的對(duì)數(shù)序列,經(jīng)計(jì)算兩者之間的相關(guān)系數(shù)為0.83,圖2 為北京旅游人數(shù)和關(guān)鍵詞搜索量的趨勢(shì)圖,由圖2 可知兩者有相同的變化趨勢(shì).由于所使用的數(shù)據(jù)時(shí)間跨度較大,當(dāng)前互聯(lián)網(wǎng)發(fā)展速度較快,各搜索引擎公司競(jìng)爭(zhēng)較為激烈,市場(chǎng)份額的占有率的變化會(huì)影響到搜索數(shù)量,為使搜索數(shù)據(jù)在時(shí)間維度上具有可比性,關(guān)鍵詞實(shí)際搜索數(shù)量C為
圖2 北京2016 年月游客量對(duì)數(shù)序列與關(guān)鍵詞月搜索量對(duì)數(shù)序列Fig.2 Logarithmic series of monthly tourist volume and monthly keyword search volume in Beijing in 2016
式中:R為該網(wǎng)絡(luò)搜索引擎的市場(chǎng)占有率;C'為關(guān)鍵詞在該搜索引擎的搜索數(shù)量.
搜索關(guān)鍵詞與要研究的問(wèn)題密切相關(guān).搜索關(guān)鍵詞數(shù)量過(guò)多會(huì)造成研究的模型復(fù)雜程度加大,搜索關(guān)鍵詞數(shù)量過(guò)少會(huì)造成信息狹隘,收集數(shù)據(jù)不全面,影響研究的效果和可信程度.主成分分析法在盡可能多地保留關(guān)鍵詞的信息載荷的同時(shí),又能最大程度使彼此相互獨(dú)立,保證指標(biāo)的客觀性[16],所以選用主成分分析法對(duì)所選關(guān)鍵詞進(jìn)行數(shù)據(jù)的降維,得到W指標(biāo).
設(shè)有q個(gè)網(wǎng)絡(luò)關(guān)鍵詞分別為C1,C2,…,Cq,得到的原始數(shù)據(jù)向量Q為
將q個(gè)網(wǎng)絡(luò)關(guān)鍵詞進(jìn)行線性組合得到
式中:f為C1,C2,…,Cq線性組合中的第f種;a1f,a2f,…,aqf為線性組合系數(shù),計(jì)算公式為
式中:cov(Wi,Wj)為Wi與Wj的協(xié)方差.
將Wi按照方差進(jìn)行排序得
由式(6)確定的W1,W2,…,Wp分別被稱為第1主成分,第2 主成分,…,第p主成分.通過(guò)加權(quán)算數(shù)平均值確定W為
式中:λ1,λ2,…,λq為W1,W2,…,Wq的特征根.
由于出行者的時(shí)間精力是有限的,在特定的時(shí)間和背景下只能到達(dá)分布于一定范圍的目的地,所以大型活動(dòng)有其對(duì)應(yīng)的潛在出行人口.出行者在活動(dòng)的過(guò)程中存在著“距離衰減”的規(guī)律與現(xiàn)象,出行起訖點(diǎn)之間的距離越近,出行者前往該地的概率越大,反之,前往該地的可能性小.在大型活動(dòng)的客流規(guī)模預(yù)測(cè)中,某地居民對(duì)于該活動(dòng)的到訪率與空間距離之間存在著某種分配規(guī)律.為了科學(xué)衡量客源地距離和人口數(shù)對(duì)客流規(guī)模造成的影響,參考文獻(xiàn)[17]的研究成果,將客源地劃分為3 部分,距離大型活動(dòng)發(fā)生地15 km 以內(nèi)的區(qū)域稱為一級(jí)吸引區(qū),15 km~50 km 以內(nèi)的區(qū)域稱為二級(jí)吸引區(qū),50 km~650 km 以內(nèi)的區(qū)域稱為三級(jí)吸引區(qū),由于95%的出行者來(lái)源于650 km 的區(qū)域,所以650 km以外的廣大空間暫不考慮,P為
式中:ko表示o級(jí)吸引區(qū)的影響程度,不同級(jí)別吸引區(qū)的影響程度根據(jù)大型活動(dòng)類型而定;do表示該地區(qū)的人口密度;So表示o級(jí)吸引區(qū)的面積.
我國(guó)地域遼闊,不同地區(qū)及省份之間的經(jīng)濟(jì)發(fā)展差距較大,不同類型的大型活動(dòng)對(duì)不同省份的吸引程度也不同.出行意愿是一個(gè)主觀因素,是出行者的一種心理傾向,雖然會(huì)受到自身收入水平,出行距離等客觀因素的限制,但具有相對(duì)的獨(dú)立性.如果沒(méi)有出行的意愿,出行的花費(fèi)再小,人均可支配收入再高,出行行為也不會(huì)發(fā)生.若忽略地區(qū)之間的差異,則會(huì)對(duì)預(yù)測(cè)精度造成一定的影響.參考文獻(xiàn)[18]引入出行意愿A這一概念,通過(guò)計(jì)算不同省份u對(duì)關(guān)鍵詞的搜索量占全國(guó)搜索總量的百分比來(lái)表示該省居民參加活動(dòng)的出行意愿,例如河北在2015 年1 月的百度指數(shù)為9 185,全國(guó)數(shù)值為178 512,兩數(shù)之比代表河北市民的來(lái)北京游玩的出行意愿,再與各省的人均可支配收入進(jìn)行加權(quán)得到加權(quán)人均可支配收入,其與參加該活動(dòng)花費(fèi)的比值為吸引度.H為
式中:DPIu是u省人均可支配收入;Au是u省的出行意愿;TKu代表u省該次出行的平均花費(fèi),包括門(mén)票住宿交通等費(fèi)用,具體數(shù)值參考該地區(qū)統(tǒng)計(jì)年鑒[19].
為了確保時(shí)間序列的平穩(wěn)和避免偽回歸現(xiàn)象,在建模之前將采用單位根檢驗(yàn)(Augmented Dicey-Fuller test,ADF)對(duì)北京游客數(shù),潛在出行人口規(guī)模等進(jìn)行平穩(wěn)性檢驗(yàn),變量的差分階數(shù)皆為1,檢驗(yàn)結(jié)果見(jiàn)表1.
表1 變量的單位根檢驗(yàn)結(jié)果Tab.1 Unit root test results of variables
由表1 可知,變量均為平穩(wěn)序列,符合協(xié)整分析的前提條件,然后運(yùn)用恩格爾和格蘭杰提出的兩步協(xié)整關(guān)系檢驗(yàn)法對(duì)所需序列進(jìn)行協(xié)整分析,確定的協(xié)整方程為
式(10)中的殘差序列的ADF 值為-6.10,1%臨界值為-3.50,5%的臨界值為-2.89,10%的臨界值為-2.58,殘差A(yù)DF 值均小于3 個(gè)臨界值,表明殘差序列是平穩(wěn)序列.因此,可以判斷北京游客量與吸引度,潛在出行人口規(guī)模和綜合搜索指數(shù)之間存在協(xié)整關(guān)系.
為了考察變量之間是否具有預(yù)測(cè)能力,同時(shí)分析時(shí)間序列之間的領(lǐng)先和滯后關(guān)系,采用格蘭杰因果關(guān)系進(jìn)行分析判斷,并借助赤池信息準(zhǔn)則(Akaike Information Ceiterion,AIC)和施瓦茲準(zhǔn)則(Schwarz Criterion,SC)的值來(lái)確定最優(yōu)滯后期,結(jié)果如表2 所示.由表2 可知,搜索關(guān)鍵詞和北京實(shí)際游客之間存在雙向因果關(guān)系,即搜索關(guān)鍵詞和北京實(shí)際游客量?jī)烧咧g相互影響;吸引度與北京游客量之間存在著單向因果關(guān)系,即吸引度的變化會(huì)影響北京游客量的變化,但北京游客量不會(huì)影響該地區(qū)的吸引度;潛在出行人口規(guī)模和北京游客量之間存在著單向因果關(guān)系,即潛在出行人口規(guī)模的變化會(huì)影響北京游客量的變化,但北京游客量的變化不會(huì)影響潛在出行人口規(guī)模的變化.該結(jié)論與現(xiàn)實(shí)情況相符,說(shuō)明本文所選的影響因素是可靠的.
表2 變量的格蘭杰因果關(guān)系檢驗(yàn)結(jié)果Tab.2 Granger causality test results of variables
出行行為較搜索行為有一定的滯后性,不同的出行者由于個(gè)人習(xí)慣和所處地區(qū)等的差異提前搜索的時(shí)間也不同.現(xiàn)有的學(xué)者更多地將目光聚焦于如何量化人們對(duì)研究問(wèn)題的搜索量,忽略了搜索行為和旅游出行行為的時(shí)差時(shí)滯分析.多項(xiàng)式分布滯后模型就是研究因變量與自變量、自變量滯后變量、因變量滯后變量之間關(guān)系的模型,在短時(shí)交通流預(yù)測(cè),公路投資建設(shè)的滯后效應(yīng)均有良好的應(yīng)用[20-21].
PDL 是一種動(dòng)態(tài)的回歸模型,不僅考慮了解釋變量跨時(shí)段的影響關(guān)系,還加入因變量自身的滯后項(xiàng)對(duì)其的影響,是一種解釋能力比較強(qiáng)的預(yù)測(cè)模型.解釋變量每單位變化的影響分布到多個(gè)時(shí)段,t時(shí)刻因變量yt與自變量xt的關(guān)系為
式中:βk表示滯后k時(shí)刻的因變量xt-k對(duì)yt的影響;k為滯后階數(shù);α為常數(shù)項(xiàng);μt為其他自變量.
PDL 在解釋變量與隨機(jī)誤差項(xiàng)不相關(guān)的情況下,可以直接使用最小二乘法估計(jì)參數(shù).但是當(dāng)滯后項(xiàng)較多時(shí),直接估計(jì)會(huì)耗費(fèi)很大自由度,而且x的當(dāng)前和滯后值之間很可能具有高度共線性.我們常用Almon 多項(xiàng)式法來(lái)解決這一問(wèn)題.模型中的βc(c=0,1,…,k)分布可以近似用關(guān)于c的低階多項(xiàng)式表示為
式中:m為多項(xiàng)式的階數(shù),m<k;bm為多項(xiàng)式的系數(shù).
大型活動(dòng)舉辦場(chǎng)所為了安全,提升游客體驗(yàn)感往往會(huì)設(shè)有明確客流上限,一些熱門(mén)的大型活動(dòng)例如世博會(huì),展覽會(huì)等由于潛在消費(fèi)者過(guò)多,供需不平衡常常會(huì)出現(xiàn)限流的情況.為考慮場(chǎng)所接待游客上限對(duì)客流規(guī)模的影響,引入變量S,使模型更加貼合實(shí)際情況.
綜上所述,經(jīng)過(guò)Almon 多項(xiàng)式法變換后大型活動(dòng)客流規(guī)模Y為
式中:Y'表示理論客流規(guī)模;Wt-c表示前c個(gè)月的綜合搜索指數(shù);Zst表示W(wǎng)t-c經(jīng)過(guò)Almon 多項(xiàng)式法變換后的值;S為當(dāng)月活動(dòng)接待游客上限;ε、γ表示彈性系數(shù),可通過(guò)最小二乘法計(jì)算出結(jié)果.
滯后長(zhǎng)度的確定對(duì)于多項(xiàng)式分布滯后模型的預(yù)測(cè)效果至關(guān)重要,若引入的滯后變量過(guò)多,模型自由度減少,易導(dǎo)致樣本內(nèi)“過(guò)度擬合”,同時(shí)對(duì)樣本期數(shù)也有了更為嚴(yán)格的要求,若滯后變量的期數(shù)過(guò)少,則會(huì)忽略部分期數(shù)的影響造成預(yù)測(cè)效果不佳[20].結(jié)合已有研究,本文提出滯后長(zhǎng)度的確定算法為:根據(jù)游客量和綜合搜索關(guān)鍵詞的相關(guān)圖,由相關(guān)交叉系數(shù)可確定一個(gè)初始滯后階數(shù)g,逐漸增加滯后階數(shù),直到R2不在增加,得到最大滯后階數(shù)h,取滯后階數(shù)k(k∈[g,h]),對(duì)比SC 檢驗(yàn)結(jié)果、D-W 檢驗(yàn)(Durbin-Watson,DW)結(jié)果、AIC 檢驗(yàn)結(jié)果和R2選擇滯后階數(shù),具體流程如圖3 所示.
圖3 確定滯后階數(shù)流程圖Fig.3 Flow chart for determining lagging order
大型活動(dòng)的觀眾實(shí)際上也是該城市的游客,對(duì)2019 北京世園會(huì)5 月的客流量進(jìn)行預(yù)測(cè)時(shí),首先通過(guò)北京的歷年游客量與綜合搜索指數(shù)等數(shù)據(jù)來(lái)確定大型活動(dòng)客流規(guī)模預(yù)測(cè)模型的參數(shù).由于新冠疫情的影響,2020 年與2021 年游客數(shù)與往年相比有較大變動(dòng).為了保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,本文選擇北京市2012 年至2019 年的月度游客量作為模型的擬合.數(shù)據(jù)來(lái)源于北京市文化局和旅游局,考慮到搜索引擎的使用習(xí)慣僅考慮中國(guó)大陸游客.
關(guān)鍵詞的搜索數(shù)據(jù)來(lái)源于百度指數(shù).百度在中國(guó)搜索引擎市場(chǎng)占據(jù)絕大多數(shù)份額,在2019 年7 月的市場(chǎng)占比為76.42%.百度指數(shù)以百度網(wǎng)頁(yè)搜索和百度新聞搜索為基礎(chǔ),可提供所收錄的關(guān)鍵詞在任意時(shí)間段的搜索數(shù)量和搜索趨勢(shì).
關(guān)鍵詞的選擇選用范圍取詞與技術(shù)取詞相結(jié)合的方法,根據(jù)實(shí)際經(jīng)驗(yàn)選出北京小吃、北京酒店、北京旅游攻略、北京旅游、北京特產(chǎn)、北京好玩的景點(diǎn)6 個(gè)初始關(guān)鍵詞,然后利用百度需求圖譜拓展關(guān)鍵詞選出其中搜索量最高的10 個(gè)關(guān)鍵詞,即北京特產(chǎn)、北京好玩的地方、北京歡樂(lè)谷、北京景點(diǎn)地圖、北京旅游、北京旅游地圖、北京旅游攻略、北京世界公園、北京小吃街以及故宮這10 個(gè)核心關(guān)鍵詞,其搜索指數(shù)記為X1,X2,…,X10.利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取2011 年至2019 年的相關(guān)數(shù)據(jù),運(yùn)用SPSS 進(jìn)行主成分分析,其抽樣適應(yīng)性檢驗(yàn)結(jié)果KMO(Kaiser-Meyer-Olkin)為0.858,巴特利特球形度檢驗(yàn)顯著水平值為0.000,說(shuō)明該數(shù)據(jù)非常適合主成分分析.經(jīng)計(jì)算前兩個(gè)主成分的累計(jì)貢獻(xiàn)率為80.77%,基本可以反映全部關(guān)鍵詞的信息,主成分分別記作W1,W2,貢獻(xiàn)率分別為65.42%與15.35%.在求出主成分方程后,用W1中每個(gè)關(guān)鍵詞所對(duì)應(yīng)的系數(shù)與第一主成分W1所對(duì)應(yīng)的貢獻(xiàn)率相乘再除以所提取兩個(gè)主成分的貢獻(xiàn)率之和,然后再加上第二主成分W2中每個(gè)指標(biāo)所對(duì)應(yīng)的系數(shù)乘第二主成分W2所對(duì)應(yīng)的貢獻(xiàn)率之和,就可得到W為
吸引度主要取決于3 項(xiàng)指標(biāo),各省的人均可支配收入可通過(guò)各省當(dāng)年的統(tǒng)計(jì)年鑒查得,2012 年至2019年北京人均旅游消費(fèi)由北京旅游和文化局提供,各省來(lái)北京游玩的出行意愿通過(guò)計(jì)算得出.所確定的10 個(gè)核心關(guān)鍵詞中搜索數(shù)最高的核心關(guān)鍵詞為北京旅游攻略,論文通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取2012 年至2019 年中國(guó)內(nèi)地27 個(gè)省區(qū)關(guān)于“北京旅游攻略”的百度指數(shù).
經(jīng)過(guò)運(yùn)算,當(dāng)滯后階數(shù)為10 時(shí),R2達(dá)到最大,根據(jù)旅游量和綜合搜索關(guān)鍵詞的相關(guān)交叉系數(shù),確定初始滯后階數(shù)為4.多項(xiàng)式次數(shù)不同,估計(jì)值符號(hào)也不同,根據(jù)模型實(shí)際含義,每個(gè)滯后階數(shù)選擇一個(gè)最佳的多項(xiàng)式次數(shù).將所建立的各模型估計(jì)結(jié)果整理如表3 所示.綜合比較各項(xiàng)指標(biāo),確定滯后階數(shù)k為5,多項(xiàng)式次數(shù)m取4.
表3 不同滯后長(zhǎng)度,多項(xiàng)式次數(shù)的模型擬合結(jié)果Tab.3 Model fitting results under different lagging lengths and polynomial degrees
模型回歸結(jié)果如表4 所示.R2為0.740 2,模型擬合程度優(yōu)異,說(shuō)明模型中被解釋變量與解釋變量總體上存在線性關(guān)系;除吸引度,綜合搜索指數(shù)當(dāng)期和滯后4 期(即lnH,lnWt和lnWt-4)T值很小以外,其他變量均通過(guò)了T 檢驗(yàn).潛在出行人口規(guī)模和吸引度系數(shù)為正,說(shuō)明潛在出行人口規(guī)模的增加,人均可支配收入的增加和出行花費(fèi)的減少均會(huì)增加旅游人數(shù),當(dāng)這兩個(gè)變量每增加1%,旅游人數(shù)分別增加5.84%和0.51%.從綜合搜索指數(shù)來(lái)看,綜合搜索指數(shù)滯后1,2,3,5 均在5%水平上顯著,表明搜索行為和旅游行為之間由較強(qiáng)的時(shí)滯性,可能是因?yàn)楸本闊衢T(mén)旅游城市,許多外省旅客提前搜集相關(guān)資料做好相關(guān)規(guī)劃.通過(guò)彈性系數(shù)可以看出綜合搜索指數(shù)對(duì)出行的增長(zhǎng)作用呈現(xiàn)先升高再下降的趨勢(shì),這與現(xiàn)實(shí)情況相符合.北京是熱門(mén)旅游城市,lnWt-1即提前1 月的綜合搜索指數(shù)的系數(shù)最高說(shuō)明大部分游客會(huì)提前一月進(jìn)行相關(guān)資料的查詢和搜集,隨著時(shí)間的推移,搜索行為對(duì)旅游人數(shù)的影響會(huì)逐漸減小,所以呈現(xiàn)先升高后下降的趨勢(shì).一月前的綜合搜索指數(shù)增加1%,會(huì)使當(dāng)月的游客增加0.19%;在現(xiàn)實(shí)生活中,居民在出行前可能有多次搜索行為,所以會(huì)有系數(shù)為負(fù)數(shù)的情況.
表4 模型擬合結(jié)果Tab.4 Modeling results
對(duì)2019 北京世園會(huì)5 月的客流量進(jìn)行預(yù)測(cè)時(shí),初始關(guān)鍵詞為北京世園會(huì),通過(guò)百度需求圖譜拓展關(guān)鍵詞,最終確定的搜索關(guān)鍵詞為北京世園會(huì)、世園會(huì)和世園會(huì)攻略,代入綜合搜索指數(shù),吸引度,潛在出行人口規(guī)模等數(shù)據(jù)便可得到當(dāng)月游客的大概估值.預(yù)測(cè)客流規(guī)模Y為170 萬(wàn)人,實(shí)際客流規(guī)模為164 萬(wàn)人,MAPE 為3.68%.
為進(jìn)一步探究模型的預(yù)測(cè)能力,本文對(duì)近年來(lái)各地5 月大型活動(dòng)的客流規(guī)模進(jìn)行預(yù)測(cè),結(jié)果如表5所示.上海世博會(huì)于2010 年舉辦,西安世園會(huì)于2011 年舉辦,有電視報(bào)紙等更多元的宣傳方式,有部分觀眾通過(guò)其他途徑搜集相關(guān)信息,這部分人群未在綜合搜索指數(shù)得到體現(xiàn),所以預(yù)測(cè)值比真實(shí)值較少;唐山世園會(huì)與北京世園會(huì)預(yù)測(cè)效果良好.
表5 大型活動(dòng)預(yù)測(cè)效果Tab.5 Prediction effect of large-scale activities
1)通過(guò)格蘭杰因果關(guān)系法對(duì)持續(xù)性大型活動(dòng)客流規(guī)模的影響因素進(jìn)行探究,結(jié)果表明網(wǎng)絡(luò)搜索引擎數(shù)據(jù),潛在出行人口規(guī)模數(shù),吸引度與客流規(guī)模之間存在相關(guān)關(guān)系.
2)建立了基于網(wǎng)絡(luò)搜索引擎數(shù)據(jù)的大型活動(dòng)客流規(guī)模預(yù)測(cè)模型,并利用PDL 模型探究了客流規(guī)模和網(wǎng)絡(luò)搜索引擎數(shù)據(jù)之間的時(shí)差關(guān)系,結(jié)果表明該模型對(duì)持續(xù)性大型活動(dòng)有較高的預(yù)測(cè)水平.
3)網(wǎng)絡(luò)搜索引擎數(shù)據(jù)可以直接反映網(wǎng)民們的習(xí)慣,偏好等信息,不同大型活動(dòng)的受眾群體與使用習(xí)慣皆有不同.未來(lái)將會(huì)對(duì)網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行深度挖掘,對(duì)不同類型,不同主題的大型活動(dòng)的預(yù)測(cè)模型進(jìn)行對(duì)比分析與深入探討.