韓苑
摘要:交通運(yùn)輸客運(yùn)量是在一定時(shí)期內(nèi),各種運(yùn)輸工具實(shí)際運(yùn)送的旅客數(shù)量。它是反映運(yùn)輸業(yè)為國(guó)民經(jīng)濟(jì)和人民生活服務(wù)的數(shù)量指標(biāo),也是制定和檢查運(yùn)輸生產(chǎn)計(jì)劃、研究運(yùn)輸發(fā)展規(guī)模和速度的重要指標(biāo)。準(zhǔn)確的交通運(yùn)輸客運(yùn)量預(yù)測(cè),可以有效的幫助有效的幫助交通運(yùn)輸管理部門制定下一步交通運(yùn)輸發(fā)展的方向,調(diào)整和優(yōu)化交通運(yùn)輸方式,更好地為人民的交通出行提供基礎(chǔ)服務(wù)。由于客運(yùn)量的預(yù)測(cè)受到多重因素的影響,如節(jié)假日因素、突發(fā)事件等,其預(yù)測(cè)一直是時(shí)間預(yù)測(cè)領(lǐng)域的難點(diǎn)。本文搜集了國(guó)家統(tǒng)計(jì)局公布的2016年值2018年交通運(yùn)輸客運(yùn)量數(shù)據(jù),構(gòu)建了乘積季節(jié)性ARIMA(p,d,q)×(P,D,Q)模型,對(duì)建立的模型進(jìn)行參數(shù)估計(jì)、模型診斷,選擇最優(yōu)預(yù)測(cè)模型。同時(shí),本文也基于Facebook開源時(shí)間序列預(yù)測(cè)框架Prophet,對(duì)同一批數(shù)據(jù)進(jìn)行預(yù)測(cè)和驗(yàn)證。結(jié)果顯示,Prophet模型在預(yù)測(cè)的準(zhǔn)確性上優(yōu)于乘積季節(jié)性ARIMA(p,d,q)×(P,D,Q)模型,更適合于全國(guó)客運(yùn)量預(yù)測(cè)。
關(guān)鍵詞:客運(yùn)量預(yù)測(cè);ARIMA模型;Prophet;時(shí)間序列預(yù)測(cè)
交通運(yùn)輸客運(yùn)量是在一定時(shí)期內(nèi),各種運(yùn)輸工具實(shí)際運(yùn)送的旅客數(shù)量。它包含了鐵路客運(yùn)量、公路客運(yùn)量、水運(yùn)客運(yùn)量,民航客運(yùn)量,是反映運(yùn)輸業(yè)為國(guó)民經(jīng)濟(jì)和人民生活服務(wù)的數(shù)量指標(biāo),也是制定和檢查運(yùn)輸生產(chǎn)計(jì)劃、研究運(yùn)輸發(fā)展規(guī)模和速度的重要指標(biāo)。隨著全國(guó)交通運(yùn)輸基礎(chǔ)設(shè)施的不斷提升,如全國(guó)高鐵路網(wǎng)的鋪設(shè),高速公路公里數(shù)的不斷增長(zhǎng),水運(yùn)及民航線路的調(diào)整及優(yōu)化等,全國(guó)人民在出行上的行為和數(shù)量也發(fā)生了相應(yīng)的變化。準(zhǔn)確的交通運(yùn)輸客運(yùn)量預(yù)測(cè),可以幫助交通運(yùn)輸管理部門,針對(duì)人們出行行為的變化,進(jìn)一步優(yōu)化全國(guó)運(yùn)輸?shù)幕A(chǔ)設(shè)施和結(jié)構(gòu)。作為交通運(yùn)輸指標(biāo),客運(yùn)量有當(dāng)月值、累計(jì)值、同比增長(zhǎng)和累計(jì)增長(zhǎng)四種數(shù)據(jù)表達(dá)形式。常用的預(yù)測(cè)所采用的方法有,基于時(shí)間序列模型的差分整合移動(dòng)平均自回歸模型ARIMA[1]、基于人工神經(jīng)網(wǎng)絡(luò)的(ANN)[2]以及支持向量機(jī)(SVM)[3]等。本文分析了交通運(yùn)輸客運(yùn)量的當(dāng)月數(shù)據(jù)特性,分別采用乘積季節(jié)性ARIMA模型和最新的時(shí)間序列預(yù)測(cè)工具Prophet[4]對(duì)其進(jìn)行預(yù)測(cè),以期找出適用于客運(yùn)量的簡(jiǎn)單準(zhǔn)確的預(yù)測(cè)方法。
一、交通運(yùn)輸客運(yùn)量基本特性分析
在對(duì)每月全國(guó)客運(yùn)量數(shù)據(jù)進(jìn)行預(yù)測(cè)之前,首先需要掌握數(shù)據(jù)的變化規(guī)律。影響當(dāng)月客運(yùn)量的主要因素主要有兩類,第一大因素是由于全國(guó)交通運(yùn)輸基礎(chǔ)設(shè)施的改善及運(yùn)輸航線的調(diào)整,或者因經(jīng)濟(jì)形式的變化帶來(lái)的人們出行活動(dòng)的變化等因素,帶來(lái)的客運(yùn)量年度的上升或下降趨勢(shì);第二大因素是由于傳統(tǒng)節(jié)假日,如春節(jié),或者國(guó)家法定節(jié)假日,國(guó)慶、端午等因素造成的季節(jié)因素變化。
為了更好地展示全國(guó)客運(yùn)量的年度變化趨勢(shì)及周期性季節(jié)因素,本節(jié)選取了2016年以及2018年每月全國(guó)客運(yùn)量量作為分析對(duì)象。由圖1可以明顯看出,全國(guó)客運(yùn)量呈現(xiàn)逐年下降的趨勢(shì),同時(shí)也可以明確看出,客運(yùn)量呈現(xiàn)年維度的季節(jié)性趨勢(shì),其中2月份由于有中國(guó)傳統(tǒng)佳節(jié)春節(jié)的影響,達(dá)到全年客運(yùn)量最高峰,7、8月份由于暑期因素影響,學(xué)生旅行出行人次增加,也在全年客運(yùn)量分布中處于高點(diǎn),10月份由于國(guó)慶假期影響,同樣客運(yùn)量較高。
二、數(shù)據(jù)集及模型介紹
(一)數(shù)據(jù)集介紹
本文選取國(guó)家統(tǒng)計(jì)局公布的交通運(yùn)輸客運(yùn)量2016年1月至2018年12月的當(dāng)月客運(yùn)量數(shù)據(jù)。
(二)統(tǒng)計(jì)軟件
本文選取Eviews軟件進(jìn)行SARIMA模型建模,使用R軟件進(jìn)行Prophet模型建模。
(三)基于SARIM、的時(shí)間序列分析
1.SARIMA模型介紹
ARIMA模型是由美國(guó)統(tǒng)計(jì)學(xué)家Box和英國(guó)統(tǒng)計(jì)學(xué)家JENKIN提出,該模型是對(duì)時(shí)間序列進(jìn)行分析的模型。實(shí)質(zhì)是根據(jù)現(xiàn)在和過(guò)去的隨機(jī)序列樣本進(jìn)行取值,對(duì)未來(lái)某一時(shí)刻的隨機(jī)變量進(jìn)行估計(jì)。
如果一個(gè)時(shí)間序列{Y}的d次差分W=▽Y是一個(gè)平穩(wěn)的ARMA過(guò)程,則稱{Y}為自回歸滑動(dòng)平均求和模型。
如果一個(gè)時(shí)間序列優(yōu)}的d次差分W=▽▽Y滿足某季節(jié)周期為s的ARMA(p,q)×(P,Q)模型,{Y}稱為季節(jié)周期為s的ARIMA(p,d,q)×(P,D,Q)模型。
其中,P是消除同一周期不同周期點(diǎn)之間相關(guān)性的自回歸階數(shù),q是消除同一周期不同周期點(diǎn)之間相關(guān)性的移動(dòng)平均階數(shù),P是消除不同周期的同一周期點(diǎn)之間相關(guān)性的自回歸階數(shù),Q是消除不同周期的同一周期點(diǎn)之間相關(guān)性的移動(dòng)平均階數(shù),d是差分的階數(shù),D是季節(jié)差分的階數(shù),s是周期長(zhǎng)度。
2.時(shí)間序列平穩(wěn)化檢驗(yàn)和處理
將2016-2018年客運(yùn)量輸入導(dǎo)入Eviews軟件,生成序列y。通過(guò)觀察序列y時(shí)間序列圖可以發(fā)現(xiàn)數(shù)據(jù)具有一定的趨勢(shì)性和季節(jié)性,見圖2。
對(duì)序列y進(jìn)行長(zhǎng)度為12的季節(jié)差分后,得到序列y_s,時(shí)序圖如圖3。經(jīng)過(guò)單位根檢驗(yàn),序列y s為平穩(wěn)序列。
3.SARIMA模式識(shí)別、定階及檢驗(yàn)
在對(duì)y序列進(jìn)行了步長(zhǎng)為12的一階季節(jié)差分后,得到的y_s序列消除了趨勢(shì)性和季節(jié)性,成為均值為。的平穩(wěn)序列,因此取a=0;D-1.觀察y_s序列的ACF及PACE圖,見圖4。
如圖4所示,ACF圖PACE圖在1階、8階后快速衰減,因此取P=0或1,q=0或1,P=0,Q=0。得到的可能模型如下:SARIMA((1,0,O)0,1,0)12和SARIMA((0,0,1)0,1,0)12。
將模型帶入方程進(jìn)一步檢驗(yàn),模型各項(xiàng)參數(shù)均通過(guò)t檢驗(yàn),其中SARIMA((1,0,0)0,1,0)12模型AIC值為20.51,SC值為20.61,SARIMA((0,0,1)0,1,0)12模型AIC值為20.1,SC值為20.7。根據(jù)最小信息準(zhǔn)則,選擇SARIMA((1,0,0)0,1,0)12模型。對(duì)該模型的殘差序列進(jìn)行白噪聲檢驗(yàn),觀察其自相關(guān)和偏自相關(guān)圖,見圖5,均落在隨機(jī)區(qū)間內(nèi),因此,選擇SARIMA((1,0,0)0,1,0)12模型較合適。
4.SARIMA模型預(yù)測(cè)結(jié)果與實(shí)際結(jié)果比較
將模型SARllMA((1,0,0)0,1,0)12參數(shù)帶入方程,擬合2017年及2018年每月客運(yùn)量AM值。
采用靜態(tài)預(yù)測(cè)法,平均誤差率為3.03%,2017年至2018年每月預(yù)測(cè)誤差率分布如表1:
采用動(dòng)態(tài)預(yù)測(cè)法,平均誤差率為6.69%,2017年至2018年每月預(yù)測(cè)誤差率分布如表2:
(四)基于Prophet的時(shí)間序列分析
1.Prophet模型介紹
Prophet模型是2017年由Facebook提出并開源的一套時(shí)間序列預(yù)測(cè)框架,旨在解決商業(yè)場(chǎng)景中時(shí)間預(yù)測(cè)問(wèn)題。傳統(tǒng)的時(shí)間序列預(yù)測(cè)方法,如本文使用的ARIMA模型,已經(jīng)用在很多場(chǎng)景中了,但它們通常都有一些缺陷,如適用的時(shí)序數(shù)據(jù)過(guò)于局限、缺失值需要填補(bǔ)、模型缺乏靈活性、指導(dǎo)作用較弱等。而Prophet模型彌補(bǔ)了這部分缺陷,它適用于具備較強(qiáng)季節(jié)性趨勢(shì)、有重大節(jié)假日、有歷史趨勢(shì)性變化且存在部分缺失的歷史數(shù)據(jù)的業(yè)務(wù)場(chǎng)景。目前,國(guó)內(nèi)已有將Prophet模型應(yīng)用于CPI指數(shù)預(yù)測(cè)[5]和電信業(yè)務(wù)[6]預(yù)測(cè),取得了良好的效果。
Prophet模型本質(zhì)上是一個(gè)時(shí)間序列加法模型,模型的整體構(gòu)建如下:
y(t)=g(t)+s(t)+h(t)+∈
模型由三部分組成:growth(增長(zhǎng)趨勢(shì))、seasonality(季節(jié)趨勢(shì))以及holidays(節(jié)假日對(duì)預(yù)測(cè)值的影響)。其中g(shù)(t)表示增長(zhǎng)函數(shù),用來(lái)擬合時(shí)間序列中預(yù)測(cè)值的非周期性變化;s(t)用來(lái)表示周期性變化,比如說(shuō)每周,每年中那個(gè)的季節(jié)等;h(t)表示時(shí)間序列中那些潛在的具有非固定周期的節(jié)假日對(duì)預(yù)測(cè)值造成的影響。最后∈為噪聲項(xiàng),表示模型未預(yù)測(cè)到的波動(dòng),這里假設(shè)∈是高斯分布的。
2.Prophet模型建模
Prophet中輸入的數(shù)據(jù)要求必須有兩列固定的名稱的dataframe:ds和y。其中,ds列為日期列,y列為數(shù)字。將咨詢服務(wù)量數(shù)據(jù)按照prophet允許的格式規(guī)范化并導(dǎo)入訓(xùn)練。模型將數(shù)據(jù)成分自動(dòng)擬合為線性趨勢(shì)成分和以年為維度的季節(jié)成分。
考慮到全國(guó)客運(yùn)量的下降趨勢(shì)和年季節(jié)趨勢(shì),將增長(zhǎng)參數(shù)設(shè)置為linear,年季節(jié)參數(shù)設(shè)置為TRUE.(見圖6、圖7)
3.Prophet模型預(yù)測(cè)值與實(shí)際值比較
Prophet模型平均誤差率為1.10%,所有月份的預(yù)測(cè)絕對(duì)誤差都小于5%。
三、SARIMA模型和Prophet模型預(yù)測(cè)結(jié)果比較及結(jié)論
本文使用了兩種模型,對(duì)全國(guó)客運(yùn)量數(shù)據(jù)進(jìn)行了訓(xùn)練和預(yù)測(cè),都可以較好地建立模型預(yù)測(cè)客運(yùn)量的未來(lái)變化值。
1.通過(guò)Eviews建立SARIMA模型,經(jīng)歷了時(shí)序平穩(wěn)化、模型識(shí)別與定階及白噪聲檢驗(yàn),最終利用靜態(tài)預(yù)測(cè)法可以得到較為準(zhǔn)確的預(yù)測(cè)結(jié)果,平均誤差率為3.03%。但靜態(tài)預(yù)測(cè)法只能預(yù)測(cè)短期數(shù)據(jù),可行性不高,而動(dòng)態(tài)預(yù)測(cè)法平均誤差率為6.69%,準(zhǔn)確性較低。
2.通過(guò)R軟件建立的Prophet模型,平均誤差率1.I0%o Prophet模型建模過(guò)程簡(jiǎn)單直觀,且可以針對(duì)客運(yùn)量數(shù)據(jù)的特性,設(shè)置季節(jié)因素參數(shù),從而可以更好地通過(guò)調(diào)節(jié)參數(shù)來(lái)調(diào)整模型預(yù)測(cè)準(zhǔn)確率。同時(shí),Prophet模型在進(jìn)行長(zhǎng)期預(yù)測(cè)上準(zhǔn)確性也有保障。
通過(guò)本文的研究,Prophet模型更適合全國(guó)客運(yùn)量預(yù)測(cè)研究,可以為交通運(yùn)輸部門的工作規(guī)劃提供參考。
參考文獻(xiàn):
[1]張偉,張新波.移動(dòng)GSM網(wǎng)話務(wù)量的ARIMA模型的建立及其預(yù)測(cè)[J].數(shù)學(xué)理論與應(yīng)用,2008(2):70-74.
[2]張一農(nóng),劉伯龍,王文婷.基于神經(jīng)網(wǎng)絡(luò)的客服中心話務(wù)量預(yù)測(cè)模型[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2011,29(2):97-101.
[3]曾雨桐,錢學(xué)榮.基于支持向量機(jī)的多因素話務(wù)量研究[J].微型機(jī)與應(yīng)用,2016,35(1):63-6fi.
[4]Taylor S J,Letham B.Forecasting atScale[J].2017.
[5]劉權(quán)明.基于prophet的CPI指數(shù)預(yù)測(cè)[J].中國(guó)管理信息化,2018,21(13):122-123.
[6]聶鋒,羅清.Pophel在電信業(yè)務(wù)預(yù)測(cè)中的應(yīng)用[J].環(huán)球市場(chǎng),2018.