袁鵬程, 周天樂(lè)
(1 上海理工大學(xué) 管理學(xué)院, 上海 200093; 2 上海電科智能系統(tǒng)股份有限公司, 上海 200063)
隨著交通擁堵和不確定性逐漸成為新常態(tài),車(chē)聯(lián)網(wǎng)、自動(dòng)駕駛和大數(shù)據(jù)技術(shù)也得到了不斷發(fā)展,交通流研究將會(huì)進(jìn)入重要的變革期。 而交通流特性主要由交通流速度、密度和流量三個(gè)部分組成,其中交通流量尤為重要,并能直接反映交通運(yùn)行狀況。 精準(zhǔn)短時(shí)交通流量預(yù)測(cè)就可以直觀反映調(diào)查路段或地區(qū)的交通變化狀況,為交通控制與管理提供可靠依據(jù)。 同時(shí),也能為出行者提供準(zhǔn)確地道路信息,避免不必要的擁堵。
目前,國(guó)內(nèi)外對(duì)于交通流量預(yù)測(cè)已經(jīng)做過(guò)很多研究[1]。 最常見(jiàn)的就是基于統(tǒng)計(jì)方法的模型和神經(jīng)網(wǎng)絡(luò)模型。 自上世紀(jì)七十年代末,ARIMA 模型[2]提出以來(lái),即已廣泛應(yīng)用于各個(gè)領(lǐng)域[3]。 但由于ARIMA 模型的局限性等因素,往往會(huì)結(jié)合數(shù)據(jù)自身特點(diǎn)加以調(diào)整[4-5]。 例如,針對(duì)模型單一的問(wèn)題,田瑞杰等人[6]提出一種時(shí)間序列與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測(cè)模型;基于時(shí)間序列分析方法,韓超等人[7]提出一種短時(shí)交通流實(shí)時(shí)自適應(yīng)預(yù)測(cè)算法,減小遺忘因子進(jìn)一步提高預(yù)測(cè)的性能;針對(duì)ARIMA 模型獲取非線性特性的局限性,王曉全等人[8]加入廣義自回歸條件異方差—均值,相比于ARIMA-SVR模型和ARIMA-GARCH 模型得到了更好的預(yù)測(cè)精度;通過(guò)證實(shí)交通流量存在時(shí)序上的周期性,祁偉等人[9]引入季節(jié)性ARIMA 模型融合了鄰近的交通流觀察值和交通流數(shù)據(jù)的周期性。 此外,也有深度學(xué)習(xí)[10]、基于相空間重構(gòu)理論的局部預(yù)測(cè)方法[11]等研究。 在上述交通流預(yù)測(cè)過(guò)程中僅僅利用了交通流量自身信息進(jìn)行預(yù)測(cè),并沒(méi)有加入其他影響因素用于提高預(yù)測(cè)精度,丁永兵等人[12]通過(guò)結(jié)合路網(wǎng)結(jié)構(gòu),利用主成分回歸建立上下游交通流回歸模型,對(duì)模型殘差進(jìn)行ARIMA 建模,得到的ARIMAX 模型要優(yōu)于ARIMA 模型。 但在交通領(lǐng)域并沒(méi)有考慮將影響交通流量的因素(例如:道路占有率等)加入模型進(jìn)行預(yù)測(cè),而在其他的一些研究方向[13-14]就考慮將相關(guān)的參數(shù)加入模型進(jìn)行預(yù)測(cè),并取得了不錯(cuò)的效果。
構(gòu)建傳統(tǒng)時(shí)間序列模型的前提條件就是時(shí)間序列的平穩(wěn)。 通常為了達(dá)到序列的平穩(wěn)性會(huì)對(duì)原序列進(jìn)行差分處理,但卻會(huì)丟失了數(shù)據(jù)信息。 本文考慮引入道路占有率等因素來(lái)增加原始數(shù)據(jù)信息提高預(yù)測(cè)精度。 研究中,首先介紹了ARIMAX 模型的原理,接著對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,使其達(dá)到平穩(wěn)的條件,然后通過(guò)利用Python 來(lái)搭建ARIMAX 模型擬合參數(shù),繼而對(duì)構(gòu)建的模型加以驗(yàn)證,最后進(jìn)行交通流預(yù)測(cè)。 通過(guò)分析最終評(píng)價(jià)指標(biāo)結(jié)果可知,模型擬合效果較好,各種誤差結(jié)果均偏小,達(dá)到了預(yù)期的效果。
差分自回歸移動(dòng)平均模型(Autoregressive Integrated Moving Average Model,ARIMA 模型)是通過(guò)自回歸移動(dòng)平均模型(Auto Regression Moving Average Model,ARMA 模型)擴(kuò)展而來(lái)的。 ARIMA模型中,先對(duì)時(shí)間序列進(jìn)行差分使其達(dá)到平穩(wěn)狀態(tài),再對(duì)差分后的時(shí)間序列建立ARMA 模型。 而ARMA 模型是將自回歸模型(Auto Regression Model,AR 模型)和移動(dòng)平均模型(Moving Average Model,MA 模型)有機(jī)組合而成的。 對(duì)此擬展開(kāi)研究分述如下。
1.1.1 自回歸模型AR
p階自回歸模型,記為AR(p),是一種處理時(shí)間序列的方法,用同一變數(shù)如x的之前各期,即xt至xt-p的值來(lái)預(yù)測(cè)xt的值,并假設(shè)各數(shù)值之間為線性關(guān)系。 公式如下:
其中,c為常數(shù)項(xiàng);εt是均值為零,標(biāo)準(zhǔn)差為σ的隨機(jī)誤差項(xiàng)。
當(dāng)引入延遲算子B,即Bn xt =xt-n,并將AR(p)模型中心化后,可簡(jiǎn)記為:
其中,Φ B( )=1-φ1B -φ2B2-…-φp Bp,稱(chēng)為p階自回歸系數(shù)多項(xiàng)式。
1.1.2 移動(dòng)平均模型MA
q階移動(dòng)平均模型,記為MA(q),是一種簡(jiǎn)單平滑預(yù)測(cè)模型,可根據(jù)時(shí)間序列xt至xt-p的平均值,以預(yù)測(cè)xt的值。 其公式如下:
其中,μ是序列均值,θ1,…,θq是參數(shù),εt,…,εt-q都是白噪聲。
當(dāng)引入延遲算子B,即可得到Bn xt =xt-n,并將MA(q) 模型中心化后,可簡(jiǎn)記為:
其中,Θ B( )=1- θ1B - θ2B2-…- θq Bq,稱(chēng)為q階移動(dòng)平均系數(shù)多項(xiàng)式。
1.1.3 ARIMAX 模型
ARIMAX 模型就是帶輸入變量的ARIMA 模型,其構(gòu)造思想是:假設(shè)響應(yīng)序列yt{ } 和輸入變量序列(即自變量序列)x1t{ },x2t{ },…,xkt{ } 均平穩(wěn),首先構(gòu)建響應(yīng)序列和輸入變量序列的回歸模型:
其中,B為延遲因子,即Bn xt =xt-n;Φi B( ) 為第i個(gè)輸入變量的自回歸系數(shù)多項(xiàng)式;Θi B( ) 為第i個(gè)輸入變量的移動(dòng)平均系數(shù)多項(xiàng)式;li為第i個(gè)輸入變量的延遲階數(shù);εt{ } 為回歸殘差序列。
因?yàn)閥t{ } 和x1t{ },x2t{ },…,xkt{ } 均平穩(wěn),而且平穩(wěn)序列的線性組合仍然是平穩(wěn)的,所以殘差序列εt{ } 為平穩(wěn)序列,即:
使用ARMA 模型繼續(xù)提供殘差序列εt{ } 中的相關(guān)信息,最終得到的模型為:
其中,Φ B( ) 為殘差序列自回歸系數(shù)多項(xiàng)式;Θ B( ) 為殘差序列移動(dòng)平均系數(shù)多項(xiàng)式;at為零均值白噪聲序列。
在選擇了擬合模型后,就要利用時(shí)間序列的值確定模型的口徑,即估計(jì)模型中未知參數(shù)的值[15]。ARIMAX 模型可以通過(guò)許多不同的方法來(lái)估計(jì),包括將模型轉(zhuǎn)換為非線性最小二乘法、GLS 或極大似然估計(jì)。 由于極大似然估計(jì)不需要從樣本開(kāi)始時(shí)丟棄觀測(cè)值,或者需要從后期投射來(lái)創(chuàng)建觀測(cè)值,因此比較適用于模型擬合。 未知參數(shù)的極大似然估計(jì)(Maximum Likelihood Estimation,MLE)就是使得似然函數(shù)、即聯(lián)合密度函數(shù)達(dá)到最大的參數(shù)值[16]。 使用極大似然估計(jì)必須已知總體的分布函數(shù),而在時(shí)間序列分析中,序列總體的分布通常是未知的[17-18]。 為了便于分析和計(jì)算,通常假設(shè)序列服從多元正態(tài)分布[19]。
設(shè)K維隨機(jī)向量x =[x1,…,xk]-1的密度函數(shù)為:
其中,K表示向量x的維度;均值向量μ是K維向量;協(xié)方差矩陣Σ是一個(gè)K ×K的對(duì)稱(chēng)正定陣,則稱(chēng)x服從K元正態(tài)分布,也稱(chēng)x為K維正態(tài)隨機(jī)向量,簡(jiǎn)記為:x ~NK μ,Σ( ) 。 其似然函數(shù)為:
對(duì)數(shù)似然函數(shù)為:
其中,為一個(gè)常數(shù)。 接著對(duì)μ,Σ求偏導(dǎo)、整理,最終得到極大似然估計(jì)為:
其中,N為樣本個(gè)數(shù)。
在前文基礎(chǔ)上,還要對(duì)預(yù)測(cè)值的優(yōu)劣進(jìn)行評(píng)價(jià),研究中用到的評(píng)價(jià)指標(biāo)主要有:平均絕對(duì)百分誤差、平均絕對(duì)誤差、均方誤差。 這里將給出分析表述如下。
(1)平均絕對(duì)百分誤差(Mean Absolute Percent Error,MAPE),又叫平均絕對(duì)離差,是所有單個(gè)觀測(cè)值與算術(shù)平均值的偏差的絕對(duì)值的平均。 平均絕對(duì)誤差能夠避免誤差相互抵消的問(wèn)題,因而可以準(zhǔn)確反映實(shí)際預(yù)測(cè)誤差的大小。 具體數(shù)學(xué)公式為:
(2)平均絕對(duì)誤差(Mean Absolute Error,MAE),又叫平均絕對(duì)離差,是所有單個(gè)觀測(cè)值與算術(shù)平均值的偏差的絕對(duì)值的平均。 平均絕對(duì)誤差能很好地反映預(yù)測(cè)值誤差的實(shí)際情況。 具體數(shù)學(xué)公式為:
(3)均方誤差(Mean-Square Error,MSE) 是參數(shù)估計(jì)值與參數(shù)真值之差平方的期望值。MSE可以評(píng)價(jià)數(shù)據(jù)的變化程度。MSE的值越小,預(yù)測(cè)模型描述實(shí)驗(yàn)數(shù)據(jù)則具有更好的精確度。 具體數(shù)學(xué)公式為:
式(12)~(14)中,yi為預(yù)測(cè)值,xi為真實(shí)值。
(4)擬合優(yōu)度。 是指模型的預(yù)測(cè)值對(duì)實(shí)際值的擬合程度。 度量擬合優(yōu)度的統(tǒng)計(jì)量是可決系數(shù)(亦稱(chēng)確定系數(shù))R2。R2最大值為1。R2的值越接近1,說(shuō)明回歸直線對(duì)觀測(cè)值的擬合程度越好;反之,R2的值越小,說(shuō)明回歸直線對(duì)觀測(cè)值的擬合程度越差。具體數(shù)學(xué)公式為:
其中,y為模型預(yù)測(cè)值;為流量觀測(cè)值;ˉ為觀測(cè)值的平均數(shù)。
本文采用的數(shù)據(jù)來(lái)自于美國(guó)加利福尼亞州交通局的公開(kāi)數(shù)據(jù)集(Peformance Measurement System,PeMS),采用的是維克多維爾城市的某一條路從2018 年3 月5 日至4 月13 日工作日期間每5 min為間隔的交通流數(shù)據(jù),共8 640 組數(shù)據(jù),分析可得每天數(shù)據(jù)的基本統(tǒng)計(jì)特征見(jiàn)表1,截取前一周(即2018年3 月5 日至2018 年3 月9 日)的數(shù)據(jù)如圖1 所示。
圖1 一周的交通流量、占有率圖Fig.1 Traffic flow and occupancy in a week
表1 交通流量、占有率數(shù)據(jù)的基本統(tǒng)計(jì)特征Tab.1 Statistical characteristics of traffic flow and occupancy
考慮到現(xiàn)存的虛假回歸問(wèn)題,在模型擬合前就要對(duì)各序列的平穩(wěn)性進(jìn)行檢驗(yàn)。 只有當(dāng)每個(gè)序列都平穩(wěn)時(shí),才能使用ARIMAX 模型擬合多元序列之間的動(dòng)態(tài)回歸關(guān)系。
觀察圖1 能發(fā)現(xiàn)交通流量與占有率的呈周期性變化,為了直觀展示其規(guī)律,繪制交通流量和道路占有率的自相關(guān)圖如圖2 所示。 從2 個(gè)自相關(guān)圖中,研究發(fā)現(xiàn)序列的自相關(guān)系數(shù)遞減至零的速度相當(dāng)緩慢,在很長(zhǎng)的延遲時(shí)期里,自相關(guān)系數(shù)一直為正,而后又一直為負(fù),顯示出明顯的三角對(duì)稱(chēng)性,這是一種具有單調(diào)趨勢(shì)的非平穩(wěn)序列。 為了將序列達(dá)到平穩(wěn)狀態(tài),考慮采用簡(jiǎn)潔、有效的差分方法。 因此,研究中將原序列進(jìn)行一階差分,再對(duì)差分后的序列檢驗(yàn)平穩(wěn)性。 為了檢驗(yàn)序列的平穩(wěn)性,陸續(xù)提出了許多方法,其中應(yīng)用最多的是單位根檢驗(yàn),而適用范圍最廣的則是ADF 檢驗(yàn),即增廣DF 檢驗(yàn)(Augmented Dickey-Fuller,ADF)檢驗(yàn)。 檢驗(yàn)時(shí),原假設(shè)為序列非平穩(wěn),通過(guò)構(gòu)造ADF 檢驗(yàn)統(tǒng)計(jì)量:
圖2 交通流量、道路占有率原始數(shù)據(jù)的自相關(guān)圖Fig.2 Autocorrelation of original data of traffic flow and occupancy
其中,為參數(shù)ρ的樣本標(biāo)準(zhǔn)差。
通過(guò)蒙特卡洛方法,可以得到τ檢驗(yàn)統(tǒng)計(jì)量的臨界值表。 當(dāng)臨界值小于0.05 時(shí),拒絕原假設(shè),認(rèn)為序列平穩(wěn)。 對(duì)一階差分后的交通流量和道路占有率進(jìn)行檢驗(yàn),檢驗(yàn)結(jié)果參見(jiàn)表2。 觀察ADF 檢驗(yàn)結(jié)果顯示,經(jīng)過(guò)一階差分后的交通流量{?yt}、 占有率{?xt} 均達(dá)到平穩(wěn)狀態(tài),因此可以用于構(gòu)建ARIMAX 模型。
表2 交通流量、道路占有率一階差分后的單位根檢驗(yàn)Tab.2 ADF test after first-order difference of traffic flow and occupancy
經(jīng)過(guò)平穩(wěn)性檢驗(yàn),一階差分后的交通流量和車(chē)道占有率平穩(wěn),可以建立動(dòng)態(tài)回歸模型。 首先,構(gòu)建車(chē)輛流量 { ?yt} 與占有率 { ?xt} 的回歸模型,由此推得數(shù)學(xué)公式為:
接下來(lái),要確定自回歸系數(shù)p與移動(dòng)平均階數(shù)q的值。 通過(guò)計(jì)算使模型的赤池信息準(zhǔn)則(Akaike Information Criterion,AIC) 和 貝 葉 斯 信 息 準(zhǔn) 則(Bayesian Information Criterion,BIC) 達(dá)到最小值的p、q值。 為此,分別計(jì)算各種p,q組合的AIC和BIC值,并繪制AIC、BIC的熱力圖,如圖3 所示。 通過(guò)圖3 來(lái)尋找AIC、BIC值最小的p與q的組合為(6,5)。再將差分后的序列帶入模型,用極大似然估計(jì)進(jìn)行擬合得到參數(shù)值,詳見(jiàn)表3。 至此,最終模型可寫(xiě)為如下形式:
表3 ARIMAX(6,1,5)模型參數(shù)擬合Tab.3 Parameter fitting of ARIMAX (6,1,5)
圖3 p、q 各種組合的AIC、BIC 熱力圖Fig.3 AIC and BIC thermodynamic diagram of various combinations of p and q
考慮到差分的方法對(duì)確定性信息的提取可能不充分,因此還要進(jìn)一步地對(duì)殘差序列進(jìn)行檢驗(yàn)。 如果檢驗(yàn)結(jié)果顯示為殘差序列的自相關(guān)性不顯著,就說(shuō)明ARIMAX 模型對(duì)信息的提取比較充分。 在此基礎(chǔ)上,就是對(duì)模型的殘差序列進(jìn)行檢驗(yàn),判斷是否存在殘存有效信息。 為此,對(duì)其進(jìn)行ADF 單位根檢驗(yàn)和Durbin-Watson 檢驗(yàn)(D-W 檢驗(yàn)),結(jié)果見(jiàn)表4以及繪制殘差的Q-Q 圖,見(jiàn)圖4。
表4 ARIMAX 模型殘差檢驗(yàn)Tab.4 Residual test of ARIMAX
從表4 中可以發(fā)現(xiàn)D-W 值趨近于2,即接受原假設(shè):殘差序列不存在1 階自相關(guān)性;單位根檢驗(yàn)結(jié)果P值遠(yuǎn)小于0.05 說(shuō)明殘差顯著平穩(wěn)。 從圖4 可以看出,散點(diǎn)基本落在直線兩端,故殘差滿(mǎn)足均值為0 的正態(tài)分布。 滿(mǎn)足以上條件后,就可用ARIMAX模型對(duì)此后一周的交通流進(jìn)行擬合預(yù)測(cè)。 其中,這一周的預(yù)測(cè)流量與真實(shí)流量如圖5 所示。
圖4 ARIMAX 模型的殘差Q-Q 圖Fig.4 Residual Q-Q diagram of ARIMAX model
圖5 預(yù)測(cè)流量與真實(shí)流量值Fig.5 Comparison between predicted and actual data
然后用平均絕對(duì)誤差、均方誤差、平均絕對(duì)百分比誤差來(lái)衡量交通流量實(shí)際值與ARIMAX 模型的預(yù)測(cè)值(見(jiàn)表5),并計(jì)算模型的擬合優(yōu)度為0.876 95。
表5 預(yù)測(cè)與實(shí)際值的MAE,MSE,MAPETab.5 MAE,MSE and MAPE of predicted and actual data
通過(guò)模型可以發(fā)現(xiàn),平均絕對(duì)誤差、均方誤差分別為1.47 和3.74,效果較好, 并且一般認(rèn)為MAPE的值低于10%時(shí)預(yù)測(cè)精度較高,本文中MAPE僅為6.87,說(shuō)明ARIMAX 模型預(yù)測(cè)效果較好。
構(gòu)建ARIMAX 模型的過(guò)程與傳統(tǒng)的ARIMA 模型類(lèi)似,但與ARIMA 模型相比,豐富了數(shù)據(jù)信息,從而提高了預(yù)測(cè)的精度。 將交通流量、道路占有率作為輸入序列,先要確保其序列的穩(wěn)定性,為此采用差分來(lái)提取確定性信息。 經(jīng)過(guò)一階差分后,通過(guò)單位根檢驗(yàn),序列達(dá)到了平穩(wěn)形態(tài)。 接下來(lái),就是構(gòu)建ARIMAX 模型,以及確定ARIMAX 模型的階數(shù)。 在模型定階過(guò)程中,相比于直接觀察繪制的自相關(guān)、偏自相關(guān)圖確定p、q值的辦法,本文通過(guò)計(jì)算所有p與q組合的AIC和BIC,尋找使得AIC和BIC最小的那一組數(shù)值。 如此一來(lái),既提高了精確度,又節(jié)省了調(diào)參的時(shí)間,預(yù)測(cè)效率明顯提高。 在模型階數(shù)確定后,利用極大似然估計(jì)的方法來(lái)擬合參數(shù),得到了一個(gè)ARIMAX 模型。 雖然擬合求出了參數(shù)模型,但是并不能保證差分的方法能夠充分提取確定性信息,因此還要進(jìn)一步來(lái)檢驗(yàn)殘差。 經(jīng)過(guò)D-W 等方式檢驗(yàn)、并發(fā)現(xiàn)殘差不存在自相關(guān)性后,就可以用得到的ARIMAX 模型進(jìn)行交通流量預(yù)測(cè)。 為了防止偶然事件的產(chǎn)生,研究中預(yù)測(cè)了接下來(lái)一周的交通流量,并運(yùn)用多種評(píng)價(jià)指標(biāo)進(jìn)行驗(yàn)算。 最終結(jié)果顯示,采用道路占有率作為外生變量的交通流量ARIMAX 模型能夠很好地?cái)M合流量序列的變化規(guī)律,也有著良好的預(yù)測(cè)精度。 而且作為統(tǒng)計(jì)類(lèi)的模型其未知參數(shù)對(duì)比于神經(jīng)網(wǎng)絡(luò)要少得多,具有更快的預(yù)測(cè)速度,既滿(mǎn)足了交通流預(yù)測(cè)的實(shí)效性,也得到了很高的預(yù)測(cè)精度。
本次研究中,雖然利用道路占有率作為外生變量加入到了交通流量的預(yù)測(cè)中來(lái)減少序列預(yù)處理時(shí)差分所減少的有效信息量,但是并沒(méi)有研究道路占有率的加入對(duì)預(yù)測(cè)精度具體提高了多少的百分比,以及道路占有率的加入能否彌補(bǔ)因差分所帶來(lái)的有限信息量的丟失,這些都是未來(lái)課題的有效考察重點(diǎn)。 而且作為交通流參數(shù),還有如速度、車(chē)頭時(shí)距等,若將其也加入交通流量的預(yù)測(cè)模型中,能否提高預(yù)測(cè)的精度以及彌補(bǔ)因差分丟失的信息內(nèi)容,也是下一步需要深入探討的研究方向。