潘念然
(上海體育學(xué)院經(jīng)濟與管理學(xué)院,上海 200000)
地鐵作為滿足大眾基本出行需求的一個重要方式,具有故障率低、運力大、穩(wěn)定安全等優(yōu)點。同時,建立較為完善的地下軌道交通網(wǎng)絡(luò),既可以改善地面公共交通能力不足的不利局面,又可以促進城市基礎(chǔ)設(shè)施建設(shè),拉動經(jīng)濟社會發(fā)展。在城市軌道交通發(fā)展建設(shè)和運營中,客流預(yù)測一直是相關(guān)研究和實踐的一個重要內(nèi)容。特別在當前城市軌道交通運力快速增長和客流需求變化較快的情況下,客流預(yù)測研究的重要性和必要性更加凸顯。在城市軌道交通客流預(yù)測方法上,已經(jīng)涌現(xiàn)出了多種模型,其中,單變量自回歸移動平均模型(ARMA)是最為常用的傳統(tǒng)預(yù)測方法。ARMA 考慮了差分影響,是自回歸(AR)和移動平均(MA)模型的結(jié)合,被廣泛應(yīng)用于基于時間序列的預(yù)測研究中[3-4]。近年來,隨著人工智能的發(fā)展,基于深度學(xué)習(xí)算法的支持向量機(SVM)、隨機森林(RF)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶(LSTM)等正成為預(yù)測研究的重要方向。其中,LSTM能夠識別數(shù)據(jù)的結(jié)構(gòu)和模式,能夠挖掘數(shù)據(jù)中蘊含的非線性和復(fù)雜性,被廣泛用于基于時間序列的預(yù)測研究[7-10]。目前,在城市軌道交通客流預(yù)測研究中,綜合應(yīng)用傳統(tǒng)ARMA 模型和當前處于前沿的LSTM模型的研究仍較少。基于此,本文綜合應(yīng)用ARMA 和LSTM兩種方法展開城市軌道交通客流預(yù)測研究,通過對比分析來確定哪個模型具有更好的準確性和精度,由此為相關(guān)理論研究和實踐應(yīng)用提供參考和借鑒。
作為傳統(tǒng)預(yù)測模型的代表,ARIMA 模型能夠處理數(shù)據(jù)的非平穩(wěn)性,而作為基于深度學(xué)習(xí)算法的代表,LSTM方法能夠?qū)Ψ蔷€性時間序列數(shù)據(jù)進行建模。研究應(yīng)用城市軌道交通客流的時間序列數(shù)據(jù),分別構(gòu)建ARIMA 和LSTM 模型來預(yù)測城市軌道交通客流量,并通過比較預(yù)測結(jié)果的均方根誤差來評估兩個模型的預(yù)測精度和性能。
自回歸滑動平均模型:
如果序列Xt不僅與過去的狀態(tài)有關(guān),而且對之前進入系統(tǒng)的外部沖擊也有一定的依賴性。當這種動態(tài)特征用一個既包含滯后項又包含過去外部沖擊的模型來描述時,通常稱為自回歸移動平均模型,其一般結(jié)構(gòu)為:
根據(jù)時間序列是否具有季節(jié)性變化,其結(jié)構(gòu)可分為ARIMA(p,d,q)和ARIMA(p,d,q)×(P,D,Q)S,其中p 和q 是自回歸的階數(shù)和移動平均階數(shù),d 和D 是非季節(jié)性和季節(jié)性差異時間,P 和Q 是季節(jié)性自回歸階數(shù)和移動平均階數(shù),S 是時間序列周期或周期長度。
ARIMA(p,d,q)×(P,D,Q)S
對于周期為S 的乘積季節(jié)模型,該模型一般定義為:
其中,上式(2)是以S 為周期的時間序列的P 階自回歸運算符,上式(3)是以S 為周期的時間序列的Q 階移動平均運算符,上式(4)是以S 為周期的時間序列的D 階季節(jié)性差分算子。
LSTM 是一種改進的RNN 算法,主要用于時間序列預(yù)測。LSTM給RNN 增加了三層,分別是遺忘門、輸入門和輸出門。遺忘門以一定的概率決定是否忽略前一層的隱藏單元狀態(tài);輸入門確定輸入以更新序列位置;輸出門決定了最后時刻的隱含規(guī)則和當前時刻的聯(lián)合狀態(tài)。
城市軌道交通的線路固定,受外界因素的干擾較小,居民使用軌道交通的時間周期性很強,所以整體的城市軌道交通客流量數(shù)據(jù)帶有時序性特點,即客流量會隨著時間點、季節(jié)、月份的變化而變化,但是最基本的是以周為單位的變化周期。本文采集的數(shù)據(jù)具體時間區(qū)間為2019 年4 月1 日至2019 年6 月13 日。在時間序列數(shù)據(jù)分析中,不同的時間區(qū)間會有不同的變化。因此,在此基礎(chǔ)上,本文將數(shù)據(jù)分成日客流量數(shù)據(jù)和分時客流量數(shù)據(jù),然后將日客流量和分時客流量分別進行模型擬合,分析精度。
2.2.1 平穩(wěn)性檢驗
日客流量數(shù)據(jù)具有季節(jié)性特點,為了減少誤差,對原始序列進行季節(jié)性差分,時間序列通過ADF 檢驗,P 值為0.000<0.05。分時客流數(shù)據(jù)是非平穩(wěn)的,為了減少誤差,對原始序列進行一階差分,時間序列進行ADF 檢驗,P 值為0.000<0.05。在三個顯著水平上,季節(jié)差分序列和一階差分序列都是平穩(wěn)的。
2.2.2 確認ARIMA 模型參數(shù)
本文首先建立了ARIMA 模型,并對參數(shù)進行了估計。為了使建模更加嚴格,我們使用AIC 和BIC 準則來確定模型的參數(shù)。對于日客流量,最小的AIC=1041.298,對應(yīng)的模型是ARIMA(3,0,1)(0,1,1),對于分時客流量,最小的BIC=71779.19,對應(yīng)的模型是ARIMA(7,1,7)。
2.2.3 ARIMA 模型預(yù)測
從圖1 可以看出,日客流預(yù)測結(jié)果的殘差序列是獨立的白噪聲序列,說明該模型擬合數(shù)據(jù)。圖2 顯示了分時客流的殘差序列QQ 圖。如圖1 和圖2 所示。
圖1 日客流量殘差序列QQ 圖
圖2 分時客流量殘差序列QQ 圖
根據(jù)上述可得擬合模型ARIMA(3,0,1) (0,1,1)和ARIMA(7,1,7)。通過編程得到的結(jié)果如下:日客流量ARIMA 模型預(yù)測結(jié)果RMSE=3167.53,分時客流ARIMA 模型預(yù)測結(jié)果RMSE=126.34。結(jié)果表明,當預(yù)測數(shù)據(jù)具有季節(jié)性特征時,誤差約為3,167.53,當預(yù)測數(shù)據(jù)具有非平穩(wěn)性時,誤差約為126.34。預(yù)測結(jié)果如圖3 和圖4 所示。
圖3 日客流量ARIMA 模型預(yù)測
圖4 分時客流量ARIMA 模型預(yù)測
2.2.4 確認LSTM 模型參數(shù)
神經(jīng)網(wǎng)絡(luò)中最關(guān)鍵的是確定輸入神經(jīng)元的數(shù)量、隱藏層的數(shù)量和隱藏單元的數(shù)量。隱藏層和受保護組過多會導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)速度延長,太少將缺乏必要的學(xué)習(xí)能力。本文的日客流量和分時客流量設(shè)定的輸出和輸入均為一維特征,可以看出訓(xùn)練效果較好,如圖5 和圖6 所示。
圖5 日客流量LSTM 模型損失
圖6 分時客流量LSTM 模型損失
2.2.5 LSTM 模型預(yù)測
使用訓(xùn)練好的LSTM模型預(yù)測數(shù)據(jù),結(jié)果如圖7 和8 所示。
圖7 日客流量LSTM 模型預(yù)測
日客流量LSTM模型的預(yù)測結(jié)果為RMSE=41200.85,這意味著對于具有季節(jié)性特征的數(shù)據(jù),每個LSTM預(yù)測的均方根誤差約為41200.85。LSTM 模型的分時客流預(yù)測結(jié)果為RMSE=211.52,這意味著對于不平穩(wěn)的數(shù)據(jù),每個LSTM預(yù)測的均方根誤差約為211.52。
圖8 分時客流量LSTM 模型預(yù)測
平均絕對誤差用于衡量總誤差的平均值,均方根誤差用于衡量誤差的平均大小,兩者都可用來評價模型的擬合精度。為了更加直觀地分析兩種模型的預(yù)測結(jié)果,本文使用RMSE 來評估模型。
不同預(yù)測數(shù)據(jù)和方法的準確率結(jié)果如表1 所示。均方根誤差結(jié)果因數(shù)據(jù)量、預(yù)測方法和時間間隔而異,RMSE 越小,模型的精度就越高。在時間粒度上,對于日客流數(shù)據(jù),ARIMA方法的均方根誤差小于LSTM方法,預(yù)測效果更好;對于分時客流,LSTM 方法的均方根誤差大于ARIMA 方法,從RMSE 結(jié)果來看,ARIMA 的預(yù)測優(yōu)于LSTM。
表1 不同頻率數(shù)據(jù)的均方根誤差
本文在對城市軌道交通客流預(yù)測模型進行系統(tǒng)分析的基礎(chǔ)上,分別應(yīng)用ARIMA 模型和LSTM模型對城市軌道客流進行擬合和預(yù)測,進而對兩個模型預(yù)測的結(jié)果進行對比分析,從而評估模型預(yù)測的精度和性能。研究結(jié)果表明,首先,對于日客流,ARIMA 優(yōu)于LSTM,這是因為日客流量的數(shù)據(jù)不足,而LSTM的網(wǎng)絡(luò)需要大量的數(shù)據(jù)來訓(xùn)練以此來達到更精確的結(jié)果;對于分時客流量,將兩種方法結(jié)合起來效果更好。其次,預(yù)測的質(zhì)量與數(shù)據(jù)質(zhì)量和模型選擇有關(guān),但輸入數(shù)據(jù)的清洗和選擇也很關(guān)鍵。在滿足模型性能要求的前提下(例如,某些模型需要非常大的數(shù)據(jù)集),同一數(shù)據(jù)集可以使用不同的模型。為此,更重要的是對輸入數(shù)據(jù)進行分析,挖掘數(shù)據(jù)的深層次關(guān)系,即優(yōu)化輸入數(shù)據(jù)集。對于本文中的數(shù)據(jù),日客流量的預(yù)測最好用ARIMA 算法來預(yù)測;對于分時客流的預(yù)測,LSTM 神經(jīng)網(wǎng)絡(luò)也可以作為ARIMA 的替代方法用于預(yù)測,預(yù)測值與數(shù)據(jù)整體趨勢大致相同,峰值存在誤差,但整體偏差不大,結(jié)果表明需要優(yōu)化或組合方法來提高較短時間間隔預(yù)測的準確性。