李科君 高瑾瑤 宋建華 任 剛
(中電科大數(shù)據(jù)研究院有限公司1) 貴陽 550022) (東南大學(xué)江蘇省城市智能交通重點實驗室2) 南京 211189)(東南大學(xué)現(xiàn)代城市交通技術(shù)江蘇高校協(xié)同創(chuàng)新中心3) 南京 211189)
城市軌道交通作為城市公共交通系統(tǒng)的重要組成部分,具有大運量、準(zhǔn)時和快捷等特點,承擔(dān)著許多城市中遠(yuǎn)距離通勤及彈性出行的客流需求.客流預(yù)測是城市軌道交通規(guī)劃、運營與管理的基礎(chǔ),短時客流預(yù)測能夠反映客流實時變化規(guī)律,是系統(tǒng)資源調(diào)配、站臺擁擠管理的重要依據(jù).通過利用城市軌道交通AFC刷卡數(shù)據(jù),準(zhǔn)確、可靠地預(yù)測短時段進(jìn)站客流量,并根據(jù)客流的變化情況及時調(diào)整行車計劃,進(jìn)行客流誘導(dǎo)與控制、站臺客流組織與疏散等,有助于提高城市軌道交通系統(tǒng)運營管理的科學(xué)性、高效性及安全性.
常見的短時交通流的預(yù)測方法大致可以分為以下四種:基于線性理論的方法、基于非線性理論的方法、基于混合理論的方法和其他預(yù)測方法[1].客流預(yù)測的研究中也多借鑒于交通流預(yù)測的方法.基于線性理論的方法主要包括自回歸滑動平均模型[2-3]和卡爾曼濾波模型[4]等;非線性理論方法有支持向量機[5]、非參數(shù)回歸[6]、神經(jīng)網(wǎng)絡(luò)模型[7]等;混合方法是指多種預(yù)測方法在預(yù)測過程或者結(jié)果上的組合使用.
城市軌道交通短時進(jìn)站客流是具有動態(tài)性、非線性、不確定性、周期性的時間序列,傳統(tǒng)AR、ARMA等線性時間序列預(yù)測模型不能很好地捕捉其非線性特征,但人工神經(jīng)網(wǎng)絡(luò)具有非線性的映射能力以及較高的容錯率等特點.非線性自回歸神經(jīng)網(wǎng)絡(luò)模型(nonlinear autoregression neural network,NARNN)是一種通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)非線性回歸的模型,它結(jié)合了自回歸方法對時間序列潛在機理挖掘的能力以及神經(jīng)網(wǎng)絡(luò)算法的非線性函數(shù)擬合能力,算法靈活,不需要像其他方法構(gòu)建詳細(xì)的模型,且具有自適應(yīng)、自學(xué)習(xí)的優(yōu)勢,其在一些領(lǐng)域的預(yù)測研究中得到了應(yīng)用[8-10].文中構(gòu)建非線性自回歸神經(jīng)網(wǎng)絡(luò)(NARNN)模型進(jìn)行地鐵車站短時進(jìn)站客流的預(yù)測,結(jié)果表明其具有一定的應(yīng)用價值,且預(yù)測精度優(yōu)于線性時間序列預(yù)測模型.
文中研究的對象是短時進(jìn)站客流,在利用數(shù)據(jù)進(jìn)行預(yù)測之前,需要對進(jìn)站客流的發(fā)展變化規(guī)律進(jìn)行觀測和分析.選取南京地鐵三號線夫子廟站2017年10月16—20日(周一—周五)及10月1—7日(國慶節(jié)假日)的日進(jìn)站客流量進(jìn)行分析.將該站的AFC日進(jìn)站刷卡數(shù)據(jù)從地鐵運營時間06:00—23:30按照每5,15 min分別進(jìn)行累計統(tǒng)計,畫圖觀察工作日、節(jié)假日(國慶周)的短時進(jìn)站客流量變化情況,兩種特征日的進(jìn)站客流時間序列見圖1.
圖1 夫子廟站進(jìn)站客流時間序列
經(jīng)過數(shù)據(jù)統(tǒng)計與對比分析可以發(fā)現(xiàn),夫子廟站國慶周的日均客流量為41 865人·次/d,顯著高于平常工作周的日均客流量24 360人·次/d,造成這一現(xiàn)象的原因是夫子廟站點附近的夫子廟、秦淮河等著名旅游景點國慶期間吸引著大量的旅游客流.由圖1可知,工作日和國慶周的日進(jìn)站客流時間分布不同,兩種特征日的客流高峰出現(xiàn)時段及客流變化趨勢都有所差異,但每種特征日的內(nèi)部都有相似的規(guī)律.在同一時間測度下,工作日客流變化較平穩(wěn),且有明顯的高峰和平峰;相較于工作日,國慶假日期間進(jìn)站客流時間分布波動性更強,且全天客流量都較大,高峰時段不凸顯.通過進(jìn)一步對比同一特征日的兩種時間測度,明顯可以看出較短的5 min時間測度數(shù)據(jù)波動大、不平穩(wěn).
以上分析表明,地鐵短時進(jìn)站客流是一種不穩(wěn)定的并隱含著大量動態(tài)特征的非線性、非平穩(wěn)時間序列;同時工作周和節(jié)假日周的客流發(fā)展變化分別隱藏著一定的日分布規(guī)律,每日客流的增長與下降趨勢類似,即具有一定的周期性.考慮上述的時間序列特征,本文構(gòu)建非線性自回歸神經(jīng)網(wǎng)絡(luò)(NARNN)模型對普通工作日及節(jié)假日期間旅游景點夫子廟站的地鐵短時進(jìn)站客流進(jìn)行預(yù)測,通過對工作日及節(jié)假日地鐵進(jìn)站刷卡數(shù)據(jù)內(nèi)部發(fā)展規(guī)律的挖掘,實現(xiàn)短時進(jìn)站客流預(yù)測.
非線性自回歸神經(jīng)網(wǎng)絡(luò)為帶有延時函數(shù)的神經(jīng)網(wǎng)絡(luò),延時的階數(shù)決定神經(jīng)網(wǎng)絡(luò)的輸入個數(shù),是專門針對時間序列預(yù)測問題的模型.標(biāo)準(zhǔn)的NARNN結(jié)構(gòu)示意圖見圖2,其中時間序列y(t)既是輸入也是輸出,網(wǎng)絡(luò)中包含若干隱藏層和一個輸出層.該神經(jīng)網(wǎng)絡(luò)中嵌入了一個延遲函數(shù),用于將時間序列y(t)進(jìn)行延遲處理.該神經(jīng)網(wǎng)絡(luò)中隱含層采用非線性傳輸函數(shù),輸出層采用線性傳輸函數(shù).
d-延遲階數(shù);W-神經(jīng)元之間的聯(lián)結(jié)權(quán)值矩陣;b-各層神經(jīng)元的的閾值向量;S-各層的神經(jīng)元個數(shù)圖2 非線性自回歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
非線性自回歸神經(jīng)網(wǎng)絡(luò)實質(zhì)上是自回歸模型(AR)的非線性化,通過利用神經(jīng)網(wǎng)絡(luò)自學(xué)習(xí)、自適應(yīng)以及可以實現(xiàn)非線性映射的特點,對具有非線性特征的時間序列進(jìn)行擬合及預(yù)測.整個網(wǎng)絡(luò)的預(yù)測原理就是通過時間序列某時刻t的前d個時刻的值來預(yù)測該時刻的值,表示為
y(t)=f(y(t-1),y(t-2),…,y(t-d)) (1)
式中:d為延時階數(shù);f(·)為神經(jīng)網(wǎng)絡(luò)模型.由式(1)可知,該模型承認(rèn)事物發(fā)展的延續(xù)性,用過去的值來推斷當(dāng)前的值.本研究將1 d內(nèi)的客流量按照每5 min和每15 min分別統(tǒng)計,此時時間序列中t為第t個5 min或15 min統(tǒng)計時段,t-d為t之前的d個5 min或15 min統(tǒng)計時段.
非線性自回歸神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)見圖3,輸出信號的時間延遲作為該網(wǎng)絡(luò)中時間延遲反饋,將輸出的時間d階延遲信號當(dāng)作網(wǎng)絡(luò)的輸出.網(wǎng)絡(luò)結(jié)構(gòu)為d-l-1,即一個輸入層、一個隱含層及一個網(wǎng)絡(luò)輸出.輸入延遲階數(shù)d決定了輸入神經(jīng)元的個數(shù),隱含層神經(jīng)元個數(shù)為l,網(wǎng)絡(luò)輸出為一個值.網(wǎng)絡(luò)的最終輸出y由式(3)中的輸出層傳輸函數(shù)f2得到.
(2)
式中:xi為網(wǎng)絡(luò)的輸入,分別對應(yīng)時間序列t時刻之前的d個時刻的觀測值;wi,j為輸入神經(jīng)元與隱含層神經(jīng)元之間的聯(lián)結(jié)權(quán)值;aj為隱含層神經(jīng)元的閾值.
(3)
式中:wj為隱含層神經(jīng)元與輸出層神經(jīng)元之間的聯(lián)結(jié)權(quán)值;b為輸出層神經(jīng)元的閾值;mj為隱含層各神經(jīng)元的輸出;mj根據(jù)式(2)中的隱含層傳輸函數(shù)f1得到.
圖3 非線性自回歸神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D
采用BP學(xué)習(xí)方法對該神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,第一個階段是輸入已知學(xué)習(xí)樣本,通過設(shè)置的網(wǎng)絡(luò)結(jié)構(gòu)和前一次迭代的權(quán)值和閾值,從網(wǎng)絡(luò)的第一層向后計算各神經(jīng)元的輸出.第二個階段是對權(quán)值和閾值進(jìn)行修改,從最后一層向前計算各權(quán)值和閾值對總誤差的影響(梯度),據(jù)此對各權(quán)值和閾值進(jìn)行修改.以上兩個過程反復(fù)交替,直到達(dá)到收斂為止.模型中的網(wǎng)絡(luò)誤差性能函數(shù)選取為MSE(mean square error),隱含層傳輸函數(shù)選取Tan-sigmoid函數(shù),輸出層的傳輸函數(shù)選為pure-line 線性函數(shù).為了提高神經(jīng)網(wǎng)絡(luò)的泛化能力、防止“過適配”現(xiàn)象,采用貝葉斯歸一化法(bayesian regularization)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練.
在訓(xùn)練時,網(wǎng)絡(luò)采用開環(huán)的形式,將時間序列通過延時函數(shù)進(jìn)行輸入和輸出數(shù)據(jù)的分解及對應(yīng),在預(yù)測階段,網(wǎng)絡(luò)采用閉環(huán)形式,將t時刻的輸出在t+1時刻作為輸入被反饋,通過輸入構(gòu)建自回歸模型,通過對該輸入權(quán)值和歷史數(shù)據(jù)權(quán)值的修正,網(wǎng)絡(luò)遞歸的產(chǎn)生了一個自回歸模型以便預(yù)測下一個輸出.隱含層中的神經(jīng)元可以對相同的自回歸過程產(chǎn)生一些變化,這有助于區(qū)別滯后的重要程度,也能夠發(fā)現(xiàn)時間序列最合適的滯后結(jié)構(gòu).
在建立NARNN模型之前,先對原始的地鐵進(jìn)站閘機AFC刷卡數(shù)據(jù)庫里的數(shù)據(jù)進(jìn)行預(yù)處理,對研究時間范圍內(nèi)的車站刷卡數(shù)據(jù)進(jìn)行篩選,剔除異常數(shù)據(jù),并按照每5,15 min間隔統(tǒng)計短時進(jìn)站客流量,將其處理成時間序列的形式.建立預(yù)測模型的具體步驟如下:①生成時間序列,將原始數(shù)據(jù)進(jìn)行歸一化,轉(zhuǎn)化為值域為[-1,1]的序列;②設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),初始化時間延遲階數(shù)、隱含層神經(jīng)元個數(shù);③對訓(xùn)練樣本數(shù)據(jù)進(jìn)行多次訓(xùn)練,根據(jù)誤差自相關(guān)圖滿足95%的置信區(qū)間的要求,調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu),并根據(jù)擬合效果圖選擇合適的模型參數(shù);④用訓(xùn)練好的模型對測試數(shù)據(jù)進(jìn)行預(yù)測,根據(jù)選取的誤差指標(biāo)分析網(wǎng)絡(luò)預(yù)測性能.研究中采用MATLAB神經(jīng)網(wǎng)絡(luò)工具箱進(jìn)行輔助建模與分析.
以南京地鐵三號線夫子廟站的進(jìn)站客流AFC刷卡數(shù)據(jù)為基礎(chǔ)數(shù)據(jù),從原始的ACCESS數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的篩選與預(yù)處理.原始刷卡數(shù)據(jù)記錄了進(jìn)站時間、交易發(fā)生時間、車站號、卡號、票卡類型等信息,其中進(jìn)站時間精確到秒.依據(jù)夫子廟站對應(yīng)的車站號對進(jìn)站時間數(shù)據(jù)進(jìn)行篩選,剔除掉異常數(shù)據(jù),分別按照每5,15 min對10月1—7日(代表節(jié)假日),10月16—20日(代表工作周)每日06:00—23:30的進(jìn)站客流量進(jìn)行統(tǒng)計,并將其處理成時間序列的形式.按照85%和15%的比例劃分訓(xùn)練集和測試集,工作日的5 min間隔試驗數(shù)據(jù)共有355個,比例選取前300個為訓(xùn)練樣本,后55個為測試樣本,15 min間隔試驗數(shù)據(jù)共有1 060個,選取前896個為訓(xùn)練樣本,后164個為測試樣本.節(jié)假日的5 min間隔試驗數(shù)據(jù)共有497個,選取前420個為訓(xùn)練樣本,后77個為測試樣本,15分鐘間隔試驗數(shù)據(jù)共有1 484個,選取前1 254個為訓(xùn)練樣本,后230個為測試樣本.
根據(jù)實際的數(shù)據(jù)進(jìn)行建模分析.其中自回歸階數(shù),即延時階數(shù)d決定了非線性自回歸神經(jīng)網(wǎng)絡(luò)的輸入層神經(jīng)元的個數(shù),從而也影響到隱含層神經(jīng)元個數(shù)的選擇,其對神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及預(yù)測結(jié)果有著決定性的影響.目前尚未找到特定精確的方法來確定其值,采取多次試驗測算的方法來確定最優(yōu)的延時階數(shù),即設(shè)置不同的d值構(gòu)造神經(jīng)網(wǎng)絡(luò),對訓(xùn)練樣本數(shù)據(jù)進(jìn)行多次訓(xùn)練,在誤差自相關(guān)圖滿足95%置信區(qū)間的網(wǎng)絡(luò)結(jié)構(gòu)中,選取預(yù)測誤差平方和(MSE)最小的神經(jīng)網(wǎng)絡(luò)作為最優(yōu)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).在對神經(jīng)網(wǎng)絡(luò)的多次訓(xùn)練中,發(fā)現(xiàn)對于5 min時間測度的工作日和節(jié)假日最優(yōu)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為6-15-1,即時間延遲階數(shù)為6,可以解讀為當(dāng)前時刻的客流量與前6個5 min的客流量關(guān)系最密切,通過每6個5 min間隔的客流量進(jìn)行預(yù)測能較好的捕捉到客流數(shù)據(jù)的內(nèi)在發(fā)展規(guī)律,得到較好的預(yù)測結(jié)果.對于15 min時間測度的工作日和節(jié)假日最優(yōu)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為4-10-1,即時間延遲階數(shù)為4,可以解讀為當(dāng)前時刻的客流量與前4個15 min的客流量關(guān)系最密切,通過每4個15 min間隔的客流量進(jìn)行預(yù)測能較好的捕捉到客流數(shù)據(jù)的內(nèi)在發(fā)展規(guī)律,得到較好的預(yù)測結(jié)果.進(jìn)一步運用傳統(tǒng)的線性時間序列ARIMA(p,d,q)預(yù)測模型對同樣的試驗樣本數(shù)據(jù)進(jìn)行建模及預(yù)測,選取不同參數(shù)設(shè)置下的各個ARIMA模型中預(yù)測平均絕對誤差最小的模型與文中提出的模型進(jìn)行預(yù)測結(jié)果的對比分析,測試樣本得到的預(yù)測數(shù)據(jù)和真實客流值的比較見圖4~5.
圖4 工作日短時客流預(yù)測圖
圖5 節(jié)假日短時客流預(yù)測圖
MAE(mean absolute error)能很好地反映預(yù)測值誤差的實際情況,RMSE(root mean squared error)可以評價數(shù)據(jù)與預(yù)測模型適應(yīng)性.采用平均絕對誤差MAE和均方根誤差RMSE兩個評價指標(biāo)對各個模型的預(yù)測性能進(jìn)行量化對比分析,結(jié)果列于表1~2.
(4)
(5)
表1 工作日預(yù)測誤差指標(biāo)
表2 節(jié)假日預(yù)測誤差指標(biāo)
由圖4~5可知,NARNN模型預(yù)測結(jié)果與測試數(shù)據(jù)的實際值能較好地擬合,該模型能夠反映出客流數(shù)據(jù)的動態(tài)發(fā)展趨勢及變化規(guī)律,且相比于ARIMA模型,其預(yù)測結(jié)果更貼近真實值.由表1~2可知,NARNN模型有比ARIMA模型更小的MAE和RMSE指標(biāo)值,即其有更高的預(yù)測精度和模型適應(yīng)性.NARNN模型對工作日和節(jié)假日預(yù)測的MAE值在相同的時間間隔測度下相差不大,分別為17人·次/5 min、43人·次/15 min及18人·次/5 min、48人·次/15 min,相比于工作日132人·次/5 min、395人·次/15 min的平均進(jìn)站客流量,節(jié)假日177人·次/5 min、527人·次/15 min的平均進(jìn)站客流量,該誤差在可接受的范圍內(nèi),表明該模型可以用于短時進(jìn)站客流的預(yù)測.通過進(jìn)一步比較不同時間間隔的誤差指標(biāo),15 min預(yù)測結(jié)果的MAE值均小于經(jīng)5 min時間間隔擴算得到的MAE值,該結(jié)果表明隨著數(shù)據(jù)的波動性和隨機性增大,模型的預(yù)測精度有所降低.
利用非線性自回歸歸神經(jīng)網(wǎng)絡(luò)(NARNN)模型對地鐵短時進(jìn)站客流進(jìn)行了預(yù)測,采用實際的地鐵車站工作日及節(jié)假日AFC刷卡數(shù)據(jù)進(jìn)行了實例分析,并與線性ARIMA預(yù)測模型的預(yù)測結(jié)果進(jìn)行比較分析.研究結(jié)果表明,該模型在不同時間測度下對工作日和節(jié)假日的地鐵進(jìn)站客流數(shù)據(jù)均能較好地擬合,表明其具有一定的應(yīng)用價值,但隨著數(shù)據(jù)波動性和隨機性的增大,模型的預(yù)測精度有所降低;與線性時間序列預(yù)測模型相比,該模型預(yù)測結(jié)果具有更小的平均絕對誤差和均方根誤差,表明其預(yù)測精度優(yōu)于線性時間序列預(yù)測模型.