滕 騰,劉正琦,王小敏
(西南交通大學 信息科學與技術學院,成都 611756)
近年來,城市軌道交通因其便捷舒適、綠色低碳等特點受到大眾青睞,但大客流也造成了高峰時段站點擁擠、列車晚點等一系列問題[1]??土鞯牟粩嘣黾?,使得短時客流預測成為運營部門保障行車安全、優(yōu)化行車運營效率的關鍵,同時也為乘客出行規(guī)劃提供參考依據[2-3]。短時客流預測指預測粒度小于15 min的客流預測,相比中長期預測具有更大的隨機性和波動性,預測的準確性也直接關系到城市軌道交通組織運營的高效性和合理性。
針對城市軌道交通短時客流預測,眾多學者研究采用非線性預測方法或組合優(yōu)化模型的預測方法,證明了對短時客流進行預測的可行性[4-5]。但常用于客流預測問題的卷積神經網絡或循環(huán)神經網絡(RNN ,Recurrent Neural Network)模型受困于梯度消失或梯度爆炸,難以處理存在顯著的季節(jié)特性、長時間跨度的數據,長短時記憶(LSTM,Long Short Term Memory )模型對這些問題進行了改進。王秋雯等人[6]將LSTM模型與自適應K-means算法結合,并證明了該方法在客流預測問題上的有效性;Liu等人[7]將歷史數據分為最近、近期和長期分別輸入LSTM模型中 ,提高了預測準確性。預測模型超參數的選擇至關重要,影響著模型的好壞,一些研究人員引入優(yōu)化算法進行優(yōu)化。仇建華等人[8]使用遺傳算法(GA,Genetic Algorithm)優(yōu)化相關向量機的核函數和核參數;惠陽等人[9]使用粒子群算法優(yōu)化BP(Back Propagation)神經網絡。
本文引入能有效處理復雜非線性問題、優(yōu)化初始值和閾值的GA,對堆疊式LSTM(SLSTM,Stacked LSTM)模型的神經網絡結構進行優(yōu)化,構建了GA-SLSTM預測模型。采用該預測模型對車站進出站客流進行預測,以杭州市地鐵歷史運營數據為例展開試驗。對比GA-RNN模型和單層未優(yōu)化LSTM模型對普通站點和換乘站的客流預測結果,證明了本文方法能夠提高短時客流的預測精度。
LSTM模型在1997年由Hochichreiter和Schmidhuber提出[10],保持了RNN模型的鏈狀結構,改進了RNN模型不能處理長期依賴的情況,并在一定程度上解決了梯度消失的問題,適用于學習具有長期趨勢性和周期性的客流序列。LSTM模型單元內部結構增加了遺忘門ft、輸入門it和 輸出門ot3個門限控制,通過Sigmoid函數和點乘操作,限制序列信息的流入,并將上一時刻狀態(tài)輸入下一時刻進行計算,其數學表達式為
其中,xt為t時刻輸入數據;σ為Sigmoid函數;{Wi,Wf,Wo,WC}分別為輸入門、遺忘門、輸出門和細胞狀態(tài)的參數矩陣; {bi,bf,bo,bC}為輸入門、遺忘門、輸出門和細胞狀態(tài)的偏移量;為候選細胞狀態(tài),Ct為 細胞狀態(tài);ht為隱藏狀態(tài)。
SLSTM模型中有多個隱藏LSTM層,每層包含多個LSTM單元,可對長期狀態(tài)進行處理。Graves等人[11]證明了LSTM層級的堆疊比增加內部LSTM單元具有更好的預測性能,可通過加深網絡層級解決更加復雜的問題。SLSTM結構層級間的狀態(tài)轉移如圖1所示,上層的LSTM結構輸出一個隱藏狀態(tài)序列,輸入到下一層結構中,其中,和分別是第l層t時刻的細胞狀態(tài)和隱藏狀態(tài)。
圖1 SLSTM神經層狀態(tài)傳遞釋義
GA是生物遺傳和進化的優(yōu)化算法,具有較強的全局搜索能力,本文采用GA對SLSTM模型進行優(yōu)化。主要優(yōu)化的參數有:SLSTM層數、SLSTM隱藏層每層單元數量、全連接層層數、全連接層每層神經元個數。針對具有非線性和隨機性的城市軌道交通短時客流預測問題,建立了GA-SLSTM 預測模型,如圖2所示。
圖2 優(yōu)化GA-SLSTM模型流程示意
其中,yi為 真實值;為預測值。均等系數AEC∈[0,1],其值越接近1表示預測值越接近真實值,則該個體被選擇的概率也越大,下一代種群根據適應度選擇個體,并進行交叉、變異操作。本文設置最大種群迭代為20代,重復選擇、交叉和變異生成隨機種群,并搭建相應模型直至最大種群迭代,輸出預測結果AEC值最大的最優(yōu)個體和相應預測模型。
由于乘客日常出行具有規(guī)律性,站點進出站客流表現出明顯的周期性,同時,由于天氣、突發(fā)活動等隨機因素的影響,使其具有波動性。本文以杭州市1號線普通站點西興站和換乘站火車東站為例分析客流變化特征。
2019年1月5—25日西興站3個星期內的客流進站情況如圖3所示。從圖3中可知,單日內客流隨機波動大,1個星期內客流曲線存在相似性,工作日和休息日客流特性呈現出明顯差異,工作日表現出雙峰型客流特征,休息日表現出明顯的無峰型客流特征;星期與星期之間客流變化趨勢相似,具有明顯的周期性。
圖3 西興站進站客流的周期特性
采用層次聚類算法將1個星期7天客流量作為聚類特征,簇間樣本點間距離采用歐式距離計算,生成層次聚類樹形圖如圖4所示,虛線為類別分割線。從圖4中可看出,虛線將西興站1個星期進站客流劃分為星期一~星期五和休息日兩類,工作日和休息日客流特征分化明顯,可將1個星期內的進站客流量分為工作日和休息日2類。而屬于換乘站的火車東站工作日與休息日之間客流分布沒有明顯相似性,每一天客流趨勢都被單獨劃分,與其余幾天歐式距離較大。西興站2個星期之間每日客流的Spearman相關系數如表1所示。從表1中可知,工作日與上個星期工作日間相關系數大,相關系數最大值在上個星期相鄰幾日間略有浮動,和上個星期工作日的相關系數較??;休息日和上個星期工作日相關性小,星期六和星期日分別與上個星期六和上個星期日相關系數最大,周期性明顯。
圖4 7天內客流層次聚類
表1 西興站2個星期之間客流Spearman相關系數
車站1日內進出站客流體現出固定的客流趨勢,分為單峰型、雙峰型、全峰型和無峰型,早晚高峰不同時間段和平峰不同時間段間客流存在相似性。圖5是星期一不同時間段進站客流層次聚類的散點圖,選用刷卡閘機數/min、客流量/min、當前時間段客流量、前后時間段客流量等23維聚類特征映射到多維空間進行聚類。西興站遠離市中心,全天客流量較小,高峰時進站客流量在60 人/min左右,平峰時在5 人/min左右。火車東站屬于全峰型客流特征,高峰客流達到150 人/min。雖然不同站點日內客流分布不同,但圖5中高峰段和平峰段等不同時間段分類明顯。
圖5 1日內不同時間段進站客流量聚類
本文采用2019年1月5—25日杭州市地鐵AFC系統(tǒng)的歷史刷卡記錄作為實驗數據,共81個站點,每天約200萬條刷卡記錄。每條刷卡記錄的數據包含刷卡時間、用戶ID、站臺編號閘機設備編號、進出站狀態(tài)、線路號和支付類型。檢查重復值和空值后,整理成10 min為粒度的進出站客流數據樣本,整理后共291600個數據樣本。將2019年1月5—21日的數據作為訓練集,2019年1月22—24日的數據為驗證集,對2019年1月25日站點進出站客流進行10 min粒度預測。
提取乘客進出站時間、星期、每10 min間隔的進出站刷卡閘機的數量和天氣等14維基本特征,其中,天氣特征包括空氣質量、風向、風速、氣溫和狀態(tài)(晴、陰、雨)。將1日內每10 min和1個星期內每天客流量聚類結果進行定量轉換,提取每類的類別標簽、平均值和方差作為1日內和1個星期內時間特征。2個星期之間的時間特征直接提取上個星期Spearman相關系數最大的一天的客流數據。
圖6是對西興站的預測模型進行GA優(yōu)化的前11代種群的適應度曲線??梢钥闯觯?代之后適應度值趨于平穩(wěn),第11代種群的適應度基本高于0.9,逐漸收斂于全局最優(yōu)解。因此,設置最大種群迭代為20代,每代有10個個體。
圖6 遺傳算法優(yōu)化模型前11代適應度曲線
為更加直觀地衡量預測效果,引入平均絕對誤差(MAE ,Mean Absolute Error)、均方根誤差(RMSE ,Root Mean Square Error)和決定系數(R2)對預測結果進行評價,計算公式為
EMAE表示平均預測差值程度,ERMSE表示單位時間間隔平均預測誤差的人數,因此EMAE、ERMSE越小,預測精確度越高。ER2代表模型對數據的擬合程度,數值越大,預測值越接近真實值。
LSTM模型是RNN模型的繼承和發(fā)展,因此選取GA-RNN模型和單層未優(yōu)化LSTM模型與本文提出的GA-SLSTM預測模型進行對比,每種模型訓練3次取預測結果評價指標的平均值。單層LSTM模型的神經元個數在[32, 256]范圍內、間隔32的數組中依次選取,以EMAE最小值的預測值作為預測結果。
3.3.1 普通站點預測結果
不同模型對西興站的預測值與真實值曲線如圖7所示,預測評價指標如表2所示??梢?,本文提出的方法各項指標均優(yōu)于其他方法,預測值更接近真實值,ER2可達0.95。
圖7 西興站不同模型預測結果
3.3.2 換乘站點預測結果
不同模型對換乘站火車東站的預測值及真實值曲線如圖8所示,預測評價指標如表3所示。由于換乘站客流隨機波動大,周期特征不明顯,預測準確度低于普通站點。不同模型的預測值基本符合真實值,本文提出的方法各項指標均優(yōu)于其他方法。
表3 火車東站不同模型預測指標對比
圖8 火車東站不同模型預測結果
實驗結果表明,本文提出GA-SLSTM模型能夠提高城市軌道交通短時客流預測準確性。引入GA優(yōu)化神經網絡結構,相比手動調參等方式,使得模型更有說服性。優(yōu)化后的SLSTM預測模型能夠學習長序列信息,精確預測客流變化,無論是在普通站點還是在換乘站點,其預測效果都明顯優(yōu)于其他模型。此外,為更好地提高短時客流預測準確性,下一步需對換乘站的大客流數據進行趨勢、周期和噪聲分解分析及研究,進一步提高換乘站預測準確性。