許文星 章 玉
(重慶交通大學交通運輸學院1) 重慶 400074) (中鐵長江交通設計集團有限公司2) 重慶 401147)
客流量是軌道運營單位開展運力配置、列車運營計劃編制和站點工作人員配備的基礎,是對未來城市軌道交通開展可行性評估的重要依據(jù)[1].準確的客流量預測有助于軌道交通運營部門制定合理的列車行車計劃,保障市民的出行需求,尤其是在重大節(jié)假日和重要活動舉行期間,提前對站點客流進行預測,有助于確保軌道交通運行順暢.
國內(nèi)外學者對軌道交通客流預測方法研究較為深入,多種理論和算法如灰色理論、Kalman模型、小波理論、深度學習、時間序列、遺傳算法,以及組合模型等被用于軌道客流預測研究中.Zhang等[2]提出了一種基于支持向量回歸的混合預測模型,該模型利用隨機森林選擇信息量最大的特征子集,并利用混沌特性的遺傳算法來識別最優(yōu)預測模型參數(shù),以此來提高短時交通流預測的準確性.Liu等[3]將深度學習的建模技巧和交通領域的相關知識應用到地鐵乘客流量的預測中,提出了深度客流(DeepPF)預測模型,該模型預測精度較高且能適應交通運輸中的多種條件.Liu等[4]針對假期軌道客流特性,提出了最小二乘支持向量機(LSSVM)預測模型,并用改進的粒子群優(yōu)化(IPSO)算法來優(yōu)化參數(shù),用假期間的軌道客流數(shù)據(jù)對其有效性進行了驗證.Chen等[5]構建了基于經(jīng)驗模式分解(EMD)和長期短期記憶(LSTM)的EMD-LSTM混合預測模型,并用于軌道站點進站客流預測.秦利南等[6]在自回歸滑動平均算法(ARMA)算法和神經(jīng)網(wǎng)絡(RBF)神經(jīng)網(wǎng)絡算法的基礎上,提出了ARMA-RBF組合算法,此算法可對由時間序列構成客流數(shù)據(jù)集進行變點處理,再利用小波變化對變點數(shù)據(jù)集去噪,以此來提高站點進站客流預測的精度.楊靜等[7]針對軌道交通客流存在非線性分布的特征,提出了包含小波變化和變點模型的小波ARMA組合模型,結果表明其計算速度和結果都優(yōu)于單一同類型預測模型.李兆豐等[8]以長短期記憶循環(huán)神經(jīng)網(wǎng)絡(LSTM)神經(jīng)網(wǎng)絡為基礎,建立多特征融合組合的客流預測模型,在客流預測時考慮時間特征、空間特征和其他因子等因素,其預測精度優(yōu)于ARIMA模型和LSTM模型.李麗輝等[9]構建了基于隨機森林回歸算法的短期客流預測模擬,研究影響高速鐵路客流生成的因素及其重要程度.
目前國內(nèi)外學者在研究軌道交通短期客流量預測方法時,多將深度學習方法和計算機語言結合來建立恰當?shù)亩唐诳土髁款A測方法,其中線性理論、非線性理論和組合理論是研究軌道交通短期客流量預測的常見理論方法[10],此類方法利用大量歷史客流出行數(shù)據(jù)對提出的預測模型進行訓練,從而得出客流量生成規(guī)律,以此來預測軌道交通短期客流量,但未考慮站點自身屬性和其他客觀因素.隨機森林算法是Breiman在基于優(yōu)化決策樹和組合機器學習而提出的一種機器學習算法,這種算法主要用于解決分類問題和回歸問題.在分析影響軌道站點客流生成因素的基礎上,文中提出了一種基于隨機森林回歸算法的軌道站點短期客流預測模型,并用重慶軌道交通3號線客流AFC刷卡數(shù)據(jù)對該模型的預測結果進行驗證.
不同類型的軌道交通站點周圍用地性質(zhì)存在差異,用地性質(zhì)對其影響主要包括使用模式或建筑環(huán)境、交通可達性、區(qū)域經(jīng)濟發(fā)展現(xiàn)狀、周邊人口密度等因素,由此產(chǎn)生的客流在時間和空間上存在分布不均,站點客流潮汐現(xiàn)象較為明顯.根據(jù)重慶軌道交通3號線AFC刷卡數(shù)據(jù)統(tǒng)計分析,不同的軌道交通站點特征屬性不同,站點客流量也存在明顯的差異,大部分站點的進出站客流量呈現(xiàn)波動變化,客流量高峰和潮汐現(xiàn)象明顯,軌道站點周圍的用地性質(zhì)對客流出行影響較大.
選取四種類型的軌道交通站點在某1個月內(nèi)站客流量變化規(guī)律見圖1.因站點周圍用地性質(zhì)和站點功能不同,導致站點客流量變化差異性較大.對于臨近商業(yè)用地的軌道交通站點客流量變化較大,且非工作日的客流量大于工作日的客流量;臨近辦公和居住用地及為換乘站點的軌道交通站點客流量變化較小,但臨近居住用地的軌道交通站點工作日客流量略大于非工作日客流量;該月最后1 d臨近節(jié)假日,所有類型站點的客流量都明顯增加,因此節(jié)假日因素對進出站點的客流量影響較大.
圖1 軌道站點客流量
選取四種類型的軌道交通站點在1 d內(nèi)小時客流量變化見圖2.不同軌道交通站點工作日客流量早高峰主要集中在08:00—09:00,晚高峰主要集中在18:00—19:00,非工作日客流量早高峰主要集中在09:00—10:00,晚高峰主要集中在19:00—20:00,高峰時段期間的站點客流量較其他時段增加明顯,其他時段期間站點客流量變化平穩(wěn),但商業(yè)用地附近的站點受周邊商業(yè)影響,站點整體客流量較大,居住用地附近的站點客流量高峰現(xiàn)象最明顯,換乘站點的客流量變化最小.
圖2 軌道站點小時客流量
選取四種類型的軌道交通站點在某1周內(nèi)站點客流量潮汐現(xiàn)象變化見圖3.對于站點附近用地性質(zhì)為居住用地的軌道交通站點,在早高峰時期進站客流遠大于出站客流,因此其早高峰潮汐比較大,而換乘站點和商業(yè)用地附近的站點潮汐比變化最小,居住和辦公用地附近的站點早晚高峰的潮汐現(xiàn)象比較明顯,且四類站點的第五個工作日潮汐變化最明顯.
圖3 軌道站點潮汐性
根據(jù)統(tǒng)計學原理建立一個總體樣本容量為N的軌道站點進出站客流量集,通過有放回地隨機抽取n個樣本作為預測模型的訓練集P(X,Y).其中:X={x1,x2,…,xn}作為模型訓練過程中的樣本集,xi(i≤n)是樣本集中的第i個樣本;Y={y1,y2,…,yp}是影響客流預測的標準化值,每一個樣本均對應一組標準化值,yj∈{α1,α2, …,αz}是第j個樣本的標準化值;剩余未被抽中的數(shù)據(jù)則作為樣本測試集(X*,Y*),它們在統(tǒng)計學上被稱為袋外數(shù)據(jù)(OOB).
在建立單棵回歸決策樹時,由于每棵決策樹都有自己的特征值且相互獨立無約束,故在分枝節(jié)點處的所有特征值中隨機抽取特征值作為分枝的依據(jù).為提升預測速度和準確性,決策樹在分枝時是根據(jù)最小信息化原則,依據(jù)各個子節(jié)點的基尼不純度平均減小值來確定最優(yōu)分類特征,并進行下一個子節(jié)點的分枝過程,形成沒有約束的回歸樹模型.假設單棵回歸樹生長有M個節(jié)點,則單棵回歸樹的基尼指數(shù)為
(1)
式中:(Xi,Yj)為第i個樣本對應的第j個特征值(i=1,2,…,n;j=1,2,…,O);m為單棵樹的節(jié)點序號(m=1,2,…,M).
當?shù)趍個節(jié)點分枝成兩個節(jié)點后,兩個節(jié)點處的基尼指數(shù)將趨向最小化,并將該特征值對應的基尼指數(shù)作為m節(jié)點處的確切基尼指數(shù):
|Gini(m),v|=min{Gini(s)|s∈m}
(2)
式中:v為節(jié)點m的分枝層數(shù).
為提升運算效率,需要對決策樹的大小進行控制,控制的方式主要有2種:①停止分裂;②對決策樹進行剪枝.
需要在基于建立好的單棵決策樹基礎上進一步建立整個隨機森林決策樹.①將抽取的n個樣本集建立的單棵決策樹作為訓練集進行循環(huán)深度學習訓練,袋外數(shù)據(jù)作為最終建立的預測模型的預測集;②從含有n個樣本集的迭代集中選取t(t≤n)個需要進行分枝的樣本作為備選分枝樣本,再按照構建單棵樹的方法尋找每棵樹的最優(yōu)分枝點并進行分枝;③每棵決策樹在分枝時都是自上而下和逐層分枝的,隨機森林法可以根據(jù)分枝后節(jié)點的大小而控制決策樹的生長,可以人為的控制決策樹的分枝次數(shù),也可有限制地讓決策樹自由生長再尋求最優(yōu)單棵決策樹;④經(jīng)過多次循環(huán)學習訓練得到t棵最優(yōu)決策樹,再生成整體誤差最小的隨機森林模型B={h(Q,θt)|t=1,2,…,n}.其中:θt為第t棵回歸樹;Q為影響客流量生成的因素對應的特征值集合;h(Q,θt)為第t棵回歸樹的預測值.由于生成的隨機森林是多元非線性回歸分析模型,因此隨機森林預測值是t棵回歸決策樹預測值的平均值.
用構建的隨機森林模型進行預測后,需要建立恰當?shù)脑u價指標來驗證模型的準確性.在模型驗證時,可以用均方根誤差(RMSE)來驗證最終預測結果和預測集中原始數(shù)據(jù)的誤差大小,值越低則誤差越??;可用取值范圍為0~1的擬合優(yōu)度(R2)來驗證預測結果的擬合程度,值越高則表明最終預測結果和預測集擬合程度越好;平均相對誤差(MRE)則反映了最終預測結果和原始數(shù)據(jù)偏離的大小,計算值越低模型的預測準確性越高.三個評價指標RMSE、R2、MRE的表達公式為
(3)
(4)
(5)
選取重慶軌道3號線中的4類站點為研究對象,站點0附近的用地性質(zhì)為居住用地,站點1附近的用地性質(zhì)為辦公和教育用地,站點2為換乘站點并與交通樞紐站相連,站點3附近的用地性質(zhì)為商業(yè)用地.從軌道交通AFC刷卡數(shù)據(jù)中提取2017年4月1日—2018年12月27日四個站點每日的進出站點客流量作為實驗樣本數(shù)據(jù),用構建的隨機森林回歸算法模型對四個站點的進出站客流量進行預測,并用誤差評價指標RMSE、R2、MRE對預測結果的準確性進行驗證.
在利用構建的模型進行軌道站點短期客流預測時,需要根據(jù)模型適用條件和外界因素對模型設置參數(shù),見表1.為提升模型的準確性和運行速度,將前626組數(shù)據(jù)集作為訓練集,后10組數(shù)據(jù)集作為測試集,每組數(shù)據(jù)集中都包含影響客流生成的七個影響因素,并將影響因素進行標準化;隨機森林棵數(shù)設置為100,因每個站點的屬性不同,所以每個站點對應的隨機森林樹分枝層數(shù)不同,為提升預測準確度,隨機森林樹的最終分枝層數(shù)由預測誤差最小時對應的分枝層數(shù)確定.
表1 特征值標準化處理對照表
用建立好的隨機森林回歸算法模型對測試集數(shù)據(jù)進行測試,對四個軌道交通站點的日進出站點客流量進行預測,其預測結果和分析誤差見圖4和表2.
圖4 進出軌道站點客流量預測值
表2 誤差分析表
由圖4可知:進出站點客流量預測值和實際客流量值相差較小,但12月24—25日2 d的客流量預測值和客流量實際值相差略大,主要受交通管理部門對某些軌道交通站點進行管控的影響,此客流變化規(guī)律也可為應對站點發(fā)生大客流時提供參考;由表2可知:在進站客流量預測中,站點1的擬合程度略低,主要受學生出行的影響,在出站客流量預測中,站點3的擬合程度略低,主要受附近商業(yè)吸引的出行人數(shù)和交通管控的影響,因此在非工作日期間應對此類站點做好引導工作,避免出現(xiàn)客流長時間擁擠現(xiàn)象;進出站的平均相對誤差分別為3.91%和2.73%.從整個預測結果和誤差分析而言,該模型的預測準確性較高,可用于軌道站點短期客流量預測.
分析影響站點客流生成的因素,將隨機森林理論應用于軌道交通站點短期客流量預測方法研究中,構建出基于隨機森林回歸算法的軌道站點短期客流預測模型,并通過相關數(shù)據(jù)驗證.結果表明:模型用于預測軌道交通站點的短期進出站客流量準確性較高.后續(xù)研究將在確保該模型應用過程中準確性的基礎上確定隨機森林決策樹的數(shù)量展開.