孫 琦,高彥宇,許心越,陳麗丹
(1. 北京軌道交通路網(wǎng)管理有限公司,北京 100101;2. 北京交通大學(xué) 軌道交通控制與安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100044)
近年來(lái),北京城市軌道交通規(guī)模發(fā)展十分迅猛。截至2019年底,北京軌道交通路網(wǎng)運(yùn)營(yíng)里程達(dá)到699.3 km,運(yùn)營(yíng)線路23條,運(yùn)營(yíng)車站共計(jì)405座,最高年度日均客流達(dá)1 086萬(wàn)人次。軌道交通網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大和客流量的不斷增加,導(dǎo)致軌道交通擁擠、服務(wù)質(zhì)量下降,鐵路網(wǎng)客流結(jié)構(gòu)、波動(dòng)規(guī)律異常復(fù)雜[1],鐵路網(wǎng)形式變化比較快,列車粗獷式配置很容易導(dǎo)致大規(guī)模擁擠或者晚點(diǎn),如何精細(xì)化城市軌道交通客流預(yù)測(cè),快速響應(yīng)路網(wǎng)波動(dòng),實(shí)時(shí)配置運(yùn)力資源已成為運(yùn)營(yíng)管理者迫切需要解決的問(wèn)題。
目前,國(guó)內(nèi)很多主要城市的軌道交通運(yùn)營(yíng)企業(yè)建設(shè)相應(yīng)的客流預(yù)測(cè)系統(tǒng)。這些客流預(yù)測(cè)系統(tǒng)大多依據(jù)不同的客流預(yù)測(cè)方法或客流預(yù)測(cè)模型,王瑩等人[2]提出季節(jié)時(shí)間序列模型(SARIMAM,seasonal ARIMA model)對(duì)北京地鐵進(jìn)站客流量進(jìn)行預(yù)測(cè),Sun等人[3]提出了小波-SVM混合方法對(duì)北京地鐵系統(tǒng)的換乘客流進(jìn)行預(yù)測(cè)。Roos等人[4]提出了利用不完整歷史觀測(cè)數(shù)據(jù)預(yù)測(cè)短期客流的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)方法。Li等人[5]提出用徑向基函數(shù)(RBF,Radial Basis Function)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)單站客流。Jiao等人[6]提出基于貝葉斯組合和非參數(shù)回歸的改進(jìn)卡爾曼濾波模型來(lái)預(yù)測(cè)北京地鐵13號(hào)線高峰時(shí)段的客流。梁強(qiáng)升等人[7]提出一種融合循環(huán)門(mén)控單元和圖卷積神經(jīng)網(wǎng)絡(luò)的城市軌道交通客流預(yù)測(cè)模型(GCGRU,Graph Convolutional Networks and Gate Recurrent Unit)。
當(dāng)前大部分的客流預(yù)測(cè)系統(tǒng)采用的預(yù)測(cè)模型單一、提供的預(yù)測(cè)客流指標(biāo)不全,時(shí)空粒度較粗,多場(chǎng)景的適用性不足。因此,亟須開(kāi)發(fā)一套能夠適用于多場(chǎng)景的全指標(biāo)的精細(xì)化精準(zhǔn)客流預(yù)測(cè)系統(tǒng),實(shí)現(xiàn)支持基于OD的多種精細(xì)化客流預(yù)測(cè)模型和方法,為多場(chǎng)景下調(diào)度指揮和客運(yùn)管理提供高準(zhǔn)確度、精細(xì)化時(shí)空粒度的客流預(yù)測(cè)數(shù)據(jù)支持。
當(dāng)前,我國(guó)的城市軌道交通已經(jīng)進(jìn)入快速發(fā)展時(shí)期,超大型城市線網(wǎng)規(guī)模快速擴(kuò)大,導(dǎo)致城市軌道交通客流激增、客流增長(zhǎng)規(guī)律復(fù)雜和運(yùn)營(yíng)場(chǎng)景多樣化?,F(xiàn)場(chǎng)客流預(yù)測(cè)系統(tǒng)存在以下不足:
(1)既有預(yù)測(cè)系統(tǒng)存在系統(tǒng)功能不全,適用的場(chǎng)景具有局限性;
(2)既有預(yù)測(cè)系統(tǒng)存在預(yù)測(cè)粒度不夠精細(xì),不能完全刻畫(huà)客流演變過(guò)程,無(wú)法支撐日常運(yùn)營(yíng)的全部業(yè)務(wù)。
通過(guò)對(duì)地鐵運(yùn)營(yíng)公司現(xiàn)場(chǎng)業(yè)務(wù)進(jìn)行分析,發(fā)現(xiàn)不同場(chǎng)景下路網(wǎng)客流量和客流規(guī)律等不同,需要在不同場(chǎng)景下為各調(diào)度指揮和客運(yùn)管理部門(mén)持續(xù)提供精細(xì)化客流預(yù)測(cè)數(shù)據(jù)支持,總體需求主要包括以下3個(gè)方面。
(1)在常規(guī)場(chǎng)景下,通過(guò)用戶的設(shè)定或選擇機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)未來(lái)預(yù)測(cè)日期的客流預(yù)測(cè)功能,輸出客流進(jìn)出站、OD等精細(xì)化客流預(yù)測(cè)結(jié)果。
(2)在節(jié)假日?qǐng)鼍跋?,通過(guò)用戶的設(shè)定或選擇針對(duì)特殊日期單獨(dú)的預(yù)測(cè)方法,對(duì)路網(wǎng)結(jié)構(gòu)進(jìn)行調(diào)整、對(duì)模型參數(shù)進(jìn)行設(shè)定,實(shí)現(xiàn)在節(jié)假日?qǐng)鼍拔磥?lái)預(yù)測(cè)日期的客流預(yù)測(cè)功能,輸出客流進(jìn)出站、OD等精細(xì)化客流預(yù)測(cè)結(jié)果。
(3)在新線場(chǎng)景下,通過(guò)用戶的設(shè)定或選擇加權(quán)平均法模型,對(duì)路網(wǎng)結(jié)構(gòu)進(jìn)行調(diào)整、對(duì)模型參數(shù)進(jìn)行設(shè)定,實(shí)現(xiàn)新線開(kāi)通后未來(lái)預(yù)測(cè)日期的客流預(yù)測(cè)功能,輸出客流進(jìn)出站、OD等精細(xì)化客流預(yù)測(cè)結(jié)果。
該系統(tǒng)主要由數(shù)據(jù)準(zhǔn)備、客流預(yù)測(cè)及分析、數(shù)據(jù)提供3個(gè)部分組成,系統(tǒng)總體結(jié)構(gòu),如圖1所示。
圖1 系統(tǒng)總體結(jié)構(gòu)
(1)數(shù)據(jù)準(zhǔn)備部分主要是準(zhǔn)備數(shù)據(jù),以及對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行處理,包括參數(shù)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)。a. 業(yè)務(wù)數(shù)據(jù)有交易數(shù)據(jù)和行車數(shù)據(jù);b. 參數(shù)數(shù)據(jù)有模型參數(shù)、預(yù)測(cè)參數(shù)和路網(wǎng)參數(shù)。
(2)客流預(yù)測(cè)及分析部分主要包括預(yù)測(cè)場(chǎng)景、預(yù)測(cè)客流、預(yù)測(cè)客流評(píng)估展示、預(yù)測(cè)算法和客流規(guī)律庫(kù)。a. 預(yù)測(cè)場(chǎng)景包括常規(guī)場(chǎng)景預(yù)測(cè)、節(jié)假日?qǐng)鼍邦A(yù)測(cè)和新線場(chǎng)景預(yù)測(cè),對(duì)應(yīng)的預(yù)測(cè)模型是機(jī)器學(xué)習(xí)模型和加權(quán)平均法模型;b. 預(yù)測(cè)客流模塊支持根據(jù)用戶的設(shè)定或選擇不同的模型或算法實(shí)現(xiàn)未來(lái)預(yù)測(cè)日的客流預(yù)測(cè)功能,輸出客流進(jìn)出站、OD等精細(xì)化客流預(yù)測(cè)結(jié)果;c. 預(yù)測(cè)結(jié)果評(píng)估模塊實(shí)現(xiàn)預(yù)測(cè)數(shù)據(jù)和實(shí)際數(shù)據(jù)的對(duì)比分析,通過(guò)對(duì)比分析發(fā)現(xiàn)預(yù)測(cè)模型或算法的問(wèn)題,進(jìn)行優(yōu)化調(diào)整;d. 預(yù)測(cè)算法有機(jī)器學(xué)習(xí)模型、比例法模型和聚類算法等;e. 客流規(guī)律庫(kù)包括客流高平峰、客流波動(dòng)規(guī)律、OD標(biāo)準(zhǔn)時(shí)間及相似結(jié)果集。
(3)數(shù)據(jù)提供部分主要是預(yù)測(cè)數(shù)據(jù)對(duì)外支撐,包括預(yù)測(cè)進(jìn)站量、預(yù)測(cè)出站量、預(yù)測(cè)斷面滿載率、預(yù)測(cè)客流來(lái)源去向等。
本系統(tǒng)采用的技術(shù)構(gòu)架包括展示層、訪問(wèn)層、大數(shù)據(jù)存儲(chǔ)計(jì)算與微服務(wù)層和基礎(chǔ)數(shù)據(jù)交換層,如圖2所示。
圖2 系統(tǒng)技術(shù)架構(gòu)
(1)展示層采用Html5進(jìn)行用戶界面展示,采用LayUI和Finereport完成頁(yè)面UI交互控制,部分矢量圖像采用基于Html5的js和canvas技術(shù)實(shí)現(xiàn)。
(2)訪問(wèn)層采用Ngnix作為系統(tǒng)統(tǒng)一入口,并通過(guò)API Gateway對(duì)外提供服務(wù)訪問(wèn)接口。
(3)大數(shù)據(jù)存儲(chǔ)計(jì)算與微服務(wù)層基于Hadoop各類數(shù)據(jù)計(jì)算與存儲(chǔ)服務(wù),主要有HDFS分布式文件存儲(chǔ)、Spark內(nèi)存計(jì)算、Hive/SparkSQL離線分析、Flink流數(shù)據(jù)處理、HBase海量數(shù)據(jù)查詢、Kafka分布式消息、ElasticSearch分布式搜索引擎等,其中SparkMlib和TensorFlow提供的AI基礎(chǔ)框架為各種預(yù)測(cè)場(chǎng)景提供底層算法庫(kù)支持,Spring cloud的微服務(wù)器框架為應(yīng)用提供基礎(chǔ)運(yùn)行環(huán)境。RocketMQ為系統(tǒng)提供消息處理引擎,Redis和Oracle為系統(tǒng)的各類預(yù)測(cè)和清分?jǐn)?shù)據(jù)實(shí)時(shí)處理提供內(nèi)存計(jì)算環(huán)境。
(4)基礎(chǔ)數(shù)據(jù)交換層采用MQ隊(duì)列或FTP方式實(shí)現(xiàn)外部數(shù)據(jù)接入,并為外部系統(tǒng)提供客流預(yù)測(cè)數(shù)據(jù)服務(wù)。
接口主要是為了接收系統(tǒng)所需要的數(shù)據(jù)和提供系統(tǒng)生成的結(jié)果數(shù)據(jù)。接收數(shù)據(jù)主要包括歷史城市軌道交通自動(dòng)售檢票系統(tǒng)(AFC,Automatic Fare Collection)交易數(shù)據(jù)、每日AFC交易數(shù)據(jù)、運(yùn)行圖數(shù)據(jù)和其他參數(shù)類數(shù)據(jù)。接口方式主要通過(guò)FTP、MQ隊(duì)列、HTTP請(qǐng)求等方式實(shí)現(xiàn)。
源數(shù)據(jù)來(lái)自于各個(gè)業(yè)務(wù)系統(tǒng),指標(biāo)口徑對(duì)不上,會(huì)出現(xiàn)不一致、重復(fù)、不完整、存在錯(cuò)誤或異常(偏離期望值)的數(shù)據(jù),所以需要數(shù)據(jù)清洗,其主要步驟如下。
(1)缺失值清洗:主要包含確定缺失值范圍、去除不需要的字段、填充缺失內(nèi)容、重新取數(shù)。
(2)格式內(nèi)容清洗:a. 格式內(nèi)容問(wèn)題有時(shí)間、日期、數(shù)值和全半角等顯示格式不一致,需將其處理成一致的某種格式;b. 內(nèi)容中有不該存在的字符,最典型的就是頭、尾、中間的空格,也可能出現(xiàn)姓名中存在數(shù)字符號(hào)、身份證號(hào)中出現(xiàn)漢字等問(wèn)題,這種情況下,需要以半自動(dòng)校驗(yàn)、半人工方式來(lái)找出可能存在的問(wèn)題,并去除不需要的字符;c. 內(nèi)容與該字段應(yīng)有內(nèi)容不符,需要詳細(xì)識(shí)別問(wèn)題類型。
(3)邏輯錯(cuò)誤清洗:主要包含去重、去除不合理值和修正矛盾內(nèi)容,其中,不合理數(shù)據(jù)主要有日期、消費(fèi)情況、出行里程等信息。
(4)非需求數(shù)據(jù)清洗:a. 該步驟主要是把不需要的字段刪除,歷史AFC交易數(shù)據(jù)、每日AFC交易數(shù)據(jù)和運(yùn)行圖數(shù)據(jù)的主要對(duì)數(shù)據(jù)格式、重復(fù)數(shù)據(jù)、異常字段數(shù)據(jù)修正等信息進(jìn)行清洗;b. 清洗完成后將不同方式接入的數(shù)據(jù)進(jìn)行集成存儲(chǔ),保存至一個(gè)一致的數(shù)據(jù)存儲(chǔ)中;c. 對(duì)海量的數(shù)據(jù)的數(shù)據(jù)格式進(jìn)行設(shè)計(jì)定義,對(duì)原有格式進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換成適合客流預(yù)測(cè)系統(tǒng)的數(shù)據(jù)形式。
根據(jù)路網(wǎng)拓?fù)浣Y(jié)構(gòu),將路網(wǎng)劃分為不同區(qū)段,得到區(qū)段集合S=[trans1,sta1-sta2,trans2,sta3-sta4-sta5,···], 其中,transn表 示換乘站,staa-···-stab表示同一條線路上的連續(xù)非換乘站;利用AFC系統(tǒng)中的乘客刷卡記錄數(shù)據(jù),統(tǒng)計(jì)路網(wǎng)n個(gè)車站中第i個(gè)車站在日期j的第k個(gè)時(shí)段(高峰時(shí)段與平峰時(shí)段)去往路網(wǎng)中其他車站的OD;利用前面得到的各車站、各日期、各時(shí)段的OD,計(jì)算各車站、各時(shí)段的重點(diǎn)去向車站集合I。具體計(jì)算流程如下。
(1)計(jì)算各車站各時(shí)段的進(jìn)站客流總量中去向其他各車站的客流量的占比,作為各去向車站的貢獻(xiàn)度,計(jì)算公式如下:
其中,odij表示從c站到d站的OD;Rij表示d 站作為c站的去向車站的客流貢獻(xiàn)度。
(2)車站總體客流去向服從冪律分布,將不同去向貢獻(xiàn)度下的累積車站數(shù),取對(duì)數(shù)后進(jìn)行線性回歸,計(jì)算樣本中車站數(shù)的對(duì)數(shù)的下四分位數(shù),將所得數(shù)值帶入回歸函數(shù),計(jì)算得到去向貢獻(xiàn)度臨界值r。
(3)統(tǒng)計(jì)去向貢獻(xiàn)度大于步驟(2)中所得的去向貢獻(xiàn)度臨界值r的去向車站,作為車站的重點(diǎn)去向車站集合I。
(4)利用步驟(2)和步驟(3)得到的重點(diǎn)去向車站集合I及區(qū)段集合S,構(gòu)成車站去向集合D,每個(gè)車站在工作日(雙休日)的不同時(shí)段有不同的去向集合。將車站i在日期j的第k時(shí)段,以重點(diǎn)去向車站l為去向的客流量Niijkl,以及以除重點(diǎn)去向車站之外的區(qū)段m為去向的客流量Nsijkm,構(gòu)建得到聚類樣本為: [Niijk1,Niijk2,···,Niijkl,Nsijk1,Nsijk2,···,Nsijkm]。
(5)車站i在日期T的聚類樣本形式如下:
其中,Si(T)為車站i在日期T的聚類樣本;pij(k)為車站i在時(shí)段k內(nèi)去往重點(diǎn)車站j的客流量;rij(k)為車站i在時(shí)段k內(nèi)去往區(qū)段j的客流量(若區(qū)段j內(nèi)包含重點(diǎn)車站,則扣除去往重點(diǎn)車站客流量);u為重點(diǎn)車站個(gè)數(shù);v為區(qū)段個(gè)數(shù)。
(6)采用z-score標(biāo)準(zhǔn)化法將聚類樣本標(biāo)準(zhǔn)化為均值為0,方差為1的數(shù)據(jù)。
利用AP聚類算法對(duì)各車站各特征日各時(shí)段下所有日期的標(biāo)準(zhǔn)化聚類樣本進(jìn)行聚類,得到各車站各日期各時(shí)段的聚類結(jié)果。
為了實(shí)現(xiàn)自動(dòng)化預(yù)測(cè),模型需要實(shí)現(xiàn)根據(jù)預(yù)測(cè)日期特征自動(dòng)選擇采用相似規(guī)律的歷史客流作為預(yù)測(cè)依據(jù)。因此,采用聚類形成的類別樣本數(shù)據(jù)構(gòu)建決策樹(shù)模型,并將構(gòu)建后的決策樹(shù)模型用于輸出預(yù)測(cè)日期所屬的歷史規(guī)律類別。決策樹(shù)采用ID3算法,算法輸入形式為歷史數(shù)據(jù)每日各時(shí)段的特征及該時(shí)段車站的進(jìn)站客流的聚類類別。
算法核心是在決策樹(shù)各個(gè)節(jié)點(diǎn)上應(yīng)用信息增益準(zhǔn)則選擇特征,遞歸構(gòu)建預(yù)測(cè)各車站各時(shí)段進(jìn)站客流的決策樹(shù)。2018年1、2季度蘋(píng)果園站的進(jìn)站客流 聚類結(jié)果構(gòu)建的決策樹(shù),如圖3所示。
圖3 2018年1、2季度蘋(píng)果園站的進(jìn)站客流決策樹(shù)
將預(yù)測(cè)日的日期特征輸入構(gòu)建好的決策樹(shù),得到預(yù)測(cè)日所屬的日期類別。假設(shè)要預(yù)測(cè)蘋(píng)果園站2018-06-29高峰時(shí)段(PEAK1)的進(jìn)站客流,該預(yù)測(cè)日的輸入特征為[第2季度,工作日,星期五],決策樹(shù)結(jié)構(gòu)的第1個(gè)特征為季度,將2018-06-29劃分到第2季度的分支;決策樹(shù)結(jié)構(gòu)的第2個(gè)特征為星期幾,繼續(xù)將2018-06-29劃分到星期五的分支;決策樹(shù)的最后一個(gè)特征為日期類型,按照2018-06-29的日期類型(為工作日)最終確定所屬類別為類別6。
為了提高決策樹(shù)的泛化能力,需要對(duì)樹(shù)進(jìn)行剪枝,把過(guò)于細(xì)分的葉節(jié)點(diǎn)去掉而回退到其父節(jié)點(diǎn)或更高的節(jié)點(diǎn),使其父節(jié)點(diǎn)或更高的節(jié)點(diǎn)變?yōu)槿~節(jié)點(diǎn)。將數(shù)據(jù)集劃分成訓(xùn)練集和驗(yàn)證集2個(gè)部分,用訓(xùn)練集決定樹(shù)生成過(guò)程中每個(gè)節(jié)點(diǎn)劃分所選擇的屬性,驗(yàn)證集在剪枝中用于判斷該節(jié)點(diǎn)是否需要進(jìn)行剪枝。
4.1.1 預(yù)測(cè)方案
在常規(guī)場(chǎng)景下,基于歷史客流數(shù)據(jù)和路網(wǎng)拓?fù)鋽?shù)據(jù),運(yùn)用聚類方法[8]和機(jī)器學(xué)習(xí)方法構(gòu)建機(jī)器學(xué)習(xí)預(yù)測(cè)模型,對(duì)目標(biāo)日期分時(shí)段OD進(jìn)行預(yù)測(cè)。機(jī)器學(xué)習(xí)預(yù)測(cè)模型是一個(gè)全自動(dòng)、自學(xué)習(xí)式的預(yù)測(cè)模型,是通過(guò)對(duì)歷史客流分布和路網(wǎng)拓?fù)鋽?shù)據(jù)進(jìn)行聚類,總結(jié)出不同特征日下的客流分布模式類別,使用預(yù)測(cè)日的日期特征尋找歷史日期中與之同類別的日期集合,利用日期特征相似程度對(duì)同類別日期進(jìn)行加權(quán),并利用客流月份變化趨勢(shì)修正系數(shù)[9]對(duì)同類別日期進(jìn)行修正,從而擬合得到預(yù)測(cè)日分時(shí)OD。常規(guī)場(chǎng)景客流預(yù)測(cè)流程,如圖4所示。
圖4 常規(guī)場(chǎng)景客流預(yù)測(cè)流程
4.1.2 效果分析
圖5和圖6分別是在常規(guī)場(chǎng)景下路網(wǎng)分時(shí)進(jìn)、出站客流預(yù)測(cè)情況對(duì)比,可以看出預(yù)測(cè)趨勢(shì)和實(shí)際情況相符,進(jìn)站量平均相對(duì)誤差為0,出站量平均相對(duì)誤差為5.13%,這說(shuō)明該算法取得了良好的預(yù)測(cè)效果。
圖5 常規(guī)場(chǎng)景下進(jìn)站量對(duì)比折線
圖6 常規(guī)場(chǎng)景下出站量對(duì)比折線
4.2.1 預(yù)測(cè)方案
由于每年節(jié)假日天數(shù)少,客流結(jié)構(gòu)特殊,且每年路網(wǎng)結(jié)構(gòu)都會(huì)發(fā)生變化,難以積累足夠多的樣本數(shù)據(jù)進(jìn)行聚類預(yù)測(cè)。所以需要設(shè)計(jì)單獨(dú)的預(yù)測(cè)方法針對(duì)特殊日期進(jìn)行預(yù)測(cè),具體預(yù)測(cè)流程,如圖7所示。
圖7 節(jié)假日?qǐng)鼍翱土黝A(yù)測(cè)流程
(1)使用上一年度對(duì)應(yīng)節(jié)假日期之前的歷史分時(shí)OD客流進(jìn)行聚類,獲得聚類結(jié)果。然后,利用上一年度節(jié)假日期分時(shí)OD,通過(guò)與聚類中心距離判斷節(jié)假日所屬類別,獲得相同類別日期集合。
(2)使用同類別日期客流加權(quán)擬合預(yù)測(cè)上一年度節(jié)假日期分時(shí)OD,并與實(shí)際值進(jìn)行對(duì)比,獲得各車站的修正系數(shù),以及路網(wǎng)修正系數(shù)。
(3)將上一年度節(jié)假日相對(duì)位置的同類別日期客流數(shù)據(jù)映射到本年度中,獲得本年度節(jié)假日日期同類別日期組合。
(4)利用本年度節(jié)假日期同類別的日期客流,加權(quán)擬合獲得各車站初始預(yù)測(cè)客流,利用前面得到的修正系數(shù),對(duì)各車站的初始預(yù)測(cè)客流進(jìn)行修正。對(duì)于新線開(kāi)通的車站,使用路網(wǎng)修正系數(shù)進(jìn)行修正,得到最終的預(yù)測(cè)客流。
4.2.2 效果分析
圖8和圖9是分別在節(jié)假日?qǐng)鼍跋侣肪W(wǎng)分時(shí)進(jìn)、出站客流預(yù)測(cè)情況對(duì)比,可以看出預(yù)測(cè)趨勢(shì)和實(shí)際情況相符,進(jìn)站量平均相對(duì)誤差為0,出站量平均相對(duì)誤差為2.56%,這說(shuō)明該算法取得了良好的預(yù)測(cè)效果。
圖8 節(jié)假日?qǐng)鼍跋逻M(jìn)站量對(duì)比折線
圖9 節(jié)假日?qǐng)鼍跋鲁稣玖繉?duì)比折線
4.3.1 預(yù)測(cè)方案
新線開(kāi)通后,由于路網(wǎng)結(jié)構(gòu)發(fā)生變化,第1個(gè)特征日沒(méi)有對(duì)應(yīng)的歷史規(guī)律可以用來(lái)預(yù)測(cè),同時(shí)在開(kāi)通初期相同路網(wǎng)拓?fù)湎碌臍v史客流數(shù)據(jù)樣本規(guī)模小,決策樹(shù)不能對(duì)所有車站都輸出預(yù)測(cè)結(jié)果,因此對(duì)于新線客流的預(yù)測(cè)需要制定專門(mén)的預(yù)測(cè)方法。
(1)第1階段
第1階段為新路網(wǎng)拓?fù)溥\(yùn)營(yíng)第1個(gè)星期,對(duì)于第1個(gè)特征日,既有站使用上一年度數(shù)據(jù)進(jìn)行聚類預(yù)測(cè),輔以人工修正。新開(kāi)通車站使用專家預(yù)測(cè)值。對(duì)后續(xù)日期,使用既有相同特征日數(shù)據(jù)進(jìn)行擬合。第1階段預(yù)測(cè)流程,如圖10所示。
圖10 第1階段預(yù)測(cè)流程
(2)第2階段第2階段為新路網(wǎng)拓?fù)溥\(yùn)營(yíng)第2~4個(gè)星期,由 于樣本量規(guī)模限制,決策樹(shù)不能完整預(yù)測(cè)所有車站,對(duì)于決策樹(shù)能夠預(yù)測(cè)的車站及時(shí)段,采用常規(guī)預(yù)測(cè)方法進(jìn)行預(yù)測(cè);對(duì)于不能輸出聚類類別的車站,使用設(shè)定規(guī)則篩選相似日期類別。第2階段預(yù)測(cè)流程,如圖11所示。
圖11 第2階段預(yù)測(cè)流程
(3)第3階段
第3階段為新路網(wǎng)拓?fù)溥\(yùn)營(yíng)第5個(gè)星期及以后,正常使用決策樹(shù)進(jìn)行類別預(yù)測(cè)并擬合預(yù)測(cè)客流,具體預(yù)測(cè)流程,如圖12所示。
圖12 第3階段預(yù)測(cè)流程
4.3.2 效果分析
圖13和圖14分別是新線接入場(chǎng)景下路網(wǎng)分時(shí)進(jìn)、出站客流預(yù)測(cè)情況對(duì)比,可以看出預(yù)測(cè)趨勢(shì)和實(shí)際情況相符,進(jìn)站量平均相對(duì)誤差為0,出站量平均相對(duì)誤差為0,這說(shuō)明該算法取得了良好的預(yù)測(cè)效果。
圖13 新線場(chǎng)景下進(jìn)站量對(duì)比折線
圖14 新線場(chǎng)景下出站量對(duì)比折線
本文開(kāi)發(fā)的路網(wǎng)精細(xì)化客流預(yù)測(cè)系統(tǒng)已經(jīng)在北京軌道交通指揮中心投入實(shí)際使用,為生產(chǎn)服務(wù)平臺(tái)(TCC系統(tǒng))等多個(gè)業(yè)務(wù)系統(tǒng)持續(xù)提供精細(xì)化路網(wǎng)客流預(yù)測(cè)數(shù)據(jù)支撐,取得了良好的效果,為北京市軌道交通有預(yù)見(jiàn)性地進(jìn)行網(wǎng)絡(luò)化調(diào)度指揮和客運(yùn)管理發(fā)揮了重要作用。
未來(lái)需要對(duì)北京軌道交通路網(wǎng)客流規(guī)律,尤其是特殊場(chǎng)景的客流規(guī)律進(jìn)行更為深入的分析,不斷增加和優(yōu)化客流預(yù)測(cè)模型和算法,提高節(jié)假日、新線接入、大型活動(dòng)等多種特殊場(chǎng)景的客流預(yù)測(cè)準(zhǔn)確度。