紀(jì)宇宣,蔣秋華,朱穎婷
(1.中國鐵道科學(xué)研究院研究生部,北京 100081;2.中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081;3.北京經(jīng)緯信息技術(shù)有限公司,北京 100081)
高鐵線路增加,鐵路網(wǎng)規(guī)模擴(kuò)大改變了原有路網(wǎng)的結(jié)構(gòu),拓展了大量新增客起訖點(diǎn)(Origin-Destination,OD)。了解不同OD之間旅客的真實(shí)需求量,挖掘熱門OD需求,分析城市之間客流出行的特征和規(guī)律一直是鐵路部門致力研究的重點(diǎn)內(nèi)容之一。
近年來,一些學(xué)者已經(jīng)開展了對(duì)不同交通方式下OD客流分析的研究。文獻(xiàn)[1]通過對(duì)滬寧沿線高鐵站點(diǎn)進(jìn)行客流行為特征分析,建立了上下凈客流量模型,并分析了站點(diǎn)與客流量對(duì)周邊的影響和站點(diǎn)及中心城區(qū)的關(guān)系;文獻(xiàn)[2]利用層次聚類法對(duì)高速鐵路OD客流進(jìn)行分類,構(gòu)建了OD服務(wù)水平的量化指標(biāo)體系;文獻(xiàn)[3]對(duì)空鐵聯(lián)運(yùn)OD進(jìn)行分類,根據(jù)客流數(shù)據(jù)建立了Logit模型,并給出空鐵聯(lián)運(yùn)的服務(wù)特性指標(biāo)取值方法;文獻(xiàn)[4]以單日OD概率矩陣為樣本,利用系統(tǒng)聚類和快速聚類法,將工作日劃分為五類,為行車計(jì)劃提供決策支持;文獻(xiàn)[5]針對(duì)鐵路OD客流受季節(jié)性因素影響的問題,提出了一種同時(shí)考慮周和月的季節(jié)指數(shù)計(jì)算方法,該方法為鐵路客運(yùn)量預(yù)測提供了重要的理論依據(jù)。目前主要是針對(duì)OD的客流影響因素進(jìn)行研究,而對(duì)于熱門OD客流特征的研究較少,并且目前的研究多數(shù)是以實(shí)際客運(yùn)量或訂單量進(jìn)行分析,在一定程度上存在著局限性,難以準(zhǔn)確反映旅客的實(shí)際需求。而余票查詢[6]服務(wù)是旅客使用互聯(lián)網(wǎng)售票系統(tǒng)完成車票預(yù)訂、改簽的前置業(yè)務(wù)環(huán)節(jié),由鐵路客運(yùn)官方服務(wù)平臺(tái)12306提供,可以反映乘客對(duì)線路的需求程度。
此外,針對(duì)余票查詢服務(wù)的特征較多,如何抽取更有效的特征集合是亟需解決的問題。使用聚類算法[7]在處理高維數(shù)據(jù)時(shí)魯棒性較差,需要使用降維技術(shù)進(jìn)行特征重構(gòu)。文獻(xiàn)[8]針對(duì)交通客流路線設(shè)計(jì)問題使用了PCA K-means算法對(duì)交通路口數(shù)據(jù)進(jìn)行聚類挖掘,然而使用PCA算法不能較好地保留樣本之間的距離信息。因此,為了盡可能真實(shí)地貼近旅客出行需求,該文準(zhǔn)確地分析不同類別OD客流的特征,提出一種基于隨機(jī)距離預(yù)測的OD客流特征分析方法。以挖掘熱門OD的特征為目標(biāo),運(yùn)用一種基于隨機(jī)距離預(yù)測(RDP)原理的神經(jīng)網(wǎng)絡(luò)對(duì)原始數(shù)據(jù)進(jìn)行特征重構(gòu),而后采用K-means算法對(duì)重構(gòu)特征進(jìn)行聚類,并對(duì)聚類結(jié)果進(jìn)行特征挖掘。
京滬高速鐵路是中國運(yùn)量最大、運(yùn)輸最繁忙的高鐵,線路縱貫京、津、滬三大直轄市和冀、魯、皖、蘇四省,具有良好的客流基礎(chǔ)。全線共設(shè)24個(gè)車站,其中始發(fā)站有五個(gè),分別為北京、天津、濟(jì)南、南京、上海,其余均為中間站。截至2019年9月,累計(jì)發(fā)送旅客10.85億人次。京滬高速鐵路具有需求量大、旅客多、車次多、途徑熱門城市多、路網(wǎng)地位重要等特點(diǎn),因此該文以京滬高速鐵路為例進(jìn)行熱門OD挖掘。
旅客需求在普通日期和假期往往差距很大,圖1給出了普通日期一周和五一假期前后兩天的余票查詢數(shù)據(jù),以天為統(tǒng)計(jì)單位。
圖1 每日查詢量分布圖
從圖1可以看出,假期和普通日期余票查詢量走勢不同,假期的每日查詢量波動(dòng)較大,普通日期相對(duì)平緩。普通日期查詢量在星期五和星期日達(dá)到高峰,點(diǎn)擊量在2×108左右,其他日期相對(duì)穩(wěn)定,其點(diǎn)擊量基本為高峰期的1/2左右。假期余票查詢量高峰集中在假期前一天、假期第一天和假期最后一天,并且節(jié)假日的余票查詢量顯著高于普通日期查詢量,從兩者高峰期的數(shù)據(jù)來看,假期是普通日期的4~5倍。由此可見,應(yīng)將旅客乘車日期按照假期和普通日期進(jìn)行分類,對(duì)兩類數(shù)據(jù)分別進(jìn)行聚類分析,并根據(jù)聚類分析結(jié)果分別表征不同乘車日期的OD客流特征。
1.3.1 原始聚類特征構(gòu)建
12306客票系統(tǒng)在給旅客帶來便利的同時(shí),也給第三方搶票軟件等互聯(lián)網(wǎng)黑商企業(yè)帶來商機(jī)。搶票軟件[9]通過不斷訪問余票查詢接口來刷票,導(dǎo)致部分用戶名或ip在短時(shí)間內(nèi)訪問不同的OD,生成了大量余票查詢?nèi)罩?。因此單?dú)通過查詢量分析OD客流特征并不準(zhǔn)確。需綜合考慮多種特征指標(biāo)進(jìn)行聚類分析從而劃分熱門OD。結(jié)合OD余票查詢?nèi)罩緮?shù)據(jù)和業(yè)務(wù)特點(diǎn),選擇點(diǎn)擊次數(shù)、用戶名數(shù)、空用戶名數(shù)和ip數(shù)四類作為特征因素,其含義如表1所示。
表1 余票查詢特征因素
一般情況下,鐵路車票預(yù)售期為15天,在預(yù)售期內(nèi),不同OD的特征因素分布不同,圖2給出了不同OD預(yù)售期查詢量占比分布圖。從圖中可以看出,不同OD在預(yù)售期內(nèi)的需求量差異較大,如OD1主要在預(yù)售期后3天時(shí)查詢量達(dá)到高峰,而OD2在預(yù)售期前3天的查詢量占比較高,可見,在分析OD客流特征時(shí),預(yù)售期特征因素不可忽略。
圖2 不同OD預(yù)售期查詢量分布圖
結(jié)合上述分析,將預(yù)售期每天點(diǎn)擊次數(shù)、用戶名數(shù)、空用戶名數(shù)和ip數(shù)作為聚類分析的原始特征。
1.3.2 特征預(yù)處理
在構(gòu)建原始特征之后,需先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理[10],原始特征中的點(diǎn)擊次數(shù)、用戶名數(shù)、空用戶名數(shù)和ip數(shù)等特征因素處于不的數(shù)量級(jí),如果直接使用原始特征進(jìn)行聚類分析,就會(huì)突出數(shù)量級(jí)大的特征在聚類分析中的作用,削弱數(shù)量級(jí)小的特征在聚類分析中的作用。因此,選取特征歸一化方法來對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,使不同量級(jí)的特征處于同一數(shù)值量級(jí),并加快算法的收斂速度,其公式如下所示:
(1)
1.3.3 聚類分析流程
歸一化預(yù)處理后,使用RDP算法將數(shù)據(jù)的高層特征提取出來輸入到K-means算法中進(jìn)行聚類,并對(duì)聚類結(jié)果進(jìn)行評(píng)估,最后根據(jù)OD數(shù)據(jù)的聚類結(jié)果進(jìn)行統(tǒng)計(jì)分析從而得到OD數(shù)據(jù)的客流特征。聚類分析流程如圖3所示。
圖3 聚類分析流程
1.3.4 RDP K-means算法
(1)隨機(jī)距離預(yù)測模型RDP。
隨機(jī)距離預(yù)測(RDP)模型于2020年由Wang等人[11]提出。該模型是通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)逐步逼近目標(biāo)映射的方式來學(xué)習(xí)數(shù)據(jù)的底層結(jié)構(gòu),從而獲取數(shù)據(jù)的重構(gòu)特征,是目前較新的一種數(shù)據(jù)特征重構(gòu)的方法。這種方法可以在保留原始數(shù)據(jù)之間距離信息的同時(shí),降低數(shù)據(jù)的維度,獲得數(shù)據(jù)的高層特征表示。
該文參考RDP模型,構(gòu)建高速鐵路余票查詢量的神經(jīng)網(wǎng)絡(luò)模型,其模型架構(gòu)如圖4所示。
圖4 RDP模型架構(gòu)
其中,RTargetNet為目標(biāo)映射網(wǎng)絡(luò),由一個(gè)簡單的全連接層表示;RNet為學(xué)習(xí)網(wǎng)絡(luò),由兩個(gè)全連接層和中間的Dropout層構(gòu)成。
OD客流特征數(shù)據(jù)訓(xùn)練過程如下:將兩個(gè)歸一化后的OD特征xi和xj輸入到目標(biāo)網(wǎng)絡(luò)RTargetNet得到高層的重構(gòu)特征η(xi)和η(xj),再將xi和xj輸入到學(xué)習(xí)網(wǎng)絡(luò)RNet,得到與目標(biāo)網(wǎng)絡(luò)輸出維度相同的兩個(gè)特征φ(xi;θ)和φ(xj;θ),分別計(jì)算兩類重構(gòu)特征的內(nèi)積為η(xi)·η(xj)和φ(xi;θ)·φ(xj;θ),將內(nèi)積差的平方作為RDP模型的訓(xùn)練損失函數(shù),如公式(2)所示,通過學(xué)習(xí)網(wǎng)絡(luò)逐漸逼近目標(biāo)網(wǎng)絡(luò),使學(xué)習(xí)網(wǎng)絡(luò)獲得目標(biāo)網(wǎng)絡(luò)的映射關(guān)系。
Lrdp=(η(xi)·η(xj)-φ(xi;θ)·φ(xj;θ))2(2)
此外,為了更好地保留OD數(shù)據(jù)的全局特征信息,引入自編碼器作為模型的輔助訓(xùn)練,自編碼器的損失函數(shù)計(jì)算公式為:
Laux=(X-φ'(φ(X;θ);θ'))2
(3)
模型最終訓(xùn)練的損失函數(shù)計(jì)算公式為:
η(xj))2+(X-φ'(φ(X;θ);θ'))2
(4)
通過不斷降低損失函數(shù)完成對(duì)RNet模型的訓(xùn)練,最終RNet的輸出結(jié)果即為RDP模型輸出的重構(gòu)特征。
(2)K-means算法。
將獲得的重構(gòu)特征輸入K-means算法進(jìn)行聚類分析,選擇合適的K值為各OD數(shù)據(jù)打上類別標(biāo)簽,即將各OD數(shù)據(jù)劃分為相應(yīng)的類別。
數(shù)據(jù)分析及算法軟件環(huán)境為Python3.7,深度學(xué)習(xí)框架應(yīng)用Pytorch1.8.1。數(shù)據(jù)源于鐵路12306客票系統(tǒng)大數(shù)據(jù)集群,運(yùn)用spark-sql腳本分別抽取京滬高速鐵路普通日期一周(星期一-星期日)和五一高峰期(2021.4.30-2021.5.6)的余票查詢?nèi)罩緮?shù)據(jù)作為OD客流特征分析的基礎(chǔ)數(shù)據(jù)。
以普通日期數(shù)據(jù)為例,原始數(shù)據(jù)集經(jīng)特征歸一化處理后輸入RDP模型。RDP模型的輸入與OD原始數(shù)據(jù)集的特征維度相同,輸出維度主要通過訓(xùn)練時(shí)的損失函數(shù)曲線和聚類結(jié)果進(jìn)行選取,不同數(shù)據(jù)輸出維度不同,普通日期選取輸出特征為7。優(yōu)化方式使用隨機(jī)梯度下降算法,學(xué)習(xí)率設(shè)置為0.01,Dropout值設(shè)置為0.03,用以防止模型過擬合。數(shù)據(jù)集的總訓(xùn)練輪次(total_epoch)設(shè)置為500,每個(gè)輪次將數(shù)據(jù)隨機(jī)分為15個(gè)批次(epoch_batch),每個(gè)批次訓(xùn)練200條OD數(shù)據(jù)(batch_size)。
將RDP模型訓(xùn)練后的特征輸入到K-means算法中,分別設(shè)置不同的K值,并計(jì)算出簇內(nèi)誤方差(SSE)值后繪制曲線(如圖5所示),依據(jù)手肘法[12]選取K=6作為簇個(gè)數(shù)。
圖5 SSE曲線
評(píng)判聚類算法的性能主要通過聚類算法的評(píng)價(jià)指標(biāo)進(jìn)行評(píng)判。聚類評(píng)價(jià)指標(biāo)[13]主要分為內(nèi)部評(píng)價(jià)指標(biāo)和外部評(píng)價(jià)指標(biāo),其中外部評(píng)價(jià)指標(biāo)需要使用已知真實(shí)標(biāo)簽數(shù)據(jù)和聚類結(jié)果進(jìn)行對(duì)比從而評(píng)判模型;而內(nèi)部評(píng)價(jià)指標(biāo)則通過數(shù)據(jù)集自身屬性特征進(jìn)行評(píng)判,如簇間平均相似度或簇內(nèi)平均相似度。該文數(shù)據(jù)未涉及真實(shí)標(biāo)簽,適用于內(nèi)部評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià)。論文選取Calinski-Harabasz(CH)指標(biāo)、輪廓系數(shù)(Silhouette Coefficient)和戴維森堡丁指數(shù)(Davies-Bouldin Index)這三種內(nèi)部評(píng)價(jià)指標(biāo)來評(píng)判聚類結(jié)果。
其中CH指標(biāo)通過計(jì)算類中各點(diǎn)與類中心的距離平方和來度量類內(nèi)的緊密度,通過計(jì)算各類中心與數(shù)據(jù)集中心點(diǎn)距離平方和來度量數(shù)據(jù)集的分離度,CH指標(biāo)越大則代表類自身越緊密,類間越分散,聚類效果越好。
輪廓系數(shù)分別通過計(jì)算樣本到簇內(nèi)其他樣本的平均距離和樣本到其他簇所有樣本的平均距離來評(píng)判簇內(nèi)相似度和簇間分離度。輪廓系數(shù)越大表示簇內(nèi)樣本緊湊、簇間距離大,聚類效果越好。
DB指標(biāo)用類內(nèi)樣本點(diǎn)到其聚類中心的距離估計(jì)類內(nèi)緊致性,用聚類中心之間的距離表示類間分離性。DB指標(biāo)越小,聚類效果越好。
依據(jù)上述三種指標(biāo),分別對(duì)RDP K-means、PCA K-means、K-means、層次聚類[14]、密度聚類DBSCAN[15]等幾種算法進(jìn)行評(píng)判,每個(gè)算法重復(fù)計(jì)算10次取評(píng)價(jià)指標(biāo)均值,其中模型輸出類簇均相同,PCA輸出維度與RDP輸出維度相同,評(píng)估結(jié)果見表2。
表2 各方法聚類結(jié)果對(duì)比
從表2可以看出,RDP K-means算法的CH指標(biāo)和輪廓系數(shù)均為最大且DB指標(biāo)最?。幌啾扔趯哟尉垲愃惴ê兔芏染垲愃惴?,K-means算法的評(píng)價(jià)指標(biāo)更好,證明K-means算法更適合余票查詢數(shù)據(jù);從降維后的聚類效果來看,RDP K-means>PCA K-means>K-means,表明數(shù)據(jù)經(jīng)過特征降維后,聚類的效果是最好的,所以在做熱門車次挖掘時(shí)采用該算法首先進(jìn)行OD類別劃分。
選用RDP K-means聚類方法分別對(duì)普通日期和假期的高速鐵路余票查詢量進(jìn)行聚類,并對(duì)聚類結(jié)果進(jìn)行相關(guān)特征分析,特征參數(shù)包括:OD城市中間站占比、客流距離、出行日期查詢量分布、預(yù)售期內(nèi)查詢量分布和總體查詢量等特征。以普通日期總體查詢量為例,分別統(tǒng)計(jì)各簇類中不同OD查詢量的出現(xiàn)頻次,其分布情況如圖6所示。
圖6 各簇類OD查詢流量分布圖
從圖6可以看出,各簇類查詢量差異顯著,其中第2類OD查詢量分布在20萬以內(nèi),該類別查詢量最少,為冷門OD類別;第3類OD查詢量分布在400萬~1 000萬,OD數(shù)量稀少,但查詢量最高,為熱門OD類別。
根據(jù)上述分析方式分別對(duì)普通日期和假期各個(gè)簇類OD的查詢量、中間站占比、乘車日期、預(yù)售期流量占比和客流距離等特征進(jìn)行分析,可得出京滬高速鐵路OD客流特征,見表3和表4。
表3 普通日期各類別特征
表4 假期各類別特征
其中表3和表4各參數(shù)含義如下:
a:該類別的出發(fā)城市是中間站的OD數(shù)量占比。
b:該類別的到達(dá)城市是中間站的OD數(shù)量占比。
c:普通日期代表該類別乘車日期是星期五和星期日的OD數(shù)量占比;假期代表該類別乘車日期是假期第一天和假期最后一天的OD數(shù)量占比。
d:該類別預(yù)售期15天內(nèi)查詢量高峰日。
e:該類別OD客流距離分布范圍,單位km。
根據(jù)上述獲得的OD客流特征可得出以下結(jié)論及相應(yīng)的建議:
(1)非節(jié)假日熱門OD乘車日期主要集中于星期五和星期日,這類客流特點(diǎn)主要體現(xiàn)了跨城上班、周末往返的旅客需求,該結(jié)果可為推薦12306計(jì)次定期票業(yè)務(wù)提供數(shù)據(jù)依據(jù)。
(2)熱門OD中始發(fā)站需求高,符合鐵路旅客的出行規(guī)律。然而部分中間站的需求也相對(duì)較大,在節(jié)假日車次供不應(yīng)求時(shí),此類分析結(jié)果可為票額預(yù)分、增加車次等業(yè)務(wù)提供參考。
(3)熱門OD預(yù)售期內(nèi)查詢量在乘車日期前1-2天占比較多。根據(jù)此結(jié)果,可以為節(jié)假日期間鐵路售票調(diào)系統(tǒng)調(diào)節(jié)負(fù)載能力提供參考依據(jù)。
(4)熱門OD的客流距離相對(duì)較短,可在節(jié)假日期間增加相應(yīng)OD的出行車次,從而進(jìn)一步滿足旅客的出行需求。
針對(duì)OD客流分析問題中歷史客運(yùn)量與客運(yùn)需求存在差距,聚類算法處理高維數(shù)據(jù)時(shí)魯棒性較差等問題,以余票查詢數(shù)據(jù)為基礎(chǔ),提出了一種基于隨機(jī)距離預(yù)測的高層特征抽取模型RDP與K-means結(jié)合的OD客流聚類分析方法。以挖掘京滬高速鐵路熱門OD特征為目標(biāo),先使用RDP算法提取數(shù)據(jù)的重構(gòu)特征,然后使用K-means算法對(duì)重構(gòu)特征進(jìn)行聚類,結(jié)果表明在三種聚類內(nèi)部評(píng)價(jià)指標(biāo)的評(píng)判下,RDP K-means算法均優(yōu)于傳統(tǒng)的PCA K-means、K-means、層次聚類、DBSCAN算法,證明了RDP K-means算法對(duì)OD客流特征分析問題的有效性,最后挖掘出京滬高速鐵路OD客流特征,為相應(yīng)的業(yè)務(wù)問題提供一定的參考依據(jù)。
基于余票查詢角度進(jìn)行的客流分析研究,較大程度體現(xiàn)了旅客真實(shí)購票需求,可為鐵路票額預(yù)分、優(yōu)化余票緩存、線路規(guī)劃等業(yè)務(wù)提供參考,有助于優(yōu)化鐵路客運(yùn)運(yùn)力結(jié)構(gòu)和資源配置。在后續(xù)的研究中,還可將余票查詢數(shù)據(jù)與實(shí)際訂單數(shù)據(jù)和候補(bǔ)訂單數(shù)據(jù)等結(jié)合起來,更加準(zhǔn)確地分析旅客需求,進(jìn)一步提高鐵路客運(yùn)市場競爭力。