戶佐安,鄧錦程,楊江浩,趙妍
(1.西南交通大學(xué),a.交通運輸與物流學(xué)院,b.綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室,c.綜合交通運輸智能化國家地方聯(lián)合工程實驗室,成都 611756;2.成都信息工程大學(xué),資源環(huán)境學(xué)院,成都 610225)
隨著城市結(jié)構(gòu)不斷升級,城市軌道交通已成為大中城市不可或缺的公共出行工具。截止2022年底,我國城市軌道交通累計投運車站總數(shù)達5875座,年客運量達193.02 億人次[1]。城市軌道交通車站不僅是其網(wǎng)絡(luò)的關(guān)鍵節(jié)點,也是城市結(jié)構(gòu)的重要構(gòu)成,站區(qū)出行活動與土地利用具有深度耦合關(guān)聯(lián),受出行活動和土地利用的演化與交互作用,各站點特性具有顯著性差異,對站點進行精細化分類,進而精準(zhǔn)推測不同類型站點的客流演化趨勢,為車站精細化運營管理及周邊設(shè)施建設(shè)提供參考。
城市軌道交通站點聚類方面,涉及特征提取和聚類方法等內(nèi)容。特征提取類型可以分為客流特征、土地利用特征和網(wǎng)絡(luò)特征等。客流特征中,一類是,從時序數(shù)據(jù)中計算指標(biāo)進行刻畫,例如,尹芹等[2]關(guān)注客流的形態(tài)特征和結(jié)構(gòu)特征,計算進出站峰值、偏度、不均勻系數(shù)及高峰小時系數(shù)等指標(biāo);李子浩等[3]關(guān)注客流的時間分布特征,提取不同時段客流比例、不同天數(shù)客流比例和換乘客流比例等特征。另一類是,直接對時序數(shù)據(jù)近似表示,進行降維處理,并保留局部特征,例如,ZHANG 等[4]引入符號集合近似(Symbolic Aggregate approximation,SAX)方法對時序數(shù)據(jù)有效降維,并建立基于小波變換和SAX 的多變量時間序列的兩階段聚類模型。土地利用特征通過計算站點輻射區(qū)興趣點(Point of Interest,POI)統(tǒng)計指標(biāo)表征用地強度、均勻性以及多樣性等。網(wǎng)絡(luò)特征通過計算網(wǎng)絡(luò)性質(zhì)指標(biāo)反映交通能力,例如,高勃等[5]以度和介數(shù)兩個物理拓撲指標(biāo)以及客運量為特征對站點和區(qū)間進行分類。一些研究組合了上述特征,例如,XU 等[6]基于客流和土地利用雙重視角提取特征,包括基于時序數(shù)據(jù)的統(tǒng)計特征、基于動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)的時序類型特征、基于POI 數(shù)據(jù)的統(tǒng)計特征和環(huán)路位置特征;ZHOU 等[7]基于網(wǎng)絡(luò)和客流雙重視角提取特征,其中,網(wǎng)絡(luò)方面,提取度和介數(shù)中心性等特征,客流方面,從進站客流、出站客流和基于PageRank 算法的通過流中提取特征。聚類方法可以分為基于劃分的聚類、基于層次的聚類和基于模型的聚類等。基于劃分的聚類常見方法有K-means及其衍生算法,例如,蔣陽升等[8]采用K-means++算法,通過肘部法則確定簇數(shù)?;趯哟蔚木垲惓R姺椒ㄓ蟹至研秃湍坌蛯哟尉垲?,例如,LI等[9]采用凝聚型層次聚類,并以赤池信息量準(zhǔn)則確定簇數(shù)?;谀P偷木垲惓R姺椒ㄓ懈咚够旌夏P秃蜕窠?jīng)網(wǎng)絡(luò)模型聚類,例如,李清嘉等[10]采用高斯混合模型聚類,并用期望最大算法求解,通過貝葉斯信息判別標(biāo)準(zhǔn)確定簇數(shù)。
客流預(yù)測方面,目前,多數(shù)研究試圖開發(fā)復(fù)雜模型充分挖掘站點間時空關(guān)系,以提升預(yù)測性能,這需要大量數(shù)據(jù)用于訓(xùn)練,以增強模型的表達能力。在有限的數(shù)據(jù)集下如何提升簡單模型的預(yù)測性能是值得探索的問題,對于常態(tài)客流而言,其具有較強的平穩(wěn)性,即在一定時間范圍內(nèi),出行模式相對穩(wěn)定,同一站點未來客流變化與歷史客流呈現(xiàn)相似的趨勢,通過聚類使用相關(guān)性強的數(shù)據(jù)將更好地訓(xùn)練預(yù)測器。已有研究表明,結(jié)合聚類方法對數(shù)據(jù)集進行預(yù)處理有效提升了預(yù)測性能,例如,ZHANG等[11]通過聚類算法將具有多變量特征的日期劃分為不同的簇,并為每個簇建立具有注意力的Seq2Seq 模型預(yù)測風(fēng)能,驗證了聚類與預(yù)測方法結(jié)合使用,提高了預(yù)測準(zhǔn)確性;SHAHZADEH 等[12]通過3種特征提取方式對用戶進行聚類,并為每個集群訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型預(yù)測用電負荷,相比于單獨的預(yù)測模型,聚類后均顯著提高了預(yù)測精度;ZHANG等[13]通過兩步聚類模型對軌道交通站點進行聚類,通過相似性和平穩(wěn)性測試推薦各簇預(yù)測粒度,并驗證了基于集群的LSTM 優(yōu)于獨立的LSTM 模型。聚類雖然降低了樣本量和訓(xùn)練模型泛化能力,但增強了數(shù)據(jù)集的相關(guān)性,對于平穩(wěn)性強的數(shù)據(jù)集而言,聚類后再預(yù)測的思路具有普遍有效性,在一定預(yù)測期內(nèi)有助于提升模型性能。
依托大數(shù)據(jù)和結(jié)合機器學(xué)習(xí)方法解決軌道交通站點分類及客流預(yù)測問題是研究趨勢所在,站點聚類方面,目前,研究多從客流層面挖掘特征,然而,站點間時空異質(zhì)性是多層面因素作用的結(jié)果,鮮有研究綜合多源數(shù)據(jù),提取多類特征實現(xiàn)站點精細化分類;客流預(yù)測方面,目前,研究多從捕獲時空相關(guān)性入手提升預(yù)測性能,關(guān)于站點聚類對于客流預(yù)測性能的效用探討較少。基于此,本文統(tǒng)籌考慮地鐵刷卡數(shù)據(jù)、POI 數(shù)據(jù)以及地鐵網(wǎng)絡(luò)數(shù)據(jù),客流層面,除考慮客流時間分布特征外,還考慮出行模式及日期類型差異等;土地利用層面,從POI 數(shù)據(jù)中挖掘站點輻射區(qū)用地強度和均衡性指標(biāo);網(wǎng)絡(luò)特征方面,從站點自身特征和影響能力考慮,提取度中心性、接近中心性和介數(shù)中心性指標(biāo),基于K-means++聚類算法對站點精細分類,并揭示不同類型站點多維度特性。在此基礎(chǔ)上,建立多元時序預(yù)測模型,設(shè)計簇內(nèi)聯(lián)合預(yù)測和整體聯(lián)合預(yù)測策略,探究站點聚類對客流預(yù)測性能的影響。
使用2022 年5 月23 日~29 日連續(xù)一周以近鄰節(jié)假日成都市地鐵刷卡數(shù)據(jù),并做如下預(yù)處理:
(1)刪除冗余和錯誤的刷卡記錄,剔除刷卡記錄不完整的站點,最終選擇262個軌道站點作為研究對象。
(2)以6:30-22:30 為研究時段,1 h 為時間間隔統(tǒng)計進出站客流,共16個時段,構(gòu)建各站點進出站時序序列。
(3)為避免站點間客流差異大和站點進出站客流不均衡問題,將進出站時間序列拼接后,采用Min-Max方法按站點歸一化處理,構(gòu)建各站點進出站差值時間序列。
考慮客流的時變特征,各站點客流在時間分布上存在差異,主要體現(xiàn)于不同時段和不同日期。為刻畫不同時段進出站客流分布的差異性,計算各站點各時段進站和出站客流占比,由于工作日與周末各自出行模式相對固定,其客流分布具有較強的一致性,為避免維度災(zāi)難,計算工作日與周末各時段客流占比的平均值。計算式為
各站點承擔(dān)的客運量存在差異,為刻畫各站點吸引和產(chǎn)生客流量的差異性,計算工作日和周末各站點進出站客流量占全部站點進出站客流量比例,計算式為
此外,站點差異不僅反映在客流時間分布和客運量上,還體現(xiàn)于出行活動模式,在客流層面,表現(xiàn)為進站與出站的時變差異。為刻畫各站點出行活動模式差異,基于進出站差值時間序列,計算各站點各時段的累計客流差,計算式為
通過對工作日的累計客流差平均值進行聚類,分析各類站點在工作日出行活動模式的差異,如圖1所示。類型1的站點全天進出站客流處于相對均衡狀態(tài);類型2 和類型3 的站點表現(xiàn)為早高峰出站集群增加,晚高峰進站集群增加,這類站點呈現(xiàn)出明顯的工作地通勤特征,其中,類型2 的站點在平峰期恢復(fù)穩(wěn)定,進出站客流處于均衡狀態(tài),類型3 的站點在平峰期略有波動;類型4 的站點早高峰進站集群增加,而晚高峰無明顯進出站集群現(xiàn)象,類型5 和類型6 的站點表現(xiàn)為不同程度的早高峰進站集群增加和晚高峰出站集群增加,呈現(xiàn)出明顯的居住地通勤特征。
圖1 6類站點工作日累計客流差平均值的時間分布Fig.1 Time distribution of average cumulative passenger flow difference on weekdays at 6 types of stations
上述特征以常規(guī)一周的客流數(shù)據(jù)提取,而一些站點的客流特征在節(jié)假日更加凸顯,例如,風(fēng)景區(qū)輻射站點引發(fā)客流聚集。為刻畫日期類型差異引起的客流特征差異,計算節(jié)假日各站點各時段客流占比、累計客流差和各站點客流總量占比等指標(biāo)。
為與客流數(shù)據(jù)在時間上保持一致性,使用2022年高德地圖的POI數(shù)據(jù)和OpenStreetMap的軌道交通站點線網(wǎng)數(shù)據(jù)。其中,影響出行活動的POI分為12類,包括:餐飲、公司企業(yè)、購物、交通設(shè)施、金融、酒店住宿、科教文化、旅游景點、商務(wù)住宅、休閑娛樂、醫(yī)療保健和運動健身。
為刻畫站點輻射區(qū)的土地利用水平,需建立站點緩沖區(qū)作為站點輻射區(qū),站點輻射范圍一般根據(jù)10 min 步行距離設(shè)置,本文將緩沖區(qū)半徑設(shè)為800 m[14]。計算站區(qū)各類型POI 數(shù)量與均值之比反映站區(qū)的用地強度,優(yōu)勢度指數(shù)反映站區(qū)的用地均衡性程度,計算式為
式中:Zj為站點j輻射區(qū)的土地優(yōu)勢度指數(shù);為站點j輻射區(qū)第c類POI占比;u為POI類型總數(shù)。
出行活動和土地利用具有深度耦合關(guān)聯(lián)。不同類型POI與不同時期客流空間分布如圖2所示。
圖2 不同類型POI與不同時期客流空間分布Fig.2 Spatial distribution of different types of POIs and passenger flow in different periods
圖2(a)和圖2(c)為商務(wù)住宅和公司企業(yè)兩類POI在各站區(qū)的分布情況??傮w來看,市中心站區(qū)兩類POI 均密集,此外,商務(wù)住宅在大部分軌道交通線路端部站區(qū)較為密集,公司企業(yè)密集區(qū)呈現(xiàn)由市中心向四周拓展的特點,且向南拓展最為顯著。圖2(b)和圖2(d)為工作日7:30-8:30 站點進出站客流的空間分布情況。對比圖2(a)和圖2(d)發(fā)現(xiàn),7:30-8:30 進站客流分布與商務(wù)住宅密集區(qū)空間分布類似,7:30-8:30出站客流分布與公司企業(yè)密集區(qū)空間分布類似。此外,服務(wù)類POI密集的站區(qū)更能吸引周末客流,圖2(e)和圖2(f)分別為站區(qū)餐飲、購物和休閑娛樂這3 類POI 總數(shù)的空間分布情況,以及站點周末出站平均小時客流的空間分布情況,兩者空間分布類似,說明餐飲、購物和休閑娛樂這3類POI密度高的站區(qū)對周末客流有一定的吸引作用,即使站點離市中心區(qū)較遠。
站區(qū)城市功能中的差異會在特定時段體現(xiàn)于其服務(wù)的客流層面上,但具有時空異質(zhì)性,即客流與土地利用性質(zhì)的關(guān)聯(lián)性在時空上存在差異,例如,工作日就業(yè)類用地密度高的區(qū)域出行活動強度大,非工作日服務(wù)類用地密度高的區(qū)域出行活動強度大,土地利用特征能夠更好反映站區(qū)的城市功能,因此,辨析站點類型時融合土地利用特征是有效的。
根據(jù)成都市地鐵網(wǎng)絡(luò)構(gòu)造拓撲圖,記為G=(V,E),其中,V代表站點的集合;E代表邊的集合,若站點j和站點n在任意一條地鐵線路上相鄰,則構(gòu)造邊ej,n,j,n∈V。
網(wǎng)絡(luò)特征能有效地刻畫站點的連通性和重要性。先考慮站點自身特征,提取度中心性(Degree Centrality,DC)和接近中心性(Closeness Centrality,CC)兩個指標(biāo)。DC 用來刻畫站點鄰居的數(shù)量,反映乘客在站點可選擇的出行方向。CC考慮站點與其他站點的接近度,即到其他站點的平均最短距離,反映站點在整個網(wǎng)絡(luò)中的連通性。計算式為
式中:Dj和Cj分別為站點j的度中心性和接近中心性;為站點j的度;dj,n為站點j和站點n的最短路徑距離;N為站點數(shù)。
此外,除了站點自身特征以外,站點對其他站點的影響能力也應(yīng)納入考慮。例如,多個OD(Origin-Destination)對的最短路徑經(jīng)過同一個站點,則這個站點承擔(dān)的運輸功能至關(guān)重要,若其失效會影響大量站點的客流狀態(tài)。提取介數(shù)中心性(Between Centrality,BC)指標(biāo),用來刻畫站點在客流傳播時的影響能力,即網(wǎng)絡(luò)中所有節(jié)點對最短路徑中經(jīng)過某個節(jié)點的條數(shù)。計算式為
式中:Bj為站點j的介數(shù)中心性;nmn為站點m和站點n的最短路徑數(shù);為站點m和站點n的最短路徑且經(jīng)過站點j的條數(shù)。
站點的網(wǎng)絡(luò)特征差異一定程度上反映在進出站以外的客流層面上,例如,度中心性和介數(shù)中心性大的站點會產(chǎn)生更多的換乘客流和形成高斷面客流,因此,辨析站點類型時,融入網(wǎng)絡(luò)特征能更好地刻畫其承擔(dān)的運輸功能。
綜上所述,從多源數(shù)據(jù)中提取了166個特征刻畫站點間多層面異質(zhì)性,其中,包括:工作日、周末和節(jié)假日不同日期類型下的150個客流特征,13個土地利用特征和3 個網(wǎng)絡(luò)特征。實現(xiàn)站點精細分類及分析的整體思路如圖3 所示,包括:特征提取與降維、聚類和結(jié)果分析,其中,結(jié)果分析包含客流分布分析、特征指標(biāo)分析和預(yù)測分析。
圖3 站點聚類及分析框架Fig.3 Framework for station clustering and analysis
由于提取的特征數(shù)和樣本量接近,為提高聚類效果,降低冗余特征的影響,采用主成分分析(Principal Component Analysis,PCA)實現(xiàn)特征降維。PCA通過對協(xié)方差矩陣進行特征分析,選擇主成分方向以保留大部分方差信息。PCA 的主要步驟如下:
(1)對樣本所有特征進行Z-score 標(biāo)準(zhǔn)化處理,消除各特征量綱的影響,假設(shè)標(biāo)準(zhǔn)化處理后的特征矩陣為X=[x1,x2,…,xp] ∈RN×p,其中,p為特征的個數(shù),xp為全部站點的第p個特征。
(3)對樣本的協(xié)方差矩陣進行特征分解。
(4) 選擇最大的q個特征值對應(yīng)的特征向量W=[w1,w2,…,wq] ∈Rp×q,其中,wq為第q個特征值對應(yīng)的特征向量,將特征矩陣X映射到W構(gòu)成的q維空間中,即新特征矩陣為X'=[Xw1,Xw2,…,Xwq] ∈RN×q。
K-means 算法以簇內(nèi)誤差平方和(the Sum of Squares due to Error,SSE)為目標(biāo),采用歐式距離作為相似性度量,將數(shù)據(jù)劃分為預(yù)定義的K簇。K-means++算法改進了初始聚類中心的選取策略,核心思想是選取距離盡可能遠的樣本作為初始聚類中心,以提升聚類的準(zhǔn)確性[15]。K-means++算法需預(yù)先確定簇數(shù),本文通過綜合考慮SSE、輪廓系數(shù)(Silhouette Coefficient,SC)和Davies-Bouldin 指數(shù)(Davies-Bouldin Index,DBI)等指標(biāo)確定,其中,SSE反映簇內(nèi)樣本與簇中心的緊密程度,SC和DBI反映簇內(nèi)密集程度和簇間分散程度,計算式為
式中:ct為第t簇中心;S1,S2和S3分別為SSE,SC和DBI 指標(biāo)值;Ot為第t簇樣本集合;O為全部樣本集合;nt為第t簇樣本的個數(shù);z為簇數(shù);為樣本o與第t簇中心ct距離的平方;ao為樣本o與簇內(nèi)其他樣本的平均距離;bo為樣本與最近簇樣本的平均距離;σt為第t簇樣本到簇中心的平均距離;為第t簇中心ct與第x簇中心cx的距離。
各評價指標(biāo)隨簇數(shù)的變化趨勢如圖4所示,當(dāng)簇數(shù)為10時,SSE下降趨勢變緩,且SC和DBI均處于較優(yōu)值,因此,將站點劃分為10簇最合理。根據(jù)聚類結(jié)果,繪制各簇站點不同日期類型客流比例時間分布曲線如圖5所示,每個時段以箱線圖反映簇內(nèi)不同站點的波動情況。各簇特征指標(biāo)熱力圖如圖6 所示,包括:各類型POI 數(shù)量與均值之比的占比、POI總數(shù)與均值之比、度中心性、介數(shù)中心性和接近中心性。
圖4 不同簇數(shù)對應(yīng)的評價指標(biāo)曲線Fig.4 Evaluation index curves corresponding to different cluster numbers
圖5 各簇不同日期類型進出站客流比例時間分布Fig.5 Time distribution of proportion of inbound and outbound passenger flow of different date types in each cluster
圖6 各簇特征指標(biāo)熱力圖Fig.6 Heat map of characteristic indicators of each cluster
簇1~簇4 站點在工作日呈現(xiàn)不同程度的進站早高峰和出站晚高峰的單峰潮汐特點,其中,簇4站點高峰特征最為顯著,進站早高峰小時中位數(shù)客流比例達到28.52%,出站晚高峰小時中位數(shù)客流比例達到24.62%,且早高峰進站持續(xù)時間長,為7:30-9:30,此類站點居住導(dǎo)向特征明顯;在周末和節(jié)假日,高峰特征均明顯減弱,其中,簇1站點在節(jié)假日呈現(xiàn)出站早高峰,但高峰時段向后推移,為9:30-10:30,簇2 和簇3 站點以彈性出行需求為主,較為均勻地分布于各時段,其客流分布差異主要體現(xiàn)在節(jié)假日出站,簇4站點在節(jié)假日和周末均出現(xiàn)出站晚高峰,且持續(xù)時間相較于工作日延長,為17:30-20:30。
結(jié)合站區(qū)土地利用和站點網(wǎng)絡(luò)性質(zhì)分析,總體而言,簇1~簇4站點土地開發(fā)強度和網(wǎng)絡(luò)性質(zhì)處于較低水平,其中,簇1站點購物消費用地占比高,對于周末和節(jié)假日客流具有一定吸引力,但此類站點接近中心性最低,說明此類站點基本位于線路端部車站,客流吸引范圍較??;簇2和簇3站點建成環(huán)境較為類似,各類用地均衡,滿足多樣化出行需求;簇4站點餐飲美食、科教文化、商務(wù)住宅和運動健身等用地占比高,因此,在居住返程客流和環(huán)境吸引客流共同作用下容易造成客流聚集。
簇5和簇6站點在工作日呈現(xiàn)不同程度的出站早高峰和進站晚高峰的單峰潮汐特點,其高峰特征均顯著,其中,簇5和簇6站點出站早高峰小時中位數(shù)客流比例達到33.42%和32.17%,且簇6 站點早高峰出站持續(xù)時間長,為7:30-9:30,此兩類站點工作導(dǎo)向特征明顯;在周末和節(jié)假日,高峰特征均明顯減弱,其中,簇5 站點在周末和節(jié)假日呈現(xiàn)與工作日相似的單峰潮汐特點,相較于周末,高峰特征在節(jié)假日被進一步削減,而非高峰時段客流比例進一步增加,簇6站點在周末和節(jié)假日出站呈現(xiàn)與工作日相反的高峰特征,說明此類站點能吸引除工作以外出行目的的客流。結(jié)合站區(qū)土地利用和站點網(wǎng)絡(luò)性質(zhì)分析,總體而言,簇5和簇6站點土地開發(fā)強度和網(wǎng)絡(luò)性質(zhì)處于較高水平,其中,簇5 站點建成環(huán)境綜合化水平高,公司企業(yè)、金融機構(gòu)和酒店住宿等用地占比高,且此類站點接近中心性處于較高水平,說明此類站點土地開發(fā)完善,城市中心功能顯著。簇6站點就業(yè)相關(guān)要素用地優(yōu)勢顯著,公司企業(yè)和金融機構(gòu)占比最高,且此類站點介數(shù)中心性處于最高水平,此類站點在工作日軌道交通服務(wù)使用率高,承載著大量通勤客流和換乘客流。
簇7和簇8站點在工作日呈現(xiàn)相對均勻的早晚高峰雙峰特點,進出站客流分布類似,其中,簇7站點早高峰進出站客流略高于晚高峰,簇8站點進出站早晚高峰客流均衡,進站早晚高峰小時中位數(shù)客流比例分別為15.53%和12.91%,出站早晚高峰小時中位數(shù)客流比例分別為14.09%和13.21%。此兩類站點既具有居住導(dǎo)向特征,又具有工作導(dǎo)向特征,在高峰時段產(chǎn)生和吸引相近的客流,形成通勤客流的錯位出行;在周末和節(jié)假日,高峰特征均明顯減弱,簇8 站點進站呈現(xiàn)穩(wěn)步遞增趨勢,并在夜間持續(xù)弱高峰,出站非高峰時段客流比例顯著增加,說明此類站點服務(wù)于頻繁的夜間出行和彈性出行。結(jié)合站區(qū)土地利用和站點網(wǎng)絡(luò)性質(zhì)分析,總體而言,簇7 和簇8 站點土地開發(fā)強度和網(wǎng)絡(luò)性質(zhì)處于中等水平,其中,簇7無顯著優(yōu)勢用地類型,公司企業(yè)和商務(wù)住宅用地均衡,簇8 餐飲美食、旅游景點和休閑娛樂等用地占比高,此兩類站點網(wǎng)絡(luò)連通性較好,站區(qū)用地多樣化程度高,生活及生產(chǎn)功能完備,滿足多樣化出行目的。
簇9 站點進站無明顯高峰特征,且工作日、周末和節(jié)假日進站客流分布相似,各時段客流比例波動較小,工作日出站出現(xiàn)早高峰特征,周末以及節(jié)假日出站整體呈現(xiàn)早高峰后逐步減緩趨勢。結(jié)合站區(qū)土地利用和站點網(wǎng)絡(luò)性質(zhì)分析,此類站點交通設(shè)施用地占比高,且度中心性、介數(shù)中心性處于較高水平,說明此類站點具有一定的區(qū)位優(yōu)勢,交通便捷性好,站區(qū)通過多種交通方式聚集和疏散客流,一般為大型交通樞紐。
簇10 僅1 個站點,即春熙路站,此站點客流強度大,客流分布和土地利用不同于其他簇。客流分布方面,在工作日呈現(xiàn)就業(yè)導(dǎo)向單峰客流特征,在周末和節(jié)假日,進站呈緩慢增長趨勢,在晚間到達峰值,但無明顯減緩趨勢,出站客流比例在8:30-18:30持續(xù)穩(wěn)定;此站點土地開發(fā)強度大,網(wǎng)絡(luò)性質(zhì)處于較高水平,商業(yè)業(yè)態(tài)成熟,購物消費、酒店住宿、旅游景點和休閑娛樂等用地占比高,在周末和節(jié)假日各時段均能吸引相對穩(wěn)定的客流,承擔(dān)著重要的交通功能。
由于站點特征具有多樣性,聚類將相似度高的站點合并為簇,有效降低數(shù)據(jù)噪聲和增強數(shù)據(jù)規(guī)律,基于此,設(shè)計簇內(nèi)聯(lián)合預(yù)測和整體聯(lián)合預(yù)測實驗,探究預(yù)測性能的變化,簇內(nèi)聯(lián)合預(yù)測將同一簇特征相似的站點分別訓(xùn)練模型,整體聯(lián)合預(yù)測將全部站點訓(xùn)練一個模型,即簇內(nèi)聯(lián)合預(yù)測值輸出與相似性站點的歷史時序相關(guān),而忽略特征差異大的站點;整體聯(lián)合預(yù)測值輸出與所有站點的歷史時序相關(guān)。選擇多層感知器(Multi-Layer Perception,MLP)、長短時記憶(Long Short Term Memory,LSTM)和時間卷積網(wǎng)絡(luò)[16](Temporal Convolutional Network,TCN)這3 種時序預(yù)測模型進行測試,其中,MLP 由兩個隱層和RELU 激活函數(shù)組成,隱層單元數(shù)均設(shè)置為32;LSTM由LSTM層和全連接層構(gòu)成,其中,LSTM 層的隱層單元數(shù)被設(shè)置為32;TCN由TCN層和全連接層構(gòu)成,其中,TCN層中卷積核大小設(shè)置為3,卷積核數(shù)量設(shè)置為16,卷積層數(shù)設(shè)置為3。
為保證數(shù)據(jù)量充足,使用262 個站點2022年5月16日~20日和23日~27日連續(xù)兩周工作日刷卡數(shù)據(jù),以5 min 為間隔統(tǒng)計各站點進站客流量作為預(yù)測數(shù)據(jù)集,前8 d 的數(shù)據(jù)作為訓(xùn)練集,后2 d 的數(shù)據(jù)作為測試集,通過當(dāng)前時刻前12 個時間步的客流值預(yù)測未來1 個時間步的客流值。預(yù)測數(shù)據(jù)集只包含工作日進站客流信息,因此,考慮工作日進站相關(guān)客流特征、土地利用特征和網(wǎng)絡(luò)結(jié)構(gòu)特征對站點重新聚類,劃分為5 簇。用均方誤差(Mean Squared Error,MSE)作為訓(xùn)練的損失函數(shù),并用平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squared Error,RMSE)評估模型的性能,計算式為
式中:E1,E2和E3分別為MSE,MAE 和RMSE 指標(biāo)值;yj為站點j客流的實際值;為站點j客流的預(yù)測值。
(1)各簇預(yù)測性能對比
各簇和總體的預(yù)測性能指標(biāo)總結(jié)如表1所示,總體而言,相較于整體聯(lián)合預(yù)測,簇內(nèi)聯(lián)合預(yù)測策略對3 種模型預(yù)測性能均有改進,MLP 改進率較高,RMSE降低了15.63%,MAE降低了8.40%,TCN改進率相對較小。3種模型對于各簇和總體的改進率如圖7 所示,其中,MLP 和LSTM 對各簇均有改進,TCN對簇3和簇5 有改進,且各模型對簇4和簇5的改進均顯著,保持了一定的一致性。說明通過對站點聚類,聯(lián)合相關(guān)性強的站點進行預(yù)測,這種間接捕獲空間相關(guān)性的方式對于提升預(yù)測性能是有益的。
表1 不同模型不同策略下各簇和總體預(yù)測性能Table 1 Each cluster and overall prediction performance under different models and different strategies
圖7 簇內(nèi)聯(lián)合策略對各簇預(yù)測性能的改進率Fig.7 Improvement rate of intra-cluster joint strategy on prediction performance of each cluster
(2)不同時段預(yù)測性能對比
對于出行者和管理者,高峰時段的客流預(yù)測更受關(guān)注,對出行規(guī)劃和運營調(diào)度具有重要意義。因此,需對比高峰時段(7:30-9:30,17:30-19:30)和平峰時段預(yù)測性能。高峰和平峰時段預(yù)測性能指標(biāo)總結(jié)如表2 所示,總體而言,通過簇內(nèi)聯(lián)合預(yù)測策略改善了3種模型高峰時段的預(yù)測性能。圖8對比了簇內(nèi)聯(lián)合預(yù)測對于高峰和平峰時段預(yù)測性能的改進率,相較于平峰時段,MLP 和LSTM 在高峰時段的改進率更佳,RMSE 分別降低了18.37%和12.24%,MAE分別降低了9.25%和7.92%。在工作日,大多數(shù)站點客流分布差異主要體現(xiàn)于早晚高峰,通過簇內(nèi)聯(lián)合預(yù)測捕獲更多的相似的高峰特征信息。
表2 不同模型不同策略下各時段預(yù)測性能Table 2 Forecast performance of each time period under different models and different strategies
圖8 簇內(nèi)聯(lián)合策略對不同時段預(yù)測性能改進率Fig.8 Improvement rate of intra-cluster joint strategy for forecasting performance in different time periods
(3)典型站點預(yù)測性能對比
選擇兩個典型站點分析預(yù)測性能。第1 個是天府三街站,是典型的就業(yè)導(dǎo)向型站點,如圖9(a)所示,此站點呈現(xiàn)晚高峰特點,由于站點的特征顯著,平峰無明顯波動,各模型擬合效果均較好。從17:30-19:30 來看,相較于整體聯(lián)合預(yù)測,簇內(nèi)聯(lián)合預(yù)測均獲得了更優(yōu)的效果;第2 個是火車北站,是典型的交通樞紐站點,如圖9(b)所示,此站點呈現(xiàn)早晚雙峰特征,但在平峰時段波動較大,客流分布規(guī)律不顯著,從11:30-13:30 來看,相較于整體聯(lián)合預(yù)測,簇內(nèi)聯(lián)合預(yù)測更能捕獲客流的波動。因此,簇內(nèi)聯(lián)合預(yù)測策略能夠有效提升不同特征站點的預(yù)測性能。
圖9 典型站點預(yù)測值與真實值對比Fig.9 Comparison of predicted value and actual value of typical stations
以成都市軌道交通站點為案例,本文得到的主要結(jié)論如下:
(1)充分挖掘多類特征能夠獲得更加精細化的聚類結(jié)果,考慮全部客流特征時劃分為10簇,僅考慮工作日進站客流特征時劃分為5簇,說明客流特征差異會體現(xiàn)于日期類型和出行活動模式。站區(qū)土地利用及站點網(wǎng)絡(luò)特征會在一定程度上反饋站點客流出行模式,居住型單峰潮汐特征站點土地利用和網(wǎng)絡(luò)性質(zhì)處于較低水平,工作型單峰潮汐特征站點土地利用和網(wǎng)絡(luò)性質(zhì)處于較高水平,職住錯位型雙峰特征站點土地利用和網(wǎng)絡(luò)性質(zhì)處于中等水平,結(jié)合土地利用及站點網(wǎng)絡(luò)特征分析能進一步提升聚類結(jié)果的可解釋性,未來可以進一步量化站區(qū)用地特征、站點網(wǎng)絡(luò)特征與客流特征之間的關(guān)系,并結(jié)合其他出行方式數(shù)據(jù)深入探討城市建成環(huán)境與多模式出行間的交互關(guān)系。
(2)與整體聯(lián)合預(yù)測相比,通過聚類將特征相似度高的站點集群后訓(xùn)練模型,有效提升了預(yù)測性能,整體上看,各模型均方根誤差平均降低9.04%,平均絕對誤差平均降低4.94%,MLP和LSTM模型對高峰時段預(yù)測性能的改善優(yōu)于平峰時段,且各模型能有效提升不同客流特征站點的預(yù)測性能,但各模型對于簇內(nèi)聯(lián)合和整體聯(lián)合訓(xùn)練策略的響應(yīng)具有差異,其中,MLP 模型改善顯著,TCN 模型無明顯改善,MLP 模型通過簇內(nèi)聯(lián)合預(yù)測與LSTM 和TCN模型通過整體聯(lián)合預(yù)測的性能接近,結(jié)合聚類使高偏差模型取得了更佳的性能,相比于開發(fā)一個復(fù)雜模型充分挖掘所有站點信息而言,簇內(nèi)聯(lián)合預(yù)測方式簡單且有效。