陳鎮(zhèn)元
( 廣東工業(yè)大學,廣東 廣州510006)
隨著國內外交通運輸?shù)娘w速發(fā)展,關于城市軌道交通客流預測的研究逐漸引起了學者的關注。地鐵作為現(xiàn)代大城市一項極其重要的交通工具,與其他交通運輸方式相比,具有效率高、運輸量大、污染小、穩(wěn)定安全以及方便快捷等眾多特點,受到人們的青睞,是緩解城市運輸壓力的有效方式。由于地鐵受到越來越廣泛的應用,人們對其的需求亦日益增加,因此,如何準確地做好地鐵客流量預測工作,不僅對地鐵運營服務的提高,而且對人們的出行方式選擇具有重要意義??土黝A測是地鐵系統(tǒng)的重要組成部分,特別是城市地鐵的近期客流量準確預測,有著十分重要的作用。第一,客流預測可以幫助地鐵管理進行更合理的配置,包括地鐵工作人員的調配,減少乘客擁擠,布置疏導客流的準備措施,對發(fā)生事故時的應急決策等,以此提高地鐵系統(tǒng)的服務質量。第二,客流預測可以給人們作為參考,選擇更為高效和安全的出行方式。第三,客流預測對后續(xù)軌道交通的建設規(guī)劃和工程投資有重要的戰(zhàn)略價值。第四,客流預測對地鐵周邊的商業(yè)布局具有經濟意義。
現(xiàn)階段關于短時客流預測的方法主要分為以下幾類:基于統(tǒng)計學理論為基礎的預測模型,包括時間序列模型和卡爾曼濾波模型等[1];基于神經網絡與傳統(tǒng)機器學習為基礎的預測模型[2];基于非線性理論為基礎的預測模型[3];基于各種理論的組合模型以及基于深度神經網絡和深度學習的預測模型等。這些方法都是根據客流特征進行分析,利用交通理論或者機器學習和深度學習的算法建立預測模型。然而,對于地鐵客流預測是非常具有挑戰(zhàn)性的,因為客流量會受到復雜的空間依賴和時間依賴的影響,是一個非常棘手但又必須要解決的問題。隨著近幾年圖論的發(fā)展以及圖卷積神經網絡的提出,對地鐵客流預測這一問題有了新的解決思路。
近年來,圖神經網絡(graph neural network,GNN)也受到了越來越多學者的注意。圖神經網絡的概念首先由Gori 等人[4](2005)提出,并由Scarselli 等人[5](2008)進一步闡明。圖是一種數(shù)據結構,它為一組對象(節(jié)點)及其關系(邊)建模。圖神經網絡是一種連接模型,它通過圖的節(jié)點之間的消息傳遞來捕捉圖的依賴關系。與標準神經網絡不同的是,圖神經網絡保留了一種狀態(tài),可以表示來自其鄰域的具有任意深度的信息。圖神經網絡GNN 是在圖域上運行的基于深度學習的方法。GNN 在社交網絡、知識圖譜、推薦系統(tǒng)、道路交通、生物分子結構等各個領域有著很大的應用前景。GNN 在對圖節(jié)點之間依賴關系進行建模的強大功能,使得與圖分析相關的研究領域取得了突破。當信息在圖的節(jié)點之間傳播時GNN 會捕捉到圖的獨立性。GNN 以其令人信服的性能和較高的可解釋性,近年來已成為一種廣泛應用的圖論分析方法[6]。傳統(tǒng)機器學習所用到的數(shù)據是歐式空間的數(shù)據,CNN 卷積神經網絡等在結構規(guī)則的歐式空間等數(shù)據上效果顯著,但是在非歐氏空間比如圖結構數(shù)據,就難以選取固定的卷積核來適應整個圖的不規(guī)則性,如鄰居節(jié)點數(shù)量的不確定和節(jié)點順序的不確定。由于傳播過程對于圖網絡的訓練是至關重要的,目前主流的方法是將CNN 卷積應用到圖結構上,也就是圖卷積網絡(graph convolutional network,GCN)。圖卷積網絡的方法可以分為頻譜方法和空間方法兩大類,本文介紹的是頻譜方法。
W 就是參數(shù)θ 的參數(shù)矩陣。
我們可以將整個城市的地鐵網絡用圖G=(V,E,A)來表示,設定每一個地鐵站為一個頂點V,地鐵線路為邊E,定義一個鄰接矩陣A∈Rn×n 來表示各個站點間的聯(lián)通關系。因此整個地鐵網絡可以用一個圖G 來描述,其中每個頂點V 都有一個由客流歷史值組成的特征向量。利用GCN 就可以捕捉地鐵網絡之間的不規(guī)則的時空依賴關系。針對每個頂點,使用一階鄰接進行卷積運算,可以得到該頂點與其一階相鄰節(jié)點之間的空間依賴關系。通過一層GCN 網絡以后,該節(jié)點的信息會被其鄰近節(jié)點的信息更新。因此,經過GCN 網絡以后,可以獲取到客流數(shù)據的時間特性和空間特性。在地鐵網絡中,高階鄰接可以通過多個低階鄰接累積,由于一個卷積層只能捕獲到相鄰站點之間的關系,為了獲得遠處站點的節(jié)點信息,需要疊加多個GCN 卷積層,以提取更遠處節(jié)點的節(jié)點信息。最后加入全連接模塊,使用修正線性單元ReLU 作為激活函數(shù)。圖1 展示了圖卷積神經網絡的基本框架。
圖1 圖卷積神經網絡基本框架
本文采用的數(shù)據集為天池全球城市計算AI 挑戰(zhàn)賽的公開數(shù)據集,數(shù)據集包含了2019 年1 月1 日至2019 年1 月25 日的地鐵刷卡數(shù)據記錄,預測未來一天以10 分鐘為單位的各時段各地鐵站的出站人數(shù)和進站人數(shù),采用平均絕對誤差(Mean Absolute Error,MAE)進行評估,最后再對兩者取平均得到評分。我們將圖卷積神經網絡模型與其他著名機器學習模型K 最近鄰(KNN), 支持向量回歸(SVR)以及另外一種著名的集成模型Xgboost 進行對比,對比結果如表1 所示。
表1 MAE 結果對比
由表1 可知,相較于傳統(tǒng)的KNN 和SVR 模型,GCN 模型表現(xiàn)出較優(yōu)的性能,相較于性能較優(yōu)的Xgboost 模型相比,GCN 也具有不錯的表現(xiàn)性能,因其能夠捕獲路網間的時空依賴關系,能有效提高預測的準確度。本文采用的GCN 模型是比較基礎的圖卷積模型,加以改良后其預測效果還能夠進一步提升。
圖卷積神經網絡是近年來新提出的一個研究方向,由于它是在圖域上運行的基于深度學習的方法,這使得它在處理推薦系統(tǒng)、電子交易、分子結構,交通網絡等圖形網絡結構有著天然的優(yōu)勢,未來具有很大的發(fā)展空間。本文使用了圖數(shù)據的分析方法,利用地鐵的歷史刷卡數(shù)據,并根據現(xiàn)實的城市地鐵網絡,將其轉換為圖,并使用圖卷積神經網絡捕捉地鐵網絡中不規(guī)則的時空依賴關系,建立基于圖卷積神經網絡的地鐵客流預測模型,實現(xiàn)對地鐵短時客流的準確預測,模型表現(xiàn)出了不俗的性能。后面將對預測模型的結構和組成進行進一步優(yōu)化,以更好地捕獲路網的時空特性,提升預測效果。