習金浩,孟 峰,朱鳳華,賀正冰,李潤梅,呂宜生
(1.中國科學院大學 人工智能學院,北京 100049;2.中國科學院自動化研究所 復雜系統(tǒng)管理與控制國家重點實驗室,北京 100190;3.國家能源集團大雁集團(神寶能源),內(nèi)蒙古 呼倫貝爾 021000;4.北京工業(yè)大學交通工程北京重點實驗室,北京 100024;5.北京交通大學電子信息工程學院,北京 100044)
準確及時的高速公路交通流預測是提高高速公路通行效率的重要前提。高速公路交通流具有時空關聯(lián)性,由于各路段車檢器分布疏密不同,導致不同路段上鄰近車檢器獲取的交通流信息的關聯(lián)性和準確性差異較大,從而影響全路段交通流預測準確性。針對高速公路這一特性,為提升交通流預測準確率,有關交通流預測方法的研究成為熱點。
目前已有的高速公路交通流預測方法大致可分為數(shù)學統(tǒng)計類方法[1-3]、非線性理論類方法[4-5]和深度學習方法[6-7]。常用的數(shù)學統(tǒng)計類預測方法主要包括K 近鄰算法或支持向量機法[1-3],這類非參數(shù)回歸方法具備一定的有效性,但存在處理大規(guī)模數(shù)據(jù)耗時較長且模型預測效果受關鍵參數(shù)影響較大的問題。非線性理論方法主要包括相空間重構法或小波分析法[4-5],這類方法計算較復雜且預測準確率不夠高。深度學習方法在表述非線性復雜系統(tǒng)方面有出色的表現(xiàn),近年來發(fā)展較快,在交通流預測領域也得到了廣泛應用。按網(wǎng)絡結構來劃分,已有的深度學習交通流預測法涉及深度信念網(wǎng)絡[8]、堆疊自編碼器網(wǎng)絡[9-10]、循環(huán)神經(jīng)網(wǎng)絡[11-14]、卷積神經(jīng)網(wǎng)絡[15-17]等。HUANG 和LV 分別采用深度信念網(wǎng)絡和堆疊自編碼器預測交通流[8-9],這兩種方法考慮了時間和空間兩個維度的交通流信息,但無法有效發(fā)掘時空維度的關聯(lián)性。多名研究人員采用了長短期記憶網(wǎng)絡、門控循環(huán)單元等循環(huán)神經(jīng)網(wǎng)絡法進行交通流預測,并對其進行了改進[11-14]。這類方法充分利用了循環(huán)神經(jīng)網(wǎng)絡記憶歷史數(shù)據(jù)的特點,并適當引入空間維度的交通流信息,但仍無法很好地挖掘時空維度交通流信息的聯(lián)系。也有研究人員采用卷積神經(jīng)網(wǎng)絡挖掘交通流時空特征進行更準確的交通流預測[15-16]。卷積神經(jīng)網(wǎng)絡可獲取時間維度、空間維度交通流信息和時空信息的關聯(lián)性,從時空信息矩陣中挖掘出內(nèi)部交通流特征。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡中,網(wǎng)絡結構一旦構建好,卷積核大小就確定了,無論輸入信息如何改變,各層網(wǎng)絡的感受野大小都是固定的。然而實際上,高速公路不同路段的車檢器分布疏密不同,對不同站點進行交通流預測時,輸入預測器的相鄰站點歷史交通流數(shù)據(jù)的關聯(lián)性和準確性就有所不同,覆蓋的路段范圍也不一樣。因此對不同路段進行交通流預測時需動態(tài)調(diào)整卷積核尺寸,從不同尺度挖掘交通流特征。
LI 等人受到神經(jīng)學啟發(fā),提出了一種多核選擇網(wǎng)絡模型(Selective Kernel Networks)用于圖像處理,通過注意力機制,可根據(jù)輸入信息動態(tài)調(diào)整不同卷積核權重[18]。但此模型只考慮了在圖像識別領域的應用,應用范圍較為局限。為此,本文將針對高速公路不同路段的交通流信息差異較大這一特性,在這種注意力機制的基礎上,提出描述交通流時空關聯(lián)特征的多核自適應網(wǎng)絡(Multi-Kernel Adaptive Network,MKAN)模型,通過選用多個不同尺寸的卷積核進行多分支卷積,獲取多尺度的交通流特征,并根據(jù)輸入信息自適應動態(tài)調(diào)整各卷積分支的權重,再對各分支的特征圖進行加權融合,以期提高交通流預測準確率,提升模型的適用性和可靠性。
MKAN 采用多個卷積核尺寸不同的分支分別進行卷積運算,然后融合各分支的信息并獲得通道維度的特征信息,根據(jù)這些特征信息自適應分配各分支權重,以得到比單一卷積核更好的交通流預測效果。
MKAN輸入信息Ix,t為t時段待預測x站點上下游歷史交通數(shù)據(jù),其具體形式如式(1)所示,Ix,t∈R1×(n+1)×(2m+1),其中R為實數(shù)集,n為歷史時段數(shù),m為待預測站點上游/下游站點數(shù)。車檢器采集各時段的交通流數(shù)據(jù),設每一時段長度為ΔTmin,Qt,x(單位:輛/ΔTmin)為第x號站點t時段的交通流流量,需預測得到的站點x在t+1 時段的交通流量為Qt+1,x(單位:輛/ΔTmin)。
MKAN 模型結構如圖1 所示,該模型包含多分支卷積、計算分支權重、加權融合和回歸預測4個步驟。
圖1 多核自適應網(wǎng)絡(MKAN)模型結構圖
(1)多分支卷積
首先采用3 個不同的卷積分支對輸入信息進行卷積運算,卷積核尺寸分別為1× 1,3× 3 和5× 5。在每個卷積分支,輸入數(shù)據(jù)經(jīng)過“卷積層-池化層-卷積層-池化層”4層運算,卷積層激活函數(shù)均為線性整流函數(shù)(Rectified Linear Unit,ReLU)。輸入數(shù)據(jù)是單通道二維數(shù)據(jù),每次卷積運算都增加特征圖的通道數(shù),獲取更豐富的特征信息。
3 個卷積分支的通道數(shù)、池化方法、池化窗口、池化步幅等都相同,唯一的區(qū)別是卷積核尺寸不同。為便于后續(xù)特征圖融合,需保證不同卷積分支特征圖尺寸相同,因此進行適當?shù)奶畛涮幚?。對任意輸入歷史交通流Ix,t∈R1×(n+1)×(2m+1),經(jīng)過3 個不同分支的卷積運算后,可以分別得到對應的特征圖矩陣U1,U2,U3。U1,U2,U3∈RC1×H1×W1,其中C1為通道數(shù),即特征圖深度;H1為特征圖高度;W1為特征圖寬度。
多分支卷積各層網(wǎng)絡參數(shù)如表1所示。
表1 多分支卷積各層網(wǎng)絡參數(shù)
(2)計算分支權重
多核自適應網(wǎng)絡可以對不同尺寸的卷積核得到的特征圖自適應調(diào)整權重,通過這種注意力機制得到更準確的交通流預測結果,因此其關鍵點在于自適應調(diào)整各卷積分支的權重。
首先是融合,包括多分支特征圖融合以及特征圖內(nèi)全局信息融合。3 個卷積分支得到的特征圖矩陣,Um,k,ij表示第m個分支k通道特征圖i行j列對應元素。融合得到通道維特征向量s∈RC1,sk為第k個元素,則可以得到:
根據(jù)通道維特征向量s得到隱藏特征向量,d是隱藏特征向量的維度,是關鍵參數(shù),將影響到后續(xù)權重分配。然后再分別計算3 個分支的注意力向量ti:
然后根據(jù)3 個分支的注意力向量ti,利用歸一化指數(shù)函數(shù)(Softmax 函數(shù))計算得到對應的權重向量zi∈RC1。設ti,k是ti的第k個元素,zi,k是zi的第k個元素,表示第i個卷積分支第k個通道的特征圖對應的權重,則可以得到:
(3)加權融合
計算得到各分支的權重向量后,將其分別與對應分支的特征圖矩陣U1,U2和U3相乘,得到加權特征圖,然后相加,得到融合特征圖V∈RC1×H1×W1。設Ui,k為i分支第k通道特征圖,Vk為k通道融合特征圖,則有:
(4)回歸預測
得到融合特征圖后,需要將其展平成一維向量X∈RN,N=C1H1W1,利用多層感知機進行回歸預測:式(6)~式(8)中,第1隱藏層權重參數(shù)W1∈RN×500,隱藏層輸出和偏差參數(shù)H1,b1∈R500;第2 隱藏層權重參數(shù)W2∈R500×100,隱藏層輸出和偏差參數(shù)H2,b2∈R100;輸出層權重參數(shù)WO∈R100×1,偏差參數(shù)bo∈R1,輸 出 變 量O∈R1,?為Relu函數(shù)。
實驗選擇自適應矩估計(Adaptive Moment Estimation,Adam)優(yōu)化算法進行批量訓練,每10個迭代周期對學習率進行衰減,訓練過程的目標函數(shù)為均方誤差(Mean Squared Error,MSE)函數(shù)。
實驗中選用均方根誤差(Root Mean Squared Error,RMSE)和平均絕對誤差(Mean Absolute Error,MAE)作為評價指標,衡量不同網(wǎng)絡模型的交通流預測效果,其公式如下:
為訓練得到泛化性能最好的網(wǎng)絡模型,避免隨著網(wǎng)絡復雜性提升而出現(xiàn)過擬合現(xiàn)象,本模型采用了如下方法:①采用數(shù)據(jù)集擴增法,通過增加訓練樣本數(shù)提高模型的泛化性能;②在網(wǎng)絡設計時,避免層數(shù)過多,過于復雜;③借鑒“早停法”的思想,但不會提前停止訓練,而是選擇所有訓練周期中驗證集測試誤差最小的網(wǎng)絡作為最佳網(wǎng)絡。
多核自適應網(wǎng)絡模型訓練方法如下:
加州交通運輸部性能測試系統(tǒng)(California Department of Transportation (Caltrans) Performance Measurement System,PeMS)具有數(shù)據(jù)量大、數(shù)據(jù)種類豐富、易于分析、獲取方便的特點,因此本文采用PeMS 數(shù)據(jù)進行實驗驗證。本文采用了編號為I5-N 的高速公路2019 年4 月1 日—4 月30 日共計30d 的數(shù)據(jù)作為實驗數(shù)據(jù)集,包含了500 多公里范圍內(nèi)438 個站點的交通流數(shù)據(jù)。其中將4月1 日—4 月20 日的交通流數(shù)據(jù)劃分為訓練集,4月21 日—4 月25 日的交通流數(shù)據(jù)劃分為驗證集,4月26日—4月30日的數(shù)據(jù)劃分為測試集。
對原始交通流數(shù)據(jù)進行預處理,修復空缺值和異常值??杖敝抵改承┱U军c在部分時段的空缺交通流數(shù)據(jù)。異常值是異常站點的交通流數(shù)據(jù)。首先采用箱形圖法識別異常的交通流數(shù)據(jù),然后對相應站點進行具體分析,其中某些站點的交通流與上下游站點差異較大,明顯不存在空間關聯(lián)性,這類站點判定為異常站點,其數(shù)據(jù)不予采納??紤]到交通流不會突變,對于空缺值,其交通流數(shù)據(jù)取該站點上下相鄰時段的交通流數(shù)據(jù)均值;對于異常站點,其交通流數(shù)據(jù)取上下游鄰近站點交通流數(shù)據(jù)均值。
原始交通流數(shù)據(jù)的單位是輛/5min,數(shù)值從零到一千多,差異極大。在訓練模型時,為避免數(shù)量級因素的影響,加快深度學習的收斂速度,需將數(shù)據(jù)進行歸一化處理,映射到0~1 之間,變成純量。歸一化公式如下:
式(11)中:xmin為樣本數(shù)據(jù)中的最小值;xmax為樣本數(shù)據(jù)中的最大值;x為原數(shù)據(jù);x′為歸一化值。在計算評價指標時進行數(shù)量級的還原。
本文采用Pytorch 框架進行神經(jīng)網(wǎng)絡的構建及訓練,采用Tesla V100 SXM2 32GB 顯卡計算平臺進行網(wǎng)絡訓練。
訓練多核自適應網(wǎng)絡模型進行單站點單步預測時,對各超參數(shù)逐一調(diào)試,初始學習率分別設置為0.1,0.01,0.001,0.0001,批量大小設置為16,32,64,128,總迭代周期數(shù)設置為50,60,70,80。在保持其他超參數(shù)不變的情況下逐一選擇驗證集上效果較好且網(wǎng)絡訓練速度較快的超參數(shù)數(shù)值。網(wǎng)絡訓練批量大小設置為64,初始學習率為0.001,每輪訓練共有60 個迭代周期。C1=16,d=4。輸入數(shù)據(jù)Ix,t是單通道20 × 41的二維數(shù)組,包含了待預測站點上下游共計41 個站點20 個歷史時段的交通流數(shù)據(jù),輸出的是x號站點下一時段預測交通流數(shù)據(jù)。
本文選取長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)、門控循環(huán)單元(Gated Recurrent Unit,GRU)、K 近鄰算法(K-Nearest Neighbor,KNN)和支持向量回歸(Support Vector Regression,SVR)4種方法作為MKAN模型的對比。
(1)LSTM:采用單層長短期記憶網(wǎng)絡,根據(jù)待預測站點歷史20個時段的交通流數(shù)據(jù)預測下一時段交通流數(shù)據(jù),訓練方法與參數(shù)設置和MKAN模型類似,訓練過程中進行梯度裁剪;
(2)GRU:采用單層門控循環(huán)單元,根據(jù)待預測站點歷史20個時段的交通流數(shù)據(jù)預測下一時段交通流數(shù)據(jù),訓練過程中進行梯度裁剪;
(3)KNN:尋找與樣本最接近的k個鄰居,將其對應屬性取平均值,作為樣本的對應屬性;
(4)SVR:通過訓練找到一個超平面,使所有樣本到超平面最遠點的距離最小,從而實現(xiàn)回歸預測。
3.3.1 與其他預測模型對比
本文首先對不同類型的交通流預測方法進行了比較,各模型預測誤差如表2 所示。在40 號,50 號,60 號,…,140 號共11 個站點中,多核自適應網(wǎng)絡模型(MKAN)在大部分站點可以取得最佳RMSE 和MAE,體現(xiàn)出了顯著的優(yōu)越性。之所以MKAN 模型在少數(shù)站點未能取得最佳預測效果,原因在于不同站點交通模態(tài)差異較大,60號、90 號、110 號站點可能與上下游的空間關聯(lián)性較小。
表2 各站點不同預測模型的交通流預測誤差對比
表2 (續(xù))
以140號站點為例,4月27日5種預測方法的交通流數(shù)據(jù)預測值與真實交通流數(shù)據(jù)的絕對誤差如圖2 所示,圖中數(shù)據(jù)為加權滑動平均平滑處理結果??梢钥闯觯c其他模型相比,MKAN 模型全天的預測絕對誤差都較小。
圖2 140號站點4月27日交通流預測絕對誤差分布圖
3.3.2 與普通CNN模型對比
為分析注意力機制對普通卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)的提升效果,對比了MKAN 與卷積核尺寸分別為1× 1,3×3,5× 5 和3× 5 的普通卷積神經(jīng)網(wǎng)絡的交通流預測效果。普通CNN的結構等效于多核自適應網(wǎng)絡模型中的單一卷積分支,但在卷積運算中未進行填充。
考慮到高速公路上不同站點的交通模態(tài)差異較大,實驗中選用30~35 號、60~65 號、90~95號、110~115 號、130~135 號、150~155 號、170~175 號、200~205 號和380~385 號這9 處站點進行單步單站點交通流預測,每處用連續(xù)6 個站點的歷史交通流數(shù)據(jù)構建子數(shù)據(jù)集,這些站點覆蓋范圍較廣,有一定的代表性。
為避免偶然性,每處站點每種方法訓練10輪,取10 輪結果的測試RMSE 和測試MAE 的均值作為最終的評價指標(見表3)。由表3 可以看出,MKAN 在各站點處均可以取得最小RMSE 和最小MAE;MKAN與該處站點最佳單核CNN的評價指標相比,各站點處的預測誤差降低率都很顯著。
表3 卷積神經(jīng)網(wǎng)絡采用不同卷積核時的交通流預測誤差對比
表3 (續(xù))
以31 號站點為例,MKAN 和單核卷積神經(jīng)網(wǎng)絡在4 月27 日預測交通流數(shù)據(jù)與真實交通流數(shù)據(jù)的絕對誤差如圖3 所示,圖中數(shù)據(jù)為加權滑動平均處理結果??梢钥闯?,MKAN 的預測誤差絕對值明顯小于其他單核卷積神經(jīng)網(wǎng)絡,體現(xiàn)出多核自適應網(wǎng)絡模型的優(yōu)越性。
圖3 31號站點4月27日交通流預測絕對誤差分布圖
本文考慮到高速公路不同路段交通流信息的差異性,基于卷積神經(jīng)網(wǎng)絡和注意力機制,建立了描述交通流時空關聯(lián)特征的多核自適應網(wǎng)絡。該模型能從不同尺度挖掘交通流時空特征,根據(jù)輸入信息的激勵動態(tài)自適應調(diào)整不同卷積分支的權重。經(jīng)過對比分析可知,多核自適應網(wǎng)絡模型的交通流預測效果優(yōu)于部分傳統(tǒng)預測方法和單核卷積神經(jīng)網(wǎng)絡,具有有效性和一定的實用價值。
本文研究了多核自適應網(wǎng)絡在高速公路交通流預測中的應用,但高速公路所處交通環(huán)境較為封閉簡單,下一步可研究多核自適應網(wǎng)絡在較復雜的城市交通環(huán)境中的應用。此外,還可考慮結合天氣、節(jié)假日等因素,進行更準確的交通流預測。