陳建雄, 徐延軍,2
(1.上海船舶運輸科學(xué)研究所有限公司, 上海 200135;2.中遠海運科技股份有限公司, 上海 200135)
近年來,收費系統(tǒng)在我國高速公路運營管理系統(tǒng)中的應(yīng)用不斷增多,電子不停車收費(Electronic Toll Collection,ETC)技術(shù)在汽車上的普及率不斷提高。高速公路收費站出入口作為交通路網(wǎng)的敏感點,經(jīng)常出現(xiàn)擁堵現(xiàn)象,特別是在節(jié)假日期間,承受著巨大的車流壓力。與此同時,收費站出入口會產(chǎn)生大量交易數(shù)據(jù),其中包含詳細的車輛信息,相比通過傳感器得到的數(shù)據(jù),這些數(shù)據(jù)更加準確可靠,且獲取的成本較低,如何高效合理地利用這些數(shù)據(jù)已成為研究的熱點。目前國內(nèi)外學(xué)者已針對收費站交通流量、通行能力等內(nèi)容開展諸多研究。KOMADA等[1]證明了ETC和人工半自動收費(Manual Toll Collection,MTC)2類收費車道的基本圖與對應(yīng)車輛的密度和比例有很強的相關(guān)性;孫德強[2]基于收費數(shù)據(jù),從不同的時間維度(周、日、時)分析了高速公路的交通流特征,對收費人員排班模型進行了優(yōu)化。本文主要對收費站出入口交通流量進行研究,通過現(xiàn)有的數(shù)據(jù)挖掘和分析方法挖掘這些數(shù)據(jù)中隱藏的可靠信息,如相關(guān)性、周期性等;同時,對收費站出入口交通流量進行預(yù)測,幫助出行者規(guī)劃出行時間和路線,分散出入口的交通壓力,為交通管理者的管理決策提供參考。
本文以寧夏自治區(qū)銀川南收費站2021年的收費數(shù)據(jù)為研究對象進行分析。收費系統(tǒng)一般以1個工班日為單位統(tǒng)計收費站入口和出口全年的車流量,共有365條記錄,每條記錄中都包含時間、入口車流量和出口車流量等信息。
圖像觀測法的原理是直接繪制散點圖,其優(yōu)點是形象直觀,不足是缺少對相關(guān)參數(shù)的數(shù)據(jù)化度量。本文將收費站入口交通流量x作為自變量,將收費站出口交通流量y作為因變量,得到出入口交通流量散點圖見圖1。從圖1中可看出,收費站出入口交通流量之間存在明顯的正相關(guān)性,但對二者之間的相關(guān)度和相關(guān)可信度沒有數(shù)據(jù)化的度量。
圖1 出入口交通流量散點圖
科學(xué)計算法的原理是通過具體的數(shù)學(xué)計算方式揭示各變量之間的相關(guān)性[3],通過該方法可得到以下2個重要指標:
1) 皮爾森(Pearson)相關(guān)系數(shù)r,可準確地反映變量之間的相關(guān)程度,其值為[-1,1];
2) 顯著性水平p,用來衡量變量之間的關(guān)系,具體指不相關(guān)的概率,若相關(guān)系數(shù)為1,則p=0。
圖2 出入口交通流量皮爾森相關(guān)系數(shù)
在統(tǒng)計學(xué)中,一般當p>0.05時,數(shù)據(jù)之間的差異無顯著意義,這種結(jié)果可能是某種偶然因素導(dǎo)致的,不具有統(tǒng)計學(xué)意義[4]。
r的計算公式為
(1)
通過計算得到出入口交通流量皮爾森相關(guān)系數(shù)見圖2。從圖2中可看出,出入口交通流量之間的皮爾森相關(guān)系數(shù)為0.84。
通過T檢驗得到p=5.66×10-97,遠小于0.05,說明收費站出入口交通流量之間確實存在關(guān)系。一般用r的取值范圍判斷變量間的相關(guān)程度[5],收費站出入口交通流量之間的關(guān)系見表1。
表1 收費站出入口交通流量之間的關(guān)系
綜上所述,通過采用圖像觀測法和科學(xué)計算法進行驗證,可知銀川南收費站出入口交通流量之間存在著明顯的正相關(guān)關(guān)系。
根據(jù)全年365 d的收費站出入口交通流量數(shù)據(jù)得到出入口交通流量變化圖見圖3。選擇具有明顯規(guī)律性的部分作放大處理,觀察其變化是否存在規(guī)律。由圖3可知,出入口交通流量的變化存在周期性,周期為3~7 d。
a) 出口交通流量變化及部分放大圖
b) 入口交通流量變化及部分放大圖
將時序數(shù)據(jù)轉(zhuǎn)換為三角函數(shù)的線性組合,得到的各展開項的系數(shù)就是傅里葉系數(shù)。傅里葉系數(shù)越大,表明其對應(yīng)的正弦波的周期越有可能是這份數(shù)據(jù)的周期。通過傅里葉變換得到傅里葉系數(shù)中最大的前10個值和對應(yīng)的周期,分別對應(yīng)出口交通流量數(shù)據(jù)和入口交通流量數(shù)據(jù),見表2和表3。
表2 出口交通流量對應(yīng)的傅里葉系數(shù)和可能的周期
表3 入口交通流量對應(yīng)的傅里葉系數(shù)和可能的周期
為保證得到的周期性結(jié)果可靠、準確,需對上文得到的可能的周期進行自相關(guān)系數(shù)計算。自相關(guān)系數(shù)的計算公式為
(2)
通過計算得到出入口交通流量可能的周期對應(yīng)的自相關(guān)系數(shù),見表4和表5。由表4和表5可知:出口交通流量的周期為7 d、3 d和14 d時自相關(guān)程度較高,入口交通流量的周期為7 d、3 d和11 d時自相關(guān)程度較高。結(jié)合自相關(guān)系數(shù)的絕對值越大,相關(guān)程度越高,越有可能是交通流量周期的性質(zhì),得出銀川南收費站出入口交通流量周期均為7 d(1周),以周為單位呈現(xiàn)出重復(fù)性,這主要是受1周內(nèi)的工作日和休息日的影響,特別是在周五和周日易出現(xiàn)出行高峰。
采用隨機森林方式對原始數(shù)據(jù)進行預(yù)處理之后,得到收費站出入口交通流量的完整數(shù)據(jù),基于此對未來出入口7 d內(nèi)的交通流量進行預(yù)測,采用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)模型[6]。在模型中加入一個判斷信息是否有用的“處理器”,稱為記憶單元(Memory Cell),其結(jié)構(gòu)見圖4。
由于工作時間比較統(tǒng)一,相同收費站的出入口交通流量表現(xiàn)出周期性的通暢、擁擠等現(xiàn)象,周期為1周。
表5 入口交通流量的自相關(guān)系數(shù)和可能的周期
圖4 LSTM網(wǎng)絡(luò)模型記憶單元結(jié)構(gòu)
例如,本周五的交通模式一般與上周五的交通模式相似,而與周末的交通模式差別較大,需將該現(xiàn)象添加到LSTM網(wǎng)絡(luò)模型中[7],以提升模型的預(yù)測精度。LSTM網(wǎng)絡(luò)模型在處理時間序列數(shù)據(jù)時,隨著數(shù)據(jù)長度的增加,周期性的影響會逐漸減弱,因此需對預(yù)測目標的相同時間進行建模(即周一對周一);同時,收費站出入口交通流量數(shù)據(jù)并非呈現(xiàn)嚴格的周期性,易受交通突發(fā)事件、交通擁堵和疫情防控等因素的影響,即出入口交通流量并非嚴格以7 d為周期變化,因此需通過注意力機制[7]解決該問題。
采用Z-score標準化方法對填補好的完整數(shù)據(jù)進行歸一化處理,使其符合標準正態(tài)分布,計算公式為
(3)
對數(shù)據(jù)集進行劃分:將數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集;將另外20%的數(shù)據(jù)作為測試集。創(chuàng)建LSTM網(wǎng)絡(luò)模型,采用前28 d的交通流量預(yù)測未來7 d的交通流量,訓(xùn)練過程見圖5。
在訓(xùn)練階段,使收費站出入口的實際交通流量與預(yù)測交通流量的偏差最小[8],模型的損失函數(shù)為
(4)
圖6 LSTM網(wǎng)絡(luò)模型預(yù)測值與實際值對比(出口)
1) 平均絕對誤差EMA,其表達式為
(5)
2) 均方根誤差ERMS,其表達式為
(6)
3) 對稱平均絕對百分比誤差ESMAP,其表達式為
(7)
4) 決定系數(shù)R2,其表達式為
(8)
式(5)~式(8)中:EMA的取值范圍為[0,+∞),其值越大,說明模型的預(yù)測誤差越大;ERMS的取值范圍為[0,+∞),其值越小,說明模型的預(yù)測精度越高;ESMAP的取值范圍為[0,+∞),其值為0表示模型為完美模型,其值大于100%表示模型為劣質(zhì)模型[10];一般而言,當R2>0.4時,可認定模型的擬合效果較好。
出口交通流量評估結(jié)果見表6。由表6可知:R2在訓(xùn)練集和測試集中均大于0.4,說明模型的擬合效果較好;EMA和ERMS相對較低,預(yù)測結(jié)果與真實值比較吻合[10];ESMAP在訓(xùn)練集和測試集中均小于0.400 0,表明模型在收費站出口交通流量預(yù)測中效果良好。
表6 出口交通流量評估結(jié)果
按以上處理和訓(xùn)練步驟對入口交通流量進行預(yù)測分析,同時利用以上指標對模型進行評估分析。通過LSTM網(wǎng)絡(luò)模型對入口交通流量進行預(yù)測,入口交通流量評估結(jié)果見表7,預(yù)測值與實際值對比見圖7。由表7和圖7可知:在訓(xùn)練集和測試集中,R2均大于0.4,說明模型的擬合效果較好;EMA、ERMS和ESMAP等3個指標的值均處于理想狀態(tài),表明模型在收費站入口交通流量預(yù)測中效果良好,誤差在可接受范圍內(nèi)。
表7 入口交通流量評估結(jié)果
為進一步驗證預(yù)測模型的可靠性,增加跨年度數(shù)據(jù)進行交通流量預(yù)測。仍以銀川南收費站的收費數(shù)據(jù)為研究對象,按以上研究思路和方法對2020年3月1日至2021年6月1日的收費站出入口交通流進行預(yù)測,得到損失函數(shù)值變化曲線見圖8。由圖8可知,損失函數(shù)值在訓(xùn)練次數(shù)約為8次時達到低點,并一直保持收斂狀態(tài),誤差較小且穩(wěn)定。同樣采用上述4個指標對模型的預(yù)測效果進行評價,結(jié)果見表8。通過對比可知,4個評價指標的值均在合理范圍內(nèi),未出現(xiàn)異常值,基于跨年度數(shù)據(jù)的模型依然表現(xiàn)出良好的預(yù)測性能。綜上,將周期性現(xiàn)象融入LSTM網(wǎng)絡(luò)模型中,對未來7 d內(nèi)的收費站出入口交通流量進行預(yù)測,不論是針對全年數(shù)據(jù)還是跨年度數(shù)據(jù),模型的預(yù)測效果都良好,可準確預(yù)測未來7 d的交通流量。
圖7 LSTM網(wǎng)絡(luò)模型預(yù)測值與實際值對比(入口)
圖8 損失函數(shù)值變化曲線
表8 基于整年數(shù)據(jù)與跨年度數(shù)據(jù)的LSTM網(wǎng)絡(luò)模型出入口交通流量預(yù)測效果對比
本文以寧夏回族自治區(qū)銀川南收費站的收費數(shù)據(jù)為研究對象,對收費站出入口交通流量進行相關(guān)性分析、周期性分析和預(yù)測,主要得到以下結(jié)論:
1) 收費站出入口交通流量的Pearson相關(guān)系數(shù)為0.84,具有極強的相關(guān)性,出入口交通流量相互影響;
2) 收費站出口交通流量的變化周期為7 d,入口交通流量的變化周期為7 d,主要受上下班高峰時段的影響;
3) 融合交通流量的周期性特征建立LSTM網(wǎng)絡(luò)模型預(yù)測出入口交通流量,基于整年數(shù)據(jù)和跨年度數(shù)據(jù),通過EMA、ESMAP、ERMS和R2等4個指標評價該模型的有效性,結(jié)果表明其能取得良好的預(yù)測效果。