劉亞龍
(深圳市城市交通規(guī)劃設計研究中心有限公司,廣東深圳 518021)
車輛跟馳模型是重要的微觀交通流模型之一[1-2]。目前,研究者針對車輛跟馳行為分別建立了安全距離模型[3-4]、GHR模型[5]、心理模型[6]和基于模型推理的模型[7]等傳統(tǒng)微觀交通流模型,這些基于數(shù)學公式和交通流理論建立的數(shù)學模型,難以有效反應駕駛員的感覺、判斷、決定等一系列心理和生理活動的不一致性和不確定性。人工智能具有強大的自學習能力,能夠通過對車輛運行微觀數(shù)據(jù)的學習,挖掘出數(shù)據(jù)之間暫時不能用現(xiàn)有交通理論知識做出具體解釋,但在數(shù)據(jù)之間又確實存在的內在聯(lián)系或規(guī)律,能很好地彌補上述缺點[8]。
文獻 [9]基于神經(jīng)網(wǎng)絡算法建立車輛跟馳模型,并通過仿真驗證模型的有效性;文獻[10]通過五輪儀采集車輛跟馳數(shù)據(jù),利用BP神經(jīng)網(wǎng)絡建立車輛跟馳模型,神經(jīng)網(wǎng)路的輸入變量包括前后兩車之間的相對距離和相對行駛速度、后車行駛速度、后車期望行駛速度,輸出變量為后車加速度,并運用Matlab Tool驗證了所建模型的有效性;文獻[11]認為駕駛員的反應時間是影響跟馳行為的因素,將其作為輸入變量之一,基于神經(jīng)網(wǎng)絡建立跟馳模型,并選用NGSIM(next generation simulation)數(shù)據(jù)驗證模型的有效性。文獻[12]基于粒子群算法和神經(jīng)網(wǎng)絡對車輛跟馳行為進行建模,并利用實測數(shù)據(jù)對模型進行驗證。
為進一步提升模型的預測精度,鑒于隨機森林(random forest, RF)算法相比其他算法更不易出現(xiàn)過擬合,本文基于隨機森林算法對車輛跟馳行為進行建模研究,達到提高車輛跟馳模型預測精度的目的。首先進行NGSIM數(shù)據(jù)的甄選和預處理,再基于隨機森林建立跟馳模型,對模型進行訓練和測試,將測試結果與Gipps模型測試結果進行對比分析,以驗證模型的有效性。
文獻[13]提出隨機森林算法,其核心思想是用Bootstrap方法從原始樣本集合中抽取多個子樣本集合,分別對每個Bootstrap子樣本集合進行決策樹建模,利用均值法或投票法對各個預測結果進行組合,最終得到預測結果。相比BP神經(jīng)網(wǎng)絡、SVM支持向量機、決策樹、Adaboost等方法,RF具有較好的噪聲容忍度以及更高的測試精度,更重要的是出現(xiàn)過擬合現(xiàn)象[12]的風險較低。RF不僅可以分類還可以進行回歸,即可以對離散因變量和連續(xù)因變量進行建模。隨機回歸森林通過與隨機向量有關的決策樹生長形成,與隨機分類森林的因變量不同的是其因變量是連續(xù)型的。
RF的預測步驟[14]:1)采用Bootstrap方法從基礎數(shù)據(jù)集中隨機抽取k個不同的樣本子數(shù)據(jù)集,作為各決策樹的訓練數(shù)據(jù)集,各樣本子數(shù)據(jù)集的容量和原始數(shù)據(jù)集相同,每次未被抽樣的數(shù)據(jù)組成測試數(shù)據(jù)集。2)分別對k個樣本子數(shù)據(jù)集建立回歸決策樹,生成k棵決策樹,在決策樹生成過程中,決策樹的每個節(jié)點的分裂、分枝是通過從原始數(shù)據(jù)變量集中隨機采樣得到變量子集,再根據(jù)Gini指標最小準則從子集中選擇最優(yōu)變量。3)每一棵回歸決策樹的生長從上至下遞歸分枝,且直至達到預先設定的葉子節(jié)點的最小尺寸,決策樹終止生長,最終所有決策樹組合成隨機森林。4)利用測試數(shù)據(jù)對隨機森林模型進行測試。分別利用k棵回歸決策樹進行預測,取所有預測結果的平均值為最終回歸值,即最終預測值。
Gipps車輛跟馳模型[15-16]是早期最經(jīng)典的車輛跟馳模型,是基于安全行駛距離建立的,考慮了車輛的安全行駛距離約束和加速度的約束。Gipps車輛跟馳理論假設在車輛跟馳過程中,當前車遇到緊急狀況而猛然減速時,后車駕駛員會下意識的選用一個車輛行駛速度使兩車不致發(fā)生碰撞。Gipps車輛跟馳模型的基本表達式為:
(1)
式中:vn(t)、vn+1(t)分別為第n輛車(前導車)、第n+1輛車(跟馳車)的速度;Vn+1(t)為第n+1輛車(跟馳車)在此交通環(huán)境中期望選用的速度;αn+1(t)為第n+1輛車能采用的最大加速度;T為駕駛員的反應時間,即駕駛員從感覺器官接受刺激到作出反應的時間與車輛的機械傳動時間之和;bn(t)、bn+1(t)分別為第n、n+1輛車的最大減速度;xn(t)、xn+1(t)分別為t時刻第n輛車和第n+1輛車所在的位置;Ln為第n輛車的車長。
建模前首先要確定影響跟馳行為的關鍵變量。選取4個輸入變量,分別為:t時刻跟馳車的速度vn+1(t)、t時刻跟馳車與前導車的相對速度Δvn+1(t)、兩車間距sn+1(t)、t時刻跟馳車的加速度an+1(t),有
Δvn+1(t)=vn(t)-vn+1(t)。
輸出變量為跟馳車的加速度an+1(t+T),T=1.1 s[17]。單條車道上的車輛跟馳情景如圖1所示。
設訓練樣本集
G=[Xij,Yi],
基于隨機森林回歸算法車輛跟馳模型示意圖如圖2所示。其中,第i組訓練輸入樣本的輸入度量vn+1(t)、Δvn+1(t)、sn+1(t)、an+1(t)分別對應xi1、xi2、xi3和xi4,第i個訓練輸出樣本對應的輸出變量an+1(t+T)對應yi。
圖1 車輛跟馳情景 圖2 RF模型示意圖
模型的訓練和測試選用美國聯(lián)邦公路局以研究微觀交通流仿真為目的而發(fā)起的NGSIM研究計劃所采集到的數(shù)據(jù)[18],即利用航測技術采集到的某一指定地點的車輛動態(tài)運行軌跡數(shù)據(jù),如圖3所示。圖3a)為在加州伯克利I-80公路上采集車輛運行數(shù)據(jù)的路段示意圖,此路段長503 m,包含5條車道和1條輔道,上下游分別設置有1處進口道和1處出口道,數(shù)據(jù)采集時段為16:00—16:15和17:00—17:30;圖3b)為在加州US-101公路上采集車輛運行數(shù)據(jù)的路段示意圖。此路段長640 m,包含5條車道和1條輔道。數(shù)據(jù)采集時段為07:50—08:35,利用8臺架設在高空的高清相機采集車輛微觀運行視頻數(shù)據(jù)。該數(shù)據(jù)可以反映多車道中車輛的速度、位置、車長以及加速度等運行信息,時間精度達到0.1 s,是用于微觀交通模型的參數(shù)標定、行為分析等方面研究的理想數(shù)據(jù)。數(shù)據(jù)雖采集于美國,但車輛跟馳特性在總體上具有一般性,故具有較好的通用性。
a) I-80公路 b) US-101公路圖3 NGSIM數(shù)據(jù)采集路段
基于車輛跟馳行為的定義,數(shù)據(jù)集在使用前需要進行甄選:1)選取具有代表性的一般道路交通環(huán)境條件下的跟馳數(shù)據(jù);2)選取數(shù)據(jù)時,將跟馳車與前導車看作一個跟馳單元;3)各個跟馳單元中的前后兩車位于同一條車道上,且跟馳車一直處于跟馳狀態(tài);4)跟馳單元中的跟馳車輛和前導車之間的相對距離較大時,判定此條數(shù)據(jù)無效,并篩除該跟馳單元所對應的數(shù)據(jù);5)跟馳持續(xù)時間為26 s的跟馳單元為有效跟馳單元。
數(shù)據(jù)集甄選后共獲得了1 967輛車的跟馳數(shù)據(jù),共51 142條,其中1 377輛車(70%)的數(shù)據(jù)用于模型訓練,590輛車(30%)的數(shù)據(jù)用來對模型進行測試。本文所建RF模型和用于與其對比分析的Gipps模型,均用此數(shù)據(jù)進行訓練和測試。
先利用訓練數(shù)據(jù)對基于隨機回歸森林的車輛跟馳模型進行訓練,然后再用測試數(shù)據(jù)對模型的有效性進行驗證。
選用統(tǒng)計學中常用到的4個統(tǒng)計量對模型測試結果進行評價,4個統(tǒng)計量分別為: 平均誤差ME、平均絕對誤差MAE、均方根誤差RMSE、平均絕對相對誤差MARE,各統(tǒng)計量的計算公式分別為:
(2)
(3)
(4)
(5)
式中:N為測試數(shù)據(jù)樣本數(shù);dr,i為第i輛車的加速度、位置或速度對應的實際數(shù)據(jù);ds,i為第i輛車的加速度、位置或速度對應的預測數(shù)據(jù)。
采用MATLAB中的Random forest工具箱對基于隨機森林的回歸模型進行訓練。另外,在隨機森林算法中,有2個重要的參數(shù)需要設定,分別是隨機森林中決策樹的個數(shù)ntree(在保證能夠收斂的情況下盡可能降低運算量)、分裂屬性集中的屬性個數(shù)mtry(鑒于屬性總個數(shù)較少,本文采用窮舉法)。經(jīng)過多次訓練,將ntree的值設定為1 000,誤差隨ntree變化趨勢如圖4所示。由圖4可知,當決策樹的數(shù)目達到800后,誤差曲線的波動不大,因此,選擇構建1 000棵決策樹的隨機森林。圖5為當ntree設定為1 000時,誤差隨mtry的變化趨勢。由圖5可知:mtry取值為3時,誤差達到最小。
圖4 誤差隨ntree變化趨勢 圖5 誤差隨mtry變化趨勢
模型MEMAERMSEMAREGipps-0.108 30.871 71.103 40.310 0RF-0.121 40.813 31.100 30.251 9
首先,采用文獻[19-21]提出的跟馳模型的標定方法,利用MATLAB中GA工具包和NGSIM數(shù)據(jù)源,對Gipps模型中的參數(shù)進行標定。然后,分別計算本文所建跟馳模型與Gipps模型的各項誤差指標,加速度評價結果如表1所示。
由表1可知,RF模型的大部分誤差指標與Gipps模型相比均有明顯改善;ME、MAE、RMSE、MARE4項指標分別提高了0.013 1、0.058 4、0.003 1、0.058 1,意味著RF模型預測結果更加接近NGSIM數(shù)據(jù),結果證明了RF模型用于車輛跟馳模型仿真的實用性與有效性。
隨機森林模型能夠挖掘出變量之間的潛在關系,彌補傳統(tǒng)車輛跟馳模型的不足。在對NGSIM數(shù)據(jù)進行學習、訓練的基礎上,隨機森林模型和傳統(tǒng)Gipps模型相比,具有更高的精度。因此,用隨機森林模擬跟馳行為是一種可行的方法。