孫江濤 鐘 鳴▲ 馬曉鳳 劉少博
(1. 武漢理工大學智能交通系統(tǒng)研究中心 武漢430063;2. 武漢理工大學國家水運安全工程技術(shù)研究中心 武漢430063)
隨著城市化進程的加快,城市交通基礎設施建設速度也是逐年增加的,由此帶來的是汽車保有量的迅速增加,2018 年我國新注冊登記機動車3 172萬輛,機動車保有量已達3.27 億輛,其中汽車2.4 億輛,小型載客汽車首次突破2億輛;機動車駕駛?cè)诉_4.09億人,其中汽車駕駛?cè)藶?.69億。同期,武漢市機動車保有量超過324 萬輛,同比增長12.6%。隨著機動車保有量的增加,帶來的是交通問題的增加,及時和正確掌握交通狀況對于交通決策起著相當重要的作用。
針對出現(xiàn)的種種交通狀況,決策者需要掌握精確的實時交通流數(shù)據(jù),但由于實際情況下交通檢測器自身故障、損壞,以及傳輸?shù)姆N種問題,交通流數(shù)據(jù)存在大量的丟失。以往存在的數(shù)據(jù)丟失情況,研究者通常利用自身檢測器的歷史數(shù)據(jù)進行丟失數(shù)據(jù)填補[1]。
關(guān)于數(shù)據(jù)補齊,美國州政府公路交通官員聯(lián)合會[2](AASHTO)提交的指南中定義了2 條重要的原則:①基礎數(shù)據(jù)完整性原則,采集到的原始數(shù)據(jù)保存時不應做修改或調(diào)整,以保證足夠的未經(jīng)修改過的基礎數(shù)據(jù)用于數(shù)據(jù)補齊,且補齊數(shù)據(jù)與原數(shù)據(jù)應分別存儲;②補齊流程的真實性原則,通過文檔記載補齊的整個操作流程,有助于增強補齊工作的透明度以便于取舍。
文獻研究發(fā)現(xiàn)大量關(guān)于交通流數(shù)據(jù)丟失的研究[3-4],但同時發(fā)現(xiàn)對交通流數(shù)據(jù)填補方面的研究相對很少。20世紀90年代美國、加拿大和歐洲[5-6]等國家多采用歷史數(shù)據(jù)構(gòu)建補齊模型;姜桂艷等[7-8]采用前1 d的歷史數(shù)據(jù)、前后鄰接時段的數(shù)據(jù)、前幾個時段數(shù)據(jù)以及相鄰路段數(shù)據(jù)實現(xiàn)丟失數(shù)據(jù)的補齊;Southworth等[9]構(gòu)建了RTMAS系統(tǒng),該系統(tǒng)能夠應用于城市緊急疏散中。系統(tǒng)中的AUTOBOX 模塊根據(jù)歷史交通流數(shù)據(jù)進行自回歸平均來預測出每個小時的交通流量,從而填補預測出丟失的交通流數(shù)據(jù)[10]。同樣Zhong等[11]采用因子模型、自回歸綜合移動平均(ARIMA)模型、遺傳設計回歸模型和神經(jīng)網(wǎng)絡模型對缺失值進行估計。
少量關(guān)于交通流數(shù)據(jù)填補的研究往往是對時間序列下的數(shù)據(jù)進行小片段預測[12-13],無法全面考慮數(shù)據(jù)完整性。Gold等[14]認為應該首先盡可能全面的了解丟失的產(chǎn)生過程,然后根據(jù)丟失的性質(zhì)采取相應的方法補齊,他們采用的補齊方法有Factor Up 插值、線性插值、基于期望最大化估計的多項式回歸及核回歸等,采用的算法能夠?qū)崿F(xiàn)5 min 以內(nèi)的丟失數(shù)據(jù)的補齊,但不能解決更大間隔的數(shù)據(jù)丟失問題;Sun 等[15-16]利用非參數(shù)回歸中的局部線性回歸模型進行丟失數(shù)據(jù)的補齊。韓衛(wèi)國等[17]利用常見的插補法,比較分析平均值法、最大期望法和數(shù)據(jù)增量法三者之間的優(yōu)缺點,并根據(jù)比較分析結(jié)果展望未來交通流數(shù)據(jù)填補的研究方向。Martin等[18]根據(jù)丟失數(shù)據(jù)的產(chǎn)生間隔不同,開發(fā)了不同的補齊方法,主要包括因子法、時間序列法、鄰近檢測器(時間、空間)數(shù)據(jù)預測方法等。
從以上文獻中可以看出,以往的研究往往都是基于本地歷史數(shù)據(jù)對交通流數(shù)據(jù)進行填補,但是這些方法在本地歷史數(shù)據(jù)缺失的情況下無法應用。因此,本研究針對傳統(tǒng)數(shù)據(jù)清洗中丟失數(shù)據(jù)填補模型存在的不足,在數(shù)據(jù)填補算法中考慮路網(wǎng)的空間拓撲結(jié)構(gòu)。模型算法充分考慮檢測器數(shù)據(jù)的時間和空間關(guān)系,能夠提高交通流數(shù)據(jù)填補的速度和精度。
武漢市交通檢測器的在線率常年穩(wěn)定在20%~30%,交通檢測器數(shù)據(jù)存在大量丟失,對于交通檢測器數(shù)據(jù)的丟失情況,需要對其進行數(shù)據(jù)補齊,但是初步的數(shù)據(jù)分析表明,大量的交通檢測器的歷史數(shù)據(jù)存在大量缺失,歷史數(shù)據(jù)量并不能完成檢測器丟失數(shù)據(jù)的填補,本研究考慮采用交通網(wǎng)絡的空間拓撲結(jié)構(gòu),利用時空關(guān)系進行丟失數(shù)據(jù)的填補,具體算法的流程見圖1。
對于交通檢測器數(shù)據(jù)缺失,根據(jù)交通檢測器編號找到該檢測器的數(shù)據(jù)表,查找該檢測器歷史周中相同工作日中是否有足夠的數(shù)據(jù)進行丟失數(shù)據(jù)填補,如果數(shù)據(jù)足夠,則利用該檢測器的歷史數(shù)據(jù)進行填補,填補算法為檢測器歷史數(shù)據(jù)取平均值作為丟失數(shù)據(jù);如果檢測器歷史數(shù)據(jù)不足,下一步鏈接交通檢測器數(shù)據(jù)表,找到缺失路段的編號,然后判斷該路段是否含有其他類型的交通檢測器。
1) 如果該路段含有其他類型的交通檢測器,繼續(xù)檢查該檢測器當前時刻是否含有數(shù)據(jù),如果含有數(shù)據(jù),則根據(jù)不同車道之間的權(quán)重(后續(xù)將介紹權(quán)重計算方法)進行數(shù)據(jù)填補;若該檢測器沒有數(shù)據(jù)按該路段沒有檢測器處理。
圖1 基于拓撲結(jié)構(gòu)的交通流數(shù)據(jù)填補流程圖Fig. 1 Improved imputation methods flowchart for traffic flow data based on spatial topology
2) 若沒有相同類型的檢測器,則根據(jù)上下游數(shù)據(jù)進行填補,具體如下:鏈接到ArcGIS 路網(wǎng)信息表,根據(jù)丟失路段的拓撲結(jié)構(gòu)確定上下游的路段編號。
根據(jù)丟失檢測器的路段編號,找到該編號對應的From_node 與To_node,根據(jù)From_node 來找到上游路段編號中對應To_node 的路段,同理可以找出下游路段的路段編號。根據(jù)上下游路段編號判斷一級上下游權(quán)重相關(guān)性較高的路段車道是否含有交通檢測器數(shù)據(jù),如果一級上下游權(quán)重相關(guān)性較高(后續(xù)介紹權(quán)重計算方法)的路段含有交通檢測器的數(shù)據(jù),則利用上述所說的車道間權(quán)重將一級上下游所有車道的數(shù)據(jù)全部補齊,再根據(jù)車道之間的權(quán)重關(guān)系將交通檢測器的丟失數(shù)據(jù)進行補齊;如果一級上下游權(quán)重相關(guān)性較高的路段中交通檢測器數(shù)據(jù)沒有數(shù)據(jù),繼續(xù)判斷一級上下游權(quán)重相關(guān)性次之的上下游道路,若找到交通檢測器含有數(shù)據(jù)則填補方法如權(quán)重相關(guān)性較高的道路填補方法。
在上下游一級道路未找到交通檢測器含有數(shù)據(jù),則考慮上下游二級道路,如果上下游二級道路中交通檢測器含有數(shù)據(jù),則根據(jù)上下游一級道路處理方法相同進行丟失檢測器填補。
在檢測器路段一二級上下游均未能找到相應的檢測器數(shù)據(jù),則繼續(xù)鏈接到交通檢測器數(shù)據(jù)表(含有道路類型),在該表中找到與交通檢測器數(shù)據(jù)丟失路段相同的道路類型,在交通檢測器數(shù)據(jù)表中找到與丟失數(shù)據(jù)路段中相同車道上交通檢測器中的數(shù)據(jù),將該數(shù)據(jù)直接應用于丟失數(shù)據(jù)路段中。
本文構(gòu)建的交通流數(shù)據(jù)填補模型在傳統(tǒng)交通流數(shù)據(jù)填補模型的基礎上加入空間拓撲結(jié)構(gòu)的填補。模型利用近鄰分析模型完成交通檢測器的歷史數(shù)據(jù)填補,并在此基礎上考慮實際交通網(wǎng)絡的空間拓撲結(jié)構(gòu),構(gòu)建了基于空間拓撲結(jié)果的車道間數(shù)據(jù)填補模型和上下游空間數(shù)據(jù)填補模型。相對于傳統(tǒng)交通流數(shù)據(jù)填補模型而言,本文構(gòu)建的基于空間拓撲結(jié)構(gòu)的交通流數(shù)據(jù)填補模型能更好地解決實際情況下交通檢測器數(shù)據(jù)丟失嚴重的情況,并在歷史數(shù)據(jù)填補模型失效的情況下,進一步找尋丟失檢測器路段的空間拓撲結(jié)構(gòu)關(guān)系,提高數(shù)據(jù)填補的能力。
對于不同道路類型中不同車道之間的權(quán)重標定,首先需要構(gòu)建基于流量數(shù)據(jù)的不同車道間權(quán)重計算的算法,利用編程將算法實現(xiàn),對挑選出的典型道路數(shù)據(jù)進行程序處理,得出相應車道間的權(quán)重值,最后將權(quán)重值存儲為靜態(tài)文件,以便后續(xù)對其調(diào)用應用到填補算法過程中。
權(quán)重算法計算分為工作日和非工作日2 種類型,工作日和非工作日中又分為每個小時不同車道之間的權(quán)重。根據(jù)道路等級對路網(wǎng)道路進行分類,其中道路等級分為快速路、主干道、次干道和支路,由于在實際情況下不同道路的車道數(shù)是不一樣的,本研究將所有車道數(shù)劃分為最內(nèi)側(cè)車道、中間車道和最外側(cè)車道3類,具體劃分原則見表1。
表1 不同車道數(shù)分類表Tab. 1 Classification table of different lane numbers
將車道劃分完成后,需要計算不同車道之間的權(quán)重關(guān)系。訓練一定量不同道路類型的權(quán)重值作為典型道路,具體算法流程為:鏈接到不同道路類型下交通檢測器的數(shù)據(jù)表,找出工作日不同車道檢測器一段時間的數(shù)據(jù),然后判斷這一段時間中車道的數(shù)據(jù)量值最小的數(shù)據(jù)量Xmin,然后其他車道的數(shù)據(jù)量均取對應這個最小的數(shù)據(jù)量Xmin,將不同車道的所有數(shù)據(jù)值進行相加得到不同車道總的交通檢測器數(shù)據(jù)值Sumi,然后將不同車道的數(shù)據(jù)總和作為不同車道之間的比例系數(shù),也就是不同車道之間的權(quán)重。即R1:R2:R3=Sum1:Sum2:Sum3。
對于不同道路等級均要算出不同車道之間在工作日和非工作日每個小時的權(quán)重。具體流程圖見圖2。
圖2 車道間權(quán)重計算流程圖Fig. 2 Flow chart of calculating the weight between lanes
本文構(gòu)建基于流量數(shù)據(jù)的路網(wǎng)上下游權(quán)重計算的算法,算法將標定上游一級各路段、下游一級各路段、上游二級各路段、下游二級各路段的流量與目標路段流量之間的關(guān)系,在后續(xù)模型參數(shù)選擇時可以調(diào)用計算的系數(shù)進行模型計算。
基于流量數(shù)據(jù)的路網(wǎng)上下游權(quán)重計算的算法是基于道路網(wǎng)的拓撲結(jié)構(gòu)計算,標定的路段基本結(jié)構(gòu)見圖3,其中Q0為目標路段,QlU為一級上/下游路段,QlUi為二級上/下游路段。
圖3 道路基本拓撲結(jié)構(gòu)示意圖Fig. 3 The spatial topology of road network
其中標定需要研究的路段流量為Q0;道路的上下游次數(shù)為l,當l=1時為一級上下游,l=2時為二級上下游;上游標識符為U,下游標識符為D;一級路段類型為i,i的道路類型分為快速路、主干路、次干路、支路4 種;二級路段類型為j,j 的道路類型同樣分為快速路、主干路、次干路、支路4種;上游一級路段流量,下游一級路段流量,上游二級路段流量,下游二級路段流量。
對上下游路段間流量關(guān)系采用一元線性回歸來描述,對二者構(gòu)建回歸函數(shù)公式y(tǒng) = a + bx ,y為目標路段流量值,x 為目標路段的影響范圍內(nèi)上/下游路段流量值。在本研究中,需要先標定一元線性回歸函數(shù)的參數(shù)值。標定通過獲取工作日及非工作日的流量數(shù)據(jù),對相應時段內(nèi)的目標路段和上/下游路段的流量采用一元線性回歸函數(shù)模型進行相關(guān)關(guān)系分析。對此參數(shù)值的標定采用最小二乘解的方法。利用流量數(shù)據(jù)計算參數(shù)的公式見式(1)。
根據(jù)上述一元線性回歸函數(shù),確定考慮了道路等級的路網(wǎng)拓撲結(jié)構(gòu)回歸函數(shù)參數(shù)符號。在路段權(quán)重標定的過程中,目標路段與一級上游路段間的權(quán)重系數(shù)為,與一級下游路段間的權(quán)重系數(shù)為,與二級上游路段間的權(quán)重系數(shù)為、,與二級下游路段間的權(quán)重系數(shù)為。本級路段流量均值上游二級路段流量均值,下游二級路段流量均值。以一級上游為例,權(quán)重參數(shù)值的計算公式見式(2)。
一二級上/下游路段與目標路段間權(quán)重的標定流程見圖4。
在實際的空間填補模型使用過程中,根據(jù)某一上/下游流量值和標定的參數(shù)計算目標路段的流量值。具體的表達式見式(3)。
武漢市智慧決策系統(tǒng)是由武漢理工大學智能交通中心綜合研究所與武漢市公安局交通管理局聯(lián)合開發(fā)的武漢市交通管理決策系統(tǒng),該系統(tǒng)對武漢市地磁檢測器、卡口電警、線圈檢測器共計5 869 個點位、20 713 個檢測器進行監(jiān)測。通過系統(tǒng)的地圖及檢測器的空間化信息能夠確定檢測器、路段的具體位置及空間關(guān)系。該系統(tǒng)以1 min的時間間隔將全路網(wǎng)的數(shù)據(jù)將檢測器接入到系統(tǒng)中。系統(tǒng)功能主要包括檢測器的數(shù)據(jù)采集質(zhì)量分析、檢測器數(shù)據(jù)清洗及填補、檢測器數(shù)據(jù)融合、短時交通流量預測及交叉口評估等。
由于不同功能的道路具有不同的交通流特性,因此考慮根據(jù)道路的功能對相應道路下的link進行道路功能組分類。按照現(xiàn)有的道路等級,對市域內(nèi)的link路段進行道路組的劃分,分別分為高速路、快速路、主干道、次干道、支路和輔路6 個道路功能組。構(gòu)建基于空間拓撲結(jié)構(gòu)的交通流數(shù)據(jù)填補模型。在使用該模型前,需要輸入各個link 的歷史數(shù)據(jù),通過相應的預測模型離線參數(shù)學習標定后,再上線使用。
圖4 一/二級上/下游路段與目標路段間權(quán)重的標定流程圖Fig. 4 The calibration flow chart of the weight between the first and second upstream/downstream sections and the target section
基于空間拓撲結(jié)構(gòu)的交通流數(shù)據(jù)填補模型針對交通流檢測器數(shù)據(jù)丟失嚴重情況,采用檢測器的自身數(shù)據(jù)無法完全填補,本文構(gòu)建基于空間拓撲結(jié)構(gòu)的交通流數(shù)據(jù)填補模型。利用武漢市的交通檢測器數(shù)據(jù)進行模型驗證,由于武漢市實際道路檢測器數(shù)量過于龐大且模型精度測試相對繁瑣,因此本論文驗證數(shù)據(jù)采用的是武漢市1條路段上的地磁檢測器數(shù)據(jù),其中路段的編號為1 015,地磁檢測器的編號為A08456和A05638。選取時候的原則是確保該檢測器的數(shù)據(jù)完整且路段上下游含有數(shù)據(jù)的交通檢測器。
驗證時假設檢測器的數(shù)據(jù)缺失,利用模型方法將缺失的數(shù)據(jù)進行填補,得到填補完成后的檢測器數(shù)據(jù)和檢測器原始數(shù)據(jù)進行對比分析,對比得到模型不同階段的填補誤差,采用平均絕對百分比誤差(MAPE)計算,具體的計算公式見式(4)。
式中:δ 為模型誤差;a為檢測器自己原始數(shù)據(jù);b為模型填補之后的數(shù)據(jù);n為測試數(shù)據(jù)的個數(shù)。
測試采用實際的2 個地磁檢測器的數(shù)據(jù)進行,數(shù)據(jù)時間跨度為1 d 24 h,時間粒度是1 min。根據(jù)檢測器時間跨度和時間粒度可得實驗樣本數(shù)據(jù)量為1 440。實驗分別驗證不同填補方案對應的填補誤差,得到表2。
從表2 可看到,基于空間拓撲結(jié)構(gòu)的交通數(shù)據(jù)填補模型的2個檢測器精度測試的平均相對誤差分別為52.88%和51.93%。由于模型車道間和上下游的空間拓撲結(jié)構(gòu)對丟失數(shù)據(jù)進行填補,上下游和車道的空間關(guān)系均對交通流的影響較大,因此數(shù)據(jù)誤差相對較大。但相對于傳統(tǒng)交通流數(shù)據(jù)填補模型,本文提出的模型能解決傳統(tǒng)模型不能填補的問題,在現(xiàn)實應用中具有較大的實用性。
表2 不同填補方案實驗誤差結(jié)果Tab. 2 Experimental APE of different filling model 單位:%
交通流數(shù)據(jù)作為城市交通規(guī)劃和管理的基礎來源,數(shù)據(jù)質(zhì)量的好壞直接影響到實際的路況分析和交通決策,但由于交通檢測器數(shù)據(jù)在實際情況下往往出現(xiàn)大量的丟失,因此對交通流數(shù)據(jù)填補變得尤為重要。通過閱讀交通流數(shù)據(jù)清洗中關(guān)于丟失數(shù)據(jù)填補的研究發(fā)現(xiàn),現(xiàn)有的研究大量致力于通過自身交通檢測器數(shù)據(jù)進行填補,通過自身歷史數(shù)據(jù)進行平均或者預測等方法將缺失數(shù)據(jù)填補完成?;谘芯楷F(xiàn)狀,本文通過構(gòu)建基于空間拓撲結(jié)構(gòu)的交通流數(shù)據(jù)填補模型,研究通過計算不同拓撲結(jié)構(gòu)下的權(quán)重關(guān)系,計算典型情況下的權(quán)重數(shù)值,應用于交通流數(shù)據(jù)填補,模型打破以往研究的瓶頸,增加其他類型檢測器和考慮空間拓撲結(jié)構(gòu)關(guān)系,最后通過武漢市實際的交通檢測器進行模型驗證,實驗結(jié)果表明模型應用性較強,由于檢測器數(shù)據(jù)丟失情況嚴重,模型在2 個檢測器上的平均相對誤差為52.88% 和51.93%。雖然在精度上還需要進一步提高,但是能夠在大范圍內(nèi)為交通流檢測器填補丟失數(shù)據(jù),為智慧交通決策提供數(shù)據(jù)支撐。