蔡曉禹,譚宇婷,雷財(cái)林,劉秀彩
(重慶交通大學(xué) 交通運(yùn)輸學(xué)院,重慶 400074)
城市交通擁堵已經(jīng)成為城市發(fā)展面臨的重大難題。根據(jù)百度地圖發(fā)布的《2017 年度城市研究報(bào)告》,北京市因交通擁堵帶來(lái)了 4 013.31 元的年人均經(jīng)濟(jì)損失,重慶年人均擁堵成本 2 856.59元。精確和高效的短時(shí)交通流量預(yù)測(cè)有助于提高交通管理與控制水平、輔助決策制定、改善道路服務(wù)水平。但是,現(xiàn)代城市交通系統(tǒng)愈加脆弱,交通的隨機(jī)性與不確定性增強(qiáng),這一改變使傳統(tǒng)的建模手段不能很好地處理及預(yù)測(cè)交通流信息。近年來(lái),隨著智能交通系統(tǒng)及設(shè)施在城市交通中的廣泛應(yīng)用,城市交通進(jìn)入了大數(shù)據(jù)時(shí)代。多元、海量、異構(gòu)的交通數(shù)據(jù)構(gòu)建了交通研究的新環(huán)境。因此,應(yīng)探索新的研究方法以適應(yīng)大數(shù)據(jù)環(huán)境下短時(shí)交通流量預(yù)測(cè)。
道路交通流本身是車(chē)輛在不同時(shí)間和空間上的分布。交通流量預(yù)測(cè)的相關(guān)研究有近 40 年的歷史,國(guó)內(nèi)外學(xué)者提出的交通流量短時(shí)預(yù)測(cè)方法已達(dá)幾十種。城市道路交通流量預(yù)測(cè)根據(jù)預(yù)測(cè)時(shí)長(zhǎng)分為長(zhǎng)期預(yù)測(cè)、中長(zhǎng)期預(yù)測(cè)、短期預(yù)測(cè)和短時(shí)預(yù)測(cè)。在已有短時(shí)預(yù)測(cè)研究中,預(yù)測(cè)時(shí)間段包括幾分鐘到幾小時(shí),使用數(shù)據(jù)包括當(dāng)前觀測(cè)值和歷史值[1]。個(gè)人隨機(jī)因素對(duì)短時(shí)交通流影響巨大,導(dǎo)致交通流具有很強(qiáng)的不確定性、非線性、非平穩(wěn)性。因此,預(yù)測(cè)方法應(yīng)具備實(shí)時(shí)性、準(zhǔn)確性、穩(wěn)健性、自適應(yīng)性和可移植性[2]。
交通流量預(yù)測(cè)方法早期主要有指數(shù)平滑預(yù)測(cè)法、卡爾曼濾波法、時(shí)間序列法預(yù)測(cè)等。近期交通流預(yù)測(cè)開(kāi)始轉(zhuǎn)向以數(shù)據(jù)為驅(qū)動(dòng)的預(yù)測(cè)方式[3]。根據(jù)其模型特性,主流的預(yù)測(cè)方法可以歸納為 4 類(lèi):基于線性系統(tǒng)理論、基于非線性系統(tǒng)理論、基于知識(shí)發(fā)現(xiàn)的智能預(yù)測(cè)方法及組合預(yù)測(cè)模型法[4-5]。
(1)基于線性系統(tǒng)理論方法?;诰€性系統(tǒng)理論方法包括:歷史平均模型、時(shí)間序列模型、卡爾曼濾波、線性回歸模型等。時(shí)間序列預(yù)測(cè)技術(shù)是通過(guò)對(duì)預(yù)測(cè)目標(biāo)自身時(shí)間序列的處理來(lái)研究其變化趨勢(shì)。時(shí)間序列法建模簡(jiǎn)單,當(dāng)數(shù)據(jù)充足和交通流平穩(wěn)時(shí)預(yù)測(cè)精度較高。但是,此類(lèi)方法的局限性在于時(shí)間序列預(yù)測(cè)中需要涉及大量參數(shù)估計(jì),導(dǎo)致預(yù)測(cè)可移植性和適應(yīng)性較差,預(yù)測(cè)過(guò)程中模型辨識(shí)和檢驗(yàn)的過(guò)程比較繁瑣。卡爾曼濾波法是一種最優(yōu)化自回歸數(shù)據(jù)處理算法,它由狀態(tài)方程和觀測(cè)方程組成狀態(tài)空間模型,預(yù)測(cè)算法來(lái)源于現(xiàn)代控制理論中的卡爾曼濾波理論。郭海鋒等[6]利用模糊理論和卡爾曼濾波結(jié)合,改善了單一卡爾曼預(yù)測(cè)交通流量存在的時(shí)間滯后性的特點(diǎn)。由于卡爾曼濾波法是線性模型,因而當(dāng)預(yù)測(cè)時(shí)間變短時(shí),隨著短時(shí)交通流非線性、不確定性的增強(qiáng),模型性能變差[7]。
(2)基于非線性系統(tǒng)理論方法?;诜蔷€性系統(tǒng)理論方法主要包括:小波分析模型、基于突變理論預(yù)測(cè)法、基于混沌理論預(yù)測(cè)法等。交通流預(yù)測(cè)中基于小波分析的預(yù)測(cè)方法核心思想是將獲取的歷史交通流量時(shí)間序列數(shù)據(jù)進(jìn)行分解。其優(yōu)勢(shì)在于將數(shù)據(jù)時(shí)間與空間頻率進(jìn)行局部化分析。但是,小波分析僅是處理交通流數(shù)據(jù)的一種方法,就預(yù)測(cè)的核心而言還需要依靠其他模型。王娟[8]通過(guò)小波分解將交通流分為高低頻分量,再結(jié)合 ARIMA 模型進(jìn)行預(yù)測(cè)。余國(guó)強(qiáng)[9]利用小波分解與神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),并利用粒子群算法對(duì)模型中的參數(shù)進(jìn)行優(yōu)化。
(3)基于知識(shí)發(fā)現(xiàn)的智能預(yù)測(cè)方法?;谥R(shí)發(fā)現(xiàn)的智能預(yù)測(cè)方法包括:支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型、非參數(shù)回歸預(yù)測(cè)模型等。支持向量機(jī)于20 世紀(jì) 90 年代提出,算法泛化能力較強(qiáng),在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。姚智勝等[10-11]將支持向量機(jī)結(jié)合回歸估計(jì),利用多元交通信息完成預(yù)測(cè);基于小波包和支持向量機(jī)結(jié)合對(duì)北京快速路流量進(jìn)行預(yù)測(cè)。近年來(lái),大量的研究致力于借用其他理論和算法與支持向量機(jī)結(jié)合。人工神經(jīng)網(wǎng)絡(luò)簡(jiǎn)稱(chēng)為神經(jīng)網(wǎng)絡(luò)或連接模型,是對(duì)人腦或自然神經(jīng)網(wǎng)絡(luò)若干基本特性的抽象和模擬[12]。此方法需要大量的數(shù)據(jù)作為支撐,訓(xùn)練時(shí)間較長(zhǎng),適應(yīng)能力較差,而且訓(xùn)練出的模型只能應(yīng)用于同一場(chǎng)景。目前研究針對(duì)模型優(yōu)化和變異開(kāi)展了大量研究,如 Li 等[13]通過(guò)多元數(shù)據(jù)融合和神經(jīng)網(wǎng)絡(luò)模型完成了對(duì)高速偶發(fā)交通擁堵的預(yù)測(cè)。熊偉晴等[14]利用一個(gè)基于規(guī)則的模糊系統(tǒng)非線性地組合 BP 神經(jīng)網(wǎng)絡(luò)模型,改善預(yù)測(cè)時(shí)識(shí)別率不理想和可信度不高的情況。
(4)基于組合模型預(yù)測(cè)方法。組合模型預(yù)測(cè)法是將 2 種及以上的預(yù)測(cè)方法結(jié)合起來(lái),以此發(fā)揮各自的優(yōu)點(diǎn),補(bǔ)足各自的缺點(diǎn)。這是由于短時(shí)交通流隨機(jī)性高,預(yù)測(cè)困難,單一的模型實(shí)際預(yù)測(cè)效果欠佳而產(chǎn)生的預(yù)測(cè)思路。
早期的交通數(shù)據(jù)難以獲取,數(shù)據(jù)環(huán)境體量小、質(zhì)量低,導(dǎo)致預(yù)測(cè)研究多采用小樣本數(shù)據(jù)。因此,純數(shù)學(xué)理論的復(fù)雜模型被大量引入預(yù)測(cè)研究中,這種方式忽略了交通流內(nèi)在的特征與演變的機(jī)理。而過(guò)于復(fù)雜的模型,如神經(jīng)網(wǎng)絡(luò)和組合模型,過(guò)程復(fù)雜、運(yùn)算量大,不利于短時(shí)流量預(yù)測(cè)的實(shí)際應(yīng)用。
短時(shí)交通流量預(yù)測(cè)中,研究對(duì)象、預(yù)測(cè)間隔、數(shù)據(jù)來(lái)源格式都有差別,不易相互比較優(yōu)缺點(diǎn)。目前短時(shí)交通流量預(yù)測(cè)研究的預(yù)測(cè)步長(zhǎng)以單步預(yù)測(cè)為主,預(yù)測(cè)間隔在 1~15min 以?xún)?nèi);預(yù)測(cè)研究重點(diǎn)在于對(duì)已有模型的優(yōu)化,特別是通過(guò)組合模型提高預(yù)測(cè)精度和適用性;流量預(yù)測(cè)研究路段集中在高速公路與城市快速路,對(duì)于占路網(wǎng)比例較大的城市普通路段研究較少;預(yù)測(cè)輸入變量多采用單變量,海量的交通數(shù)據(jù)沒(méi)有得到有效利用。
目前,短時(shí)交通流量預(yù)測(cè)面臨以下挑戰(zhàn)。
(1)交通脆弱性。交通脆弱性指交通網(wǎng)絡(luò)受到干擾時(shí),整體交通系統(tǒng)服務(wù)水平下降程度。交通的脆弱性受到路網(wǎng)拓?fù)潢P(guān)系、交通需求、交通環(huán)境的共同影響[15]。城市交通需求急劇增加,使得交通波動(dòng)性增強(qiáng)、交通系統(tǒng)對(duì)抗外部干擾的能力降低,使預(yù)測(cè)更加困難。
(2)交通建模。線性和非線性系統(tǒng)理論預(yù)測(cè)研究思路都是以建立數(shù)學(xué)公式結(jié)合當(dāng)前流量數(shù)據(jù)以此推演未來(lái)時(shí)刻的量,并未考慮流量演變的特征。
(3)預(yù)測(cè)精確性。城市交通擁堵加劇導(dǎo)致對(duì)交通控制的要求變高。精確的預(yù)測(cè)結(jié)果是城市交通精細(xì)化控制及誘導(dǎo)的數(shù)據(jù)支撐。預(yù)測(cè)需要滿(mǎn)足精度高、效率高的原則。只使用當(dāng)前觀測(cè)采集的流量作為研究對(duì)象的算法,在交通量較大、系統(tǒng)運(yùn)行不穩(wěn)定時(shí)在線預(yù)測(cè)難以滿(mǎn)足要求。因此,面對(duì)新的預(yù)測(cè)需求,提出一種大數(shù)據(jù)環(huán)境下短時(shí)流量預(yù)測(cè)新思路。
隨著道路感應(yīng)線圈、電子卡口、射頻識(shí)別(RFID) 等檢測(cè)器在城市道路廣泛布設(shè),以及交通數(shù)據(jù)自動(dòng)采集技術(shù)逐漸成熟,利用自動(dòng)采集的海量數(shù)據(jù)挖掘城市交通特征已成為發(fā)展趨勢(shì)。與傳統(tǒng)交通數(shù)據(jù)環(huán)境不同,交通大數(shù)據(jù)有顯著的 6V 特征:體量巨大 (Volume);處理快速 (Velocity);數(shù)據(jù)源多樣、數(shù)據(jù)來(lái)源廣泛、類(lèi)型豐富 (Variety);真假共存數(shù)據(jù)存在缺失、錯(cuò)誤、冗余等 (Veracity);價(jià)值豐富(Value),數(shù)據(jù)具有時(shí)間、空間、歷史等多維特征;可視化 (Visualization),交通運(yùn)行狀態(tài)、城市路網(wǎng)特性通過(guò)可視化技術(shù)展現(xiàn)[16]。
在交通大數(shù)據(jù)環(huán)境下,通過(guò)數(shù)據(jù)可視化技術(shù)展現(xiàn)交通流時(shí)空演變過(guò)程,研究者可以更直觀地探尋交通流內(nèi)在規(guī)律,以及外界因素與流量變化之間的關(guān)聯(lián)規(guī)則。多元、海量的數(shù)據(jù)包含各種交通場(chǎng)景、交通態(tài)勢(shì),將提升預(yù)測(cè)模型的適應(yīng)性與精確性。為保證預(yù)測(cè)精度,小數(shù)據(jù)環(huán)境下的模型往往復(fù)雜。大數(shù)據(jù)驅(qū)動(dòng)下可以簡(jiǎn)化模型構(gòu)建方法,增強(qiáng)預(yù)測(cè)算法實(shí)用性[17]。
交通流是一個(gè)典型的時(shí)變系統(tǒng),交通流時(shí)序圖反映了交通量隨時(shí)間的變化情況。變化的背后隱藏了各種環(huán)境因素,如天氣因素、氣候因素、交通事故、工作出行等。重慶市某路段斷面交通流量時(shí)間序列如圖 1 所示。
從圖 1 可以看出,工作日與非工作日交通流態(tài)勢(shì)差異明顯。工作日 1 中因出現(xiàn)交通事故交通量迅速下降,后期路段恢復(fù)通行,交通流回歸正常。這些外部因素導(dǎo)致交通流呈現(xiàn)出相應(yīng)的交通態(tài)勢(shì)。當(dāng)外部因素重復(fù)發(fā)生,交通流進(jìn)而產(chǎn)生相似的態(tài)勢(shì)。
環(huán)境因素對(duì)交通流的影響機(jī)理及導(dǎo)致的結(jié)果難以用數(shù)學(xué)模型描述與預(yù)測(cè)。但是,在海量數(shù)據(jù)的支持下,就能獲取不同路段在不同因素共同作用下的交通流變化情況即呈現(xiàn)的交通態(tài)勢(shì)。數(shù)據(jù)庫(kù)越豐富、質(zhì)量越高,找出交通態(tài)勢(shì)共性和結(jié)果的可能性越大。當(dāng)出現(xiàn)相同態(tài)勢(shì)即可根據(jù)歷史結(jié)果進(jìn)行預(yù)測(cè),以此概念提出通過(guò)尋找具有共性的交通態(tài)勢(shì)的預(yù)測(cè)方法。
圖 1 重慶市某路段斷面交通流量時(shí)間序列Fig.1 Time series of traf fi c fl ows on a road section in Chongqing
交通流量短時(shí)預(yù)測(cè)方法通過(guò)尋找相似的交通態(tài)勢(shì)進(jìn)行預(yù)測(cè),即在歷史流量中尋找與當(dāng)前相似交通流態(tài)勢(shì)的時(shí)間序列,交通流量短時(shí)預(yù)測(cè)流程如圖 2所示,主要分為歷史數(shù)據(jù)庫(kù)、當(dāng)前觀測(cè)交通流、相似態(tài)勢(shì)度量機(jī)制、預(yù)測(cè)值組合函數(shù) 4 個(gè)部分。
圖 2 交通流量短時(shí)預(yù)測(cè)流程圖Fig.2 The fl ow chart of short-term traf fi c forecasting
理想的數(shù)據(jù)庫(kù)應(yīng)包含各種影響因素下的交通態(tài)勢(shì)和典型規(guī)律,以便能在歷史數(shù)據(jù)庫(kù)中找到與觀測(cè)交通流相似的歷史交通流。但一味地?cái)U(kuò)大數(shù)據(jù)庫(kù)的數(shù)據(jù)量,冗余的數(shù)據(jù)又會(huì)導(dǎo)致計(jì)算量增大,增加搜索時(shí)間。因此,需要在減少冗余數(shù)據(jù)的同時(shí)盡可能保證典型數(shù)據(jù)的豐富性,體現(xiàn)各種交通狀態(tài)[18]。在城市道路中,因居民出行規(guī)律的相似性和出行方式的雷同性,城市路網(wǎng)節(jié)點(diǎn)交通流量變化具有類(lèi)似特點(diǎn)。通過(guò)預(yù)測(cè)斷面聚類(lèi)的手段,將相似斷面的歷史數(shù)據(jù)合并,可以保證特征交通態(tài)勢(shì)豐富。預(yù)測(cè)路段交通流特性相差較大,則數(shù)據(jù)庫(kù)可以彼此分離,較少冗余數(shù)據(jù)。機(jī)器算法中的聚類(lèi)分析作為一種數(shù)據(jù)歸約技術(shù),可以揭示一個(gè)數(shù)據(jù)集中觀測(cè)值的子集,把大量的觀測(cè)值歸約為若干類(lèi)。利用層次聚類(lèi)算法,將具有相似性交通流路段的數(shù)據(jù)庫(kù)融合為一個(gè)數(shù)據(jù)集,具體算法如下。
(1)初始構(gòu)造n個(gè)類(lèi),N即待劃分的流量檢測(cè)斷面的數(shù)量。每個(gè)類(lèi)包含 1組樣本,即該斷面的歷史流量。
(2)計(jì)算每類(lèi)和其他各類(lèi)的向量距離。
(3)利用離差平方和法 (Ward 法) 計(jì)算類(lèi)間間距,將距離最短的 2 類(lèi)合并為一個(gè)新類(lèi)。
(4)重復(fù)步驟(2)和步驟(3),直到包含所有觀測(cè)值的類(lèi)合并成單個(gè)的類(lèi)為止。
(5)作聚類(lèi)分析圖,決定類(lèi)的個(gè)數(shù),合并同一類(lèi)中的檢測(cè)單元數(shù)據(jù)庫(kù)。
當(dāng)前衡量交通流相似度通常使用樣本之間的歐式距離,若歐式距離越小,交通流之間就越相似。但是,歐式距離只能反應(yīng)特征向量在空間上的“靠近性”,衡量的是空間各點(diǎn)的絕對(duì)距離。并且歐式距離對(duì)變量的量綱有依賴(lài),在實(shí)際計(jì)算時(shí)容易造成與流量演變的實(shí)際含義相悖。在眾多樣本距離計(jì)算方法中,余弦距離可以考察向量之間形狀的“相似性”,如 2 個(gè)交通流向量余弦距離越接近于 1,說(shuō)明其水平夾角越相似,整體形狀而言就越相近。
通過(guò)融合歐式距離和余弦距離的相似度量機(jī)制將兼顧彼此優(yōu)勢(shì),保證在歷史數(shù)據(jù)庫(kù)篩選交通態(tài)勢(shì)的“相似性”和“靠近性”?;谌诤暇嚯x的相似度量機(jī)制如圖 3 所示。坐標(biāo)系中的每一個(gè)點(diǎn)表示歷史交通流在融合距離空間里的屬性,橫縱坐標(biāo)分別表示歷史交通流與觀測(cè)交通流的余弦距離和歐式距離,r表示融合距離。圖中的A點(diǎn) (0,1) 歐式距離為 0,余弦距離為 1,表示需要預(yù)測(cè)的觀測(cè)交通流向量。如果只看單一距離,將點(diǎn)投影到坐標(biāo)軸,D點(diǎn)流量與A點(diǎn)余弦距離最接近,但從融合距離來(lái)說(shuō)并不接近,因此該點(diǎn)的屬性為“相似度”高但“靠近性”差。同理E點(diǎn)屬性為“靠近性”強(qiáng),但“相似度”低,兩者皆不屬于最優(yōu)的相似交通流。從融合距離上看B和C是與A的融合距離最近的 2 個(gè)點(diǎn),屬于與A最相似的 2 個(gè)交通流。可見(jiàn),利用單一距離作為相似度量機(jī)制是有缺陷的,必須依靠融合距離的度量機(jī)制才能從數(shù)據(jù)庫(kù)篩選出最優(yōu)的歷史相似交通流。
圖 3 基于融合距離的相似度量機(jī)制Fig.3 Practical signi fi cance of fusion distance
預(yù)測(cè)算法中涉及到 2 個(gè)重要參數(shù),其一是作為匹配的觀測(cè)流量序列應(yīng)該截取多長(zhǎng)的時(shí)間,這將關(guān)系到找到的歷史交通態(tài)勢(shì)是否具有預(yù)測(cè)的功能。時(shí)間過(guò)短的流量不具有實(shí)際意義,時(shí)間過(guò)長(zhǎng)的流量會(huì)削弱最近觀測(cè)值的權(quán)重。另一參數(shù)則是選取相似的歷史交通態(tài)勢(shì)的樣本數(shù)量。如果選擇的個(gè)數(shù)過(guò)少,則預(yù)測(cè)容易被極端值影響,導(dǎo)致預(yù)測(cè)風(fēng)險(xiǎn)。如果樣本量過(guò)多,則冗余樣本的噪聲會(huì)干擾預(yù)測(cè)結(jié)果,降低預(yù)測(cè)精度。因此,需要對(duì)這 2 種參數(shù)取值對(duì)預(yù)測(cè)結(jié)果的影響進(jìn)行研究。在實(shí)際應(yīng)用中,可以根據(jù)這2 個(gè)參數(shù)不同值組合下預(yù)測(cè)的精度,通過(guò) OLS 線性回歸的方式選取最優(yōu)參數(shù)組合。
在短時(shí)交通流量預(yù)測(cè)近 40 年的歷史中,預(yù)測(cè)數(shù)據(jù)環(huán)境經(jīng)歷了多個(gè)階段的變化,目前處在數(shù)字城市和智慧城市建設(shè)形成的多元、異構(gòu)大數(shù)據(jù)環(huán)境中。交通流量預(yù)測(cè)手段則由線性和非線性模型逐漸向智能預(yù)測(cè)方式轉(zhuǎn)變。短時(shí)交通流量預(yù)測(cè)需要考慮其獨(dú)特的時(shí)空特性,尋找共性規(guī)律。如果僅僅從高精度、高復(fù)雜度的純數(shù)學(xué)統(tǒng)計(jì)模型入手,只會(huì)將交通流數(shù)字化、片面化。交通大數(shù)據(jù)環(huán)境的構(gòu)建為短時(shí)交通流量預(yù)測(cè)開(kāi)啟了新的變革,如何借用大數(shù)據(jù)平臺(tái)構(gòu)建簡(jiǎn)潔、高效、實(shí)用的預(yù)測(cè)算法將成為未來(lái)的研究重點(diǎn)。