王海起 張 騰 王勁峰 孟 斌
(中國石油大學(華東)地球科學與技術(shù)學院1) 青島 266580)(中國科學院地理科學與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室2) 北京 100101)(北京聯(lián)合大學應(yīng)用文理學院3) 北京 100191)
TOD(time of day)多時段配時屬于交通信號離線配時方式,它根據(jù)交通流的變化情況將1d分為多個時段,每個時段內(nèi)的交通量基本不變,各時段分別采用不同的配時方案,信號燈根據(jù)實時時鐘自動進行配時方案的切換.
隨著智能交通系統(tǒng)的發(fā)展,城市道路、交叉口等安裝了不同類型的交通流檢測設(shè)備,這些采集系統(tǒng)積累了大量的交通流歷史數(shù)據(jù),借助于聚類手段,可以將1d不同時刻的交通流數(shù)據(jù)聚為不同的幾類,不同的類代表高峰、低峰等不同的交通狀態(tài),屬于同一類的各時刻具有相近的交通狀態(tài)[1],因此,同一類中的連續(xù)時刻可以歸為同一個TOD時段,從而可以確定1d的TOD時段分布.
然而,對于區(qū)域交通TOD配時,由于參與聚類的交通檢測器數(shù)目較多,且數(shù)據(jù)質(zhì)量參差不齊,可能導(dǎo)致出現(xiàn)無效的TOD時段(無效時段一般指長度少于30min,沒有實際價值的TOD時段)或TOD時段數(shù)過多,各時段間的切換需要耗費時間,頻繁的TOD時段切換將導(dǎo)致信號配時性能下降,因此應(yīng)減少參與TOD時段識別的檢測器,重點考慮關(guān)鍵路口的檢測數(shù)據(jù)[2].所謂關(guān)鍵路口是指對區(qū)域路網(wǎng)性能具有關(guān)鍵影響的信號交叉口.
本文提出了一種基于數(shù)據(jù)驅(qū)動的區(qū)域TOD時段識別方法,包括交通數(shù)據(jù)整理、關(guān)鍵交通流選取、聚類分析、TOD時段識別等步驟,數(shù)據(jù)整理的目的是對檢測設(shè)備獲取的交通數(shù)據(jù)進行質(zhì)量監(jiān)測,定位缺失值和無效值,并采用合適的方法進行插補;交通流選取的目的是在空間上識別出整個區(qū)域路網(wǎng)的關(guān)鍵交通流,包括確定關(guān)鍵交通流個數(shù)和定位關(guān)鍵交通流位置2個步驟;聚類分析的目的是對關(guān)鍵交通流不同時刻的觀測值進行聚類,從而獲取不同類型的交通狀態(tài),包括聚類分析、聚類效果判別及類數(shù)確定等;TOD時段識別的目的是根據(jù)各時刻所處的交通狀態(tài),識別出一天的TOD時段數(shù)及各時段間隔.
1.1.1 數(shù)據(jù)質(zhì)量監(jiān)測
造成原始檢測數(shù)據(jù)缺失或無效的可能原因有多種,包括檢測器故障、通信故障、人員或系統(tǒng)數(shù)據(jù)處理錯誤等[3].
原始數(shù)據(jù)中的缺失值一般以零值或空白作為記錄,容易判斷,缺失現(xiàn)象的出現(xiàn)較隨機,可能缺失某一個或多個時段的數(shù)據(jù),可能缺失1d或多天的數(shù)據(jù),也可能出現(xiàn)在單個或多個檢測器上.
相對于數(shù)據(jù)缺失,交通數(shù)據(jù)的無效性判斷要復(fù)雜些,無效數(shù)據(jù)是指不符合交通流特征與參數(shù)關(guān)系的檢測數(shù)據(jù)或異常高、低的離群數(shù)據(jù).
Turochy和May提出了無效數(shù)據(jù)探測的交通數(shù)據(jù)篩選規(guī)則[4],包括:非零值檢驗、預(yù)篩選檢驗和可行流量值檢驗.
離群數(shù)據(jù)探測可采用可視化與統(tǒng)計相結(jié)合的手段[5].例如,對于道路某方向可繪制連續(xù)時刻流量的變化曲線,一般來說,流量的連續(xù)變化總是相對平滑的,因此,如果相鄰時段流量突然劇增或劇減,那么該數(shù)據(jù)存在高度離群的可能,進一步的判斷可采用正態(tài)分布χ2檢驗、偏度峰度檢驗、四分位檢驗等統(tǒng)計方法.
由于涉及的研究區(qū)域線圈檢測器僅采集流量數(shù)據(jù),并沒有占有率和速度數(shù)據(jù),因此本文對無效值的判斷集中于離群數(shù)據(jù)的探測.需要指出的是,對采用可視化、統(tǒng)計等手段探測出的離群數(shù)據(jù)應(yīng)作進一步辨識,以判斷是由于設(shè)備、通信故障等造成的偽數(shù)據(jù),還是特定交通狀況的真實反映,可從時空兩方面進行識別:在時間上將離群數(shù)據(jù)所處時段和前后時段、前后若干天同一時段進行對比,在空間上將離群數(shù)據(jù)所在交通流向和同一路口其他流向?qū)?yīng)時段、相鄰路口同一流向?qū)?yīng)時段等進行對比,以確認離群數(shù)據(jù)的真?zhèn)涡裕?/p>
1.1.2 缺失及無效數(shù)據(jù)處理
處理缺失、無效數(shù)據(jù)的簡單方式是將其對應(yīng)的記錄從交通數(shù)據(jù)倉庫中刪除.但是,對于TOD時段識別,簡單刪除將導(dǎo)致對應(yīng)時段的觀測值出現(xiàn)空白,而對一天不同時刻觀測值進行聚類要求參與聚類的時段能夠反映不間斷的交通變化狀況,即各時刻須具有相應(yīng)的觀測值,因此可對缺失或無效數(shù)據(jù)進行插補以獲得合理的估計值.韓衛(wèi)國比較了幾種用于流量缺失數(shù)據(jù)插補的方法,包括歷史平均值法、相鄰時段平均值法、相鄰檢測器平均值法、EM(expectation maximization)方法,MCMC(markov chain mento carlo)方法,以及改進的空間EM方法,實際效果表明后三種方法明顯好于其他方法[6].本文采用EM方法進行插補.
對于單個信號交叉口而言,可能僅有4個入口,卻可能有12種交通流向(每個入口有左轉(zhuǎn)、直行和右轉(zhuǎn)3個方向),如果每個方向均安裝檢測器,那么單個路口就存在12種交通流的觀測數(shù)據(jù).對于包含多個交叉口的區(qū)域路網(wǎng)來說,檢測器數(shù)目增加得更快.從數(shù)據(jù)挖掘角度來說,大量的數(shù)據(jù)總能提供更多有價值的信息.然而,對交通工程來說,一方面,交通網(wǎng)絡(luò)中不同路口、不同方向、交通流的重要性是不一樣的,那些對整個路網(wǎng)性能起到關(guān)鍵影響的交通流向總是被優(yōu)先考慮;另一方面,對于隨后的聚類分析,如果參與的檢測器過多(即交通流過多),可能導(dǎo)致獲取的交通狀態(tài)及相應(yīng)的TOD時段數(shù)過多,各TOD配時方案的頻繁切換不僅耗費時間而且會干擾交通流的正常流動,從而降低整個交通控制系統(tǒng)的性能.
因此,關(guān)鍵交通流選取就是識別路網(wǎng)的主要交通流,在維持交通控制系統(tǒng)性能不降的前提下僅保留那些包含主要特征的變量(每個交通流視為一個變量)以降低問題空間維數(shù),采用多元相關(guān)分析和主成分分析法.
1.2.1 多元相關(guān)分析
基于多元相關(guān)分析的主要變量選取思路就是選取一個指定數(shù)目的變量子集,使子集中的變量(看作解釋變量)與子集外的其余變量(看作因變量)具有最大的復(fù)相關(guān)系數(shù).
設(shè)全體變量的個數(shù)為k,需從中選取p個主要變量,有以下2種方法.
方法A1,每次從全體變量中選取p個變量作為一組,計算該組p個變量與其余k-p個變量中每個變量的復(fù)相關(guān)系數(shù),并保留其中最小的復(fù)相關(guān)系數(shù),最后比較各組的最小復(fù)相關(guān)系數(shù),數(shù)值最大的那組即為最終選取的p個主要變量.該方法可以找到一組最佳的主要變量,但需獲取p個變量的所有組合,效率較低.
方法A2,每次在全體變量中尋找與其他變量復(fù)相關(guān)系數(shù)最大的那個變量將其舍棄,并在剩余變量中重復(fù)該過程,直至剩下p個變量.該方法比方法A1速度快,但不能保證找到最佳的p個主要變量.
1.2.2 主成分分析
將貢獻率小的主成分最能解釋(即變差比例大,主成分與原始變量之間的相關(guān)系數(shù)稱為變差比例)的原始變量舍棄掉,剩余的原始變量即為需保留的主要變量.
從k個原始變量中選取p個主要變量有以下2種方法.
方法B1,從最小特征值開始的k-p個主成分,對每個主成分選取其最能解釋的一個原始變量,每次選取時不考慮之前已被選取的變量,直至最后得到k-p個需舍棄的原始變量.
方法B2,從最大特征值開始的p個主成分,對每個主成分選取其最能解釋的一個原始變量,每次選取時不考慮之前已被選取的變量,直至最后得到p個需保留的主要變量.
1.2.3 主要變量個數(shù)
選取多少個變量足以包含原始數(shù)據(jù)集的主要特征,即多元相關(guān)分析和主成分分析中p的確定.
Jolliffe認為當舍棄的變量個數(shù)等于相關(guān)矩陣小于0.7的特征值個數(shù)時,其效果較好,稱為Jolliffe’s eigenvalues less than 0.7方法.
在SAS,SPSS等統(tǒng)計軟件中,常用的是主成分個數(shù)與協(xié)方差矩陣或相關(guān)矩陣大于1.0的特征值個數(shù)相同,稱為eigenvalues-great-than-one.
Velicer提出了基于偏相關(guān)矩陣的MAP(minimum average partial)方法,該方法依次構(gòu)建各階偏相關(guān)系數(shù)矩陣(階數(shù)從零到變量個數(shù)減1),計算各階矩陣中相關(guān)系數(shù)平方的均值(即矩陣上三角或下三角元素平方的均值),則具有最小均值的階數(shù)即為主要變量個數(shù).
另外,Horn提出了平行分析法PA(parallel analysis),是eigenvalues-great-than-one方法基于樣本的改進版本.首先構(gòu)建與樣本數(shù)據(jù)集具有相同變量、樣本個數(shù)的隨機數(shù)據(jù)集,然后比較樣本數(shù)據(jù)集和隨機數(shù)據(jù)集相關(guān)矩陣的特征值,若前者的特征值大于后者對應(yīng)的特征值,則相應(yīng)的主成分被保留,最后保留的主成分個數(shù)即為主要變量個數(shù).
基于多檢測器數(shù)據(jù)識別路網(wǎng)的關(guān)鍵交通流時,首先采用上述4種方法確定關(guān)鍵交通流的個數(shù),然后采用A1,A2,B1和B2方法識別出關(guān)鍵交通流所處的空間位置.
采用層次聚類對區(qū)域關(guān)鍵交通流各時刻的觀測值進行樣本聚類,從而獲取不同類型的交通狀態(tài).
1.3.1 層次聚類
使用聚合聚類中的Ward法,聚合聚類初始將每個對象單獨作為一組,每次僅聚合兩個組,直至所有對象聚合為同一組,Ward法要求同類對象間的離差平方和較小,類間對象間的離差平方和較大.
1.3.2 聚類效果及類數(shù)判別
包括R2、半偏R2、偽F、偽t2等統(tǒng)計量.R2統(tǒng)計量即RSQ(Root SQuare Variance),其值越大,類內(nèi)離差平方和在總離差平方和中所占比例越小,說明各類之間區(qū)分越明顯,即聚類效果好。偽F統(tǒng)計量即PSF(PSeudo FStatistic),其值越大,表明聚類的分類效果越好。偽t2統(tǒng)計量即PST2(PSeudo t2Statistic),其值為正數(shù)且顯著時表明2個類合并后的類內(nèi)離差平方和比合并前的類內(nèi)離差平方和要大,說明合并的2個類應(yīng)分開,即合并前的聚類效果好。半偏R2統(tǒng)計量即SPRSQ(Semi-Partial RSQ),該統(tǒng)計量與t2統(tǒng)計量有類似的含義,當兩個類合并后其值為正數(shù)時,說明合并前的聚類效果好。
這四4統(tǒng)計量將用于區(qū)域關(guān)鍵交通流不同時刻觀測值聚類效果的判別,在綜合各統(tǒng)計量結(jié)果的基礎(chǔ)上確定聚類的最終類數(shù).
1d的各時刻依據(jù)其觀測值的聚類結(jié)果可歸為不同的類,各類可通過均值、中值、最大最小值等統(tǒng)計特征描述其反映的交通狀態(tài),進而,處于同一交通狀態(tài)的連續(xù)時刻可歸為同一個TOD時段.
然而,由于樣本數(shù)據(jù)包含檢測器幾天、幾個月、甚至幾年的觀測值,聚類結(jié)果中不同天的同一時刻可能歸為不同的類,即可能具有兩個或更多的交通狀態(tài),從而無法確切地認定同一時刻所屬的TOD時段.解決方法是對一個時刻統(tǒng)計其所屬各交通狀態(tài)的天數(shù),天數(shù)最多的狀態(tài)即為其最終的交通狀態(tài),可利用統(tǒng)計直方圖完成;在此基礎(chǔ)上,可識別出一天的TOD時段數(shù)及各時段起止時刻,對于間隔小于30min的TOD時段則視具體情況合并到前一或后一時段中.
選擇北京西城區(qū)西二環(huán)和西三環(huán)之間一面控子系統(tǒng)為研究區(qū)域(見圖1),9個平面交叉口,每個交叉口的4個入口均埋設(shè)有環(huán)形線圈檢測器用于采集不同流向的流量數(shù)據(jù),共37個檢測器.
采集時間為2002年8月~11月4個月,重點考察工作日的檢測數(shù)據(jù),共87d,檢測器每天24h每15min采集一次流量數(shù)據(jù),每天有96個觀測值,故原始數(shù)據(jù)集Dataset0共有37個檢測器變量,8 352個樣本觀測值(87d×96).
圖1 研究區(qū)域交叉口檢測器分布及監(jiān)測交通流方向示意圖
對數(shù)據(jù)集Dataset0的整理發(fā)現(xiàn)檢測器21111f,21121b,25241e,25271i并沒有采集數(shù)據(jù),對其余33個檢測器進行缺值統(tǒng)計,發(fā)現(xiàn)數(shù)據(jù)缺失現(xiàn)象存在2個較長的連續(xù)時段:9月9日~9月17日、11月18日~11月29日,其他缺失時段較為分散.
對于較長時段的數(shù)據(jù)缺失,過多的插補數(shù)據(jù)會包含太多的人為信息,因此,基于如下兩個原則剔除相關(guān)的檢測器和觀測天數(shù)據(jù):(1)如果一個檢測器有一半以上的觀測天(即大于43d)沒有數(shù)據(jù),那么該檢測器將被剔除.據(jù)此,檢測器21111g,21121p被剔除;(2)如果某天缺失數(shù)據(jù)超過40個的檢測器數(shù)目>=3,那么該觀測天的數(shù)據(jù)將被剔除;另外,也不考慮節(jié)假日數(shù)據(jù),即10月1日~7日.
再對其余零散的缺失采用EM方法進行插補,最后得到的數(shù)據(jù)集Dataset1有31個檢測器變量,4 896個觀測值(51天×96).
采用 Eigenvalues-great-than-one、Jolliffe’s eigenvalues less than 0.7,MAP和PA 4種方法得到的關(guān)鍵交通流個數(shù)(即檢測器個數(shù))分別為4,6,6,6,其中3種方法的個數(shù)相同,因此將從31個檢測變量中挑選6個主要變量.
采用多元相關(guān)分析的A1,A2方法和主成分分析的B1,B2方法識別出的6個主要檢測變量見表1,并分別計算主要檢測變量(看作解釋變量)與其余每個變量(看作因變量)的復(fù)相關(guān)系數(shù),表中給出了每種方法的最小復(fù)相關(guān)系數(shù),其中方法A1值最大,說明該主要變量子集對其他變量的解釋能力最強,因此,以方法A1的選取結(jié)果為準,在這6個檢測器中,3個監(jiān)測自北向南的交通流,2個監(jiān)測自南向北的交通流,1個監(jiān)測自西向東的交通流,反映了該區(qū)域南北向為主要交通流方向.相應(yīng)的數(shù)據(jù)集Dataset2包括6個主要檢測變量,4 896個觀測值.
表1 4種方法識別的主要檢測變量及最小復(fù)相關(guān)系數(shù)結(jié)果
采用層次聚類對Dataset2中6個變量的所有觀測值進行聚類,具體實現(xiàn)利用SAS軟件的Cluster過程完成,圖2~5為統(tǒng)計量RSQ,SPRSQ,PSF和PST2隨類數(shù)的變化情況.
聚類中的每個類可以定義為一種交通狀態(tài),如前所述,過多的類會增加配時方案切換的頻率,當然,過少的類也不能充分反映交通狀況的變化,Wang認為對于交通信號配時,聚類類數(shù)介于4~7之間較為合適,結(jié)合聚類統(tǒng)計量結(jié)果,最終類數(shù)選擇為5類,則相應(yīng)的數(shù)據(jù)集Dataset3中4 896個觀測值均可歸屬為某個確定的類.
圖2 Ward聚類R2統(tǒng)計量的變化
圖3 Ward聚類半偏R2統(tǒng)計量的變化
圖4 Ward聚類偽F統(tǒng)計量的變化
圖5 Ward聚類偽t2統(tǒng)計量的變化
圖6 是各類平均流量變化情況,每個類代表的交通狀態(tài)可描述如下.
圖6 5個類各主要檢測器平均流量變化情況
1)類1 代表了低流量需求的交通狀態(tài),如午夜或凌晨期間的交通狀況.
2)類2 代表了整個區(qū)域南北向、東西向高流量需求的交通狀態(tài),反映區(qū)域各方向交通高峰期.
3)類3 代表了中等流量需求的交通狀態(tài),如高峰來臨前或高峰結(jié)束后的交通狀況.
4)類4 代表了由展覽館路、三里河東路組成的干線南北向高流量需求的交通狀態(tài),反映干線南北向交通高峰期.
5)類5 代表了由展覽館路、三里河東路組成的干線南北向、東西向高流量需求的交通狀態(tài),反映干線各方向交通高峰期.
根據(jù)數(shù)據(jù)集Dataset3中各觀測值的采集時間和所屬的類,可以對1d內(nèi)不同時刻的交通狀態(tài)分布進行描述,圖7是1d各時刻5種交通狀態(tài)頻數(shù)統(tǒng)計直方圖.
圖7 1d各時刻5種交通狀態(tài)頻數(shù)統(tǒng)計直方圖
可以看出,存在著不同天的同一時刻具有多種交通狀態(tài)的現(xiàn)象,這是由交通系統(tǒng)的隨機性、不確定性決定的,實際上,期望每天同一時間的交通狀況保持不變是不現(xiàn)實、也不可能的,因此基于多天觀測數(shù)據(jù)獲取的一天不同時刻交通狀態(tài)的分布情況應(yīng)該是一種總體的或平均的分布描述,對于某個時刻,以出現(xiàn)次數(shù)最多的狀態(tài)為其最終的交通狀態(tài),并據(jù)此將處于相同狀態(tài)的連續(xù)時刻歸為同一個TOD時段,同時對間隔較小的TOD時段進行合并,最終確定的該區(qū)域工作日一天內(nèi)TOD時段數(shù)為8個,各時段的起止時間見圖8.
圖8 研究區(qū)域工作日1d各時刻交通狀態(tài)最終分布情況
其中,晚上10:45~早晨06:30時段車輛較少,屬于低交通量時期;早晨06:30~07:30時段隨著上班外出車輛的增多,預(yù)示著高峰期的即將到來,屬于中交通量時期;早晨07:30~上午09:15時段是展覽館路、三里河東路各方向交通量高峰期,上午09:15~中午12:00和下午02:00~04:15兩個時段屬于整個區(qū)域各方向交通量高峰期,中午12:00~下午02:00和下午04:15~晚上08:00兩個時段屬于展覽館路、三里河東路南北方向交通量高峰期,各高峰時段不同交通狀態(tài)的形成與不同時期車輛的出行目的有關(guān),與該區(qū)域居民區(qū)、商業(yè)區(qū)、行政事業(yè)單位等交通影響因素的空間分布差異和聚集程度有關(guān),也與該區(qū)域的區(qū)位和在交通組織中承擔的主要功能有關(guān),原因的探究需采取進一步的相關(guān)調(diào)查(如OD調(diào)查等);晚上08:00~10:45時段隨著出行車輛的減少,預(yù)示著交通低峰期的即將到來,屬于中等交通量時段.
海量交通流數(shù)據(jù)中隱含著大量有價值的交通關(guān)系、模式或特征信息,本文基于數(shù)據(jù)驅(qū)動方式首先關(guān)注不同交通流的空間分布,識別出反映區(qū)域路網(wǎng)主要特征的關(guān)鍵交通流,接著關(guān)注這些關(guān)鍵交通流的流量變化,從而識別出一天各時刻所處的交通狀態(tài)及相應(yīng)的TOD時段分布.
需要指出的是,不同交叉口的交通流之間具有緊密的關(guān)聯(lián)關(guān)系,因此在識別區(qū)域關(guān)鍵交通流時,進一步分析不同路口、不同方向交通流之間的空間、時空關(guān)聯(lián)關(guān)系能更好地描述區(qū)域交通狀態(tài)的時空分布及變化格局,區(qū)域交通的“熱點”路口也應(yīng)是判斷關(guān)鍵交通流優(yōu)先考慮的位置.
[1]HAUSER T A,SCHERER W T.Data mining tools for real-time traffic signal decision support & maintenance[A].2001IEEE International Conference on Systems,Man,and Cybernetics[C]∥IEEE,2001:1471-1477.
[2]WANG T.A methodology for data-driven signal timing optimization[D].Virginia:University of Virginia,2003.
[3]施莉娟,朱 健,陳小鴻,等.基礎(chǔ)交通數(shù)據(jù)質(zhì)量評價研究[J].交通信息與安全,2011,29(5):57-61.
[4]TUROCHY R E.Traffic condition monitoring using multivariate statistical quality control[D].Virginia:University of Virginia,2001.
[5]韓衛(wèi)國,王勁峰,王海起,等.基于數(shù)據(jù)可視化的交通流量分析[J].武漢理工大學學報:交通科學與工程版,2004,28(5):668-670.
[6]韓衛(wèi)國,王勁峰,胡建軍.交通流量數(shù)據(jù)缺失值的插補方法[J].交通與計算機,2005,23(1):39-42.