賈興林
(對外經(jīng)濟貿(mào)易大學(xué)統(tǒng)計學(xué)院 北京市 100029)
通過對駕駛員進行管理是預(yù)防交通事故,實現(xiàn)交通安全的有效途徑。一方面,在人、車、道路組成的復(fù)雜交通環(huán)境中,人為因素是導(dǎo)致道路交通事故并產(chǎn)生事故傷害的最主要因素[1]。另一方面,已有研究表明,一部分駕駛?cè)舜嬖凇笆鹿蕛A向性”更易發(fā)生交通事故[2]。而對駕駛?cè)诵袨檫M行監(jiān)控、分析是進行駕駛員管理的基礎(chǔ)。隨著車聯(lián)網(wǎng)、通信技術(shù)的發(fā)展,出租車運行中的大量數(shù)據(jù)被采集和存儲,以及大數(shù)據(jù)處理和分析技術(shù)的快速發(fā)展,為出租車駕駛員行為分析奠定了基礎(chǔ)。
駕駛?cè)说鸟{駛行為受到駕駛習(xí)慣的影響,并且在駕駛過程體現(xiàn)出來,但目前已有研究主要集中在駕駛?cè)说漠惓P袨楸O(jiān)控識別上。文獻[3]在OBD 數(shù)據(jù)的基礎(chǔ)上,對駕駛?cè)嗣筒扔烷T、平均加速度等操作行為進行了研究和討論。文獻[4]利用車輛GPS 數(shù)據(jù)通過高速道路上車輛的速度、加速度等數(shù)據(jù)識別駕駛?cè)说某?、逆行、緊急制動等行為預(yù)測和分級預(yù)警?,F(xiàn)有駕駛?cè)朔治鲅芯恐型ǔY(jié)合車載傳感器、視頻、道路限速等信息進行異常行為的識別,數(shù)據(jù)采集成本較高。文獻[10]對利用浮動車輛GPS 數(shù)據(jù)對駕駛?cè)说南鄬Ξ惓P袨橹笜?biāo)的定義和計算進行了研究。總體而言,對出租車駕駛?cè)碎L期駕駛中表現(xiàn)的駕駛行為習(xí)慣進行分析研究尚較少。
本文以出租車長期積累的GPS 數(shù)據(jù)為基礎(chǔ),對出租車駕駛?cè)诵袨閿?shù)據(jù)分析的方法進行了研究。首先,介紹了車輛GPS 數(shù)據(jù)預(yù)處理的技術(shù)。然后,重點研究了基于時空領(lǐng)域多車輛GPS 數(shù)據(jù)的相對駕駛行為特征指標(biāo)設(shè)計和計算的問題,討論了駕駛?cè)说男袨閿?shù)據(jù)分析的方法。最后以四川某地市的實際出租車GPS 數(shù)據(jù),對駕駛?cè)说男袨檫M行了實證分析。
本文以時空鄰域內(nèi)多車輛的GPS 數(shù)據(jù)為核心對駕駛?cè)说男袨檫M行分析。考慮到在同一時刻雙向道路間的實際交通狀況差異,需通過匹配道路信息以提高空間鄰域分析的精度。本節(jié)將對車輛GPS和交通道路網(wǎng)絡(luò)數(shù)據(jù)進行介紹。
1.1.1 車輛GPS 數(shù)據(jù)
隨著衛(wèi)星定位技術(shù)(GPS)在出租車管理及監(jiān)控中的廣泛應(yīng)用,車輛GPS 數(shù)據(jù)也被大量采集。車輛的單條GPS 數(shù)據(jù)通常包含了車輛編號、時間、所處經(jīng)緯度、速度、車頭方向等車輛的瞬時信息,如表1 所示。
GPS 數(shù)據(jù)中的時間信息和經(jīng)緯度信息代表了車輛的時空信息,速度、車頭方向等信息表達了車輛的狀態(tài)特征。由一系列具有時空屬性的GPS 數(shù)據(jù)點形成了車輛的運行軌跡,稱為車輛的GPS 軌跡。本文通過對車輛的長期運行的GPS 軌跡數(shù)據(jù)的分析,實現(xiàn)對駕駛?cè)说某?、變道、加減速等駕駛行為習(xí)慣的刻畫和分析。
1.1.2 道路網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)
圖1:車輛GPS 數(shù)據(jù)預(yù)處理流程
圖2:基于HMM 的道路匹配流程
車輛GPS 數(shù)據(jù)的經(jīng)緯度信息表達了車輛的空間位置,但道路通常是雙向,且同一時刻不同方向上的交通狀況差異可能是巨大的。而單點的GPS 經(jīng)緯度信息并不能區(qū)分出車輛所在道路,因此需將GPS 軌跡數(shù)據(jù)與道路信息進行匹配。
本文采用開源的wiki 地圖OpenStreetMap(OSM)數(shù)據(jù)作為地圖數(shù)據(jù),并從中解析出道路網(wǎng)絡(luò)拓?fù)湫畔12]。所解析出的道路網(wǎng)絡(luò)數(shù)據(jù)可以區(qū)分出道路的方向信息,同一道路的相反方向采用不同道路編號予以區(qū)分。
對GPS數(shù)據(jù)進行預(yù)處理是進行駕駛?cè)诵袨榉治龅幕A(chǔ)。一方面,受定位精度、天氣因素、障礙物、電磁環(huán)境等因素的影響,車輛的GPS 數(shù)據(jù)會產(chǎn)生一定偏移或丟失,需要對GPS 數(shù)據(jù)的數(shù)據(jù)項進行處理。另一方面,在駕駛?cè)笋{車、休息等不同狀態(tài)下GPS 數(shù)據(jù)均會持續(xù)記錄,需對GPS 軌跡數(shù)據(jù)進行處理。通常車輛GPS 軌跡數(shù)據(jù)的預(yù)處理包括異常數(shù)據(jù)處理、停留點發(fā)現(xiàn)、數(shù)據(jù)插值、數(shù)據(jù)壓縮、地圖匹配、數(shù)據(jù)過濾等操作[5][6]。
本文基于出租車GPS 數(shù)據(jù)特點及駕駛?cè)诵袨榉治龅男枰?,采用如圖1 所示數(shù)據(jù)預(yù)處理流程進行GPS 數(shù)據(jù)預(yù)處理。
1.2.1 GPS 數(shù)據(jù)處理
GPS 數(shù)據(jù)預(yù)處理主要針對GPS 數(shù)據(jù)中各數(shù)據(jù)項的異常值及重復(fù)值進行處理,包括:空間坐標(biāo)異常點檢測及處理,單指標(biāo)異常值檢測,重復(fù)記錄檢測及處理。
(1)空間坐標(biāo)異常數(shù)據(jù)處理??臻g異常包括由于信號原因造成數(shù)據(jù)偏移會出現(xiàn)GPS 數(shù)據(jù)的空間坐標(biāo)偏移現(xiàn)象,以及遠超出正常行駛空間范圍的GPS 記錄兩種情況。對坐標(biāo)偏移問題可采用均值過濾算法[7]予以處理,對不合理空間范圍的少量坐標(biāo)點采用直接剔除的處理方法。
表1:車輛GPS 數(shù)據(jù)示例
表2:駕駛?cè)说男袨樘卣髦笜?biāo)
圖3:對原始特征采用PCA 降維處理后的聚類結(jié)果可視化展示
(2)重復(fù)記錄處理。GPS 數(shù)據(jù)的重復(fù)記錄是指同一車輛在同一時刻有兩條及以上完全相同的數(shù)據(jù)記錄。出現(xiàn)這種情況可能與網(wǎng)絡(luò)傳輸異常等因素相關(guān)。對這類數(shù)據(jù)的處理方法是:異常僅保留第一條記錄,其它記錄予以刪除。
(3)單指標(biāo)異常數(shù)據(jù)處理。單指標(biāo)異常處理主要指GPS 數(shù)據(jù)中的速度、方向數(shù)據(jù)項的異常值進行處理,可采用基于業(yè)務(wù)或統(tǒng)計的方法進行識別和處理。本研究僅對車輛GPS 數(shù)據(jù)中車頭方向不在0~360,車輛速度不在0~120km/h 的記錄予以刪除。
1.2.2 GPS 軌跡預(yù)處理
GPS 軌跡預(yù)處理主要針對車輛的GPS 軌跡數(shù)據(jù)序列進行處理,以更好反映車輛駕駛?cè)笋{駛行為特點。主要包括:停留點發(fā)現(xiàn)、GPS 軌跡數(shù)據(jù)分割、GPS 軌跡數(shù)據(jù)地圖匹配三方面。
(1)GPS 軌跡的停留點。受駕駛?cè)诵菹ⅰ⒔煌〒矶碌纫蛩氐挠绊?,車輛可能會長時間停留在某個位置,該部分GPS 數(shù)據(jù)并不能反映駕駛?cè)说恼鎸嶑{駛行為,因此應(yīng)予以識別。本文采用基于時空聚類的停留點檢測算法[8]進行GPS 數(shù)據(jù)中停留點的檢測,并將停留點的GPS 記錄予以剔除。
(2)GPS 軌跡數(shù)據(jù)分割。在車輛GPS 數(shù)據(jù)采集設(shè)備出現(xiàn)故障或經(jīng)停留點處理后的軌跡數(shù)據(jù)中,會出現(xiàn)車輛軌跡在時空上中斷、不連續(xù)的情況。這種不連續(xù)的軌跡數(shù)據(jù)會影響軌跡數(shù)據(jù)地圖匹配的準(zhǔn)確性,進而影響行為分析的結(jié)果。因此需從原始的GPS 軌跡中識別出相應(yīng)的連續(xù)子軌跡序列,即對GPS 軌跡進行分割。軌跡數(shù)據(jù)分割算法包括tdbscan[9]等。
(3)GPS 軌跡數(shù)據(jù)的地圖匹配。車輛GPS 數(shù)據(jù)僅有車輛自身的時空及速度等信息,而通過將車輛GPS 數(shù)據(jù)映射到道路交通網(wǎng)絡(luò)上,能夠利用該路段上同時段多輛車的GPS 數(shù)據(jù),對駕駛?cè)说南鄬︸{駛行為進行刻畫。地圖匹配的常見算法包括局部算法、HMMM、ST-Matching、IVVM 等[7]。本文采用基于隱馬爾可夫(HMM)的地圖匹配算法,將經(jīng)過軌跡分割后的子軌跡數(shù)據(jù)分別與道路網(wǎng)絡(luò)進行匹配,流程如圖2 所示。
經(jīng)1.2 章節(jié)的數(shù)據(jù)預(yù)處理,得到了可用于駕駛?cè)诵袨橹笜?biāo)計算的基礎(chǔ)數(shù)據(jù),在原有GPS 數(shù)據(jù)的基礎(chǔ)上新增了GPS 子軌跡編號、道路編號信息。
駕駛行為分析主要是為了對駕駛過程中的超速、變道、急加速/剎車等操作進行識別。本文提出以時空鄰域內(nèi)多車輛GPS 數(shù)據(jù)為核心對駕駛?cè)说某?、變道、加減速行為進行分析,主要方法是:通過將目標(biāo)車輛GPS 數(shù)據(jù)與同時段、同一道路上的多車輛的GPS進行比較,提取相對行為指標(biāo),進而得到駕駛?cè)说鸟{駛行為特征。
本文的駕駛?cè)诵袨樘卣髦饕ǎ合鄬Τ傩袨?、變道行為、變速(加?剎車)。
2.1.1 相對超速行為
考慮到在道路限制速度數(shù)據(jù)獲取難度,以及道路通行狀況隨著事故、擁堵等因素實際道路的允許最大速度是不斷變化的。本文通過將時空鄰域內(nèi)多車輛的平均速度作為參照對目標(biāo)車輛的相對速度進行轉(zhuǎn)換,作為相對超速行為的識別方法。
首先,計算出駕駛?cè)嗽诓煌瑫r刻的相對超速傾向。相對超速傾向是某個車輛與時空鄰域(一段時間內(nèi)同一道路上)所有車輛的平均速度的比值,計算公式為:
其中,si,t,r表示第i輛車在t時刻在道路r上的相對超速行為指標(biāo);
vi,t,r表示第i 輛車在t 時刻的速度;表示t 時刻的w 時間領(lǐng)域內(nèi)道路r 上所有出租車數(shù),僅對的時刻進行計算;表示該時段中該路段的平均速度。
然后,通過對第i 輛車所有si,t,r進行統(tǒng)計概括得到駕駛?cè)说某傩袨樘卣?,包括:均值avg_si、標(biāo)準(zhǔn)差std_si、最大值max_si、中位數(shù)median_si。
2.1.2 變道行為分析
變道行為分析主要對駕駛?cè)嗽隈{駛過程中變道的習(xí)慣傾向進行評估。本文通過將車輛在每條道路上車頭方向的標(biāo)準(zhǔn)差與同一道路上所有駕駛?cè)塑囶^方向的標(biāo)準(zhǔn)差的進行比較分析,判斷該駕駛?cè)嗽谠撀范紊舷鄬ψ兊佬袨椤?/p>
首先,計算駕駛?cè)嗽诿織l道路上的相對變道行為指標(biāo),計算公式為:
其中,di,r表示第 輛車在道路r 上的變道行為指標(biāo),為第i輛車在道路r 上方向角的標(biāo)準(zhǔn)差,表示經(jīng)過r 道路的所有車輛方向角的平均標(biāo)準(zhǔn)差。
然后,通過對di,r進行統(tǒng)計概括得到駕駛?cè)说淖兊佬袨樘卣鳎ǎ壕礱vg_di、標(biāo)準(zhǔn)差std_di、最大值max_di、中位數(shù)median_di。
2.1.3 變速行為
本文將車輛短時間加速度[8]的絕對值作為駕駛?cè)俗兯伲铀?剎車)行為的評估指標(biāo),計算方式如下:
其中,ai,t,r表示車輛i 在t 時刻在r 路段的加速度絕對值,單位m/s2;vi,t,r表示車輛i 在t 時刻r 路段上的車速,vi,t-w,r表示車輛i 在w 時間鄰域內(nèi)在道路r 上的車速;w 表示GPS 記錄的時間窗口。
通過對所有ai,t,r進行統(tǒng)計概括得到駕駛?cè)说淖兯傩袨樘卣?,包括:均值avg_ai、標(biāo)準(zhǔn)差std_ai、最大值max_ai、中位數(shù)median_ai。
基于車輛歷史GPS 數(shù)據(jù)的駕駛?cè)笋{駛行為數(shù)據(jù)分析的主要目的是:幫助車輛運營管理公司提升管理效率。2.1 定義了基于車輛GPS 數(shù)據(jù)的相對行為指標(biāo),可基于這些指標(biāo)進行后續(xù)數(shù)據(jù)分析工作。
(1)可對駕駛?cè)说鸟{駛行為指標(biāo)進行統(tǒng)計分析。一方面,通過計算每個駕駛?cè)烁黜椥袨橹笜?biāo)的均值、方差、四分位數(shù)的統(tǒng)計特征,得到駕駛?cè)说男袨楦爬ǎ瑫r可結(jié)合多種統(tǒng)計圖形、可視化技術(shù)進行分析。另一方面,可與時間、道路等維度進行關(guān)聯(lián)統(tǒng)計分析,以分析駕駛?cè)说奈kU駕駛行為與時間、道路的關(guān)系。
(2)可利用上述駕駛行為特征數(shù)據(jù)對駕駛?cè)诉M行分群能夠幫助管理團隊更好認(rèn)識駕駛?cè)耍嵘芾硇?。而聚類分析是一種無監(jiān)督學(xué)習(xí)方法,利用相似性或距離計算將樣本數(shù)據(jù)劃分為多個簇,簇中差異盡量小,簇間差異盡量大[10][11]。常用的聚類算法包括k-means、分層聚類、基于密度聚類等。本文在駕駛?cè)诵袨橹笜?biāo)的基礎(chǔ)上,采用k-means 算法對駕駛?cè)诉M行聚類分析。
本節(jié)中將以四川某市的出租車GPS 數(shù)據(jù)為基礎(chǔ),對駕駛?cè)说男袨橹笜?biāo)進行計算,對駕駛?cè)诵袨檫M行分析。
數(shù)據(jù)來源于四川某市的營運車輛監(jiān)控平臺,分析所抽樣數(shù)據(jù)包含79 輛出租車79 位駕駛?cè)嗽?018年9月29日至2019年2月16日期間的1486.3058萬條GPS記錄,車輛GPS數(shù)據(jù)采樣周期為10秒。采用1.2 數(shù)據(jù)預(yù)處理方法處理后,保留1046 萬多條有效GPS 記錄進行駕駛?cè)诵袨樘卣髦笜?biāo)計算和后續(xù)分析。
設(shè)置相對超速行為指標(biāo)計算的時間窗口w=10 分鐘,變速行為指標(biāo)的時間窗口w=10 秒,根據(jù)2.1 中駕駛?cè)诵袨樘卣髦笜?biāo)計算公式對駕駛?cè)诵袨樘卣鬟M行提取。
對表2 特征數(shù)據(jù)進行歸一化操作后,采用k-means 算法將駕駛?cè)朔謱? 類。聚類結(jié)果如圖3 所示。
從聚類結(jié)果可以發(fā)現(xiàn):cluster_2 駕駛?cè)嗽谧畲笞兯僦笜?biāo)上明顯高于其他兩類駕駛?cè)?,說明該類駕駛?cè)说募奔铀?減速行為較多;cluster_3 類駕駛?cè)俗畲笙鄬λ俣戎笜?biāo)要高于其他兩類,說明該類駕駛?cè)讼鄬Χ愿咚傩袨楦唷?/p>
本文對以車輛GPS 數(shù)據(jù)為基礎(chǔ)對出租車駕駛?cè)说男袨榉治鰡栴}進行了研究。在車輛GPS 數(shù)據(jù)進行預(yù)處理的基礎(chǔ)上,提出了基于時空鄰域中多車輛的相對駕駛行為特征計算方法,提出了相對車速、變道傾向、變速(加速/剎車)三類行為的計算指標(biāo)和統(tǒng)計特征。最后對駕駛?cè)诵袨閿?shù)據(jù)的分析方法進行了簡要說明。實證分析的結(jié)果表明,本文所采用的方法和流程在利用車輛歷史GPS 數(shù)據(jù)進行出租車駕駛?cè)诵袨榉治龇矫娴挠行?,有助于提升駕駛?cè)说姆诸惞芾怼?/p>
本文提出的基于時空鄰域多車輛的相對駕駛行為計算方法具有一定創(chuàng)新和推廣價值。但同時,該算法在海量GPS 數(shù)據(jù)上的計算復(fù)雜度較大,難以滿足實時計算需求,后續(xù)可進一步研究、優(yōu)化。