公安部交通管理科學(xué)研究所 江蘇 無錫 214151
車輛特征刻畫包括靜態(tài)特征和動態(tài)特征的結(jié)構(gòu)化,靜態(tài)特征即常見的車牌、車型、品牌、車款、車身顏色等。而動態(tài)特征則更為豐富,包括車輛的行駛特征、軌跡特征、伴隨特征等各個方面。
車輛靜態(tài)特征是確定的,通過機動車登記、圖像識別等方法可以精確掌握。而動態(tài)特征則是隨著時間可能發(fā)生不確定的變化的,但通過大數(shù)據(jù)分析技術(shù)對一定時間范圍內(nèi)的車輛行為進行統(tǒng)計分析,還是足以刻畫出該時間段的動態(tài)特征。
本文探討如何基于機動車軌跡用行車地理范圍、行車時間范圍等維度刻畫車輛,將一段時間內(nèi)的車輛動態(tài)特征抽象出來,從而為大規(guī)模的車輛動態(tài)監(jiān)管提供依據(jù)。同時,針對數(shù)據(jù)采集、假套牌等各種干擾因素,提出糾偏方法。
機動車軌跡信息實質(zhì)是時間軸上的一系列位置信息,主要包括兩個信息一是位置信息、二是時間信息,結(jié)合軌跡的采集來源如卡口、行車記錄儀、停車場、高速收費站、高速服務(wù)區(qū)等還可以得到一些額外的行車狀態(tài)信息。
分析內(nèi)容和方法如下:
1.1 行車地理范圍
1.1.1 日常活動范圍 將車輛一段時間內(nèi)的軌跡(如3個月內(nèi))疊加分析,重復(fù)出現(xiàn)4次以上的點位組成的地理范圍就是該車輛的日?;顒臃秶?。要求重復(fù)4次,主要是為了去除偶爾的出差、旅游等長距離活動(接送各1次),為了更精確一點也可以更多。
1.1.2 居住地、工作地 居住地在軌跡中明顯的特征是行車軌跡最早點位和最晚點位中重復(fù)次數(shù)最多的一個。而工作地的軌跡特征也很明顯,工作日上午軌跡終點和下午軌跡起點重復(fù)次數(shù)最多的一個。當(dāng)然,自由職業(yè)等非固定場所工作人員,其工作地將不明顯。不過,這恰恰成為刻畫用車人職業(yè)特征的的方法。
1.1.3 親密活動范圍 軌跡起點、終點重復(fù)出現(xiàn)次數(shù)僅次于居住地、工作地的是親密活動范圍,可能是親友居住地,也可能是常去的商業(yè)、教育、醫(yī)療等場所。
1.1.4 異地活動范圍 跨地活動中軌跡起點、終點重復(fù)次數(shù)較多的構(gòu)成異地活動范圍,去除明顯的旅游行為(軌跡終點為景點且次數(shù)極少),異地活動范圍往往代表用車人異地的社會關(guān)系。
同一用車人或者家庭的行車地理范圍在一定時間范圍內(nèi)具有穩(wěn)定性,通過對其準確刻畫,可以為治安防控等應(yīng)用提供線索。比如用車人家庭有涉毒人員,如果新的親密活動范圍特別是異地活動范圍中出現(xiàn)了以前不曾出現(xiàn)地點,而且該地點大量出現(xiàn)于其他涉毒人員的活動范圍,那么極有可能意味著是一個新的毒品交易的地點。
1.2 行車時間范圍
1.2.1 用車時間段 每日車輛軌跡的時間范圍反映用車人的很多特征。比如職業(yè)特征:一般上班族在工作日有固定時間和固定路線;小商戶用車時間零散而頻繁;自由職業(yè)者用車時間不固定。
1.2.2 行車時長 通過連續(xù)軌跡起點、終點時間間隔可以判斷車輛的行駛時間??坍嬡囕v行駛時長有多種用途,比如疲勞駕駛高危車輛的篩選。疲勞駕駛嚴重危害交通安全,依據(jù)軌跡計算出來的超時駕駛雖然難以確定是否真的疲勞駕駛(可以更換駕駛員繼續(xù)行駛),但通過針對性警示、檢查等手段可以有效降低疲勞駕駛造成交通事故的概率。
1.2.3 特殊時間段用車 有些特殊時間段的頻繁用車,往往代表著用車人的一些特征與傾向。比如夜間頻繁用車,可能意味著用車人有夜生活的習(xí)慣或者商務(wù)接待的需要,當(dāng)然也可能是營運車輛或者黑車司機,通過關(guān)聯(lián)車輛和駕駛?cè)诵畔?可以更準確地刻畫車輛駕駛?cè)恕?/p>
1.2.4 用車頻率 根據(jù)軌跡刻畫車輛用車頻率也有重要意義。用車頻率太低的車輛,可能意味著駕駛?cè)笋{駛水平較低,有的甚至是有證的初學(xué)者,在上高速行駛、遭遇惡劣氣象等情況下可以針對性警示或檢查,從而降低事故發(fā)生概率。而用車頻率太高的車輛可能車況堪憂,也需要進行檢查。
基于機動車軌跡的車輛刻畫也會產(chǎn)生偏差,最主要的原因就是軌跡數(shù)據(jù)的偏差,主要因素:
2.1 軌跡數(shù)據(jù)缺失 即采集機動車軌跡信息時,由于采集設(shè)備、傳輸、采集平臺等因素,大量軌跡數(shù)據(jù)丟失。根據(jù)不完整的軌跡信息刻畫車輛,很容易產(chǎn)生偏差。
2.2 重復(fù)軌跡數(shù)據(jù) 由于傳輸過程的問題,同一份軌跡數(shù)據(jù)可能被多次上傳,從而產(chǎn)生重復(fù)數(shù)據(jù)。
2.3 車牌識別錯誤 雖然目前的車牌識別算法準確率高達99%,但在實際場景中準確率并沒有測試場景中那么高,從而產(chǎn)生了大量錯誤的軌跡信息。
2.4 假牌套牌車輛 客觀存在的假牌、套牌、無牌、遮牌違法行為,特別是套牌也產(chǎn)生了大量錯誤的軌跡信息。
2.5 軌跡定位偏差 機動車軌跡通常由卡口、行車記錄儀等終端采集,軌跡定位即各終端的定位,其中卡口定位為人工標注,極易出錯,而行車記錄儀一般由獨立的定位模塊采集定位信息,由于模塊損壞、遮擋等原因也可能出現(xiàn)定位偏差。
2.6 軌跡時間偏差 機動車軌跡通常由卡口、行車記錄儀等終端采集,各終端有獨立的時鐘,由于配置原因,可能未與標準時鐘實時校準,從而導(dǎo)致軌跡時間偏差。
軌跡數(shù)據(jù)的偏差是客觀存在的,如果完全依據(jù)存在偏差的數(shù)據(jù)進行分析,對車輛的刻畫就很容易出現(xiàn)偏差,甚至與事實相反的謬誤。
偏差糾正最重要的是從源頭也就是軌跡數(shù)據(jù)開始糾偏,也就是數(shù)據(jù)清洗的過程。
大數(shù)據(jù)在采集和導(dǎo)入過程中容易引入不滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)即噪聲數(shù)據(jù)。異常數(shù)據(jù)、不一致數(shù)據(jù)、重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)等都屬于噪聲數(shù)據(jù)。將不同程度地影響到數(shù)據(jù)的質(zhì)量和預(yù)測分析的結(jié)果[1]。具體到機動車軌跡數(shù)據(jù),有如下清洗方法:
3.1 重復(fù)數(shù)據(jù)清洗 批量刪除定位及時間信息相同的軌跡數(shù)據(jù)。
3.2 缺失數(shù)據(jù)補全 根據(jù)歷史數(shù)據(jù)形成的軌跡函數(shù),補全因采集、傳輸而丟失的局部軌跡信息。比如通過居住地、工作地分析得到了車輛的上下班線路函數(shù),就可以用來補全因為途徑卡口設(shè)備故障丟失的局部軌跡信息。
3.3 修正錯誤數(shù)據(jù) 根據(jù)數(shù)據(jù)線索,找到錯誤數(shù)據(jù)與正確數(shù)據(jù)的關(guān)聯(lián)性,從而糾正錯誤數(shù)據(jù)。比如因卡口校時錯誤導(dǎo)致的軌跡偏差,可以用相關(guān)車輛行車記錄儀時間、數(shù)據(jù)上傳時間、周邊正??跁r間、歷史軌跡時間進行對比修復(fù),盡可能地接近正確時間。
3.4 修復(fù)異常數(shù)據(jù) 異常軌跡數(shù)據(jù)可能是偶發(fā)系統(tǒng)錯誤,也可能是識別錯誤或者假套牌,通過數(shù)據(jù)分析可以發(fā)現(xiàn)和排除異常數(shù)據(jù)。比如遠離日?;顒臃秶墓铝Ⅻc,很可能是異常數(shù)據(jù);同一時間不可能同時出現(xiàn)的兩處軌跡則可能涉及套牌或識別錯誤。通過各種輔助分析手段,去偽存真,從而修復(fù)異常數(shù)據(jù)。
數(shù)據(jù)清洗之外,還可以對刻畫結(jié)果進行分析實現(xiàn)偏差糾正:
3.1 合理性分析 由于無法清除的數(shù)據(jù)偏差,分析結(jié)果的偏差不可避免。但如此刻畫的特征可能是明顯不合理的。比如由于校時錯誤,導(dǎo)致上下班的軌跡時間過早或過晚,如果這種刻畫不合理與特定設(shè)備具有關(guān)聯(lián)性,就可以確定相關(guān)設(shè)備的校時存在問題。
3.2 歷史刻畫對比 對于特定車輛的數(shù)據(jù)偏差不會一直存在,通過不同時間段歷史刻畫的對比,可以找出偏離常態(tài)的異??坍嫛?/p>
本文描述的方法在公安交通集成指揮平臺部級平臺的進行了一些應(yīng)用,但因為部級平臺與終端之間鏈路過長,問題數(shù)據(jù)超過了合理范圍,通過本文的方法難以完全修復(fù),應(yīng)用效果一般。下一步計劃,將該方法直接應(yīng)用到各省、市系統(tǒng)中,在提高數(shù)據(jù)準確度的前提下,再應(yīng)用本文的方法進行車輛動態(tài)特征刻畫及糾偏。目前已在多個交警支隊進行試用,取得了一定的效果。