周軍 廣東省廣州市公安局
道路卡口通行數(shù)據(jù)挖掘研究
周軍 廣東省廣州市公安局
主要針對(duì)廣州市道路卡口系統(tǒng)通行數(shù)據(jù)進(jìn)行分析研究,通過歸納總結(jié)涉車犯罪規(guī)律,結(jié)合公安機(jī)關(guān)辦案經(jīng)驗(yàn),建立一系列指標(biāo)模型,實(shí)現(xiàn)異常軌跡車輛的自動(dòng)分析研判,從而提高公安機(jī)關(guān)打擊有組織盜、搶機(jī)動(dòng)車團(tuán)伙的效率。
道路卡口 機(jī)動(dòng)車 數(shù)據(jù)挖掘 模型
道路卡口系統(tǒng)通過分布在道路上架設(shè)的高清攝像機(jī),采用光電技術(shù)、圖像處理技術(shù)及模式識(shí)別等技術(shù)對(duì)過往車輛進(jìn)行抓拍,實(shí)現(xiàn)對(duì)車輛的過車信息、流量分布等情況不間斷自動(dòng)記錄,是公安機(jī)關(guān)交通管理、涉車犯罪打擊工作的重要基礎(chǔ)技術(shù)支撐系統(tǒng),在甄別假套牌、肇事逃逸軌跡及車輛出行特點(diǎn)規(guī)律分析中發(fā)揮了重要作用。隨著珠三角地區(qū)經(jīng)濟(jì)、社會(huì)的發(fā)展以及城市化進(jìn)程的加快,道路卡口系統(tǒng)布局逐漸形成省、市、區(qū)(縣)際出入口全覆蓋,有些發(fā)達(dá)市區(qū)甚至實(shí)現(xiàn)了網(wǎng)格化布局,因此道路卡口系統(tǒng)在打擊跨區(qū)、跨市甚至跨省流動(dòng)作案方面的作用日益突顯。
廣州全市已建成道路卡口系統(tǒng)632套,基本覆蓋市際、環(huán)城、中心城區(qū)的道路卡口系統(tǒng)網(wǎng)絡(luò),系統(tǒng)日過車數(shù)近1500萬輛,隨著道路卡口系統(tǒng)的不斷擴(kuò)建,車輛流量不斷增大,預(yù)計(jì)短時(shí)間內(nèi)系統(tǒng)過車數(shù)將超過2000萬輛。按照過車數(shù)據(jù)及圖片保存六個(gè)月計(jì)算,系統(tǒng)產(chǎn)生的數(shù)據(jù)總量達(dá)到900T。如此龐大的數(shù)據(jù)量,而且包含了結(jié)構(gòu)化的過車數(shù)據(jù)和非結(jié)構(gòu)化的過車圖片,傳統(tǒng)治安卡口的功能已經(jīng)無法滿足公安機(jī)關(guān)社會(huì)管理工作的要求。如何通過對(duì)卡口通行數(shù)據(jù)的研判實(shí)現(xiàn)主動(dòng)發(fā)現(xiàn)破案線索,打擊有組織的盜、搶機(jī)動(dòng)車團(tuán)伙,從另一個(gè)方面挖掘系統(tǒng)效能,實(shí)現(xiàn)信息利用的最大化,已經(jīng)成為一個(gè)亟需解決的技術(shù)難題。為了研究車輛軌跡及通行規(guī)律,筆者所在的廣州市公安局抽調(diào)專門力量,以廣州市市際卡口為研究對(duì)象,開展了道路卡口數(shù)據(jù)挖掘的研究工作。
研究的主要目的就是要從長(zhǎng)期涉車犯罪破案經(jīng)驗(yàn)中總結(jié)出一批定量分析規(guī)則,通過不同規(guī)則組合,實(shí)現(xiàn)數(shù)學(xué)模型的構(gòu)建;通過對(duì)卡口后臺(tái)數(shù)據(jù)庫(kù)的綜合分析,對(duì)車輛異常行為和軌跡特征進(jìn)行研判,建立一系列數(shù)據(jù)分析模型;通過模型自動(dòng)篩選一批可疑車輛,實(shí)現(xiàn)精確打擊,指導(dǎo)涉車犯罪案件的偵破工作。同時(shí),還能對(duì)不同類型車輛的出行軌跡和規(guī)律進(jìn)行分析,為限行、限牌等交通管制措施提供宏觀數(shù)據(jù)支撐,有利于交通管理工作的智能化。
此次納入研究的卡口系統(tǒng)總共90套,該批卡口主要分布在廣州市主要出入口以及重點(diǎn)區(qū)(縣)際出入口,日過車量約350萬輛。過車圖片存儲(chǔ)時(shí)間為90天,過車數(shù)據(jù)存儲(chǔ)時(shí)間為180天,系統(tǒng)數(shù)據(jù)庫(kù)及存儲(chǔ)陣列總共存儲(chǔ)31500萬張圖片及63000萬條過車數(shù)據(jù),總數(shù)據(jù)大小約150T。
研究主要經(jīng)歷了數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)倉(cāng)庫(kù)建立、建模及主題分析等過程,如圖1所示。
1. 數(shù)據(jù)倉(cāng)庫(kù)
是一個(gè)面向主題、集成、相對(duì)穩(wěn)定、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉(cāng)庫(kù)表按內(nèi)容性質(zhì)分為維度表和事實(shí)表兩種。
2. 維度表
記錄基礎(chǔ)數(shù)據(jù),作為分析的維度,如車主信息、車輛信息、卡口位置信息等。
3. 事實(shí)表
記錄實(shí)際發(fā)生的數(shù)據(jù),具體體現(xiàn)為卡口車輛往來記錄、車輛犯罪記錄。
4. 指標(biāo)模型
由一系列用于衡量、評(píng)估事件的指標(biāo)組成,是破案經(jīng)驗(yàn)的數(shù)字化模型。
5. 分析主題
數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,其數(shù)據(jù)按照一定的主題域進(jìn)行組織。所謂主題,就是指數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對(duì)應(yīng)一個(gè)客觀分析領(lǐng)域。面向主題,就是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息按照主題進(jìn)行組織,其組織方式是在較高層次上進(jìn)行數(shù)據(jù)抽象,對(duì)犯罪模型指標(biāo)體系進(jìn)行重組(注入變量),以便靈活、側(cè)重分析情況。
考慮到涉車違法及犯罪活動(dòng)的復(fù)雜性,我們決定選取假牌車、套牌車及異常軌跡車輛作為研究對(duì)象,從車輛速度、運(yùn)行軌跡等方面尋找規(guī)律。
1. 假牌車分析
假牌車是指懸掛自編自造車牌的車輛。在日常巡查過程中,路面警力基本很難用肉眼判斷其號(hào)牌的真實(shí)性,基于數(shù)據(jù)庫(kù)比對(duì)技術(shù),通過道路卡口系統(tǒng)識(shí)別的車輛號(hào)牌與車輛庫(kù)進(jìn)行比對(duì),不存在的號(hào)牌即可確定為假牌車。
2. 套牌車分析
(1)一定時(shí)間段內(nèi)同一輛車出現(xiàn)在兩個(gè)不可能出現(xiàn)的地點(diǎn)。例如相隔3分鐘之內(nèi)的時(shí)間段,同一輛車出現(xiàn)在相隔10公里及以上的兩個(gè)地點(diǎn)。
(2)同一時(shí)間同一輛車出現(xiàn)在兩個(gè)地點(diǎn)。
(3)同一車牌在同一地點(diǎn)或不同地點(diǎn)以不同車型或類別出現(xiàn)。
3. 可疑車輛分析
可疑車輛是指車輛的通行時(shí)間及頻率與案、事件發(fā)生地高度關(guān)聯(lián)的車輛。由于涉及偵查手段,這里不再贅述。
處理大數(shù)據(jù)量的系統(tǒng),性能往往是最大的瓶頸,反應(yīng)在用戶層面,則是用戶體驗(yàn)的一個(gè)重要指標(biāo)。響應(yīng)時(shí)間必須滿足用戶的合理要求,性能體現(xiàn)在兩個(gè)方面:一是數(shù)據(jù)抽取效率,二是數(shù)據(jù)檢索效率。我們采取了以下優(yōu)化方向:合理分配內(nèi)存;使用Raid5磁盤陣列,平衡IO負(fù)擔(dān);抽取優(yōu)化;檢索優(yōu)化,為數(shù)據(jù)庫(kù)建立合理的索引,使用“全文檢索+臨時(shí)表+數(shù)據(jù)表”的方式,進(jìn)行最大限度的優(yōu)化。
1. 采集數(shù)據(jù)
采集外部系統(tǒng)數(shù)據(jù):車輛信息、車主信息、卡口位置信息、車輛往來信息,由系統(tǒng)管理員設(shè)置與外部系統(tǒng)的接口配置。作為系統(tǒng)服務(wù),自動(dòng)輪詢采集,及時(shí)更新數(shù)據(jù)。
主要大、中型礦區(qū)有:五臺(tái)柏枝巖鐵礦區(qū)、繁峙大明煙大草坪礦段、原平南坡村—孫家莊礦區(qū)、代縣趙村、白峪里、山羊坪東鐵礦區(qū)、嵐縣袁家村、婁煩狐姑山、尖山東大型礦區(qū);靈丘東長(zhǎng)城西礦段、繁峙—靈丘平型關(guān)鐵礦、代縣八塔礦區(qū)、原平郭家莊、山碰、章腔—令狐、嵐縣寧家灣等中型礦區(qū)以及左權(quán)蒿場(chǎng)—連麻溝鐵和黎城小寨、黃崖洞鐵礦中型礦區(qū)。
2. 錄入指標(biāo)模型
犯罪特征數(shù)字化,轉(zhuǎn)為指標(biāo),并分配各指標(biāo)所占權(quán)重。為細(xì)化模型粒度和簡(jiǎn)化指標(biāo),提供指標(biāo)變量及范圍,供創(chuàng)建主題分析時(shí)靈活設(shè)置。
3. 確定分析主題
分析主題可以根據(jù)指標(biāo)模型動(dòng)態(tài)配置,而指標(biāo)模型也是可以靈活配置的,因此能夠滿足以后可能的其它主題分析需求。根據(jù)涉車案件規(guī)律,初步確定假牌車、套牌車等分析主題。
4. 建模
(1)做好機(jī)動(dòng)車、駕駛證等基礎(chǔ)資料分類。
(2)聚類方法不是指具體的特定的聚類算法,而是對(duì)目標(biāo)體屬性實(shí)現(xiàn)“物以類聚”的思路。在不同的應(yīng)用場(chǎng)合,有著不同的集聚規(guī)則和算法實(shí)現(xiàn)。本次研究使用基于模型的聚類劃分,可以理解為某個(gè)主題分析是尋找某一類車輛,這種類是動(dòng)態(tài)的(用戶輸入條件參數(shù)),分析是動(dòng)態(tài)追蹤目標(biāo)物體(車輛)的過程。
(3)關(guān)聯(lián)與預(yù)測(cè)。關(guān)聯(lián)應(yīng)用于特定的情況,如涉及此案件什么樣的車可能性比較大,系統(tǒng)提供這樣的輸入,但需人工關(guān)聯(lián)選擇;預(yù)測(cè)需要大量的涉案記錄,用于分析特征,根據(jù)特征權(quán)重尋找類似車輛。
(4)算法效率平衡。在允許范圍內(nèi),放寬約束以提升效率。如軌跡匹配,假設(shè)車輛1依次經(jīng)過卡口ABCD,車輛2依次經(jīng)過卡口ABD,車輛3依次經(jīng)過卡口ABBC(B被拍攝兩次),車輛4依次經(jīng)過卡口ABCDD(D被拍攝兩次),查詢與車輛1重合3次的車輛。若嚴(yán)格按卡口順序匹配,將采用滑動(dòng)窗口算法(窗口寬度為3)匹配軌跡,此方法效率較低(時(shí)間耗費(fèi)大),匹配出車輛(4);若按卡口順序,允許間隔出現(xiàn),那么將采用點(diǎn)匹配算法,此方法為最高效率,匹配出車輛(1,2,4)、(1,3,4)車輛,實(shí)際也是符合的。因此,放寬約束可使用較高效的算法。
經(jīng)過近半年時(shí)間的研究和代碼實(shí)現(xiàn),成功研發(fā)了一套道路卡口預(yù)警和研判系統(tǒng)。系統(tǒng)每周自動(dòng)更新廣州市機(jī)動(dòng)車庫(kù)數(shù)據(jù)300余萬條,總共接入治安卡口54個(gè),每日抽取、新增行車數(shù)據(jù)140余萬條,月行車數(shù)據(jù)規(guī)模達(dá)4000萬,基本滿足20天數(shù)據(jù)量的檢索需求。系統(tǒng)主要實(shí)現(xiàn)假牌識(shí)別、時(shí)速異常、超速、行車規(guī)律等分析功能。除用于數(shù)據(jù)挖掘、分析的各項(xiàng)模型外,系統(tǒng)還提供非常便捷的統(tǒng)計(jì)分析模塊,直觀顯示全市各區(qū)卡口流量、車流量、假牌統(tǒng)計(jì)和緝查報(bào)警統(tǒng)計(jì)圖(報(bào))表。
主要測(cè)試情況見表1。
?
系統(tǒng)初步研發(fā)完成后組織涉車案件研判骨干參加了系統(tǒng)培訓(xùn),并下發(fā)試運(yùn)行賬號(hào)進(jìn)行實(shí)際測(cè)試。試用過程中,一方面收到不少面向案件對(duì)于模型應(yīng)用的有效建議,另一方面也發(fā)現(xiàn)這批模型中除假牌識(shí)別、時(shí)速異常、行車規(guī)律用戶使用較多外,其它模型難以達(dá)到理想的分析效果。
經(jīng)總結(jié),開發(fā)團(tuán)隊(duì)確立了“傻瓜化”和“顆粒化”的優(yōu)化思路。傻瓜化,即簡(jiǎn)單直白,一鍵就能點(diǎn)出辦案人員想要的東西,如“假牌分析”模塊。“顆?;奔催M(jìn)一步細(xì)化用戶需求,貼近辦案人員使用習(xí)慣。例如調(diào)整數(shù)據(jù)抽取時(shí)間至凌晨5點(diǎn),以滿足盜車案高發(fā)時(shí)段第一時(shí)間研判的需求;行車規(guī)律也細(xì)化采用了多種形式分析每天規(guī)律,如出現(xiàn)次數(shù)和出現(xiàn)天數(shù)統(tǒng)計(jì)、分析。最后,設(shè)計(jì)了徘徊查詢、套牌查詢、套牌分析、出現(xiàn)次數(shù)分析、出現(xiàn)天數(shù)分析、未識(shí)別車牌、工具車查詢、組合分析等既有非常強(qiáng)的目的性,又簡(jiǎn)單實(shí)用的模型。根據(jù)收集回的應(yīng)用成效案例,總結(jié)出了模糊查詢、假牌分析、從庫(kù)到車、車輛徘徊、組合分析等技戰(zhàn)法指導(dǎo)實(shí)戰(zhàn)應(yīng)用。目前,該系統(tǒng)功能已基本完備,辦案部門普遍反映查詢效率高,應(yīng)用效果好。
此次研究雖然取得了一定成果,但還存在不足之處:① 系統(tǒng)軟硬件性能還不適應(yīng)大數(shù)據(jù)量的研判分析應(yīng)用。隨著廣州市交通流量的不斷增多,道路卡口系統(tǒng)的數(shù)量也在不斷增加,要想實(shí)現(xiàn)全市所有道路卡口數(shù)據(jù)的挖掘分析工作,僅通過簡(jiǎn)單的硬件拼湊肯定無法解決;② 數(shù)據(jù)源不完整。由于數(shù)據(jù)安全及保密規(guī)定的要求,某些數(shù)據(jù)庫(kù)只能通過請(qǐng)求訪問的方式實(shí)現(xiàn)小批量讀取,如全國(guó)車輛庫(kù)、年審圖片庫(kù)等,尚無法實(shí)現(xiàn)大批量的分析比對(duì)工作,影響最終分析結(jié)果;③ 分析模型準(zhǔn)確性不高。由于數(shù)據(jù)量太大,為了得到盡量準(zhǔn)確而且少的分析結(jié)果,辦案部門希望分析模型足夠準(zhǔn)確。
針對(duì)上述問題,筆者提出以下幾個(gè)改進(jìn)的方向:① 引入云計(jì)算技術(shù)進(jìn)行網(wǎng)格計(jì)算,提高系統(tǒng)數(shù)據(jù)分析效率;②梳理整合涉車類數(shù)據(jù)庫(kù)資源。通過行政及技術(shù)手段,實(shí)現(xiàn)全國(guó)車輛庫(kù)、全省出租車庫(kù)、年審車輛等數(shù)據(jù)庫(kù)的共享;③分析模型優(yōu)化。通過進(jìn)一步調(diào)研,摸清辦案思路,將定性原則轉(zhuǎn)化為定量指標(biāo),實(shí)現(xiàn)分析模型優(yōu)化工作。
[1] 高磊,趙炫,李鵬飛,郝久月. 面向圖像偵查的視頻分析研判系統(tǒng)研究. 警察技術(shù),2013(06).
[2] 李金峰,吳菊才. 涉車視頻情報(bào)信息偵查系統(tǒng)應(yīng)用研究. 警察技術(shù),2013(05).
[3] 袁鴻燕. 基于數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)在決策模型中的應(yīng)用研究. 電腦知識(shí)與技術(shù),2013(36).
[4] 郭旦懷,崔偉宏. 面向?qū)崟r(shí)交通信息提取的車輛軌跡數(shù)據(jù)挖掘. 武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版),2010.