孟劍萍, 陳 超 ,孟劍君
(1.中國電子科技集團(tuán)公司南京第二十八研究所,江蘇 南京 210007;2.山東中煙工業(yè)有限責(zé)任公司,山東 濟(jì)南 250100)
隨著信息技術(shù)的飛速發(fā)展,信息系統(tǒng)的觸角已經(jīng)伸向各行各業(yè)各個領(lǐng)域,公安系統(tǒng)也不例外。近年來,各地公安部門已經(jīng)陸續(xù)建設(shè)和部署了多種信息系統(tǒng),包括接處警與指揮調(diào)度系統(tǒng)、案事件管理系統(tǒng)、情報收集和分析系統(tǒng)、地理信息系統(tǒng)、視頻監(jiān)控系統(tǒng)等,這些系統(tǒng)的建設(shè)和使用,一方面實現(xiàn)了公安部門日常工作信息化,另一方面也使各級公安部門產(chǎn)生和保存了大量的數(shù)據(jù),包括警力數(shù)據(jù)、軌跡數(shù)據(jù)、案事件數(shù)據(jù)、人口數(shù)據(jù)、視頻數(shù)據(jù)等,這些數(shù)據(jù)不但體量龐大,而且文檔、圖像、音視頻等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)所占比重也大幅度增加。由于信息存儲和處理平臺以及數(shù)據(jù)分析技術(shù)的制約,現(xiàn)有的公安信息系統(tǒng)已無力對這些數(shù)據(jù)進(jìn)行管理以及進(jìn)一步的處理、分析和利用,不能將這些數(shù)據(jù)中存在的有價值的信息挖掘出來。能否管理好這些數(shù)據(jù),進(jìn)而充分、有效地利用這些數(shù)據(jù),發(fā)現(xiàn)隱藏在其背后的重要信息,為公安行業(yè)的預(yù)測預(yù)警和科學(xué)決策提供有力的依據(jù),以提高執(zhí)法效率和快速反應(yīng)能力,及時預(yù)防和打擊犯罪活動,已經(jīng)成為一個急需解決的問題[1]。為此,將大數(shù)據(jù)處理和應(yīng)用引入公安信息化建設(shè)領(lǐng)域,無疑具有非常積極的意義。
那么,什么是大數(shù)據(jù)呢?大數(shù)據(jù)的典型特征通常用4V表示,分別代表規(guī)模巨大(Volume)、形式多樣(Variety)、增長迅速(Velocity)、 不確定(Veracity),如何管理和處理具有4V特征的海量數(shù)據(jù),從中挖掘有價值的信息,滿足各種用戶的信息使用需求,就是大數(shù)據(jù)處理與應(yīng)用所要達(dá)成的主要目標(biāo)。就公安信息化建設(shè)而言,大數(shù)據(jù)處理與應(yīng)用的引入,旨在利用最新的技術(shù)和方法,管理大數(shù)據(jù),分析大數(shù)據(jù),利用大數(shù)據(jù),使公安信息化建設(shè)跟上時代步伐。
本文基于公安信息化領(lǐng)域的大數(shù)據(jù)應(yīng)用需求,建立了大數(shù)據(jù)處理的系統(tǒng)總體架構(gòu)和數(shù)據(jù)訪問服務(wù)架構(gòu),并借助幾個典型應(yīng)用,描述了大數(shù)據(jù)應(yīng)用的功能設(shè)計,以及涉及的關(guān)鍵技術(shù)。
本文中的大數(shù)據(jù)應(yīng)用系統(tǒng)是公安信息化系統(tǒng)的一個有機(jī)組成部分,包括三個典型應(yīng)用,分別是視頻偵查輔助系統(tǒng)、智能串并案系統(tǒng)、目標(biāo)軌跡跟蹤系統(tǒng)。系統(tǒng)的實現(xiàn)以服務(wù)化云計算平臺為基礎(chǔ),基于分層技術(shù)架構(gòu)進(jìn)行設(shè)計,如圖1所示。
圖1 系統(tǒng)總體架構(gòu)圖
基礎(chǔ)設(shè)施層為系統(tǒng)提供高性能計算和云數(shù)據(jù)存儲平臺,分為虛擬化設(shè)施與非虛擬化設(shè)施兩類:其中虛擬化設(shè)施由虛擬化軟件將服務(wù)器、存儲、網(wǎng)絡(luò)等物理設(shè)施虛擬為可用的邏輯資源,可實現(xiàn)基礎(chǔ)設(shè)施的按需分配和動態(tài)調(diào)整,實現(xiàn)資源的最大化利用;非虛擬化設(shè)施直接使用服務(wù)器、存儲、網(wǎng)絡(luò)等物理設(shè)施,主要用于分布式高性能計算。
基礎(chǔ)軟件層運行在硬件設(shè)施之上,包括操作系統(tǒng)、關(guān)系型數(shù)據(jù)庫管理系統(tǒng)、Hadoop框架以及開發(fā)工具等基本軟件支撐環(huán)境,基礎(chǔ)軟件層為其他軟件提供運行環(huán)境。
支撐層由支撐服務(wù)和數(shù)據(jù)接入兩部分組成,主要包括安全認(rèn)證支撐平臺、安全云應(yīng)用服務(wù)平臺、綜合支撐保障技術(shù)中心、GIS服務(wù)平臺、通用構(gòu)件庫、數(shù)據(jù)訪問平臺。
應(yīng)用層由大數(shù)據(jù)分析挖掘?qū)雍蛻?yīng)用服務(wù)兩部分組成,其中大數(shù)據(jù)分析挖掘?qū)訛閼?yīng)用服務(wù)層提供支撐,主要包括各種數(shù)據(jù)挖掘分析算法和模型,應(yīng)用服務(wù)包括視頻偵查輔助服務(wù)、智能串并案服務(wù)和目標(biāo)軌跡跟蹤服務(wù)。
展現(xiàn)層包括視頻偵查輔助、智能串并案和目標(biāo)軌跡跟蹤三部分,主要為各級公安人員提供友好的人機(jī)操作界面。
為了兼顧海量數(shù)據(jù)存儲處理與系統(tǒng)實時性的要求,大數(shù)據(jù)應(yīng)用系統(tǒng)采用兩種數(shù)據(jù)存儲處理模式:人口、車輛、嫌疑人員等基礎(chǔ)信息,以及一定時間范圍內(nèi)的案事件等規(guī)模有限的數(shù)據(jù),采用Oracle、MySQL等傳統(tǒng)關(guān)系型數(shù)據(jù)庫存儲,滿足系統(tǒng)高實時性訪問的需要;案事件的歷史數(shù)據(jù)、視頻、日志等海量數(shù)據(jù)采用Hadoop 集群中HDFS文件系統(tǒng)和HBase數(shù)據(jù)庫存儲,實現(xiàn)海量數(shù)據(jù)的有效存儲與處理并支持系統(tǒng)未來的橫向擴(kuò)展。同時,為數(shù)據(jù)訪問服務(wù)提供統(tǒng)一的數(shù)據(jù)訪問接口,為上層應(yīng)用實現(xiàn)透明化的數(shù)據(jù)訪問服務(wù),屏蔽系統(tǒng)的內(nèi)部實現(xiàn)細(xì)節(jié),數(shù)據(jù)訪問服務(wù)架構(gòu)如圖2所示。
關(guān)系型數(shù)據(jù)庫負(fù)責(zé)實時性要求較高的業(yè)務(wù)處理,產(chǎn)生的歷史數(shù)據(jù)定期導(dǎo)入Hadoop集群中HBase數(shù)據(jù)庫,Hadoop集群負(fù)責(zé)視頻、圖片、日志等海量數(shù)據(jù)的存儲,海量數(shù)據(jù)經(jīng)過挖掘分析形成的結(jié)果可重新注入關(guān)系型數(shù)據(jù)庫,支撐用戶對挖掘分析結(jié)果的實時查詢。
內(nèi)部訪問接口包括面向關(guān)系型數(shù)據(jù)庫的JDBC、ODBC,以及面向Hadoop集群的HBase API、HDFS URL接口、HDFS文件系統(tǒng)API等,主要實現(xiàn)對關(guān)系型數(shù)據(jù)庫和Hadoop集群的數(shù)據(jù)訪問。
核心引擎是整個數(shù)據(jù)訪問服務(wù)管理的核心,介于內(nèi)部訪問接口和對外數(shù)據(jù)訪問接口之間,負(fù)責(zé)數(shù)據(jù)訪問的權(quán)限管理、數(shù)據(jù)訪問內(nèi)容的解析與重定向、數(shù)據(jù)訪問操作的緩存等工作,主要包括權(quán)限管理、數(shù)據(jù)解析、數(shù)據(jù)分類、操作隊列管理、合法性檢查等。
對外數(shù)據(jù)訪問接口是數(shù)據(jù)訪問服務(wù)為大數(shù)據(jù)應(yīng)用系統(tǒng)業(yè)務(wù)軟件提供的統(tǒng)一數(shù)據(jù)訪問接口,所有的數(shù)據(jù)操作均通過該接口實現(xiàn)。
本文中大數(shù)據(jù)典型應(yīng)用包括視頻偵查輔助系統(tǒng)、智能串并案系統(tǒng)、目標(biāo)軌跡跟蹤系統(tǒng),這些應(yīng)用系統(tǒng)以服務(wù)化云計算平臺為基礎(chǔ),對公安大數(shù)據(jù)進(jìn)行全面整合、深度挖掘、統(tǒng)一管理共享,全面提升公安信息化系統(tǒng)的預(yù)警預(yù)測、科學(xué)決策和偵查破案能力。
大數(shù)據(jù)典型應(yīng)用系統(tǒng)是公安信息系統(tǒng)的一個重要組成部分,系統(tǒng)從公安業(yè)務(wù)系統(tǒng)獲取業(yè)務(wù)信息,并將大數(shù)據(jù)處理結(jié)果與業(yè)務(wù)系統(tǒng)共享。除此之外,為滿足業(yè)務(wù)需求,大數(shù)據(jù)應(yīng)用系統(tǒng)還需要從其他行業(yè)、互聯(lián)網(wǎng)、視頻監(jiān)控系統(tǒng)獲取信息。系統(tǒng)對外交互關(guān)系如圖3所示。
圖2 數(shù)據(jù)訪問服務(wù)架構(gòu)圖
2.2.1 視頻偵查輔助
隨著視頻監(jiān)控技術(shù)在偵查破案、治安防控工作中的普遍應(yīng)用及突出實效,各地陸續(xù)建立了視頻偵查專業(yè)隊伍。視頻偵查專業(yè)隊伍的建立,以及視頻偵查手段在公安工作中的成功應(yīng)用,正成為轉(zhuǎn)變警務(wù)模式、提升警務(wù)效能、推動警務(wù)革命的一個全新增長期。但目前的視頻偵查大多還停留在視頻調(diào)看階段,缺乏對視頻信息的智能分析、檢索和使用,使視頻監(jiān)控系統(tǒng)無法發(fā)揮更大效能。
視頻偵查輔助系統(tǒng)以海量的原始視頻數(shù)據(jù)為主要信息源,結(jié)合案例庫、車牌庫、人員信息庫等,通過視頻分析、查詢檢索、關(guān)聯(lián)分析等手段從中精煉出有價值的線索和情報,為各個業(yè)務(wù)警種提供視頻調(diào)閱、分析、處理與應(yīng)用服務(wù),為公安人員快速破案提供輔助手段。
視頻偵查輔助系統(tǒng)提供實時在線分析和事后離線分析功能。實時在線分析功能主要包括:人臉檢測、車輛檢測、視頻布防、人群聚集檢測、徘徊檢測、絆線檢測、區(qū)域入侵檢測、物品遺留檢測、物品丟失檢測、行人軌跡分析、車輛軌跡分析等。事后離線分析功能主要包括:視頻數(shù)據(jù)管理、智能視頻分析、人臉檢測、車輛檢測、視頻結(jié)果管理、視頻情報挖掘等。
圖3 系統(tǒng)對外交互關(guān)系
視頻偵查輔助系統(tǒng)的建立,將使海量視頻信息從“為我所看”層面到達(dá)“為我所用”層面,實現(xiàn)視頻監(jiān)控智能化。
2.2.2 智能串并案
串并案分析是案件偵破過程中的一個重要環(huán)節(jié),目前的串并案工作主要依賴重復(fù)性人工分析,缺少智能化方法及工具,難以滿足業(yè)務(wù)發(fā)展需求。
智能串并案系統(tǒng)以海量的案事件數(shù)據(jù)、接處警數(shù)據(jù)為主要信息源,借助大數(shù)據(jù)處理技術(shù),通過對案事件信息、嫌疑人員、涉案物品、線索等進(jìn)行特征提取等綜合分析,依據(jù)串并案規(guī)則和模型,利用關(guān)聯(lián)聚類等方法,為公安人員提供串并案件輔助分析功能。從而使串并案工作逐步走向半自動化和自動化。
智能串并案系統(tǒng)為公安人員提供串并案管理、案件關(guān)聯(lián)分析和案件綜合串并功能。串并案管理負(fù)責(zé)對串并案中涉及的案件信息、嫌疑人信息、串并結(jié)果等進(jìn)行管理,是案件串并工作的基礎(chǔ),包含案件信息提取、串并信息管理功能。案件關(guān)聯(lián)分析負(fù)責(zé)對案件信息進(jìn)行聚類、相似度分析等,為后續(xù)案件串并提供支撐,包含案件比對、案件相似度分析、案件聚類分析和串并案規(guī)律挖掘。案件綜合串并負(fù)責(zé)將具備串并特征的案件串并到一起形成系列案件,包含痕跡物證串并、案件要素串并、串并綜合研判、系列案輔助分析。
2.2.3 目標(biāo)軌跡跟蹤
目標(biāo)軌跡跟蹤系統(tǒng)以人員、物品、車輛等為目標(biāo),通過收集來自不同行業(yè)的數(shù)據(jù),如旅店住宿數(shù)據(jù)、網(wǎng)吧上網(wǎng)數(shù)據(jù)、話單數(shù)據(jù)、銀行交易數(shù)據(jù)、航班數(shù)據(jù)、火車出行數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)等,利用關(guān)聯(lián)查詢、信息比對、多維分析等手段,對目標(biāo)的軌跡進(jìn)行綜合分析,以圖表形式構(gòu)建目標(biāo)的軌跡圖,為案件偵破提供輔助支撐手段,并可以此為基礎(chǔ)支持公安人員完成嫌疑人員管控。
目標(biāo)軌跡跟蹤系統(tǒng)的主要功能是目標(biāo)軌跡分析和嫌疑人員管控。目標(biāo)軌跡分析負(fù)責(zé)對設(shè)定目標(biāo)(人員、物品、車輛)的軌跡進(jìn)行分析,系統(tǒng)收集來自不同行業(yè)的數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行整合,綜合利用數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)挖掘等方法建立目標(biāo)軌跡,并以圖、表、報告等方式進(jìn)行直觀展現(xiàn),從而為各類業(yè)務(wù)辦理提供有效的支撐。目標(biāo)軌跡分析的主要功能有:軌跡數(shù)據(jù)整合、特定軌跡分析、綜合軌跡分析、軌跡綜合查詢、軌跡綜合顯示、軌跡預(yù)警管理。嫌疑人員一般包括刑滿釋放人員、在逃人員、涉毒人員等,嫌疑人員管控就是通過建立犯罪風(fēng)險積分預(yù)測模型,對這類人群進(jìn)行分類分級管理。系統(tǒng)監(jiān)測這類人群的動態(tài)信息,建立嫌疑人員的行為軌跡監(jiān)控網(wǎng)絡(luò),結(jié)合嫌疑人員的基礎(chǔ)信息、社會關(guān)系信息等對嫌疑人員進(jìn)行管控預(yù)警。嫌疑人員管控的主要功能有:嫌疑人員信息管理、嫌疑人員布控管理、嫌疑人員動向監(jiān)測、嫌疑人員管控責(zé)任管理、嫌疑人員預(yù)警管理、管控流程管理、管控聯(lián)動管理、綜合查詢統(tǒng)計。
⑴智能視頻分析
智能視頻分析就是“給視頻監(jiān)控系統(tǒng)裝上大腦”,從而使視頻監(jiān)控系統(tǒng)“有智慧、能分析、會辨別”。實現(xiàn)視頻檢索、視頻增強(qiáng)、視頻編輯、視頻濃縮摘要、視頻標(biāo)注、行人檢測、車輛檢測等智能視頻分析功能。為此,首先需要對算法、環(huán)境、圖像質(zhì)量等多種因素進(jìn)行綜合考慮,對基于運動背景建模與目標(biāo)識別的行為分析技術(shù)和基于目標(biāo)物體特征信息的特征識別技術(shù)進(jìn)行研究,對產(chǎn)品在不同場景下的適應(yīng)性和魯棒性進(jìn)行研究。其次,將智能視頻分析技術(shù)與云計算技術(shù)相結(jié)合,突破傳統(tǒng)平臺性能和容量的瓶頸,為智能視頻分析提供充足的計算資源和存儲資源,實現(xiàn)智能視頻分析全新應(yīng)用模式的發(fā)展。
⑵案件智能串并
為實現(xiàn)案件串并智能化,需要基于經(jīng)驗法和量化分析法為各類案件建立串并模型,設(shè)計相似度規(guī)則、要素權(quán)重規(guī)則。通過聚類、相似度等分析,計算案件之間的相似程度,并給出量化的輸出結(jié)果。串并模型、權(quán)重規(guī)則以及串并算法都需要在實戰(zhàn)過程中進(jìn)行驗證和調(diào)整,直至滿足特定用戶的實際需求。
⑶犯罪風(fēng)險積分預(yù)測
為對嫌疑人員的犯罪風(fēng)險進(jìn)行預(yù)測,需要克服目前單個模型“包治百病”的難題。通過對目前所積累的海量嫌疑人員數(shù)據(jù)的深度挖掘和關(guān)聯(lián)分析,挖掘出人所不能預(yù)知的隱性規(guī)律,并針對各類管控對象分類搭建積分預(yù)警模型,做到“一把鑰匙開一把鎖”,使犯罪風(fēng)險預(yù)測走向個性化和精準(zhǔn)化。
迅猛發(fā)展的經(jīng)濟(jì)社會已經(jīng)步入“大數(shù)據(jù)”時代,公安信息化系統(tǒng)也無法置身事外。但是,擁有大量數(shù)據(jù)本身并不會增加任何價值,大數(shù)據(jù)的威力體現(xiàn)在如何處理、分析和利用這些數(shù)據(jù)[2]。目前,大數(shù)據(jù)在公安信息化建設(shè)中的應(yīng)用才剛剛起步,前景廣闊,任重道遠(yuǎn)。因此從現(xiàn)在開始,就應(yīng)該讓數(shù)據(jù)說話,讓數(shù)據(jù)驅(qū)動決策,讓大數(shù)據(jù)的價值真正地發(fā)揮出來,讓大數(shù)據(jù)助推公安信息化建設(shè)更上一層樓。
[1] 趙偉.數(shù)據(jù)挖掘技術(shù)在公安預(yù)測預(yù)警中的應(yīng)用[J].警察技術(shù),2009(4): 56-58.
[2] FRANKS B.駕馭大數(shù)據(jù)[M]. 黃海,車皓陽,王悅,等,譯.北京:人民郵電出版社,2013.