蔡朝輝
新智認知數(shù)據(jù)服務(wù)有限公司,上海 200433
隨著全球信息技術(shù)高速發(fā)展,信息化已經(jīng)成為促進經(jīng)濟社會發(fā)展的強大動力,人們在社會生活的各個方面每時每刻產(chǎn)生著海量的數(shù)據(jù)信息。新形勢、新任務(wù)下,城市公共安全需要充分利用、甚至主動捕獲信息社會產(chǎn)生的海量數(shù)據(jù),通過整合共享、實時分析和深度挖掘,積極應(yīng)對日益復(fù)雜的城市公共安全和國家反恐維穩(wěn)形勢。與時俱進,城市安全相關(guān)數(shù)據(jù)已經(jīng)具備典型的大數(shù)據(jù)特質(zhì):
(1) 數(shù)據(jù)體量(Volume)大,1個警用高清視頻監(jiān)控探頭1個月就將占用2.5TB的存儲空間,500個探頭將輕易突破PB級存儲需求,1個交通卡口斷面1d生成的數(shù)據(jù)就能達到1~2萬多條,幾百路卡口1年將生成數(shù)十億條數(shù)據(jù)。
(2) 數(shù)據(jù)類別(Variety)多,公安數(shù)據(jù)源種類繁多,結(jié)構(gòu)不一,沖破了以往所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,警務(wù)數(shù)據(jù)的70%~85%的數(shù)據(jù)都是圖片、視頻、音頻、網(wǎng)頁、文本等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
(3) 數(shù)據(jù)價值 (Value) 密度低,在系統(tǒng)存儲的海量數(shù)據(jù)中,真正對于公安部門有用的信息如同沙里淘金,需要通過數(shù)據(jù)的深度關(guān)聯(lián)分析,挖掘其中價值和潛力。
(4) 數(shù)據(jù)處理速度 (Velocity) 要求快,時效性高,警務(wù)工作對時間相當敏感,戰(zhàn)機往往稍縱即逝。因此,在對海量數(shù)據(jù)進行挖掘分析時,要求盡可能的秒級響應(yīng)。
顯而易見,傳統(tǒng)的網(wǎng)絡(luò)、存儲和計算架構(gòu)已經(jīng)不能適應(yīng)城市公共安全對于海量數(shù)據(jù)快速處理的實戰(zhàn)要求,開啟公安大數(shù)據(jù)創(chuàng)新應(yīng)用,對于解決公安信息化的技術(shù)瓶頸問題,推動公安信息化向深度和廣度邁進,進一步提升公安機關(guān)核心戰(zhàn)斗力,有著極其重要的意義。
公安大數(shù)據(jù)在實戰(zhàn)過程中主要面臨“存、管、用”三方面的困難與挑戰(zhàn)。首先是“存”,即數(shù)據(jù)量急劇增長帶來的系統(tǒng)擴展問題。當今城市公共安全數(shù)據(jù)呈“爆炸性”增長,若單純依靠少數(shù)幾臺高端設(shè)備的升級更換(scale-up縱向擴展),已難以滿足數(shù)據(jù)量的爆炸式增長,只有通過不斷平行擴大系統(tǒng)規(guī)模(scale-out橫向擴展) 才有可能予以應(yīng)對。
其次是“管”,也就是數(shù)據(jù)結(jié)構(gòu)多樣化帶來的管理問題。公安部門擁有大量結(jié)構(gòu)化、非結(jié)構(gòu)化混合型數(shù)據(jù),如視頻、圖片、測量、日志等。傳統(tǒng)關(guān)系型數(shù)據(jù)庫僅擅長集中式的結(jié)構(gòu)化數(shù)據(jù)管理,這為公安大數(shù)據(jù)中分散分布的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理帶來了困擾。
最后是“用”,即大規(guī)模分布式數(shù)據(jù)帶來的分析處理問題。暴增的數(shù)據(jù)量不僅僅帶來存儲的問題,也為網(wǎng)絡(luò)傳輸和計算分析帶來了新的挑戰(zhàn)。公安機關(guān)多年信息系統(tǒng)建設(shè)形成了眾多數(shù)據(jù)孤島,已經(jīng)不是簡單的數(shù)據(jù)交換或數(shù)據(jù)代理能夠打通,數(shù)據(jù)獲取難、數(shù)據(jù)計算慢等一系列技術(shù)瓶頸隨之出現(xiàn)。
大數(shù)據(jù)首先是體量大,集中存放在一臺機器上是不可能的,當體量達到一定程度,集中存放于一個數(shù)據(jù)中心都會是奢望,因此“分開存儲”是非常自然的解決方案。為保證大數(shù)據(jù)存儲的高可用、高可靠和經(jīng)濟型,我們必須化整為零:采用分布式存儲的方式來存儲數(shù)據(jù),采用冗余存儲的方式來保證存儲數(shù)據(jù)的可靠性,以高可靠軟件來彌補硬件的不可靠,從而提供廉價可靠的大數(shù)據(jù)存儲系統(tǒng)。
“分開存儲”并不意味著用戶希望“分開管理”,“物理上分布,邏輯上統(tǒng)一”,用戶希望從外面看進去,依然還是統(tǒng)一的大數(shù)據(jù)存儲池,無論查詢讀取還是統(tǒng)計分析,都在一個抽象的完整數(shù)據(jù)集上操作,這就要求我們設(shè)計一個特殊的網(wǎng)絡(luò)文件系統(tǒng),能夠同時協(xié)調(diào)管理多臺服務(wù)器、甚至多個數(shù)據(jù)中心的文件讀寫操作,從而將多臺服務(wù)器或多個數(shù)據(jù)中心虛擬連接為一個整體。大數(shù)據(jù)的網(wǎng)絡(luò)存儲需求,催生了許多優(yōu)秀的分布式文件系統(tǒng)和云存儲服務(wù),最典型的分布式文件系統(tǒng)是Google的GFS和Hadoop的HDFS,而存儲虛擬化加上存儲自動化、網(wǎng)絡(luò)化就是云存儲,如Amazon的S3、Openstack的Swift。
傳統(tǒng)關(guān)系型數(shù)據(jù)庫一般裝載于一臺服務(wù)器或若干臺服務(wù)器集群之上,庫表主要用于存儲一些結(jié)構(gòu)化的數(shù)據(jù)內(nèi)容,每個元組字段的組成都一樣,即使不是每個元組都需要所有的字段,但數(shù)據(jù)庫也會為每個元組分配所有的字段,這樣的結(jié)構(gòu)利于快速索引,也便于表與表之間進行連接操作,但從另一個角度來說它也是性能瓶頸的一個因素,尤其是面對稀疏數(shù)據(jù)矩陣。
非關(guān)系型數(shù)據(jù)庫在大數(shù)據(jù)存取上具備關(guān)系型數(shù)據(jù)庫無法比擬的性能優(yōu)勢。這種數(shù)據(jù)庫能在許多服務(wù)器之間延展,允許用戶在必要時平行擴大運算規(guī)模,同時還具備一定的開源性,允許用戶按自己喜歡的方式來架構(gòu)數(shù)據(jù),例如,以Lotus Notes為代表的文件數(shù)據(jù)庫存儲模型、以HBase為代表的Key-Value鍵值對存儲模型、以MongoDB為代表的“面向集合”存儲模型等。其中,鍵/值數(shù)據(jù)庫是目前最為主流的非關(guān)系型數(shù)據(jù)庫,它可以靈活存放各類結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),可以靈活加列 (列式數(shù)據(jù)庫),可以靈活組合為列族,還可以靈活為鍵值保存多個歷史版本,是一種非常適合大數(shù)據(jù)管理的多維數(shù)據(jù)庫模型。
并行計算是相對于串行計算來說的,具體分為時間上的并行和空間上的并行,大數(shù)據(jù)并行計算主要遇到的是空間并行問題,也就是說,如何利用多個處理器或多臺計算機來并發(fā)的執(zhí)行計算,從而高效地對大數(shù)據(jù)進行挖掘應(yīng)用,使用戶能更輕松的享受大數(shù)據(jù)帶來的大智慧和大價值。
面向大數(shù)據(jù)最典型的分布式并行計算模式是MapReduce編程模型,MapReduce將大型任務(wù)分成很多細粒度的子任務(wù),這些子任務(wù)分布式地在多個計算節(jié)點上進行調(diào)度和計算,從而在整體上獲得對大數(shù)據(jù)的秒級處理能力。在大數(shù)據(jù)的應(yīng)用場景下,再高端、再昂貴的小型機,也許還比不上若干臺普通服務(wù)器的并機處理能力。參考MapReduce的原理,面向公安部門的眾多數(shù)據(jù)孤島,我們也許不再需要高負載的數(shù)據(jù)交換總線,而是“數(shù)據(jù)不動、計算動”,讓分布式計算去找分布式數(shù)據(jù),通過靈活的計算任務(wù)調(diào)度,全面提升警務(wù)大數(shù)據(jù)的挖掘分析速度。
隨著AI人工智能技術(shù)的日益成熟,海量的公共安全視頻圖像可以通過視頻智能解析技術(shù),由非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并同步生成索引關(guān)系,以此為基礎(chǔ)構(gòu)建圖像大數(shù)據(jù)應(yīng)用服務(wù)。
在未來的應(yīng)用場景中,公安干警們不再需要人工調(diào)取海量的視頻錄像,如同大海撈針般在PB級的視頻影像中發(fā)現(xiàn)那一閃而逝的嫌疑目標,只要簡單的輸入嫌疑人的顏色、交通工具、體貌特征等文字描述,或者上傳該嫌疑人的照片或視頻截圖,即可以依托公安圖像大數(shù)據(jù)應(yīng)用平臺,秒級響應(yīng),快速地搜索出嫌疑人曾經(jīng)出現(xiàn)過的視頻片段和過車圖片,并連點成線構(gòu)建破案線索,快速破獲案件。
當前面向道路車輛的智能卡口或智能電警系統(tǒng),多建設(shè)于各個地市公安局,或者是下面的分縣公安局,數(shù)據(jù)分散,難以統(tǒng)一利用,而采用逐級上傳的方式向上匯聚,又對網(wǎng)絡(luò)和存儲設(shè)備帶來很大壓力,讓用戶進退兩難。在未來的卡口大數(shù)據(jù)應(yīng)用場景中,卡口數(shù)據(jù)無需上傳就可進行統(tǒng)一查詢、統(tǒng)計和訪問應(yīng)用,跨市布控和全省統(tǒng)計不再困難,甚至跨省追逃都能輕易實現(xiàn)。這是因為未來卡口大數(shù)據(jù)平臺采用了跨數(shù)據(jù)中心的非關(guān)系型數(shù)據(jù)庫,多個分中心庫表可以虛擬成一個非關(guān)系型大表,用戶直接訪問虛擬大表,卡口大數(shù)據(jù)平臺則自動分配任務(wù)給多個物理分中心,并將結(jié)果合并后統(tǒng)一返回,應(yīng)用管理十分便捷。
犯罪分子在沒有落入法網(wǎng)之前,常常會多起作案或流竄作案,因此偵查警員往往要在海量的案事件視頻圖片中去比對發(fā)現(xiàn)相似的作案手段或涉案物品,從而將多案并為一案,豐富案情線索,加快破案的速度。在未來的情報大數(shù)據(jù)應(yīng)用場景中,人們不僅可以對案事件的人工標注信息和自動標注信息進行統(tǒng)一匯總管理,還能智能化的完成跨省市的大數(shù)據(jù)篩選比對,如果利用公安圖像大數(shù)據(jù)平臺的高效運算能力,還能直接在圖片等非結(jié)構(gòu)化數(shù)據(jù)中進行智能特征比對,快速發(fā)現(xiàn)相似線索。所有的比對搜索工作,無論是標注信息匹配,還是圖片特征比對,都可以在幾秒或幾分鐘內(nèi)完成。
大數(shù)據(jù)“存管用”技術(shù)在城市公共安全領(lǐng)域的創(chuàng)新應(yīng)用,僅僅是一個起步,只有充分運用“大數(shù)據(jù)”思維,才能全面促進公安部門運用全量數(shù)據(jù)去認知過去、把握現(xiàn)在和預(yù)測未來。本文因篇幅原因,無法進一步展開城市公共安全的大數(shù)據(jù)綜合治理和大數(shù)據(jù)資源即服務(wù)等深入環(huán)節(jié),稍有遺憾。
城市公共安全是國家社會穩(wěn)定、人民美好生活的基礎(chǔ),大數(shù)據(jù)時代的到來拓寬了我們的視野,筆者認為,不是我們現(xiàn)在掌握的數(shù)據(jù)太多,而是遠遠不足,物聯(lián)網(wǎng)的快速發(fā)展有所彌補,而虛擬世界的社交網(wǎng)絡(luò)、電商平臺也需要加入公共安全的大數(shù)據(jù)采集與智能防范體系,從而實現(xiàn)虛實兩面的全方位打防管控。
可以預(yù)見的是,大數(shù)據(jù)的積累還將催生城市公共安全的人工智能平臺,創(chuàng)建24小時全天候值守的公安智慧大腦,將公安干警從日復(fù)一日的重復(fù)性體力勞動和腦力勞動中解放出來,大幅提高城市安全的整體運作效率。
[1] 馬奔,毛慶鐸. 大數(shù)據(jù)在應(yīng)急管理中的應(yīng)用[J]. 中國行政管理. 2015(3).
[2] 黃全義,夏金超,楊秀中,等. 城市公共安全大數(shù)據(jù)[J]. 地理空間信息,2017.
[3] 孫粵文. 大數(shù)據(jù):現(xiàn)代城市公共安全治理的新策略[J]. 城市發(fā)展研究,2017(2).