●穆義龍
(中國(guó)人民公安大學(xué),北京100038)
公安部已成立全國(guó)公安大數(shù)據(jù)工作領(lǐng)導(dǎo)小組,以大力推進(jìn)實(shí)施公安大數(shù)據(jù)戰(zhàn)略,公安大數(shù)據(jù)建設(shè)是公安信息化發(fā)展的新階段,能夠不斷提高維護(hù)國(guó)家安全和社會(huì)穩(wěn)定的能力。[1]進(jìn)入大數(shù)據(jù)時(shí)代以來,就公安領(lǐng)域來講,隨著數(shù)據(jù)的激增和技術(shù)跟進(jìn)的緩慢,公安大數(shù)據(jù)建設(shè)面臨著數(shù)據(jù)采集不全、數(shù)據(jù)處理不足、數(shù)據(jù)管理滯后、數(shù)據(jù)挖掘開發(fā)不足等問題。
1.數(shù)據(jù)來源廣體量大
大數(shù)據(jù)時(shí)代,隨著通訊、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、人工智能等技術(shù)的發(fā)展,我們進(jìn)入了萬物互聯(lián)的社會(huì),人、事、物的全息信息以數(shù)據(jù)的形式再現(xiàn)于虛擬空間中。然而這些數(shù)據(jù)分布廣泛,主要來源有手機(jī)數(shù)據(jù)、計(jì)算機(jī)數(shù)據(jù)、汽車數(shù)據(jù)、打印機(jī)數(shù)據(jù)、智能攝像頭數(shù)據(jù)、智能家居數(shù)據(jù)、智能穿戴設(shè)備數(shù)據(jù)、無人機(jī)數(shù)據(jù)、銀行開戶信息、公共場(chǎng)所數(shù)據(jù)、云端數(shù)據(jù)、政務(wù)數(shù)據(jù)等等。隨著5G時(shí)代的到來,5G具有的極高安全性和極快數(shù)據(jù)速率,將進(jìn)一步推動(dòng)通訊、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、人工智能等技術(shù)的發(fā)展,在一定程度上促進(jìn)商業(yè)模式的改造和帶來一批新行業(yè)的興起,屆時(shí)數(shù)據(jù)將會(huì)進(jìn)一步呈現(xiàn)大爆發(fā)的狀態(tài)。巨大的數(shù)據(jù)增量以及體量,既使得以數(shù)據(jù)為載體的信息更為詳盡,又導(dǎo)致數(shù)據(jù)采集所需的數(shù)據(jù)體量巨大,如何將巨大體量的數(shù)據(jù)提取,給數(shù)據(jù)采集工作帶來了極大的挑戰(zhàn)。
2.部分?jǐn)?shù)據(jù)提取難度大
盡管當(dāng)前數(shù)據(jù)分布廣泛、體量巨大,其所蘊(yùn)含的數(shù)據(jù)也相對(duì)完備、高值。但是,這巨大體量的數(shù)據(jù)就像一座冰山一樣,其中能夠直接通過資源管理器提取的數(shù)據(jù)就像冰山露出的部分僅占很少比例。很大一部分潛藏于底部,很難被發(fā)現(xiàn)和直接提取,在這一部分?jǐn)?shù)據(jù)中,有一部分比如被覆蓋的或者被刪除的數(shù)據(jù),可以通過數(shù)據(jù)恢復(fù)軟件等技術(shù)呈現(xiàn)和被提取。又有一部分?jǐn)?shù)據(jù),由于被擦除或者結(jié)構(gòu)特性等原因很難通過上述方法提取,必然導(dǎo)致部分?jǐn)?shù)據(jù)所蘊(yùn)含的信息不能被獲取,對(duì)數(shù)據(jù)采集工作帶來了巨大的挑戰(zhàn)。
就已采集的數(shù)據(jù)而言,因其來源廣泛、結(jié)構(gòu)不一等等,給后期的數(shù)據(jù)分析和數(shù)據(jù)利用帶來了極大的麻煩,很難發(fā)揮數(shù)據(jù)的真正價(jià)值。目前公安工作面臨的大多數(shù)原始公安數(shù)據(jù)具有不一致性、噪聲和缺損高度敏感性等等,導(dǎo)致很多數(shù)據(jù)無法直接使用,并且,目前在實(shí)踐中相關(guān)部門在數(shù)據(jù)的清理、轉(zhuǎn)換、集成、簡(jiǎn)化等方面的相關(guān)能力還未能滿足公安大數(shù)據(jù)應(yīng)用的需求,在很大程度上造成數(shù)據(jù)資源的浪費(fèi)。
數(shù)據(jù)預(yù)處理后的儲(chǔ)存、管理也相當(dāng)重要,其主要包括數(shù)據(jù)資源目錄管理、數(shù)據(jù)模型管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理等方面??茖W(xué)的數(shù)據(jù)管理是數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)共享和數(shù)據(jù)綜合利用的前提。然而,在實(shí)踐中,公安大數(shù)據(jù)管理存在分散管理、重復(fù)建設(shè)等導(dǎo)致公安大數(shù)據(jù)流動(dòng)性差和標(biāo)準(zhǔn)不一等問題;并且多年來,公安信息系統(tǒng)建設(shè)一直在采用多層體系技術(shù)架構(gòu)的方式,該方式發(fā)揮了其歷史性作用,但隨著“人工智能+大數(shù)據(jù)”、云計(jì)算、移動(dòng)互聯(lián)等新技術(shù)的出現(xiàn),傳統(tǒng)架構(gòu)方式可擴(kuò)展性不強(qiáng)、集約共享性不徹底等,[2]致使目前公安信息系統(tǒng)中的數(shù)據(jù)管理只能實(shí)現(xiàn)對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行簡(jiǎn)單匯聚、較為粗略的分類和其他簡(jiǎn)單管理。很明顯,在大數(shù)據(jù)時(shí)代,面對(duì)增速極快、體量巨大且結(jié)構(gòu)不一的大數(shù)據(jù)和公安業(yè)務(wù)需求的多樣化的現(xiàn)狀,公安信息系統(tǒng)的數(shù)據(jù)管理能力相對(duì)滯后。
在萬物互聯(lián)的今天,數(shù)據(jù)不是獨(dú)立存在的而是與其他數(shù)據(jù)相互作用和關(guān)聯(lián)的,因此數(shù)據(jù)價(jià)值的充分實(shí)現(xiàn)不僅僅是對(duì)數(shù)據(jù)簡(jiǎn)單利用,更為重要的是對(duì)數(shù)據(jù)的開發(fā)和關(guān)聯(lián)挖掘。然而目前在公安領(lǐng)域,大多數(shù)地方對(duì)數(shù)據(jù)挖掘技術(shù)停留在零散研究與應(yīng)用,難以有效明確地集成眾多挖掘關(guān)鍵技術(shù)。就數(shù)據(jù)的淺層關(guān)聯(lián)性進(jìn)行分析,往往得到的信息并不全面,不能充分發(fā)揮數(shù)據(jù)的真正價(jià)值。
數(shù)據(jù)中臺(tái)是指依靠人工智能等相關(guān)技術(shù)構(gòu)建的一套統(tǒng)一的數(shù)據(jù)治理、數(shù)據(jù)挖掘、數(shù)據(jù)開發(fā)、數(shù)據(jù)管理和數(shù)據(jù)服務(wù)的數(shù)據(jù)系統(tǒng),其集智能環(huán)境感知、強(qiáng)大計(jì)算能力、海量數(shù)據(jù)融合、智能應(yīng)用服務(wù)、嚴(yán)密安全保障為一體。
隨著物聯(lián)網(wǎng)和各種新技術(shù)、新感知設(shè)備的廣泛應(yīng)用,結(jié)構(gòu)化數(shù)據(jù)所占比例將越來越小。未來面臨的公安大數(shù)據(jù),99%的數(shù)據(jù)量將是非結(jié)構(gòu)化數(shù)據(jù)。同時(shí)公安工作大多和空間位置相關(guān),更加注重非結(jié)構(gòu)化數(shù)據(jù)和時(shí)空大數(shù)據(jù)的使用,公安大數(shù)據(jù)不僅包含實(shí)體的屬性信息,更包含實(shí)體的時(shí)空信息以及實(shí)體間的關(guān)系信息,[3]數(shù)據(jù)中臺(tái)利用人工智能等相關(guān)技術(shù)從源頭打破數(shù)據(jù)孤島,把公安各個(gè)警種數(shù)據(jù)、政務(wù)數(shù)據(jù)資源、社會(huì)數(shù)據(jù)資源、重點(diǎn)網(wǎng)絡(luò)數(shù)據(jù)、物聯(lián)感知數(shù)據(jù)等等所有的、多元的、跨域的數(shù)據(jù)進(jìn)行智能終端感知以及快速接入和相應(yīng)的適配,并且利用相應(yīng)的算法針對(duì)不同類型和不同來源場(chǎng)景的數(shù)據(jù)使用不同的采集服務(wù)方式處理,數(shù)據(jù)進(jìn)來以后進(jìn)行快速對(duì)賬,并且依據(jù)相應(yīng)標(biāo)準(zhǔn)對(duì)收集的數(shù)據(jù)進(jìn)行分類、儲(chǔ)存和管理。
公安大數(shù)據(jù)集合了多元的、跨域的數(shù)據(jù),其中有很大一部分是非結(jié)構(gòu)性數(shù)據(jù),數(shù)據(jù)中臺(tái)依據(jù)相關(guān)技術(shù)標(biāo)準(zhǔn)通過對(duì)ODS基礎(chǔ)層的全量數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)化以及利用其相關(guān)技術(shù)處理使多源異構(gòu)的基礎(chǔ)數(shù)據(jù)向高價(jià)值結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換,從而最大限度地提高公安大數(shù)據(jù)的利用效率。
同時(shí)數(shù)據(jù)中臺(tái)也在實(shí)時(shí)對(duì)數(shù)據(jù)進(jìn)行相關(guān)的質(zhì)量監(jiān)控和提升,從數(shù)據(jù)接入開始利用一套靈活的規(guī)則機(jī)制對(duì)數(shù)據(jù)進(jìn)行質(zhì)量探查,為接下來的數(shù)據(jù)的自動(dòng)化對(duì)標(biāo)提供相關(guān)支撐。在這個(gè)過程中數(shù)據(jù)中臺(tái)通過可視化的方式來檢測(cè)數(shù)據(jù)的一些標(biāo)準(zhǔn)和一些字段空值,以及對(duì)數(shù)據(jù)的增量做一些同比、環(huán)比。并且根據(jù)每天的增量作出相關(guān)預(yù)警預(yù)測(cè),及時(shí)提醒數(shù)據(jù)開發(fā)人員關(guān)注數(shù)據(jù)的接入情況,數(shù)據(jù)開發(fā)人員根據(jù)數(shù)據(jù)中臺(tái)反饋的信息來進(jìn)一步處理相關(guān)情況,以此提高數(shù)據(jù)的可靠性。
數(shù)據(jù)中臺(tái)利用相關(guān)人工智能技術(shù)加強(qiáng)對(duì)元數(shù)據(jù)的管理以及基于元數(shù)據(jù)的數(shù)據(jù)開發(fā)管理。在對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理的基礎(chǔ)之上構(gòu)建DWD數(shù)據(jù)標(biāo)準(zhǔn)層,再根據(jù)標(biāo)準(zhǔn)層的標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)合多維元數(shù)據(jù)信息,利用關(guān)鍵特征數(shù)據(jù)結(jié)合業(yè)務(wù)核心算法不斷優(yōu)化數(shù)據(jù)模型進(jìn)一步構(gòu)建和完善公安業(yè)務(wù)所需的數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)中臺(tái)利用人工智能等相關(guān)技術(shù)通過構(gòu)建智能數(shù)據(jù)加大對(duì)數(shù)據(jù)的開發(fā)、挖掘其有效價(jià)值。對(duì)數(shù)據(jù)進(jìn)行智能化標(biāo)簽,不斷完善數(shù)據(jù)的深度關(guān)聯(lián)實(shí)現(xiàn)具有置信度和親密度的ID-Mapping(包括一些實(shí)體如:標(biāo)簽、關(guān)系、行為、軌跡、賬戶、資產(chǎn)、車輛、案件、地址等等),在此基礎(chǔ)上結(jié)合業(yè)務(wù)構(gòu)建DWS主題庫(kù)(主題域可以實(shí)時(shí)共享,用戶可以直接在主題域找到所需數(shù)據(jù)節(jié)約相關(guān)成本)和DM專題庫(kù)形成開放結(jié)構(gòu)化服務(wù),并且利用相應(yīng)的技術(shù)構(gòu)建分析性數(shù)據(jù)庫(kù)服務(wù)。
公安大數(shù)據(jù)在數(shù)據(jù)中臺(tái)中通過挖掘治理之后匯聚到數(shù)據(jù)開發(fā)中心,數(shù)據(jù)中臺(tái)利用人工智能技術(shù)不斷提升業(yè)務(wù)生成開發(fā)能力和快速的服務(wù)開發(fā)能力,分別建立業(yè)務(wù)開發(fā)的能力工廠和服務(wù)開發(fā)的能力工廠。在對(duì)數(shù)據(jù)治理的基礎(chǔ)之上,通過業(yè)務(wù)開發(fā)能力工廠利用相關(guān)技術(shù)不斷沉淀業(yè)務(wù),以及不斷對(duì)業(yè)務(wù)進(jìn)行抽象來生成業(yè)務(wù),并且將生成業(yè)務(wù)所帶來的結(jié)果形成服務(wù),通過服務(wù)開發(fā)能力工廠開發(fā)服務(wù),在專題庫(kù)中進(jìn)行中轉(zhuǎn)和沉淀,通過以服務(wù)集市的方式來提供服務(wù)目錄等方式進(jìn)行分享。
數(shù)據(jù)中臺(tái)在對(duì)數(shù)據(jù)治理的基礎(chǔ)上,將數(shù)據(jù)治理的成果結(jié)合公安工作日常業(yè)務(wù)進(jìn)行模塊化抽象并且不斷沉淀形成各類的數(shù)據(jù)業(yè)務(wù)模型,如電信詐騙模型、犯罪高發(fā)熱點(diǎn)區(qū)域分析研判模型、跨境詐騙類案特征分析、空港旅客多維防控系統(tǒng)、流動(dòng)人口綜合分析研判模型、高危對(duì)象預(yù)測(cè)預(yù)警模型、車險(xiǎn)騙保分析模型等等,并且隨著相關(guān)技術(shù)的發(fā)展以及業(yè)務(wù)環(huán)境的變化能夠?qū)?shù)據(jù)業(yè)務(wù)模型不斷更新完善,以更好地服務(wù)公安工作。
數(shù)據(jù)中臺(tái)對(duì)大量數(shù)據(jù)建立很多數(shù)據(jù)標(biāo)簽,如基礎(chǔ)類標(biāo)簽、行為類標(biāo)簽、關(guān)系類標(biāo)簽、業(yè)務(wù)類標(biāo)簽、背景類標(biāo)簽、算法類標(biāo)簽和其他標(biāo)簽,以平臺(tái)管理的方式體現(xiàn)出來,同時(shí),用戶可以根據(jù)系統(tǒng)自動(dòng)帶出來的基礎(chǔ)標(biāo)簽來做自己需要的自定義標(biāo)簽,并且這些自定義標(biāo)簽繼續(xù)沉淀,方便后來者使用或者在此基礎(chǔ)上對(duì)數(shù)據(jù)標(biāo)簽做進(jìn)一步更改,智能數(shù)據(jù)標(biāo)簽實(shí)現(xiàn)用戶對(duì)標(biāo)簽數(shù)據(jù)任意組合的解析,輸出適用于任一警種、任一部門、任一場(chǎng)景所需的數(shù)據(jù)分析結(jié)果集。
布控預(yù)警對(duì)公安工作來說是非常重要的一塊,數(shù)據(jù)中臺(tái)在對(duì)數(shù)據(jù)的治理基礎(chǔ)之上構(gòu)建了自動(dòng)化、智能化的預(yù)警系統(tǒng),來解決通用性的、大部分應(yīng)用場(chǎng)景。用戶在數(shù)據(jù)中臺(tái)中通過對(duì)目標(biāo)人群、規(guī)則、區(qū)域、策略等的設(shè)置,結(jié)合具有置信度和親密度ID-Mapping實(shí)現(xiàn)全息預(yù)警,在盡可能全面的數(shù)據(jù)基礎(chǔ)上,對(duì)傳統(tǒng)的關(guān)聯(lián)關(guān)系進(jìn)行進(jìn)一步延伸和深化,構(gòu)建和完善依托置信度和親密度的實(shí)體關(guān)聯(lián),以人為出發(fā),反應(yīng)這個(gè)人的所有的物品、車輛、行為、軌跡等等相關(guān)信息的指數(shù)情況,利用全面數(shù)據(jù)通過特定規(guī)則和算法,計(jì)算出某個(gè)人的某方面,如車輛、地址的概率,從而進(jìn)一步支持公安機(jī)關(guān)的智能化布控預(yù)警。
以人工智能技術(shù)為支撐的數(shù)據(jù)中臺(tái)具有多維智能感知體系、智能融合應(yīng)用體系、大數(shù)據(jù)支撐體系、數(shù)據(jù)治理體系等等能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的深度挖掘、深度治理、實(shí)現(xiàn)數(shù)據(jù)共池,形成各類數(shù)據(jù)業(yè)務(wù)模型,并且不僅實(shí)現(xiàn)傳統(tǒng)意義上的數(shù)據(jù)共享,而且以服務(wù)的方式共享出來,能夠更好地滿足公安工作需要,進(jìn)一步推動(dòng)公安大數(shù)據(jù)建設(shè)。