郝久月 夏吉廣 王開林 陳清輝
1. 公安部第一研究所 2. 北京中盾安信科技發(fā)展有限公司
隨著“互聯(lián)網(wǎng)+可信身份認證平臺”(以下簡稱CTID平臺)行業(yè)應(yīng)用實踐廣泛、深入,平臺為全國260多家政府機關(guān)和社會各行業(yè)累計提供認證服務(wù)超過21億次,日均認證量超1500萬次。目前,CTID平臺已掌握的身份類數(shù)據(jù)資源類型已達幾十種,總體數(shù)據(jù)規(guī)模達百億條。此外,CTID平臺衍生出了更多的服務(wù)場景,如政務(wù)服務(wù)、酒店住宿、家政婚戀和電子購票等,特別是隨著5G和物聯(lián)網(wǎng)的發(fā)展,平臺在智能門鎖、工業(yè)物聯(lián)網(wǎng)等領(lǐng)域進行拓展。據(jù)估算,平臺數(shù)據(jù)年增長率將達300%,CTID平臺的數(shù)據(jù)資源將不僅僅是單一身份數(shù)據(jù),也將包含越來越多的場景數(shù)據(jù)。與此同時,網(wǎng)絡(luò)環(huán)境中的個人信息保護問題成為重中之重。例如在疫情期間,大數(shù)據(jù)、信息化等在全國防疫工作中發(fā)揮了重要作用,但部分系統(tǒng)仍然存在身份、家庭住址、生物特征等個人隱私信息的過度采集、超權(quán)限采集等問題。
因此,為挖掘數(shù)據(jù)價值,同時確保個人信息安全,CTID平臺按照公安大數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)持續(xù)開展數(shù)據(jù)資產(chǎn)管理工作,有效支撐CTID平臺安全、穩(wěn)定服務(wù),為公共安全、社會治理和智慧城市等建設(shè)提供支撐。
CTID平臺從數(shù)據(jù)內(nèi)容上有基礎(chǔ)認證數(shù)據(jù)和日志數(shù)據(jù)兩大類,從數(shù)據(jù)類型上有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),從網(wǎng)絡(luò)分布上有公安網(wǎng)、互聯(lián)網(wǎng)和專線等,因此CTID數(shù)據(jù)具備多源異構(gòu)的特點。如果數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、質(zhì)量參差不齊,就無法進行數(shù)據(jù)的多維分析和復(fù)雜建模,將大大降低CTID大數(shù)據(jù)的使用價值。大數(shù)據(jù)治理解決方案,能夠?qū)崿F(xiàn)多種類型和多種來源的數(shù)據(jù)整合和分層治理,面向服務(wù)層提供數(shù)據(jù)服務(wù)和建模平臺,為CTID各類使用場景提供數(shù)據(jù)支撐。
CTID數(shù)據(jù)資源優(yōu)勢包括:(1)數(shù)據(jù)體量大、種類多、涵蓋全;(2)安全性高。CTID平臺基礎(chǔ)認證服務(wù)數(shù)據(jù)是對源數(shù)據(jù)采用符合國家密碼標(biāo)準(zhǔn)要求的算法進行脫敏生成,保證了數(shù)據(jù)在使用過程中的機密性,即使發(fā)生信息泄露,也無法還原為明文,保障了數(shù)據(jù)安全;(3)人像認證準(zhǔn)確度高。人像經(jīng)過多數(shù)據(jù)源篩選出的最優(yōu)照片選用多個先進算法完成建模,形成了高質(zhì)量的生物特征模板,比對準(zhǔn)確度高。
基于上述分析,CTID平臺形成了“多源接入、分層治理、統(tǒng)一服務(wù)”的大數(shù)據(jù)治理框架。治理框架共分為數(shù)據(jù)接入層、數(shù)據(jù)治理層、數(shù)據(jù)服務(wù)層等三層。在數(shù)據(jù)接入層充分考慮海量離線數(shù)據(jù)分析和實時數(shù)據(jù)比對的要求,采用分布式任務(wù)調(diào)度系統(tǒng)進行數(shù)據(jù)歸集調(diào)度;在數(shù)據(jù)治理層,以業(yè)務(wù)需求為導(dǎo)向,實現(xiàn)多源數(shù)據(jù)整合和建模工作;在數(shù)據(jù)服務(wù)層,實現(xiàn)對數(shù)據(jù)資產(chǎn)管理和數(shù)據(jù)共享交換服務(wù)。
數(shù)據(jù)治理:包括數(shù)據(jù)接入、數(shù)據(jù)處理和數(shù)據(jù)組織、數(shù)據(jù)服務(wù)等建設(shè),同時實現(xiàn)數(shù)據(jù)質(zhì)量探查、數(shù)據(jù)生命周期管理等功能,為支撐整體CTID應(yīng)用服務(wù)提供基礎(chǔ)。
數(shù)據(jù)管理:基于數(shù)據(jù)治理成果,形成CTID數(shù)據(jù)資產(chǎn)服務(wù),形成包括數(shù)據(jù)資源目錄、數(shù)據(jù)分級分類等的工具平臺。
應(yīng)用服務(wù):主要針對CTID的認證管理、第三方服務(wù)接口和插件等提供應(yīng)用服務(wù)管理功能。
基于數(shù)據(jù)治理總體框架,平臺正逐步引入數(shù)據(jù)資產(chǎn)管理的理念,將現(xiàn)有CTID平臺的數(shù)據(jù)管理、數(shù)據(jù)資源管理升級為數(shù)據(jù)資產(chǎn)管理[1]。將數(shù)據(jù)作為一種全新的資產(chǎn)形態(tài),充分融合業(yè)務(wù)、技術(shù)和管理,以確保CTID數(shù)據(jù)資產(chǎn)保值增值。
平臺一方面通過合理的數(shù)據(jù)使用流程和機制,優(yōu)化數(shù)據(jù)的存儲和計算資源;另一方面持續(xù)完善已有數(shù)據(jù)資源,豐富外部數(shù)據(jù)資源,實現(xiàn)全域數(shù)據(jù)資產(chǎn)的持續(xù)擴充。
CTID平臺數(shù)據(jù)加工分為數(shù)據(jù)安全處理區(qū)和數(shù)據(jù)服務(wù)區(qū)。數(shù)據(jù)安全處理區(qū)完成原始數(shù)據(jù)的接入、處理、整合,具體流程包括入庫、清洗、脫敏、同步、存儲。主要流程如圖3所示。
入庫:通過ETL工具獲取數(shù)據(jù)源數(shù)據(jù),實現(xiàn)異構(gòu)數(shù)據(jù)批量獲取以及任務(wù)調(diào)度。若數(shù)據(jù)源數(shù)據(jù)類型為數(shù)據(jù)庫,則由數(shù)據(jù)庫側(cè)轉(zhuǎn)換增量數(shù)據(jù)為文件,再由ETL工具抽取文件數(shù)據(jù),如數(shù)據(jù)庫側(cè)無法轉(zhuǎn)換文件,則采取直連數(shù)據(jù)庫方式。
清洗:利用大數(shù)據(jù)平臺的高性能,在大數(shù)據(jù)庫內(nèi)實現(xiàn)數(shù)據(jù)獲取的過程,形成資源庫。
脫敏:文本脫敏算法采用國產(chǎn)密碼算法SM3,人像照片采用特征建模算法抽取模板,形成脫敏庫。
同步:將數(shù)據(jù)安全處理區(qū)內(nèi)脫敏庫同步至數(shù)據(jù)服務(wù)區(qū)。
存儲:根據(jù)數(shù)據(jù)的敏感程度,CTID平臺采取了安全域劃分及分域管理措施,對各區(qū)域數(shù)據(jù)采用不同的安全策略,確保數(shù)據(jù)安全可控。其中,將涉及用戶隱私的數(shù)據(jù)設(shè)置了高等級的數(shù)據(jù)存儲區(qū)域,與其它數(shù)據(jù)存儲進行隔離。采用符合國家安全標(biāo)準(zhǔn)的國產(chǎn)密碼算法,在敏感數(shù)據(jù)的采集、傳輸、存儲全過程中進行加密實現(xiàn)信息的保密性,同時對信息進行數(shù)字簽名實現(xiàn)信息的完整性。
原始庫是存儲CTID原始庫數(shù)據(jù),能夠反映原始業(yè)務(wù)場景的數(shù)據(jù)層級,原始數(shù)據(jù)層來源于業(yè)務(wù)庫和生產(chǎn)庫,并可在此基礎(chǔ)上補充其他數(shù)據(jù)源。原始數(shù)據(jù)層實現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化和價值增值,為各類應(yīng)用提供基本的數(shù)據(jù)支撐,為數(shù)據(jù)融合、數(shù)據(jù)抽象和進一步增值完成數(shù)據(jù)準(zhǔn)備,并支持信息溯源、原始場景回溯等業(yè)務(wù)需要。
資源庫主要是以實體的特征、關(guān)系、軌跡和行為等進行專題數(shù)據(jù)構(gòu)建,包括身份脫敏信息庫、日志庫、虛實關(guān)系庫等。
主題庫按照人員、事件、地址、設(shè)備、組織進行主題構(gòu)建,主題數(shù)據(jù)層從更高層次對主題對象進行抽象,形成了跨業(yè)務(wù)的人、事、地、物、組織的統(tǒng)一視圖,為數(shù)據(jù)的多維分析和復(fù)雜建模提供了基礎(chǔ)。
業(yè)務(wù)庫是CTID平臺支撐各類應(yīng)用的數(shù)據(jù)庫,記錄業(yè)務(wù)過程,為各業(yè)務(wù)應(yīng)用提供數(shù)據(jù)支撐等,如健康碼應(yīng)用數(shù)據(jù)庫、政務(wù)應(yīng)用數(shù)據(jù)庫、人員管控數(shù)據(jù)庫等。
身份信息索引庫對人員身份信息建立全局索引,用來解決人員身份信息關(guān)聯(lián)和業(yè)務(wù)沖突問題。目前,該索引庫整合了身份證件信息、人口信息、出入境證件信息,具有權(quán)威性、可信性。
數(shù)據(jù)治理采用基于開源大數(shù)據(jù)處理組件形成獨特的數(shù)據(jù)治理體系技術(shù)架構(gòu),如圖4所示。
CTID平臺針對數(shù)據(jù)敏感程度及數(shù)據(jù)的開放范圍進行分級分類,構(gòu)建完善的數(shù)據(jù)分級管理體系和標(biāo)準(zhǔn)。利用數(shù)據(jù)分級分類對數(shù)據(jù)進行標(biāo)識,配合數(shù)據(jù)授權(quán)、數(shù)據(jù)鑒權(quán),確保數(shù)據(jù)的安全存儲、維護及使用。
為確?;A(chǔ)核心數(shù)據(jù)安全,CTID平臺設(shè)計了唯一數(shù)據(jù)服務(wù)接口對外提供應(yīng)用服務(wù),并在數(shù)據(jù)接口層布署安全訪問控制措施,如端到端信息加密、點對點互簽互驗、采用專線連接及鏈路通道VPN加密等,同時部署網(wǎng)絡(luò)入侵檢測及防火墻等網(wǎng)絡(luò)安全防御系統(tǒng),保障接口層的數(shù)據(jù)、通信及網(wǎng)絡(luò)安全。CTID平臺對第三方認證機構(gòu)提供業(yè)務(wù)協(xié)同接口,支撐第三方認證機構(gòu)開展服務(wù)。
從存儲、傳輸和應(yīng)用層面確保數(shù)據(jù)安全。在存儲上,應(yīng)用終端和互聯(lián)網(wǎng)后臺存儲的是經(jīng)過國產(chǎn)密碼算法脫敏、不可逆的數(shù)據(jù),并在異地建設(shè)數(shù)據(jù)備份中心。在傳輸上,敏感信息經(jīng)脫敏后通過邊界接入平臺擺渡到互聯(lián)網(wǎng)端;同時在通信鏈路上使用國產(chǎn)密碼加密,有效保證數(shù)據(jù)傳輸安全。在應(yīng)用上,應(yīng)用終端使用安全控件對采集的數(shù)據(jù)進行加密,服務(wù)提供方無法留存?zhèn)€人數(shù)據(jù),確保數(shù)據(jù)不被竊取,個人隱私不會泄露。
在平臺整體建設(shè)上全面部署入侵檢測、入侵防護、病毒查殺系統(tǒng),不斷加強網(wǎng)絡(luò)安全監(jiān)控,通過防火墻、ADS設(shè)備實時監(jiān)控網(wǎng)絡(luò)攻擊狀態(tài)、攔截非法訪問,采取抗DDos設(shè)備對DDos攻擊進行攔截,采取IPS設(shè)備對網(wǎng)絡(luò)入侵攻擊進行攔截,進一步在互聯(lián)網(wǎng)端裝載“網(wǎng)防G01”網(wǎng)站內(nèi)核防護系統(tǒng)等網(wǎng)絡(luò)安防系統(tǒng),在平臺運維過程中持續(xù)優(yōu)化安全基礎(chǔ)設(shè)施性能及策略,提升安全保障能力。
大數(shù)據(jù)是一種重要的國家治理資源,作為國家治理現(xiàn)代化的新型高科技技術(shù),能夠有效優(yōu)化治理中的生態(tài)環(huán)境,促進制度創(chuàng)新與治理轉(zhuǎn)型。同時大數(shù)據(jù)通過對海量數(shù)據(jù)的關(guān)聯(lián)分析,可以進行科學(xué)預(yù)測,為解決現(xiàn)實社會治理問題提供新思路、創(chuàng)造新手段,具有廣闊的應(yīng)用前景。目前,CTID平臺正積極研發(fā)大數(shù)據(jù)分析服務(wù),運用大數(shù)據(jù)技術(shù)提升國家治理現(xiàn)代化水平。
CTID平臺利用復(fù)雜關(guān)系網(wǎng)絡(luò)分析、知識圖譜等先進技術(shù),研究支持網(wǎng)絡(luò)實體行為、多安全域身份聯(lián)合的關(guān)聯(lián)分析模型,構(gòu)建網(wǎng)絡(luò)身份與真實身份核心要素關(guān)聯(lián),為完善社會治理、建設(shè)網(wǎng)上社會信用體系提供支撐。
隨著無人駕駛、遠程醫(yī)療、工業(yè)物聯(lián)網(wǎng)、智能家居等應(yīng)用的興起,物聯(lián)網(wǎng)已成為未來經(jīng)濟新的增長點。CTID平臺通過建立人與物之間的綁定關(guān)系,能夠?qū)崿F(xiàn)對物品高可信級別的監(jiān)控、使用和管理,助力物聯(lián)網(wǎng)應(yīng)用,推動產(chǎn)業(yè)發(fā)展。
本文圍繞CTID大數(shù)據(jù)治理技術(shù)開展了總體架構(gòu)、技術(shù)、安全等方面的探討。目前,CTID平臺已形成國內(nèi)最權(quán)威的基礎(chǔ)身份信息數(shù)據(jù)庫,建立了專業(yè)、高水平的數(shù)據(jù)治理團隊對身份基礎(chǔ)數(shù)據(jù)持續(xù)開展清洗、關(guān)聯(lián)、治理等工作,確保身份數(shù)據(jù)準(zhǔn)確鮮活。隨著CTID平臺的廣泛應(yīng)用,區(qū)塊鏈、物聯(lián)網(wǎng)、5G等技術(shù)的發(fā)展,CTID平臺將不斷豐富完善數(shù)據(jù)的種類和維度,利用大數(shù)據(jù)分析、人工智能等技術(shù)不斷挖掘數(shù)據(jù)價值,研發(fā)關(guān)聯(lián)分析、用戶畫像、信用評級等大數(shù)據(jù)分析模型,形成數(shù)據(jù)洞察能力,構(gòu)建CTID大數(shù)據(jù)產(chǎn)業(yè)生態(tài),為國家治理能力現(xiàn)代化提供技術(shù)支撐。