王文宇
(數(shù)安行科技有限公司,北京 100036)
信息技術(shù)的高度發(fā)展與普及,為我們的日常工作、生活帶來極大的便利。個人信息作為標(biāo)識一個人的主要屬性,在各業(yè)務(wù)場景下需要將身份證、電話等提供給他人(含企業(yè)、政府等組織)。一旦他人對個人信息監(jiān)管疏漏或使用不當(dāng),個人信息沒有有效保護(hù),一方面會對個人的財產(chǎn)、人身安全造成侵害,一方面責(zé)任方也會受到聲譽(yù)、經(jīng)濟(jì)的雙重重創(chuàng)。據(jù)IBM Security發(fā)布的《2020年數(shù)據(jù)泄露成本報告》,對全球 500 多個組織數(shù)據(jù)泄露事件的深入分析發(fā)現(xiàn),有 80% 的事件導(dǎo)致了客戶個人身份信息的泄露。針對個人信息保護(hù)問題,本文提出了結(jié)合人工智能,通過數(shù)據(jù)運(yùn)營安全保護(hù)個人信息的方法。
在紙質(zhì)辦公時代,個人信息的保護(hù)一般通過簽署保密協(xié)議等承諾方式進(jìn)行保護(hù),個人信息的保護(hù)訴求相對比較弱化。在互聯(lián)網(wǎng)、大數(shù)據(jù)、5G 互聯(lián)時期,一方面,個人信息被急速的收集、匯聚;另一方面,企業(yè)為了從個人信息數(shù)據(jù)中挖掘商業(yè)價值,擴(kuò)大個人信息的使用、共享,個人信息流動頻率上升。與此同時,越來越多的行業(yè)、企業(yè)、個人意識到個人信息中蘊(yùn)含的價值,這也引導(dǎo)更多的注意力集中在個人信息的收集上。不法分子從中嗅到了商機(jī),使用各種非法手段竊取個人信息進(jìn)行倒賣。其中,不乏企業(yè)內(nèi)部人員借助工作便利直接進(jìn)行信息倒賣博取經(jīng)濟(jì)利益,內(nèi)部威脅在個人信息侵害中占比很大。個人信息保護(hù)不當(dāng)導(dǎo)致個人財產(chǎn)受損乃至造成生命危險,個人信息保護(hù)形勢極其嚴(yán)峻。
個人數(shù)據(jù)規(guī)模持續(xù)快速增長,這些數(shù)據(jù)蘊(yùn)含著巨大的價值。而數(shù)據(jù)價值要釋放出來,就需要打破當(dāng)前個人信息的孤島式數(shù)據(jù)服務(wù)提供方式,加速開放和共享。這就需要首先解決個人信息的安全問題。面對多維度的個人信息,不同行業(yè)不同需求的個人信息使用,各企業(yè)對個人信息相關(guān)的業(yè)務(wù)線條復(fù)雜化,以及隨著技術(shù)發(fā)展所帶來的個人信息保護(hù)的新挑戰(zhàn),使得個人信息保護(hù)迫在眉睫。從國家、企業(yè)到個人,也對個人信息保護(hù)愈加重視。
在我國,立法部門、執(zhí)法部門以及社會產(chǎn)業(yè)等各界正在持續(xù)致力于推動個人信息保護(hù)的發(fā)展與落實(shí)。近年來《網(wǎng)絡(luò)安全法》[1]、《數(shù)據(jù)安全法(草案)》[2]陸續(xù)出臺,《個人信息保護(hù)法(草案)》[3]在2020 年 10 月公布。與此同時,針對金融、電信、互聯(lián)網(wǎng)等各行業(yè)自身行業(yè)特征,國家及行業(yè)相關(guān)部門制定了相應(yīng)的個人信息保護(hù)指南,如《金融數(shù)據(jù)安全數(shù)據(jù)安全分級指南》[4],《個人金融信息保護(hù)技術(shù)規(guī)范》[5],《電信和互聯(lián)網(wǎng)用戶個人信息保護(hù)規(guī)定》[6]等。在國外,相應(yīng)的法律法規(guī)也在陸續(xù)制定,例如2018 年歐盟正式實(shí)施GDPR。GDPR 雖然由歐盟頒布實(shí)施,根據(jù)內(nèi)部條文的約束定義,管轄范圍可以延及全球。2018—2020 年,GDPR 開出的罰單總計上億美元,包括谷歌、Facebook、萬豪、英國航空等多家巨頭企業(yè)都因個人信息違規(guī)而收到大額罰單。
個人信息維度多樣,在《個人信息保護(hù)法(草案)》中對個人信息的保護(hù),涵蓋了個人信息的收集、處理和利用。[3]各行業(yè)對個人信息分類分級保護(hù),提出了具體要求??v觀國家及各行業(yè)的法律法規(guī)可以看到,對個人信息分類分級,從收集、傳輸、存儲、使用、共享、銷毀全生命周期的保護(hù),是個人信息保護(hù)的關(guān)鍵。
對個人信息的保護(hù),現(xiàn)有的保護(hù)方式主要包括傳統(tǒng)安全、數(shù)據(jù)庫安全、數(shù)據(jù)防泄漏(DLP)、終端加密以及UEBA。各種保護(hù)方式的特點(diǎn)如下:
第一,傳統(tǒng)安全(防火墻/下一代防火墻):主要抵御外部攻擊,下一代防火墻帶有一定的數(shù)據(jù)安全檢測和管控的能力,不能對內(nèi)部的數(shù)據(jù)流動做出響應(yīng)和保護(hù)。
第二,數(shù)據(jù)庫安全:解決結(jié)構(gòu)化數(shù)據(jù)的安全問題如運(yùn)維、審計、加密、脫敏等。單一的對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行保護(hù),不能對非結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)流動過程進(jìn)行保護(hù)。
第三,數(shù)據(jù)防泄漏(DLP):以邊界保護(hù)為主,重在對外發(fā)的個人信息進(jìn)行安全監(jiān)控或保護(hù)。不能保障個人信息在內(nèi)部不同終端間,不同服務(wù)器、業(yè)務(wù)系統(tǒng)之間的流動安全。
第四,終端加密:以終端保護(hù)為主,對落地到終端的數(shù)據(jù)加密,重在非結(jié)構(gòu)化數(shù)據(jù)的靜態(tài)存儲保護(hù)。結(jié)構(gòu)化數(shù)據(jù)如個人信息等無法保護(hù),不能在數(shù)據(jù)流動過程中平衡安全與業(yè)務(wù)。
第五,UEBA:能夠發(fā)現(xiàn)并保護(hù)內(nèi)部數(shù)據(jù)異常使用和安全威脅,但對數(shù)據(jù)從生產(chǎn)到運(yùn)維,從前端到后端的整個生命周期中的流動安全沒有保障。
針對個人信息保護(hù)的關(guān)鍵技術(shù)研究,主要包括K-匿名化、差分隱私、零知識證明ZKP、同態(tài)加密、安全多方計算、聯(lián)邦學(xué)習(xí)等。1)K-匿名化[7]:匿名化程度不足,隱私信息容易被破解;獲得越高的匿名化,就要選擇越復(fù)雜的匿名化算法。2)差分隱私[8]:差分隱私對數(shù)據(jù)添加噪音以獲得隱私信息的保護(hù),需要在結(jié)果中加入大量隨機(jī)化,這會導(dǎo)致數(shù)據(jù)的可用性急劇下降。3)零知識證明ZKP[9]:生成零知識證明需要大量的算力,意味著較高的硬件資源投入,對數(shù)據(jù)使用效率的也有影響,對企業(yè)日常業(yè)務(wù)的個人信息進(jìn)行保護(hù)存在一定難度。4)同態(tài)加密[10]:計算開銷較大,在同態(tài)加密體制的設(shè)計與優(yōu)化方面,仍需要繼續(xù)研究。5)安全多方計算[11]:可獲取數(shù)據(jù)使用價值,卻不泄露原始數(shù)據(jù),但需要交互較多,通信的開銷比較大。提高計算協(xié)議的效率,擴(kuò)充本技術(shù)的應(yīng)用場景,還在研究中[12]。6)聯(lián)邦學(xué)習(xí)[13]:算法通信次數(shù)多,需要從效率上提升;從安全性來講,需要防止從模型參數(shù)推演出原始數(shù)據(jù);同時技術(shù)本身的魯棒性有待繼續(xù)研究[14]。
綜上所述,現(xiàn)有的個人信息保護(hù)方式,存在以下問題:1)重在保護(hù)結(jié)構(gòu)化數(shù)據(jù),在處理非結(jié)構(gòu)化數(shù)據(jù)方面存在空缺。2)主要解決數(shù)據(jù)在單個域內(nèi)的安全,沒有對不同域之間的數(shù)據(jù)流動進(jìn)行保護(hù)。而數(shù)據(jù)只有流動起來,才能得到價值最大化。尤其是在大數(shù)據(jù)時代,數(shù)據(jù)孤島被打破,企業(yè)業(yè)務(wù)線條復(fù)雜化,個人信息既可能在特定的業(yè)務(wù)服務(wù)流程中使用,也可能在不同的業(yè)務(wù)之間流動使用。在數(shù)據(jù)流動中保護(hù)個人信息,是個人信息保護(hù)的重點(diǎn)。3)集中解決數(shù)據(jù)單個時期的安全問題,比如數(shù)據(jù)靜態(tài)存儲安全,或者監(jiān)控數(shù)據(jù)檢索、查詢;保護(hù)了前端數(shù)據(jù)的存儲、使用安全,但對前后端整個運(yùn)維過程缺乏監(jiān)管。
新興的關(guān)鍵保護(hù)技術(shù)在解決某一類業(yè)務(wù)問題,某些特定應(yīng)用場景的保護(hù),有一定優(yōu)勢,但總體上在業(yè)務(wù)中的應(yīng)用還不夠成熟,有待進(jìn)一步研究?,F(xiàn)有個人信息保護(hù)方式,不足以應(yīng)對當(dāng)前個人信息的保護(hù)需要。本文針對當(dāng)前個人信息保護(hù)的新形勢,提出結(jié)合AI,通過數(shù)據(jù)運(yùn)營安全對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的個人信息流動的保護(hù),涵蓋從生產(chǎn)到運(yùn)維,從采集、傳輸、存儲、處理、分析、共享、銷毀全生命周期保護(hù),深入業(yè)務(wù)執(zhí)行內(nèi)嵌防護(hù),同時與業(yè)務(wù)解耦,達(dá)到保護(hù)個人信息安全的目標(biāo)。
如圖1 所示,數(shù)據(jù)運(yùn)營安全的個人信息保護(hù),讓個人信息保護(hù)滿足合規(guī)性要求,在數(shù)據(jù)使用過程中追溯個人信息的流動,對數(shù)據(jù)的全生命周期進(jìn)行保護(hù),主要包括以下核心: 1)跨業(yè)務(wù)跨域的遙測數(shù)據(jù)采集分析; 2)全類型AI 個人信息梳理; 3)暗數(shù)據(jù)與明數(shù)據(jù)的AI 分類梳理標(biāo)注; 4)個人信息影子及非感知數(shù)據(jù)的追溯;5)數(shù)據(jù)鏈的全運(yùn)營周期追溯;6)分布式AI 數(shù)據(jù)安全風(fēng)險分析;7)零信任數(shù)據(jù)安全; 8)自動化編排安全響應(yīng);9)多源數(shù)據(jù)統(tǒng)一安全機(jī)制。(參見圖2)
圖1 基于數(shù)據(jù)運(yùn)營安全的個人信息保護(hù)
探針遙測內(nèi)嵌入業(yè)務(wù)單元中,對終端、數(shù)據(jù)庫、業(yè)務(wù)服務(wù)器以及公有云、私有云或混合云,包括Docker、數(shù)據(jù)倉庫、數(shù)據(jù)湖等個人信息進(jìn)行跨業(yè)務(wù)跨域的采集分析,為全域的個人信息保護(hù)建立基礎(chǔ)。探針遙測到各個域內(nèi),同時將抓手探入到業(yè)務(wù)內(nèi)部,分析個人信息數(shù)據(jù)。
對各種類型的個人信息進(jìn)行深度識別,從個人信息本體特征、行業(yè)特性、合規(guī)性等角度,結(jié)合機(jī)器學(xué)習(xí)對個人信息進(jìn)行梳理,主要包括:1)用戶的姓名、電話、身份證等基礎(chǔ)屬性,以及與業(yè)務(wù)緊密關(guān)聯(lián)的個人信息,比如在電信運(yùn)營中的通話數(shù)據(jù)、位置數(shù)據(jù)等等;金融行業(yè)中的賬戶信息、財產(chǎn)信息、借貸信息等。2)信息以結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多形態(tài)方式,或在數(shù)據(jù)庫中存儲,或轉(zhuǎn)為辦公文檔方式流轉(zhuǎn),或在內(nèi)部業(yè)務(wù)流轉(zhuǎn)過程中進(jìn)一步進(jìn)行格式轉(zhuǎn)換、數(shù)據(jù)的解析等等。3)新網(wǎng)絡(luò)形態(tài)、新技術(shù)的應(yīng)用,所衍生出的新數(shù)據(jù)類型、數(shù)據(jù)生產(chǎn)方式、數(shù)據(jù)處理方式。
圖2 數(shù)據(jù)運(yùn)營安全的個人信息保護(hù)核心
基于AI 和不同行業(yè)的個人信息特征,選取分類標(biāo)準(zhǔn)和算法,對暗數(shù)據(jù)、明數(shù)據(jù)方式存在的個人信息自動完成分類梳理標(biāo)注。1)跨業(yè)務(wù)跨域的個人信息,大量的暗數(shù)據(jù)沉淀積累。暗數(shù)據(jù)蟄伏不動,一方面不能挖掘數(shù)據(jù)的價值,另一方面也會存在安全隱患,管理者無法了解,也不敢貿(mào)然使用。對暗數(shù)據(jù)的AI 分類梳理標(biāo)注,發(fā)現(xiàn)數(shù)據(jù)價值,規(guī)范數(shù)據(jù)的進(jìn)一步使用;2)極大量級的明數(shù)據(jù)持續(xù)使用和增長。明數(shù)據(jù)處于活躍期,在使用和增長過程中持續(xù)變動。通過明數(shù)據(jù)的AI 分類梳理標(biāo)注,從鏈條上將各類信息梳理清晰。
個人信息的存在方式,除了直觀可見的完整的個人信息記錄,還包括個人信息的痕跡、碎片化的數(shù)據(jù),即個人信息影子,以及看似已刪除的數(shù)據(jù)、駐留內(nèi)存但感知不到的數(shù)據(jù)。個人信息的使用痕跡,或者碎片化的個人信息,這些單獨(dú)的點(diǎn)滴信息不足以給個人信息構(gòu)成威脅,但多條點(diǎn)滴信息匯聚在一起,就比較容易獲得個人信息的完整畫像,這時候就會給個人信息帶來威脅。同時,已刪除的數(shù)據(jù),駐留在內(nèi)存的數(shù)據(jù),對一般用戶來講感知不到,但是通過一定的技術(shù)手段也是很容易恢復(fù)出原始的完整個人信息。通過對個人信息影子和非感知數(shù)據(jù)的追溯,挖掘隱式數(shù)據(jù)的蹤跡,保護(hù)個人信息生命周期安全。
對現(xiàn)有的數(shù)據(jù)流轉(zhuǎn)路徑以及新興的數(shù)據(jù)流進(jìn)行追溯管理,建立個人信息與主體的映射關(guān)系;個人信息在流動中的原文流轉(zhuǎn)、變形流轉(zhuǎn)的血緣關(guān)系;記錄個人信息的版本、狀態(tài)、位置以及軌跡,形成個人信息數(shù)據(jù)流全生命周期的流動畫像,對個人信息的流轉(zhuǎn)、擴(kuò)散進(jìn)行全視角的風(fēng)險態(tài)勢感知和合規(guī)性管控,從數(shù)據(jù)流的鏈路中保護(hù)個人信息,具體流程如圖3 所示。追溯個人信息在企業(yè)中流動,主要包括三個方面:1)廣泛的流動。這和企業(yè)業(yè)務(wù)線條復(fù)雜化有關(guān)。既有一些個人信息集中式在特定業(yè)務(wù)系統(tǒng)中處理分析,也有一些個人信息隨著不同部門、不同業(yè)務(wù)需求在網(wǎng)絡(luò)中向不同的業(yè)務(wù)系統(tǒng)流動。通過對廣域分布的個人信息流動進(jìn)行追溯管理,感知個人信息的風(fēng)險態(tài)勢。2)基于生命周期的數(shù)據(jù)鏈的個人信息流動。個人信息從生產(chǎn)到運(yùn)維,從產(chǎn)生、收集、存儲、使用、共享到銷毀,在數(shù)據(jù)鏈的每個節(jié)點(diǎn)上,抓取個人信息的軌跡。個人信息在不同的業(yè)務(wù)流程中使用,在不同的業(yè)務(wù)服務(wù)器之間流轉(zhuǎn),以及不同域之間的流動,本方案以數(shù)據(jù)與業(yè)務(wù)的運(yùn)營周期為牽引,追溯個人信息,保護(hù)全數(shù)據(jù)鏈的流動安全。3)新技術(shù)下個人信息多流轉(zhuǎn)路徑追溯。為了挖掘數(shù)據(jù)價值,企業(yè)自身在進(jìn)一步尋求打破內(nèi)部業(yè)務(wù)壁壘的方式;同時,隨著大數(shù)據(jù)時代、5G 時代的數(shù)據(jù)開放共享,網(wǎng)絡(luò)環(huán)境趨于開放,數(shù)據(jù)流也愈來愈多,追溯各流轉(zhuǎn)路徑,突破傳統(tǒng)的數(shù)據(jù)邊界,保障數(shù)據(jù)的可控性。
圖3 個人信息全鏈路周期追溯
個人信息數(shù)據(jù)涉及隱私,在保護(hù)模式上不適合對所有個人信息進(jìn)行集中式的收集和分析,而從企業(yè)管理角度,需要獲取個人數(shù)據(jù)特征,并基于數(shù)據(jù)特征做進(jìn)一步保護(hù)。在不獲取原始個人隱私數(shù)據(jù)的前提下,通過分布式機(jī)器學(xué)習(xí)對分散于各處的個人信息特征進(jìn)行智能識別、風(fēng)險分析,進(jìn)而形成組織級的個人信息風(fēng)險保護(hù)特征與應(yīng)對機(jī)制。
個人信息的保護(hù),從用戶、終端、網(wǎng)絡(luò)、個人信息數(shù)據(jù)四個方面建立起零信任數(shù)據(jù)安全域,保護(hù)個人信息的訪問、傳輸、存儲和使用。由零信任用戶、零信任終端控制訪問個人信息的安全認(rèn)證,防止非法用戶或終端接觸個人信息;個人信息數(shù)據(jù)在終端之間、終端與服務(wù)器之間傳輸時,由零信任網(wǎng)絡(luò)保護(hù)個人信息;個人信息存儲在終端中以及在終端中使用時,零信任終端以及對個人信息本體的零信任防護(hù),構(gòu)建安全域空間,保護(hù)數(shù)據(jù)安全。
分布于各業(yè)務(wù)、各域的個人信息,以及在數(shù)據(jù)運(yùn)營過程中流動的個人信息,如果保護(hù)力度不當(dāng),會造成新的難題。比如,保護(hù)力度弱,達(dá)不到安全要求,則個人信息安全無法保障。保護(hù)力度過強(qiáng),可能影響業(yè)務(wù)的持續(xù)性,導(dǎo)致本來正常流轉(zhuǎn)的業(yè)務(wù)被中斷。由此,通過數(shù)據(jù)運(yùn)營全周期的特征追蹤與數(shù)據(jù)分析,對個人信息進(jìn)行數(shù)據(jù)分布采集、流動追溯,感知個人信息的風(fēng)險態(tài)勢,基于機(jī)器學(xué)習(xí),對各類事件和風(fēng)險進(jìn)行分析和分診,結(jié)合用戶使用場景、安全基線以及風(fēng)險活動,從響應(yīng)時間到響應(yīng)力度,形成適合數(shù)據(jù)運(yùn)營業(yè)務(wù)安全的按需保護(hù)的響應(yīng)機(jī)制。
個人信息是多源化的存儲、使用、流轉(zhuǎn),同類或同級的個人信息保護(hù)在不同源中獲得一致的保護(hù),達(dá)到保護(hù)個人信息的目標(biāo)。同類或同級的個人信息,如果在一部分域內(nèi)按高強(qiáng)度保護(hù),在一部分域內(nèi)按弱強(qiáng)度保護(hù),可能讓原本需要高度保護(hù)的個人信息,通過不同域的傳輸流轉(zhuǎn)后進(jìn)入弱保護(hù)狀態(tài),這就等同于百密一疏,導(dǎo)致保護(hù)效力被大大縮減。本方案在安全保護(hù)機(jī)制方面,對同類或同級的個人信息的保護(hù)力度統(tǒng)一,通過對多源個人信息構(gòu)建適合業(yè)務(wù)流程與個人信息安全的統(tǒng)一安全機(jī)制。
個人信息因其自身攜帶隱私特性,與每個個體息息相關(guān)。個人信息保護(hù)不當(dāng),影響公眾利益、企業(yè)利益以及社會秩序。國家、政府、學(xué)術(shù)、企業(yè)社會各界對個人信息保護(hù)極度重視,從立法、執(zhí)法、研究、產(chǎn)業(yè)化多個角度落實(shí)個人信息保護(hù)?;跀?shù)據(jù)運(yùn)營安全的個人信息保護(hù)方案,遵循個人信息保護(hù)的合規(guī)性要求,結(jié)合AI,內(nèi)嵌至數(shù)據(jù)運(yùn)營全周期中對個人信息進(jìn)行保護(hù),是當(dāng)前階段適應(yīng)個人信息保護(hù)新訴求的方案。個人信息保護(hù)隨著時代的發(fā)展,保護(hù)訴求也會發(fā)生新的變化。本文所涉及的仍在研究中的個人信息保護(hù)關(guān)鍵技術(shù),在技術(shù)難點(diǎn)取得突破進(jìn)展的同時也將推廣到更多的個人信息保護(hù)領(lǐng)域。除此之外,機(jī)密計算作為可信執(zhí)行環(huán)境+數(shù)據(jù)隔離的高度安全技術(shù),在未來的發(fā)展中將有助于個人信息的保護(hù)。