【關(guān)鍵詞】數(shù)據(jù)脫敏;靜態(tài)脫敏;動(dòng)態(tài)脫敏;產(chǎn)品測(cè)試
隨著互聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)、物聯(lián)網(wǎng)等技術(shù)的迅猛發(fā)展,我們已經(jīng)進(jìn)入一個(gè)信息化、數(shù)字化的時(shí)代。信息化讓我們可以通過技術(shù)將業(yè)務(wù)數(shù)據(jù)化,將物理世界的信息以數(shù)據(jù)的形式錄入信息系統(tǒng)中記錄下來。數(shù)字化又通過技術(shù)將數(shù)據(jù)業(yè)務(wù)化,利用數(shù)字技術(shù)將積累的數(shù)據(jù)不斷整合分析,提供新的價(jià)值和機(jī)會(huì)。在信息化數(shù)字化時(shí)代,數(shù)據(jù),就像石油一樣,已經(jīng)成為國(guó)家基礎(chǔ)性戰(zhàn)略資源和生產(chǎn)要素[1],是企業(yè)發(fā)展的核心競(jìng)爭(zhēng)力,深刻改變著生產(chǎn)、生活方式和社會(huì)治理方式。
大數(shù)據(jù)的爆發(fā)式增長(zhǎng),讓數(shù)據(jù)價(jià)值持續(xù)釋放,但另一方面,數(shù)據(jù)開放共享程度越高、數(shù)據(jù)挖掘深度越深,數(shù)據(jù)面臨的安全風(fēng)險(xiǎn)就越高[2]。在數(shù)據(jù)安全問題中,數(shù)據(jù)泄露問題一直是占比高、影響大的一類問題。Verizon發(fā)布的《2023年度數(shù)據(jù)泄露調(diào)查報(bào)告》中,在總量約16000的事件中,數(shù)據(jù)泄露事件包含約5200起,占比32.5%。此外,從蘋果公司發(fā)布的數(shù)據(jù)泄露報(bào)告中也可以看到,2023年前9個(gè)月的敏感數(shù)據(jù)泄漏總量已經(jīng)比2022全年高出了20%,預(yù)計(jì)2023年數(shù)據(jù)泄漏規(guī)模將創(chuàng)歷史新高。
為了解決數(shù)據(jù)泄露等安全問題,各類安全產(chǎn)品應(yīng)運(yùn)而生,其中,數(shù)據(jù)脫敏產(chǎn)品,是通過處理敏感數(shù)據(jù),降低數(shù)據(jù)敏感程度,從而保障敏感數(shù)據(jù)安全的一類網(wǎng)絡(luò)安全產(chǎn)品,并且它可以保留數(shù)據(jù)原有格式、屬性等,在保證數(shù)據(jù)安全的前提下,使數(shù)據(jù)的可用性、共享性得到最大化利用[3],因此在各行業(yè)、場(chǎng)景中也得到了越來越多地應(yīng)用。本文將根據(jù)對(duì)數(shù)據(jù)脫敏產(chǎn)品的技術(shù)分析,從產(chǎn)品測(cè)試的角度,分析測(cè)試數(shù)據(jù)脫敏產(chǎn)品時(shí)的主要關(guān)注點(diǎn)。
(一)數(shù)據(jù)脫敏產(chǎn)品分類
根據(jù)技術(shù)實(shí)現(xiàn)和應(yīng)用場(chǎng)景的不同,數(shù)據(jù)脫敏產(chǎn)品可以分為靜態(tài)數(shù)據(jù)脫敏產(chǎn)品和動(dòng)態(tài)數(shù)據(jù)脫敏產(chǎn)品。
靜態(tài)數(shù)據(jù)脫敏,一般是在非實(shí)時(shí)訪問數(shù)據(jù)時(shí)進(jìn)行脫敏處理,常用于將脫敏數(shù)據(jù)分發(fā)到測(cè)試、開發(fā)、培訓(xùn)、分析或外部第三方等場(chǎng)景[4],如圖1所示。
動(dòng)態(tài)數(shù)據(jù)脫敏,一般是在實(shí)時(shí)訪問生產(chǎn)環(huán)境的數(shù)據(jù)時(shí)進(jìn)行脫敏處理,可針對(duì)不同的應(yīng)用或者運(yùn)維人員等進(jìn)行不同的脫敏展示,如圖2所示。
(二)數(shù)據(jù)脫敏產(chǎn)品部署使用流程
數(shù)據(jù)脫敏產(chǎn)品部署使用的流程,主要可分為以下內(nèi)容:
1.產(chǎn)品部署
靜態(tài)數(shù)據(jù)脫敏產(chǎn)品一般采用旁路方式部署,將產(chǎn)品部署在生產(chǎn)環(huán)境和測(cè)試、開發(fā)等共享環(huán)境之間,對(duì)生產(chǎn)數(shù)據(jù)進(jìn)行抽取和脫敏,并將脫敏數(shù)據(jù)輸出到需要使用的其他環(huán)境中。
動(dòng)態(tài)數(shù)據(jù)脫敏產(chǎn)品一般采用串聯(lián)方式部署,包括物理串聯(lián)或者物理旁路、邏輯串聯(lián),所有訪問數(shù)據(jù)庫的流量先經(jīng)過脫敏產(chǎn)品再到數(shù)據(jù)庫,實(shí)時(shí)動(dòng)態(tài)進(jìn)行敏感數(shù)據(jù)脫敏。
2.數(shù)據(jù)源
進(jìn)行數(shù)據(jù)脫敏,首先需要明確脫敏的數(shù)據(jù)源,即數(shù)據(jù)脫敏對(duì)象。通過配置數(shù)據(jù)源連接信息或?qū)霐?shù)據(jù)源文件,使得數(shù)據(jù)脫敏產(chǎn)品可以獲取需要進(jìn)行脫敏的原始數(shù)據(jù)。
3.敏感數(shù)據(jù)識(shí)別
獲取到原始數(shù)據(jù)后,其中可能包含了敏感數(shù)據(jù)以及普通的非敏感數(shù)據(jù),由于數(shù)據(jù)脫敏針對(duì)的是敏感數(shù)據(jù),且后續(xù)需要根據(jù)敏感數(shù)據(jù)的不同類型設(shè)置不同的脫敏方式,因此,需要能識(shí)別出疑似敏感的數(shù)據(jù)以及相應(yīng)的數(shù)據(jù)類型。
4.數(shù)據(jù)脫敏
針對(duì)敏感數(shù)據(jù),需要設(shè)置相應(yīng)的脫敏算法及策略,并執(zhí)行數(shù)據(jù)脫敏,將脫敏后的數(shù)據(jù)輸出到目標(biāo)位置或?qū)崟r(shí)展示。
根據(jù)對(duì)數(shù)據(jù)脫敏產(chǎn)品類型以及部署使用流程的分析,將對(duì)測(cè)試數(shù)據(jù)脫敏產(chǎn)品時(shí)各環(huán)節(jié)主要需要關(guān)注的內(nèi)容進(jìn)行分析梳理。
(一)部署方式
靜態(tài)數(shù)據(jù)脫敏由于一般旁路部署對(duì)數(shù)據(jù)進(jìn)行離線脫敏,相當(dāng)于先脫敏后使用,所以一般對(duì)產(chǎn)品的高可用性沒有較高要求。
但是動(dòng)態(tài)數(shù)據(jù)脫敏由于一般采用串聯(lián)方式部署(物理或邏輯串聯(lián)),所有的訪問都需要先到脫敏產(chǎn)品上,再到訪問的數(shù)據(jù)端,所以一旦數(shù)據(jù)脫敏產(chǎn)品出現(xiàn)故障,那必然會(huì)導(dǎo)致訪問失敗。因此,對(duì)于動(dòng)態(tài)數(shù)據(jù)脫敏產(chǎn)品,測(cè)試時(shí)需要著重關(guān)注一下是否支持冗余部署,從而保證業(yè)務(wù)的連續(xù)性。
(二)數(shù)據(jù)源類型
隨著大數(shù)據(jù)技術(shù)的發(fā)展,當(dāng)前數(shù)據(jù)存儲(chǔ)的方式、類型豐富多彩。按照結(jié)構(gòu)化程度區(qū)分,數(shù)據(jù)源可以分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)[5];按照數(shù)據(jù)存儲(chǔ)方式區(qū)分,數(shù)據(jù)源可以分為數(shù)據(jù)庫數(shù)據(jù)、文件數(shù)據(jù)等。此外,數(shù)據(jù)庫按照模型區(qū)分還可以分為關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫;按照類型區(qū)分還可以分為國(guó)際主流數(shù)據(jù)庫、國(guó)產(chǎn)數(shù)據(jù)庫等。為了保證數(shù)據(jù)脫敏產(chǎn)品更多場(chǎng)景的應(yīng)用,測(cè)試時(shí)需要著重關(guān)注是否對(duì)于常見的數(shù)據(jù)源都能支持連接或?qū)搿3R姷臄?shù)據(jù)源分類舉例如表1所示。
(三)敏感數(shù)據(jù)發(fā)現(xiàn)
敏感數(shù)據(jù),是指泄漏后可能會(huì)給個(gè)人或社會(huì)帶來嚴(yán)重影響和危害的數(shù)據(jù)。針對(duì)個(gè)人來說,比如姓名、身份證號(hào)、手機(jī)號(hào)、地址、郵箱、銀行卡號(hào)、教育信息等屬于敏感數(shù)據(jù),針對(duì)企業(yè)或機(jī)構(gòu)來說,比如企業(yè)機(jī)構(gòu)代碼等基本信息、財(cái)務(wù)信息、客戶信息、技術(shù)信息等屬于敏感數(shù)據(jù),如果泄露可能會(huì)對(duì)個(gè)人和企業(yè)機(jī)構(gòu)的經(jīng)濟(jì)財(cái)產(chǎn)、安全等方面帶來風(fēng)險(xiǎn)。在進(jìn)行數(shù)據(jù)脫敏前,需要首先能夠配置規(guī)則自動(dòng)發(fā)現(xiàn)數(shù)據(jù)源中的敏感數(shù)據(jù)。因此,在測(cè)試時(shí)需要關(guān)注:一方面,產(chǎn)品是否支持內(nèi)置的常見敏感數(shù)據(jù)類型,包括前面提到的姓名、手機(jī)號(hào)、身份證等等,方便用戶直接選擇配置;另一方面,對(duì)于不常見的敏感數(shù)據(jù)類型,是否支持自定義設(shè)置,比如通過正則表達(dá)式等方式,保證發(fā)現(xiàn)規(guī)則能覆蓋所需的各類敏感數(shù)據(jù)。
(四)數(shù)據(jù)脫敏
在發(fā)現(xiàn)識(shí)別出敏感數(shù)據(jù)的基礎(chǔ)上,便可以根據(jù)實(shí)際需求進(jìn)行脫敏設(shè)置,使敏感數(shù)據(jù)在保證可用性、關(guān)聯(lián)性的前提下達(dá)到數(shù)據(jù)失真的目的。數(shù)據(jù)脫敏過程中主要有3個(gè)環(huán)節(jié)需要著重關(guān)注:選擇合適的脫敏算法、設(shè)置所需的脫敏策略、存儲(chǔ)或展示正確的脫敏結(jié)果。
1.脫敏算法
脫敏算法的選擇和應(yīng)用是數(shù)據(jù)脫敏過程中的核心問題。常見的脫敏算法包括替換、屏蔽、截?cái)?、仿真、混淆、加密等等,在測(cè)試時(shí)需要關(guān)注產(chǎn)品是否內(nèi)置了常見的脫敏算法,方便用戶針對(duì)不同場(chǎng)景、不同數(shù)據(jù)類型可選擇不同的脫敏方式。此外,除了常規(guī)的脫敏方式,在一些特殊場(chǎng)景可能需要定制化的脫敏算法,為了能滿足對(duì)應(yīng)需求,測(cè)試時(shí)還需關(guān)注產(chǎn)品是否支持自定義數(shù)據(jù)脫敏算法,如通過設(shè)置參數(shù)或通過編寫函數(shù)等方式實(shí)現(xiàn)更多樣的脫敏效果。
2.脫敏策略
除了選擇合適的脫敏算法,在進(jìn)行數(shù)據(jù)脫敏測(cè)試過程中,還需要關(guān)注另外幾點(diǎn)脫敏策略設(shè)置的情況。
對(duì)于靜態(tài)數(shù)據(jù)脫敏產(chǎn)品,一般是根據(jù)使用方的需求獲取所需的源數(shù)據(jù),脫敏后提供給使用方,因此,針對(duì)不同的使用需求所需的數(shù)據(jù)范圍可能會(huì)有所不同,比如僅需要數(shù)據(jù)庫中某張表、某張表的某幾列字段、某張表的部分行數(shù)據(jù)等等,所以需要關(guān)注產(chǎn)品是否具備抽取數(shù)據(jù)子集的功能,能夠根據(jù)用戶要求設(shè)置抽取規(guī)則創(chuàng)建原始數(shù)據(jù)的子集數(shù)據(jù)。此外,在如今大數(shù)據(jù)持續(xù)爆發(fā)性增長(zhǎng)的時(shí)代,許多業(yè)務(wù)系統(tǒng)每天都會(huì)新產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù),在針對(duì)這些數(shù)據(jù)進(jìn)行脫敏時(shí),為了提高效率,需要關(guān)注產(chǎn)品是否具備增量數(shù)據(jù)脫敏的能力,能夠識(shí)別增量的數(shù)據(jù)并僅抽取該部分?jǐn)?shù)據(jù)進(jìn)行脫敏[6]。
對(duì)于動(dòng)態(tài)數(shù)據(jù)脫敏產(chǎn)品,一般是在應(yīng)用程序或運(yùn)維人員實(shí)時(shí)訪問業(yè)務(wù)數(shù)據(jù)時(shí)進(jìn)行脫敏,對(duì)于不同應(yīng)用程序、運(yùn)維人員,其具有的數(shù)據(jù)權(quán)限會(huì)有所不同,因此需要關(guān)注產(chǎn)品是否能夠設(shè)置動(dòng)態(tài)脫敏策略的生效條件,針對(duì)客戶端IP、用戶身份、訪問時(shí)間等進(jìn)行設(shè)置,達(dá)到讓不同訪問者看到不同數(shù)據(jù)信息的目的。
3.脫敏結(jié)果
根據(jù)匹配的脫敏策略進(jìn)行數(shù)據(jù)脫敏后,靜態(tài)數(shù)據(jù)脫敏產(chǎn)品會(huì)將脫敏結(jié)果進(jìn)行存儲(chǔ)供使用方獲取,動(dòng)態(tài)數(shù)據(jù)脫敏產(chǎn)品則將脫敏結(jié)果實(shí)時(shí)返回給用戶。在測(cè)試時(shí),除了需要對(duì)照脫敏策略確認(rèn)脫敏結(jié)果的正確性外,還有一點(diǎn)需要著重關(guān)注,當(dāng)進(jìn)行脫敏的原始表字段之間存在關(guān)聯(lián)關(guān)系時(shí),脫敏結(jié)果是否能夠保持同樣的關(guān)聯(lián)關(guān)系,比如主外鍵、索引等,從而保證脫敏數(shù)據(jù)的可用性。此外,針對(duì)靜態(tài)數(shù)據(jù)脫敏產(chǎn)品,由于其脫敏結(jié)果需要存儲(chǔ)到指定目標(biāo)位置,為了滿足多樣化數(shù)據(jù)文件類型的需求,需要關(guān)注產(chǎn)品是否能夠支持多種數(shù)據(jù)分發(fā)形式,如源數(shù)據(jù)庫到目標(biāo)數(shù)據(jù)庫、源數(shù)據(jù)庫到目標(biāo)文件、源文件到目標(biāo)數(shù)據(jù)庫、源文件到目標(biāo)文件等。
隨著《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》等法律法規(guī)的出臺(tái),國(guó)家對(duì)于數(shù)據(jù)安全越來越重視,企事業(yè)單位等也在不斷尋求更有效的產(chǎn)品幫助自己提升數(shù)據(jù)的安全性,數(shù)據(jù)脫敏產(chǎn)品能夠幫助各單位實(shí)現(xiàn)在不泄露敏感數(shù)據(jù)的前提下達(dá)到數(shù)據(jù)可用性、共享性的最大化利用,具有較為廣闊的應(yīng)用前景。本文通過對(duì)數(shù)據(jù)脫敏產(chǎn)品分類、部署使用流程進(jìn)行梳理,分析了在測(cè)試數(shù)據(jù)脫敏產(chǎn)品時(shí)需要著重關(guān)注的地方,為數(shù)據(jù)脫敏產(chǎn)品開發(fā)單位測(cè)試產(chǎn)品以及用戶單位選擇產(chǎn)品等提供參考。