高 磊 趙章界 宋勁松 翟志佳 楊 芬 蔣 宋
1(北京市大數據中心 北京 100101)2(中電長城網際系統(tǒng)應用有限公司 北京 102209)3(太極計算機股份有限公司 北京 100102)(cynh1005@126.com)
隨著大數據分析技術和存儲能力的不斷提升,數據的價值和活力日益凸顯,數據已成為繼土地、勞動力、資本、技術之后的第5大生產要素[1].數據利好政策的不斷出臺、數字經濟的廣泛興起、數據交易所的陸續(xù)成立都預示著數據將成為未來最重要的戰(zhàn)略資源之一,數據的采集和使用將深入到人們未來生活的方方面面.但也應當清醒地認識到,大數據時代個人隱私泄露、數據的濫用、數據偽造導致數據失真[2]等安全風險一直存在,數據安全管理體系不健全、人員的安全意識不足、網絡系統(tǒng)缺乏自治能力[3]等問題突出,數據安全問題已成為制約數據開發(fā)利用、價值挖掘的主要瓶頸.解決數據安全問題最根本的途徑就是對數據進行有針對性的安全治理.近年來,關于數據安全治理的研究持續(xù)升溫,如基于網絡安全策略[4]、基于量化評價和持續(xù)優(yōu)化復合模型[5]、基于數據全生命周期安全和基礎安全[6]、基于數據安全標識[7]、基于數據安全保護技術[8],在金融數據[9]、科學數據[10]、跨境傳輸[11]等方面也有相關研究基礎.本文將通過對大數據應用中的數據安全問題和數據安全治理過程中的常見誤區(qū)進行梳理和分析,提出數據安全治理的新思路,明確數據安全治理的要點、原則和方法,以分類分級為切入點,給出數據安全治理技術架構,并以大數據平臺為例,給出數據安全治理的應用實踐,以期達到更好的參考效果.
大數據由于其數據量大、數據源多、用戶多、系統(tǒng)接口多、數據訪問關系復雜等原因,存在諸多安全問題,集中體現在以下幾點:
1) 敏感信息或個人隱私泄露.不便于對外公開的內部數據、個人敏感信息等因管理不善、技術防護能力不足、遭受網絡攻擊等而泄露給不相干的人或組織,或通過非正式渠道對外披露和共享.
2) 數據非授權訪問或濫用.高權限標識數據或高級別數據被低權限用戶或非授權接口訪問獲取,或數據被用于采集目的之外的用途以及將不必要的數據共享給指定對象.
3) 數據篡改或偽造.數據的完整性被破壞,數據內容或格式遭到惡意改變,失去數據原有價值,或采集或使用了虛假數據,導致系統(tǒng)出現異常情況.
4) 數據污染.高質量數據中混入低質量數據或垃圾數據,導致數據的分析結果大打折扣,尤其是在人工智能、機器學習、深度學習領域,數據污染甚至會產生極端分析結果,嚴重影響正常的科研工作.
此外,數據安全問題還與承載數據的系統(tǒng)、系統(tǒng)所處物理環(huán)境、系統(tǒng)安裝的組件等因素有密切關系.
數據如果治理不當非但不能達到數據安全使用效果,反而會引起其他棘手問題,數據安全治理常見誤區(qū)如下:
1) 2個“極端”.針對數據安全的保護,要么過保護、要么欠保護,采用粗獷的安全管理模式,缺乏精細化、規(guī)范化考慮和分類分級保護意識,防護措施一刀切,不但花費時間和金錢,也增大了數據泄露、數據濫用等安全風險.
2) 抓不住重點.缺乏對數據安全治理的正確認識,摸不到線頭,找不到“牛鼻子”,不能做到有的放矢,致使治理工作千頭萬緒,加上承載數據的系統(tǒng)自身存在諸多安全隱患,數據安全治理和系統(tǒng)漏洞整改混為一談.
3) 技術和管理“兩層皮”.制定的安全方針和策略浮于表面,脫離技術實際,未能形成管理和技術的有機整體,或者采取的技術手段“師出無名”,未能成為組織內部的規(guī)定動作.
4) 缺乏完整治理鏈條.未能通盤考慮數據治理工作,未能涵蓋決策、管理、執(zhí)行、監(jiān)督、問責、改進等各個環(huán)節(jié),缺乏長遠規(guī)劃和可持續(xù)性意識,安全保護淺嘗輒止,致使數據安全事件頻發(fā).
明確數據安全治理的原則、要點和切入點,是擺脫數據安全治理困境的必由之路.
數據安全治理是一項長期、復雜、艱巨的工作,為確保有效執(zhí)行,應當遵循以下原則:
1) 合規(guī)性原則.數據安全治理應首先考慮現有法律、法規(guī)及規(guī)章層面對數據安全保護的相關要求,即首先考慮開展數據安全治理的相關活動是否依法合規(guī),并在此基礎上進行調整和改進.
2) 經濟性原則.數據安全治理雖然以確保數據安全使用為目標,但并不意味著為了安全而安全,采取的安全措施應充分考慮業(yè)務實際和安全防護收益,用最經濟的方式達到較好的安全防護效果.
3) 完備性原則.數據自身以及承載數據的系統(tǒng)、系統(tǒng)用戶和權限、發(fā)生的數據安全事件均具有各自的生命周期和必要環(huán)節(jié),數據安全治理工作應涵蓋全生命周期和全環(huán)節(jié),使得治理工作形成閉環(huán).
4) 可操作性原則.數據安全治理工作的各項活動提出的安全要求、采取的安全措施應具有較好的可操作性,不影響系統(tǒng)正常的業(yè)務運行,且安全要求不能浮于表面,應能有效落地.
5) 可追溯性原則.數據安全治理工作開展的各項工作能夠利用技術手段或管理措施進行追溯,包括但不限于人員操作行為的追溯、數據流轉情況的追溯、安全事件的追溯等.
6) 可問責性原則.明確安全責任是開展數據安全治理工作的前提,建立問責機制是確保數據安全治理工作有效執(zhí)行的基礎,沒有問責就沒有自覺性和威懾力.
根據對大數據應用中數據安全突出問題和數據治理過程中常見誤區(qū)的梳理和分析,結合數據安全治理原則,數據安全治理應從人員、數據、系統(tǒng)、事件4個關注要點進行展開,各要點描述如表1所示:
表1 數據安全治理要點及其描述
俗話說“三分技術、七分管理”,管理的重要性不言而喻,而管理的本質是對人的管理,只要管好人,安全工作就會事半功倍,因此在數據安全治理中人是最關鍵的因素;數據作為數據安全治理的主要對象,一切工作圍繞數據展開,因此數據是數據安全治理工作的核心;數據需要依托于特定系統(tǒng)才能發(fā)揮作用,系統(tǒng)的安全防護是數據安全保護的基礎,因此系統(tǒng)是數據安全治理的依托;事件是安全問題的外在表象,是驅動數據安全工作不斷改進完善的外部力量,因此事件是數據安全治理工作的牽引.數據安全治理應建立“以人員為關鍵、以數據為核心、以系統(tǒng)為依托、以事件為牽引”的治理模式,綜合采用相適應的安全技術和管控機制才能有效保障數據安全治理工作的順利開展.
根據數據安全治理原則,結合關注要點可知,采用分類分級的治理思想是擺脫治理困境的關鍵所在,在開展所有治理工作之前,首要工作是梳理各關注要點之間的分類分級關系.
如圖1所示,數據安全治理中的人員、數據、系統(tǒng)和事件的關注要點均具有相應的分類分級方法:
圖1 數據安全治理中的分類分級關系示例
1) 人員分為5類4級:一般用戶(1級)、操作員(2級)、審計員(2級)、2級管理員(3級)、超級管理員(4級),人員的級別體現的是訪問權限的級別,級別越高權限越大;
2) 數據按照敏感屬性分為4級:1級數據(不敏感)、2級數據(較敏感)、3級數據(敏感)、4級數據(高敏感),級別越高越敏感,安全保護要求也越高;
3) 系統(tǒng)按照等保級別分為3級:第1級、第2級、第3級,級別越高安全保護要求越高;
4) 事件按照嚴重程度分為4級:4級事件、3級事件、2級事件、1級事件,級別越小事件越重大、越嚴重.
人員和數據之間存在訪問關系;數據和系統(tǒng)之間存在被承載關系;系統(tǒng)和事件之間存在觸發(fā)關系.即:根據用戶角色和權限設定,結合數據敏感屬性,一般用戶(1級)僅能訪問1級數據,操作員(2級)、審計員(2級)能夠訪問1,2級數據,但不能訪問3級及以上數據,2級管理員(3級)能夠訪問1~3級數據,但不能訪問4級數據,超級管理員能夠訪問所有級別的數據;根據安全保護要求,1~3級數據能夠被第3級系統(tǒng)承載,但第1級系統(tǒng)不能承載2級及以上數據,第2級系統(tǒng)不能承載3級及以上數據;根據安全事件處置流程,第1級系統(tǒng)發(fā)生中斷(或1級數據發(fā)生泄露或破壞等)能夠觸發(fā)4級事件、3級事件,第2級系統(tǒng)發(fā)生中斷(或2級數據發(fā)生泄露或破壞等)能夠觸發(fā)3級事件、2級事件,第3級系統(tǒng)發(fā)生中斷(或3,4級數據發(fā)生泄露或破壞等)能夠觸發(fā)2級事件、1級事件.
通過對數據安全治理各關注要點之間分類分級關系的梳理和分析可知,以分類分級為切入點,可以將數據安全治理各環(huán)節(jié)、各鏈條應當采取的技術手段和管控措施緊密關聯(lián)在一起,形成有機統(tǒng)一的技術架構.
根據對數據安全治理原則、要點的梳理和分析,結合數據安全治理分類分級關系,可知數據安全治理涵蓋人員、數據、系統(tǒng)、事件等各個處理環(huán)節(jié),各環(huán)節(jié)均具有相應的技術管控措施,具體架構如圖2所示:
圖2 數據安全治理技術架構
如圖2所示,數據安全治理技術架構分為4個組件:
1) 人員安全管控.針對人員(用戶)進行統(tǒng)一的認證和授權,對其可訪問的系統(tǒng)文件、數據庫表依據安全級別和敏感屬性進行訪問關系映射,對其操作行為(增、刪、改、查等)進行審計記錄,對違規(guī)操作行為(異地登錄、非授權訪問等)進行告警.
2) 數據全生命周期安全治理.數據全生命周期涵蓋數據采集、數據傳輸、數據存儲、數據處理、數據使用、數據銷毀等各個環(huán)節(jié),各環(huán)節(jié)應采取的技術管控措施如下:①數據采集.針對數據來源的合法性進行驗證,對數據質量的合規(guī)性進行核對,對采集數據的數據項和數據項集合根據級別判定規(guī)則進行標簽設置.②數據傳輸.在數據傳輸過程中確保數據不被篡改和竊取,采用https,SFTP等加密協(xié)議防止敏感信息泄露,采用摘要算法確保數據傳輸過程中的完整性,如存在導入導出過程,則對導入導出的數據提供者、接收者、來源、去向、數據量等進行溯源管理.③數據存儲.針對敏感數據和非敏感數據進行分離存儲,不同級別的數據存儲在不同的分區(qū),采用SM4等密碼技術對敏感數據進行加密存儲,定期對存儲數據進行全/增量備份和恢復測試.④數據處理.針對數據加工等處理操作進行嚴格的授權,僅允許特定個人進行相關操作,在處理過程中確保敏感數據進行脫敏或去標識化處理,防止敏感信息泄露,若加工處理后的數據的敏感性發(fā)生變化,應及時進行標簽重置,標記合理級別.⑤數據使用.針對數據的使用進行授權管理,僅允許符合安全級別的角色或用戶進行訪問和相關操作,在數據共享、開放過程中進行必要的數據脫敏處理,必要時采用隱私計算等技術對數據進行可用不可見的共享和開放.⑥數據銷毀.數據不再使用應及時銷毀,使用正規(guī)工具對數據及數據副本進行銷毀操作,確保安全性和有效性,防止敏感信息泄露和數據復現,必要時進行物理銷毀,實現數據的徹底銷毀.
此外,個人信息保護(明示同意、信息處理、對外披露、信息共享等各環(huán)節(jié)安全管控)、數據分類分級(級別判定、級別標簽、級別變更等)、數據溯源監(jiān)測(數據資產梳理、數據接口監(jiān)測、日志采集分析、異常情況告警等)3項工作貫穿數據全生命周期,環(huán)環(huán)相扣,密不可分.
3) 系統(tǒng)安全防護.根據網絡安全等級保護要求,對系統(tǒng)用戶進行身份鑒別和訪問控制,通過開發(fā)接口管控工具等技術措施對系統(tǒng)外聯(lián)接口進行統(tǒng)一管控;通過建立集中審計平臺等技術措施對系統(tǒng)層、應用層、數據層產生的日志進行集中審計;對系統(tǒng)層、應用層、數據層存在的安全漏洞進行專項治理(內部測試通過后安裝系統(tǒng)補丁).
4) 事件分析與處置.根據事件分級規(guī)則和預警機制,建立統(tǒng)一監(jiān)測預警平臺(網絡流量、系統(tǒng)狀態(tài)、訪問日志、操作日志等)、統(tǒng)一風險管控平臺(風險計分、風險展示、風險控制等)、安全態(tài)勢分析平臺(態(tài)勢感知、安全狀態(tài)展示、安全事件預測等),3個平臺可統(tǒng)一建設,并對監(jiān)測發(fā)現的安全事件依據應急預案流程進行應急處置.
本文以通用的大數據平臺為例,結合本文提出的數據治理技術架構,針對人員、數據、系統(tǒng)、事件的關注要點采用了相應的技術管控措施.
如圖3所示,大數據平臺及其相關應用系統(tǒng)的人員(用戶)訪問各系統(tǒng)首先要經過統(tǒng)一認證模塊的驗證(通過CA驗證),驗證通過可賦予相應系統(tǒng)的權限信息,然后才能執(zhí)行相應訪問及操作.大數據平臺中的數據經過共享交換模塊(外部數據源通過前置機推送信息)、數據治理模塊(通過接口調用加解密和時間戳等安全服務)、生產庫、服務庫、應用系統(tǒng)整個鏈條的數據庫表操作信息、數據流向信息反饋給統(tǒng)一溯源監(jiān)測模塊,并通過標簽體系對數據進行分類分級標識.云平臺流量信息(云服務商提供)、監(jiān)控預警平臺告警信息(安全服務商提供)、系統(tǒng)日志信息(日志分析設備提供)以及統(tǒng)一認證授權模塊的用戶登錄信息、統(tǒng)一溯源監(jiān)測模塊的預警信息反饋給統(tǒng)一風險管控模塊進行處理和分析,對人員操作行為進行稽核,對數據異常使用情況進行告警,并及時阻斷違規(guī)行為.
圖3 數據安全治理技術應用示例
此外,除技術措施外,還應建立人員臺賬、數據分類分級臺賬、系統(tǒng)臺賬、安全事件臺賬等管理手段,形成技術和管理相結合的管控機制,相關管理措施本文不再贅述.
在大數據應用中,數據安全治理十分必要,需要充分謀劃,精準實施,如此才能達到數據安全使用的最終目的.本文通過梳理和分析大數據應用中突出的數據安全問題和數據安全治理過程中的常見誤區(qū),提出數據安全治理的新思路,給出數據安全治理的原則和要點,以分類分級為基礎給出數據安全治理的技術架構,并給出大數據平臺數據安全治理技術應用實踐,對各行業(yè)落地實施數據安全治理工作能夠起到一定的指導作用.