劉明輝,陳 湉,王竹欣
(中國信息通信研究院,北京 100191)
大數(shù)據(jù)時(shí)代來臨,數(shù)據(jù)價(jià)值的急劇攀升,促使數(shù)據(jù)安全與國家安全、經(jīng)濟(jì)運(yùn)行安全、社會(huì)公共安全、個(gè)人合法權(quán)益之間的關(guān)聯(lián)日趨緊密。同時(shí),大數(shù)據(jù)面臨的安全威脅日益嚴(yán)重,Gemalto 發(fā)布的《2017數(shù)據(jù)泄露水平指數(shù)報(bào)告》顯示,2017年上半年19億條記錄被泄或被盜,超過了2016年全年總量(14億),比2016年下半年增加了160%多[1]。數(shù)據(jù)泄露和隱私問題已經(jīng)成為制約大數(shù)據(jù)應(yīng)用發(fā)展的關(guān)鍵因素,建立大數(shù)據(jù)安全保障體系成為大數(shù)據(jù)產(chǎn)業(yè)健康、穩(wěn)定發(fā)展的重要環(huán)節(jié)。
當(dāng)前,以Hadoop為基礎(chǔ)的開源生態(tài)系統(tǒng)是最流行的大數(shù)據(jù)分析框架,國內(nèi)Hadoop已經(jīng)廣泛應(yīng)用于金融、電信、制造、能源以及醫(yī)療健康領(lǐng)域。Hadoop平臺由多個(gè)組件搭建而成,組件自身安全以及組件之間的安全共同決定大數(shù)據(jù)平臺安全。傳統(tǒng)安全技術(shù)能否嵌入大數(shù)據(jù)平臺,是否需要研發(fā)新的安全技術(shù)保障Hadoop組件安全,進(jìn)而保障大數(shù)據(jù)平臺安全,是值得深入研究的問題。本文從分析大數(shù)據(jù)平臺的安全威脅入手,研究大數(shù)據(jù)平臺的安全需求,并研究Hadoop平臺目前常用的安全機(jī)制,分析存在的問題,提出大數(shù)據(jù)平臺安全的研究方向和研究建議。
(1)大數(shù)據(jù)技術(shù)發(fā)展引入未知的安全漏洞隱患。
大數(shù)據(jù)、云計(jì)算技術(shù)帶動(dòng)信息系統(tǒng)軟硬件架構(gòu)的全新變革,可能在軟件、硬件、協(xié)議等多方面引入未知的漏洞隱患,而現(xiàn)有安全防護(hù)技術(shù)無法抵御未知漏洞帶來的安全風(fēng)險(xiǎn),包括現(xiàn)有的安全防護(hù)技術(shù)和實(shí)時(shí)監(jiān)測技術(shù)都相對滯后于大數(shù)據(jù)技術(shù)的發(fā)展。
(2)大數(shù)據(jù)技術(shù)缺乏有效的安全機(jī)制,安全保障能力比較薄弱。
現(xiàn)有大數(shù)據(jù)技術(shù)大多基于Hadoop框架進(jìn)行二次開發(fā),缺乏有效的安全機(jī)制,在身份認(rèn)證、權(quán)限控制、安全審計(jì)等方面不健全,即使有些做了改進(jìn),其安全保障能力仍然比較薄弱。
(3)大數(shù)據(jù)技術(shù)采用的分布式存儲和計(jì)算模式導(dǎo)致安全邊界變模糊。
傳統(tǒng)的網(wǎng)絡(luò)環(huán)境下,網(wǎng)絡(luò)安全邊界相對清晰,基于邊界的安全機(jī)制可以起到較好的防護(hù)效果。而在大數(shù)據(jù)環(huán)境下,由于大數(shù)據(jù)技術(shù)采用底層復(fù)雜、開放的分布式存儲和計(jì)算架構(gòu),使得大數(shù)據(jù)應(yīng)用的安全邊界變模糊,傳統(tǒng)的安全防護(hù)機(jī)制在大數(shù)據(jù)環(huán)境下暴露出不足。
(4)大數(shù)據(jù)技術(shù)發(fā)展催生出新型攻擊手段。
大數(shù)據(jù)存儲、計(jì)算、分析等技術(shù)的發(fā)展,催生出很多新型高級的網(wǎng)絡(luò)攻擊手段,使得傳統(tǒng)的檢測、防御技術(shù)暴露出嚴(yán)重不足,無法有效抵御外界的入侵攻擊。針對大數(shù)據(jù)平臺的高級持續(xù)性威脅(APT)攻擊時(shí)有發(fā)生。大數(shù)據(jù)平臺遭受的大規(guī)模分布式拒絕服務(wù)(DDoS)攻擊屢見不鮮。
圖1是NIST(National Institute of Standards and Technology,美國國家標(biāo)準(zhǔn)與技術(shù)研究院)、ISO/IEC(國際標(biāo)準(zhǔn)化組織/國際電工委員會(huì))提出的大數(shù)據(jù)參考架構(gòu)NBDRA(NIST Big Data Reference Architecture),是獨(dú)立于供應(yīng)商的、且與技術(shù)和基礎(chǔ)設(shè)施無關(guān)的概念模型[2]。
圖1 NIST大數(shù)據(jù)參考架構(gòu)
NBDRA是圍繞代表兩大數(shù)據(jù)價(jià)值鏈的兩個(gè)軸進(jìn)行組織的:信息(水平軸)和信息技術(shù)(IT)(垂直軸)。信息軸上,核心價(jià)值通過數(shù)據(jù)收集、整合、分析和應(yīng)用而產(chǎn)生。IT軸上,通過網(wǎng)絡(luò)、基礎(chǔ)設(shè)施、平臺、應(yīng)用工具和其他IT托管服務(wù)和運(yùn)行服務(wù)為大數(shù)據(jù)應(yīng)用提供支持。五個(gè)主要的NBDRA組件代表了存在于每個(gè)大數(shù)據(jù)系統(tǒng)的不同技術(shù)角色:(1)系統(tǒng)協(xié)調(diào)者:負(fù)責(zé)配置和管理大數(shù)據(jù)平臺與大數(shù)據(jù)應(yīng)用的各類安全功能組件及安全策略,編排大數(shù)據(jù)服務(wù)所需的數(shù)據(jù)活動(dòng)和系統(tǒng)服務(wù)活動(dòng),并將它們整合到可運(yùn)行的大數(shù)據(jù)平臺中;(2)數(shù)據(jù)提供者:負(fù)責(zé)將機(jī)構(gòu)內(nèi)外部的各種數(shù)據(jù)或信息資源通過數(shù)據(jù)采集服務(wù)引入到大數(shù)據(jù)平臺或大數(shù)據(jù)應(yīng)用中;(3)大數(shù)據(jù)應(yīng)用提供者:負(fù)責(zé)開發(fā)和部署大數(shù)據(jù)應(yīng)用,提供數(shù)據(jù)生命周期管理相關(guān)的數(shù)據(jù)服務(wù),并滿足系統(tǒng)協(xié)調(diào)者定義的安全和隱私保護(hù)需求;(4)數(shù)據(jù)使用者:使用大數(shù)據(jù)平臺或應(yīng)用的末端用戶、其他IT系統(tǒng)或智能感知設(shè)備;(5)大數(shù)據(jù)框架提供者:負(fù)責(zé)建立和運(yùn)營大數(shù)據(jù)平臺相關(guān)的基礎(chǔ)設(shè)施、計(jì)算框架。
大數(shù)據(jù)平臺作為數(shù)據(jù)存儲和處理的載體,一方面要保障其與大數(shù)據(jù)應(yīng)用提供者之間的接口安全,包括對接入平臺的實(shí)體身份進(jìn)行認(rèn)證、數(shù)據(jù)傳輸過程的機(jī)密性、數(shù)據(jù)的完整性校驗(yàn)等。另一方面,要滿足大數(shù)據(jù)基礎(chǔ)平臺內(nèi)部的安全需求,包括數(shù)據(jù)存儲安全、處理安全、安全管理以及基礎(chǔ)設(shè)施的安全。存儲安全是指保證存入數(shù)據(jù)的機(jī)密性和有序訪問,防止在存儲過程中的數(shù)據(jù)泄漏,使用的安全技術(shù)包括基于身份或策略的加密、訪問控制、數(shù)據(jù)隔離等。處理安全是指保證運(yùn)算過程中的數(shù)據(jù)不被越權(quán)使用,使用的安全技術(shù)包括統(tǒng)一認(rèn)證、細(xì)粒度訪問控制、加密計(jì)算(搜索/過濾/刪除/同態(tài)加密)等。管理安全是指平臺組件的安全管理與審計(jì),其中包括安全基線檢查、補(bǔ)丁管理、日志集中與審計(jì)等?;A(chǔ)設(shè)施安全是指保障承載大數(shù)據(jù)平臺的物理設(shè)備與虛擬化資源的基礎(chǔ)安全,包括物理安全、網(wǎng)絡(luò)安全和虛擬化安全。
目前,大數(shù)據(jù)平臺主要基于Hadoop開源框架進(jìn)行二次開發(fā),開源結(jié)構(gòu)如圖2所示,其核心功能是分布式數(shù)據(jù)存儲和數(shù)據(jù)處理[3]。由于Hadoop是設(shè)計(jì)在可信環(huán)境內(nèi)部署使用,最初并沒有考慮安全機(jī)制,而隨著越來越多用戶加入進(jìn)來,任何用戶都可以訪問和刪除數(shù)據(jù),存在惡意用戶偽裝成真正的用戶或者服務(wù)器入侵到Hadoop集群上,惡意地提交作業(yè),修改JobTracker狀態(tài),篡改HDFS上的數(shù)據(jù),偽裝成NameNode 或者TaskTracker接受任務(wù)等風(fēng)險(xiǎn)。
圖2 Hadoop開源框架
為了應(yīng)對上述安全挑戰(zhàn),2009年開始,Hadoop開源社區(qū)開始注重保護(hù)大數(shù)據(jù)安全,相繼加入了身份驗(yàn)證、訪問控制、數(shù)據(jù)加密和日志審計(jì)等安全功能[4]。
3.1.1身份認(rèn)證
身份認(rèn)證是確認(rèn)訪問者身份的過程,是數(shù)據(jù)訪問控制的基礎(chǔ),也是實(shí)現(xiàn)大數(shù)據(jù)安全架構(gòu)的基礎(chǔ)。目前Hadoop開源系統(tǒng)在身份認(rèn)證方面主要有三種方式,一是簡單認(rèn)證方式,二是基于Kerberos的強(qiáng)認(rèn)證方式,三是基于LDAP輕量目錄訪問協(xié)議的弱認(rèn)證方式。
對于簡單認(rèn)證方式,只能避免內(nèi)部人員的誤操作,無法提供其他更高級的身份認(rèn)證服務(wù),難以保證安全性。它屬于早期使用的身份認(rèn)證方式。
對于Kerberos認(rèn)證方式,它是Hadoop開源軟件中目前唯一可選的強(qiáng)安全認(rèn)證方式。Kerberos認(rèn)證基于對稱秘鑰算法,適于用戶和服務(wù)之間的相互認(rèn)證。配合Kerberos一同工作的還有代理token,大大節(jié)省了資源開銷,提高了運(yùn)行效率和可用性。
基于LDAP輕量目錄訪問協(xié)議的認(rèn)證方式,由于僅對部分組件適用,應(yīng)用范圍較窄。
目前這三種認(rèn)證方式中,基于Kerberos的強(qiáng)認(rèn)證方式是最主流的認(rèn)證方式,因?yàn)镵erberos可以實(shí)現(xiàn)較強(qiáng)的安全性,同時(shí)保證較高的運(yùn)行性能,目前還沒有哪種認(rèn)證方式可以取代Kerberos認(rèn)證。
3.1.2訪問控制
訪問控制是關(guān)注用戶或者應(yīng)用在訪問數(shù)據(jù)時(shí),對用戶的權(quán)限進(jìn)行定義和實(shí)施,從而限定用戶是否有對某種資源的訪問能力。目前大數(shù)據(jù)安全開源技術(shù)在訪問控制方面主要有以下幾種方式:
(1)基于權(quán)限的訪問控制:是一種基于用戶和組的文件權(quán)限管理方式,主要用于HDFS系統(tǒng)。目前已經(jīng)比較成熟。
(2)訪問控制列表:規(guī)定了哪些數(shù)據(jù)可以訪問,哪些數(shù)據(jù)不能訪問??捎糜贖DFS、MapReduce、HBase中。
(3)基于角色的訪問控制:基本思想是對不同角色設(shè)置不同的訪問權(quán)限,當(dāng)一個(gè)角色被指定給某個(gè)用戶時(shí),此用戶就擁有了該角色的權(quán)限,以此達(dá)到訪問控制的目的。用于Hive中。
(4)基于標(biāo)簽的訪問控制:當(dāng)文件資源被創(chuàng)建時(shí),由標(biāo)簽管理員為文件授予一組安全標(biāo)簽,相應(yīng)地,每個(gè)用戶被創(chuàng)建時(shí)也由標(biāo)簽管理員授予相關(guān)的安全標(biāo)簽,通過安全標(biāo)簽之間的比較,判定用戶能否對文件進(jìn)行訪問。用于HBase、Accumulo中。
在以上幾種訪問控制方式中,企業(yè)主流使用的是基于權(quán)限的訪問控制和基于角色的訪問控制。前者一般用于對整個(gè)文件進(jìn)行訪問的情況,后者則是針對需要對文件進(jìn)行細(xì)粒度訪問控制的情況,如基于列的訪問控制?;诮巧脑L問控制在大數(shù)據(jù)環(huán)境下面臨新的挑戰(zhàn)。
3.1.3數(shù)據(jù)加密
大數(shù)據(jù)環(huán)境下需要實(shí)現(xiàn)數(shù)據(jù)在靜態(tài)存儲及傳輸過程的加密保護(hù),以及密鑰的安全高效管理。對于靜態(tài)數(shù)據(jù),Hadoop提供兩種方式進(jìn)行保護(hù):一是文件先進(jìn)行加密,再存儲在Hadoop節(jié)點(diǎn)中;二是一旦數(shù)據(jù)加載到Hadoop系統(tǒng)中,立即申請對數(shù)據(jù)塊的加密。對于動(dòng)態(tài)數(shù)據(jù),傳輸進(jìn)或傳輸出的數(shù)據(jù),Hadoop可以提供認(rèn)證與安全層(SASL)認(rèn)證進(jìn)行加密[5]。
3.1.4審計(jì)
安全審計(jì)是指對系統(tǒng)中發(fā)生的活動(dòng)進(jìn)行識別、記錄、存儲和分析,明確數(shù)據(jù)或服務(wù)是在何時(shí)被何人訪問、怎么被訪問的,理解數(shù)據(jù)的來源和被使用方式等問題,從而實(shí)現(xiàn)數(shù)據(jù)管理,及時(shí)檢測并發(fā)現(xiàn)可能的入侵攻擊等異常行為。Hadoop生態(tài)系統(tǒng)各組件均提供日志和審計(jì)文件記錄數(shù)據(jù)訪問過程,且日志審計(jì)文件內(nèi)容不可更改,為追蹤數(shù)據(jù)流向和發(fā)現(xiàn)違規(guī)數(shù)據(jù)操作提供原始依據(jù)。
3.1.5問題分析
(1)Hadoop生態(tài)系統(tǒng)的開源安全技術(shù)無總體安全管理視圖,認(rèn)證、權(quán)限管理、加密、審計(jì)等功能均通過對相關(guān)組件的配置來完成,無有效的配置檢查和效果評價(jià)機(jī)制。
(2)訪問控制機(jī)制過于簡單。大數(shù)據(jù)場景下用戶角色眾多,用戶需求更加多樣化,難以精細(xì)化和細(xì)粒度地控制每個(gè)角色的實(shí)際權(quán)限,導(dǎo)致無法準(zhǔn)確為用戶指定其可以訪問的數(shù)據(jù)范圍,實(shí)現(xiàn)細(xì)粒度訪問控制較為困難。
(3)過于依賴Kerberos。在整個(gè)Hadoop集群中,只存在一個(gè)Kerberos服務(wù)器,這個(gè)服務(wù)器負(fù)責(zé)集群中所有節(jié)點(diǎn)的訪問控制。當(dāng)Hadoop中節(jié)點(diǎn)的數(shù)量變大時(shí),Kerberos負(fù)擔(dān)會(huì)加重。若在某一時(shí)刻很多節(jié)點(diǎn)向服務(wù)器請求訪問Token,可能會(huì)超出服務(wù)器的處理能力。此外,這也是Hadoop中心控制問題的一個(gè)表現(xiàn),若Kerberos服務(wù)器出現(xiàn)故障,則整個(gè)集群都無法運(yùn)行。
(4)無法應(yīng)對惡意的網(wǎng)絡(luò)攻擊。Hadoop在設(shè)計(jì)時(shí)沒有對可能遭受的網(wǎng)絡(luò)安全問題進(jìn)行考慮,Hadoop中沒有對應(yīng)的網(wǎng)絡(luò)安全防護(hù)措施,很容易受到諸如DDoS的攻擊,因此Hadoop對網(wǎng)絡(luò)安全的防護(hù)只能借助第三方的工具。
除了Hadoop開源社區(qū)提供大數(shù)據(jù)平臺框架和組件技術(shù)外,部分企業(yè)致力于為用戶提供第三方大數(shù)據(jù)平臺商業(yè)化解決方案,其中代表企業(yè)包括Cloudera、Hortonworks以及華為公司。
3.2.1ClouderaCDH
由Facebook、谷歌和雅虎的前工程師創(chuàng)辦的Cloudera提供了從數(shù)據(jù)平臺身份認(rèn)證、訪問授權(quán)管理、數(shù)據(jù)加密到安全審計(jì)全流程的安全解決方案體系架構(gòu)。Cloudera通過Cloudera Manager提供向?qū)讲僮鹘缑妫奖銌⒂肏adoop的Kerberos認(rèn)證,避免企業(yè)用戶受到黑客勒索攻擊。Apache Sentry為大數(shù)據(jù)平臺的組件,為Hive、Impala、Solr以及HDFS提供細(xì)粒度的基于角色的權(quán)限管理功能,避免數(shù)據(jù)集中后的非授權(quán)訪問。通過Cloudera Navigator提供大數(shù)據(jù)平臺所有組件的統(tǒng)一審計(jì)功能。Navigator Encrypt保障數(shù)據(jù)傳輸過程及靜態(tài)存儲都是以加密形式存在,具有較高的安全性,避免黑客截獲數(shù)據(jù)及數(shù)據(jù)泄露,同時(shí)利用Navigator Key Trustee服務(wù)提供更好的秘鑰存儲方案,并能提供和企業(yè)現(xiàn)有的HSM(Hardware Security Module)集成的解決方案。同時(shí),Cloudera也在不斷加強(qiáng)Hadoop生態(tài)系統(tǒng)的安全特性,例如利用RecordService為Hadoop平臺提供統(tǒng)一的安全管控。
3.2.2HortenworksHDP
Hortonworks提供五個(gè)核心安全功能:集中安全管理、身份驗(yàn)證和外圍安全、授權(quán)、審計(jì)和數(shù)據(jù)保護(hù)。HDP使用Apache Ranger提供集中的安全管理框架,支持HDFS、Hive、HBase、Storm、Knox、Solr、Kafka、YARN等HDP組件的集中安全管理,并實(shí)現(xiàn)授權(quán)和審計(jì)功能;Ranger可以將Atlas基于標(biāo)簽的訪問控制策略擴(kuò)展到整個(gè)系統(tǒng),使得基于分類的安全工作流程覆蓋到HDFS、Kafka、HBase;可以在Hadoop技術(shù)架構(gòu)的每個(gè)層級,包括Spark和Hive,執(zhí)行細(xì)粒度訪問控制;支持SSL協(xié)議,保護(hù)Spark和Kafka之間數(shù)據(jù)流安全;Knox融合了身份管理和單點(diǎn)登錄功能,可以實(shí)現(xiàn)基于Kerberos的身份認(rèn)證、中心化的接口管理、集中審計(jì)控制和服務(wù)級的授權(quán)訪問;利用Apache Knox Gateway實(shí)現(xiàn)邊界防護(hù),保證Hadoop集群入口的安全[6]。
3.2.3華為FusionInsight
華為大數(shù)據(jù)分析平臺FusionInsight基于Hadoop開源社區(qū)軟件進(jìn)行功能增強(qiáng),提供可運(yùn)營的安全體系,從網(wǎng)絡(luò)安全、主機(jī)安全、平臺安全和數(shù)據(jù)安全方面提供全方位的安全防護(hù)[7]。
在平臺安全方面,F(xiàn)uisonInsight可以提供身份認(rèn)證、權(quán)限控制、日志審計(jì)等基于Hadoop架構(gòu)的增強(qiáng)型安全功能。
身份認(rèn)證:FusionInsight使用LDAP作為賬戶管理系統(tǒng),并通過Kerberos對賬戶信息進(jìn)行安全認(rèn)證;統(tǒng)一了Manager系統(tǒng)用戶和組件用戶的管理及認(rèn)證,提供單點(diǎn)登錄。
權(quán)限控制:基于用戶和角色的認(rèn)證統(tǒng)一體系,遵從賬戶/角色RBAC(基于角色的訪問控制)模型,實(shí)現(xiàn)通過角色進(jìn)行權(quán)限管理,對用戶進(jìn)行批量授權(quán)管理,降低集群的管理難度。
審計(jì)日志:FusionInsight審計(jì)日志中記錄了用戶操作信息,可以快速定位系統(tǒng)是否遭受惡意的操作和攻擊,并避免審計(jì)日志中記錄用戶敏感信息。
在數(shù)據(jù)安全方面,F(xiàn)uisonInsight可以從集群容災(zāi)、備份、數(shù)據(jù)完整性、數(shù)據(jù)保密性等方面保證數(shù)據(jù)安全。
此外,華為的另一款大數(shù)據(jù)產(chǎn)品FusionInsight Universe可以實(shí)現(xiàn)全流程的數(shù)據(jù)隱私保護(hù)。
Hadoop仍處在快速發(fā)展的階段,安全問題依然存在。
目前的大數(shù)據(jù)平臺安全機(jī)制集中于平臺內(nèi)部的信息安全,網(wǎng)絡(luò)安全方面的防護(hù)手段較弱。一方面,對網(wǎng)絡(luò)邊界的防護(hù)仍沿用傳統(tǒng)的網(wǎng)絡(luò)安全防護(hù)手段,對于大數(shù)據(jù)環(huán)境下擴(kuò)展的防御邊界而言,使用效果不佳;另一方面,對大數(shù)據(jù)平臺本身可能的攻擊手段關(guān)注較少,預(yù)防手段不足,一旦有新的漏洞出現(xiàn),波及范圍將十分巨大[8]。確立有限管理邊界,依據(jù)保護(hù)要求,加強(qiáng)重點(diǎn)保護(hù),構(gòu)建一體化的數(shù)據(jù)安全管理體系,遵循網(wǎng)絡(luò)防護(hù)和數(shù)據(jù)自主預(yù)防并重的原則,并不是實(shí)施了全面的網(wǎng)絡(luò)安全護(hù)理就能徹底解決大數(shù)據(jù)的安全問題,數(shù)據(jù)不丟失只是傳統(tǒng)的邊界網(wǎng)絡(luò)安全的一個(gè)必要補(bǔ)充,還需要對大數(shù)據(jù)安全管理的盲區(qū)進(jìn)行監(jiān)控,只有將二者結(jié)合在一起,才是一個(gè)全面的一體化安全管理的解決方案。
一般來說,數(shù)據(jù)安全防護(hù)可以分為三個(gè)階段,分別是事前預(yù)警、事中防護(hù)和事后追溯。事前預(yù)警是指對系統(tǒng)進(jìn)行風(fēng)險(xiǎn)評估,對系統(tǒng)進(jìn)行安全加固,并對可能出現(xiàn)的風(fēng)險(xiǎn)設(shè)置安全預(yù)警措施。事中防護(hù)是指對運(yùn)行中的系統(tǒng)進(jìn)行動(dòng)態(tài)安全防護(hù),包括數(shù)據(jù)采集、存儲、處理過程中涉及的身份認(rèn)證、訪問控制、數(shù)據(jù)加密、網(wǎng)絡(luò)安全防護(hù)等技術(shù)手段。事后追溯是指當(dāng)發(fā)生數(shù)據(jù)安全事件時(shí),查找泄漏原因和定位泄漏點(diǎn),包括安全審計(jì)、數(shù)據(jù)溯源等技術(shù)手段和應(yīng)急響應(yīng)方案。目前,平臺的安全技術(shù)手段集中于事中的防護(hù),缺乏事前預(yù)警和事后的追溯手段較少。應(yīng)加強(qiáng)數(shù)字水印、數(shù)字指紋、數(shù)據(jù)溯源等技術(shù)的研究和應(yīng)用,研究數(shù)據(jù)血緣追蹤等新技術(shù)在泄漏溯源方面的應(yīng)用方案。建立事前預(yù)警、事中防護(hù)和事后追溯相結(jié)合的整體防護(hù)方案。
當(dāng)前,以 Hadoop 為基礎(chǔ)的大數(shù)據(jù)開源生態(tài)系統(tǒng)應(yīng)用非常廣泛,國內(nèi) Hadoop 已經(jīng)廣泛應(yīng)用于金融、電信、制造、能源以及醫(yī)療健康領(lǐng)域,其安全問題已經(jīng)引起普遍重視。Hadoop安全框架存在不小挑戰(zhàn),一方面,由于Hadoop自身安全機(jī)制依賴Kerberos、非對稱加密的Token認(rèn)證機(jī)制、傳輸加密機(jī)制、基于Linux/Unix系統(tǒng)自帶的訪問控制機(jī)制,在認(rèn)證、訪問、授權(quán)等機(jī)制存在不足;另一方面,Hadoop一般不是獨(dú)立運(yùn)行,而是配合使用生態(tài)系統(tǒng)中的其他組件技術(shù),這些技術(shù)在安全性上缺乏統(tǒng)一的安全措施。Hadoop開源社區(qū)和商業(yè)平臺為Hadoop生態(tài)系統(tǒng)增加了集中安全管理、準(zhǔn)入控制、多因素認(rèn)證、細(xì)粒度訪問控制、密鑰管理、數(shù)據(jù)脫敏、集中審計(jì)等安全機(jī)制,在一定程度上填補(bǔ)了大數(shù)據(jù)平臺的安全空缺,但安全問題依然存在。應(yīng)注意信息安全與網(wǎng)絡(luò)安全并重,建立事前、事中、事后結(jié)合的大數(shù)據(jù)平臺安全防御體系。
[1] Gemalto. Breach-Level-Index-Report-H1-2017-Gemalto[Z]. 2017.
[2] NIST.NIST Big Data Interoperability Framework: Volume 7[Z]. 2017.
[3] WHITE T. Hadoop權(quán)威指南(第二版)[M]. 周敏濤, 五曉玲, 金澈清,等,譯.北京:清華大學(xué)出版社,2011.
[4] 陳璽, 馬修軍, 呂欣. Hadoop生態(tài)體系安全框架綜述[J]. 信息安全研究, 2016, 2(8):684-698.
[5] Hadoop系統(tǒng)框架安全機(jī)制 [EB/OL]. (2017-01-18)http://www.linuxidc.com/Linux/2017-01/139675.html.
[6] Apache Ranger [EB/OL].https://hortonworks.com/apache/ranger/.
[7] 華為技術(shù)有限公司.華為FusionInsight HD 2.6產(chǎn)品_解決方案概述[Z].2016-05-13.
[8] Hadoop安全與隱私保護(hù)[M]. 北京:清華大學(xué)出版社,2017.