劉 東,任海玲
(1.寧夏醫(yī)科大學(xué)理學(xué)院,寧夏 銀川 750004;2.寧夏醫(yī)科大學(xué),寧夏 銀川 750004)
在大數(shù)據(jù)時(shí)代,社會(huì)中各行各業(yè)的數(shù)據(jù)規(guī)模都呈現(xiàn)出翻倍式的增長(zhǎng)趨勢(shì)。大數(shù)據(jù)本身是指一種無法在一定的時(shí)間范圍中,利用常規(guī)的軟件工具對(duì)其進(jìn)行捕捉、處理以及管理的數(shù)據(jù)集合,需要采用全新的處理方式,這樣才具備更強(qiáng)的洞察發(fā)現(xiàn)力、決策能力,從而獲取多樣化、高增長(zhǎng)與海量?jī)?yōu)化的信息資源[1]。大數(shù)據(jù)的主要特點(diǎn)為:真實(shí)性、低價(jià)值密度、多樣性、高速以及大量五個(gè)特點(diǎn)。通過這五個(gè)特點(diǎn)可以從理論、技術(shù)以及實(shí)踐方面對(duì)大數(shù)據(jù)進(jìn)行分析,其中,理論方面是指對(duì)于大數(shù)據(jù)認(rèn)知的途徑,同樣也是被廣泛認(rèn)同以及傳播的基線;技術(shù)方面是指怎樣通過某些價(jià)值的體現(xiàn);而實(shí)踐方面則是大數(shù)據(jù)的最終體現(xiàn)價(jià)值手段[2]。
不過隨著大數(shù)據(jù)的使用者越來越多,難免會(huì)引起一些不法分子的注意,他們通過入侵或者是一些其它非法手段,利用大數(shù)據(jù)對(duì)個(gè)人用戶或者企業(yè),甚至是社會(huì)、國家等,造成不可挽回的損失,因此,在實(shí)現(xiàn)對(duì)大數(shù)據(jù)的集中之后,怎么保證網(wǎng)絡(luò)數(shù)據(jù)信息的保密性、可用性以及完整性,已經(jīng)變成目前各個(gè)領(lǐng)域需要考慮的核心問題。而按照安全的防護(hù)技術(shù)可以分為:大數(shù)據(jù)應(yīng)用訪問控制、大數(shù)據(jù)資產(chǎn)梳理、大數(shù)據(jù)脆弱性檢測(cè)、大數(shù)據(jù)脫敏系統(tǒng),大數(shù)據(jù)安全審計(jì)等,以現(xiàn)有安全防護(hù)手段為基礎(chǔ),楊理皓[3]等提出基于差分隱私機(jī)制的位置數(shù)據(jù)隱私保護(hù)方法,該方法通過建立多級(jí)查詢樹,使用差分隱私的指數(shù)機(jī)制來選取訪問頻率高的內(nèi)容項(xiàng),然后對(duì)其進(jìn)行加噪,實(shí)現(xiàn)對(duì)位置數(shù)據(jù)隱私的加密保護(hù)。分析實(shí)驗(yàn)結(jié)果可知,該方法的數(shù)據(jù)覆蓋面較廣,但是由于數(shù)據(jù)量較大,導(dǎo)致認(rèn)證時(shí)間較長(zhǎng)。毛典輝[4]等提出基于DCGAN反饋的深度差分隱私保護(hù)方法,該方法在分析差分隱私特點(diǎn)的基礎(chǔ)上,計(jì)算深度網(wǎng)絡(luò)中每一層的隱私預(yù)算,在隨機(jī)梯度下降計(jì)算中添加高斯噪聲,將總體隱私預(yù)算降至最小值,并選取最優(yōu)結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)γ舾行暂^高的信息實(shí)施隱私保護(hù),但是無法同時(shí)處理大量數(shù)據(jù),所需時(shí)間較長(zhǎng)。
針對(duì)現(xiàn)有方法存在的問題,提出一種基于差分隱私的大數(shù)據(jù)安全訪問權(quán)限認(rèn)證方法,通過該方法保護(hù)用戶訪問大數(shù)據(jù)信息安全。
差分隱私主要是利用添加噪聲的方式對(duì)起始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)或者擾動(dòng)轉(zhuǎn)換,以此達(dá)到隱藏保護(hù)的作用。
給定兩個(gè)最多相差一條記錄的數(shù)據(jù)集D1和D2,用f代表隨機(jī)算法,rangef代表算法f全部輸出所組成的集合,S代表range(f)的子集。如果算法f要滿足式(1),那么算法f存在ε-差分的隱私性
Pr[f(D1)∈S]≤eε×Pr[f(D2)∈S]
(1)
式中:ε代表隱私保護(hù)的預(yù)算,可以表示算法隱私的保護(hù)水平,若ε取值越小,那么隱私保護(hù)的水平就越高。
拉普拉斯Laplace噪聲機(jī)制為差分隱私保護(hù)中最常用的方法之一,此機(jī)制主要用于數(shù)值型的數(shù)據(jù)隱私保護(hù),將利用拉普拉斯生成的噪聲添加至輸出值內(nèi),完成數(shù)據(jù)差分的隱私保護(hù)。
1)相對(duì)于隨意的一個(gè)函數(shù)f:D→Rd,如果算法Y滿足式(2),那么稱Y可以滿足ε-差分隱私公式為:
Y(D)=f(D)+[Lap1(Δf/ε),…,Lapd(Δf/ε)]
(2)
式中,函數(shù)Lapi(Δf/ε)(1≤i≤d)代表拉普拉斯的密度函數(shù),Δf=maxD1,D2|f(D1)-f(D2)|代表函數(shù)f(D)查詢的敏感度。D1,D2代表不同的數(shù)據(jù)集,d代表查詢的維度[5]。
2)對(duì)于隨意的一個(gè)函數(shù)f:D→Rd,其算法f全局的敏感性表達(dá)式為
Δf=maxf(D1)-f(D2)p
(3)
式中:D1與D2最多相差一條記錄;R代表映射實(shí)數(shù)的空間;p代表度量Δf所使用的時(shí)間。
經(jīng)過以上所述可知,Laplace機(jī)制能夠很好維持?jǐn)?shù)據(jù)的統(tǒng)計(jì)特性,使其更加適合數(shù)值型的聚類分析[6]。
為了驗(yàn)證算法是否可以滿足差分隱私,要滿足以下的差分隱私組合的特性:并列的組合性以及序列的組合性。
1)給定數(shù)據(jù)庫D和n個(gè)隨機(jī)算法fi,并且fi能夠滿足εi-差分隱私,則fi(D)序列組合可以滿足ε-差分隱私。
2)將給定的數(shù)據(jù)庫D分成n個(gè)完全不相交的子集D={D1,D2,…Dn},如果任意fi能夠滿足ε-差分隱私,那么序列fi在D={D1,D2,…Dn}上面的操作結(jié)果仍然需要滿足ε-差分隱私條件。
權(quán)限涉及到的約束如下所示:
1)登錄時(shí)間約束公式為
T1∈(Ts,Te)
(4)
式中,Ts代表初始時(shí)間;Te代表結(jié)束時(shí)間。登錄的時(shí)間段要在初始時(shí)間至結(jié)束時(shí)間的約束區(qū)間范圍之內(nèi),且登錄的時(shí)間不可與初始時(shí)間與結(jié)束的時(shí)間相等。
2)登錄次數(shù)約束公式為
Nl=[0,Nlt]
(5)
式中,Nlt代表登錄次數(shù)閾值。登錄的次數(shù)要在0次與登錄的次數(shù)閾值約束區(qū)間的范圍之內(nèi),且登錄的次數(shù)可以與0或者是登錄次數(shù)的閾值相等。
3)登錄時(shí)間約束公式為
Tln-Tll>Tli
(6)
式(6)表示該次登錄的時(shí)間和上一次的登錄時(shí)間差要超出登錄的時(shí)間閾值。
4)查詢結(jié)果數(shù)約束公式為
Tll=[0,Tln]
(7)
式中,Tln代表查詢結(jié)果個(gè)數(shù)閾值。數(shù)據(jù)查詢的結(jié)果個(gè)數(shù)要在0次與查詢結(jié)果個(gè)數(shù)的閾值約束區(qū)間范圍之內(nèi),且查詢的結(jié)果個(gè)數(shù)可以為0或者與查詢結(jié)果個(gè)數(shù)閾值相等[7]。
5)查詢時(shí)間約束公式為
Nq∈[0,Nqt]
(8)
式中,Nqt代表查詢次數(shù)閾值。查詢的次數(shù)要在0次與查詢的次數(shù)閾值約束區(qū)間的范圍之內(nèi),且查詢的次數(shù)可以為0或者與查詢次數(shù)的閾值相等。
6)查詢次數(shù)約束公式為
Tqn-Tql>Tqi
(9)
式(9)表示該次查詢的時(shí)間和上次查詢的時(shí)間差要超出查詢的時(shí)間閾值。
Tql=Tqn
(10)
該次查詢結(jié)束以后,上一次的查詢時(shí)間自動(dòng)更新成該次查詢的時(shí)間[8]。
以大數(shù)據(jù)安全訪問權(quán)限約束條件為基礎(chǔ),設(shè)置大數(shù)據(jù)標(biāo)簽和標(biāo)識(shí),通過對(duì)大數(shù)據(jù)擁有者或生產(chǎn)者貼上標(biāo)識(shí),并對(duì)訪問大數(shù)據(jù)的對(duì)象貼上標(biāo)簽,實(shí)現(xiàn)初步認(rèn)證。
標(biāo)識(shí):主要是數(shù)據(jù)擁有者或者生產(chǎn)者定義的記號(hào),主要用來代表數(shù)據(jù)具有隱私信息的類型。
標(biāo)簽:主要代表被標(biāo)注的對(duì)象安全等級(jí),各個(gè)標(biāo)簽l全是通過標(biāo)識(shí)構(gòu)成的集合,代表被標(biāo)注的實(shí)體具有每個(gè)隱私的信息類型,為J子集。利用L代表全部標(biāo)簽構(gòu)成的集合L=J。
實(shí)體:主要是被標(biāo)簽所標(biāo)注的對(duì)象,利用L′代表全部實(shí)體集合,將p設(shè)成全部進(jìn)程形成的集合,L′=p∪D。
大數(shù)據(jù)內(nèi)為各個(gè)實(shí)體標(biāo)注的標(biāo)簽:進(jìn)程的標(biāo)簽Lp代表進(jìn)程p的安全等級(jí),而數(shù)據(jù)標(biāo)簽Ld代表數(shù)據(jù)d的安全等級(jí)[9]。
隨意給定兩個(gè)標(biāo)簽L1與L2,若L1包含L2(公式L1?L2成立),代表標(biāo)簽L2要比標(biāo)簽L1包括更多隱私的信息標(biāo)識(shí),表示被L2所標(biāo)注實(shí)體存在更高隱私性的等級(jí)。當(dāng)L1?L2成立時(shí),允許L1標(biāo)簽流向L2標(biāo)簽。
利用符號(hào)“→”代表允許實(shí)體之間信息的流動(dòng),那么以上的規(guī)則的具體公式為
?d,e∈L,L1,L2∈L
Ld=L1∧Le=L2∧L1?L2?d→e
(11)
將標(biāo)識(shí)的集合設(shè)成J={x,y,z},即L的形成過程具體如圖1所示。
圖1 具體的形成流程
在圖1內(nèi),最低的安全級(jí)別是?,最高的級(jí)別是{x,y,z}。
大數(shù)據(jù)的訪問權(quán)限授權(quán)條件屬于數(shù)據(jù)的所有者,數(shù)據(jù)處于特定外部條件時(shí)能夠被進(jìn)程所訪問,因此,利用判定謂詞集合代表方位權(quán)限,全部訪問權(quán)限條件所形成的集合可以利用pc表示。
而對(duì)于標(biāo)識(shí)t∈J,對(duì)數(shù)據(jù)的擁有者或者是生產(chǎn)者設(shè)置的兩種訪問權(quán)限的授權(quán)條件分別為:讀授權(quán)條件t+以及寫授權(quán)條件t-,其中,讀授權(quán)條件t+代表進(jìn)程讀取存在標(biāo)識(shí)是t數(shù)據(jù)能夠滿足的需求,而寫授權(quán)條件t-代表進(jìn)程消密存在標(biāo)識(shí)是t數(shù)據(jù)要滿足的需求。具體需求為[10]:
1)用戶要求必須是本人;
2)簽名要求必須是此用戶的簽名;
3)時(shí)間要求必須是特定的時(shí)間段。
從進(jìn)程集合一直到訪問授權(quán)條件的集合關(guān)系?為:
因此,現(xiàn)對(duì)于訪問讀授權(quán)條件與寫授權(quán)條件,二者分別有以下規(guī)則:
(12)
(13)
為了能夠更好的表達(dá)訪問授權(quán)條件和數(shù)據(jù)流動(dòng)二者之間的關(guān)系,需要對(duì)訪問授權(quán)條件進(jìn)行以下擴(kuò)展:
先定義標(biāo)簽的訪問讀授權(quán)條件集合為“+”,相對(duì)于隨意的標(biāo)簽l,l+={t+|t∈l}是利用標(biāo)簽l內(nèi)全部隱私類型的標(biāo)識(shí)t訪問讀授權(quán)條件構(gòu)成的集合,而定義標(biāo)簽的訪問寫授權(quán)條件集合為“-”,相對(duì)于隨意標(biāo)簽l,l-={t-|t∈l}。則存在以下規(guī)則
(14)
(15)
大數(shù)據(jù)所有者經(jīng)過正確設(shè)置t+與t-兩個(gè)訪問授權(quán)條件,即可對(duì)自身大數(shù)據(jù)完成傳輸以及訪問權(quán)限認(rèn)證的保護(hù)[11]。
為了驗(yàn)證所提方法的有效性,利用所提方法和基于差分隱私機(jī)制的位置數(shù)據(jù)隱私保護(hù)方法和基于DCGAN反饋的深度差分隱私保護(hù)方法對(duì)實(shí)體用戶想要訪問的數(shù)據(jù)進(jìn)行分類分層處理,再給定用戶想要數(shù)據(jù)的文件屬性個(gè)數(shù),將其完成分類以后,對(duì)比兩種方法占用系統(tǒng)的存儲(chǔ)空間情況,結(jié)果如表1所示。
表1 大數(shù)據(jù)屬性的分類分層空間占用情況
通過表1能夠看出,基于差分隱私機(jī)制的位置數(shù)據(jù)隱私保護(hù)方法和基于DCGAN反饋的深度差分隱私保護(hù)方法對(duì)于系統(tǒng)空間的占用要明顯比所提方法大,在大數(shù)據(jù)文件的分類屬性集合增加到50個(gè)時(shí),基于差分隱私機(jī)制的位置數(shù)據(jù)隱私保護(hù)方法要比所提方法高出50%以上,說明現(xiàn)有方法在大數(shù)據(jù)安全訪問權(quán)限認(rèn)證過程中對(duì)空間的損耗嚴(yán)重。
具體加密與解密過程如表2所示。
表2 大數(shù)據(jù)加密與加密的計(jì)算結(jié)果
通過表2能夠看出,所提方法加密與解密速度要比基于差分隱私機(jī)制的位置數(shù)據(jù)隱私保護(hù)方法加密與解密速度快,說明所提方法的性能更優(yōu)。
因?yàn)橹黧w的用戶訪問個(gè)數(shù)逐漸增加,所以設(shè)定數(shù)據(jù)量大小不相等情況,利用所提方法和基于差分隱私機(jī)制的位置數(shù)據(jù)隱私保護(hù)方法和基于DCGAN反饋的深度差分隱私保護(hù)方法對(duì)數(shù)據(jù)的訪問權(quán)限時(shí)間進(jìn)行對(duì)比,具體訪問權(quán)限的時(shí)間曲線如圖2所示。
圖2 數(shù)據(jù)的訪問權(quán)限認(rèn)證時(shí)間對(duì)比
通過圖2能夠看出,用戶訪問的數(shù)據(jù)文件大小相等時(shí),采用基于差分隱私機(jī)制的位置數(shù)據(jù)隱私保護(hù)方法和基于DCGAN反饋的深度差分隱私保護(hù)方法的認(rèn)證訪問權(quán)限時(shí)間,要比所提方法的認(rèn)證訪問時(shí)間長(zhǎng),因?yàn)樵L問的時(shí)間變長(zhǎng),會(huì)導(dǎo)致大數(shù)據(jù)的安全性降低,因此,通過以上的訪問時(shí)間長(zhǎng)度比較結(jié)果,證明所提方法對(duì)于大數(shù)據(jù)中心的數(shù)據(jù)資源訪問安全性較高,效果良好。
所提方法通過對(duì)大數(shù)據(jù)訪問權(quán)限認(rèn)證的方式保護(hù)大數(shù)據(jù)的安全,仿真結(jié)果證明所提方法的大數(shù)據(jù)資源訪問認(rèn)證效果較好,安全性比較高。不過由于大數(shù)據(jù)技術(shù)未來的發(fā)展空間無限,所以一些不法分子會(huì)時(shí)刻想要利用大數(shù)據(jù)獲取企業(yè)、個(gè)人,甚至是國家的信息,通過這些信息進(jìn)行一些不法的活動(dòng),因此要進(jìn)一步對(duì)大數(shù)據(jù)的訪問安全問題進(jìn)行研究,提升保護(hù)手段。