趙 皎, 沈明玉, 胡學(xué)鋼, 王正彬
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
一種面向多次發(fā)布的隱私保護(hù)模型
趙 皎, 沈明玉, 胡學(xué)鋼, 王正彬
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
文章提出了一種面向多次發(fā)布的數(shù)據(jù)庫(kù)隱私保護(hù)模型,通過(guò)等價(jià)類的動(dòng)態(tài)調(diào)整來(lái)隱藏?cái)?shù)據(jù)和等價(jià)類間的映射關(guān)系,降低隱私泄露的風(fēng)險(xiǎn)。利用偽數(shù)據(jù)調(diào)節(jié)數(shù)據(jù)的多樣性以滿足匿名規(guī)則的要求,偽數(shù)據(jù)亦可作為噪聲數(shù)據(jù)增加攻擊者的分析難度,提高隱私保護(hù)強(qiáng)度。在UCI數(shù)據(jù)庫(kù)上進(jìn)行的仿真實(shí)驗(yàn)結(jié)果表明,該模型能夠有效減少因多次發(fā)布帶來(lái)的隱私泄露。
隱私保護(hù);匿名規(guī)則;多次發(fā)布;隱私泄露;限制發(fā)布
互聯(lián)網(wǎng)大數(shù)據(jù)背景下利用數(shù)據(jù)發(fā)布提供信息服務(wù)的同時(shí),也帶來(lái)個(gè)體隱私泄露的風(fēng)險(xiǎn)。數(shù)據(jù)庫(kù)隱私保護(hù)技術(shù)已經(jīng)成為信息安全領(lǐng)域的研究熱點(diǎn)。
限制發(fā)布是常用的3種數(shù)據(jù)庫(kù)隱私保護(hù)技術(shù)之一,采用數(shù)據(jù)的匿名化來(lái)實(shí)現(xiàn)隱私保護(hù)[1-7]。近年來(lái),國(guó)內(nèi)外學(xué)者圍繞數(shù)據(jù)匿名化已做了大量研究工作。文獻(xiàn)[5]提出了一種(l,α)-多樣性模型,要求一個(gè)等價(jià)類中敏感值的權(quán)重和不小于α,以避免高敏感度的敏感值出現(xiàn)在同一等價(jià)類中,從而實(shí)現(xiàn)敏感值的均勻分配;文獻(xiàn)[7]提出了一種基于敏感屬性值語(yǔ)義桶分組的t-closeness隱私模型,該模型根據(jù)敏感屬性的層次樹結(jié)構(gòu)對(duì)數(shù)據(jù)表進(jìn)行語(yǔ)義相似性桶分組劃分,然后采用貪心思想生成滿足要求的最小等價(jià)類。該模型在減少信息損失的前提下保護(hù)敏感信息不被泄露。
以上對(duì)匿名化的研究可以有效實(shí)現(xiàn)對(duì)單次發(fā)布數(shù)據(jù)的隱私保護(hù),但是對(duì)多次發(fā)布帶來(lái)的隱私泄露問(wèn)題的解決仍存在不足。目前國(guó)內(nèi)外學(xué)者對(duì)面向多次發(fā)布的數(shù)據(jù)庫(kù)隱私保護(hù)問(wèn)題的研究已取得了一定的成果。文獻(xiàn)[8]引入敏感屬性樹的思想,將敏感屬性逐級(jí)排列,確保敏感屬性多樣性,該模型將敏感屬性進(jìn)行泛化處理,增強(qiáng)了敏感信息的保護(hù)強(qiáng)度,但是沒(méi)有考慮到攻擊者可能通過(guò)分析準(zhǔn)標(biāo)識(shí)符與敏感屬性間的關(guān)聯(lián)關(guān)系而得到某些個(gè)體的隱私信息;文獻(xiàn)[9]結(jié)合局部重編碼泛化方法改進(jìn)匿名算法,提出了一種數(shù)據(jù)重發(fā)布的隱私保護(hù)模型,降低發(fā)布數(shù)據(jù)的信息損失,但是該算法的處理復(fù)雜度較高;文獻(xiàn)[10]首先定義了等價(jià)類的相容性,允許一個(gè)元組同時(shí)存在于2個(gè)等價(jià)類中,增加了數(shù)據(jù)的多樣性,但這也將增加數(shù)據(jù)的冗余性,該方法只給出了數(shù)據(jù)增加時(shí)的處理策略,沒(méi)有給出因多次發(fā)布帶來(lái)的隱私泄露問(wèn)題的解決方法。
針對(duì)上述因多次發(fā)布可能存在隱私泄露的問(wèn)題,本文對(duì)面向多次發(fā)布的隱私保護(hù)模型進(jìn)行研究,模型中引入了動(dòng)態(tài)等價(jià)類及偽數(shù)據(jù)等技術(shù)。
1.1 數(shù)據(jù)庫(kù)隱私保護(hù)相關(guān)概念
(1) 數(shù)據(jù)匿名化。數(shù)據(jù)匿名化是限制發(fā)布技術(shù)中的一個(gè)主要方法,使觀察者通過(guò)發(fā)布的數(shù)據(jù)難以確定敏感屬性和個(gè)體之間的關(guān)聯(lián)關(guān)系,從而保護(hù)個(gè)體的隱私信息。數(shù)據(jù)匿名化一般采用抑制和泛化2種操作實(shí)現(xiàn)。抑制即不發(fā)布某數(shù)據(jù)項(xiàng),泛化即對(duì)數(shù)據(jù)項(xiàng)進(jìn)行更加概括的描述。
(2) 屬性的劃分。在隱私保護(hù)技術(shù)中,數(shù)據(jù)匿名化技術(shù)將數(shù)據(jù)表中的屬性分為標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符和敏感屬性3類。標(biāo)識(shí)符是指能夠直接標(biāo)識(shí)個(gè)體身份的屬性,如姓名等。準(zhǔn)標(biāo)識(shí)符是不能直接標(biāo)識(shí)個(gè)體的身份,但是與其他屬性鏈接可以確定個(gè)體身份的屬性,如年齡、地址等。敏感屬性即描述個(gè)體隱私信息的屬性,如疾病等。
(3) 等價(jià)類。數(shù)據(jù)匿名化需要對(duì)元組的準(zhǔn)標(biāo)識(shí)符進(jìn)行泛化處理,使原本精確的值泛化為抽象的范圍或者更為概括的表達(dá)。經(jīng)泛化后的數(shù)據(jù)表中會(huì)出現(xiàn)準(zhǔn)標(biāo)識(shí)符值相同的元組,將這些準(zhǔn)標(biāo)識(shí)符值完全相同的元組歸為一個(gè)等價(jià)類。同一個(gè)等價(jià)類中的元組除敏感屬性外,所有準(zhǔn)標(biāo)識(shí)符值完全相同,使得攻擊者難以在準(zhǔn)標(biāo)識(shí)符上區(qū)分這些元組,保護(hù)了個(gè)體的隱私信息。
1.2 常用的匿名規(guī)則
(1)k-anonymity。文獻(xiàn)[1]首次提出了k-anonymity匿名規(guī)則,若數(shù)據(jù)表T中任意一個(gè)元組在準(zhǔn)標(biāo)識(shí)符上至少不能和其他k-1個(gè)元組區(qū)分,則稱該數(shù)據(jù)表滿足k-anonymity匿名規(guī)則通過(guò)k個(gè)不可區(qū)分的個(gè)體,使攻擊者不能判別敏感屬性和個(gè)體之間的關(guān)聯(lián)關(guān)系。k-anonymity的缺陷是沒(méi)有對(duì)敏感屬性加以約束,容易受到同質(zhì)攻擊和背景知識(shí)攻擊。
(2)l-diversity。在k-anonymity的基礎(chǔ)上,文獻(xiàn)[2]提出了l-diversity匿名規(guī)則,要求每個(gè)等價(jià)類中不同的敏感屬性值至少有1個(gè)。l-diversity在敏感屬性的多樣性上加以約束,克服了同質(zhì)攻擊。
(3)t-closeness。文獻(xiàn)[3]在k-anonymity和l-diversity的基礎(chǔ)上提出了t-closeness匿名規(guī)則,該匿名規(guī)則要求,所有等價(jià)類中敏感屬性值的分布盡量接近該屬性的全局分布。t-closeness克服了同質(zhì)攻擊和相似攻擊。
2.1 模型的基本思想
本文提出的面向多次發(fā)布的隱私保護(hù)模型是對(duì)傳統(tǒng)隱私保護(hù)模型的改進(jìn),旨在解決因多次發(fā)布帶來(lái)的隱私泄露問(wèn)題。偽數(shù)據(jù)的運(yùn)用可以使本模型能夠有效綜合限制發(fā)布與數(shù)據(jù)失真的技術(shù)特點(diǎn),給發(fā)布的數(shù)據(jù)添加噪聲,增加隱私信息的分析難度,調(diào)節(jié)發(fā)布數(shù)據(jù)的多樣性,提高隱私性。靜態(tài)的等價(jià)類容易造成更新數(shù)據(jù)與等價(jià)類間映射關(guān)系的暴露,本模型引入動(dòng)態(tài)等價(jià)類技術(shù),通過(guò)等價(jià)類的動(dòng)態(tài)調(diào)整和維護(hù)來(lái)隱藏?cái)?shù)據(jù)與等價(jià)類間的映射關(guān)系,增強(qiáng)隱私保護(hù)強(qiáng)度。
2.2 偽數(shù)據(jù)
偽數(shù)據(jù)是一種非真實(shí)的數(shù)據(jù),在本模型中用于調(diào)節(jié)數(shù)據(jù)的多樣性和產(chǎn)生噪聲數(shù)據(jù)。偽數(shù)據(jù)的準(zhǔn)標(biāo)識(shí)符值與其等價(jià)類的準(zhǔn)標(biāo)識(shí)符值相同,根據(jù)偽數(shù)據(jù)的添加目的來(lái)確定它的敏感屬性的取值。除指定的合法用戶外,其他觀察者均不能區(qū)分偽數(shù)據(jù)與真實(shí)數(shù)據(jù),現(xiàn)有的數(shù)據(jù)庫(kù)隱私保護(hù)模型主要采用偽數(shù)據(jù)表來(lái)對(duì)偽數(shù)據(jù)進(jìn)行維護(hù)。偽數(shù)據(jù)表是一張用來(lái)記錄偽數(shù)據(jù)信息的數(shù)據(jù)表,表中包括偽數(shù)據(jù)所在的表名、偽數(shù)據(jù)的ID等屬性。
本文采用偽數(shù)據(jù)表的動(dòng)態(tài)維護(hù),以確保偽數(shù)據(jù)信息的真實(shí)性和實(shí)時(shí)性。為了提高偽數(shù)據(jù)ID的保密性,本模型利用Elgamal數(shù)字加密算法對(duì)其進(jìn)行加密處理,將加密后的密文存入偽數(shù)據(jù)表中。
偽數(shù)據(jù)的數(shù)據(jù)多樣性調(diào)節(jié)和數(shù)據(jù)失真效果增加了攻擊者的分析難度,進(jìn)一步提高了隱私保護(hù)強(qiáng)度。以某一等價(jià)類為例,見表1、表2所列。
表1 某等價(jià)類中的數(shù)據(jù)
表2 沒(méi)有添加偽數(shù)據(jù)的等價(jià)類
表1為某一個(gè)等價(jià)類中的數(shù)據(jù),若ID為4的元組被刪除,如果不添加偽數(shù)據(jù),那么見表2所列。攻擊者通過(guò)分析2個(gè)表之間的差異可以得出被刪除元組敏感屬性“疾病”的值為“肺炎”,并且獲得該元組準(zhǔn)標(biāo)識(shí)符值的取值范圍,結(jié)合已獲得的背景知識(shí)可能確定該元組對(duì)應(yīng)個(gè)體的身份,導(dǎo)致隱私信息泄露。
在本模型中,刪除數(shù)據(jù)時(shí)直接將其轉(zhuǎn)換為偽數(shù)據(jù),此時(shí)表1中ID為4的元組已經(jīng)為偽數(shù)據(jù)。偽數(shù)據(jù)的添加使攻擊者不能分析出2次發(fā)布的數(shù)據(jù)之間的差異,從而避免了因多次發(fā)布數(shù)據(jù)間的關(guān)聯(lián)性帶來(lái)的隱私泄露問(wèn)題。
2.3 動(dòng)態(tài)等價(jià)類
在傳統(tǒng)的隱私保護(hù)模型中,更新某元組后只相應(yīng)更新其所在的等價(jià)類,不處理其他等價(jià)類。數(shù)據(jù)重發(fā)布后,攻擊者通過(guò)分析多次發(fā)布數(shù)據(jù)間的差異,可以很容易分析得到某些隱私信息。在本模型中,某個(gè)等價(jià)類調(diào)整時(shí)也相應(yīng)調(diào)整其他部分等價(jià)類,通過(guò)等價(jià)類的動(dòng)態(tài)調(diào)整隱藏更新數(shù)據(jù)與等價(jià)類間的映射關(guān)系。
在數(shù)據(jù)重發(fā)布之前,對(duì)所有等價(jià)類進(jìn)行維護(hù),完成維護(hù)后判斷各等價(jià)類中是否有元組的更新。若某等價(jià)類中插入了新的數(shù)據(jù),隨機(jī)選擇其他部分等價(jià)類,添加相應(yīng)的偽數(shù)據(jù);若某等價(jià)類的準(zhǔn)標(biāo)識(shí)符值被修改,隨機(jī)修改部分等價(jià)類的準(zhǔn)標(biāo)識(shí)符值,則使攻擊者不能準(zhǔn)確確定更新數(shù)據(jù)所在的等價(jià)類。
1個(gè)簡(jiǎn)單的等價(jià)類更新過(guò)程如圖1所示。
圖1 更新前、更新后(靜態(tài)、動(dòng)態(tài))的等價(jià)類
圖1中的數(shù)據(jù)表有年齡和郵編2個(gè)屬性;e1和e22個(gè)等價(jià)類。更新前的數(shù)據(jù)表添加一個(gè)元組r后,若采用靜態(tài)等價(jià)類,則更新后的等價(jià)類如圖1b所示。攻擊者分析圖1a、圖1b的差異可以很容易地確定添加的元組在等價(jià)類e1中,并且可以得出添加的元組r的年齡的值為a2′-a2,元組r的信息遭到泄露。圖1c所示為采用動(dòng)態(tài)等價(jià)類更新后的結(jié)果,向等價(jià)類e1中添加一個(gè)元組r時(shí),同時(shí)調(diào)整等價(jià)類e2的匿名范圍。攻擊者分析圖1a、圖1c間的差異,得到2個(gè)等價(jià)類均被修改,從而不能確定添加的元組所在的等價(jià)類,隱藏了元組r和等價(jià)類e1間的映射關(guān)系。
原數(shù)據(jù)表中有元組更新時(shí),選擇相應(yīng)的處理策略更新等價(jià)類,定期對(duì)更新后的數(shù)據(jù)進(jìn)行重發(fā)布。數(shù)據(jù)重發(fā)布前,對(duì)所有的等價(jià)類進(jìn)行維護(hù)和調(diào)整,確保重發(fā)布的數(shù)據(jù)滿足規(guī)定的匿名規(guī)則。
3.1 數(shù)據(jù)更新時(shí)的處理策略
插入數(shù)據(jù)時(shí),以數(shù)據(jù)泛化后信息損失最少為原則,選擇一個(gè)等價(jià)類插入數(shù)據(jù),修改該等價(jià)類準(zhǔn)標(biāo)識(shí)符的值;刪除數(shù)據(jù)時(shí),直接將被刪除的數(shù)據(jù)轉(zhuǎn)換為偽數(shù)據(jù);修改數(shù)據(jù)時(shí),首先判斷修改后數(shù)據(jù)的準(zhǔn)標(biāo)識(shí)符值是否超出該等價(jià)類的最大泛化區(qū)間,若沒(méi)有超出則修改該等價(jià)類的準(zhǔn)標(biāo)識(shí)符,若超出最大泛化區(qū)間則從該等價(jià)類中刪除該數(shù)據(jù),選擇一個(gè)使其信息損失最少的等價(jià)類插入。
3.2 等價(jià)類的動(dòng)態(tài)維護(hù)
數(shù)據(jù)多次更新后,可能導(dǎo)致某些等價(jià)類中偽數(shù)據(jù)過(guò)多,數(shù)據(jù)的真實(shí)性降低;或者等價(jià)類的準(zhǔn)標(biāo)識(shí)符匿名范圍過(guò)大,導(dǎo)致數(shù)據(jù)的效用性降低。因此需對(duì)等價(jià)類進(jìn)行動(dòng)態(tài)維護(hù),維護(hù)的方法包括等價(jià)類的分解、取消和合并。
3.2.1 分解等價(jià)類
(1) 分解條件。1個(gè)等價(jià)類中真實(shí)數(shù)據(jù)個(gè)數(shù)大于2k。
(2) 分解方法。刪除所有的偽數(shù)據(jù),將等價(jià)類中真實(shí)數(shù)據(jù)按敏感屬性值分組。分別取各個(gè)桶中1/2的元組組成一個(gè)等價(jià)類,另1/2組成1個(gè)等價(jià)類。
3.2.2 取消等價(jià)類
(1) 取消條件。1個(gè)等價(jià)類中真實(shí)數(shù)據(jù)個(gè)數(shù)小于k/2或不同敏感屬性值個(gè)數(shù)小于1/2。
(2) 取消方法。刪除該等價(jià)類中偽數(shù)據(jù),將真實(shí)數(shù)據(jù)選擇使其信息損失最小的等價(jià)類插入。
3.2.3 合并等價(jià)類
(1) 合并條件。相鄰的2個(gè)等價(jià)類均滿足取消等價(jià)類的條件。
(2) 合并方法。刪除2個(gè)等價(jià)類中的偽數(shù)據(jù),合并2個(gè)等價(jià)類中的真實(shí)數(shù)據(jù),并修改等價(jià)類準(zhǔn)標(biāo)識(shí)符的值。
在數(shù)據(jù)重發(fā)布之前,首先判斷各個(gè)等價(jià)類是否需要維護(hù),若滿足上述等價(jià)類的分解、取消或合并的條件,對(duì)等價(jià)類進(jìn)行相應(yīng)的維護(hù)。在完成等價(jià)類的維護(hù)后,向不滿足匿名要求的等價(jià)類中添加偽數(shù)據(jù),確保所有等價(jià)類均已滿足規(guī)定的匿名規(guī)則后重新發(fā)布數(shù)據(jù)。
本實(shí)驗(yàn)采用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的Adult數(shù)據(jù)集,該數(shù)據(jù)集總共包含32 561行數(shù)據(jù),刪除包含缺失值的數(shù)據(jù)剩余30 725行數(shù)據(jù)。選取其中7個(gè)屬性進(jìn)行實(shí)驗(yàn),將marital-status作為敏感屬性,{age,workclass,education,education-num,race,sex}作為準(zhǔn)標(biāo)識(shí)符。
本實(shí)驗(yàn)從隱私性和多樣性2個(gè)方面將本模型與文獻(xiàn)[7,9]提出的方法進(jìn)行對(duì)比分析。文獻(xiàn)[7]是對(duì)t-closeness隱私保護(hù)模型的改進(jìn),主要是對(duì)單次發(fā)布的數(shù)據(jù)進(jìn)行隱私保護(hù)。文獻(xiàn)[9]對(duì)局部重編碼泛化算法進(jìn)行了改進(jìn),旨在解決多次發(fā)布帶來(lái)的隱私泄露問(wèn)題。
4.1 隱私性分析
本實(shí)驗(yàn)通過(guò)計(jì)算隱私信息泄露的比例來(lái)分析隱私保護(hù)的強(qiáng)度。實(shí)驗(yàn)方法如下:① 從Adult數(shù)據(jù)集選取20 000行數(shù)據(jù)進(jìn)行匿名泛化后首次發(fā)布;② 分別對(duì)已發(fā)布的數(shù)據(jù)進(jìn)行插入、刪除和修改處理,涉及的數(shù)據(jù)均為200行;③ 數(shù)據(jù)重新發(fā)布;④ 對(duì)多次發(fā)布的數(shù)據(jù)進(jìn)行人工分析,計(jì)算隱私泄露的比例,結(jié)果如圖2所示。
圖2 多次插入數(shù)據(jù)、刪除數(shù)據(jù)及修改數(shù)據(jù)后隱私信息被泄露比例
從圖2可以看出,由于文獻(xiàn)[7]沒(méi)有給出針對(duì)多次發(fā)布隱私泄露問(wèn)題的處理策略,隨著發(fā)布次數(shù)的增多,隱私泄露比例迅速增大。文獻(xiàn)[9]雖然針對(duì)多次發(fā)布隱私泄露問(wèn)題給出了處理策略,但是其采用的是靜態(tài)等價(jià)類,多次發(fā)布后數(shù)據(jù)間的差異會(huì)明顯增多,隱私泄露也會(huì)明顯增多。本模型中動(dòng)態(tài)等價(jià)類技術(shù)可以有效隱藏?cái)?shù)據(jù)與等價(jià)類間的映射關(guān)系,增加隱私信息的分析難度;偽數(shù)據(jù)作為噪聲數(shù)據(jù)給攻擊者增加干擾,有效減少多次發(fā)布帶來(lái)的隱私泄露比例。
4.2 多樣性分析
發(fā)布數(shù)據(jù)的多樣性越高,即等價(jià)類中數(shù)據(jù)的相異程度越高,攻擊者分析隱私信息的難度就越大,數(shù)據(jù)的隱私性越強(qiáng)。對(duì)于多樣性的度量,實(shí)驗(yàn)參考了文獻(xiàn)[11]給出的數(shù)據(jù)表平均多樣性的度量公式,即
(1)
D(Ε)=distinct(Ε)+ωH(Ε)
(2)
其中,distinct(E)為等價(jià)類E中敏感屬性值的種類個(gè)數(shù);H(E)為等價(jià)類E中敏感值的相異程度;ω為發(fā)布者自定義的權(quán)值;D(E)為等價(jià)類E多樣性的大小(下文均簡(jiǎn)稱多樣性);DOT(T)為數(shù)據(jù)表T的多樣性。l的值表示等價(jià)類中敏感屬性值的種類個(gè)數(shù),l越大,distinct(E)的值越大,數(shù)據(jù)表的平均多樣性就越大。利用(1)式、(2)式計(jì)算l取不同值時(shí)使用以上3種方法發(fā)布數(shù)據(jù)的多樣性,計(jì)算結(jié)果如圖3所示。
圖3 不同l值下數(shù)據(jù)表多樣性的比較
由圖3可以看出,隨著l的增大發(fā)布數(shù)據(jù)的多樣性均會(huì)逐漸增大。在l相同的情況下,由于文獻(xiàn)[7,9]中的方法沒(méi)有采用偽數(shù)據(jù),發(fā)布數(shù)據(jù)的多樣性比本模型中發(fā)布數(shù)據(jù)的多樣性低。在本模型中,數(shù)據(jù)更新后會(huì)添加相應(yīng)的偽數(shù)據(jù)來(lái)調(diào)節(jié)發(fā)布數(shù)據(jù)的多樣性。
為解決多次發(fā)布帶來(lái)的隱私泄露問(wèn)題,本文基于限制發(fā)布技術(shù)提出了一個(gè)面向多次發(fā)布的數(shù)據(jù)庫(kù)隱私保護(hù)模型。模型引入了動(dòng)態(tài)等價(jià)類和偽數(shù)據(jù)等技術(shù),并對(duì)數(shù)據(jù)更新給出相應(yīng)的處理策略。偽數(shù)據(jù)不僅調(diào)節(jié)數(shù)據(jù)多樣性,還作為噪聲數(shù)據(jù)給攻擊者增加干擾。等價(jià)類的動(dòng)態(tài)調(diào)整和維護(hù)有效隱藏了數(shù)據(jù)與等價(jià)類間的映射關(guān)系,有效降低了多次發(fā)布帶來(lái)的隱私泄露風(fēng)險(xiǎn)。后續(xù)將針對(duì)處理開銷及信息損失較大等問(wèn)題進(jìn)行進(jìn)一步研究。
[1] SWEENEY L.Achievingk-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002,10(5):571-588.
[2] MACHANAVAJJHALA A,KIFER D,GEHRKE J,et al.l-diversity:privacy beyondk-anonymity[J].Acm Transactions on Knowledge Discovery from Data,2007,1(1):24.
[3] LI N,LI T,VENKATASUBRAMANIAN S.t-closeness:privacy beyondk-anonymity andl-diversity[C]//IEEE 23rd International Conference on.Data Engineering,2007.ICDE 2007.[S.l.]:IEEE,2007:106-115.
[4] 周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫(kù)應(yīng)用的隱私保護(hù)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2009,32(5):847-861.
[5] SUN Xiaoxun,LI Min,WANG Hua.A family of enhanced (L,alpha)-diversity models for privacy preserving data publishing.[J].Future Generation Computer Systems the International Journal of Grid Computing Theory Methods & Applications,2011,27(3):348-356.
[6] LIU J,WANG K.On optimal anonymization forl-diversity[C]//2010 IEEE 26th International Conference on.Data Engineering (ICDE).[S.l.]:IEEE,2010:213-224.
[7] 張健沛,謝靜,楊靜,等.基于敏感屬性值語(yǔ)義桶分組的t-closeness隱私模型[J].計(jì)算機(jī)研究與發(fā)展,2014,51(1):126-137.
[8] ZHAO Y,WANG J,ZHU Q S,et al.A novel privacy preserving model for datasets re-publication[J].Advanced Materials Research,2010,108/109/110/111:1433-1438.
[9] 武毅,王丹,蔣宗禮.基于事務(wù)型k-anonymity的動(dòng)態(tài)集值屬性數(shù)據(jù)重發(fā)布隱私保護(hù)方法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(增刊1):248-256.
[10] BYUN J W,SOHN Y,BERTINO E,et al.Secure anonymization for incremental datasets[J].Third Vldb Workshop on Secure Data Management,2006:48-63.
[11] 韓建民,于娟,虞慧群,等.面向數(shù)值型敏感屬性的分級(jí)l-多樣性模型[J].計(jì)算機(jī)研究與發(fā)展,2011,48(1):147-158.
Aprivacyprotectionmodelfordatare-publication
ZHAO Jiao, SHEN Mingyu, HU Xuegang, WANG Zhengbin
(School of Computer and Information, Hefei University of Technology, Hefei 230009, China)
A privacy protection model for data re-publication is put forward. The mapping relations between data and equivalent classes are hidden by adjusting equivalence classes dynamically, which can reduce the risk of privacy leakage. Pseudo data is used to adjust data diversity to meet the diversity requirement of anonymous rules, and to increase the difficulty of analysis for attackers as noise data. The results of the experiments on the UCI database show that under the premise of improving the diversity of the released data, this model can effectively reduce the privacy disclosure risks caused by the multiple releases.
privacy protection; anonymous rule; data re-publication; privacy disclosure; limited release
2016-03-03;
2016-04-20
國(guó)家自然科學(xué)基金資助項(xiàng)目(61273292)
趙 皎(1990-),女,河北石家莊人,合肥工業(yè)大學(xué)碩士生; 沈明玉(1962-),男,江蘇興化人,博士,合肥工業(yè)大學(xué)副教授,碩士生導(dǎo)師,通訊作者,E-mail:shenmy@126.com; 胡學(xué)鋼(1961-),男,安徽當(dāng)涂人,博士,合肥工業(yè)大學(xué)教授,博士生導(dǎo)師.
10.3969/j.issn.1003-5060.2017.10.008
TP393
A
1003-5060(2017)10-1338-05
(責(zé)任編輯 張 镅)