大數(shù)據(jù)匿名化隱私保護(hù)技術(shù)綜述

2019-05-24 14:21:16馬靜

無線互聯(lián)科技 2019年2期

馬靜

摘要：伴隨著網(wǎng)絡(luò)化與信息化的發(fā)展，信息呈“爆炸式”增長，大數(shù)據(jù)時(shí)代正悄無聲息到來。大數(shù)據(jù)在影響人們吃穿住行的同時(shí)，也讓人們陷入了隱私危機(jī)。匿名化技術(shù)是在數(shù)據(jù)發(fā)布過程中進(jìn)行隱私保護(hù)的一項(xiàng)重要技術(shù)。文章通過查閱大量文獻(xiàn)，首先簡要地概述了大數(shù)據(jù)隱私危機(jī)現(xiàn)狀；接著總結(jié)了常見的隱私攻擊方法及與抗衡的匿名模型及其實(shí)現(xiàn)方法與技術(shù)；然后討論了匿名化質(zhì)量的度量方法；最后總結(jié)并說明下一步的研究方向。

關(guān)鍵詞：大數(shù)據(jù)；隱私保護(hù)；匿名化

隨著互聯(lián)網(wǎng)及云計(jì)算等技術(shù)的迅猛發(fā)展，全球數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)增長。預(yù)計(jì)2020年全球數(shù)據(jù)將會(huì)增加50倍以上。在大數(shù)據(jù)時(shí)代背景下，通過人工智能與數(shù)據(jù)挖掘發(fā)現(xiàn)事物運(yùn)行規(guī)律與趨勢(shì)，可以很好地幫助管理者進(jìn)行決策。與此同時(shí)，個(gè)人數(shù)據(jù)能被更容易地獲取和更廣泛地傳播，而侵犯個(gè)人隱私權(quán)的行為卻難以察覺。這一“易”和一“難”，導(dǎo)致通過電子信息渠道泄露隱私的事件在全球范圍內(nèi)層出不窮，事件涉及的公司既有擁有大量的大數(shù)據(jù)IT行業(yè)巨頭，也包括某一領(lǐng)域的新興大數(shù)據(jù)服務(wù)公司[1]。如何在保證數(shù)據(jù)高可用性的情況下，不泄露數(shù)據(jù)主體的隱私信息，已引起國內(nèi)外研究人員的關(guān)注。

1 大數(shù)據(jù)隱私概述

1.1 大數(shù)據(jù)隱私的定義

傳統(tǒng)隱私是指一種同公共利益、群體利益無關(guān)，個(gè)人不愿外界干涉的個(gè)人私密和個(gè)人不愿意外界介入或不便介入的個(gè)人領(lǐng)域[2]。大數(shù)據(jù)隱私是對(duì)傳統(tǒng)隱私的一種繼承與發(fā)展，以數(shù)據(jù)化形式存在，與公共或群體利益無關(guān)的，在未被告知的情況下不愿被他人利用的個(gè)人信息[3]。

1.2 大數(shù)據(jù)隱私危機(jī)

1.2.1 “隱私”將不再“隱私”

隨著大數(shù)據(jù)云服務(wù)推廣及應(yīng)用，人們已習(xí)慣將數(shù)據(jù)存于云端，自己也不清楚數(shù)據(jù)的存儲(chǔ)位置[4]。在社交網(wǎng)絡(luò)上，人們?cè)絹碓蕉嗟刂鲃?dòng)公開發(fā)表自己的觀點(diǎn)，甚至包括那些他們?cè)?jīng)不愿公開的事情，使得公開個(gè)人數(shù)據(jù)成為用戶自愿并且日?；男袨閇5]。移動(dòng)應(yīng)用使個(gè)人數(shù)據(jù)信息高度個(gè)人化，數(shù)據(jù)信息的收集無所不在?；ヂ?lián)網(wǎng)的開放性及高速傳播性，使得一條誤發(fā)信息在一秒鐘被成千上萬人看到成為可能。

1.2.2 “隱私”產(chǎn)生經(jīng)濟(jì)

據(jù)華爾街日?qǐng)?bào)報(bào)道：許多公司通過各種應(yīng)用軟件收集用戶的個(gè)人數(shù)據(jù)，并被用作進(jìn)一步跟蹤和預(yù)測(cè)用戶行為；一些微博會(huì)收集微博用戶發(fā)布的信息，如關(guān)注、偏好、地理位置等信息，以便于在用戶個(gè)人頁面投放相應(yīng)的廣告。在大數(shù)據(jù)時(shí)代，正如斯皮內(nèi)洛所說：“信息已然成為一種商品”，這必然會(huì)促使相關(guān)的企業(yè)采用先進(jìn)的大數(shù)據(jù)技術(shù)對(duì)海量個(gè)人數(shù)據(jù)進(jìn)行采集和挖掘。

1.2.3 大數(shù)據(jù)技術(shù)加重隱私危機(jī)

“在互聯(lián)網(wǎng)上沒有人知道你是一條狗”[6]的時(shí)代已經(jīng)一去不復(fù)返，大數(shù)據(jù)應(yīng)用技術(shù)充分實(shí)現(xiàn)了海量數(shù)據(jù)的使用價(jià)值，但在發(fā)揮其作用的同時(shí)也加重了隱私危機(jī)。數(shù)字化全面監(jiān)控使隱私日趨透明化。數(shù)據(jù)在深度挖掘過程中，通過二次甚至多次數(shù)據(jù)利用，在獲得更多數(shù)據(jù)價(jià)值的同時(shí)，網(wǎng)絡(luò)用戶的個(gè)人隱私將被更大范圍地披露。大數(shù)據(jù)預(yù)測(cè)造成隱私被預(yù)測(cè)。

2 大數(shù)據(jù)生命周期的隱私風(fēng)險(xiǎn)分析及挑戰(zhàn)

大數(shù)據(jù)處理生命周期包括了數(shù)據(jù)發(fā)布、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)使用4個(gè)階段，而每個(gè)階段都存在隱私泄露和被使用的高風(fēng)險(xiǎn)。

2.1 數(shù)據(jù)發(fā)布

在大數(shù)據(jù)時(shí)代，各方發(fā)布的數(shù)據(jù)有著動(dòng)態(tài)、針對(duì)同一用戶的數(shù)據(jù)來源眾多、數(shù)據(jù)信息量大等特點(diǎn)，因此，如何在數(shù)據(jù)發(fā)布時(shí)，在保證數(shù)據(jù)可用的同時(shí)，能夠高效、可靠地去掉可能泄露隱私的數(shù)據(jù)信息是一項(xiàng)巨大的挑戰(zhàn)。

2.2 數(shù)據(jù)存儲(chǔ)

大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)一般采用云存儲(chǔ)。云存儲(chǔ)的特點(diǎn)是把數(shù)據(jù)放到不確定的存儲(chǔ)池里，而沒有放到本地?cái)?shù)據(jù)中心或?qū)Ｓ眠h(yuǎn)程站點(diǎn)[7]。因此，大數(shù)據(jù)的存儲(chǔ)者和擁有者是彼此分離的，各云存儲(chǔ)服務(wù)提供商的信用度參差不齊，用戶的數(shù)據(jù)面臨著被不可信的第三方偷窺或篡改的風(fēng)險(xiǎn)。

2.3 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的有價(jià)值信息的過程。雖然數(shù)據(jù)在數(shù)據(jù)發(fā)布時(shí)會(huì)進(jìn)行匿名化等技術(shù)處理，但數(shù)據(jù)挖掘技術(shù)通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別諸多方法，依然可以分析出用戶的隱私[8]。

2.4 數(shù)據(jù)使用

通過數(shù)據(jù)挖掘，大數(shù)據(jù)更多有價(jià)值的信息被提煉出來，它們用來改善人們的生活，為企業(yè)增加利潤，但是它們又面臨著4W風(fēng)險(xiǎn)，即何時(shí)（When）、何地（Where）、何人（Who）、能訪問什么樣性質(zhì)的數(shù)據(jù)（What）的風(fēng)險(xiǎn)。

3 大數(shù)據(jù)匿名化隱私保護(hù)技術(shù)

3.1 匿名化概述

匿名的概念由Samarati等[9]于1998年首次提出，匿名化技術(shù)是指在數(shù)據(jù)發(fā)布階段，通過一定的技術(shù)，將數(shù)據(jù)擁有者的個(gè)人信息及敏感屬性的明確標(biāo)識(shí)符刪除或修改，從而無法通過數(shù)據(jù)確定到具體的個(gè)人。使用數(shù)據(jù)匿名技術(shù)有效地實(shí)現(xiàn)了大數(shù)據(jù)發(fā)布隱私保護(hù)（Privacy Preserving Data Publishing，PPDP）[10]功能，其匿名化流程如圖1所示。

傳統(tǒng)數(shù)據(jù)發(fā)布中數(shù)據(jù)表可歸納為如（1）所示的關(guān)系R，其中UID是顯示標(biāo)識(shí)符，可具體指示所屬個(gè)體，標(biāo)志著個(gè)體的身份信息。QID是準(zhǔn)標(biāo)識(shí)符，是一個(gè)可以潛在確認(rèn)個(gè)體屬性的集合，它雖然無法唯一標(biāo)識(shí)個(gè)體身份，但可被攻擊者利用鏈接攻擊或背景知識(shí)攻擊等多種方式推斷出個(gè)體身份。SA是敏感屬性，是信息所有者不愿意公開的私密信息，是不能被泄露。NQID是普通標(biāo)識(shí)符，而NSA是非敏感屬性。

R（UID，QID1，QID2…..，NQID，NQID2…..，SA1，SA2…..，NSA1，NSA2…..）（1）

匿名化技術(shù)處理主要從兩方面進(jìn)行隱私保護(hù)，一是去掉顯式標(biāo)識(shí)符，二是將準(zhǔn)標(biāo)識(shí)符匿名化，也就是將關(guān)系R修改為：

R（QID1，QID2…..，NQID，NQID2…..，SA1，SA2….. ，NSA1，NSA2…..）（2）

綜上所述，“匿名化”過程其實(shí)質(zhì)就是對(duì)準(zhǔn)標(biāo)識(shí)符匿名化，對(duì)能夠直接暴露身份的顯示標(biāo)識(shí)符直接隱匿掉。

3.2 常見的隱私攻擊方法

隱私攻擊（Privacy Attack）是指攻擊者通過掌握的背景知識(shí)和一些攻擊技術(shù)，盜取用戶敏感信息，并通過敏感屬性取值確定其對(duì)應(yīng)的個(gè)體。通常有以下幾種類型。

（1）鏈接攻擊[11]。鏈接攻擊是數(shù)據(jù)發(fā)布中最為常見同時(shí)也是攻擊性最強(qiáng)的一種攻擊，攻擊者通過對(duì)發(fā)布的數(shù)據(jù)和其他渠道獲取的外部數(shù)據(jù)進(jìn)行鏈接操作，以推理出隱私數(shù)據(jù)，從而造成隱私泄露。

（2）同質(zhì)性攻擊[12]。同質(zhì)性攻擊是指攻擊者利用敏感信息取值的同質(zhì)化特征進(jìn)行攻擊。

（3）背景知識(shí)攻擊。背景知識(shí)攻擊是指攻擊者根據(jù)竊取的QID、敏感信息、實(shí)現(xiàn)匿名的模型和算法等各種背景知識(shí)，結(jié)合處理后的數(shù)據(jù)集排除一些干擾值，推斷出用戶與敏感信息之間的關(guān)聯(lián)的攻擊[13]。

（4）近似攻擊。近似攻擊是指攻擊者利用敏感屬性值相似性而獲得敏感屬性在某一較小范圍內(nèi)的信息的攻擊。

3.3 基于匿名技術(shù)的隱私保護(hù)模型

為了對(duì)抗各種隱私攻擊，專家學(xué)者們提出了一系列匿名保護(hù)模型。在1998年的PODS國際會(huì)議上，Seweney等提出了K-匿名模型，它是最早也是最具影響的隱私保護(hù)匿名模型。后來Seweney在K-匿名基礎(chǔ)模型上又提出了基于泛化和隱匿技術(shù)的改進(jìn)版K-匿名隱私保護(hù)模型。Kisilevich等學(xué)者提出了通過抑制技術(shù)、采用分類樹的 K-匿名模型。Abul等學(xué)者提出了基于定位技術(shù)的K-匿名模型。為了解決 K-匿名模型屬性泄露問題，2006年，Machanavajjhala等[14]提出了L-多樣性模型。為提高L-多樣性的靈活性，提高匿名數(shù)據(jù)的個(gè)性化保護(hù)能力，Li等[15]提出了（k，l）-匿名模型。Wong等學(xué)者在第12屆ACM SIGKDD（Knowledg discovery and Data Mining）國際會(huì)議上提出了（a，k）-匿名模型。2007年，Li等[16]針對(duì)L-多樣性模型不足又進(jìn)一步提出了T-近似模型（T-Closeness），2009年，又有專家提出（alp，dif）個(gè)性匿名模型。后來（k，e）-匿名模型，基于多維屬性泛化的K-匿名，基于聚類的K-匿名等模型也相繼被提出[17-18]。為了適應(yīng)社交網(wǎng)絡(luò)的快速發(fā)展，基于圖修改的K-neighborhood[19]、K-Degree[20]、K-Isomorphism[21]、K-Automorphism[22]及基于聚類的Partitioning[23]、SANGREEA[24]以及 Generalization[25] 等匿名保護(hù)模型相繼被提出。在眾多的模型中，K-匿名模型（K-anonymity）、L-多樣性模型（L-Diversity）及T-近似模型（T-Closeness）是經(jīng)典的3種隱私保護(hù)模型，許多模型都是以它們?yōu)樵瓦M(jìn)行優(yōu)化及改進(jìn)而產(chǎn)生的。它們的各自特點(diǎn)及抵御功擊能力對(duì)比如表1所示。

3.3.1 K-匿名（K-anonymity）

K-匿名模型是指對(duì)數(shù)據(jù)進(jìn)行泛化處理，使得有多條紀(jì)錄的準(zhǔn)標(biāo)識(shí)列屬性值相同，這種準(zhǔn)標(biāo)識(shí)列屬性值相同的行的集合被稱為相等集，相同準(zhǔn)標(biāo)識(shí)符的所有記錄稱為一個(gè)等價(jià)類，K-匿名模型要求對(duì)于任意一行紀(jì)錄，其所屬的相等集內(nèi)紀(jì)錄數(shù)量不小于K，至少有K-1條紀(jì)錄標(biāo)識(shí)列屬性值與該條紀(jì)錄相同。當(dāng)攻擊者在進(jìn)行鏈接攻擊時(shí)，對(duì)任意一條記錄攻擊的同時(shí)會(huì)關(guān)聯(lián)到等價(jià)組中的其他K-1條記錄，從而使攻擊者無法確定與用戶的特定相關(guān)記錄，從而保護(hù)了用戶的隱私。K-匿名模型實(shí)現(xiàn)了以下幾點(diǎn)隱私保護(hù)：（1）攻擊者無法知道攻擊對(duì)象是否在公開的數(shù)據(jù)中。（2）攻擊者無法確定給定某人是否有某項(xiàng)敏感屬性。（3）攻擊者無法找到某條數(shù)據(jù)對(duì)應(yīng)的主體。K-匿名在一定程度上避免了個(gè)人標(biāo)識(shí)泄露的風(fēng)險(xiǎn)，但依然有著屬性泄露的風(fēng)險(xiǎn)，攻擊者可通過同質(zhì)屬性及背景知識(shí)兩種攻擊方式攻擊用戶的屬性信息。K-匿名模型在實(shí)施過程中隨著K值的增大，數(shù)據(jù)隱私保護(hù)增強(qiáng)，但數(shù)據(jù)的可用性也隨之降低[14]。

3.3.2 L-多樣性（L-Diversity）

如果一個(gè)等價(jià)類里的敏感屬性至少有L個(gè)“良表示”的取值，則稱該等價(jià)類具有L-Diversity。如果一個(gè)數(shù)據(jù)表里的所有等價(jià)類都具有L-Diversity，則稱該表具有L-Diversity。其中“良表示”有3種形式：（1）可區(qū)分良表示。同一等價(jià)類中的敏感屬性要有至少L個(gè)可區(qū)分的取值。（2）熵良表示。記S為敏感屬性的取值集合，p（E，s）為等價(jià)類E中敏感屬性取值s的概率，entropy L-Diversity要求下式成立：Entropy（E）=-∑s∈sp（E，s）logp（E，s）≥logl。（3）遞歸良表示。設(shè)等價(jià)類E中敏感屬性有m種取值，記ri為出現(xiàn)次數(shù)第i次取值的頻次，如果E滿足：r1

3.3.3 T-近似（T-Closeness）

如果等價(jià)類E中的敏感屬性取值分布與整張表中該敏感屬性的分布的距離不超過閾值T，則稱E滿足T-Closeness。如果數(shù)據(jù)表中所有等價(jià)類都滿足T-Closeness，則稱該表滿足T-Closeness。T-Closeness能夠抵御偏斜型攻擊和相似性攻擊，通過T值的大小來平衡數(shù)據(jù)可用性與用戶隱私保護(hù)程度。T-Closeness由于其標(biāo)準(zhǔn)要求較高，在實(shí)際應(yīng)用中也存在不足：（1）T-Closeness只是一個(gè)概念或者標(biāo)準(zhǔn)，缺乏標(biāo)準(zhǔn)的方法來實(shí)現(xiàn)。（2）T-Closeness需要每個(gè)屬性都單獨(dú)泛化，加大了屬性泛化的難度及執(zhí)行時(shí)間。（3）T-Closeness 隱私化實(shí)現(xiàn)起來困難且以犧牲數(shù)據(jù)可用性為代價(jià)。（4）不能抵御鏈接攻擊。

3.4 實(shí)現(xiàn)匿名化的方法和技術(shù)

3.4.1 泛化技術(shù)

泛化[28-31]：通常將QID的屬性用更抽象、概括的值或區(qū)間代替。泛化技術(shù)實(shí)現(xiàn)較為簡單，圖2展示了電話號(hào)碼的一個(gè)泛化過程。泛化分為全局泛化和局部泛化兩類。全局泛化也稱為域泛化，是將QID屬性值從底層開始同時(shí)向上泛化，一層一層泛化，直至滿足隱私保護(hù)要求時(shí)同時(shí)停止泛化。局部泛化也稱為值泛化，是指將QID屬性值從底層向上泛化，但可以泛化到不同層次。單元泛化及多維泛化是典型的局部泛化。單元泛化只對(duì)某個(gè)屬性的一部分值泛化。局部泛化可以對(duì)多個(gè)屬性的值同時(shí)泛化。

泛化技術(shù)的優(yōu)點(diǎn)是不引入錯(cuò)誤數(shù)據(jù)，方法簡單，泛化后的數(shù)據(jù)適用性強(qiáng)，對(duì)數(shù)據(jù)的使用不需要很強(qiáng)的專業(yè)知識(shí)。其缺點(diǎn)是預(yù)定義泛化樹沒有統(tǒng)一標(biāo)準(zhǔn)，信息損失大，對(duì)不同類型數(shù)據(jù)的信息損失度量標(biāo)準(zhǔn)不同。

泛化技術(shù)使用注意事項(xiàng)：（1）連續(xù)數(shù)據(jù)發(fā)布不適合泛化技術(shù)。（2）泛化過程是一個(gè)耗時(shí)過程，計(jì)算并找到合適泛化結(jié)果需以時(shí)間為代價(jià)。（3）篩選及確認(rèn)合適的泛化子集是工作難點(diǎn)，但也是工作重心。（4）過度泛化會(huì)導(dǎo)致數(shù)據(jù)損失。（5）要科學(xué)合理地使用全局和局部泛化。

3.4.2 抑制技術(shù)

抑制[16，27-29]又稱為隱藏，即抑制（隱藏）某些數(shù)據(jù)。具體的實(shí)現(xiàn)方法是將QID屬性值從數(shù)據(jù)集中直接刪除或者用諸如“*”等不確定的值來代替原來的屬性值。采取這樣的方式可以直接減少需要進(jìn)行泛化的數(shù)據(jù)，從而降低泛化所帶來的數(shù)據(jù)損失，保證相關(guān)統(tǒng)計(jì)特性達(dá)到相對(duì)比較好的匿名效果，保證數(shù)據(jù)在發(fā)布前后的一致性、真實(shí)性。抑制可分為3種方式：記錄抑制、值抑制及單元抑制[30]。其中，記錄抑制是指將數(shù)據(jù)表中的某條記錄進(jìn)行抑制處理；值抑制是指將數(shù)據(jù)表中某個(gè)屬性的值進(jìn)行抑制處理；而單元抑制是指將表中某個(gè)屬性的部分值進(jìn)行抑制處理。

抑制技術(shù)的優(yōu)點(diǎn)表現(xiàn)為泛化前使用可減少信息損失，缺點(diǎn)是不適合復(fù)雜場景，發(fā)布數(shù)據(jù)量太少，會(huì)降低數(shù)據(jù)的真實(shí)性和可用性。

抑制技術(shù)使用注意事項(xiàng)：（1）抑制的數(shù)據(jù)太多時(shí)，數(shù)據(jù)的可用性將大大降低。（2）抑制是一種精粒度的泛化，泛化與抑制技術(shù)配合使用是達(dá)到較好匿名效果的一項(xiàng)重要舉措。

3.4.3 聚類技術(shù)

聚類[31-32]是將數(shù)據(jù)集按照一定規(guī)則進(jìn)行劃分從而形成不同組，同一組中的對(duì)象彼此相似，它們構(gòu)成一類，也稱為簇，與其他組中的對(duì)象相異。當(dāng)前廣泛使用的聚類方法有5種：（1）基于層次的聚類（hierarchical methods）[33]。它是根據(jù)數(shù)據(jù)類之間相似程度，對(duì)不同的類采取合并或者分裂操作，直到完成所有數(shù)據(jù)集的聚類分配。具體又可分為“自底向上”和“自頂向下”兩種方案。（2）基于劃分的聚類（hierarchical methods）[34]。它與基于層次聚類的方法相似，不同之處在于基于劃分的聚類以樣本和類原型之間的距離為基礎(chǔ)，給定一個(gè)有N個(gè)元組或者記錄的數(shù)據(jù)集，采用分裂法構(gòu)造K個(gè)組，每一個(gè)組就代表一個(gè)聚類，K

3.4.4 分解技術(shù)

分解[38-39]是在不修改準(zhǔn)標(biāo)識(shí)符屬性和敏感屬性值的基礎(chǔ)上采用有損連接的方法來弱化兩者之間的關(guān)聯(lián)。具體做法是：先根據(jù)敏感屬性值對(duì)原始數(shù)據(jù)表進(jìn)行拆分，將準(zhǔn)標(biāo)識(shí)符（QID）與敏感屬性（SV）分別拆分到不同的子表中，同時(shí)給兩張子表中分別增加一個(gè)公共屬性“組標(biāo)識(shí)符”GroupID，并用GroupID值來標(biāo)識(shí)屬于同一組內(nèi)記錄的兩個(gè)子表中的數(shù)據(jù)，以實(shí)現(xiàn)拆分后子表的有損鏈接。

3.4.5 數(shù)據(jù)交換技術(shù)

數(shù)據(jù)交換[38-39]是按照某種規(guī)則對(duì)數(shù)據(jù)表中的某些數(shù)據(jù)項(xiàng)進(jìn)行交換，首先將原始數(shù)據(jù)集劃分為不同的組，然后交換組內(nèi)的敏感屬性值，使得準(zhǔn)標(biāo)識(shí)符與敏感屬性之間失去聯(lián)系，以此來保護(hù)隱私。

3.4.6 擾亂技術(shù)

擾亂是指在數(shù)據(jù)發(fā)布前通過加入噪聲、引入隨機(jī)因子及對(duì)私有向量進(jìn)行線型變換等手段對(duì)敏感數(shù)據(jù)進(jìn)行擾亂，以實(shí)現(xiàn)對(duì)原始數(shù)據(jù)改頭換面的目標(biāo)。這種處理方法可以快速地完成，但其安全性較差，且以降低數(shù)據(jù)的精確性為代價(jià)，從而影響數(shù)據(jù)分析結(jié)果，一般這種處理手段僅能得到近似的計(jì)算結(jié)果。

4 匿名化質(zhì)量的度量方法

數(shù)據(jù)可用性是度量匿名化質(zhì)量的標(biāo)準(zhǔn)，好的匿名化方法是確保隱私得以保護(hù)的前提下提高數(shù)據(jù)的可用性。許多專家和學(xué)者都投身于此項(xiàng)技術(shù)的研究，并從不同的角度、不同應(yīng)用場景給出了不同的度量方法。

4.1 基于K-匿名模型的數(shù)據(jù)可用性度量方法

4.1.1 基于泛化層級(jí)度量法

該方法由Sweeney[40]提出，它通過Precision公式比較泛化前后數(shù)據(jù)表各準(zhǔn)標(biāo)識(shí)符的泛化層次來計(jì)算，Precision公式如（3）所示，其中Na是準(zhǔn)標(biāo)識(shí)符屬性的數(shù)目，RT是數(shù)據(jù)集的總元組數(shù)目，Hij是準(zhǔn)標(biāo)識(shí)符屬性，h表示標(biāo)準(zhǔn)標(biāo)識(shí)符屬性i泛化的層級(jí)數(shù)。根據(jù)公式我們可以發(fā)現(xiàn)，數(shù)據(jù)可用性直接受泛化層級(jí)影響，它不能隨意設(shè)定及改動(dòng)，而需要根據(jù)需求及數(shù)據(jù)設(shè)定。

（3）

4.1.2 DM度量法

DM法是基于懲罰值的可辨析度量法（Discernibility Metric），它對(duì)泛化后滿足K-匿名的元組賦予懲罰值EC，對(duì)泛化后不滿足K-匿名的元組賦予懲罰值D，根據(jù)公式（4）計(jì)算數(shù)據(jù)可用性。它是從全局的層面度量數(shù)據(jù)可用性的方法，不適用于非單調(diào)態(tài)勢(shì)，而適用于數(shù)據(jù)均勻分布的場景[41]。

（4）

4.1.3 基于熵度量法

基于熵的度量法又細(xì)分為熵度量、單調(diào)熵度量、非均勻分布熵度量。其中，非均勻分布熵度量是最常用的一種，它的計(jì)算公式如（5）所示，D是給定的數(shù)據(jù)集，n是元組個(gè)數(shù)，r是準(zhǔn)標(biāo)識(shí)符的個(gè)數(shù)，g（D）是泛化后的數(shù)據(jù)表，是準(zhǔn)標(biāo)識(shí)符j中的第i個(gè)元組的值在泛化后數(shù)據(jù)表中的概率[42]。該方法因其計(jì)算量大，而不適用于數(shù)據(jù)集較大的場景。

（5）

4.2 標(biāo)準(zhǔn)數(shù)據(jù)可用性度量方法

標(biāo)準(zhǔn)數(shù)據(jù)可用性度量方法NCP（Normarlized Certainty Penalty）定義如（6）所示。其中，d代表屬性的個(gè)數(shù)，Ai是屬性，ωi是權(quán)重，NCP的值越大，數(shù)據(jù)改動(dòng)越多，信息損失也就越大[43]。

（6）

4.3 針對(duì)圖結(jié)構(gòu)的數(shù)據(jù)可用性度量方法

針對(duì)圖結(jié)構(gòu)的數(shù)據(jù)可用性度量方法采用RCE（Ratio of Changed Edges），其公式如（7）所示。其中，|E|表示圖的所有邊數(shù)，|CE|表示使用了匿名化算法后的邊的總數(shù)。RCE越大，即代表改動(dòng)的邊越多，信息損失也就越大。

RCE=|CE|/|E| （7）

5 結(jié)語

基于數(shù)據(jù)匿名化的隱私保護(hù)技術(shù)在隱私保護(hù)中占據(jù)著重要的地位。本文通過大量國內(nèi)外文獻(xiàn)的學(xué)習(xí)，發(fā)現(xiàn)基于數(shù)據(jù)匿名化的隱私保護(hù)技術(shù)有著成熟的匿名化模型，實(shí)現(xiàn)技術(shù)以及不斷改進(jìn)的度量方法，但它也有著一些面臨諸多挑戰(zhàn)的研究熱點(diǎn)：如何在保護(hù)隱私的同時(shí)提高數(shù)據(jù)的可用性；如何制訂出個(gè)性化隱私保護(hù)策略；如何使匿名化質(zhì)量的度量標(biāo)準(zhǔn)化。

[參考文獻(xiàn)]

[1]王融.大數(shù)據(jù)時(shí)代數(shù)據(jù)保護(hù)與流動(dòng)規(guī)則[M].北京：人民郵電出版社，2017.

[2]王利民.人格權(quán)法新規(guī)[M].長春：吉林人民出版社，1994.

[3]徐樂.大數(shù)據(jù)時(shí)代隱私安全問題研究[D].成都：成都理工大學(xué)，2016.

[4]PAUL O.The future of digital evidence searches and seizures： the fourth amendment in a world without privacy[J].Misssissippi Law Journal，Symposium，2012（2）：67-69.

[5]OMER T，JULES P.Big data for all： privacy and user control in the age of analytics[J].Journal of Technology and Intellectural Property，2013（6）：239.

[6]STEINER P.On the Internet， nobody knows youre a dog[J].The New Yorker，1993（20）：61.

[7]百度百科. 云存儲(chǔ)[EB/OL].（2018-06-08）[2018-12-07].https：//baike.baidu.com/item/%E4%BA%91%E5%AD%98%E5%82%A8/8326238？fr=aladdin.

[8]百度百科. 數(shù)據(jù)挖掘[EB/OL].（2018-11-08）[2018-12-07].https：//baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/216477？fr=aladdin.

[9]SAMARATI P，SWEENEY L.Generalizing data to provide anonymity when disclosing information[C].New York：Proceedings of the Seventeenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems，1998：188 .

[10]LI T C，LI N H，ZHANG J，et al.Slicing： a new a proach for privacy preserving data publishing[J].IEEE Transactions on Knowledge and Data Engineering，2012（3）：561-574.

[11]何賢芒.隱私保護(hù)中K-匿名算法和匿名技術(shù)研宄[D].上海：復(fù)旦大學(xué)，2011.

[12]MEYERSON A，WILLIAMS R.On the complexity of optimal K-anonymity[M].Paris：ACM Press，2004.

[13]張國榮.社會(huì)網(wǎng)絡(luò)數(shù)據(jù)的隱私保護(hù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用，2009（7）：42-44.

[14]MACHANAVAJJHALA A，GEHRKE J，KIFER D.1-diversity：privacy beyond K-anonymity[C].Atlanta：Proceeding of the 22nd Internaional Conferenceon Data Engineering，IEEE Computer Society，2006：24-35.

[15]LI Z D，ZHAN G，YE X.Towards an anti-inference （k，l）-anonymity model with value association rules[M].Krakow：Springer-Verlag，2006.

[16]LI N H，LI T C，SURESH V S.t-Closeness： privacy beyond K-anonymity and L-diversity[C].Istanbul：2007 IEEE 23rd International Conference on Data Engineering，2007：106-115.

[17]劉沬萌.面向聚類算法的隱私保護(hù)技術(shù)研究[D].西安：西安電子科技大學(xué)，2013.

[18]劉明，葉曉俊.個(gè)性化K-匿名模型[J].計(jì)算機(jī)工程與設(shè)計(jì)，2008（2）：282-286.

[19]ZHOU B，PEI J.Preserving privacy in social networks against neighborhood attacks[C].San Francisco：Proceedings of Proceedings of the IEEE 24th International Conference on Data Engineering（ICDE），2008.

[20]LIU K，TERZI E.Towards identity anonymization on graphs[C].Vancouver：Proceedings of Proceedings ofthe ACM SIGMOD International Conference on Management of Data，2008.

[21]CHENG J，F(xiàn)U A W C，LIU J. K-isomorphism： privacy preserving network publication againststructural attacks[C].Indianapolis：Proceedings of Proceedings of the 2010 ACM SIGMOD International Conference on Management of data，2010：459-470.

[22]ZOU L，CHEN L，OZSU M T. K-Automorphism： a general framework for privacy preserving network publication[C].Hangzhou：Proceedings of Proceedings of the VLDB Endowment，2009.

[23]BHAGAT S，CORMODE G，KRISHNAMURTHY B，et al.Class-based graph anonymization for social network data[C].Hangzhou：Proceedings of Proceedings of the VLDB Endowment，2009.

[24]CAMPAN A，TRUTA T M.A clustering approach for data and structural anonymity in social networks[C].London：Proceedings of Proceedings of the 2nd ACM SIGKDD International Workshop on Privacy，Security，and Trust in KDD（Pin KDD），2008.

[25]HAY M，MIKLAU G，JENSEN D，et al.Resisting structural reidentification in anonymized social networks[C].Hangzhou：Proceedings of Proceedings of the VLDB Endowment，2008.

[26]xff1994.數(shù)據(jù)脫敏：k-anonymity，L-Diversity，T-Closeness[EB/OL].（2018-10-18）[2018-12-07].https：//blog.csdn.net/xff1994/article/details/83149116.

[27]YANG X C.k-anonymization approaches for supporting multiple constraints[J].Journal of Software，2006（5）：1222-1231.

[28]PEI J，XU J，WANG Z B，et al.Maintaining K-anonymity against incremental pdates[C].Banff：Proceeding of the 19th International Conference on Scientific and Statistical Database Management，2007：5.

[29]WUCHKWU T，NAUGHTON J.K-anonymization as spatial indexing： toward scalable andincremental anonymization[C].Vienna：Proceedings of the 33rd International Conference on Very Large Data Bases，2007：746-757.

[30]劉湘雯，王良民.數(shù)據(jù)發(fā)布匿名技術(shù)進(jìn)展[J].江蘇大學(xué)學(xué)報(bào)，2016（5）：562-571.

[31]CHANG C C，LI Y C，HUANG W H.TFRP： an efficient microaggregation algorithm for statistical disclo sure control[J].System Software，2007（11）：1866-1878.

[32]DOMINGO F J.Microaggregation for database and location privacy[C].Kibbutz：Proceeding of Next Generation Information Technologies and Systems，2006：106-116.

[33]SU C，BAO F.A new scheme for distributed density estimation based Privacy-Preserving clustering[C].Las Vegas：RES 2008-3rd International Conference on Availability，Security，and Reliability，Proceedings，2008：112-119.

[34]FUNG B C M，WANG K.A framework for privacy-preserving cluster analysis[C].Taipei：IEEE International Conference on Intelligence and Security Informatics，2008：46-51.

[35]STANLEY R，OLIVEIRA O，ZAIANE R.Privacy preserving clustering by data transformation[C].Manaus：In Proceeding of the 1sth Brazilian Symposium on Databases（SBBD），2003：304-318.

[36]WEI Q，LU Y，LOU Q.Privacy-preserving data publishing based on de-clustering[C].Melbourne：Proceedings 7th IEEE/ACIS International Conference on Computer and Information Science，IEEE/ACIS ICIS 2008，In conjunction with 2nd IEEE/ACIS Int. Workshop on e-Activity，IEEE/ACIS IWEA 2008，2008：152-157.

[37]JAGANNATHAN G，WRIGH R N.Privacy-Preserving distributed k-means clustering over arbitrarily Partitioned data[C].Chicago：In Proceedings of the 2005 ACM SIGKDD on knowledge Discovery and Data Mining，2005：593-599.

[38]王波，楊靜.數(shù)據(jù)發(fā)布中的個(gè)性化隱私匿名技術(shù)研究[J].計(jì)算機(jī)科學(xué)，2012（4）：168-171.

[39]岑婷婷，韓建民，王基一.隱私保護(hù)中K-匿名模型的綜述[J].計(jì)算機(jī)工程與應(yīng)用，2008（4）：130-134.

[40]SWEENEY L.Datafly：asystemforprovidinganonymityinmedicaldata[j].1998.

[41]趙建龍，曲樺，趙季紅.基于K-近鄰域中心偏移的魯棒性異常檢測(cè)算法[J].北京郵電大學(xué)學(xué)報(bào)，2017（4）：54-59.

[42]穆強(qiáng).基于熵的K-匿名屬性泛化算法研宄[D].南京：南京信息工程大學(xué)，2011.

[43]XU J，WANG W，PEI J，et a1.Utility-based anonymization using local recoding[C].Philadelphia：The 12th ACM SIGKDD Intenational Conference on Knowledge Discovery and Data Mining. Philadelphia，2006：785-790.