趙小柯,劉志天,劉 瑤
(北京交通大學(xué) 北京 100044)
伴隨著計算機技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)連接和磁盤存儲空間日益增加,網(wǎng)絡(luò)數(shù)據(jù)安全的保護工作也得到了越來越多人的重視,給隱私保護帶來了新的挑戰(zhàn)與機遇。目前各大高校內(nèi)運行的應(yīng)用系統(tǒng)數(shù)量已經(jīng)比較龐大,各個應(yīng)用系統(tǒng)之間交流頻繁,對于數(shù)據(jù)交換與數(shù)據(jù)共享的需求也日益增加[1]。
隱私保護最早是T Dalenius提出來的,1977年,他給隱私保護出具了一份說明,把訪問發(fā)布后的所有數(shù)據(jù)與不訪問數(shù)據(jù)做了一個對比,目的是為了不讓不法分子得到目標(biāo)外的其他信息,即使他們有著其他渠道獲得消息,從中發(fā)現(xiàn)只有在不發(fā)布數(shù)據(jù)的時候,完美隱私才會實現(xiàn),這個時候沒有任何的泄露風(fēng)險?!盵2]最重要的一個任務(wù)是開發(fā)發(fā)布數(shù)據(jù)的方法和工具,以便公開的數(shù)據(jù)在保持可用性的同時保護個人隱私,這就是數(shù)據(jù)發(fā)布過程中的隱私保護。認為數(shù)據(jù)收集階段是誠實的模型,數(shù)據(jù)共享的階段是非誠實性的,數(shù)據(jù)接收者的誠實性無法保證[3],在此階段為了避免隱私泄露,就需要適當(dāng)?shù)夭扇∫欢ǖ臄?shù)據(jù)隱私保護技術(shù)。
本文以一些特殊的場景為出發(fā)點,比如數(shù)據(jù)交換,從而對隱私保護模型進行闡述,發(fā)表自己的觀點。
目前關(guān)于隱私保護模型的研究中,數(shù)據(jù)記錄屬性主要有三種,分也就是顯式標(biāo)識、準(zhǔn)標(biāo)識和敏感屬性。顯式標(biāo)識屬性是唯一標(biāo)識單一個體的屬性,準(zhǔn)標(biāo)識屬性是組合起來能唯一標(biāo)示一個人的屬性。在公布數(shù)據(jù)時人們能意識到通過對于顯式標(biāo)識屬性的處理來保護個人信息,但是準(zhǔn)標(biāo)識屬性結(jié)合到一起同樣可以識別一個人的屬性,在1998年Samarati等人就曾提出K-匿名模型來解決這一問題[4]。也就是說至少要有K-1條記錄體現(xiàn)在發(fā)表的數(shù)據(jù)里,使得準(zhǔn)標(biāo)識屬性能夠取得相同的值,如果K條記錄相同,這種情況就稱為等價類。根據(jù)Machanavajjhala等人的研究,k-匿名模型很容易受到攻擊,如果攻擊者確定了目標(biāo)在等價類中敏感屬性都相等,那么攻擊者就必然發(fā)動攻擊。
除此之外基本的隱私保護模型還有ι-多樣性匿名模型[5],ι-多樣性匿名模型要求所發(fā)布的數(shù)據(jù)表中每一個等價類都得由代表,能夠代替敏感值屬性,這個代表要滿足相異ι-多樣性、信息熵ι-多樣性與遞歸(c,l)-多樣性。
為了彌補上述兩種匿名模型的缺陷,2007年Machanavajjhala等人提出了t-closeness模型[6],該模型在k-匿名模型與ι-多樣性模型的基礎(chǔ)上作出了改進,它要求任何等價類中的敏感屬性的分布接近于整個表中屬性的分布,即兩個分布之間的距離應(yīng)該不超過閾值t。
(a,k)-匿名模型著眼于個人身份與敏感屬性之間的關(guān)聯(lián),是一種限制推測敏感信度的方法[9]。
表1 靜態(tài)數(shù)據(jù)隱私保護模型對比
拓展動態(tài)數(shù)據(jù)主要有四種發(fā)布情形,以下做簡單的介紹:
多次查詢的發(fā)布[7]:適用于原始數(shù)據(jù)都相同,根據(jù)用途和對象不同,屬性也不一樣,之后再發(fā)布匿名數(shù)據(jù)。當(dāng)攻擊者獲得兩次以上的數(shù)據(jù)表時,就可以把多張數(shù)據(jù)表連接起來,發(fā)動聯(lián)合攻擊。
相繼查詢的發(fā)布[8]:這個適用于原始數(shù)據(jù)都相同的情況,根據(jù)用途或者對象不同,選擇屬性也不一樣,之后再發(fā)布匿名數(shù)據(jù)。即數(shù)據(jù)發(fā)布者發(fā)布了數(shù)據(jù)表T1,T2,…,TP-1,即將要發(fā)布數(shù)據(jù)表Tp,數(shù)據(jù)擁有者對Tp進行匿名化操作。
連續(xù)數(shù)據(jù)發(fā)布:指數(shù)據(jù)發(fā)布者己經(jīng)發(fā)布了數(shù)據(jù)表T1,T2,…,TP-1,現(xiàn)在要發(fā)布數(shù)據(jù)表Tp,而在發(fā)表T1,T2,…,TP的過程中每一張表都是前一張表的增加、刪除、修改。
聯(lián)合數(shù)據(jù)發(fā)布:適用于數(shù)據(jù)分布不同的組織,目的是為了融合數(shù)據(jù),就把分布式存儲的數(shù)據(jù)共同發(fā)布給第三方,除了要避免數(shù)據(jù)泄露給第三方之外,還需要避免泄露給其他擁有者。
表2 動態(tài)數(shù)據(jù)隱私保護模型對比
為了在滿足隱私保護的需求的同時兼顧信息共享,使得數(shù)據(jù)的接受者能夠獲取足夠的信息進行分析處理,就需要引入信息度量的概念來評價信息質(zhì)量。
一般來說,當(dāng)發(fā)布數(shù)據(jù)的人不知道數(shù)據(jù)將來會被用做何種用途,為了提高匿名數(shù)據(jù)的質(zhì)量,就會與原數(shù)據(jù)比對,減少信息損失程度。
最小失真(MD:Minimal Distortion)是指通過計算含有范化或抑制數(shù)值的記錄來計算該數(shù)值的失真的計算方法。
失真比率(Distortion ratio):敏感屬性值的變化都會按照固定結(jié)構(gòu)進行,當(dāng)值進行泛化時就會失真,失真反映了這個值的泛化程度。數(shù)據(jù)表中的記錄rj的準(zhǔn)標(biāo)識屬性qi泛化后的高度記為整個泛化的數(shù)據(jù)表的失真等于整個表中全體數(shù)值的失真的總和,即
廣全面信息損失(ILoss:Information Loss):這是一種比較常見的計算信息損失的計算方法,在計算信息損失時需要按照泛華結(jié)構(gòu)來進行,例如,屬性x泛化的屬性值vg,|Dx|是屬性x的值域相異值,值域相異值也就是屬性x的分類樹的葉子節(jié)點數(shù)量,則計算vg的信息損失是:
|vg|就是指泛化結(jié)構(gòu)中節(jié)點vg的后代的葉子節(jié)點的數(shù)量。
辨識度(DM:Discernibility Metric)被定義為:
其中|E|表示的是等價類E的大小,每條記錄的準(zhǔn)標(biāo)識屬性與其他記錄的相似程度通常用辨識度表示。
4.2 基于權(quán)衡的信息度量
簡單來說,保留有用信息的匿名操作會使數(shù)據(jù)丟失。隱私和信息影響了混合的信息損失度,二者平衡一下,需要找到一個更加細化的空間。
信息和隱私權(quán)衡的搜索原則[9],由Fung等人提出。在匿名化的算法中,每次都要選取一個節(jié)點來保證細化操作s。將操作前后對比,如果獲得信息記作IG(s),丟失的隱私信息記為PL(s),那么在多次的匿名操作中,搜索滿足損失單位隱私所獲得的信息增益最大的細化空間:
其中信息度量IG(s)和隱私模型PL(s)是由不同模型決定的。在進行分類的應(yīng)用里,IG(s)定義為細化后減少的分類熵獲得的信息增益,PL(s)定義為細化操作s之后信息失真MD的減少量。
在自底向上的算法中,信息和隱私之間的權(quán)衡滿足搜索原則,當(dāng)執(zhí)行泛化操作時,操作前后對比搜索保持每個單位的隱私所造成信息損失的最小的泛化空間:
其中IL(g)是信息失真,PG(g)是獲取的隱私。
目前的數(shù)據(jù)價值評定方法很多,面向不同的應(yīng)用場景評定數(shù)據(jù)價值時考慮的因素也不同,數(shù)據(jù)價值評定的方法也不同。
目前的數(shù)據(jù)價值評定研究主要著眼于兩個方面,即數(shù)據(jù)科研價值、數(shù)據(jù)存儲價值,面對不同的數(shù)據(jù)價值評定訴求,使用不同的價值標(biāo)準(zhǔn)。