盧 岑,沈蘇彬
(1.南京郵電大學(xué) 物聯(lián)網(wǎng)學(xué)院,江蘇 南京 210003;2.南京郵電大學(xué) 計算機學(xué)院,江蘇 南京 210023)
隨著可穿戴技術(shù)的發(fā)展,可穿戴裝置成為了人體衛(wèi)生和保健的數(shù)據(jù)源,能不斷監(jiān)測和傳遞用戶的生命體征數(shù)據(jù),例如血壓、心率、體脂等數(shù)據(jù),同時還能測量運動過程中的卡路里消耗、步伐、心率和速度等。醫(yī)療機構(gòu)和健康機構(gòu)通過收集并分析這些數(shù)據(jù)來為用戶提供更好的服務(wù)。但是,就設(shè)備安全性和公眾的隱私接受度而言,可穿戴裝置還不成熟。2016年,歐盟通過了《一般數(shù)據(jù)法案》(general data protection regulation,GDPR),該法規(guī)規(guī)定了個人數(shù)據(jù)保護跨越國界,明確了用戶的知情權(quán)以及個人數(shù)據(jù)隱私的保護。然而,可穿戴裝置中的嵌入式傳感器通??稍谖凑鞯糜脩敉獾那闆r下采集和獲取個人以及周圍環(huán)境的數(shù)據(jù),這種情況會侵犯用戶的隱私并違反相關(guān)法規(guī)。
針對隱私量化和隱私保護的需求,研究者提出了差分隱私技術(shù),根據(jù)第三方數(shù)據(jù)匯聚服務(wù)器是否可信,差分隱私可分為中心化差分隱私和本地差分隱私。中心化差分隱私假設(shè)第三方是可信的,每個用戶將自己的真實數(shù)據(jù)發(fā)送給數(shù)據(jù)匯聚服務(wù)器,然后數(shù)據(jù)匯聚服務(wù)器通過滿足差分隱私的擾動算法對數(shù)據(jù)進行處理。然而,并不是所有的第三方都是可信的。針對第三方不可信的情況,本地差分隱私通過在用戶端對真實數(shù)據(jù)進行擾動,然后將擾動后的數(shù)據(jù)匯聚到數(shù)據(jù)服務(wù)器中保護用戶的數(shù)據(jù)隱私安全。
但是本地差分隱私為所有個人提供了相同級別的隱私保護,每個用戶對于其數(shù)據(jù)可接受的隱私級別的期望卻不相同,這可能導(dǎo)致某些用戶的隱私保護不足,而其他用戶則受到過度保護。因此,在用戶本地對數(shù)據(jù)進行數(shù)據(jù)擾動時,應(yīng)該允許用戶個性化地設(shè)置自己的隱私偏好,實現(xiàn)個性化的隱私保護。目前的個性化本地差分隱私存在兩個問題,第一,大部分個性化差分隱私都是針對一維數(shù)值型數(shù)據(jù)的,而可穿戴裝置收集的數(shù)據(jù)存在多個數(shù)值型屬性,是多維的。第二,現(xiàn)有的個性化差分隱私都是通過隨機響應(yīng)機制或者添加噪聲(主要是拉普拉斯噪聲)實現(xiàn)的,將其應(yīng)用于可穿戴裝置中會產(chǎn)生隱私保護程度低和數(shù)據(jù)可用性低等問題。
在現(xiàn)有本地差分隱私保護方法的基礎(chǔ)上,該文提出了一種可穿戴裝置個性化本地差分隱私保護方案,允許用戶設(shè)置自己的隱私偏好,實現(xiàn)對可穿戴裝置多維數(shù)值型數(shù)據(jù)的個性化本地差分隱私。同時采用結(jié)合機制,結(jié)合隨機響應(yīng)機制和分段機制,解決隨機響應(yīng)機制最壞情況下噪聲方差大的問題,提高可穿戴裝置對用戶多維數(shù)值型數(shù)據(jù)的隱私保護,并且提高數(shù)值型數(shù)據(jù)的數(shù)據(jù)可用性,通過理論驗證和實驗仿真證明可穿戴裝置個性化本地差分隱私保護方案的有效性。
隨著可穿戴技術(shù)的發(fā)展,可穿戴裝置中的數(shù)據(jù)隱私問題受到越來越多的關(guān)注。對可穿戴裝置數(shù)據(jù)的攻擊可分為被動攻擊或主動攻擊兩種,被動攻擊的基本目標(biāo)是訪問網(wǎng)絡(luò)中共享的一定數(shù)量的私有數(shù)據(jù)或從公共數(shù)據(jù)集中推斷出任何關(guān)鍵信息。為了克服隱私量化和背景攻擊等隱私問題,2006年引入了一種重要的隱私方法,稱為差分隱私。差分隱私通過添加所需的噪聲量并在隱私和準(zhǔn)確性之間保持健康的平衡來保護統(tǒng)計數(shù)據(jù)或?qū)崟r數(shù)據(jù)。而對于不可信的第三方數(shù)據(jù)收集者,許多學(xué)者提出了本地差分隱私(LDP),本地差分隱私防止了數(shù)據(jù)管理者對確切的私人數(shù)據(jù)的收集。
LDP可以通過傳統(tǒng)的隨機響應(yīng)技術(shù)實現(xiàn),Erlingsson等提出了RAPPOR框架,該框架基于發(fā)布二進制屬性的隨機響應(yīng)機制,他們將這種機制與Bloom過濾器結(jié)合使用,Bloom過濾器直觀地增加了另一級的保護,并增加了對手推斷私人數(shù)據(jù)的難度。后續(xù)論文將RAPPOR擴展到更復(fù)雜的統(tǒng)計數(shù)據(jù),例如聯(lián)合分布和關(guān)聯(lián)測試以及包含大量潛在值的分類屬性。但是RAPPOR通信開銷大,不適合用在可穿戴裝置中。Wang等研究了相同的問題,并提出了不同的方法,他們將k
個可能的值轉(zhuǎn)換為具有k
個元素的噪聲向量,并將后者發(fā)送給數(shù)據(jù)收集者。Bassily和Smith提出了一個漸進最優(yōu)解,用于在LDP下建立大分類域上的頻率分布直方圖。但是,上述所有方法都集中在單個分類屬性上,與文中多維數(shù)值型數(shù)據(jù)研究工作不同。Ren等研究了發(fā)布多維屬性的問題,并采用了k-size向量的思想(類似于文獻[12]),但是這種方法在數(shù)據(jù)收集者和用戶之間需要相當(dāng)高的通信成本,因為它涉及多個k
大小矢量的傳輸。Kairouz等提出了極值機制,這是離散輸入數(shù)據(jù)的LDP機制,即每個輸入域X
包含有限數(shù)量的可能值,這些機制的輸出分布具有關(guān)鍵屬性。因為LDP能很好地保護用戶數(shù)據(jù)的隱私,故在室內(nèi)定位數(shù)據(jù)的收集、移動感知的推理控制以及眾包數(shù)據(jù)的發(fā)布等應(yīng)用中都有考慮??纱┐餮b置本地差分隱私應(yīng)用方面,馬方方等提出了可穿戴裝置多維數(shù)值型數(shù)據(jù)個性化隱私保護方案(personalized local privacy scheme,PLPS),使用安全域?qū)γ舾袛?shù)據(jù)進行規(guī)范化,最后使用伯努利分布對分組的多維數(shù)據(jù)進行擾動,并使用屬性安全域恢復(fù)干擾結(jié)果。馬方方等提出的方法比Harmony算法具有更低的最大相對誤差,但是當(dāng)ε
值大于2時,噪聲方差會趨于1,不會隨著ε
的增大而減小。涂子璇針對可穿戴裝置的數(shù)值型流數(shù)據(jù)均值發(fā)布,為防止用戶的隱私信息泄露提出一種基于自適應(yīng)采樣的可穿戴裝置差分隱私均值發(fā)布方法。在個性化差分隱私方面,Mousumi Akter提出了一種新穎的方法,即數(shù)字聚合的私有估計(private estimation of numeric aggregates,PENA),在確保個性化的本地差分隱私的同時計算數(shù)字?jǐn)?shù)據(jù)的聚合,但是該方法只適用于一維數(shù)值型數(shù)據(jù)。Datong Wu根據(jù)LDP和用戶的個性化要求提供了新穎的隱私定義,并展示了機制的最佳效用和隱私保證,但是提出的機制只適用于空間數(shù)據(jù),也就是說只針對于位置的隱私保護。
可穿戴裝置的數(shù)據(jù)收集模型如圖1所示。可穿戴裝置首先通過傳感器收集用戶的各種數(shù)據(jù),然后通過藍(lán)牙與移動設(shè)備相連,將數(shù)據(jù)傳輸?shù)揭苿釉O(shè)備中,最后第三方數(shù)據(jù)匯聚服務(wù)器收集各個移動設(shè)備的數(shù)據(jù)。
圖1 可穿戴裝置數(shù)據(jù)收集模型
本地差分隱私是基于中心化差分隱私提出的數(shù)據(jù)收集框架,不同于中心化差分隱私對于可信第三方的假設(shè),其針對的是不可信的第三方數(shù)據(jù)收集者(也就是圖1中的數(shù)據(jù)匯聚服務(wù)器),本地差分隱私定義如下:
定義1:本地差分隱私。給定n
個用戶,每個用戶對應(yīng)一條記錄,給定一個隱私算法M
及其定義域Dom(M
)和值域Rom(M
)。若算法在任意兩條記錄t
和t
(t
?Rom(M
))上得到相同輸出結(jié)果t
(t
?Rom(M
))并滿足下列不等式,則M
滿足ε
-本地差分隱私。Pr[M
(t
)=t
]≤e
×Pr[M
(t
')=t
]同時,個性化本地差分隱私定義如下:
定義2:個性化本地差分隱私。給定n
個用戶,用戶u
的隱私設(shè)置偏好為ε
,對于任意兩個輸入t
和t
和任意的輸出結(jié)果滿足下列不等式,則M滿足個性化本地差分隱私。Pr[M
(t
)=t
]≤MAX(e
)×Pr[M
(t
')=t
]圖2 PLPS在最壞情況下的噪聲方差
設(shè)計方案的隱私保護目標(biāo):對可穿戴設(shè)備多維數(shù)值型數(shù)據(jù)進行個性化的隱私保護,在保護用戶隱私的前提下,減小最壞情況下的噪聲方差,同時保證數(shù)據(jù)均值估計的可用性。
針對PLPS中存在的最壞情況下噪聲方差大的問題,采用結(jié)合機制解決,結(jié)合機制結(jié)合隨機響應(yīng)機制和分段機制,具體描述如下:
結(jié)合機制
輸入:原始元組t
∈[-1,1]和隱私預(yù)算ε
ε
<0.
6 then(2) 選擇隨機響應(yīng)機制對數(shù)據(jù)進行擾動
(3)else
(4) 從[0,1]中隨機取樣得到x
(5) ifx
<e
-2then(6) 選擇隨機響應(yīng)機制對數(shù)據(jù)進行擾動
(7) else
(8) 選擇分段機制對數(shù)據(jù)進行擾動
ε
<0.
6時,選擇隨機響應(yīng)機制對數(shù)據(jù)進行擾動,否則從[0,1]中隨機取樣x
,當(dāng)x
分段機制
輸入:原始元組t
∈[-1,1]和隱私預(yù)算ε
x
(4)else
結(jié)合機制在最壞情況下的噪聲方差為:
ε
怎么變化,采用結(jié)合機制擾動數(shù)據(jù)后在最壞情況下的噪聲方差比PLPS小,也就是說,隱私保護程度比PLPS更好。圖3 采用結(jié)合機制擾動數(shù)據(jù)和PLPS最壞情況下的噪聲方差
可穿戴裝置個性化差分隱私保護方案
z
,1≤j
≤d
(1)fori
=0 ton
do(2) forj
=0 tod
do(4) end
(6)end
3.3.1 隱私性分析
用戶設(shè)置自己的隱私預(yù)算為ε
,根據(jù)個性化本地差分隱私的定義,需要證明(1)隨機響應(yīng)機制隱私性分析。
e
≤MAX(e),所以隨機響應(yīng)機制滿足個性化差分隱私。(2)分段機制隱私性分析。
分段機制的概率密度函數(shù)為:
由此可以得出:
所以根據(jù)個性化差分隱私的定義,分段機制同樣滿足個性化本地差分隱私。
由以上分析可以看出,無論是隨機響應(yīng)機制還是分段機制都滿足個性化本地差分隱私,而文中的方案結(jié)合了隨機響應(yīng)機制和分段機制,根據(jù)差分隱私并行組合特性,文中的方案也滿足個性化本地差分隱私。
3.3.2 可用性分析
通過上面的分析可以看到,文中的方案既滿足個性化本地差分隱私,而且最大絕對誤差小于PLPS,在數(shù)據(jù)可用性方面優(yōu)于PLPS方案。
ε
對MAE的影響。為了研究隱私預(yù)算對可用性的影響,隨機生成虛擬數(shù)據(jù)集,ε
取值為[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],考慮數(shù)據(jù)屬性個數(shù)d
=10/
20和用戶數(shù)n
=100/
10 000的情況,不同隱私預(yù)算對MAE的影響,如圖4所示??傮w上看,MAE隨著隱私預(yù)算的增大而減小。這是因為,隱私預(yù)算本質(zhì)上代表著用戶對隱私的保護程度,隱私預(yù)算越大,代表用戶想要對隱私保護的程度就越小,因此第三方收集者得到的用戶數(shù)據(jù)就越準(zhǔn)確,自然地,第三方收集者對原始數(shù)據(jù)的估計也就越準(zhǔn)確,因此最大絕對誤差也就會相應(yīng)的更小。也就是說,如果ε
→∞,那么MAE→0。另一方面,從圖4中可以明顯看出,對于不同的隱私預(yù)算,文中的方案效果均優(yōu)于PLPS。當(dāng)?shù)谌绞占吣玫綌_動后的數(shù)據(jù)時,對于原始數(shù)據(jù)的均值估計,使用文中的方案更加準(zhǔn)確。圖4 隱私預(yù)算對MAE的影響
(2)屬性個數(shù)d
對于MAE的影響。為了研究屬性個數(shù)對可用性的影響,隨機生成虛擬數(shù)據(jù)集,d
取值為[5,10,15,20,25,30],考慮數(shù)據(jù)隱私預(yù)算ε
=5/
0.
5和用戶數(shù)n
=100/
10 000的情況,不同屬性個數(shù)對MAE的影響,如圖5所示。圖5 屬性個數(shù)對MAE的影響
MAE與屬性個數(shù)呈正相關(guān),即屬性個數(shù)的增多會導(dǎo)致MAE增大,這本質(zhì)上體現(xiàn)了數(shù)據(jù)維度的增加對于第三方數(shù)據(jù)收集者對原始數(shù)據(jù)整體估計值誤差的積累過程。橫向來看,文中的方案效果依然大幅度優(yōu)于PLPS。
(3)用戶數(shù)n
對MAE的影響。為了研究用戶數(shù)對可用性的影響,隨機生成虛擬數(shù)據(jù)集,n
取值為[5 000,10 000,15 000,20 000,25 000,30 000,35 000,40 000,45 000,50 000,55 000,60 000],考慮數(shù)據(jù)隱私預(yù)算ε
=5/
0.
5和屬性個數(shù)d
=20/
200的情況,不同用戶數(shù)對MAE的影響,如圖6所示。圖6 用戶數(shù)對MAE的影響
圖6展示了MAE隨用戶數(shù)量的變化規(guī)律??v向來看,隨著用戶數(shù)量的增加MAE逐漸減小,因為MAE與用戶數(shù)n
的1/2次方呈反比例關(guān)系,本質(zhì)上是由于用戶對隱私預(yù)算的分?jǐn)?。從另外一個角度也可以理解為,隨著用戶數(shù)量的增加,第三方數(shù)據(jù)收集者能夠獲取的數(shù)據(jù)樣本也就越多。因為無論是PLPS還是文中的方案,第三方數(shù)據(jù)收集者均可以對原始數(shù)據(jù)進行宏觀統(tǒng)計量的無偏估計,因此數(shù)據(jù)量越多,宏觀量的估計也就越精確。橫向上看,文中的方案效果依然比PLPS好。為了防止可穿戴裝置用戶隱私泄露,文中通過采用結(jié)合機制對數(shù)值型數(shù)據(jù)進行擾動,結(jié)合隨機響應(yīng)機制和分段機制減少最壞情況下的噪聲方差,通過隨機采樣提高多維數(shù)據(jù)的數(shù)據(jù)可用性,并且針對不同用戶的隱私需求提出了可穿戴裝置個性化本地差分隱私保護方案。理論證明,文中方案滿足了個性化本地差分隱私保護需求。仿真實驗結(jié)果表明,采用文中方案對可穿戴裝置多維數(shù)值型數(shù)據(jù)進行隱私保護,不僅能減小最壞情況下的噪聲方差,而且擁有更高的數(shù)據(jù)可用性。但是文中方案的個性化是針對每個用戶的所有屬性相同保護程度,針對不同屬性的個性化還需要進一步的研究。