技術(shù)宅
大數(shù)據(jù)時(shí)代 你的隱私是這樣泄露的
大家知道現(xiàn)在很多網(wǎng)站會(huì)收集用戶數(shù)據(jù),比如會(huì)通過用戶的搜索關(guān)鍵字、購(gòu)物習(xí)慣、經(jīng)常訪問網(wǎng)站等來收集數(shù)據(jù),然后結(jié)合這些大數(shù)據(jù)為用戶提供更為個(gè)性化的服務(wù)。比如淘寶,它會(huì)根據(jù)用戶購(gòu)買和訪問店鋪的記錄,這樣用戶再次登錄淘寶的時(shí)候,它就會(huì)為用戶提供精準(zhǔn)推薦購(gòu)買服務(wù)(圖1)。
當(dāng)然不僅僅是淘寶,類似百度、網(wǎng)易郵箱、優(yōu)酷等這些大型服務(wù)商也在進(jìn)行類似數(shù)據(jù)的收集,不過這些網(wǎng)站收集的數(shù)據(jù)可能會(huì)泄露我們的隱私。如很多研究報(bào)告,經(jīng)常會(huì)將一些搜索數(shù)據(jù)作為分析數(shù)據(jù),在引用數(shù)據(jù)的時(shí)候會(huì)將某用戶的搜索關(guān)鍵字如搜索地點(diǎn)、名稱等羅列出來。這樣雖然在研究文章里不會(huì)列出搜索用戶的實(shí)際名字,但是“有心人”結(jié)合這些公開的內(nèi)容就可能找到實(shí)際的搜索用戶,帶來隱私泄露的問題。
非請(qǐng)勿看 服務(wù)商怎么保護(hù)我們的隱私
如上所述,隨著大數(shù)據(jù)技術(shù)的發(fā)展,我們?cè)谄匠O硎芨鞣N網(wǎng)絡(luò)服務(wù)的同時(shí)會(huì)無意泄露自己的隱私,那么作為常見的網(wǎng)絡(luò)服務(wù)商是怎么保護(hù)我們的隱私?
首先需要了解什么叫隱私。因?yàn)楝F(xiàn)在很多網(wǎng)站都會(huì)主動(dòng)收集用戶信息,比如網(wǎng)易在隱私保護(hù)申明中就明確告訴用戶,網(wǎng)站會(huì)收集身份證、姓名、用戶來源途徑、訪問順序等信息(圖2)。
在這些信息中,一些公共屬性的如上述用戶來源途徑、訪問順序等并不屬于個(gè)人隱私,但是其中身份證、用戶姓名等私人屬性的信息則屬于個(gè)人隱私。因此網(wǎng)站在需要將收集的信息向大眾公布或者查詢的時(shí)候,就需要對(duì)個(gè)人隱私信息進(jìn)行保護(hù)。目前主流的保護(hù)手段有k-anonymity(k-匿名化)、l-diversity(l-多樣化)、t-closeness和Differential Privacy(差分隱私)等。
這里我們以蘋果“Differential Privacy”(差分隱私技術(shù))為例。大家知道全球蘋果用戶眾多,蘋果公司也通過不斷收集用戶使用習(xí)慣、輸入法、位置等信息來了解用戶的需求,并通過用戶反饋來改進(jìn)自己的產(chǎn)品。那么蘋果如何保證在大規(guī)模收集用戶信息的前提下又不會(huì)泄露用戶隱私?其中的差分隱私保護(hù)就起到很好的保護(hù)作用。
差分隱私保護(hù)用算法加擾個(gè)人用戶數(shù)據(jù),比如在數(shù)據(jù)中引入噪聲,通過對(duì)源數(shù)據(jù)進(jìn)行干擾,使得研究者無法通過收集到或者公開的信息回溯到具體的個(gè)體。但是研究者可以對(duì)數(shù)據(jù)進(jìn)行批量分析,得出大規(guī)模的趨勢(shì)規(guī)律。這樣通過差分隱私保護(hù)技術(shù),既可以很好地保護(hù)用戶身份信息,同時(shí)可以提取機(jī)器學(xué)習(xí)所需的通用信息(圖3)。
舉個(gè)簡(jiǎn)單的例子,在iPhone上使用QuickType輸入法的用戶都會(huì)發(fā)現(xiàn),在我們輸入一些之前從未用過的網(wǎng)絡(luò)熱詞時(shí),如鍵入“l(fā)anshouxiangg”,輸入法會(huì)自動(dòng)預(yù)測(cè)用戶需要輸入的可能是“藍(lán)瘦香菇”,并將其排在首選位置以方便用戶輸入,無論你之前是否輸入過該詞(圖4)。
這個(gè)功能其實(shí)就是差分隱私技術(shù)在輸入法上的一個(gè)典型應(yīng)用,當(dāng)我們?cè)趇Phone上進(jìn)行輸入的時(shí)候,蘋果服務(wù)器都會(huì)對(duì)用戶的輸入數(shù)據(jù)進(jìn)行抓取,但是抓取的并不是某個(gè)用戶詳盡的輸入信息。比如iOS系統(tǒng)監(jiān)測(cè)到北京的張三在iPhone 7短信中輸入“藍(lán)瘦香菇”一詞,iOS并不會(huì)將北京、張三、iPhone 7這些信息傳輸?shù)椒?wù)器,而僅僅是將用戶輸入頻率較高的信息詞反饋到服務(wù)器,同時(shí)在傳輸信息時(shí)使用哈希加密,并在傳輸?shù)男畔⒅刑砑痈蓴_噪音。這樣服務(wù)器可以根據(jù)大多數(shù)用戶的輸入習(xí)慣知道“藍(lán)瘦香菇”為當(dāng)前熱詞,并將其推送到iPhone用戶輸入法屏幕上,但是服務(wù)器并不知道具體是哪個(gè)用戶輸入這些熱詞,可能是北京的張三,也可能是湖北的李四,甚至是你隔壁老王輸入的。蘋果需要的是某個(gè)用戶群體信息,而不是單個(gè)用戶具體信息(圖5)。
隱私保護(hù) 不僅僅靠網(wǎng)站
現(xiàn)在隱私的泄露已經(jīng)越來越嚴(yán)重,每個(gè)人都希望在享受各種服務(wù)的同時(shí)不會(huì)泄露自己的隱私。從上面的介紹可以看到,為了保護(hù)用戶的隱私,各大網(wǎng)絡(luò)服務(wù)商也提供了很多的技術(shù)保護(hù)手段。不過隱私保護(hù)也不是僅靠網(wǎng)站,要做好隱私保護(hù)還需要加強(qiáng)自己的意識(shí)。
比如在實(shí)際網(wǎng)絡(luò)活動(dòng)中,即使用戶沒有主動(dòng)泄露過自己的隱私,但是可能通過無意泄露的照片(比如照片顯示自己小區(qū)的標(biāo)志建筑、位置)、微博用戶、朋友圈等信息泄露自己的隱私,比如網(wǎng)上就流傳網(wǎng)友通過兩張照片找到某明星的實(shí)際住址的新聞(圖6)。因此,在網(wǎng)站提供各種保護(hù)技巧的前提下,我們自己也需要主動(dòng)加強(qiáng)隱私保護(hù)意識(shí),只有這樣才能更好地保護(hù)自己的隱私不被泄露!