楊麗麗
(廣西警察學(xué)院,南寧 530000)
信息化社會使我們的生活更加便捷,數(shù)據(jù)通信與資源共享更加方便,但互聯(lián)網(wǎng)中數(shù)據(jù)的傳輸與共享也會造成隱私的泄漏,使個人信息被泄露的風(fēng)險大大提升。目前,盡管研究者們都在不斷努力去預(yù)防信息泄露問題,但個人信息仍然以各種意想不到的方式被泄露。
當(dāng)下的隱私數(shù)據(jù)發(fā)布技術(shù)大多是針對單敏感屬性數(shù)據(jù),而在實際應(yīng)用中,很多數(shù)據(jù)之間往往存在著某些特定的聯(lián)系,在發(fā)布一些信息時,就相當(dāng)于間接發(fā)布了另外一些信息,像這種相關(guān)聯(lián)系的信息屬性就叫做相關(guān)敏感屬性。由于單敏感屬性隱私數(shù)據(jù)的發(fā)布方法與多敏感屬性方法完全不同,所以,對于這樣的關(guān)聯(lián)信息敏感數(shù)據(jù),利用單敏感屬性發(fā)布方法就很有可能會出現(xiàn)信息泄露問題。
數(shù)據(jù)泛化是指對數(shù)據(jù)表中的原始屬性值按照某種規(guī)則轉(zhuǎn)換,使轉(zhuǎn)換后的數(shù)據(jù)比原始數(shù)據(jù)包含的信息更多,以防范推理性攻擊。這種方法能夠保留原始數(shù)據(jù)的一些重要特性,所以能夠保證數(shù)據(jù)的可用性。
數(shù)據(jù)抑制是指通過采用從數(shù)據(jù)表的記錄中刪除某些或者部分屬性,來避免數(shù)據(jù)表的隱私泄露問題。數(shù)據(jù)抑制方法通常不會單獨使用,而是與數(shù)據(jù)泛化方法配合使用。
微聚合是指將原始數(shù)據(jù)中相似的記錄組合在一起,形成一個等價組。為保證隱私安全,降低隱私泄露的風(fēng)險,數(shù)據(jù)發(fā)布時只發(fā)布等價組中最具代表性的元祖。但用何種方式進(jìn)行微聚合,其相應(yīng)的數(shù)值應(yīng)該如何計算是我們需要研究的課題。
數(shù)據(jù)交換是指將原始數(shù)據(jù)表中各個數(shù)據(jù)記錄的相應(yīng)屬性值進(jìn)行隨機(jī)交換,然后將交換后的數(shù)據(jù)用來發(fā)布以滿足信息不被泄露的目的。但是,數(shù)據(jù)交換的前提是,需要保證原始數(shù)據(jù)表中的一些重要統(tǒng)計特性得到保持。通過使交換后的數(shù)據(jù)與原始數(shù)據(jù)無法對應(yīng)的方式來使數(shù)據(jù)增加一些不確定性,從而增加數(shù)據(jù)分析的難度,以降低數(shù)據(jù)泄露的風(fēng)險。但是,需要研究如何在數(shù)據(jù)交換過程中使原始信息盡可能地保留,而保持原始數(shù)據(jù)保留統(tǒng)計屬性也是信息交換技術(shù)研究的目標(biāo)。
子采樣是指在數(shù)據(jù)發(fā)布時不將全部的原始數(shù)據(jù)對外發(fā)布,而是抽取具有代表性的小部分?jǐn)?shù)據(jù)記錄進(jìn)行分析研究。這樣不僅可減少發(fā)布數(shù)據(jù)記錄的數(shù)量,而且因大部分記錄沒有發(fā)布而減少了隱私泄露的風(fēng)險。但是,由于減少樣本容量,就需要對數(shù)據(jù)進(jìn)行更細(xì)致的分析。這樣不僅增加了分析的工作量,還會使數(shù)據(jù)發(fā)布的準(zhǔn)確性降低。為了提升數(shù)據(jù)的可用性,子采樣方法需要盡可能地保留原始數(shù)據(jù)中的有用信息。這種方法比較適用于發(fā)布推理攻擊性行為數(shù)據(jù),但也不是全部都適用。
去標(biāo)識是指將原始數(shù)據(jù)表中惟一準(zhǔn)確標(biāo)識記錄的顯示標(biāo)識符去除,比如去除姓名數(shù)據(jù)。但由于這種方法操作過于簡單、容易失效,并且還可以通過對個體進(jìn)行再標(biāo)識后再進(jìn)行攻擊,所以一般僅用于作為匿名數(shù)據(jù)預(yù)處理的第一個環(huán)節(jié)或是非常簡單數(shù)據(jù)的發(fā)布情況。
插入噪音是指通過在原始數(shù)據(jù)中添加一些與原始數(shù)據(jù)吻合的干擾信息,來對原始數(shù)據(jù)進(jìn)行一些擾動,通過擾動使新數(shù)據(jù)與原始數(shù)據(jù)之間產(chǎn)生一些差異,從而減少隱私泄露的風(fēng)險。插入噪音數(shù)據(jù)的核心操作是保持原始數(shù)據(jù)相關(guān)性的統(tǒng)計屬性不改變,僅僅使某一條具體信息的準(zhǔn)確性降低,來減少隱私推理攻擊。因此,插入噪音數(shù)據(jù)的強(qiáng)度是我們需要把握的,也是我們在該技術(shù)研究過程中的研究重點。
國外對隱私保護(hù)的意識比較早,所以理論也較為先進(jìn),吸引了各方面學(xué)者對該領(lǐng)域的重視。我國在該方面的研究也慢慢地引起了學(xué)者的重視,在學(xué)者們的不斷的努力下也取得了顯著的成果。例如,多維桶分組技術(shù)就是針對多敏感屬性的隱私發(fā)布而提供的一種很好的方式。但是這種方法不是都適用,比如對于數(shù)值型敏感屬性的數(shù)據(jù)發(fā)布就不可以,還有一些延伸性的情況。雖然現(xiàn)在已經(jīng)對數(shù)據(jù)泄露問題有很高的重視,但是我們的解決方案還可以更加完善,精益求精。有很多問題可以研究得更細(xì)致,解決方案也可以變得更詳細(xì)。
可以通過設(shè)計匿名模型來解決數(shù)據(jù)發(fā)布中的隱私安全性問題,以防止對數(shù)據(jù)的攻擊和泄露。也可以根據(jù)模型,結(jié)合所需要的情境進(jìn)行數(shù)據(jù)發(fā)布。對數(shù)據(jù)發(fā)布和渠道之間可能出現(xiàn)的問題做出相應(yīng)的假設(shè),在潛在攻擊的可能性上提出相應(yīng)隱私保護(hù)的模型。
在多敏感屬性上容易出現(xiàn)聯(lián)合推理性攻擊,這需要我們多加防范。很多匿名模型只是單個敏感性屬性攻擊,這種攻擊方式較為單一,也相對容易預(yù)防。但當(dāng)其衍生或者多個單個敏感屬性疊加時,就容易出現(xiàn)問題。多個單屬性的投影及多個敏感屬性就會使簡單問題復(fù)雜化。雖然很多問題是簡化產(chǎn)生的,但多敏感屬性聯(lián)合的推理攻擊還是我們需要大力防范的問題。
雖然匿名化方法有很多,但是在選擇上還需要慎重。因為在執(zhí)行中可能會出現(xiàn)各種各樣的因素影響數(shù)據(jù)分析,影響數(shù)據(jù)可以操控的可能性,雖然現(xiàn)在的匿名研究也對這種可能性進(jìn)行了研究,但是我們可以拓展思路,對其他方法進(jìn)行探究。比如我們可以采用更合理的匿名方法,當(dāng)然也可以對這些方法進(jìn)行分解。
在統(tǒng)計匿名發(fā)布中,對匿名數(shù)據(jù)的有效性進(jìn)行測算,對可用性也要進(jìn)行度量,這樣才能知道匿名處理效果的影響。通過查詢準(zhǔn)確度來判斷匿名處理的情況,這是判斷匿名處理的重要標(biāo)準(zhǔn)。數(shù)據(jù)查詢的準(zhǔn)確率通過查詢的準(zhǔn)確度來判定,在統(tǒng)計查詢中,查詢準(zhǔn)確率越高,其可用性就越好。原始數(shù)據(jù)損失的部分叫做匿名代價,匿名代價越小,即說明匿名數(shù)據(jù)集可用度就越高。現(xiàn)在常見的匿名代價的測量是在匿名屬性層次化以及對比化進(jìn)行的。根據(jù)不同的情況,比如不同的度量方式,要使匿名度量變得準(zhǔn)確而又具有現(xiàn)實性就需要綜合因素進(jìn)行考量。
信息泄露風(fēng)險意味著惡意用戶通過已知信息來推斷自己想要信息的可能。比如很多信息通過攻擊者以獲取的發(fā)布數(shù)據(jù),推測出想要的數(shù)據(jù)。數(shù)據(jù)發(fā)布前進(jìn)行預(yù)先處理,以降低數(shù)據(jù)被泄露的風(fēng)險也是隱私保護(hù)的要求。而隱私保護(hù)的基礎(chǔ)是信息度量。
隱私保護(hù)不僅需要保護(hù)數(shù)據(jù)的可用性,還要減少數(shù)據(jù)被泄漏的風(fēng)險。所以在對原始數(shù)據(jù)進(jìn)行分類處理時,不能使信息造成損失而減少了數(shù)據(jù)的可用性。信息損失主要是因為修改后的數(shù)據(jù)和原數(shù)據(jù)相差太多,或者已經(jīng)削減了有效信息。其次是在原始數(shù)據(jù)處理時加入的噪聲強(qiáng)度過大,降低了數(shù)據(jù)的有效性。所以一定要避免將一些錯誤信息輸入到結(jié)果數(shù)據(jù)中,保證數(shù)據(jù)的可用性。
信息損失度量的方法非常多,但都需要在經(jīng)典信息損失度量方法的基礎(chǔ)上進(jìn)行完善。對不同的情境和需求進(jìn)行不同的信息損失度量方法的改變,因為每種方法都存在于它的適用情況,每種方法都具有各自的優(yōu)缺點,因此在選擇信息損失度計量方法時要考量其應(yīng)用的環(huán)境。
目前,大多數(shù)針對數(shù)據(jù)發(fā)布的隱私保護(hù)方法是面向單維敏感數(shù)據(jù),但在實際應(yīng)用中,數(shù)據(jù)中卻更多的是多維敏感屬性數(shù)據(jù)。如果將已有的針對單維敏感數(shù)據(jù)屬性數(shù)據(jù)的處理方法,直接應(yīng)用到多敏感屬性數(shù)據(jù)的處理中,就可能引起信息被泄露的風(fēng)險。因此,研究多維敏感屬性數(shù)據(jù)的隱私保護(hù),具有相當(dāng)重要的實際意義。