多敏感屬性數(shù)據(jù)發(fā)布的隱私保護(hù)方法分析

2019-02-13 12:35:34楊麗麗

數(shù)字通信世界 2019年6期

楊麗麗

（廣西警察學(xué)院，南寧 530000）

1 引言

信息化社會使我們的生活更加便捷，數(shù)據(jù)通信與資源共享更加方便，但互聯(lián)網(wǎng)中數(shù)據(jù)的傳輸與共享也會造成隱私的泄漏，使個人信息被泄露的風(fēng)險大大提升。目前，盡管研究者們都在不斷努力去預(yù)防信息泄露問題，但個人信息仍然以各種意想不到的方式被泄露。

當(dāng)下的隱私數(shù)據(jù)發(fā)布技術(shù)大多是針對單敏感屬性數(shù)據(jù)，而在實際應(yīng)用中，很多數(shù)據(jù)之間往往存在著某些特定的聯(lián)系，在發(fā)布一些信息時，就相當(dāng)于間接發(fā)布了另外一些信息，像這種相關(guān)聯(lián)系的信息屬性就叫做相關(guān)敏感屬性。由于單敏感屬性隱私數(shù)據(jù)的發(fā)布方法與多敏感屬性方法完全不同，所以，對于這樣的關(guān)聯(lián)信息敏感數(shù)據(jù)，利用單敏感屬性發(fā)布方法就很有可能會出現(xiàn)信息泄露問題。

2 隱私保護(hù)相關(guān)技術(shù)

2.1 數(shù)據(jù)泛化

數(shù)據(jù)泛化是指對數(shù)據(jù)表中的原始屬性值按照某種規(guī)則轉(zhuǎn)換，使轉(zhuǎn)換后的數(shù)據(jù)比原始數(shù)據(jù)包含的信息更多，以防范推理性攻擊。這種方法能夠保留原始數(shù)據(jù)的一些重要特性，所以能夠保證數(shù)據(jù)的可用性。

2.2 數(shù)據(jù)抑制

數(shù)據(jù)抑制是指通過采用從數(shù)據(jù)表的記錄中刪除某些或者部分屬性，來避免數(shù)據(jù)表的隱私泄露問題。數(shù)據(jù)抑制方法通常不會單獨使用，而是與數(shù)據(jù)泛化方法配合使用。

2.3 微聚合

微聚合是指將原始數(shù)據(jù)中相似的記錄組合在一起，形成一個等價組。為保證隱私安全，降低隱私泄露的風(fēng)險，數(shù)據(jù)發(fā)布時只發(fā)布等價組中最具代表性的元祖。但用何種方式進(jìn)行微聚合，其相應(yīng)的數(shù)值應(yīng)該如何計算是我們需要研究的課題。

2.4 數(shù)據(jù)交換

數(shù)據(jù)交換是指將原始數(shù)據(jù)表中各個數(shù)據(jù)記錄的相應(yīng)屬性值進(jìn)行隨機(jī)交換，然后將交換后的數(shù)據(jù)用來發(fā)布以滿足信息不被泄露的目的。但是，數(shù)據(jù)交換的前提是，需要保證原始數(shù)據(jù)表中的一些重要統(tǒng)計特性得到保持。通過使交換后的數(shù)據(jù)與原始數(shù)據(jù)無法對應(yīng)的方式來使數(shù)據(jù)增加一些不確定性，從而增加數(shù)據(jù)分析的難度，以降低數(shù)據(jù)泄露的風(fēng)險。但是，需要研究如何在數(shù)據(jù)交換過程中使原始信息盡可能地保留，而保持原始數(shù)據(jù)保留統(tǒng)計屬性也是信息交換技術(shù)研究的目標(biāo)。

2.5 子采樣

子采樣是指在數(shù)據(jù)發(fā)布時不將全部的原始數(shù)據(jù)對外發(fā)布，而是抽取具有代表性的小部分?jǐn)?shù)據(jù)記錄進(jìn)行分析研究。這樣不僅可減少發(fā)布數(shù)據(jù)記錄的數(shù)量，而且因大部分記錄沒有發(fā)布而減少了隱私泄露的風(fēng)險。但是，由于減少樣本容量，就需要對數(shù)據(jù)進(jìn)行更細(xì)致的分析。這樣不僅增加了分析的工作量，還會使數(shù)據(jù)發(fā)布的準(zhǔn)確性降低。為了提升數(shù)據(jù)的可用性，子采樣方法需要盡可能地保留原始數(shù)據(jù)中的有用信息。這種方法比較適用于發(fā)布推理攻擊性行為數(shù)據(jù)，但也不是全部都適用。

2.6 去標(biāo)識

去標(biāo)識是指將原始數(shù)據(jù)表中惟一準(zhǔn)確標(biāo)識記錄的顯示標(biāo)識符去除，比如去除姓名數(shù)據(jù)。但由于這種方法操作過于簡單、容易失效，并且還可以通過對個體進(jìn)行再標(biāo)識后再進(jìn)行攻擊，所以一般僅用于作為匿名數(shù)據(jù)預(yù)處理的第一個環(huán)節(jié)或是非常簡單數(shù)據(jù)的發(fā)布情況。

2.7 插入噪音

插入噪音是指通過在原始數(shù)據(jù)中添加一些與原始數(shù)據(jù)吻合的干擾信息，來對原始數(shù)據(jù)進(jìn)行一些擾動，通過擾動使新數(shù)據(jù)與原始數(shù)據(jù)之間產(chǎn)生一些差異，從而減少隱私泄露的風(fēng)險。插入噪音數(shù)據(jù)的核心操作是保持原始數(shù)據(jù)相關(guān)性的統(tǒng)計屬性不改變，僅僅使某一條具體信息的準(zhǔn)確性降低，來減少隱私推理攻擊。因此，插入噪音數(shù)據(jù)的強(qiáng)度是我們需要把握的，也是我們在該技術(shù)研究過程中的研究重點。

3 隱私保護(hù)技術(shù)研究現(xiàn)狀

國外對隱私保護(hù)的意識比較早，所以理論也較為先進(jìn)，吸引了各方面學(xué)者對該領(lǐng)域的重視。我國在該方面的研究也慢慢地引起了學(xué)者的重視，在學(xué)者們的不斷的努力下也取得了顯著的成果。例如，多維桶分組技術(shù)就是針對多敏感屬性的隱私發(fā)布而提供的一種很好的方式。但是這種方法不是都適用，比如對于數(shù)值型敏感屬性的數(shù)據(jù)發(fā)布就不可以，還有一些延伸性的情況。雖然現(xiàn)在已經(jīng)對數(shù)據(jù)泄露問題有很高的重視，但是我們的解決方案還可以更加完善，精益求精。有很多問題可以研究得更細(xì)致，解決方案也可以變得更詳細(xì)。

4 多敏感屬性數(shù)據(jù)的隱私保護(hù)策略

4.1 設(shè)計匿名模型

可以通過設(shè)計匿名模型來解決數(shù)據(jù)發(fā)布中的隱私安全性問題，以防止對數(shù)據(jù)的攻擊和泄露。也可以根據(jù)模型，結(jié)合所需要的情境進(jìn)行數(shù)據(jù)發(fā)布。對數(shù)據(jù)發(fā)布和渠道之間可能出現(xiàn)的問題做出相應(yīng)的假設(shè)，在潛在攻擊的可能性上提出相應(yīng)隱私保護(hù)的模型。

4.2 防范聯(lián)合性攻擊

在多敏感屬性上容易出現(xiàn)聯(lián)合推理性攻擊，這需要我們多加防范。很多匿名模型只是單個敏感性屬性攻擊，這種攻擊方式較為單一，也相對容易預(yù)防。但當(dāng)其衍生或者多個單個敏感屬性疊加時，就容易出現(xiàn)問題。多個單屬性的投影及多個敏感屬性就會使簡單問題復(fù)雜化。雖然很多問題是簡化產(chǎn)生的，但多敏感屬性聯(lián)合的推理攻擊還是我們需要大力防范的問題。

4.3 采用更合理的匿名方法

雖然匿名化方法有很多，但是在選擇上還需要慎重。因為在執(zhí)行中可能會出現(xiàn)各種各樣的因素影響數(shù)據(jù)分析，影響數(shù)據(jù)可以操控的可能性，雖然現(xiàn)在的匿名研究也對這種可能性進(jìn)行了研究，但是我們可以拓展思路，對其他方法進(jìn)行探究。比如我們可以采用更合理的匿名方法，當(dāng)然也可以對這些方法進(jìn)行分解。

4.4 對匿名數(shù)據(jù)的有效性進(jìn)行測算

在統(tǒng)計匿名發(fā)布中，對匿名數(shù)據(jù)的有效性進(jìn)行測算，對可用性也要進(jìn)行度量，這樣才能知道匿名處理效果的影響。通過查詢準(zhǔn)確度來判斷匿名處理的情況，這是判斷匿名處理的重要標(biāo)準(zhǔn)。數(shù)據(jù)查詢的準(zhǔn)確率通過查詢的準(zhǔn)確度來判定，在統(tǒng)計查詢中，查詢準(zhǔn)確率越高，其可用性就越好。原始數(shù)據(jù)損失的部分叫做匿名代價，匿名代價越小，即說明匿名數(shù)據(jù)集可用度就越高。現(xiàn)在常見的匿名代價的測量是在匿名屬性層次化以及對比化進(jìn)行的。根據(jù)不同的情況，比如不同的度量方式，要使匿名度量變得準(zhǔn)確而又具有現(xiàn)實性就需要綜合因素進(jìn)行考量。

信息泄露風(fēng)險意味著惡意用戶通過已知信息來推斷自己想要信息的可能。比如很多信息通過攻擊者以獲取的發(fā)布數(shù)據(jù)，推測出想要的數(shù)據(jù)。數(shù)據(jù)發(fā)布前進(jìn)行預(yù)先處理，以降低數(shù)據(jù)被泄露的風(fēng)險也是隱私保護(hù)的要求。而隱私保護(hù)的基礎(chǔ)是信息度量。

4.5 信息損失度量

隱私保護(hù)不僅需要保護(hù)數(shù)據(jù)的可用性，還要減少數(shù)據(jù)被泄漏的風(fēng)險。所以在對原始數(shù)據(jù)進(jìn)行分類處理時，不能使信息造成損失而減少了數(shù)據(jù)的可用性。信息損失主要是因為修改后的數(shù)據(jù)和原數(shù)據(jù)相差太多，或者已經(jīng)削減了有效信息。其次是在原始數(shù)據(jù)處理時加入的噪聲強(qiáng)度過大，降低了數(shù)據(jù)的有效性。所以一定要避免將一些錯誤信息輸入到結(jié)果數(shù)據(jù)中，保證數(shù)據(jù)的可用性。

信息損失度量的方法非常多，但都需要在經(jīng)典信息損失度量方法的基礎(chǔ)上進(jìn)行完善。對不同的情境和需求進(jìn)行不同的信息損失度量方法的改變，因為每種方法都存在于它的適用情況，每種方法都具有各自的優(yōu)缺點，因此在選擇信息損失度計量方法時要考量其應(yīng)用的環(huán)境。

5 結(jié)束語

目前，大多數(shù)針對數(shù)據(jù)發(fā)布的隱私保護(hù)方法是面向單維敏感數(shù)據(jù)，但在實際應(yīng)用中，數(shù)據(jù)中卻更多的是多維敏感屬性數(shù)據(jù)。如果將已有的針對單維敏感數(shù)據(jù)屬性數(shù)據(jù)的處理方法，直接應(yīng)用到多敏感屬性數(shù)據(jù)的處理中，就可能引起信息被泄露的風(fēng)險。因此，研究多維敏感屬性數(shù)據(jù)的隱私保護(hù)，具有相當(dāng)重要的實際意義。