• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      差分隱私保護下的高維數(shù)據(jù)集發(fā)布

      2022-06-17 03:38:22
      關(guān)鍵詞:高維概率分布可用性

      朱 徐 亞

      (安徽理工大學 計算機科學與工程學院, 安徽 淮南 232001)

      近年來,個人隱私泄露問題開始引發(fā)人們的擔憂,數(shù)據(jù)隱私保護成為計算機學科的熱門領(lǐng)域。其中,高維合成數(shù)據(jù)集的隱私保護數(shù)據(jù)發(fā)布問題是一個巨大的挑戰(zhàn)。一般的高維數(shù)據(jù)集發(fā)布算法會出現(xiàn)計算復(fù)雜度過高的問題,若直接使用擾動策略對數(shù)據(jù)集加噪,會因為注入過多的噪聲導致數(shù)據(jù)的可用性降低。目前最流行的解決方案是采用差分隱私機制[1]。Mohammed等[2]提出了一種針對決策樹分析的差分隱私合成數(shù)據(jù)發(fā)布算法DiffGen。Chen等[3]提出了一種基于新型稀疏向量技術(shù)合成數(shù)據(jù)集的方法,結(jié)合差分隱私分析所有屬性之間的成對關(guān)系生成無向的依賴關(guān)系圖,并由此得到聯(lián)合樹模型。然而該新型向量技術(shù)中的隱私分析過程是錯誤的[4],無法實現(xiàn)預(yù)期的隱私保障。Li等[5]提出了一個利用高斯Copula函數(shù)的差分隱私數(shù)據(jù)合成器DPSynthesizer。Zhang等[6]提出了一種基于貝葉斯網(wǎng)絡(luò)的高維合成數(shù)據(jù)集生成算法PrivBayes,目前流行的GAN模型的結(jié)構(gòu)化數(shù)據(jù)生成算法仍處于起步階段,存在諸多缺陷[7-8]。

      為了解決PrivBayes在貝葉斯網(wǎng)絡(luò)建模階段使用互信息作為屬性相關(guān)性衡量標準所帶來的數(shù)據(jù)信噪比低的問題,本文提出基于差分隱私采樣機制的DPSM-Bayes算法,通過采樣機制調(diào)整數(shù)據(jù)量的大小,能夠使數(shù)據(jù)集獲得最優(yōu)可用性,提出一種改進的Laplace機制替換原本的差分隱私Laplace機制,可以有效地降低在較低的概率分布上添加正的Laplace噪聲所引起的系統(tǒng)偏差,在隱私保護程度不變的情況下,進一步提高數(shù)據(jù)集的可用性。

      1 基本概念

      假設(shè)數(shù)據(jù)持有方A將數(shù)據(jù)發(fā)布給數(shù)據(jù)使用方B,數(shù)據(jù)使用方B希望從數(shù)據(jù)中學到盡可能多的知識,與此同時,A不希望B學到任何的個體信息。假設(shè)數(shù)據(jù)持有方A持有的數(shù)據(jù)集為高維列表數(shù)據(jù)集,數(shù)據(jù)集D由d個屬性或隨機變量組成,即X={X1,X2,…,Xd},數(shù)據(jù)集包含n條元組且符合獨立同分布。算法實現(xiàn)的目標是采用非交互式查詢框架,直接發(fā)布一個滿足差分隱私保護的脫敏的合成數(shù)據(jù)集。

      1.1 差分隱私

      2006年,Dwork等[9]提出差分隱私的概念,要求所發(fā)布數(shù)據(jù)集的任何信息必須要經(jīng)過一個隨機化算法的處理,保障數(shù)據(jù)集中的任何一條記錄的個體信息不被泄露。差分隱私擁有嚴格的統(tǒng)計學定義,能夠?qū)﹄[私保護水平進行量化評估。

      定義1ε-差分隱私[9]:假設(shè)有隨機化算法G,O為G的任意可能輸出,若對于任意兩個至多相差一條元組的相鄰數(shù)據(jù)集D1和D2,滿足:

      Pr[G(D1)=O]≤eε·Pr[G(D2)=O]

      (1)

      則稱算法G滿足ε-差分隱私保護。其中:參數(shù)ε為隱私保護預(yù)算;Pr[·]表示事件發(fā)生的概率。

      定義2 全局敏感度[9]:設(shè)有函數(shù)f:D→Rd,輸入為一數(shù)據(jù)集,輸出為一個d維實數(shù)向量,對于任意的相鄰數(shù)據(jù)集D1和D2,

      (2)

      稱為函數(shù)f的全局敏感度。

      定義3 Laplace機制[9]:設(shè)有函數(shù)f:D→Rd,函數(shù)的敏感度為Δf,若Y~Lap(Δf/ε)為加入的隨機噪聲,則算法G(D)=f(D)+Y滿足ε-差分隱私保護。

      定義5 序列組合性[11]:設(shè)有一個隨機化算法序列G1,G2,…,Gm,算法Gi符合εi-差分隱私保護,則算法序列Gi(D)滿足(∑iεi)-差分隱私保護。

      定義6 并行組合性[12]:設(shè)有一組隨機化算法G1,G2,…,Gm,算法Gi符合εi-差分隱私保護,對于任意不相交的數(shù)據(jù)集D1,D2,…,Dm,則由這些算法組成的組合算法G(G1(D1),G2(D2),…Gm(Dm))滿足(maxεi)-差分隱私保護。

      1.2 貝葉斯網(wǎng)絡(luò)

      貝葉斯網(wǎng)絡(luò)[13]又被稱為信念網(wǎng)絡(luò),是一種概率圖型模型,是一個有向無環(huán)圖如圖1所示。對于數(shù)據(jù)集D,D中的每個屬性被表示為一個節(jié)點,數(shù)據(jù)集中屬性間的相互關(guān)系被表示為有向邊的形式。

      圖1 貝葉斯網(wǎng)絡(luò)

      貝葉斯網(wǎng)絡(luò)為概率分布提供了一種簡潔的表示方式,可以使用貝葉斯網(wǎng)絡(luò)來描述概率分布中隨機變量之間的相互依賴關(guān)系,從而描述一個概率分布。假設(shè)有一個離散隨機變量集合X={X1,X2,…,Xd},貝葉斯網(wǎng)絡(luò)可以將它們的聯(lián)合概率分布表示為

      (3)

      也稱貝葉斯網(wǎng)絡(luò)的鏈式法則[14],貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習領(lǐng)域就是專門研究這個問題的[15]。

      2 差分隱私保護下的高維數(shù)據(jù)集發(fā)布算法

      針對PrivBayes算法的缺點,本文提出一種新穎的差分隱私保護下的高維數(shù)據(jù)集發(fā)布算法DPSM-Bayes,實現(xiàn)流程圖如圖2所示。

      圖2 差分隱私保護下的高維數(shù)據(jù)集發(fā)布算法流程圖

      2.1 基于采樣機制構(gòu)建滿足差分隱私保護的貝葉斯網(wǎng)絡(luò)

      為了降低計算復(fù)雜度,GreedyBayes算法將貝葉斯網(wǎng)絡(luò)的度k限制在一個較小的值,大大減少了時間開銷,使用互信息作為屬性間相關(guān)程度的評分函數(shù),利用差分隱私指數(shù)機制,選擇出滿足差分隱私保護的最優(yōu)父節(jié)點集,進而構(gòu)造出滿足差分隱私保護的貝葉斯網(wǎng)絡(luò)。

      相比較于互信息I的值域,互信息的敏感度是一個不小的值,當評分函數(shù)的敏感度較大時,很有可能添加的噪聲量覆蓋了原本的數(shù)據(jù)量,導致構(gòu)建的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)與數(shù)據(jù)集概率分布的擬合程度較差。因此,本文利用差分隱私采樣機制[16]滿足差分隱私保護的貝葉斯網(wǎng)絡(luò)構(gòu)建算法SMBayes。

      定義7 采樣機制[16]:設(shè)有滿足ε-差分隱私的隨機化算法G,則對于這樣的一個算法Gα:首先以概率α對輸入數(shù)據(jù)集中每條元組獨立采樣,接著對采樣得到的數(shù)據(jù)集應(yīng)用算法G。則算法Gα為輸入數(shù)據(jù)集提供了ln(1+α(eε-1))-差分隱私保護。

      本文提出基于差分隱私采樣機制的子算法SMBayes算法,輸入為原始數(shù)據(jù)集D、貝葉斯網(wǎng)絡(luò)的度k、隱私預(yù)算ε1,輸出為貝葉斯網(wǎng)絡(luò)N。該算法的具體描述步驟:

      (1)計算采樣率α;

      (2)以概率α對D中的元組采樣,得到輸入數(shù)據(jù)集D′;

      (3)εα=ln(eε1-1+α)-lnα;

      (4)初始化N=?,V=?;

      (5)隨機選取X中的一個屬性作為貝葉斯網(wǎng)絡(luò)的首節(jié)點X1,將(X1,?)添加到N,將X1添加到V;

      (6)fori=2 tod;

      (7)初始化Ω=?;

      (9)對輸入數(shù)據(jù)集D′,使用差分隱私指數(shù)機制,以互信息為評分函數(shù),隱私預(yù)算為εα/(d-1),從Ω中選出一個AP對(Xi,Π(Xi));

      (10)將選出的AP對(Xi,Π(Xi))添加到N,將Xi添加到V;

      (11)end for;

      (12)returnN。

      通過分析不同數(shù)據(jù)集大小情況下,敏感度ΔI與采樣機制的隱私預(yù)算εα之間的關(guān)系,得到采樣輸入數(shù)據(jù)集D′最佳尺寸的計算公式:

      (4)

      其中:1

      2.2 基于改進的Laplace機制對邊緣分布加噪

      本文提出改進的Laplace機制IMLap-Noisy算法。該算法的輸入為原始數(shù)據(jù)集D、貝葉斯網(wǎng)絡(luò)N、隱私預(yù)算ε2,輸出為d個滿足差分隱私保護的邊緣條件概率分布。IMLap-Noisy算法具體描述步驟:

      (1)初始化P*=?;

      (2)fori=1 tod;

      (3)由AP對(Xi,Π(Xi))和D實體化聯(lián)合概率分布Pr(Xi,Π(Xi));

      (5)根據(jù)Pr*(Xi,Π(Xi))計算閾值t;

      (6)forpinPr*(Xi,Π(Xi));

      (7)ifp

      (8)end for;

      (9)歸一化Pr*(Xi,Π(Xi));

      (10)由Pr*(Xi,Π(Xi))得到Pr*(Xi|Π(Xi))并將其添加到P*;

      (11)end for;

      (12)returnP*;

      閾值t計算是IMLaplace機制的核心,t的計算公式為

      (5)

      其中:t=i/1 000,i∈*且0

      從邊緣分布采樣生成合成數(shù)據(jù)集的過程相對于前兩個過程較為簡單,利用貝葉斯網(wǎng)絡(luò)的特點,采用邏輯采樣方法[17]。每次通過一個低維條件概率分布采樣出對應(yīng)的一個屬性值,作為其他屬性的父節(jié)點取值進而確定下一個屬性的值。由于貝葉斯網(wǎng)絡(luò)是一個有向無環(huán)圖,當我們對最后一個屬性進行采樣時,在此之前的所有屬性都已經(jīng)采樣結(jié)束,即得到了一條完整的記錄。邏輯采樣可以生成任意數(shù)量的記錄,考慮到某些應(yīng)用需要合成數(shù)據(jù)集與原始數(shù)據(jù)集的記錄數(shù)量相似,同時有利于在實驗評估階段對兩個數(shù)據(jù)集進行對比分析,仍然選用n作為合成數(shù)據(jù)集的大小。

      3 實驗評估

      實驗選用的數(shù)據(jù)集的具體描述如表1所示,選用平均變分距離和Wasserstein距離作為概率分布間的距離度量,選用SVM分類準確度作為合成數(shù)據(jù)集可用性的度量標準。

      表1 實驗選用的數(shù)據(jù)集

      3.1 IMLaplace機制的性能

      為了評估IMLaplace機制的性能,將IMLaplace機制與原始Laplace機制進行對比,采用平均變分距離和Wasserstein距離作為加噪前后的概率分布的距離度量,評估兩種機制加入的噪聲對概率分布的影響;將由概率分布采樣出的數(shù)據(jù)集構(gòu)造的支持向量機(SVM)分類器模型的分類準確度作為數(shù)據(jù)可用性的度量,一定程度上可以反映兩種加噪機制對數(shù)據(jù)集質(zhì)量的影響程度。實驗中選用的數(shù)據(jù)集為Cancer、Sachs和Alarm,實驗結(jié)果均為20次實驗的平均值。實驗結(jié)果如表2和表3所示。在平均變分距離和Wasserstein距離2種度量下,IMLaplace機制都取得了比原始的Laplace機制更好的效果。

      表2 平均變分距離 單位:%

      表3 Wasserstein距離 單位:%

      在評估2種加噪機制對數(shù)據(jù)集質(zhì)量和可用性的影響,每個數(shù)據(jù)集分別選出兩個屬性作為兩組實驗的類別屬性,其他屬性作為特征屬性,構(gòu)造SVM分類器模型,將原始數(shù)據(jù)集的20%作為測試集,驗證2種機制下的分類準確度。隱私預(yù)算ε設(shè)置為0.01~1.6,結(jié)果如圖3~圖5所示。NoLaplace表示不對概率分布進行Laplace加噪處理,在圖中作為基準分類準確度。

      (a) Cancer Y=Smoker (b) Cancer Y=Cancer

      (a) Sachs Y=Mek (b) Sachs Y=Raf

      (a) Alarm Y=LVEDVolume (b) Alarm Y=TPR

      隨著隱私預(yù)算ε的增加,不同數(shù)據(jù)集上屬性的分類準確度均逐漸增大因為隱私預(yù)算增加時,對數(shù)據(jù)的隱私保護程度降低,對數(shù)據(jù)添加的噪聲擾動較少,數(shù)據(jù)集的質(zhì)量和可用性提高。當隱私預(yù)算ε的值較小時,能夠看到IMLaplace機制得到的數(shù)據(jù)集的分類準確度明顯高于Laplace機制,并且隨著隱私預(yù)算ε的增加,兩者之間的差距呈現(xiàn)逐漸縮小的變化趨勢,直到接近基準分類準確度,因為在隱私預(yù)算ε的值較小的情況下,Laplace機制添加的噪聲值較大的概率最高,對較低的概率值添加正噪聲的概率也最高,IMLaplace機制能夠很好地解決該問題。

      3.2 DPSM-Bayes算法的性能

      為了驗證和評估DPSM-Bayes算法的性能優(yōu)越性,選用PrivBayes算法作為對照組,分別讓兩種算法輸出的合成數(shù)據(jù)集執(zhí)行分類任務(wù),選用SVM分類器作為分類模型,通過分類準確度驗證兩種算法生成的數(shù)據(jù)集的質(zhì)量和可用性,如圖6和圖7所示。

      隨著隱私預(yù)算ε的增加,在NLTCS和ACS兩個數(shù)據(jù)集上的分類準確度均逐漸增加,表明隱私保護程度和數(shù)據(jù)的可用性是矛盾的,隱私保護程度越高,數(shù)據(jù)集的可用性就越低。因此,在實際應(yīng)用中要在隱私保護程度和數(shù)據(jù)可用性之間尋求一個平衡點。另外,相對于NLTCS數(shù)據(jù)集,ACS數(shù)據(jù)集上2種算法的分類準確度與基準分類準確度的距離明顯更大。在圖6和圖7中,DPSM-Bayes算法生成數(shù)據(jù)集的分類準確度均高于PrivBayes算法的分類準確度,表明DPSM-Bayes算法生成的數(shù)據(jù)集的質(zhì)量和可用性明顯優(yōu)于PrivBayes算法。

      (a) NLTCS Y=Outside (b) NLTCS Y=Bathroom

      (a) ACS Y=Mortgage (b) ACS Y=School

      4 結(jié) 語

      為了解決隱私保護高維數(shù)據(jù)集發(fā)布中存在的計算復(fù)雜度高和數(shù)據(jù)可用性低的問題,針對PrivBayes算法的缺陷,提出了DPSM-Bayes算法,優(yōu)化了互信息敏感度過高帶來的信噪比低的問題,利用差分隱私采樣機制選取更合適的數(shù)據(jù)集尺寸,從而緩解該問題。本文還提出了更適合于高維數(shù)據(jù)分布加噪的IMLaplace機制,能夠有效地緩解由于在較低的概率值上加入正噪聲所帶來的誤差。在相同的隱私保護程度下,DPSM-Bayes算法在數(shù)據(jù)生成質(zhì)量和可用性上明顯優(yōu)于PrivBayes算法,實現(xiàn)了隱私保護高維數(shù)據(jù)集發(fā)布在隱私性和可用性之間的平衡。

      猜你喜歡
      高維概率分布可用性
      基于文獻計量學的界面設(shè)計可用性中外對比研究
      包裝工程(2023年24期)2023-12-27 09:18:26
      基于輻射傳輸模型的GOCI晨昏時段數(shù)據(jù)的可用性分析
      離散型概率分布的ORB圖像特征點誤匹配剔除算法
      一種改進的GP-CLIQUE自適應(yīng)高維子空間聚類算法
      基于加權(quán)自學習散列的高維數(shù)據(jù)最近鄰查詢算法
      電信科學(2017年6期)2017-07-01 15:44:37
      關(guān)于概率分布函數(shù)定義的辨析
      科技視界(2016年19期)2017-05-18 10:18:46
      基于概率分布的PPP項目風險承擔支出測算
      一般非齊次非線性擴散方程的等價變換和高維不變子空間
      空客A320模擬機FD1+2可用性的討論
      河南科技(2015年7期)2015-03-11 16:23:13
      高維Kramers系統(tǒng)離出點的分布問題
      铅山县| 安义县| 尤溪县| 东兴市| 彩票| 原阳县| 邵阳县| 荣昌县| 石狮市| 连城县| 临邑县| 平泉县| 侯马市| 广饶县| 确山县| 茌平县| 芮城县| 延庆县| 家居| 温宿县| 沂源县| 西和县| 泾阳县| 确山县| 新竹市| 九寨沟县| 绵竹市| 原平市| 儋州市| 庆安县| 天水市| 永州市| 乌兰察布市| 南涧| 比如县| 明水县| 定南县| 西藏| 巨野县| 万源市| 得荣县|