• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      應(yīng)用BWP指標(biāo)的差分隱私保護k-means算法

      2022-05-19 13:27:38張亞玲屈玲玉
      計算機工程與應(yīng)用 2022年10期
      關(guān)鍵詞:離群可用性差分

      張亞玲,屈玲玉

      西安理工大學(xué) 計算機科學(xué)與工程學(xué)院,西安 710048

      隨著大數(shù)據(jù)和信息技術(shù)的快速發(fā)展,數(shù)據(jù)挖掘成為當(dāng)前大數(shù)據(jù)環(huán)境下獲取信息的重要方法[1]。聚類分析是一種經(jīng)典的數(shù)據(jù)挖掘方法,允許從大量的數(shù)據(jù)中挖掘隱含的、有價值的知識和規(guī)則。許多企業(yè)收集了各領(lǐng)域的大量數(shù)據(jù),利用聚類分析等技術(shù)對這些數(shù)據(jù)進行處理,以便開展科學(xué)研究、推送廣告等,通過聚類可以提高其服務(wù)質(zhì)量。然而,聚類分析通常包含用戶數(shù)據(jù),如果這些數(shù)據(jù)被不法分子加以利用,將會對個人隱私產(chǎn)生嚴(yán)重的威脅。因此,如何在聚類分析過程中保護用戶的個人隱私已逐漸成為數(shù)據(jù)挖掘和信息安全領(lǐng)域中的熱點問題。

      針對以上問題,早期研究提出了基于等價類的kanonymity[2]及其一系列擴展模型。但這些模型沒有一個嚴(yán)格的數(shù)學(xué)公式可以證明其隱私保護水平,并且需要不斷改進來抵御新的攻擊,如背景知識攻擊[3]和合成攻擊[4]?;诖吮尘?,2006年,Dwork提出了差分隱私(differential privacy,DP)[5]的概念。在此定義下,對數(shù)據(jù)集的處理結(jié)果對于具體某個記錄的變化是不敏感的,單個記錄在數(shù)據(jù)集中或者不在數(shù)據(jù)集中,對計算結(jié)果的影響微乎其微,因此攻擊者無法通過觀察計算結(jié)果而獲取準(zhǔn)確的個體信息[6]。同時,差分隱私建立在嚴(yán)格的數(shù)學(xué)定義之上,并對隱私披露風(fēng)險給出了定量化的表示和證明。隨后,Dwork等人持續(xù)完善和補充了差分隱私理論[7-11]。何賢芒等人[12]提出了一個差分隱私保護攻擊模型,并基于這個模型,提出了一個差分隱私保護技術(shù)的攻擊算法和參數(shù)ε的選取計算公式。

      作為最常用的聚類算法之一,k-means由于簡單、高效等特點被廣泛應(yīng)用于各個領(lǐng)域,然而在算法執(zhí)行過程中,對中心的更新過程會泄露數(shù)據(jù)集的信息,許多研究者進行了差分隱私k-means算法的研究。

      Blum等人[13]提出了一種差分隱私k-means算法(DPK-means),在獲取聚類結(jié)果的同時保護數(shù)據(jù)隱私,并在SuLQ平臺上實現(xiàn),但該算法全局敏感度較大,且沒有給出迭代過程中如何分配隱私預(yù)算。Dwork[11]在Blum的基礎(chǔ)上,從隱私預(yù)算分配的角度對其進行了完善,提出了兩種隱私預(yù)算分配的方法。Nissim等人[14]提出了PK-means算法,給出了計算查詢函數(shù)敏感度的方法,使k-means聚類中心滿足差分隱私保護,但它的約束條件較多,實用性不強。李楊等人[15]針對隱私預(yù)算ε降低到一定值時聚類可用性變差的問題,提出了IDPKmeans算法,優(yōu)化了初始聚類中心的選擇,卻忽視了離群點對最終聚類結(jié)果的負面影響。Yu等人[16]考慮了離群點的消極影響,在IDPK-means的基礎(chǔ)上提出了OEDPKmeans算法,利用異常值檢測算法,根據(jù)數(shù)據(jù)點的密度分布選擇合適的初始中心,但是該算法時間復(fù)雜度較大,在某些數(shù)據(jù)分布下收斂速度較慢。Ren等人[17]為了提高DPK-means算法的聚類效率,提出了DPLK-means算法,該算法通過對原始數(shù)據(jù)集劃分的每個子集執(zhí)行差分隱私k-means算法來改進初始中心點的選擇,但是聚類結(jié)果受數(shù)據(jù)分布影響較大,當(dāng)數(shù)據(jù)集較小時,算法不能很好地工作。胡闖等人[18]在DPK-means算法的基礎(chǔ)上,引入k-means++算法改進初始中心點的選擇,但是該算法對于不規(guī)則的數(shù)據(jù)集會產(chǎn)生較差的聚類效果。樊一康等人[19]提出的TripleP K-means算法通過計算數(shù)據(jù)集中各點的最近鄰超球半徑以消除離群點的消極影響,但當(dāng)隱私預(yù)算較小時,聚類效果不理想。Fan等人[20]針對傳統(tǒng)的隱私預(yù)算分配存在迭代次數(shù)越多隨機噪聲越大的問題,提出了一種基于等差數(shù)列隱私預(yù)算分配的APDPK-means算法,在迭代過程中由大到小分配隱私預(yù)算,以保證其在迭代早期可以快速收斂。

      從改進差分隱私保護k-means算法的隱私預(yù)算分配機制以提高聚類結(jié)果的可用性出發(fā),本文引入BWP(between-within proportion)指標(biāo),提出一個改進的差分隱私k-means算法BDPK-means(BWP differential privacyk-means)。BDPK-means算法根據(jù)每一次迭代中不同聚類簇具有不同密度分布的特點,分配不同的隱私預(yù)算,避免聚類簇太小或者密度太大而添加過大的隨機噪聲,規(guī)避由于數(shù)據(jù)擾動造成聚類中心點偏移過大的問題,使隱私性和可用性達到一個較好的平衡。實驗表明,本文BDPK-means算法在可用性與穩(wěn)定性上優(yōu)于現(xiàn)有的同類差分隱私k-means算法。

      1 預(yù)備知識

      1.1 差分隱私

      差分隱私是一種基于數(shù)據(jù)失真的隱私保護技術(shù),通過添加隨機噪聲干擾數(shù)據(jù)來保證數(shù)據(jù)具有一定的隱私性,同時保證原有數(shù)據(jù)的統(tǒng)計特性及可用性,以便進行數(shù)據(jù)分析等操作。

      定義1(ε-差分隱私[5])設(shè)有隨機算法M,P M為M所有可能輸出構(gòu)成的集合。對于任意兩個鄰近數(shù)據(jù)集D和D′以及P M的任何子集S,若算法M滿足:

      則稱算法M滿足ε-差分隱私保護。其中,D和D′是相差最多為一條記錄的兩個鄰近數(shù)據(jù)集,參數(shù)ε稱為隱私保護預(yù)算。隱私預(yù)算代表隱私保障的水平,越小的隱私預(yù)算提供越嚴(yán)格的隱私保護水平。

      定義2(全局敏感度[7])設(shè)有查詢函數(shù)f:D→Rd,輸入為一數(shù)據(jù)集,輸出為d維實數(shù)向量。對于任意鄰近數(shù)據(jù)集D和D′:

      稱為函數(shù)f的全局敏感度?!?表示1-階范數(shù)距離。

      差分隱私有兩種實現(xiàn)機制,Laplace機制與指數(shù)機制,其中Laplace機制適用于處理數(shù)值型數(shù)據(jù),指數(shù)機制適用于非數(shù)值型結(jié)果。本文采用Laplace機制實現(xiàn)差分隱私保護。

      定義3(Laplace機制[8])給定數(shù)據(jù)集D,設(shè)有函數(shù)f:D→Rd,其中函數(shù)敏感度為Δf,那么隨機算法M(D)=f(D)+Y提供ε-差分隱私保護,Y~Lap(Δf/ε)服從尺度參數(shù)Δf/ε的Laplace分布。

      Laplace機制是通過向結(jié)果中加入服從Laplace分布的隨機噪聲來實現(xiàn)差分隱私保護。將位置參數(shù)為0、尺度參數(shù)為b的Laplace分布記為Lap(b),其概率密度函數(shù)為:

      此外,一個復(fù)雜的隱私保護問題通常需要多次應(yīng)用差分隱私保護算法才能得以解決。在這種情況下,隱私預(yù)算兩個組合性質(zhì)對于聚類算法的隱私分配過程具有重要的意義。

      性質(zhì)1(序列組合性[21])設(shè)有算法M1,M2,…,M n,算法的隱私預(yù)算分別為ε1,ε2,…,εn,那么對于同一數(shù)據(jù)集D,算法{M1,M2,…,M n}在D上構(gòu)成的組合算法M(M1(D),M2(D),…,M n(D))提供ε-差分隱私,其中ε=

      性質(zhì)2(并行組合性[21])設(shè)有算法M1,M2,…,M n,算法的隱私預(yù)算分別為ε1,ε2,…,εn,將D分為不相交的數(shù)據(jù)集D1,D2,…,D n,算法{M1,M2,…,M n}構(gòu)成的組合算法M(M1(D1),M2(D2),…,Mn(D n))提供ε-差分隱私,其中ε=max(εi)。

      1.2 差分隱私保護k-means聚類

      基于差分隱私保護的k-means聚類算法旨在改變數(shù)據(jù)集中的任意一條記錄時,各聚類簇中心和數(shù)據(jù)數(shù)目產(chǎn)生的相應(yīng)變化不會泄露隱私信息。文獻[19]提出的TripleP K-means算法考慮了k-means算法對離群點較敏感的缺點,對離群點進行修剪,實現(xiàn)了在單機環(huán)境和分布式環(huán)境下對k-means算法添加差分隱私的過程。文獻[19]中有關(guān)離群點的定義如下:

      定義4(r-最近鄰超球半徑[19])對于RT上的數(shù)據(jù)集D={x1,x2,…,x N},稱任一數(shù)據(jù)點xi與離其最近的r個數(shù)據(jù)點在T維空間中構(gòu)成的超球為x i的r-最近鄰超球,這一概念原型為文獻[16]中的r-最近鄰區(qū)域。點x i與其超球中所有點的平均歐式距離為超球的半徑。

      定義5(離群點及判定閾值[19])離群點[16]是指數(shù)據(jù)集中與其他點顯著不同的數(shù)據(jù)點。對于離群點的判定,設(shè)數(shù)據(jù)集中的稀有類由至多5%的數(shù)據(jù)點組成[22],估計數(shù)據(jù)集D中離群點數(shù)目不超過N×0.05,其中N為數(shù)據(jù)集規(guī)模大小。記離群點的r-最近鄰超球半徑的判定閾值為T,取其值為數(shù)據(jù)集中r-最近鄰超球半徑最大的N×0.05個點的半徑均值,從而認為r-最近鄰超球半徑超過閾值T的數(shù)據(jù)點為離群點。

      文獻[19]算法單機環(huán)境下的主要思想:

      步驟1對數(shù)據(jù)集中的所有數(shù)據(jù)進行歸一化處理,并且計算各點的r-最近鄰超球半徑,由此得出離群點判定閾值T。

      步驟2從數(shù)據(jù)集中隨機選取一個非離群點μ1′,然后從剩余的數(shù)據(jù)點中選取距離μ1′最近的floor(N/K)個非離群點(floor()為向下取整函數(shù)),與μ1′組成初始簇C1。算法重復(fù)這一過程,直至選出K個簇。

      步驟3計算各簇中數(shù)據(jù)點總和與簇中數(shù)據(jù)點的數(shù)目,分別添加Laplace噪聲,求各簇的均值作為初始聚類中心。

      步驟4計算數(shù)據(jù)集中非離群點與各聚類中心的距離,并將這些數(shù)據(jù)點分配到距離最近的聚類中心所在簇中。記第k個中心的簇為C k,簇中數(shù)據(jù)點數(shù)目及總和分別為numk和sumk,分別向numk和sumk添加相同大小的隨機噪聲,并計算新的聚類中心點。

      步驟5計算本輪和上一輪中K個聚類中心點的距離是否滿足收斂條件,若滿足,則算法終止,輸出聚類結(jié)果,否則重復(fù)步驟2~步驟5。

      隱私預(yù)算分配采用二分分配[11]的方法,即第一輪迭代分配ε/2的隱私預(yù)算,之后每次迭代消耗隱私預(yù)算的1/2。

      實驗過程中發(fā)現(xiàn)隨著迭代次數(shù)的增加,隱私預(yù)算就會越小。由Laplace差分隱私保護機制的性質(zhì)可知,產(chǎn)生的隨機噪聲就越大,從而導(dǎo)致聚類中心的偏移過大,影響最終的聚類結(jié)果。

      2 BDPK-means算法

      為了解決隱私預(yù)算ε較小時數(shù)據(jù)可用性較差的問題,本文提出了一種基于BWP指標(biāo)的差分隱私保護kmeans聚類算法。算法的主要思想是使用BWP指標(biāo)評估每次迭代中聚類的效果,考慮每輪迭代中不同簇有不同密度分布、不同大小等特點,為每輪迭代中不同的聚類簇分配不同的隱私預(yù)算,從而添加不同的隨機噪聲,以此來解決中心點嚴(yán)重偏離而造成聚類可用性差的問題。

      2.1 BWP指標(biāo)

      BWP指標(biāo)[23]是評價聚類結(jié)果好壞的一種方式。結(jié)合內(nèi)聚度和分離度兩種因素,評價不同算法或者算法不同運行方式對聚類結(jié)果所產(chǎn)生的影響。其計算公式如下:

      其中,N為數(shù)據(jù)集規(guī)模大小,j表示類標(biāo),b(j,i)表示類間距離,w(j,i)表示類內(nèi)距離。類間距離b(j,i)為樣本i到其他每個類中樣本平均值中的最小值,類內(nèi)距離w(j,i)為該樣本到第j類中其他數(shù)據(jù)對象距離的平均值,公式如下:

      其中,n k代表第k個簇的樣本點數(shù)量。BWP k值越大聚類效果越好,反之越差。

      2.2 BDPK-means算法設(shè)計

      假設(shè)數(shù)據(jù)集D={x1,x2,…,x N},其包含N個具有d維屬性值的數(shù)據(jù)點,算法可以將其劃分為K個簇,聚類中心點記為u k(1≤k≤K),隱私預(yù)算為ε,第k個簇在第t次迭代的隨機噪聲為

      BDPK-means算法的主要步驟如下。

      算法1主要分為三個階段。首先計算數(shù)據(jù)集中每個數(shù)據(jù)點的r-最近鄰超球半徑,由此導(dǎo)出數(shù)據(jù)集中離群點的判定閾值T(第1~6行),然后在此基礎(chǔ)上選取初始聚類中心(第7~12行),最后完成差分隱私聚類分析(第13~33行)。其中第20~32行使用BWP指標(biāo)評估聚類每一次迭代中不同簇的密度分布,在隱私預(yù)算二分分配的基礎(chǔ)上為不同的簇分配不同的權(quán)重,有針對地調(diào)整隱私預(yù)算分配,從而對每次迭代中的聚類中心點分別添加不同的噪聲,盡可能降低噪聲對聚類中心偏移的影響,提高聚類結(jié)果的可用性。

      2.3 隱私性分析

      定理1BDPK-means算法滿足ε-差分隱私保護。

      (4)由定義1、式(11)和式(12)可得:

      綜上所述,由差分隱私定義可知,BDPK-means算法滿足ε-差分隱私保護。

      3 實驗分析

      3.1 實驗環(huán)境及數(shù)據(jù)

      本文使用Java語言進行模擬仿真實驗,實驗平臺為Intel?CoreTMi3-3240 CPU@3.40 GHz處理器,6 GB內(nèi)存,Windows10 64位操作系統(tǒng)。

      本文選取了不同數(shù)量的數(shù)據(jù)集來進行仿真實驗,實驗所選擇的數(shù)據(jù)集均來自UCI機器學(xué)習(xí)庫,具體信息如表1所示。

      表1 數(shù)據(jù)信息Table 1 Data information

      3.2 實驗評價標(biāo)準(zhǔn)

      (1)Purity

      Purity(純度)作為一種用來計算聚類劃分結(jié)果正確率的常用指標(biāo),可以對聚類結(jié)果的優(yōu)劣程度做出正確的判斷。主要思想是計算被正確劃分的樣本數(shù)據(jù)的數(shù)量占整個數(shù)據(jù)集中所有樣本數(shù)據(jù)數(shù)量的百分比。公式如下:

      (2)F-measure

      F-measure[24]是一種經(jīng)典的衡量聚類結(jié)果有效性的評價指標(biāo)。綜合了信息檢索與挖掘中的準(zhǔn)確率(precision)和召回率(recall)。

      F-measure取值為[0,1],值越大表示兩個數(shù)據(jù)集的聚類結(jié)果越接近,說明聚類結(jié)果可用性更好。

      3.3 算法參數(shù)選取

      由于計算離群點判定閾值和選取初始中心時,使用了r-最近鄰區(qū)域的概念,參考文獻[19]和文獻[25]中的方法,以F-measure為目標(biāo)函數(shù)對參數(shù)r進行調(diào)參并取最優(yōu)。

      3.4 實驗結(jié)果分析

      3.4.1 算法可用性分析

      將本文提出的BDPK-means算法和文獻[19]中的TripleP K-means算法(簡稱TDPK-means算法)、文獻[20]中的APDPK-means算法在不同數(shù)據(jù)集下進行對比實驗。

      由于Laplace噪聲的隨機性,實驗結(jié)果在同一隱私預(yù)算ε下,運行50次取平均值。圖1~圖4(a)和圖1~圖4(b)分別展示了在數(shù)據(jù)集DS1~DS4上運行三種聚類算法得到的Purity值和F-measure值的對比。

      由圖1~圖4可知,隨著隱私預(yù)算的增加,三種聚類算法的Purity值和F-measure值也在不斷增加。這是因為隨著隱私預(yù)算的增加,添加的噪聲就會減小,聚類結(jié)果的可用性就會得到提高。本文算法與TDPK-means算法和APDPK-means算法相比,Purity值和F-measure值都有較大的提升,尤其在隱私預(yù)算較小時,聚類性能優(yōu)勢表現(xiàn)更為明顯。

      圖1 DS1上運行的結(jié)果Fig.1 Results on DS1

      圖4 DS4上運行的結(jié)果Fig.4 Results on DS4

      具體來說,當(dāng)隱私預(yù)算為0.05時,對于DS1,Purity值平均提高了0.24,F(xiàn)-measure值平均提高了0.33。DS2中,Purity值平均提高了0.21,F(xiàn)-measure值平均提高了0.40。針對DS3,F(xiàn)-measure值平均提高了0.20。可以注意到,DS3中,本文算法和其他兩種聚類算法的Purity值,在隱私預(yù)算為0.05時,改進幅度不是很大。這是由于當(dāng)隱私預(yù)算為0.05時,添加的Laplace噪聲過大導(dǎo)致的。此時并不能很好地表現(xiàn)出該數(shù)據(jù)集的聚類特性,但是隨著隱私預(yù)算的增加,本文算法還是優(yōu)于其他兩種算法。對于DS4,當(dāng)隱私預(yù)算為0.05時,Purity值平均提高了0.54,F(xiàn)-measure值平均提高了0.47。

      圖2 DS2上運行的結(jié)果Fig.2 Results on DS2

      圖3 DS3上運行的結(jié)果Fig3 Results on DS3

      因此,在相同的隱私保護水平下,BDPK-means算法在不同數(shù)據(jù)集上的性能要優(yōu)于其他兩種聚類算法。

      3.4.2 算法穩(wěn)定性分析

      本次實驗通過計算算法的平均迭代次數(shù)來衡量算法的穩(wěn)定性。對比算法依然采用文獻[19]和文獻[20]中的算法。三種算法的穩(wěn)定性對比如圖5所示。

      圖5 迭代次數(shù)對比Fig.5 Comparison of iteration number

      由圖5實驗結(jié)果可以看出,在四個數(shù)據(jù)集中,本文算法的迭代次數(shù)明顯降低,表明本文算法收斂速度較快。隨著隱私預(yù)算的增加,三種聚類算法的迭代次數(shù)都逐漸減少,當(dāng)隱私預(yù)算達到設(shè)定的最大值時,本文算法基本達到收斂狀態(tài)。此外,從圖中還可得知,本文算法迭代次數(shù)波動不大,在穩(wěn)定性上要優(yōu)于其他兩種聚類算法。

      4 結(jié)束語

      本文針對差分隱私k-means算法中存在隱私預(yù)算較小時聚類結(jié)果可用性差的問題,通過引入聚類評價指標(biāo)BWP評估聚類效果,為具有不同密度分布的聚類簇分配不同的權(quán)重,在一次迭代中,動態(tài)地為不同的簇分配不同的隱私預(yù)算,從而添加不同大小的隨機噪聲,避免了因為差分隱私保護導(dǎo)致數(shù)據(jù)嚴(yán)重失真的問題,使得保護個體隱私的同時保持了較高的數(shù)據(jù)可用性。通過一系列對比實驗,結(jié)果表明,本文算法不僅提高了數(shù)據(jù)的可用性和準(zhǔn)確性,而且減小了迭代次數(shù),提高了聚類結(jié)果的穩(wěn)定性。但是本方案是在單機環(huán)境下完成的,當(dāng)數(shù)據(jù)量較大時,會耗費大量的時間。因此,在未來的研究中,應(yīng)重點考慮如何將本文算法擴展到分布式環(huán)境以解決大數(shù)據(jù)背景下所面臨的隱私泄露問題。

      猜你喜歡
      離群可用性差分
      基于文獻計量學(xué)的界面設(shè)計可用性中外對比研究
      包裝工程(2023年24期)2023-12-27 09:18:26
      數(shù)列與差分
      基于輻射傳輸模型的GOCI晨昏時段數(shù)據(jù)的可用性分析
      離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
      離群的小雞
      空客A320模擬機FD1+2可用性的討論
      河南科技(2015年7期)2015-03-11 16:23:13
      基于差分隱私的大數(shù)據(jù)隱私保護
      相對差分單項測距△DOR
      太空探索(2014年1期)2014-07-10 13:41:50
      應(yīng)用相似度測量的圖離群點檢測方法
      黔西南州烤煙化學(xué)成分可用性評價
      作物研究(2014年6期)2014-03-01 03:39:04
      资兴市| 峡江县| 尤溪县| 洪洞县| 奉新县| 金乡县| 桃园市| 湟中县| 安康市| 武义县| 贺兰县| 电白县| 信宜市| 嘉荫县| 伊宁市| 腾冲县| 丽水市| 长宁县| 革吉县| 赤壁市| 女性| 临桂县| 平泉县| 丰镇市| 琼中| 阳高县| 九江县| 罗平县| 桓仁| 海淀区| 东港市| 肥城市| 米林县| 乐业县| 隆尧县| 文登市| 墨玉县| 五常市| 白河县| 靖边县| 和田市|