• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于不同敏感度的改進(jìn)K-匿名隱私保護(hù)算法

      2023-05-24 03:18:52陳學(xué)斌張國鵬裴浪濤
      計算機(jī)應(yīng)用 2023年5期
      關(guān)鍵詞:可用性集群準(zhǔn)確率

      翟 冉,陳學(xué)斌*,張國鵬,裴浪濤,馬 征

      (1.華北理工大學(xué) 理學(xué)院,河北 唐山 063210;2.河北省數(shù)據(jù)科學(xué)與應(yīng)用重點實驗室(華北理工大學(xué)),河北 唐山 063210;3.華北理工大學(xué) 唐山市數(shù)據(jù)科學(xué)重點實驗室,河北 唐山 063210)

      0 引言

      大數(shù)據(jù)及相關(guān)技術(shù)給社會和科技發(fā)展帶來了重大的影響,數(shù)據(jù)的開放共享也給科學(xué)研究、社會治理等領(lǐng)域提供了支撐條件,但數(shù)據(jù)開放共享的同時,也不可避免地造成了數(shù)據(jù)隱私的泄漏。為解決這一問題,研究人員提出了許多隱私保護(hù)方法。目前,應(yīng)用較廣泛的隱私保護(hù)方法有數(shù)據(jù)加密技術(shù)、數(shù)據(jù)失真技術(shù)和數(shù)據(jù)匿名化技術(shù)[1]。數(shù)據(jù)加密技術(shù)指將信息使用加密函數(shù)轉(zhuǎn)換為密文,如同態(tài)加密技術(shù)[2];數(shù)據(jù)失真技術(shù)指通過添加噪聲的方式保護(hù)數(shù)據(jù)的安全,差分隱私技術(shù)[3]為常見的數(shù)據(jù)失真技術(shù);數(shù)據(jù)匿名化技術(shù)指對數(shù)據(jù)進(jìn)行泛化或隱匿。K-匿名[4]技術(shù)是目前應(yīng)用較廣泛的基于數(shù)據(jù)匿名化的隱私保護(hù)技術(shù)之一,原理為對數(shù)據(jù)進(jìn)行泛化處理,使得對數(shù)據(jù)集中的每一個數(shù)據(jù)都有K-1 個數(shù)據(jù)與之相同。

      傳統(tǒng)的隱私保護(hù)方法主要考慮對數(shù)據(jù)進(jìn)行保護(hù),忽視了數(shù)據(jù)的可用性[5]。對擁有多個屬性的數(shù)據(jù)集進(jìn)行K-匿名處理時,由于屬性的數(shù)量過多,為了使多個屬性同時滿足K-匿名特征,會產(chǎn)生過度隱匿現(xiàn)象,破壞數(shù)據(jù)的可用性。為了解決這個問題,本文提出一種基于隨機(jī)森林(Random Forest,RF)的K-匿名隱私保護(hù)算法——RFK-匿名隱私保護(hù)。

      本文首先用RF 算法[6]預(yù)測不同屬性值的敏感程度,由于使用RF 算法對屬性值的敏感程度進(jìn)行預(yù)測會存在誤差,因此利用k-means 聚類算法[7]將不同敏感程度的屬性值分成不同集群,使每個集群中的屬性敏感程度相近。最后根據(jù)不同屬性集群對屬性進(jìn)行不同程度的隱匿,用戶可以根據(jù)自己的需求選擇隱匿數(shù)據(jù)表。該方法在保障數(shù)據(jù)隱私安全的基礎(chǔ)上增加了數(shù)據(jù)的可用性。本文的主要工作如下:

      1)與傳統(tǒng)K-匿名技術(shù)中的無差別隱匿不同,本文根據(jù)屬性敏感度的不同,對屬性信息進(jìn)行不同程度的隱匿,在保證數(shù)據(jù)的安全性的同時,減少了數(shù)據(jù)的損失。

      2)使用真實數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練時有數(shù)據(jù)泄漏的風(fēng)險,考慮到直接對真實數(shù)據(jù)集進(jìn)行K-匿名處理會由于屬性數(shù)量太多導(dǎo)致過度隱匿,而使用過度隱匿的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練時訓(xùn)練準(zhǔn)確率會明顯下降的情況,本文對真實數(shù)據(jù)集根據(jù)屬性的敏感程度不同進(jìn)行RFK-匿名處理,并使用處理后的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)預(yù)測。與K-匿名算法、(p,α,k)-匿名隱私保護(hù)算法相比,在閾值E較大時,本文方法的預(yù)測準(zhǔn)確率有所提升。

      1 相關(guān)工作

      1.1 隱私保護(hù)

      在數(shù)據(jù)隱私保護(hù)的基礎(chǔ)上,保證數(shù)據(jù)的可用性至關(guān)重要。針對這一問題,研究人員提出了一系列研究方案。蒲東等[8]根據(jù)屬性值不同的敏感等級,采用不同的匿名方法,例如分類型數(shù)據(jù)中,對于較低敏感程度的屬性,泛化到所在樹的上一層節(jié)點,對于較高敏感程度的屬性,泛化到更高一層的節(jié)點;同時,根據(jù)閾值α確定屬性值出現(xiàn)的頻率,使泛化后等價類中各個敏感屬性值出現(xiàn)的頻率平均,在減少數(shù)據(jù)損失的同時降低了隱私泄漏的可能。張王策等[9]提出了一種將缺損數(shù)據(jù)與完整數(shù)據(jù)混合匿名的算法,能有效地提高數(shù)據(jù)的可用性。吳夢婷等[10]在K-匿名中考慮K 最近鄰(K-Nearest Neighbor,KNN)聚類思想[11]的離群點問題,降低了數(shù)據(jù)的損失。蘇林萍等[12]提出了一種個性化(α,l,k)匿名隱私保護(hù)模型。在最大程度保證個性化匿名需求的同時根據(jù)敏感屬性值敏感等級的不同,對各個等價組中的敏感屬性值分別采取不同的匿名方式,優(yōu)先泛化高敏感度等級的屬性值,使等價組中的每個敏感屬性滿足對出現(xiàn)頻率α以及多樣性l的約束條件,從而有效降低數(shù)據(jù)集中高敏感等級信息的泄露風(fēng)險,并提高數(shù)據(jù)的可用性。王楠[13]提出的(p,aisg)-敏感性k-匿名差異化地限制了敏感組出現(xiàn)的總頻率,實現(xiàn)了在敏感組維度的個性化保護(hù),并根據(jù)敏感值的敏感度設(shè)置了有區(qū)別的多樣性約束的(pi,aisg)-敏感性k-匿名,敏感值維度也達(dá)到了個性化匿名效果,減少了對低敏感信息保護(hù)過度造成的冗余信息損失。對于(p,aisg)-敏感性k-匿名模型和(pi,aisg)-敏感性k-匿名模型存在語義相似性攻擊的威脅,對敏感值進(jìn)行語義類別劃分,王楠[13]提出了針對語義相似性攻擊的具有對敏感組個性化保護(hù)特性的(psc,aisg)-敏感性k-匿名,在此基礎(chǔ)上還添加了面向語義類別的個性化保護(hù)的(pisc,aisg)-敏感性k-匿名,以較少的數(shù)據(jù)可用性為代價在隱私性方面表現(xiàn)出了突出優(yōu)勢。張強(qiáng)等[14]提出了一種基于最優(yōu)聚類的k-匿名隱私保護(hù)機(jī)制,通過建立數(shù)據(jù)距離與信息損失間的函數(shù)關(guān)系,將k-匿名機(jī)制的最優(yōu)化問題轉(zhuǎn)化為數(shù)據(jù)集的最優(yōu)聚類問題;然后利用貪婪算法和二分機(jī)制,尋找滿足k-匿名約束條件的最優(yōu)聚類,從而實現(xiàn)k-匿名模型的可用性最優(yōu)化,能最大限度減少聚類匿名的信息損失。楊柳等[15]設(shè)計了一種混合式K-匿名特征選擇算法,使用分類性能作為評價準(zhǔn)則選出分類性能最好的K-匿名特征子集,在分類性能上可以超過現(xiàn)有算法并且信息損失更小。樊佳錦等[16]提出了一種基于分類重要性與隱私約束的K-匿名特征選擇(Importance Feature Privacy K-Anonymous by Clustering in Attribute,IFP_KACA)方法,根據(jù)特征分類重要性排序選擇分類性能較好并且滿足隱私約束的特征進(jìn)行K-匿名處理,從而得到保護(hù)特征隱私后的優(yōu)選特征子集。算法篩選的特征集能夠平衡隱私保護(hù)度和分類挖掘性能,有效檢測微博垃圾用戶。然而上述研究僅在數(shù)據(jù)集的部分屬性中使用了K-匿名技術(shù),而真實數(shù)據(jù)集中的屬性數(shù)量更多,數(shù)據(jù)集中的某些屬性的敏感程度較低,將這些信息發(fā)布出來對用戶的影響較小,但是對全部屬性進(jìn)行隱匿,由于多個屬性難以同時達(dá)到K-匿名條件,滿足K-匿名條件時屬性要不斷泛化,泛化程度越大,數(shù)據(jù)的精度越低,會嚴(yán)重影響數(shù)據(jù)的可用性。為了解決這一問題,本文提出了一種改進(jìn)的K-匿名隱私保護(hù)算法,對數(shù)據(jù)集中的所有屬性進(jìn)行K-匿名處理,而且在對屬性進(jìn)行隱匿之前,首先使用RF 算法預(yù)測屬性的敏感程度,將屬性根據(jù)敏感程度不同劃分成若干的集群,對于不同敏感度集群的屬性采用不同的隱匿方法,達(dá)到在保護(hù)用戶隱私的基礎(chǔ)上提高數(shù)據(jù)可用性的目的。

      1.2 K-匿名

      K-匿名[17]是一種對數(shù)據(jù)進(jìn)行處理的隱私保護(hù)方法,指的是對于某一用戶的某一項信息,至少有K-1 個人與之相同,這樣攻擊者便無法分辨出真正的隱私信息。本文利用K-匿名技術(shù)將用RF 算法預(yù)測出的會產(chǎn)生隱私泄漏的數(shù)據(jù)進(jìn)行隱匿,達(dá)到隱私保護(hù)的作用。用戶的基本信息分為標(biāo)識列和準(zhǔn)標(biāo)識列。標(biāo)識列指用戶的姓名、身份證號等信息,在隱私保護(hù)過程中,標(biāo)識列的信息會被直接抹除;準(zhǔn)標(biāo)識列的信息是關(guān)于用戶的其他信息,如用戶的年齡、城市、學(xué)校等,如果不對準(zhǔn)標(biāo)識列的數(shù)據(jù)進(jìn)行處理,會產(chǎn)生鏈接攻擊[18]。鏈接攻擊指攻擊者通過將兩個數(shù)據(jù)中的信息混合得到有關(guān)用戶的隱私。本文利用K-匿名法對準(zhǔn)標(biāo)識列的信息進(jìn)行處理,使得對于用戶的某個數(shù)據(jù),有K-1 條數(shù)據(jù)與之相同,可以有效防止因準(zhǔn)標(biāo)識列泄漏導(dǎo)致的鏈接攻擊[19]。

      2 基于隨機(jī)森林的K-匿名隱私保護(hù)算法

      本文提出的RFK-匿名隱私保護(hù)算法根據(jù)真實數(shù)據(jù)集屬性的敏感程度不同,對數(shù)據(jù)進(jìn)行不同程度的隱匿,在保護(hù)了隱私的前提下最大限度地保證了數(shù)據(jù)的可用性。本文的目的主要是解決使用真實數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)分類預(yù)測過程中數(shù)據(jù)可用性和安全性的平衡問題。

      2.1 問題描述

      大數(shù)據(jù)背景下,用戶的個人信息被上傳至多個服務(wù)器,同時,也帶來了一系列隱私泄露的隱患。機(jī)器學(xué)習(xí)需要大量的真實數(shù)據(jù)集,在使用機(jī)器學(xué)習(xí)進(jìn)行分類預(yù)測時,足夠數(shù)量的真實數(shù)據(jù)集是準(zhǔn)確預(yù)測結(jié)果的重要條件之一。然而,數(shù)據(jù)擁有者將數(shù)據(jù)發(fā)布即面臨一定的風(fēng)險,導(dǎo)致大多數(shù)數(shù)據(jù)擁有者不愿意發(fā)布自己的數(shù)據(jù)。機(jī)器學(xué)習(xí)的發(fā)展需要足夠數(shù)量的兼顧可用性和安全性的數(shù)據(jù)。針對這一問題,本文提出了一種改進(jìn)的K-匿名隱私保護(hù)技術(shù),在數(shù)據(jù)擁有者發(fā)布數(shù)據(jù)之前,使用K-匿名技術(shù)對數(shù)據(jù)進(jìn)行處理,由于真實數(shù)據(jù)集屬性數(shù)量過多,為了避免多個屬性同時能滿足K-匿名特征會產(chǎn)生過度隱匿現(xiàn)象,破壞數(shù)據(jù)的可用性,因此根據(jù)屬性的敏感程度不同,對屬性進(jìn)行不同程度的隱匿,根據(jù)用戶的需求發(fā)放隱匿數(shù)據(jù)表,在保護(hù)數(shù)據(jù)安全性的前提下提升數(shù)據(jù)的可用性。

      2.2 算法描述

      本文方法的主要步驟如下:首先,使用RF 算法根據(jù)屬性預(yù)測關(guān)鍵信息,對關(guān)鍵信息的預(yù)測影響越大的屬性越敏感;然后,使用k-means 聚類算法根據(jù)屬性的不同敏感程度對屬性進(jìn)行聚類,分成敏感程度不同的5 個集群,即k=5;最后,使用K-匿名算法根據(jù)屬性的敏感程度采用不同的泛化程度隱匿用戶的隱私信息,用戶可以根據(jù)自己的需求選擇使用不同匿名化程度的數(shù)據(jù)表。

      2.2.1 隨機(jī)森林算法預(yù)測

      使用RF 算法根據(jù)屬性值對標(biāo)簽值進(jìn)行預(yù)測,然后每次減少一個屬性,并用剩余的屬性對標(biāo)簽值進(jìn)行預(yù)測,減少屬性后預(yù)測準(zhǔn)確率降低越多說明該屬性值越敏感。算法偽碼如下:

      算法1 隨機(jī)森林(RF)預(yù)測算法。

      2.2.2k-means聚類算法過程

      使用k-means 聚類算法根據(jù)屬性值對標(biāo)簽值的影響大小對屬性進(jìn)行聚類,設(shè)置k=5,即將屬性分為5 個敏感程度不同的集群。算法的流程如下:

      1)從屬性值中隨機(jī)選取5 個值作為初始中心點;

      2)計算各個屬性值的敏感程度值到各個中心點的距離,將屬性根據(jù)敏感程度值劃分到距離它最近的中心點集群;

      3)計算集群的平均值作為新的中心點;

      4)重復(fù)上述過程直至中心點不再發(fā)生變化。

      算法2k-means 聚類算法。

      2.2.3K-匿名處理

      將屬性聚類后的第1 集群進(jìn)行K-匿名處理后的數(shù)據(jù)表閾值設(shè)置為1;將屬性聚類后的第1、2 集群進(jìn)行K-匿名處理后閾值設(shè)置為2;將屬性聚類后的第1、2、3 集群進(jìn)行K-匿名處理后閾值設(shè)置為3;將屬性聚類后的第1、2、3、4 集群進(jìn)行K-匿名處理后閾值設(shè)置為4;將全部屬性進(jìn)行K-匿名處理后閾值設(shè)置為5。用戶可以根據(jù)自己的需求選擇使用不同匿名化程度的數(shù)據(jù)表。算法的流程如下:

      算法3K-匿名算法。

      2.3 算法分析

      2.3.1 算法復(fù)雜度

      k-means 算法對屬性值的敏感程度進(jìn)行聚類的時間復(fù)雜度為O(nkt),其中n為數(shù)據(jù)的個數(shù),k為初始中心點的個數(shù),t為迭代次數(shù);用RF 算法預(yù)測屬性集群的敏感程度的時間復(fù)雜度為O(Mmnlog(n)),其中n為數(shù)據(jù)的個數(shù),m為特征的個數(shù),M為隨機(jī)森林中樹的個數(shù);K-匿名算法對數(shù)據(jù)進(jìn)行隱匿的時間復(fù)雜度為O(nK),其中n為數(shù)據(jù)的個數(shù),K為對于每個數(shù)據(jù)相同的個數(shù)。即本文提出的基于隨機(jī)森林的K-匿名隱私保護(hù)算法的時間復(fù)雜度為O(nkt+Mmnlog(n) +nK)。

      2.3.2 算法安全性

      本文算法中,數(shù)據(jù)的擁有者首先使用RF 預(yù)測數(shù)據(jù)集的屬性敏感程度,這一過程由數(shù)據(jù)擁有者自己進(jìn)行,所以不存在數(shù)據(jù)泄露的風(fēng)險。其次根據(jù)預(yù)測準(zhǔn)確率進(jìn)行k-means 聚類,將屬性根據(jù)敏感程度的不同劃分到不同集群,這一過程只對屬性的敏感程度值進(jìn)行操作,不會出現(xiàn)原始數(shù)據(jù)的泄漏。最后使用K-匿名隱私保護(hù)方法對數(shù)據(jù)進(jìn)行不同程度的隱匿,這一過程由于提前預(yù)測敏感屬性,并對不同敏感程度的屬性進(jìn)行不同程度的保護(hù),保證了原始數(shù)據(jù)的安全性。

      數(shù)據(jù)集中有數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù),對于數(shù)值型數(shù)據(jù),信息損失度ILi如下:

      其中:MAXi為第i個屬性概化后的最大值,MINi為第i個屬性概化后的最小值;Ri為第i個屬性數(shù)據(jù)的值域。

      對于分類型數(shù)據(jù),信息損失度ILi如下:

      其中:Nodei為第i個屬性的原始葉子節(jié)點數(shù)為第i個屬性概化后的葉子節(jié)點數(shù)。相較于K-匿名算法,RFK-匿名算法有效減少了信息的損失度,而且安全性較高。

      RFK-匿名算法滿足K-匿名算法的基本條件,對于每一條數(shù)據(jù),都有至少K-1 條數(shù)據(jù)與之相同,可以有效地防止鏈接攻擊;而且用戶可以根據(jù)自己的需求選擇不同程度的隱匿數(shù)據(jù)表。與K-匿名算法相比,RFK-匿名算法在沒有降低安全性的情況下提高了數(shù)據(jù)的可用性。

      2.3.3 算法可用性

      本文算法利用RF 算法根據(jù)一部分特征值預(yù)測某個特征值,而RF 算法隨機(jī)將數(shù)據(jù)集分為訓(xùn)練組和測試組,訓(xùn)練組與測試組結(jié)果的比值為準(zhǔn)確率,符合RF 算法預(yù)測的條件,預(yù)測準(zhǔn)確率為一個數(shù)值。利用k-means 聚類算法可以對數(shù)值型數(shù)據(jù)進(jìn)行聚類,將數(shù)據(jù)分為k(本文k=5)個集群,用k-means 聚類算法對數(shù)據(jù)根據(jù)數(shù)值進(jìn)行聚類,滿足聚類算法的條件。本文算法利用K-匿名算法對屬性值進(jìn)行隱匿,這樣對每一個元組,都至少有K-1 個與之相同,滿足用K-匿名算法進(jìn)行隱匿的條件。在使用機(jī)器學(xué)習(xí)進(jìn)行預(yù)測的過程中,數(shù)據(jù)集的可用性和安全性需要得到保障,在實驗過程中,采用RF 算法對屬性的準(zhǔn)確率進(jìn)行預(yù)測,然后依次刪除一個屬性,使用其他剩余屬性對標(biāo)簽值進(jìn)行預(yù)測,刪除這個屬性前后準(zhǔn)確率變化越大表示這個屬性越敏感。對全部屬性進(jìn)行K-匿名處理時,由于屬性數(shù)量太多,達(dá)到K-匿名的條件時屬性泛化程度較大,數(shù)據(jù)的可用性降低。使用k-means 聚類算法根據(jù)屬性的不同敏感程度對屬性進(jìn)行聚類,分成敏感程度不同的集群,使用K-匿名算法根據(jù)屬性的敏感程度采用不同的泛化程度隱匿用戶的隱私信息,使用處理后的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的預(yù)測,能保障數(shù)據(jù)的安全性和可用性。用戶可以根據(jù)自己的需求選擇使用不同匿名化程度的數(shù)據(jù)表。

      3 實驗與結(jié)果分析

      3.1 數(shù)據(jù)集

      本實驗采用了UCI 的Adult 和Bank Marketing 數(shù)據(jù)集,數(shù)據(jù)來源:https://archive.ics.uci.edu/ml/datasets/Adult,https://archive.ics.uci.edu/ml/datasets/Bank+Marketing。

      Adult 數(shù)據(jù)集抽取自美國1994 年人口普查數(shù)據(jù)庫,因此也稱作“人口普查收入”數(shù)據(jù)集,其中包括:年齡、工作類型、序號、受教育程度、受教育時間、婚姻狀況、職業(yè)、關(guān)系、種族、性別、資本收益、資本損失、每周工作時間、原籍等14 個字段信息,共有48 842 條數(shù)據(jù)。該數(shù)據(jù)集是一個分類數(shù)據(jù)集,用來預(yù)測年收入是否超過5 萬美元。年收入大于5 萬美元的人口占比為23.93%,年收入小于5 萬美元的人口占比76.07%。

      Bank Marketing 數(shù)據(jù)集與葡萄牙銀行機(jī)構(gòu)的營銷活動相關(guān),這些營銷活動以電話為基礎(chǔ),銀行的客服人員需要至少聯(lián)系客戶1 次來確認(rèn)客戶是否認(rèn)購該銀行的產(chǎn)品(定期存款)。該數(shù)據(jù)集中包括年齡、職業(yè)、婚姻情況、受教育程度、賬戶余額、住房、貸款、日期-日、日期-月、存款期限、營銷活動、存款情況等16 個字段信息,共有11 162 條數(shù)據(jù)。

      3.2 實驗環(huán)境

      本實驗采用macOS 操作系統(tǒng),處理器為1.8 GHz 雙核Intel Core i5,用Python 語言在jupyter 中編寫實驗代碼。

      3.3 實驗過程

      本文實驗分為以下幾個部分:1)先使用RF 算法預(yù)測出屬性的敏感程度,對敏感屬性根據(jù)敏感程度進(jìn)行聚類,并驗證即使預(yù)測結(jié)果具有隨機(jī)性,聚類后同一集群的屬性仍然不會發(fā)生變化;2)對不同聚類的屬性分別進(jìn)行RFK-匿名處理和K-匿名處理,對比預(yù)測準(zhǔn)確率和信息損失度;3)用(p,α,k)-匿名隱私保護(hù)算法和RFK-匿名處理后的數(shù)據(jù)計算預(yù)測準(zhǔn)確率和信息損失度。本文首先對數(shù)據(jù)集進(jìn)行預(yù)處理,然后使用RF 算法根據(jù)所有屬性值預(yù)測標(biāo)簽值。在預(yù)測過程中,對于每個屬性,用其他剩余屬性預(yù)測標(biāo)簽值。為了使RF 預(yù)測的結(jié)果更準(zhǔn)確,采用20 次實驗的平均值作為預(yù)測準(zhǔn)確率,將每個屬性刪除前后的預(yù)測準(zhǔn)確率之差看作屬性對預(yù)測標(biāo)簽值的敏感程度,由于實驗結(jié)果具有隨機(jī)性,用k-means 算法對屬性根據(jù)敏感程度進(jìn)行聚類,使相近敏感程度的屬性值都在一個集群里,這樣即使輸出結(jié)果的排序具有隨機(jī)性,也不會影響集群中的數(shù)據(jù),能更好地減小誤差。k-means 聚類算法中的k=5,即將屬性分為5 個敏感程度不同的集群,第一集群屬性的敏感程度最高,第二集群的次之,以此類推。使用K-匿名算法分別對這5 個敏感程度不同的集群進(jìn)行隱匿,即對所有屬性隱匿的數(shù)據(jù)表閾值設(shè)置為5,對第一、二、三、四集群隱匿的數(shù)據(jù)表設(shè)置閾值為4 的數(shù)據(jù)表,以此類推,對第一集群隱匿的數(shù)據(jù)表設(shè)置閾值為1 的數(shù)據(jù)表。由于數(shù)據(jù)集中的屬性數(shù)量太多,為了更好地保證數(shù)據(jù)的可用性,進(jìn)行K-匿名處理時的K值大于2 即可。

      3.4 實驗結(jié)果

      3.4.1 預(yù)測準(zhǔn)確率

      使用RF 算法根據(jù)全部屬性預(yù)測標(biāo)簽值的準(zhǔn)確率,每次刪除一個屬性,用剩余的其他屬性預(yù)測準(zhǔn)確率,準(zhǔn)確率越高說明刪除的屬性對預(yù)測結(jié)果的影響度越低,該屬性的敏感性越低;準(zhǔn)確率越低說明刪除的屬性對預(yù)測結(jié)果的影響度越高,則該屬性的敏感程度越高。對每一個屬性分別利用其他剩余屬性預(yù)測20 次的平均準(zhǔn)確率和用所有屬性預(yù)測20 次的平均準(zhǔn)確率如表1、2 所示。

      表2 RF在Bank Marketing數(shù)據(jù)集上的預(yù)測準(zhǔn)確率Tab.2 Prediction accuracy of RF on Bank Marketing dataset

      對于每個屬性,刪除該屬性前后對預(yù)測準(zhǔn)確率的影響如表3、4 所示。

      表3 Adult數(shù)據(jù)集中每個屬性是否參與預(yù)測的準(zhǔn)確率的差值Tab.3 Difference in prediction accuracy for eliminating each attribute or not in Adult dataset

      表4 Bank Marketing數(shù)據(jù)集中每個屬性是否參與預(yù)測的準(zhǔn)確率的差值Tab.4 Difference in prediction accuracy for eliminating each attribute or not in Bank Marketing dataset

      對于每個屬性,根據(jù)屬性對準(zhǔn)確率的影響程度,使用k-means 聚類算法進(jìn)行聚類,將屬性分為5 個不同的集群,聚類后的結(jié)果如表5~8 所示。預(yù)測準(zhǔn)確率采用的是預(yù)測20 次的平均準(zhǔn)確率,并使用k-means 聚類算法根據(jù)屬性對準(zhǔn)確率的影響進(jìn)行聚類,有效降低了由于預(yù)測誤差導(dǎo)致的結(jié)果不確定性。

      表5 Adult數(shù)據(jù)集上k-means聚類結(jié)果Tab.5 k-means clustering results on Adult dataset

      表6 Bank Marketing數(shù)據(jù)集上k-means的聚類結(jié)果Tab.6 k-means clustering results on Bank Marketing dataset

      表8 Bank Marketing數(shù)據(jù)集上k-means的聚類結(jié)果可靠性驗證Tab.8 Reliability Verification of k-means clustering results on Bank Marketing dataset

      圖1 為RFK-匿名算法和K-匿名算法的準(zhǔn)確率對比結(jié)果。其中E為可信度閾值,將第一集群的閾值設(shè)置為1,將第一、二集群的閾值設(shè)置為2,將第一、二、三集群的閾值設(shè)置為3,將第一、二、三、四集群的閾值設(shè)置為4,將第一、二、三、四、五集群的閾值設(shè)置為5。

      圖1 RFK-匿名算法與K-匿名算法的預(yù)測準(zhǔn)確率比較Fig.1 Comparison of prediction accuracy between RFK-anonymity algorithm and K-anonymity algorithm

      圖1 中預(yù)測準(zhǔn)確率的結(jié)果表明,當(dāng)E為1、2 時,使用K-匿名算法處理后的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率高于使用RFK-匿名處理的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率;當(dāng)E為3、4 時,使用RFK-匿名處理后的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率高于使用K-匿名算法處理后的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率,在Adult 數(shù)據(jù)集中分別提升了0.5 個百分點和1.6 個百分點,在Bank Marketing 數(shù)據(jù)集中分別提升了0.4 個百分點和0.9 個百分點;當(dāng)E為5 時,使用RFK-匿名算法處理的數(shù)據(jù)和使用K-匿名算法處理的數(shù)據(jù)的預(yù)測準(zhǔn)確率相等。出現(xiàn)這一現(xiàn)象的原因是當(dāng)E為1、2 時,RFK-匿名中的屬性數(shù)量太少,導(dǎo)致預(yù)測準(zhǔn)確率低;當(dāng)E為3、4 時,使用RFK-匿名算法進(jìn)行處理的屬性數(shù)量足夠,同時沒有過多屬性導(dǎo)致的過度隱匿情況;當(dāng)E為5 時,使用RFK-匿名處理的數(shù)據(jù)相當(dāng)于直接對數(shù)據(jù)集進(jìn)行K-匿名處理。同時,使用K-匿名算法直接對數(shù)據(jù)集進(jìn)行處理時,由于屬性數(shù)量過多,滿足K-匿名條件的K值過大,屬性泛化程度更大,影響了數(shù)據(jù)的可用性,泛化后的數(shù)據(jù)用來機(jī)器學(xué)習(xí)預(yù)測的準(zhǔn)確率約等于只使用一半屬性進(jìn)行K-匿名處理后進(jìn)行預(yù)測的準(zhǔn)確率,嚴(yán)重影響了數(shù)據(jù)的可用性。

      3.4.2 信息損失度

      RFK-匿名與K-匿名算法的信息損失度如圖2 所示,其中E為閾值,Information Loss 為所有數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù)的信息損失度之和。

      圖2 RFK-匿名算法與K-匿名算法信息損失度的比較Fig.2 Comparison of information loss between RFK-anonymity algorithm and K-anonymity algorithm

      從圖2(a)中可以看出:當(dāng)E為1、2 時,使用K-匿名算法處理后的數(shù)據(jù)的信息損失度高于使用RFK-匿名處理的數(shù)據(jù);當(dāng)E為3、4 時,使用RFK-匿名處理后的數(shù)據(jù)的信息損失度高于使用K-匿名算法處理后的數(shù)據(jù);當(dāng)E為5 時,使用RFK-匿名算法處理的數(shù)據(jù)和使用K-匿名算法處理的數(shù)據(jù)的信息損失度相等。出現(xiàn)這一現(xiàn)象的原因是當(dāng)E為1、2 時,RFK-匿名中的屬性數(shù)量少,K-匿名的條件容易達(dá)到;當(dāng)E為3、4 時,屬性數(shù)量明顯增加,所以K-匿名的條件較難達(dá)到;當(dāng)E為5 時,使用RFK-匿名處理的數(shù)據(jù)相當(dāng)于直接對數(shù)據(jù)集進(jìn)行K-匿名處理。

      從圖2(b)中可以看出,當(dāng)閾值E不斷增加時,RFK-匿名算法的信息損失度不斷增加,但信息損失度一直低于K-匿名的信息損失度。這是因為隨著E不斷增加,屬性的數(shù)量增加,滿足K-匿名條件的K值變大。對數(shù)據(jù)集直接進(jìn)行K-匿名處理時,由于屬性數(shù)量過多,滿足K-匿名條件的K值過大,屬性泛化程度更大,影響了數(shù)據(jù)的可用性,數(shù)據(jù)的信息損失度高于使用RFK-匿名處理的信息損失度。

      (p,α,k)-匿名隱私保護(hù)算法作為一種很好的隱私保護(hù)方法,在保護(hù)了隱私的前提下提升了數(shù)據(jù)的可用性,但更適合于直接發(fā)布數(shù)據(jù),不適合應(yīng)用于機(jī)器學(xué)習(xí)。

      從圖3(a)中可以看出,使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率比較平穩(wěn),使用RFK-匿名算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率在閾值較低的情況下低于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率;隨著可信度閾值不斷提升,使用RFK-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率高于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率。在Adult 數(shù)據(jù)集中,閾值E為4 時提高了0.4 個百分點,閾值E為5 時提高了1.9 個百分點。這是由于隨著閾值E的不斷增加,RFK-匿名中的數(shù)據(jù)集屬性信息在不斷完善,使用(p,α,k)-匿名隱私保護(hù)算法處理的數(shù)據(jù)集用來機(jī)器學(xué)習(xí)由于屬性數(shù)量不夠會影響預(yù)測準(zhǔn)確率。

      圖3 RFK-匿名算法與(p,α,k)-匿名隱私保護(hù)算法的比較Fig.3 Comparison between RFK-anonymity algorithm and(p,α,k)-anonymity algorithm

      從圖3(b)中可以看出,使用RFK-匿名算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的信息損失度在閾值E為1,2 時低于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù);隨著閾值不斷提升,使用RFK-匿名隱私保護(hù)算法處理過的數(shù)據(jù)的信息損失度高于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)。用戶可以根據(jù)自己的需求選擇閾值。

      3.4.3 實驗小結(jié)

      RFK-匿名隱私保護(hù)算法使用RF 算法根據(jù)Adult 和Bank Marketing 數(shù)據(jù)集中所有屬性值預(yù)測標(biāo)簽值,并對每一個數(shù)據(jù)用其他剩余的屬性預(yù)測標(biāo)簽值,刪除這個屬性前后的預(yù)測值之差為屬性值對標(biāo)簽值的敏感程度,使用k-means 聚類算法根據(jù)標(biāo)簽值的敏感程度進(jìn)行聚類,分成5 個集群,并對這5 個集群的數(shù)據(jù)分別進(jìn)行K-匿名處理。實驗結(jié)果表明:在Adult數(shù)據(jù)集中,第一敏感程度集群為capital-gain,第二敏感程度集群為age、capital-loss,第三敏感程度集群為workclass、occupation、hours-per-week、education-num,第四敏感程度集群為marital-status、relationship、native-country、fwlght、race,第五敏感程度集群為sex、education;在Bank Marketing 數(shù)據(jù)集中,第一敏感程度集群為poutcome,第二敏感程度集群為duration、day、contact,第三敏感程度集群為default、marital、age,第四敏 感程度 集群為balance、job、campaign、pdays、month、housing、previous、loan,第五敏 感程度 集群為education。通過圖2 可知,使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率比較平穩(wěn),使用RFK-匿名算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率在閾值較低的情況下低于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率;而隨著可信度閾值不斷提升,使用RFK-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率高于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率。用戶可以根據(jù)自己的需求選擇閾值,這樣可以在不影響數(shù)據(jù)的可用性的前提下保證數(shù)據(jù)隱私安全。

      4 結(jié)語

      本文首先利用隨機(jī)森林算法對Adult 數(shù)據(jù)集和Bank Marketing 數(shù)據(jù)集中的屬性進(jìn)行敏感程度預(yù)測,其次將不同敏感程度的屬性用k-means 算法進(jìn)行聚類,然后使用K-匿名算法將不同敏感程度集群的屬性進(jìn)行隱匿,在保護(hù)數(shù)據(jù)隱私安全的基礎(chǔ)上提高了數(shù)據(jù)的可用性。根據(jù)數(shù)據(jù)集中屬性的敏感程度不同,給屬性分成5 個聚類集群,將對不同集群的屬性分批次進(jìn)行K-匿名處理后,對數(shù)據(jù)集中的屬性進(jìn)行不同程度的隱匿可以在不影響數(shù)據(jù)的可用性的基礎(chǔ)上提高數(shù)據(jù)的安全性,使數(shù)據(jù)集更適合用于分類預(yù)測。

      猜你喜歡
      可用性集群準(zhǔn)確率
      基于文獻(xiàn)計量學(xué)的界面設(shè)計可用性中外對比研究
      包裝工程(2023年24期)2023-12-27 09:18:26
      基于輻射傳輸模型的GOCI晨昏時段數(shù)據(jù)的可用性分析
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      海上小型無人機(jī)集群的反制裝備需求與應(yīng)對之策研究
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計
      電子制作(2018年11期)2018-08-04 03:25:40
      Python與Spark集群在收費數(shù)據(jù)分析中的應(yīng)用
      勤快又呆萌的集群機(jī)器人
      东阿县| 芦溪县| 上杭县| 苏尼特右旗| 麻阳| 玛纳斯县| 青州市| 奈曼旗| 鸡东县| 大关县| 波密县| 长顺县| 天台县| 苗栗县| 安溪县| 安多县| 清徐县| 吴堡县| 蒙城县| 城固县| 安塞县| 九龙县| 余江县| 慈溪市| 昌宁县| 江陵县| 叶城县| 巫溪县| 郯城县| 庆安县| 冀州市| 特克斯县| 日土县| 百色市| 多伦县| 凉城县| 黎平县| 蕲春县| 潢川县| 沿河| 泰和县|