• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于奇異值分解的銀行客戶數(shù)據(jù)隱私保護(hù)算法研究

      2017-03-27 15:58:54季文韜
      電子技術(shù)與軟件工程 2017年4期
      關(guān)鍵詞:奇異值分解隱私保護(hù)聚類分析

      摘 要 如何在保護(hù)客戶數(shù)據(jù)隱私的前提下進(jìn)行有效的數(shù)據(jù)挖掘,已經(jīng)成為金融業(yè)數(shù)據(jù)挖掘領(lǐng)域的重要課題。用矩陣的奇異值分解進(jìn)行數(shù)據(jù)擾動(dòng),不僅能消除數(shù)據(jù)噪音,還能獲得準(zhǔn)確的聚類效果。本文提出了一種奇異值分解的聚類算法,實(shí)驗(yàn)表明算法能有效的保護(hù)客戶數(shù)據(jù)隱私,而且保留了聚類分析的準(zhǔn)確特征。

      【關(guān)鍵詞】奇異值分解 隱私保護(hù) 聚類分析

      隨著數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)算法的快速發(fā)展,數(shù)據(jù)隱私保護(hù)問題已經(jīng)越來越引起人們的關(guān)注。目前的隱私保護(hù)方法主要分為兩類:

      (1)對原始數(shù)據(jù)值進(jìn)行扭曲、擾動(dòng)、隨機(jī)化和匿名化,使數(shù)據(jù)使用者不能得出數(shù)據(jù)的原始值。

      (2)修改數(shù)據(jù)挖掘算法,使分布式數(shù)據(jù)挖掘中的參與者在不知道確切數(shù)據(jù)值的情況下仍能得出數(shù)據(jù)挖掘的結(jié)果。

      數(shù)據(jù)擾動(dòng)是隱私保護(hù)數(shù)據(jù)挖掘應(yīng)用的重要組成部分,我們利用奇異值分解(Singular value decomposition)SVD)對保密數(shù)值屬性進(jìn)行擾動(dòng),并在矩陣分解的基礎(chǔ)上進(jìn)行隱私數(shù)據(jù)聚類。我們所提出的的奇異值分解聚類方法,不僅可以滿足保護(hù)敏感數(shù)據(jù)屬性的要求,同時(shí)保留K-means聚類分析的一般特點(diǎn),能得到準(zhǔn)確的數(shù)據(jù)模型和分析結(jié)果。

      1 算法的理論基礎(chǔ)

      1.1 K-均值聚類算法

      K-均值聚類算法是一個(gè)將包含有n個(gè)對象的數(shù)據(jù)集劃分成k 個(gè)聚類的過程,使同一聚類中的對象屬性相似度較高,而不同聚類中的對象屬性相似度較小。聚類分析的基本指導(dǎo)思想就是最大程度地實(shí)現(xiàn)類中對象相似度最大,類間對象相似度最小。

      1.2 奇異值分解

      奇異值分解在數(shù)據(jù)挖掘的應(yīng)用中,特別是在文本挖掘中并不是新技術(shù),但在隱私保護(hù)的數(shù)據(jù)擾動(dòng)中的應(yīng)用是最近興起的。一個(gè)奇異值分解的顯著特點(diǎn)是在降維壓縮數(shù)據(jù)的同時(shí)維持主要的數(shù)據(jù)模式。矩陣分解的主要目的是從原始數(shù)據(jù)集獲得一些低維的,對象和屬性的近似關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。

      奇異值分解的顯著特點(diǎn)是在降維壓縮數(shù)據(jù)的同時(shí)保護(hù)了主要的數(shù)據(jù)模式。在隱私保護(hù)金融數(shù)據(jù)挖掘應(yīng)用中,擾動(dòng)的數(shù)據(jù)集Ak可以在同時(shí)提供數(shù)據(jù)隱私保護(hù),還保留了原始數(shù)據(jù)的可用性,使其真實(shí)地表現(xiàn)原始的數(shù)據(jù)集結(jié)構(gòu)。

      奇異值分解(SVD)是一種常見的數(shù)據(jù)挖掘矩陣分解方法和信息檢索方法。它開始被用來降低數(shù)據(jù)集的維度。文獻(xiàn)[3]提出了用SVD進(jìn)行數(shù)據(jù)擾動(dòng)的技術(shù),在文獻(xiàn)[4]中,SVD技術(shù)是用來擾動(dòng)數(shù)據(jù)集的模式部分。

      2 SVD-clustering模型及算法

      SVD-clustering模型包含兩部分:數(shù)據(jù)擾動(dòng)部分和數(shù)據(jù)的聚集部分。模型如圖1所示。我們假設(shè)只有數(shù)據(jù)的擁有者和授權(quán)用戶才可以對數(shù)據(jù)進(jìn)行處理。經(jīng)過數(shù)據(jù)擾動(dòng),原始的數(shù)據(jù)集轉(zhuǎn)換成完全不同的數(shù)據(jù)矩陣,數(shù)據(jù)使用者利用K-means聚類等數(shù)據(jù)挖掘算法對擾動(dòng)的數(shù)據(jù)進(jìn)行檢索。因?yàn)閿?shù)據(jù)使用者未經(jīng)授權(quán)不能得到原始數(shù)據(jù),這樣,包含隱私保密信息的原始數(shù)據(jù)就得到了保護(hù)。

      2.1 SVD-clustering算法流程

      輸入:初始矩陣D,劃分的聚類的數(shù)目K

      輸出:轉(zhuǎn)換后的矩陣D',聚類結(jié)果

      (1)在矩陣D中找出需要保密的數(shù)據(jù)屬性序列(ai)i=1,2,…,n.形成一個(gè)新的矩陣A,A=[a1, a2,…,an];

      (2)用SVD算法對矩陣D進(jìn)行分解SVD(A)=UWVT;

      (3)找出擾動(dòng)后的矩陣AK=UkWkVkT;

      (4)用Ak的值更新數(shù)據(jù)庫D,形成新的矩陣D′;

      (5)在矩陣 D′中對保密數(shù)據(jù)的屬性進(jìn)行聚類分析。

      2.2 算法示例

      樣本數(shù)據(jù)如表1所示,在隱私保護(hù)的第一階段采用匿名保護(hù),用編號代替被采樣者,假設(shè)已經(jīng)去除了標(biāo)識符(如姓名、身份證號碼、地址等)。在這個(gè)樣本中我們比較關(guān)注年齡和年薪兩個(gè)屬性,假設(shè)數(shù)據(jù)的使用者想利用這些人的年齡和年薪對他們進(jìn)行分類。但是這些屬性值都是保密的信息,即要對這兩個(gè)屬性進(jìn)行隱私保護(hù)。

      為了達(dá)到隱私保護(hù)的目的,我們利用SVD-clustering模型對數(shù)據(jù)進(jìn)行擾動(dòng)。圖2顯示經(jīng)過擾動(dòng)后各個(gè)數(shù)據(jù)對象在擾動(dòng)前后聚類中的相對距離。

      3 實(shí)驗(yàn)結(jié)果分析

      為簡單起見,我們只考慮轉(zhuǎn)化兩個(gè)隱私數(shù)據(jù)屬性,年齡和年薪。每次聚類包含6個(gè)數(shù)據(jù)點(diǎn),在表2中,分別表示包含年齡和工資兩個(gè)屬性的六個(gè)數(shù)據(jù)點(diǎn)。在擾動(dòng)前,當(dāng)K=3時(shí),對象1,3,6在聚類1中,對象4,5在聚類2中,對象2在聚類3中,在數(shù)據(jù)擾動(dòng)后,當(dāng)K=3時(shí),數(shù)據(jù)1,3,6在聚類1中,對象2在聚類2中,對象4,5在聚類3中。

      實(shí)驗(yàn)的效率根據(jù)原始數(shù)據(jù)和擾動(dòng)后數(shù)據(jù)的合法點(diǎn)聚類檢測出來的。在進(jìn)行數(shù)據(jù)擾動(dòng)后聚類的簇元素和原始數(shù)據(jù)聚類后的簇元素應(yīng)該一致,但是在數(shù)據(jù)擾動(dòng)過程中可能存在一些潛在的問題:一些噪音點(diǎn)中斷了聚類過程;一個(gè)聚類中的數(shù)據(jù)點(diǎn)變成噪音點(diǎn);一個(gè)數(shù)據(jù)點(diǎn)從一個(gè)聚類轉(zhuǎn)移到另一個(gè)聚類。由于我們采用的K-means聚類算法已經(jīng)消除了噪音,所以我們驗(yàn)證結(jié)果的時(shí)候只考慮第三種情況。

      3.1 誤差率分析

      其中,N 代表原始數(shù)據(jù)集 D中點(diǎn)的個(gè)數(shù),k 為聚類的個(gè)數(shù),D'為擾動(dòng)后的數(shù)據(jù)集,|Clusteri(D)|代表第 i個(gè)聚類中的合法數(shù)據(jù)點(diǎn)的個(gè)數(shù)。從表3中可以看到,利用SVD-clustering算法得到的誤差率在0.1% 左右,可以證明我們的算法在數(shù)據(jù)擾動(dòng)前后聚集的準(zhǔn)確性非常好。

      3.2 相對誤差分析

      當(dāng)一個(gè)數(shù)據(jù)矩陣擾動(dòng)后,它的屬性值也發(fā)生改變,數(shù)據(jù)值的變化可以用范數(shù)的相對誤差表示。這樣,可以用RE(Relative Error)表示原始值D到擾動(dòng)后的屬性值D′的變化。

      其中||D||F是矩陣D的歐式范數(shù),D'為擾動(dòng)后的數(shù)據(jù)集。可以看出,RE的數(shù)值越大,表明數(shù)據(jù)擾動(dòng)的程度越大,即數(shù)據(jù)的保密性能越好。

      4 結(jié)論

      我們提出一個(gè)奇異值分解的聚類方法,用來擾動(dòng)保密數(shù)值的屬性,以滿足銀行客戶隱私保護(hù)的要求,同時(shí)保留K-means聚類分析的一般特點(diǎn).實(shí)驗(yàn)結(jié)果表明,該方法在高準(zhǔn)確性隱私保護(hù)應(yīng)用中非常有效,保證聚類挖掘結(jié)果正確性的基礎(chǔ)上,對數(shù)據(jù)集中的敏感屬性也進(jìn)行了很好的隱私保護(hù)。

      參考文獻(xiàn)

      [1]R.Agrawal,R.Srikant.Privacy-preserving data mining.in:Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data,2000,439-450.

      [2]J.Wang,J.Zhang,W.Zhong,S.Xu,A novel data distortion approach via selective ssvd for privacy protection.2009.

      [3]V.Verykios,E.Bertino,I.Fovino,L.Provenza,Y.Saygin,Y.Theodoridis. State-of-the-art in privacy preserving data mining.ACM SIGMOD Record,2014,3(01):50-57.

      [4]L.Hubert,J.Meulman,W.Heiser.Two purposes for matrix factorization: a historical appraisal.SIAM Review,2009,42(04):68-82.

      [5]張國榮,印鑒.應(yīng)用等距變換處理聚類分析中的隱私保護(hù)[J].計(jì)算機(jī)應(yīng)用研究,2015(07):83-86.

      [6]黃偉偉,柏文陽.聚類挖掘中隱私保護(hù)的幾何數(shù)據(jù)轉(zhuǎn)換方法[J].計(jì)算機(jī)應(yīng)用研究,2006(06):180-184.

      作者簡介

      季文韜(1986-),男,河南省南陽市人。主要研究方向?yàn)殡[私保護(hù)數(shù)據(jù)挖掘。

      魏巍 (1992-),男,河南省南陽市人。主要研究方向?yàn)閿?shù)據(jù)處理。

      作者單位

      1.中國農(nóng)業(yè)銀行成都青羊支行 四川省成都市 610015

      2.電子科技大學(xué)成都學(xué)院通信與信息工程系 四川省成都市 610500

      猜你喜歡
      奇異值分解隱私保護(hù)聚類分析
      結(jié)合PCA及字典學(xué)習(xí)的高光譜圖像自適應(yīng)去噪方法
      大數(shù)據(jù)環(huán)境下用戶信息隱私泄露成因分析和保護(hù)對策
      大數(shù)據(jù)安全與隱私保護(hù)的必要性及措施
      農(nóng)村居民家庭人均生活消費(fèi)支出分析
      基于分塊DWT和SVD的魯棒性數(shù)字水印算法
      社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護(hù)研究綜述
      一種基于奇異值分解的魯棒水印算法
      大數(shù)據(jù)時(shí)代的隱私保護(hù)關(guān)鍵技術(shù)研究
      基于省會城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
      中國市場(2016年33期)2016-10-18 12:16:58
      基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
      科技視界(2016年20期)2016-09-29 12:32:48
      大名县| 湖北省| 娱乐| 德庆县| 大石桥市| 牡丹江市| 肇源县| 罗平县| 黄平县| 漯河市| 陆丰市| 邵武市| 广州市| 三门县| 东光县| 平武县| 梁河县| 崇阳县| 涿鹿县| 鹰潭市| 新平| 旬邑县| 伊通| 忻州市| 夏邑县| 张家口市| 株洲县| 壶关县| 德清县| 云南省| 互助| 历史| 枞阳县| 宁陵县| 夏邑县| 玛曲县| 泰州市| 德安县| 县级市| 霍山县| 福安市|