張毅 哈爾濱市信息化建設(shè)項目管理中心 周佩 黑龍江省財政信息中心 許斌 東北農(nóng)業(yè)大學(xué)
數(shù)據(jù)挖掘隱私保護算法研究
張毅 哈爾濱市信息化建設(shè)項目管理中心 周佩 黑龍江省財政信息中心 許斌 東北農(nóng)業(yè)大學(xué)
目前,隨著各領(lǐng)域的信息量暴漲,致使數(shù)據(jù)挖掘方面既存在機遇又存在挑戰(zhàn),并且這種爆破式的增長導(dǎo)致用戶數(shù)據(jù)挖掘與儲存的安全隱私產(chǎn)生了極大的隱患。因此,對數(shù)據(jù)挖掘隱私保護成為了當前亟待解決的問題。本文主要對數(shù)據(jù)挖掘隱私保護的算法進行研究,通過擾動算法以及關(guān)聯(lián)規(guī)則隱藏算法兩種算法進行對數(shù)據(jù)挖掘隱私保護算法進行研究,以期使問題得到解決。
數(shù)據(jù)挖掘 隱私保護 算法研究 關(guān)聯(lián)規(guī)則隱藏算法
隨著網(wǎng)絡(luò)科技的快速發(fā)展,各種信息、資源能夠達到共享,使人們接受各類信息更加快捷方便,與此同時,信息量的暴增以及網(wǎng)絡(luò)的透明化也使用戶的數(shù)據(jù)挖掘隱私保護受到了威脅,用戶機密隱私信息遭到泄漏。數(shù)據(jù)挖掘的目的是為了對數(shù)據(jù)信息進行科學(xué)分析;另外,對需要保護的重要數(shù)據(jù)信息應(yīng)該采取修改或刪除的方式來進行保密。本文主要對擾動算法以及關(guān)聯(lián)規(guī)則隱藏算法進行研究和介紹,對數(shù)據(jù)挖掘隱私保護算法的趨勢進行分析。
此算法主要包括隨機擾動以及乘法擾動兩個方面。前者的主要是通過加法的運算方法來對原始數(shù)據(jù)進行噪聲的添加,并且這種添加方式為隨機添加,除此之外,隨機擾動的算法還包括k-mean算法、數(shù)據(jù)轉(zhuǎn)換矩陣算法以及多重隨機算法等。而后者則包含投影擾動和旋轉(zhuǎn)擾動兩種算法。
1.1.1 隨機擾動
此算法通常是指針對已知數(shù)據(jù)中加入一定程度的噪聲,使單個數(shù)據(jù)恢復(fù)成原始數(shù)據(jù)的可能性消失。比如若存在一個原始數(shù)據(jù)r,在r中添加一定程度的噪聲d,從而得出附帶噪聲的數(shù)據(jù)s,可表示為s=r+d??蓪整體化,并以相應(yīng)的算法,針對s實施數(shù)據(jù)挖掘,并對r進行的數(shù)據(jù)挖掘所產(chǎn)生的結(jié)果進行推斷。總體來講,噪聲的強度越高,隱私保護的安全性就越強,但與此同時數(shù)據(jù)挖掘的難度系數(shù)就越大,并且還會造成挖掘在準確性方面變差,所以需要對隱私保護的強度以及數(shù)據(jù)挖掘的準確程度的平穩(wěn)性進行維持。
除了對數(shù)據(jù)添加噪聲之外,還可以對矩陣中數(shù)據(jù)進行隨機轉(zhuǎn)化,稱之為隨機擾動算法。相關(guān)研究人員還研究出對信號進行處理的擾動算法,就是將隨機項添入原始數(shù)據(jù)所形成的矩陣中,并通過另一矩陣與之進行相乘來進行干擾,然后將干擾后的數(shù)據(jù)進行發(fā)布。在數(shù)據(jù)發(fā)布后,客戶端需要對已發(fā)布的數(shù)據(jù)進行挖掘,并將挖掘的結(jié)果返回至服務(wù)器中,待服務(wù)器將此結(jié)果進行有效的處理后,才能夠?qū)⒄鎸嵉慕Y(jié)果進行返回。
1.1.2 乘法擾動
乘法擾動算法主要包含投影擾動和旋轉(zhuǎn)擾動兩種算法。其中,投影擾動主要是使數(shù)據(jù)在空間上由高維轉(zhuǎn)向低維的一個映射過程,最終獲得全新的數(shù)據(jù)集。而旋轉(zhuǎn)擾動的定義可按G(X)=RX這個方程式進行表示,在這個方程式中,R代表正交矩陣,X代表源數(shù)據(jù)矩陣,G(X)則代表數(shù)據(jù)被擾動后產(chǎn)生的矩陣。相關(guān)研究人員層得出研究結(jié)果,旋轉(zhuǎn)擾動能夠?qū)⒃紨?shù)據(jù)進行分成若干個子數(shù)據(jù),并且這些子數(shù)據(jù)相互獨立,通過對不同隨機正交矩陣進行使用,然后對分割后的各子數(shù)據(jù)進行旋轉(zhuǎn)擾動,能夠有效抵御通過獨立分量進行分析所形成的攻擊,效果較為良好。
這種算法一般具備一定的條件,這些條件就是數(shù)據(jù)項已給定,并且相應(yīng)的記錄和數(shù)據(jù)項都在集合T之中,通過這些條件能夠找到各數(shù)據(jù)項間存在的關(guān)聯(lián)性,從而使數(shù)據(jù)項相應(yīng)的置信度以及支持度高于用戶提出的最小置信度閾值和最小支持度閾值。這種算法大多都采用這樣一種策略,其是將自身的管理規(guī)則隱藏的主要任務(wù)進行分解,主要分解為兩個較為主要的子任務(wù),這兩個子任務(wù)分別為頻繁項集的產(chǎn)生以及規(guī)則的產(chǎn)生,前者的主要目標是使最小支持度閾值能夠得到滿足的所有項集被發(fā)現(xiàn),也就是說使事務(wù)數(shù)據(jù)庫之中全部的頻繁項集能夠被找出;后者的主要目標則是將頻繁項集之中包含的全部高置信度的關(guān)聯(lián)規(guī)則能夠被發(fā)現(xiàn)。
對于關(guān)聯(lián)規(guī)則隱藏算法較為常用的方法主要有三種:
(1)啟發(fā)算法:這種算法主要是根據(jù)經(jīng)驗規(guī)則來進行解決問題的算法。
(2)邊界算法:這種算法主要是根據(jù)數(shù)據(jù)集之中存在的不頻繁算法和頻繁算法之間的邊界存在的原始邊界來進行實現(xiàn)的。
(3)精確算法:這種算法使規(guī)則隱藏的全過程成為一種線性規(guī)劃或是整數(shù)規(guī)劃來使問題得以解決。與啟發(fā)算法相比,此算法能夠使數(shù)據(jù)的隱藏更加具有優(yōu)勢,但計算成本稍高。
綜上所述,數(shù)據(jù)挖掘往往與數(shù)據(jù)的隱私保護往往是相互對立的,但用戶的主要目的就是使自身的數(shù)據(jù)隱私得到保護,因此,需要克服數(shù)據(jù)挖掘的難點,通過科學(xué)的算法來完成數(shù)據(jù)的挖掘。本文中所提及的兩種方法在實際應(yīng)用中,都具有良好的效果,具備數(shù)據(jù)挖掘隱私保護的水平,可以推廣應(yīng)用。
[1]萬芊山.基于已知信息獨立分量分析和局部旋轉(zhuǎn)擾動的數(shù)據(jù)挖掘隱私保護研究[J].科學(xué)與財富,2014,11(4):247-248.
[2]方躍堅,朱錦鐘,周文.數(shù)據(jù)挖掘隱私保護算法研究綜述[J].信息網(wǎng)絡(luò)安全,2017(2):6-11.
張毅(1982.12—)男,漢族,河北省高陽縣人,大學(xué)本科學(xué)歷,工程師,研究方向:計算機軟硬件、網(wǎng)絡(luò)工程。周佩(1982.11—),男,漢族,山東省福山縣人,碩士研究生學(xué)歷,高級工程師,研究方向:計算機信息系統(tǒng)分析與應(yīng)用。許斌(1982.11—)男,漢族,黑龍江省嫩江縣人,大學(xué)本科學(xué)歷,助理研究員,研究方向:通信工程、節(jié)能減排。