羅 麗
(江西科技師范大學(xué)理工學(xué)院,江西 南昌 330013)
隨著企業(yè)私有云平臺的應(yīng)用,數(shù)據(jù)存儲方式都在向云計算平臺遷移,在大數(shù)據(jù)時代,大量數(shù)據(jù)的管理和分析,能夠為用戶提供更加安全化和個性化的服務(wù),但也無法避免用戶隱私數(shù)據(jù)信息泄露風(fēng)險。如何有效地保護(hù)個人隱私以及商業(yè)加密是現(xiàn)階段研究人員主要面臨的一個重要挑戰(zhàn)。
劉波濤等人[1]提出基于數(shù)字型的輕量級保形加密算法。利用輕量級分組密碼算法構(gòu)造數(shù)字型置換表,數(shù)字型明文與輕量級分組密碼的加密密鑰實施準(zhǔn)確對應(yīng)相加、取模操作,利用數(shù)字型置換表進(jìn)行置換加密操作,獲得數(shù)字型密文數(shù)據(jù)。從而達(dá)到對任何長度數(shù)字型數(shù)據(jù)加密前后格式不發(fā)生變化。李小倩等人[2]提出基于物理層安全加密算法。利用相位隨機化的信號進(jìn)行信道探測并提取出等效信道相位信息,對三維星座進(jìn)行物理層調(diào)制加密,對于接收端進(jìn)行解密解調(diào)。充分利用無線信道相位響應(yīng)的隨機性、互易性和位置敏感性,保證物理層信號的安全性。
但是上述兩種傳統(tǒng)方法只能對單一類型數(shù)據(jù)進(jìn)行加密,無法對混合數(shù)據(jù)信息進(jìn)行有效管理和加密。所提方法在云平臺建立混合數(shù)據(jù)框架,優(yōu)化其可擴展性,運用使用者查詢項模型進(jìn)行散度運算,最后運用匿名化策略對數(shù)據(jù)加密處理。該方法所得結(jié)果隱私性更高,并且能有效地保護(hù)混合數(shù)據(jù)信息,具有較高實用性。
計算機網(wǎng)絡(luò)技術(shù)的高速發(fā)展及應(yīng)用,使得各個企業(yè)的信息化程度也隨之加深,計算機軟件的更新速度急劇升高,眾多企業(yè)面臨著中心數(shù)據(jù)大量膨脹的問題,運用私有云能夠有效解決該問題[3]。整合混合數(shù)據(jù)資源,通過軟件自動管理,為用戶提供有效運算和安全存儲的平臺,達(dá)到對混合數(shù)據(jù)的高效利用?;诖藢υ嬎銠C所執(zhí)行的任務(wù)進(jìn)行轉(zhuǎn)移,根據(jù)私有云中的計算核心進(jìn)行合理運算,從而實現(xiàn)資源共享。
在對私有云運算時,用戶無需提供數(shù)據(jù)運算和儲存資源,均由私有云數(shù)據(jù)中心提供,能夠減少復(fù)雜的維護(hù)程序環(huán)節(jié),解決數(shù)據(jù)服務(wù)器框架結(jié)構(gòu)擴展性差問題,通過網(wǎng)絡(luò)的連接將所運算的數(shù)據(jù)信息發(fā)布到計算機中,能夠使數(shù)據(jù)呈現(xiàn)動態(tài)流動并具有靈活調(diào)配性。
私有云是企業(yè)針對現(xiàn)有設(shè)備構(gòu)建的滿足用戶安全使用要求的云平臺,當(dāng)用戶在使用私有云平臺時,云數(shù)據(jù)的安全及服務(wù)質(zhì)量都可以擁有有效的保障[4]。私有云平臺的資源是用戶專有的,具有高彈性。
私有云主要是為用戶在平臺上進(jìn)行單方面操作而建立的,因此需要對數(shù)據(jù)信息的安全性以及服務(wù)質(zhì)量設(shè)定一個標(biāo)準(zhǔn)。在提供安全平臺的基礎(chǔ)上,能夠合理控制其中的應(yīng)用程序。
在眾多數(shù)據(jù)源中,數(shù)據(jù)會逐漸自行分組,特征與形式均不相同。數(shù)據(jù)的形成速度較快并且規(guī)模龐大,很難運用傳統(tǒng)的系統(tǒng)進(jìn)行高質(zhì)量儲存,更難以保證信息的準(zhǔn)確性[5]。本文采用分布式文件系統(tǒng)的實時存儲,在很大程度上為后續(xù)運算做基礎(chǔ)。
混合型大數(shù)據(jù)平臺分為2個部分,一部分是根據(jù)數(shù)據(jù)平臺設(shè)計出的物理服務(wù)器,可以用于數(shù)據(jù)存儲與運算。另一部分物理服務(wù)器依據(jù)云計算要求設(shè)計出相應(yīng)場景。2類服務(wù)器分別通過眾多冗余的接入交換機接到數(shù)據(jù)網(wǎng)絡(luò)中心。通過合理配置獲得數(shù)據(jù)所在網(wǎng)絡(luò)位置,為數(shù)據(jù)與云平臺兩者間提供交換通道。具體內(nèi)容如圖1所示。
圖1 混合數(shù)據(jù)平臺框架
為增強匿名化操作的準(zhǔn)確性,需要對數(shù)據(jù)進(jìn)行混合數(shù)據(jù)泛化處理[6],運用信息損失指標(biāo)進(jìn)一步實施運算,完成泛化具體操作。
設(shè)定泛化模型:gen:Child(q)→q,其中q代表域值,Child(q)表示被包含的各個子節(jié)點,ILPG的運算表達(dá)式為
ILPG(gen)=IL(gen)/PG(gen)+1
(1)
其中,IL(gen)作為經(jīng)過泛化之后的信息損失,PG(gen)作為隱私增益,其數(shù)值可以根據(jù)數(shù)據(jù)值運算獲得。Rx作為數(shù)據(jù)集的初始信息,其中包含能夠被泛化成x的屬性值。|Rx|作為Rx內(nèi)的數(shù)據(jù)值,I(Rx)作為Rx的熵。可以得出IL(gen)的表達(dá)式即
(2)
在式(2)中,c為數(shù)據(jù)集內(nèi)的初始數(shù)據(jù)屬性值,可看做一個節(jié)點。q為眾多節(jié)點經(jīng)過泛化處理之后的域值。Rc為原數(shù)據(jù)集的初始信息,Rq為通過子節(jié)點泛化之后的數(shù)據(jù)集信息。
Ap(gen)為經(jīng)過泛化處理過后的匿名度,Ac(gen)為經(jīng)過泛化處理之前的匿名度,故得出泛化處理后的隱私增益表達(dá)式為
PG(gen)=Ap(gen)-Ac(gen)
(3)
綜上,完成對私有云混合數(shù)據(jù)的泛化處理。
眾多匿名化算法都較為重視對信息失真的保護(hù),但是若用戶混合數(shù)據(jù)與信息失真間的強關(guān)聯(lián)規(guī)則,將會加重隱私性威脅程度[7]。本研究運用混合數(shù)據(jù)與信息失真度兩者間的聯(lián)系進(jìn)一步衡量隱私性與實用性。其表達(dá)式如下
(4)
(5)
式中,Pa(D′)為匿名化概率,m為屬性數(shù)量,Ji為在Qi內(nèi)的類數(shù)值的類別數(shù)量,entropy(Qi)為屬性Qi的熵,各個信息失真度屬性可能被匿名化的機率是1/m,pj為Qi內(nèi)遠(yuǎn)足的機率分布情況。
對匿名化的數(shù)據(jù)集其中一組信息記錄,用戶可以判斷出初始數(shù)據(jù)內(nèi)相對應(yīng)信息失真度發(fā)的機率是1/Pa(D′)。當(dāng)InPa(D′)的數(shù)值越大,則說明數(shù)據(jù)的隱私性越好[8]。
(6)
在式(6)中,utility表示數(shù)據(jù)實用性程度,其中對初始數(shù)據(jù)的改動逐漸減少,所保留的混合數(shù)據(jù)重要信息越多,所得數(shù)據(jù)的實用性在很大程度上增強。
在私有云環(huán)境下,搜索詞的相似度不僅是語言相似程度,還是查詢項的相關(guān)程度,運用Jaccard系數(shù)進(jìn)一步運算關(guān)鍵詞相似度[10]。
設(shè)置U(ti)作為查詢項目內(nèi)ti所覆蓋的用戶集,可將關(guān)鍵詞ti與tj間的相似度運用Jaccard系數(shù)實施合理運算,利用F(ti,tj)表示相似度,其表達(dá)式即
(7)
用戶查詢項模型的相似度運算具有2種情況,分別是:含有權(quán)值較大的關(guān)鍵詞狀況,此處可作為最大興趣點[11]。最大興趣點與其它查詢項模型的集合作為最大相似度,能夠表示2個用戶查詢項模型的相似程度;在權(quán)值相同的情況下,各個詞語最大興趣集合與其它全部查詢項模型點集合分別實施合理運算,最大相似度作為2個用戶查詢項模型的相似程度。
將用戶查詢項模型集合理分割成均等的多個簇,在各個簇內(nèi)至少包括k個用戶查詢模型相似。Ui表示第i個用戶的查找項模型,SU表示查找項模型集合,CI/ci表示在第I個簇內(nèi)的i個因素,C(CI)表示CI的中心點,L(C)表示一個完整的簇集合,E(CI)表示在CI內(nèi)的第一個因素,k表示用戶需求系數(shù)。
選取合適候選點,根據(jù)指數(shù)機制進(jìn)一步確保差分隱私,運算用戶查找項模型Ui之間的相似程度,根據(jù)概率來選擇候選點,需滿足概率PUi,其表達(dá)式為
(8)
(9)
運用Jaccard相似度進(jìn)行運算。通過運行程序形成發(fā)布數(shù)據(jù)并運算出數(shù)據(jù)的損失度量,其中,ε=0.1,1,2≤k≤10。
根據(jù)同義詞詞林運算詞語的相似程度,并與Jaccard相似度進(jìn)行對比分析,具體數(shù)據(jù)如表1所示。
表1 不同大數(shù)據(jù)項目相似度對比
從表1中可知,Jaccard系數(shù)運算獲得的查詢項相似度更加的符合實際。在私有云網(wǎng)絡(luò)環(huán)境基礎(chǔ)下,各種詞語層出不窮,同義詞詞林無法概括全部詞語,而Jaccard系數(shù)根據(jù)網(wǎng)絡(luò)用戶潛在的網(wǎng)絡(luò)共識實施相似度合理運算,不僅僅依靠于詞典,相比之下在網(wǎng)絡(luò)環(huán)境內(nèi)更為適用。
(10)
式中,Uj∈CI并且Uj≠C(CI)。
當(dāng)數(shù)據(jù)集的原始適應(yīng)度相同,需要綜合考慮其密度,合理運算出其表達(dá)式為
d(Mi)=1/(σi+1)
(11)
式中,σi作為數(shù)據(jù)集Mi至其它數(shù)據(jù)集間的最近間隔,d(Mi)<1。圖2作為運算數(shù)據(jù)集密度的例子。
圖2 適應(yīng)值的比較
圖2中可得出,數(shù)據(jù)集的實用性越差那么隱私性越高,M3相比其它數(shù)據(jù)集適應(yīng)值更為穩(wěn)定,它最近點的距離最短,擁有更高的密度值。根據(jù)以上步驟完成基于私有云的混合型大數(shù)據(jù)的匿名化加密。
為驗證所提方法的合理性和有效性,在Intel平臺中進(jìn)行100次迭代實驗,為提高實驗結(jié)果可靠性,在ARM設(shè)備中測試30次。將實驗所得平均值作為實驗結(jié)果。主要從用戶的角度出發(fā),分析所提方法的操作時間與數(shù)據(jù)存儲空間的安全程度。
將所提方法與文獻(xiàn)[1]和文獻(xiàn)[2]方法進(jìn)行比較,測試不同方法處理后加密密文大小和轉(zhuǎn)換密文大小,具體結(jié)果如圖3所示。
圖3 不同方法下密文大小對比
由圖3實驗結(jié)果可知,對100個屬性的匿名化策略用戶端進(jìn)行加密時,通過私有云的密文合理轉(zhuǎn)換后的密文不超過5kB。相比之下,另外兩種傳統(tǒng)方法下密文大小高達(dá)20kB~25kB,由此可得出傳統(tǒng)方法下密文會占用更大存儲空間。相比之下所提方法能夠處理大量的運算量外包給私有云,一定程度上減輕了用戶端的運算量與成本以及內(nèi)存占用。
為進(jìn)一步驗證所提方法的有效性,利用文獻(xiàn)[1]方法、文獻(xiàn)[2]方法作為對照實驗組,進(jìn)行方法運行時長測試。為提升實驗結(jié)果的可靠性,本次測試分為非外包加密和外包加密兩類,在不同平臺中測試獲得的加密時間與匿名化策略中的屬性個數(shù)N有關(guān)聯(lián),三種方法的運行處理時間對比如圖4所示。
圖4 用戶加密時間
圖4(a)實驗結(jié)果顯示,匿名化策略中的屬性個數(shù)為100時,所提匿名化加密方法的非外包裝所需時間3s,而兩種文獻(xiàn)方法均大于20s,從圖4(b)可知,所提匿名化加密方法的外包裝所需時間0.35s,而兩種傳統(tǒng)文獻(xiàn)方法均大于2s??梢姡啾绕渌椒?,所提方法更加節(jié)省運算時所花費的時間,能夠較快的完成對數(shù)據(jù)的加密處理,具有顯著的優(yōu)越性。
數(shù)據(jù)匿名化處理能夠使用戶在私有云平臺上的信息得到保障。本次研究建立私有云框架,為安全運算中心提供穩(wěn)定的平臺,并且有效提高了運行時效?;诖藰?gòu)建出混合數(shù)據(jù)平臺,以較低的成本來實現(xiàn)更優(yōu)可擴展性,而且不被任何一種私有技術(shù)限定。運用混合數(shù)據(jù)與信息失真度之間的聯(lián)系衡量出蘊含的隱私性,再通過散度進(jìn)一步衡量匿名數(shù)據(jù)集與原始數(shù)據(jù)集的相似程度,進(jìn)而證明匿名數(shù)據(jù)可用性程度。仿真結(jié)果表明,所提方法能夠更大程度上減少運行時間,具有較高安全性和實用性性。