楊 暉
(凱里學(xué)院 大數(shù)據(jù)工程學(xué)院,貴州 凱里556000)
云存儲是從云計(jì)算技術(shù)上衍生發(fā)展的一個新概念[1]。云存儲原理是通過應(yīng)用軟件、網(wǎng)格技術(shù)系統(tǒng)等功能對數(shù)據(jù)進(jìn)行存儲和處理,使用戶在任何時間及地點(diǎn),都可以使用網(wǎng)絡(luò)設(shè)備訪問云平臺進(jìn)行數(shù)據(jù)存取。云儲存是透過互聯(lián)網(wǎng)將龐大的計(jì)算機(jī)處理程序分解成多個應(yīng)用子程序,再利用應(yīng)用軟件按類型不同組成新的云計(jì)算處理結(jié)果,最終用戶能在海量的數(shù)據(jù)中直接訪問到自己需要的業(yè)務(wù)數(shù)據(jù)[2]。關(guān)于數(shù)據(jù)層次化去冗處理,是利用布隆過濾器對云儲存服務(wù)器每個節(jié)點(diǎn)進(jìn)行層次化去冗,達(dá)到全局?jǐn)?shù)據(jù)消冗的目的。布隆過濾器雖然能對數(shù)據(jù)進(jìn)行去冗優(yōu)化,但在過程中容易出現(xiàn)誤判問題。因此,研究基于皮爾森相關(guān)算法的云存儲層次化去冗優(yōu)化方法對數(shù)據(jù)消冗有著重要意義[3]。
付鋆等[4]提出一種云存儲層次化去冗優(yōu)化方法,其能有效地提高數(shù)據(jù)的分析檢索時間,構(gòu)建云存儲分層處理數(shù)據(jù)的索引模型,按云存儲層次劃分對數(shù)據(jù)進(jìn)行逐個去重,再利用數(shù)據(jù)庫智能化程序?qū)θブ睾蟮脑拼鎯?shù)據(jù)進(jìn)行性能優(yōu)化,實(shí)現(xiàn)云存儲數(shù)據(jù)的層次化去冗優(yōu)化,但往往忽略云存儲網(wǎng)絡(luò)冗余信息的編碼等問題。李燕梅[5]提出通過設(shè)定網(wǎng)絡(luò)云存儲冗余信息的閾值,采用維數(shù)計(jì)算出樣本權(quán)重函數(shù),最后對云存儲冗余信息特征進(jìn)行重新排列處理,利用計(jì)算機(jī)軟件計(jì)算完成對云存儲冗余信息的消除,但對維數(shù)判定不足導(dǎo)致存在結(jié)果誤判的問題。為此,筆者提出了基于皮爾森相關(guān)算法的云存儲層次化去冗優(yōu)化方法。
通過去除云存儲終端數(shù)據(jù)的冗余,將云存儲層次化結(jié)構(gòu)中的冗余信息進(jìn)行層次分類,從而能徹底去除云存儲層次化結(jié)構(gòu)中的冗余信息數(shù)據(jù)[6]。
假設(shè)d′(xi,xj)為云存儲層次化結(jié)構(gòu)中冗余信息的同比相近數(shù)值,可得出以下計(jì)算公式
其中L為云存儲層次化結(jié)構(gòu)中冗余信息的系數(shù),tx為冗余信息在云存儲層次化結(jié)構(gòu)中的具體屬性。冗余信息的同比相近數(shù)值隨d′(xi,xj)的值變大而變大。相對屬性列陣計(jì)算公式為
基于皮爾森距離函數(shù)[7],構(gòu)建冗余信息的距離矩陣
利用除法運(yùn)算公式[8]對相對屬性列陣D與距離矩陣D′進(jìn)行冗余信息計(jì)算,得到
設(shè)最大相對屬性元素為K,則最近鄰表是云存儲終端冗余信息數(shù)據(jù)的中心,得到dn,1為相對屬性列陣距離矩陣[di,j]n×n,則相對屬性值最高元素為K
在云存儲層次化結(jié)構(gòu)中,根據(jù)各信息元素在最近鄰表中的屬性,計(jì)算出冗余信息數(shù)據(jù)的相近數(shù)值sim(xi,xj)。
但在實(shí)際操作過程中,很難根據(jù)云存儲層次化結(jié)構(gòu)中冗余信息元素在最近鄰表中的屬性準(zhǔn)確地推算出冗余信息的相近數(shù)值[9]。因?yàn)槿哂嘈畔⒌耐认嘟鼣?shù)值隨d′(xi,xj)值變大而變大,最近鄰表的元素位置無法與數(shù)量形成鮮明的對比。為很好地解決上述問題,利用皮爾森相關(guān)算法對云存儲層次化結(jié)構(gòu)中的冗余信息進(jìn)行層次化分類,再根據(jù)分類結(jié)果得到云存儲層次化結(jié)構(gòu)中冗余信息
其中PxnT(xi)為冗余信息元素xn在最近鄰表T(xi)中的位置。
根據(jù)云存儲層次化結(jié)構(gòu)中冗余信息的屬性分布相似性度量值,構(gòu)建了冗余信息的距離矩陣,通過計(jì)算冗余信息之間的相似度,對云存儲層次化冗余信息進(jìn)行分類。
在提取云存儲層次化結(jié)構(gòu)中的冗余信息特征前,在相空間中提取冗余信息的高維度特征,具體過程如下。
令云存儲層次化結(jié)構(gòu)中第i′個冗余數(shù)據(jù)包為ith,采用高維空間投影的方式[10]處理冗余信息,t0為冗余信息的初始時間向量,則在云存儲層次化結(jié)構(gòu)中得到冗余信息的相空間重構(gòu)結(jié)果,即
通過分析云存儲層次化結(jié)構(gòu)中冗余信息特征的結(jié)構(gòu),利用數(shù)據(jù)降維約束條件和中心極限原理,在云存儲層次化結(jié)構(gòu)中,構(gòu)建冗余信息特征空間壓縮的目標(biāo)函數(shù),提取出云存儲層次化冗余信息特征。
對云存儲層次化結(jié)構(gòu)中冗余信息樣本點(diǎn)xi,模糊因子ui能體現(xiàn)xi在分布上的不確定性,令O+和O-分別為正、負(fù)樣本點(diǎn)均值點(diǎn),φT為法向量,得到云存儲層次化結(jié)構(gòu)中冗余信息在去冗優(yōu)化中的超平面為
若云存儲層次化結(jié)構(gòu)中冗余信息特征的有效度越小,說明冗余信息樣本的第i個特征對有效度函數(shù)的計(jì)算影響越小,有效避免了云存儲層次化結(jié)構(gòu)被冗余信息特征所支配,從而完成了云存儲層次化的去冗優(yōu)化。
基于去冗優(yōu)化超平面,計(jì)算了冗余信息樣本點(diǎn)到正負(fù)類超平面的距離,利用皮爾森相關(guān)算法定義了模糊因子,通過定義云存儲層次化結(jié)構(gòu)中特征有效度,構(gòu)建了云存儲層次化結(jié)構(gòu)中冗余信息特征的有效度函數(shù),實(shí)現(xiàn)了云存儲層次化的去冗優(yōu)化。
為驗(yàn)證基于皮爾森相關(guān)算法的云存儲層次化去冗優(yōu)化方法在去冗效率和召回率上的性能,選擇Windows操作系統(tǒng),分別采用文獻(xiàn)[4]和文獻(xiàn)[5]的云存儲層次化去冗優(yōu)化方法與筆者方法進(jìn)行對比,測試了3種方法的去冗效率和召回率。
3種云存儲層次化去冗優(yōu)化方法的去冗效率測試結(jié)果如圖1所示。從圖1可以看出,基于皮爾森相關(guān)算法的云存儲層次化去冗優(yōu)化方法在去冗中所用的時間少于其他兩種方法,原因是該方法采用皮爾森相關(guān)算法對云存儲層次化結(jié)構(gòu)中的冗余信息進(jìn)行了降維處理,降低了冗余信息的維數(shù),減少了去冗所用時間,從而大大提高了基于皮爾森相關(guān)算法的云存儲層次化去冗優(yōu)化方法的去冗效率。
圖1 云存儲層次化去冗效率測試結(jié)果Fig.1 Test results of hierarchical redundancy removal efficiency in cloud storage
3種方法的召回率測試結(jié)果如圖2所示。從圖2可以看出,設(shè)計(jì)方法的召回率明顯高于其他兩種方法,原因是該去冗優(yōu)化方法根據(jù)云存儲層次化結(jié)構(gòu)中冗余信息的相似性,對冗余信息進(jìn)行了分類處理,采用皮爾森相關(guān)算法對冗余信息進(jìn)行了處理,實(shí)現(xiàn)了云存儲層次化的去冗,從而提高了該方法的召回率。
圖2 召回率測試結(jié)果Fig.2 Test results of recall rate
筆者提出了基于皮爾森相關(guān)算法的云存儲層次化去冗優(yōu)化,通過分類云存儲層次化冗余信息,提取出云存儲層次化冗余信息特征,采用皮爾森相關(guān)算法設(shè)計(jì)了云存儲層次化去冗優(yōu)化程序,實(shí)現(xiàn)了云存儲層次化的去冗。結(jié)果顯示,該方法在去冗效率和召回率方面的性能有一定提升。