王娜娜
(山西警察學(xué)院 網(wǎng)絡(luò)安全保衛(wèi)系,山西 太原 030401)
在物聯(lián)網(wǎng)、云計(jì)算技術(shù)飛速發(fā)展的背景下,網(wǎng)絡(luò)中的稀疏大數(shù)據(jù)數(shù)量呈線性增長,社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代[1]。云存儲(chǔ)環(huán)境是由網(wǎng)絡(luò)虛擬形成的存儲(chǔ)平臺(tái),是海量存儲(chǔ)設(shè)備通過集群技術(shù)構(gòu)成的。數(shù)據(jù)遷移的本質(zhì)是將存儲(chǔ)設(shè)備中存在的數(shù)據(jù)遷移到其它存儲(chǔ)設(shè)備中,提高資源的利用率和存儲(chǔ)系統(tǒng)的性能。數(shù)據(jù)遷移分為兩種類型,分別是在線遷移和離線遷移。存儲(chǔ)系統(tǒng)的性能受數(shù)據(jù)遷移效率的影響,所以數(shù)據(jù)遷移在數(shù)據(jù)管理中是極其重要的。在混合云存儲(chǔ)中快速、準(zhǔn)確地獲取稀疏大數(shù)據(jù),對稀疏大數(shù)據(jù)進(jìn)行分析,是目前研究的熱點(diǎn)[2,3],相關(guān)研究人員提出了一些方法。
文獻(xiàn)[4]提出傳統(tǒng)RDBMS向非關(guān)系型MongoDB數(shù)據(jù)模型轉(zhuǎn)換與數(shù)據(jù)遷移方法,構(gòu)建了代表關(guān)系參照完整性的有向圖表示模型對數(shù)據(jù)進(jìn)行預(yù)處理,根據(jù)預(yù)處理結(jié)果提出基于關(guān)系型數(shù)據(jù)模型,運(yùn)用該模型將數(shù)據(jù)進(jìn)行自動(dòng)轉(zhuǎn)換,從而實(shí)現(xiàn)數(shù)據(jù)遷移。分析實(shí)驗(yàn)結(jié)果可知,該方法能夠按照一定的結(jié)構(gòu)將數(shù)據(jù)遷移到相應(yīng)的空間中,但是該方法沒有考慮到對特殊樣本數(shù)據(jù)進(jìn)行檢查,導(dǎo)致數(shù)據(jù)遷移完整度不高。文獻(xiàn)[5]通過數(shù)據(jù)選擇階段和遷移學(xué)習(xí)階段完成網(wǎng)絡(luò)稀疏大數(shù)據(jù)的遷移。根據(jù)級聯(lián)結(jié)構(gòu)在數(shù)據(jù)選擇階段中刪除網(wǎng)絡(luò)稀疏大數(shù)據(jù)中存在的冗余樣本和噪聲樣本,在遷移學(xué)習(xí)階段中將權(quán)重恢復(fù)因子引入Tr Ada Boost算法中,實(shí)現(xiàn)網(wǎng)絡(luò)稀疏大數(shù)據(jù)的遷移。實(shí)驗(yàn)結(jié)果表明,該方法具有較高的數(shù)據(jù)遷移完整度,但是方法實(shí)施步驟過于復(fù)雜,導(dǎo)致遷移用時(shí)過長。文獻(xiàn)[6]根據(jù)網(wǎng)絡(luò)稀疏大數(shù)據(jù)塊的級別構(gòu)建價(jià)值評價(jià)模型,在價(jià)值評價(jià)模型的基礎(chǔ)上對歷史價(jià)值系數(shù)、數(shù)據(jù)大小、數(shù)據(jù)塊間關(guān)聯(lián)和讀寫頻詞進(jìn)行量化處理,得到網(wǎng)絡(luò)稀疏數(shù)據(jù)塊的價(jià)值,結(jié)合被動(dòng)遷移閾值和主動(dòng)遷移閾值實(shí)現(xiàn)網(wǎng)絡(luò)稀疏大數(shù)據(jù)的遷移。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)崿F(xiàn)對大數(shù)據(jù)的有效遷移,但是效果不佳,數(shù)據(jù)不夠全面。文獻(xiàn)[7]提出基于動(dòng)態(tài)調(diào)整閾值的虛擬機(jī)遷移算法,對混合云存儲(chǔ)中的歷史負(fù)載數(shù)據(jù)進(jìn)行分析,計(jì)算網(wǎng)絡(luò)稀疏大數(shù)據(jù)在動(dòng)態(tài)調(diào)整過程中的閾值門限,通過閾值門限確定預(yù)測物理機(jī)對應(yīng)的負(fù)載趨勢和延時(shí)觸發(fā),計(jì)算數(shù)據(jù)遷移的時(shí)機(jī),完成網(wǎng)絡(luò)稀疏大數(shù)據(jù)的遷移。但是該算法完成任務(wù)所用的時(shí)間與數(shù)據(jù)遷移前相差較小,存在有效性差的問題。
為解決上述方法中存在的問題,提出混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法。針對傳統(tǒng)方法沒有考慮到特殊冗余樣本數(shù)據(jù)的干擾問題,提出了基于紋理基元直方圖的冗余數(shù)據(jù)篩查方法,采用該方法對冗余樣本數(shù)據(jù)集進(jìn)行篩查,根據(jù)篩查結(jié)果將其進(jìn)行剔除,從而提升網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移效果。實(shí)驗(yàn)結(jié)果表明,該算法能夠有效提高網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移的完整度,并且在數(shù)據(jù)篩查的基礎(chǔ)上提升了數(shù)據(jù)遷移的效率,使該算法的總體性能得到了提升。
數(shù)據(jù)管理在當(dāng)今大數(shù)據(jù)時(shí)代中的地位越來越重要。數(shù)據(jù)管理通常情況下是采用存儲(chǔ)系統(tǒng)規(guī)整并分析數(shù)據(jù),將網(wǎng)絡(luò)中的稀疏數(shù)據(jù)轉(zhuǎn)變?yōu)樾畔⒌倪^程。提取數(shù)據(jù)中的關(guān)鍵信息輔助人們工作是數(shù)據(jù)管理的主要目的。網(wǎng)絡(luò)數(shù)據(jù)通常儲(chǔ)存在存儲(chǔ)設(shè)備中,需要對網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行遷移。
網(wǎng)絡(luò)稀疏大數(shù)據(jù)中包含具有極大相似性數(shù)據(jù)(即存在冗余數(shù)據(jù)),因此判斷海量網(wǎng)絡(luò)稀疏大數(shù)據(jù)中是否存在相似程度較高的數(shù)據(jù)是最終進(jìn)行數(shù)據(jù)遷移的關(guān)鍵。采用基于紋理基元直方圖原理[8],對相似性數(shù)據(jù)進(jìn)行篩查,從而實(shí)現(xiàn)冗余數(shù)據(jù)的剔除。
在數(shù)據(jù)篩查過程中,采集離散有限的時(shí)序數(shù)據(jù),可表示為
(1)
一般地,冗余數(shù)據(jù)均值是動(dòng)態(tài)變化的,因此需要設(shè)定固定時(shí)間對數(shù)據(jù)進(jìn)行采集,以此來防止數(shù)據(jù)間的突變現(xiàn)象。根據(jù)紋理基元直方圖,得出數(shù)據(jù)在一定閾值范圍內(nèi)變化的特征,可以表示為
(2)
式中:j表示取值系數(shù),p表示數(shù)據(jù)總體長度。
設(shè)定一個(gè)閾值W,當(dāng)W小于Yi時(shí),則可以認(rèn)定x(t) 中存在異常冗余數(shù)據(jù),應(yīng)當(dāng)將其進(jìn)行剔除。W的計(jì)算公式為
(3)
根據(jù)式(3)構(gòu)建冗余大數(shù)據(jù)重組模型為
(4)
(5)
其中,P是去掉極值后的冗余數(shù)據(jù)均值,Q是對應(yīng)的標(biāo)準(zhǔn)差。數(shù)據(jù)分析的效率由網(wǎng)絡(luò)稀疏大數(shù)據(jù)遷移過程中的穩(wěn)定性和高效性決定。通過紋理基元直方圖原理完成對冗余數(shù)據(jù)的準(zhǔn)確篩查,實(shí)現(xiàn)了對冗余數(shù)據(jù)的剔除。
根據(jù)冗余數(shù)據(jù)篩查結(jié)果,將信息熵引入主成分分析算法中,對混合云存儲(chǔ)中的網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行降維處理[9]。采用主成分分析算法對網(wǎng)絡(luò)稀疏大數(shù)據(jù)做降維處理之前,通過信息熵過濾掉網(wǎng)絡(luò)稀疏大數(shù)據(jù)中存在的無用信息[10],具體過程如下:
設(shè)Un×m是數(shù)據(jù)矩陣,其中m表示網(wǎng)絡(luò)稀疏大數(shù)據(jù)的總數(shù);n是特征或?qū)傩缘臄?shù)量。
設(shè)H是信息熵,其計(jì)算公式如下
(6)
設(shè)δ是信息熵閾值,對比信息熵閾值δ和屬性信息熵H(ai) 之間的大小,如果信息熵閾值δ和屬性信息熵H(ai) 符合下式,將屬性ai存儲(chǔ)到集合中,則有H(ai)>δ。 對集合進(jìn)行矩陣中心化處理,獲得矩陣,其表達(dá)式如下
B=A-repmat(mean(A,2),1,m)
(7)
通過計(jì)算屬性不同的維度之間存在的協(xié)方差[12],得到協(xié)方差矩陣Cov,其計(jì)算公式如下
(8)
正交分解協(xié)方差矩陣Cov,使得協(xié)方差矩陣Cov中存在的向量描述向量在特征向量中對應(yīng)的投影長度,上述投影長度即為向量的特征值[13,14]。計(jì)算特征值在投影前為k的分量,消除協(xié)方差矩陣Cov中剩余的分量,得到協(xié)方差矩陣Cov的特征向量EVR和特征值λi。
k通過特征值對應(yīng)的貢獻(xiàn)率計(jì)算得到,貢獻(xiàn)率f通過所有特征值和選取的特征值計(jì)算得到,貢獻(xiàn)率f的計(jì)算公式如下
(9)
選取k個(gè)較大的特征值構(gòu)成特征向量Vn×k,得到網(wǎng)絡(luò)稀疏大數(shù)據(jù)的降維結(jié)果Y
(10)
網(wǎng)絡(luò)稀疏大數(shù)據(jù)在混合云存儲(chǔ)中通常依賴分布式環(huán)境,由于混合云存儲(chǔ)中存在大量的噪聲[15,16],所以對網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行去噪是亟需解決的任務(wù)。根據(jù)網(wǎng)絡(luò)稀疏大數(shù)據(jù)降維結(jié)果,對數(shù)據(jù)進(jìn)行去噪處理。混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法通過閾值自學(xué)習(xí)小波算法對降維處理后的網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行去噪處理,具體過程如下:
(1)在低通濾波器的基礎(chǔ)上通過平滑法對數(shù)據(jù)進(jìn)行預(yù)濾波處理,去除網(wǎng)絡(luò)稀疏大數(shù)據(jù)中存在的白噪聲和高頻噪聲[17]。
(3)確定分解層數(shù)和小波函數(shù)對數(shù)據(jù)進(jìn)行分解,保持低頻信號cj在分解過程中不發(fā)生變化,通過軟閾值處理各層存在的細(xì)節(jié)信號dj,通過下式對網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行重構(gòu),獲得首次濾波結(jié)果y′1(ti)
(11)
式中:H[j]是低通濾波器的第j次插零;G[j]是高通濾波器的第j次插零。
(4)設(shè)Ek是目標(biāo)函數(shù)對應(yīng)的均方誤差,其計(jì)算公式如下
(12)
式中:θ是濾波閾值。設(shè)θ(k+1) 是第k+1次濾波對應(yīng)濾波閾值,其計(jì)算公式如下
θ(k+1)=θ(k)+Δθ
(13)
式中:參數(shù)Δθ的計(jì)算公式如下
(14)
通過濾波閾值對目標(biāo)Ek進(jìn)行調(diào)整,使其最小。如果Ek (5)分解測量時(shí)間內(nèi)存在的信號,處理過程與步驟(3)相同,得到去噪后的數(shù)據(jù) (15) 對去噪處理后的網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行遷移,設(shè)D=[R,S,σ] 是網(wǎng)絡(luò)稀疏大數(shù)據(jù)集,其中R是網(wǎng)絡(luò)稀疏大數(shù)據(jù)模式;S是網(wǎng)絡(luò)稀疏大數(shù)據(jù)集的大小;σ是網(wǎng)絡(luò)稀疏大數(shù)據(jù)的敏感度,其計(jì)算公式如下 (16) 式中:H是敏感范圍閾值;yj、yi是屬性集。 在存儲(chǔ)系統(tǒng)中數(shù)據(jù)的訪問頻率和存儲(chǔ)時(shí)間會(huì)對數(shù)據(jù)的價(jià)值產(chǎn)生影響,在不同階段中數(shù)據(jù)的意義都不相同。存儲(chǔ)系統(tǒng)中的新數(shù)據(jù)具有較高被調(diào)用的頻率,過一段時(shí)間后,與新存入系統(tǒng)中的數(shù)據(jù)相比,這批數(shù)據(jù)就變?yōu)闅v史數(shù)據(jù)或是舊數(shù)據(jù),被調(diào)用的頻率變小[20,21]。 設(shè) {t1,t2,…,tn} 是網(wǎng)絡(luò)稀疏大數(shù)據(jù)在系統(tǒng)中被訪問的時(shí)間集;t是當(dāng)前時(shí)間;t-t1,t-t2,…,t-tn是每次訪問數(shù)據(jù)時(shí)間和時(shí)間t之間存在的長度,將其記為T1,T2,…,Tn。 設(shè)T是網(wǎng)絡(luò)稀疏大數(shù)據(jù)對應(yīng)的時(shí)間長度,其計(jì)算公式如下 (17) 設(shè)F是網(wǎng)絡(luò)稀疏大數(shù)據(jù)對應(yīng)的訪問頻率,fk是數(shù)據(jù)在Tk時(shí)間段內(nèi)對應(yīng)的訪問頻率;fk-fk-1是數(shù)據(jù)在Tk-Tk-1時(shí)間段內(nèi)對應(yīng)的存取熱度,網(wǎng)絡(luò)稀疏大數(shù)據(jù)對應(yīng)的訪問頻率的計(jì)算公式如下 (18) 數(shù)據(jù)被創(chuàng)建時(shí),根據(jù)網(wǎng)絡(luò)稀疏大數(shù)據(jù)特點(diǎn)可知,數(shù)據(jù)有很大概率被訪問,在一定時(shí)間內(nèi)網(wǎng)絡(luò)稀疏大數(shù)據(jù)訪問頻率的增長速度較快,表明網(wǎng)絡(luò)稀疏大數(shù)據(jù)在這段時(shí)間內(nèi)的重要性較高[22,23]。網(wǎng)絡(luò)稀疏大數(shù)據(jù)被訪問后,通常情況下被訪問的頻率逐漸降低,表明網(wǎng)絡(luò)稀疏大數(shù)據(jù)的重要性在該段時(shí)間內(nèi)也降低,將該網(wǎng)絡(luò)稀疏大數(shù)據(jù)遷移到其它云存儲(chǔ)設(shè)備中,提高網(wǎng)絡(luò)稀疏大數(shù)據(jù)訪問頻率。 通過上述分析可知,網(wǎng)絡(luò)稀疏大數(shù)據(jù)存儲(chǔ)對應(yīng)的時(shí)間長度T與遷移函數(shù)之間為正比關(guān)系;網(wǎng)絡(luò)稀疏大數(shù)據(jù)的訪問頻率F與遷移函數(shù)之間為正比關(guān)系;遷移函數(shù)與網(wǎng)絡(luò)稀疏大數(shù)據(jù)集S之間為反比關(guān)系。根據(jù)網(wǎng)絡(luò)稀疏大數(shù)據(jù)的存儲(chǔ)時(shí)間長度、訪問頻率和敏感度[24,25]3個(gè)遷移因子構(gòu)建遷移函數(shù) (19) 通過遷移函數(shù)實(shí)現(xiàn)混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)的滲透遷移。 為驗(yàn)證混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法的整體有效性,需要對混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法進(jìn)行測試。 本次測試在CloudSim云計(jì)算環(huán)境中進(jìn)行,網(wǎng)絡(luò)帶寬為80MI.S-1、內(nèi)存為8 GB、服務(wù)器數(shù)量為100臺(tái)。測試過程中所用的網(wǎng)絡(luò)稀疏大數(shù)據(jù)由某信息技術(shù)有限公司提供,包括ImageNet、MirFlickr1M、CoPhIR以及MSRA-MM數(shù)據(jù)集,從上述數(shù)據(jù)集中抽取2000個(gè)數(shù)據(jù),并通過SPSS19.0軟件處理得到模擬數(shù)據(jù),選取的數(shù)據(jù)集,見表1。 表1 實(shí)驗(yàn)數(shù)據(jù)集的描述 在進(jìn)行實(shí)驗(yàn)之前,首先對數(shù)據(jù)進(jìn)行預(yù)處理,將數(shù)據(jù)集劃分為10個(gè)相等的部分,每一部分都相等,然后從每一部分?jǐn)?shù)據(jù)集中隨機(jī)選取部分?jǐn)?shù)據(jù),用本文算法對網(wǎng)絡(luò)稀疏大數(shù)據(jù)的敏感度進(jìn)行計(jì)算,是網(wǎng)絡(luò)稀疏大數(shù)據(jù)的敏感度,可通過式(16)計(jì)算得到,進(jìn)行數(shù)據(jù)遷移之前需要計(jì)算網(wǎng)絡(luò)稀疏大數(shù)據(jù)的敏感度,根據(jù)計(jì)算結(jié)果判斷網(wǎng)絡(luò)稀疏大數(shù)據(jù)是否需要遷移。通過上述分析可知,網(wǎng)絡(luò)稀疏大數(shù)據(jù)敏感度的計(jì)算結(jié)果決定數(shù)據(jù)遷移算法性能。采用混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法對某個(gè)數(shù)據(jù)集中的網(wǎng)絡(luò)稀疏大數(shù)據(jù)的敏感度進(jìn)行計(jì)算,并將計(jì)算結(jié)果與實(shí)際結(jié)果進(jìn)行對比,見表2。 分析表2中的數(shù)據(jù)可知,在5次迭代中采用混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法計(jì)算得到的網(wǎng)絡(luò)稀疏大數(shù)據(jù)敏感度與實(shí)際敏感度接近,誤差均低于0.2,在可接受范圍內(nèi),不影響網(wǎng)絡(luò)稀疏大數(shù)據(jù)在混合云存儲(chǔ)環(huán)境中的遷移,驗(yàn)證混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法的性能較好。 表2 網(wǎng)絡(luò)稀疏大數(shù)據(jù)敏感度計(jì)算結(jié)果 根據(jù)網(wǎng)絡(luò)稀疏大數(shù)據(jù)敏感度計(jì)算結(jié)果,對混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法的性能進(jìn)行驗(yàn)證。為了驗(yàn)證混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法的整體有效性,對比混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法、文獻(xiàn)[4]方法、文獻(xiàn)[5]算法以及文獻(xiàn)[7]算法數(shù)據(jù)遷移中系統(tǒng)執(zhí)行任務(wù)所用的時(shí)間,測試結(jié)果如圖1所示。 圖1 不同方法的數(shù)據(jù)遷移用時(shí)對比 分析圖1可知,采用混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法對2000個(gè)數(shù)據(jù)進(jìn)行遷移,平均耗時(shí)約為5 s,遷移過程未出現(xiàn)擁塞問題,耗時(shí)較短;采用文獻(xiàn)[7]算法對2000個(gè)數(shù)據(jù)進(jìn)行遷移,平均耗時(shí)約為52 s,在遷移過程中出現(xiàn)了大面積的擁塞現(xiàn)象,導(dǎo)致該算法比本文方法多耗時(shí)47 s,說明本文方法在數(shù)據(jù)遷移過程中更順暢,耗時(shí)更短,效率更高。而采用文獻(xiàn)[4]方法和文獻(xiàn)[5]算法對2000個(gè)大數(shù)據(jù)進(jìn)行遷移時(shí),平均耗時(shí)約為25 s和48 s;這兩種方法在數(shù)據(jù)遷移過程中都出現(xiàn)了多次不同程度的擁塞現(xiàn)象,導(dǎo)致遷移速度比本文方法速度慢、效率差。對比混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法,文獻(xiàn)[4]方法和文獻(xiàn)[5]算法以及文獻(xiàn)[7]算法的測試結(jié)果可知,采用混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法對網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行遷移時(shí)耗時(shí)更短,效率更高,驗(yàn)證了該方法的有效性。 數(shù)據(jù)遷移完整度是衡量數(shù)據(jù)遷移性能的重要指標(biāo),因此對本文算法與傳統(tǒng)方法進(jìn)行對比,運(yùn)用ROC曲線來檢驗(yàn)不同方法的數(shù)據(jù)遷移性能,在ROC曲線圖中,存在一條對角線,該線代表辨別力等于0的一條線,也叫純機(jī)遇線,圖中曲線距離純機(jī)遇線越遠(yuǎn),表明被試方法的性能越強(qiáng)。圖2為文獻(xiàn)[4]方法、文獻(xiàn)[5]算法、文獻(xiàn)[7]算法以及本文算法在網(wǎng)絡(luò)稀疏大數(shù)據(jù)遷移完整度方面的對比結(jié)果。如圖2所示。 圖2 不同方法的數(shù)據(jù)遷移完整度對比 分析圖2可知,采用混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法對網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行遷移后,曲線明顯距純機(jī)遇線較遠(yuǎn),說明該算法的數(shù)據(jù)遷移完整性較強(qiáng)。采用文獻(xiàn)[7]算法對網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行遷移后,曲線距純機(jī)遇線最近,說明該算法的數(shù)據(jù)遷移完整性較差。而采用文獻(xiàn)[4]方法和文獻(xiàn)[5]算法對網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行數(shù)據(jù)遷移后,曲線離純機(jī)遇線的距離小于本文算法,說明該算法的數(shù)據(jù)遷移完整性較強(qiáng),表明文獻(xiàn)[4]方法和文獻(xiàn)[5]算法的數(shù)據(jù)遷移完整性效果較差,不能對網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行全面性的遷移。對比混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法,文獻(xiàn)[4]方法和文獻(xiàn)[5]算法以及文獻(xiàn)[7]算法的測試結(jié)果可知,采用混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法對網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行遷移后,能夠得到較為完整的數(shù)據(jù)集,驗(yàn)證了混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法的有效性。 為進(jìn)一步驗(yàn)證所提算法的有效性,以數(shù)據(jù)遷移完整度為實(shí)驗(yàn)指標(biāo)對傳統(tǒng)方法和本文算法進(jìn)行對比分析。數(shù)據(jù)遷移完整度通過式(20)對完整度進(jìn)行計(jì)算 (20) 式中:Xu表示有效數(shù)據(jù)量,Xv表示冗余數(shù)據(jù)量,X表示總數(shù)據(jù)量。運(yùn)用該公式計(jì)算得到文獻(xiàn)[4]方法、文獻(xiàn)[5]算法、文獻(xiàn)[6]方法、文獻(xiàn)[7]算法以及本文算法的數(shù)據(jù)遷移完整度,結(jié)果如圖3所示。 圖3 不同方法的數(shù)據(jù)遷移完整度對比 分析圖3可知,當(dāng)數(shù)據(jù)量不同時(shí),數(shù)據(jù)遷移完整度隨之發(fā)生變化,總體上來看,文獻(xiàn)[4]方法、文獻(xiàn)[5]算法、文獻(xiàn)[6]方法、文獻(xiàn)[7]算法的數(shù)據(jù)遷移完整度低于本文算法,本文算法的最高數(shù)據(jù)遷移完整度為90%,明顯高于傳統(tǒng)方法,這是由于采用本文方法對混合云存儲(chǔ)環(huán)境中的網(wǎng)絡(luò)稀疏大數(shù)據(jù)進(jìn)行遷移之前,對數(shù)據(jù)進(jìn)行去噪處理,降低了混合云存儲(chǔ)中的噪聲數(shù)據(jù),因此達(dá)到了提升數(shù)據(jù)遷移完整度的效果。 網(wǎng)絡(luò)稀疏大數(shù)據(jù)在混合云存儲(chǔ)環(huán)境中具有隨機(jī)性和自組織特性,需要通過大數(shù)據(jù)遷移算法實(shí)現(xiàn)數(shù)據(jù)庫之間存在的數(shù)據(jù)調(diào)度和數(shù)據(jù)訪問。當(dāng)前網(wǎng)絡(luò)稀疏大數(shù)據(jù)遷移算法的有效性較差,經(jīng)數(shù)據(jù)遷移后得出的數(shù)據(jù)完整性較低,并且不能及時(shí)得到遷移結(jié)果,提出混合云存儲(chǔ)中網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移算法,通過對網(wǎng)絡(luò)稀疏大數(shù)據(jù)中的冗余數(shù)據(jù)進(jìn)行篩查,去除數(shù)據(jù)集中的冗余數(shù)據(jù),提升了數(shù)據(jù)遷移的效率,對數(shù)據(jù)進(jìn)行降維處理、去噪處理、構(gòu)建數(shù)據(jù)遷移模型有效地完成網(wǎng)絡(luò)稀疏大數(shù)據(jù)的滲透遷移,為數(shù)據(jù)庫之間的數(shù)據(jù)調(diào)度和訪問奠定了基礎(chǔ)。根據(jù)實(shí)驗(yàn)結(jié)果可知,本文算法在數(shù)據(jù)遷移完整度、數(shù)據(jù)敏感度測試以及數(shù)據(jù)遷移用時(shí)方面明顯優(yōu)于傳統(tǒng)方法,說明本文算法具有實(shí)際應(yīng)用優(yōu)勢。但是由于網(wǎng)絡(luò)中存在著大量的稀疏數(shù)據(jù),對其進(jìn)行遷移必須考慮全面性,因此接下來會(huì)在數(shù)據(jù)遷移研究的過程中,對各種稀疏數(shù)據(jù)進(jìn)行研究,以此來提升算法的應(yīng)用領(lǐng)域。1.4 基于遷移函數(shù)的網(wǎng)絡(luò)稀疏大數(shù)據(jù)滲透遷移的實(shí)現(xiàn)
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)參數(shù)與環(huán)境
2.2 數(shù)據(jù)遷移效率對比
2.3 數(shù)據(jù)遷移完整度對比
2.4 數(shù)據(jù)遷移完整度對比
3 結(jié)束語