歐陽光,彭海紅,羅冬林
(1.南昌交通學(xué)院,江西 南昌 330000;2.東華理工大學(xué) 理學(xué)院,江西 南昌 330000)
當(dāng)下,網(wǎng)絡(luò)幾乎已經(jīng)全面覆蓋人們的生活、學(xué)習(xí)、生活、工作以及生產(chǎn)等領(lǐng)域,其中形成的資源信息的統(tǒng)稱就是網(wǎng)絡(luò)數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)具有規(guī)模龐大、種類繁多、格式豐富、數(shù)據(jù)分散等特性。信息時代的到來,跨越部門、平臺和地區(qū)之間的信息交流、共享以及人機(jī)共享等,需以數(shù)據(jù)共享為依據(jù)[1]。數(shù)據(jù)共享在一定程度上代表著國家的信息化發(fā)展水平,通過共享程度可以分析信息化發(fā)展水平的高低。
網(wǎng)絡(luò)數(shù)據(jù)共享是一種實現(xiàn)網(wǎng)絡(luò)中數(shù)據(jù)服務(wù)的手段,其可以增加已有數(shù)據(jù)的利用率、減少數(shù)據(jù)收集整理時間,也在一定程度上減少人工處理數(shù)據(jù)的消耗[2]。在網(wǎng)絡(luò)數(shù)據(jù)共享過程中,由于數(shù)據(jù)的提供者、數(shù)據(jù)的來源、數(shù)據(jù)的類型、數(shù)據(jù)的格式等存在的差異,極大程度增加數(shù)據(jù)共享的難度,甚至無法實現(xiàn)共享。除此之外,共享的安全性、完整性以及共享數(shù)據(jù)的質(zhì)量高低,均是網(wǎng)絡(luò)數(shù)據(jù)在共享過程中存在的主要問題[3]。
為完成對不同類型、格式數(shù)據(jù)的共享,文獻(xiàn)[4]提出了基于區(qū)塊鏈的數(shù)據(jù)共享方法,利用分布式存儲方法將數(shù)據(jù)分散存儲到網(wǎng)絡(luò)的各節(jié)點,可以通過共享其它節(jié)點數(shù)據(jù)及時改正錯誤數(shù)據(jù)。雖然實現(xiàn)了數(shù)據(jù)共享的目的,但是其在對數(shù)據(jù)實行挖掘過程中產(chǎn)生的波動太大,對數(shù)據(jù)質(zhì)量造成不同程度的損害。文獻(xiàn)[5]提出了云環(huán)境中基于信任分散策略的數(shù)據(jù)共享方法。拆分原始數(shù)據(jù)分類成動態(tài)靜態(tài)不同數(shù)據(jù),添加全局標(biāo)識在云端加密共享,雖滿足了云端共享數(shù)據(jù)的安全性,但是忽略了數(shù)據(jù)之間的聯(lián)系,影響共享后的數(shù)據(jù)使用率。
為了解決當(dāng)前方法儲存在的不足,本文研究了基于關(guān)聯(lián)挖掘算法的網(wǎng)絡(luò)數(shù)據(jù)可追蹤共享仿真方法,對網(wǎng)絡(luò)數(shù)據(jù)實行高效挖掘,有效避免異常波動現(xiàn)象,保證挖掘數(shù)據(jù)的質(zhì)量,為數(shù)據(jù)共享提供保證。通過實驗可證實本文研究在數(shù)據(jù)共享方面可行性較高。
關(guān)聯(lián)挖掘也稱為關(guān)聯(lián)分析,作為一種分析技術(shù),其主要作用是通過挖掘來分析數(shù)據(jù)之間隱藏的聯(lián)系,獲取其中具備關(guān)聯(lián)性的規(guī)律,從而確定關(guān)聯(lián)規(guī)則,再根據(jù)所需目標(biāo)制定相應(yīng)的策略。
本研究采用關(guān)聯(lián)挖掘算法實現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)的優(yōu)化聚類處理,為避免其在挖掘過程中對于模糊數(shù)據(jù)的識別性能較差等問題,結(jié)合蟻群算法獲取網(wǎng)絡(luò)數(shù)據(jù)中的異常特征。
假設(shè)X表示某網(wǎng)絡(luò)數(shù)據(jù)樣本集,f(x)和g(x)分別表示正常檢測值和特征數(shù)值。為獲取兩者的取值以及兩者間存在的關(guān)聯(lián),利用關(guān)聯(lián)挖掘算法分析原理,按照時間序列排列網(wǎng)絡(luò)數(shù)據(jù)[6]。
(1)
?=l-1(f(x)|g(x)-ηβ)
(2)
(3)
為保證挖掘數(shù)據(jù)的穩(wěn)定性,采用優(yōu)化手段對高維空間實行優(yōu)化,且該空間屬于異常波動數(shù)值[8]。為得出波動聚類權(quán)重,對網(wǎng)絡(luò)數(shù)據(jù)實行模糊特征評估和分類,其通過聚類特征簇融合算法完成。
(4)
式中:加權(quán)系數(shù)和異常波動規(guī)范數(shù)值分別用λ和ρ表示。
在此基礎(chǔ)上,采用規(guī)范處理手段以及歸一化分別對聚類數(shù)值和挖掘數(shù)據(jù)實行優(yōu)化處理,前者具備相似性加權(quán)特征,后者具備特征相似度,可用于去除異常數(shù)據(jù)中的模糊特征[9]。
若z表示初始數(shù)據(jù)特征值,且為非線性,獲取網(wǎng)絡(luò)數(shù)據(jù)特征公式為
(5)
數(shù)值空間為uei、其特征向量為φ,兩者均屬于特征蟻群;網(wǎng)絡(luò)數(shù)據(jù)分類的實現(xiàn)需以相應(yīng)原則為依據(jù)。為此,本文采用非線性過程求解挖掘的準(zhǔn)確性概率,公式為
(6)
挖掘過程中,加權(quán)距離的采集數(shù)值均可通過數(shù)據(jù)的概率描述,且前者屬于特征數(shù)據(jù)相似度,后者屬于劃分成的第n個正常特征[10]。為去除非線性網(wǎng)絡(luò)數(shù)據(jù)中的模糊特征,采用歸一化對其實行處理完成。
通過上述過程,可實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的挖掘,形成異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)集X″。
以2.1小節(jié)的挖掘結(jié)果為基礎(chǔ),提取數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,從而完成對網(wǎng)絡(luò)數(shù)據(jù)間關(guān)聯(lián)矩陣的構(gòu)建。之后再以該矩陣為基礎(chǔ),為形成數(shù)據(jù)劃分指示矩陣,需采用對稱非負(fù)矩陣對其實行分解處理實現(xiàn)[11],并將形成的矩陣作為劃分前矩陣三分解的輸入,以此實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的最佳追蹤共享。
假設(shè)X″1和R分別表示X″中小規(guī)模數(shù)據(jù)和異構(gòu)關(guān)聯(lián)矩陣,通過后者完成前者關(guān)聯(lián)矩陣的構(gòu)建,其為
(7)
式中:Wij表示關(guān)聯(lián)強(qiáng)度;差異化實體的關(guān)聯(lián)矩陣、同存幾率分別為(x″i,x″j)和p(x″i,x″j),且均屬于X″。x″i和x″j的存在幾率分別用p(x″i)和p(x″j)表示,且僅為兩者各自單獨存在的情況下。
X″2中的實體(x″1,x″2)存在的次數(shù)用N(x″i,x″j)表示;對其實行分解處理,采用的對稱非負(fù)性矩陣公式為
(8)
式中:矩陣F的范數(shù)用?表示。
關(guān)聯(lián)矩陣C的分解通過B描述,并將其表示聚類指示矩陣,矩陣的獲取通過分解對稱非負(fù)矩陣完成[12],其公式為
(9)
行聚類指示向量、數(shù)據(jù)關(guān)聯(lián)法則和數(shù)據(jù)標(biāo)準(zhǔn)差分別用fi、h(u)和μ(h)表示,關(guān)聯(lián)矩陣三分解的輸入為劃分矩陣,其公式為
(10)
X″2和X″1中的聚類矩陣分別采用F和B表示,則網(wǎng)絡(luò)數(shù)據(jù)的最佳共享方案為
(11)
式中:用于共享的網(wǎng)絡(luò)數(shù)據(jù)聚類和抽取出嵌入向量分別用(ι)和κ(E)表示。
以上,完成了基于關(guān)聯(lián)挖掘算法對網(wǎng)絡(luò)數(shù)據(jù)可追蹤共享方法的設(shè)計。
為證明本文方法在網(wǎng)絡(luò)數(shù)據(jù)共享中的應(yīng)用性能和共享效果,通過仿真平臺對本文提出的基于關(guān)聯(lián)挖掘算法的網(wǎng)絡(luò)數(shù)據(jù)可追蹤共享仿真方法進(jìn)行測試。
本測試采用Matlab仿真軟件構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)共享仿真平臺。平臺中的數(shù)據(jù)開發(fā)使用ASP.NET WEB服務(wù)完成。通過XHTML語言技術(shù)完成數(shù)據(jù)間差異化格式的轉(zhuǎn)換,通過NET Frame work存儲器實現(xiàn)數(shù)據(jù)存儲以及ASP. NET和B,J Script NET數(shù)據(jù)運行庫程序?qū)崿F(xiàn)。實驗過程中面對對象可視化集成編輯系統(tǒng)軟件采用Visual C++6.0完成。
以某網(wǎng)站連續(xù)6個月內(nèi)的用戶數(shù)據(jù)為實驗對象,以月為單位對該數(shù)據(jù)實行集合處理(6個數(shù)據(jù)集編號分別為1、2、3、4、5、6),其公式為
hn=[support(ν)congfidence(φ)]
(12)
式中:ν和φ分別表示挖掘的限制條件和興趣程度。
在數(shù)據(jù)挖掘過程中產(chǎn)生的波動會對挖掘后的數(shù)據(jù)質(zhì)量造成影響,因此,數(shù)據(jù)的規(guī)范性P對于挖掘過程中產(chǎn)生的波動具備有效的避免作用,保證其最佳的規(guī)范取值,可提升本文方法數(shù)據(jù)挖掘性能以及保證所挖掘數(shù)據(jù)的質(zhì)量。測試其在不同取值情況下,波動的變化情況,結(jié)果如圖1所示。
圖1 不同波動系數(shù)取值的波動測試結(jié)果
根據(jù)圖1測試結(jié)果可知:波動數(shù)值的結(jié)果隨著P取值的變化呈現(xiàn)不同的波動效果。其中波動由此可確定仿真過程中,本文方法的P取值應(yīng)為60%,此時可保證在對目標(biāo)數(shù)據(jù)集實行挖掘時產(chǎn)生的波動最小,最大程度保證挖掘后數(shù)據(jù)質(zhì)量。
在數(shù)據(jù)共享前,關(guān)聯(lián)規(guī)則的制定對于數(shù)據(jù)共享結(jié)果存在直接影響,關(guān)聯(lián)規(guī)則的制定則依據(jù)支持度(Support)和可信度(Confidence)實行描述。因此,關(guān)聯(lián)規(guī)則的形成需保證規(guī)則滿足兩者的最小標(biāo)準(zhǔn)。測試在不同Supporthe和Confidence時,6個測試集的數(shù)據(jù)集關(guān)聯(lián)強(qiáng)度(超過96.5%為目標(biāo)標(biāo)準(zhǔn))的變化,確定兩者的最小標(biāo)準(zhǔn),結(jié)果如表1所示。由于篇幅有限,結(jié)果僅呈現(xiàn)數(shù)據(jù)集3的測試結(jié)果。
表1 關(guān)聯(lián)強(qiáng)度變化結(jié)果
根據(jù)表1測試結(jié)果可知:為保證數(shù)據(jù)集關(guān)聯(lián)強(qiáng)度達(dá)到目標(biāo)標(biāo)準(zhǔn),關(guān)聯(lián)規(guī)則的最小支持度和可信度需分別達(dá)到0.3和0.5,此時可保證本文方法所挖掘數(shù)據(jù)之間關(guān)聯(lián)強(qiáng)度較高,形成強(qiáng)關(guān)聯(lián)規(guī)則,為數(shù)據(jù)共享提升基礎(chǔ)保障。
采用本文方法對6個數(shù)據(jù)集實行挖掘,測試6個數(shù)據(jù)集在挖掘過程中發(fā)生的波動情況,為直觀分析本文方法的數(shù)據(jù)挖掘效果,同時采用基于區(qū)塊鏈的數(shù)據(jù)共享方法(文獻(xiàn)[4]方法)和云環(huán)境中基于信任分散策略的數(shù)據(jù)共享方法(文獻(xiàn)[5]方法)分別對該數(shù)據(jù)實行挖掘,獲取兩種對比方法的波動情況,并與本文方法實行對比,結(jié)果分別如圖2、圖3、圖4所示。由于篇幅有限,結(jié)果僅呈現(xiàn)數(shù)據(jù)集3的測試結(jié)果。
圖2 本文方法的波動結(jié)果
圖3 文獻(xiàn)[4]方法的波動結(jié)果
圖4 文獻(xiàn)[5]方法的波動結(jié)果
根據(jù)圖2、圖3和圖4測試結(jié)果可知:本文方法在對該數(shù)據(jù)集實行挖掘過程中產(chǎn)生的波動范圍在0.3-0.5之間,處于標(biāo)準(zhǔn)波動范圍內(nèi);文獻(xiàn)[4]方法和文獻(xiàn)[5]方法在對數(shù)據(jù)集實行挖掘過程中產(chǎn)生的波動范圍較大,均超過標(biāo)準(zhǔn)波動范圍。并且在干擾程度逐漸提升的情況下,本文方法的波動變化極小,處于平穩(wěn)狀態(tài),沒有出現(xiàn)明顯影響;兩種對比方法則整體隨著干擾程度的增加呈現(xiàn)波動范圍增加現(xiàn)象。該結(jié)果表明,本文方法在對數(shù)據(jù)實行挖掘的性能較好,其主要是可對P實行調(diào)整,獲取最穩(wěn)定的數(shù)據(jù)挖掘效果。
為衡量本文方法的數(shù)據(jù)共享性能和效果,以數(shù)據(jù)關(guān)聯(lián)強(qiáng)度、共享數(shù)據(jù)質(zhì)量作為衡量標(biāo)準(zhǔn),分別統(tǒng)計三種方法的測試結(jié)果,如表2所示。其中共享數(shù)據(jù)質(zhì)量的數(shù)值越接近于1表示共享數(shù)據(jù)的質(zhì)量越好。
表2 三種方法的對比結(jié)果
根據(jù)表2測試結(jié)果可知:本文方法在實行6個數(shù)據(jù)集的共享過程中的關(guān)聯(lián)強(qiáng)度最佳,均在97%以上;文獻(xiàn)[4]方法和文獻(xiàn)[5]方法在實行6個數(shù)據(jù)集的共享過程中的關(guān)聯(lián)強(qiáng)度結(jié)果均顯著低于本文方法,均在91%以下;同時本文方法對于6個數(shù)據(jù)集的共享質(zhì)量較高,均高于0.959,文獻(xiàn)[4]方法和文獻(xiàn)[5]方法的共享數(shù)據(jù)質(zhì)量則就相對較差。該情況是受到數(shù)據(jù)挖掘時產(chǎn)生的波動影響導(dǎo)致,本文方法產(chǎn)生的波動較低,因此共享數(shù)據(jù)的質(zhì)量很高,可實現(xiàn)數(shù)據(jù)的最佳共享結(jié)果。該結(jié)果表明,本文方法的數(shù)據(jù)共享可利用率高,共享效果良好,可最大程度保證數(shù)據(jù)共享需求。
網(wǎng)絡(luò)數(shù)據(jù)共享是順應(yīng)當(dāng)下大數(shù)據(jù)以及云計算技術(shù)迅速發(fā)展的一種數(shù)據(jù)應(yīng)用的主要手段,但是由于網(wǎng)絡(luò)中的數(shù)據(jù)存在復(fù)雜以及多樣化等特性,對實現(xiàn)數(shù)據(jù)共享造成一定難度。本文針對網(wǎng)絡(luò)數(shù)據(jù)共享的高效、穩(wěn)定的實現(xiàn),提出基于關(guān)聯(lián)挖掘算法的網(wǎng)絡(luò)數(shù)據(jù)可追蹤共享仿真,并通過構(gòu)建仿真平臺展開相關(guān)的測試,驗證了本文方法的性能和效果。驗證結(jié)果顯示:本文方法具備一定可控性,可保證數(shù)據(jù)在挖掘過程中的波動較小,有效保證了挖掘數(shù)據(jù)的質(zhì)量以及較高的關(guān)聯(lián)強(qiáng)度,保證網(wǎng)絡(luò)數(shù)據(jù)的最佳共享。