馬 寧,廖慧惠
(1.安徽廣播電視大學(xué),安徽 合肥 230022;2.安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,安徽 合肥 230051)
云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法研究
馬 寧1,廖慧惠2
(1.安徽廣播電視大學(xué),安徽 合肥 230022;2.安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,安徽 合肥 230051)
近年來(lái),隨著時(shí)代的發(fā)展以及科學(xué)技術(shù)的進(jìn)步,使得人類逐漸步入到網(wǎng)絡(luò)信息時(shí)代.在這樣的背景之下,計(jì)算機(jī)日益發(fā)展并在社會(huì)生產(chǎn)、生活過(guò)程中獲得了廣泛的運(yùn)用.事實(shí)上,在云計(jì)算的環(huán)境之下,各類的商業(yè)數(shù)據(jù)資料往往以分布式的形式進(jìn)行儲(chǔ)存,而常規(guī)的數(shù)據(jù)挖掘模式無(wú)法對(duì)各類數(shù)據(jù)進(jìn)行分布式挖掘.在這種情況下,如何促進(jìn)這一問(wèn)題的解決成為了相關(guān)部門(mén)亟待解決的問(wèn)題.本文基于此,分析探討云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法.
云計(jì)算;網(wǎng)絡(luò)環(huán)境;頻繁出現(xiàn);異常數(shù)據(jù);挖掘方法
目前,傳統(tǒng)挖掘算法無(wú)法對(duì)云計(jì)算的環(huán)境下出現(xiàn)異常數(shù)據(jù)進(jìn)行有效的識(shí)別以及量化,故而導(dǎo)致異常數(shù)據(jù)挖掘誤差大等問(wèn)題的出現(xiàn).基于這一現(xiàn)狀,相關(guān)的部門(mén)加強(qiáng)了對(duì)于混沌算法的改進(jìn),并逐步融合了偏最小二乘法,實(shí)現(xiàn)了異常數(shù)據(jù)的清洗以及無(wú)量綱化處理,實(shí)現(xiàn)了對(duì)于諸類問(wèn)題的有效解決.本文基于此,分析探討如何實(shí)現(xiàn)對(duì)于云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘.
目前,技術(shù)人員在對(duì)云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)進(jìn)行挖掘、處理操作的過(guò)程中,往往需要加強(qiáng)對(duì)于源數(shù)據(jù)集合的確定,并在此基礎(chǔ)之上加強(qiáng)對(duì)于頻繁出現(xiàn)異常數(shù)據(jù)分布、概率模型的構(gòu)建.隨后再借助不一致性的檢驗(yàn)方法對(duì)頻繁出現(xiàn)異常數(shù)據(jù)數(shù)目進(jìn)行確定,最后對(duì)異常數(shù)據(jù)進(jìn)行有效的挖掘.關(guān)于該挖掘過(guò)程的具體流程,筆者進(jìn)行了相關(guān)描述,具體內(nèi)容如下.
1.1 構(gòu)建異常數(shù)據(jù)的概率模型
在進(jìn)行云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘過(guò)程中,需要技術(shù)人員首先進(jìn)行異常數(shù)據(jù)的概率模型的構(gòu)建.在實(shí)際的操作過(guò)程中,為了確保模型的科學(xué)性,需要假設(shè)數(shù)據(jù)空間的每一維都會(huì)被分成Ψ個(gè)等深度區(qū)域.關(guān)于概率模型的計(jì)算方式,具體內(nèi)容如下:
在上述的計(jì)算方式中,Ψ0指的是數(shù)據(jù)傳送方向性系數(shù);β指代的則是數(shù)據(jù)的穩(wěn)態(tài)權(quán)向量;f0則是數(shù)據(jù)頻移特征.
1.2 挖掘頻繁出現(xiàn)異常數(shù)據(jù)
在進(jìn)行云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘作業(yè)過(guò)程中,技術(shù)人員需要構(gòu)建起后頻繁出現(xiàn)異常數(shù)據(jù)挖掘的計(jì)算方程式,并用S(D)表示.關(guān)于頻繁出現(xiàn)異常數(shù)據(jù)的挖掘公式,筆者總結(jié)如下:
在上述的公式中,N*指的是異常數(shù)據(jù)的抽樣概率分布參數(shù);而fk指代的則是異常數(shù)據(jù)歸一化的時(shí)間向量.
通過(guò)分析可以得知:借助上述的公式進(jìn)行云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘,雖然能夠促進(jìn)這一作業(yè)的有效開(kāi)展,但是還是存在著挖掘不準(zhǔn)確、誤差大的問(wèn)題.基于此,需要相關(guān)的技術(shù)人員加強(qiáng)對(duì)于混沌算法的改進(jìn),優(yōu)化挖掘方法.
前文提到,傳統(tǒng)的數(shù)據(jù)挖掘方法在操作的過(guò)程中無(wú)法對(duì)頻繁出現(xiàn)的異常數(shù)據(jù)進(jìn)行具體的量化,故而導(dǎo)致數(shù)據(jù)挖掘工作在開(kāi)展的過(guò)程中存在著較大的誤差.為了有效地避免這一問(wèn)題的出現(xiàn),需要相關(guān)的技術(shù)人員加強(qiáng)對(duì)于云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘的優(yōu)化.目前,技術(shù)人員最為常用的優(yōu)化方式就是改進(jìn)混沌算法.對(duì)此,筆者進(jìn)行了相關(guān)的總結(jié),具體內(nèi)容如下.
2.1 異常數(shù)據(jù)回歸方程的組建
在這一環(huán)節(jié)中,需要技術(shù)人員加強(qiáng)云計(jì)算環(huán)境下的數(shù)據(jù)源與偏最小二乘法的融合.其后在此基礎(chǔ)之上,加強(qiáng)對(duì)于數(shù)據(jù)的清洗以及無(wú)量綱化處理.一般而言,通過(guò)這一措施的采取,能夠獲得標(biāo)準(zhǔn)性較高的數(shù)據(jù)矩陣以及維向量.事實(shí)上,這兩個(gè)數(shù)值分別表示頻繁出現(xiàn)的異常數(shù)據(jù)預(yù)測(cè)變量以及決定因素.最后需要以此為基礎(chǔ)實(shí)現(xiàn)對(duì)于主成份的分析提取,并帶動(dòng)云計(jì)算環(huán)境下數(shù)據(jù)源的線性回歸方程的構(gòu)建.關(guān)于異常數(shù)據(jù)回歸方程的組建具體流程,需要技術(shù)人員將數(shù)據(jù)源與偏最小二乘法進(jìn)行有效的融合,并進(jìn)行原始數(shù)據(jù)的清洗以及無(wú)量綱化處理.
2.2 計(jì)算標(biāo)準(zhǔn)化數(shù)據(jù)矩陣以及維向量
在進(jìn)行標(biāo)準(zhǔn)化數(shù)據(jù)矩陣以及維向量的計(jì)算過(guò)程中,需要按照下述的公式進(jìn)行相關(guān)的操作.
通過(guò)上述的分析,相關(guān)人員能夠得到云計(jì)算環(huán)境下數(shù)據(jù)源的回歸方程,并在此基礎(chǔ)之上引進(jìn)混沌算法,實(shí)現(xiàn)對(duì)于數(shù)據(jù)源時(shí)間中相鄰兩個(gè)點(diǎn)間斜率的計(jì)算,此后再將這一計(jì)算結(jié)果與混沌算法預(yù)測(cè)的斜率進(jìn)行比較,實(shí)現(xiàn)對(duì)于云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘.
在這一過(guò)程中,首先需要計(jì)算出數(shù)據(jù)源時(shí)間序列相鄰兩點(diǎn)之間的斜率,并將計(jì)算所得的數(shù)值與預(yù)測(cè)值進(jìn)行對(duì)比.其實(shí)際的操作流程就是在數(shù)據(jù)源的D維空間中進(jìn)行搜索,并對(duì)各數(shù)據(jù)的時(shí)間序列進(jìn)行確定,各時(shí)間序列分別用:Xi1、Xi2、Xik表示.在進(jìn)行斜率計(jì)算的過(guò)程中,需要技術(shù)人員按照下述的方程式進(jìn)行相關(guān)的操作:
此外,筆者還對(duì)混沌算法的預(yù)測(cè)斜率的計(jì)算方式進(jìn)行了總結(jié),具體內(nèi)容如下:
在此之后,技術(shù)人員需要加強(qiáng)對(duì)于頻繁出現(xiàn)異常數(shù)據(jù)最小均方差的計(jì)算,事實(shí)上,通過(guò)這一分析能夠?qū)崿F(xiàn)對(duì)于頻繁出現(xiàn)的異常數(shù)據(jù)的確定,并為挖掘作業(yè)提供最終的依據(jù).最后,技術(shù)人員需要利用如下的方程式,對(duì)云計(jì)算環(huán)境下頻繁出現(xiàn)的異常數(shù)據(jù)進(jìn)行計(jì)算.
在上述的方程式中,如果F*[a...b,c]≤0,則說(shuō)明b指的是云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù),若F*[a...b,c]≥0,則說(shuō)明b不是頻繁出現(xiàn)異常數(shù)據(jù).
通過(guò)對(duì)于上述的流程進(jìn)行分析可以得知:在進(jìn)行云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘作業(yè)的過(guò)程中,相關(guān)的技術(shù)人員借助混沌算法對(duì)挖掘算法以及流程進(jìn)行改進(jìn),往往能夠促進(jìn)挖掘作業(yè)的誤差率的降低以及精確度的提升,促進(jìn)該工作的有效開(kāi)展.
為了進(jìn)一步驗(yàn)證基于改進(jìn)混沌算法的云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘作業(yè)的效率的提高,筆者對(duì)此進(jìn)行了相關(guān)的實(shí)驗(yàn)驗(yàn)證.在操作的過(guò)程中主要借助挖掘仿真平臺(tái)進(jìn)行相關(guān)作業(yè).據(jù)悉,該平臺(tái)的各項(xiàng)參數(shù)為:INtelcore i5處理器,主頻2.8GHZ,4G內(nèi)存,windowsXP專業(yè)版32位sp2操作系統(tǒng).在實(shí)際的操作過(guò)程中,實(shí)驗(yàn)所用的數(shù)據(jù)均來(lái)自于互聯(lián)網(wǎng)采用,在數(shù)據(jù)運(yùn)用的過(guò)程中,主要采用隨意抽取的方式進(jìn)行相關(guān)操作.最后利用改進(jìn)算法和傳統(tǒng)算法對(duì)這些數(shù)據(jù)中頻繁出現(xiàn)的異常數(shù)據(jù)進(jìn)行挖掘.
在仿真證明操作的過(guò)程中,筆者主要借助傳統(tǒng)的數(shù)據(jù)挖掘方法以及基于混沌算法數(shù)據(jù)挖掘方法的對(duì)比試驗(yàn)進(jìn)行相關(guān)的操作.在對(duì)比試驗(yàn)的過(guò)程中,主要對(duì)算法挖掘的精確度、誤差率以及可靠度進(jìn)行對(duì)比.
通過(guò)對(duì)于兩種數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)分析可以得知:借助傳統(tǒng)的挖掘方法進(jìn)行數(shù)據(jù)挖掘操作的過(guò)程中,其挖掘的精確度、誤差率以及可靠度分別為:74%、0.5%以及73%;但是隨著基于混沌算法的異常數(shù)據(jù)挖掘的精確度、誤差率以及可靠度分別為:96%、0.1%以及97%.總體而言,這種技術(shù)的改進(jìn)以及發(fā)展,促進(jìn)了異常數(shù)據(jù)挖掘工作的精確度以及可靠度得到了不同程度的提升,而誤差率則大大減小.基于此,可以得知這種方法在運(yùn)行的過(guò)程中要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)算法.
本文基于此,主要分析了云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘流程:首先構(gòu)建異常數(shù)據(jù)的概率模型以及挖掘頻繁出現(xiàn)異常數(shù)據(jù).其后,對(duì)優(yōu)化云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘的措施(異常數(shù)據(jù)回歸方程的組建、計(jì)算標(biāo)準(zhǔn)化數(shù)據(jù)矩陣以及維向量)展開(kāi)了論述.最后對(duì)云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)優(yōu)化挖掘的實(shí)現(xiàn)以及仿真證明進(jìn)行了論述.筆者認(rèn)為,隨著相關(guān)措施的落實(shí)到位,以及相關(guān)技術(shù)的不斷發(fā)展,云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法必將獲得長(zhǎng)足的發(fā)展,并以此為基礎(chǔ)促進(jìn)相關(guān)作業(yè)的有序進(jìn)行,帶動(dòng)了相關(guān)效益的取得.
〔1〕饒翔,王懷民,陳振邦,周揚(yáng)帆,蔡華,周琦,孫廷韜.云計(jì)算系統(tǒng)中基于伴隨狀態(tài)追蹤的故障檢測(cè)機(jī)制[J].計(jì)算機(jī)學(xué)報(bào), 2012(5):856-870.
〔2〕李德仁,姚遠(yuǎn),邵振峰.智慧城市中的大數(shù)據(jù)[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2014(6):631-640.
〔3〕任磊,杜一,馬帥,張小龍,戴國(guó)忠.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報(bào),2014(9):1909-1936.
〔4〕李潔,許鑫,陳宇,張丁文.模擬DDoS攻擊場(chǎng)景下的云取證模型的研究[J].信息網(wǎng)絡(luò)安全,2015(6):67-72.
〔5〕洪斌,鄧波,彭甫陽(yáng),包陽(yáng),馮學(xué)偉.基于PCA降維的云資源狀態(tài)監(jiān)控?cái)?shù)據(jù)壓縮技術(shù)[J].計(jì)算機(jī)科學(xué),2016(8):19-25.
〔6〕迪莉婭.基于云計(jì)算的電子政務(wù)大數(shù)據(jù)管理研究[J].圖書(shū)館理論與實(shí)踐,2013(12):49-52.
〔7〕黃守明,張紅莉.基于云計(jì)算模式下的Apriori算法研究[J].銅陵學(xué)院學(xué)報(bào),2013(3):106-108+116.
〔8〕嚴(yán)駿.基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J].信息與電腦(理論版),2013(4)4:110-111.
TP311
A
1673-260X(2017)02-0031-02
2016-12-10
安徽省高校優(yōu)秀青年人才支持計(jì)劃重點(diǎn)項(xiàng)目支持(gxyqZD2016454)