蹇旭
摘 要: 針對(duì)傳統(tǒng)云端計(jì)算過(guò)程中的數(shù)據(jù)特定信息提取不精確的問(wèn)題,提出一種云計(jì)算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法。采用矩陣節(jié)點(diǎn)差分模型進(jìn)行數(shù)據(jù)的有序排列,避免傳統(tǒng)方法中的數(shù)據(jù)混亂造成提取數(shù)據(jù)不精確,龐大的云端數(shù)據(jù)量致使數(shù)據(jù)的定位不精準(zhǔn),為了避免此類問(wèn)題的產(chǎn)生,使用多維數(shù)據(jù)定位計(jì)算,能夠有效地解決定位不準(zhǔn)的問(wèn)題,最終可以成功的對(duì)數(shù)據(jù)信息進(jìn)行有效提取。為了驗(yàn)證設(shè)計(jì)云計(jì)算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法的有效性,設(shè)計(jì)了對(duì)比仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果充分證明了該方法能夠有效地解決數(shù)據(jù)提取不精確的問(wèn)題。
關(guān)鍵詞: 云計(jì)算; 數(shù)據(jù)特定特征; 特征挖掘技術(shù); 提取精度
中圖分類號(hào): TN911?34; G420 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)13?0178?03
Abstract: For the imprecise data specific information extraction in the process of traditional cloud computing, a specific characteristic mining method of massive data in cloud computing environment is presented. The matrix node difference model is used to arrange the data orderly, and avoid the imprecise extraction data caused by data confusion of the traditional method. The huge cloud data makes the data positioning imprecise. In order to eliminate the above problem, the multidimensional data positioning calculation is adopted to solve the problem of imprecise positioning effectively, and extract the data information successfully. In order to verify the effectiveness of the massive data specific characteristic mining method in cloud computing environment, the contrast simulation experiment was designed. The experimental results fully prove that the method can improve the accuracy of the data extraction effectively.
Keywords: cloud computing; data specific characteristic; feature mining technology; extraction accuracy
0 引 言
隨著科技的快速發(fā)展,數(shù)據(jù)信息時(shí)代逐漸向著云時(shí)代變遷,數(shù)據(jù)的運(yùn)算存儲(chǔ)已經(jīng)由傳統(tǒng)的硬盤存儲(chǔ)逐漸發(fā)展成為云端計(jì)算存儲(chǔ)[1]。通過(guò)云端的計(jì)算存儲(chǔ)已經(jīng)在很大程度上摒棄了原有的算法規(guī)則,能夠更大程度的進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)運(yùn)算[2]。在使用云端計(jì)算的環(huán)境下,存儲(chǔ)在云端的海量數(shù)據(jù)都是通過(guò)數(shù)據(jù)定位以及數(shù)據(jù)分析進(jìn)行計(jì)算的,使用適當(dāng)?shù)恼{(diào)度方法可以在很大程度上進(jìn)行數(shù)據(jù)的特征提取。所以,有效的數(shù)據(jù)調(diào)度可以充分提高數(shù)據(jù)的特征提取能力,但是傳統(tǒng)的云端計(jì)算過(guò)程由于數(shù)據(jù)存儲(chǔ)量過(guò)于繁雜,并且在進(jìn)行數(shù)據(jù)定位的過(guò)程中需要進(jìn)行數(shù)據(jù)識(shí)別。傳統(tǒng)的方法是使用數(shù)據(jù)的屬性進(jìn)行標(biāo)識(shí)識(shí)別,但是為了數(shù)據(jù)的存儲(chǔ)方便一般會(huì)進(jìn)行適當(dāng)?shù)臄?shù)據(jù)壓縮和數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)進(jìn)行調(diào)用過(guò)程中十分的繁瑣,并且數(shù)據(jù)的調(diào)用過(guò)程是一個(gè)識(shí)別提取的過(guò)程,這種方式極大地影響了數(shù)據(jù)特征提取的速度以及準(zhǔn)確性[3?4]。在進(jìn)行數(shù)據(jù)特征提取的過(guò)程中還存在一些數(shù)據(jù)節(jié)點(diǎn),這些節(jié)點(diǎn)極大程度上限制了提取的精度[4?5]。綜上所述,本文設(shè)計(jì)了一種云計(jì)算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法,該方法能夠有效解決上述問(wèn)題[6]。
1 運(yùn)用矩陣節(jié)點(diǎn)差分計(jì)算方法進(jìn)行數(shù)據(jù)特定特
征挖掘
使用矩陣節(jié)點(diǎn)差分計(jì)算可以提高數(shù)據(jù)提取的精準(zhǔn)度,在計(jì)算之前需要進(jìn)行數(shù)據(jù)的方位確定以及數(shù)據(jù)的預(yù)處理[7?8]。
式中:為單位下數(shù)據(jù)信息量;為數(shù)據(jù)的信息坐標(biāo);為提取條件下的屬性條件;為實(shí)際的屬性值域。
當(dāng)限制節(jié)點(diǎn)傳輸信息至?xí)r,傳輸單位需要經(jīng)過(guò)個(gè)節(jié)點(diǎn)才能進(jìn)行屬性提取。關(guān)系式為:
保證數(shù)據(jù)的正確性和快速性是通過(guò)區(qū)域的劃分得到的,劃分前需要預(yù)設(shè)參數(shù),通過(guò)設(shè)定能夠?qū)x擇精度進(jìn)行控制,避免誤差的產(chǎn)生。
式中:為離散參數(shù);為整合參數(shù)域;為區(qū)域代理值;表示提取深度;代表數(shù)據(jù)衡量值。
進(jìn)行數(shù)據(jù)的特征提取過(guò)程中,使用矩陣節(jié)點(diǎn)差分方法,因此需要進(jìn)行數(shù)據(jù)的預(yù)處理[9],預(yù)處理之后才可以使用,首先是數(shù)據(jù)編續(xù):
經(jīng)過(guò)序號(hào)的排列以后,方便數(shù)據(jù)在大量數(shù)據(jù)中進(jìn)行準(zhǔn)確提取,但是排序之后的數(shù)據(jù)不能直接使用,需要一定的調(diào)用計(jì)算,方便在提取過(guò)程中屬性的搭配:
式中:表示單位時(shí)間數(shù)據(jù)能夠調(diào)用的屬性;表示實(shí)際區(qū)域范圍內(nèi)數(shù)據(jù)的識(shí)別碼;是實(shí)際計(jì)算中的屬性參數(shù);表示計(jì)算常量。
通過(guò)上述計(jì)算便可以進(jìn)行矩陣節(jié)點(diǎn)差分方程的計(jì)算,建立如下矩陣:
通過(guò)化簡(jiǎn)的公式可以看出數(shù)據(jù)與實(shí)際調(diào)用的關(guān)系,把公式進(jìn)行加權(quán)處理就可以得到關(guān)系公式,這樣可以更加精確的在海量數(shù)據(jù)中完成特征提取。
限定好實(shí)用的屬性參數(shù)及屬性目標(biāo),進(jìn)行加權(quán)計(jì)算:
本文運(yùn)用矩陣節(jié)點(diǎn)差分計(jì)算方法進(jìn)行數(shù)據(jù)特定特征挖掘,在計(jì)算前進(jìn)行數(shù)據(jù)的預(yù)處理保證了數(shù)據(jù)的有效性,提高了結(jié)果的精準(zhǔn)度,最后用條件進(jìn)行限定保證在大量的數(shù)據(jù)中能夠進(jìn)行精準(zhǔn)的計(jì)算。
2 實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證本文設(shè)計(jì)的云計(jì)算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法的有效性,設(shè)計(jì)了對(duì)比仿真實(shí)驗(yàn)。選定某網(wǎng)絡(luò)數(shù)據(jù)公司大型云端數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)特征提取,首先使用傳統(tǒng)的方法進(jìn)行云端數(shù)據(jù)提取,然后使用本文設(shè)計(jì)的云計(jì)算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法進(jìn)行數(shù)據(jù)的特征提取。
2.1 參數(shù)設(shè)置
為了保證實(shí)驗(yàn)的有效性,同時(shí)進(jìn)行實(shí)驗(yàn),設(shè)置調(diào)配參數(shù)為65.8;數(shù)據(jù)坐標(biāo)分別為150,100;為了保證數(shù)據(jù)提取的速度,設(shè)置為68.5;設(shè)置分別為55,60,100。
2.2 數(shù)據(jù)對(duì)比分析
實(shí)驗(yàn)對(duì)比結(jié)果如圖1,圖2,表1所示。
通過(guò)圖1可以看出本文設(shè)計(jì)的方法能夠在更短的時(shí)間內(nèi)得到結(jié)果,同時(shí)所用的時(shí)間是傳統(tǒng)方法的一半左右。
通過(guò)圖2的誤差對(duì)比結(jié)果可以看出,本文設(shè)計(jì)的云計(jì)算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法能夠有效地降低誤差,保證在海量數(shù)據(jù)下的特征提取。
表1的實(shí)驗(yàn)結(jié)果能夠充分證明,本文設(shè)計(jì)的云計(jì)算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法能夠有效地提高數(shù)據(jù)特征百分比,同時(shí)能夠在更短的時(shí)間內(nèi)進(jìn)行更多的特征提取。
3 結(jié) 語(yǔ)
本文設(shè)計(jì)的云計(jì)算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法能夠有效地解決數(shù)據(jù)特征提取過(guò)程中提取不精確的問(wèn)題,同時(shí)所需要的時(shí)間更短,得到的結(jié)果不需要進(jìn)行修正,能夠更好地完成對(duì)海量數(shù)據(jù)的特征提取。本文的研究能夠?yàn)樵贫藬?shù)據(jù)提取提供良好的理論依據(jù)。
參考文獻(xiàn)
[1] 廉文武,傅凌玲,黃潮.云計(jì)算環(huán)境下數(shù)據(jù)弱關(guān)聯(lián)挖掘模型的仿真[J].計(jì)算機(jī)仿真,2015,32(4):359?362.
[2] 盧小賓,王濤.Google三大云計(jì)算技術(shù)對(duì)海量數(shù)據(jù)分析流程的技術(shù)改進(jìn)優(yōu)化研究[J].圖書(shū)情報(bào)工作,2015,59(3):6?11.
[3] 何清,莊福振,曾立,等.PDMiner:基于云計(jì)算的并行分布式數(shù)據(jù)挖掘工具平臺(tái)[J].中國(guó)科學(xué):信息科學(xué),2014,44(7):871?885.
[4] 劉輝.云計(jì)算環(huán)境下海量激光點(diǎn)云數(shù)據(jù)的高密度存儲(chǔ)器邏輯結(jié)構(gòu)設(shè)計(jì)[J].激光雜志,2016,37(9):91?95.
[5] 白紅偉,馬志偉,朱永利.基于云計(jì)算的絕緣子狀態(tài)監(jiān)測(cè)數(shù)據(jù)的處理[J].電瓷避雷器,2011(4):19?22.
[6] 錢維揚(yáng),王俊義,仇洪冰.基于Hadoop的數(shù)據(jù)挖掘技術(shù)在測(cè)光紅移上的研究[J].電子技術(shù)應(yīng)用,2016,42(9):111?114.
[7] 劉海龍,宿宏毅.利用Hadoop云計(jì)算平臺(tái)進(jìn)行海量數(shù)據(jù)聚類分析[J].艦船科學(xué)技術(shù),2016(14):148?150.
[8] 曹建春,李聰.海上軍事海量數(shù)據(jù)的物聯(lián)網(wǎng)數(shù)據(jù)庫(kù)存儲(chǔ)系統(tǒng)研究[J].艦船科學(xué)技術(shù),2016(12):175?177.
[9] 任瓊,常君明.基于任務(wù)分類思維的云計(jì)算海量資源改進(jìn)調(diào)度[J].科學(xué)技術(shù)與工程,2016,16(12):101?105.