摘 要 隨著互聯(lián)網(wǎng)的快速普及,以及移動互聯(lián)網(wǎng)和智能終端設(shè)備的廣泛使用,產(chǎn)生了大量的互聯(lián)網(wǎng)數(shù)據(jù)。云計算和大數(shù)據(jù)技術(shù)應(yīng)運而生。近年來,每年產(chǎn)生的海量數(shù)據(jù)是20世紀(jì)末期十幾年數(shù)據(jù)的總和,這些數(shù)據(jù)冗雜。為了更好的提升數(shù)據(jù)分析質(zhì)量和數(shù)據(jù)挖掘效率,加強(qiáng)基于云計算數(shù)據(jù)挖掘的研究與計算機(jī)方針意義重大。仿真技術(shù)的應(yīng)用極大優(yōu)化了數(shù)據(jù)挖掘的工藝流程。本文淺析了研究基于云計算海量數(shù)據(jù)的必要性,針對海量數(shù)據(jù)挖掘研究的主要方法,提出了研究基于云計算的海量數(shù)據(jù)挖掘基本原則。
【關(guān)鍵詞】云計算 數(shù)據(jù)挖掘 研究原則 計算仿真
云存儲技術(shù)和大數(shù)據(jù)技術(shù)的發(fā)展使得海量數(shù)據(jù)的挖掘極具現(xiàn)實意義和指導(dǎo)意義。對于電子商務(wù)而言,海量數(shù)據(jù)挖掘可以了解不同消費者的消費習(xí)慣和消費原則。對這些大數(shù)據(jù)的云計算可以幫助商家更好的為消費者提供電子商務(wù)服務(wù)。對于各行各業(yè),基于云計算海量數(shù)據(jù)的挖掘研究,需要正確的研究方法和挖掘手段的使用。深度挖掘有效提升了挖掘的質(zhì)量和挖掘效率,對于海量數(shù)據(jù)的信息篩選作用效果明顯。
1 研究基于云計算海量數(shù)據(jù)挖掘的必要性
1.1 有利于獲得網(wǎng)絡(luò)價值信息
網(wǎng)絡(luò)數(shù)據(jù)之間存在一定的弱關(guān)聯(lián)性,通過網(wǎng)絡(luò)數(shù)據(jù)有價值信息的篩選和分析,有利于更好的發(fā)展互聯(lián)網(wǎng)網(wǎng)絡(luò)和服務(wù)水平。當(dāng)然,由于互聯(lián)網(wǎng)網(wǎng)絡(luò)平臺準(zhǔn)入門檻較低,充斥著大量的網(wǎng)絡(luò)垃圾信息。云計算技術(shù)是以大數(shù)據(jù)為依托,結(jié)合相關(guān)數(shù)學(xué)模型仿真,實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的高效管理。研究數(shù)據(jù)挖掘可以從海量信息中提取最有價值的網(wǎng)絡(luò)數(shù)據(jù)和相關(guān)信息。
1.2 有利于提升信息獲取效果
互聯(lián)網(wǎng)的快速普及,應(yīng)用在各行各業(yè),極大改變了不同行業(yè)的經(jīng)營模式和運作效率。對于互聯(lián)網(wǎng)用戶而言,互聯(lián)網(wǎng)數(shù)據(jù)蘊含了自身的網(wǎng)絡(luò)行為和思想。一些行業(yè)為了不斷提升網(wǎng)絡(luò)平臺的服務(wù)質(zhì)量,做到“投其所好”,就要在第一時間識別出網(wǎng)絡(luò)用戶的基本用網(wǎng)習(xí)慣和用網(wǎng)需求。借助云計算數(shù)據(jù)挖掘,可以讓不同行業(yè)在最短時間獲取相關(guān)信息,提升獲取效率。
1.3 有利于推動大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)技術(shù)的應(yīng)用需要云存儲技術(shù)和大數(shù)據(jù)管理技術(shù)呈現(xiàn)匹配性的發(fā)展。大數(shù)據(jù)技術(shù)的核心任務(wù)之一,就是利用對海量網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘,理清數(shù)據(jù)之間的弱關(guān)聯(lián)性,并不斷提升網(wǎng)絡(luò)數(shù)據(jù)的管理質(zhì)量。云計算是一種以計算仿真為實現(xiàn)手段的信息處理形式,研究基于云計算的海量數(shù)據(jù)挖掘,有利于推動大數(shù)據(jù)技術(shù)應(yīng)用,實現(xiàn)大數(shù)據(jù)技術(shù)的系統(tǒng)化發(fā)展。
2 基于云計算海量數(shù)據(jù)挖掘研究的主要方法
2.1 數(shù)據(jù)關(guān)聯(lián)性挖掘法
在對云計算環(huán)境下的海量數(shù)據(jù)進(jìn)行價值提取與細(xì)節(jié)分析時,關(guān)聯(lián)性數(shù)據(jù)挖掘,可以將發(fā)散的網(wǎng)絡(luò)數(shù)據(jù)集中化。弱關(guān)聯(lián)挖掘法一般分為三個步驟:首先,確定挖掘數(shù)據(jù)的范圍,收集所要處理的數(shù)據(jù)對象。明確關(guān)聯(lián)性研究的屬性。其次,海量數(shù)據(jù)的預(yù)處理。對數(shù)據(jù)進(jìn)行噪聲處理,保障挖掘數(shù)據(jù)的完整性和真實性,將預(yù)處理結(jié)果保存在挖掘數(shù)據(jù)庫中。最后,塑造訓(xùn)練的數(shù)據(jù)挖掘。利用排列組合進(jìn)行實體閾值分析。
2.2 數(shù)據(jù)模糊性學(xué)習(xí)法
模糊性學(xué)習(xí)法是一種重要的數(shù)據(jù)挖掘方法,其挖掘原理就是假設(shè)云計算平臺下存在一定數(shù)量的信息樣本,對任意一個樣本進(jìn)行指標(biāo)描述,計算所有樣本的標(biāo)準(zhǔn)差,實現(xiàn)數(shù)據(jù)的高度壓縮與挖掘價值信息操作。數(shù)據(jù)模糊性學(xué)習(xí)法應(yīng)用在海量數(shù)據(jù)的挖掘的關(guān)鍵是模糊錄屬函數(shù)的篩選與確定,進(jìn)而實現(xiàn)基于云計算的海量數(shù)據(jù)挖掘價值信息的模糊化實際操作。網(wǎng)絡(luò)數(shù)據(jù)的結(jié)點信息需要在激活的條件下收集。
2.3 Apriori計算挖掘法
基于云計算海量數(shù)據(jù)挖掘方法的主要形式之一就是Apriori算法基礎(chǔ)上的數(shù)據(jù)挖掘。與其他算法不同,Apriori算法最大的技術(shù)優(yōu)勢在于可以有效避免海量數(shù)據(jù)的復(fù)雜性和冗繁性帶來的數(shù)據(jù)挖掘算法收斂性較差的缺陷。利用計算仿真模擬,在節(jié)省投入成本的前提下,大大提升了海量數(shù)據(jù)的挖掘速度。
3 基于云計算的海量數(shù)據(jù)挖掘的基本原則
3.1 準(zhǔn)確性原則
云計算為數(shù)據(jù)挖掘提供了平臺,對于海量數(shù)據(jù)的挖掘,特別是深度挖掘,挖掘結(jié)果的準(zhǔn)確性直接影響數(shù)據(jù)的后期使用,對于互聯(lián)網(wǎng)后期的優(yōu)化意義重大。在基于云計算的海量數(shù)據(jù)挖掘,無論采取何種方法和算法,必須保障數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。一方面,驗證挖掘方法選擇的準(zhǔn)確性和匹配性。另一方面,通過不同數(shù)據(jù)挖掘手段,對最后結(jié)果進(jìn)行偏差分析,已找到影響準(zhǔn)確性的關(guān)鍵因素。
3.2 便捷性原則
云計算平臺主要借助計算機(jī)進(jìn)行計算仿真和挖掘程序運算。對于海量數(shù)據(jù)的挖掘分析需要具備的便捷性。一方面,基于云計算平臺海量數(shù)據(jù)挖掘的流程要在實踐分析過程中不斷優(yōu)化流程,提升挖掘的時間效率。另一方面,數(shù)據(jù)挖掘的方法和手段的選擇要具有可控性強(qiáng)的特點。利用人力和財力的投入,可以實現(xiàn)海量數(shù)據(jù)的便捷挖掘,避免操作過難對數(shù)據(jù)挖掘任務(wù)的延遲。
3.3 安全性原則
由于互聯(lián)網(wǎng)信息需要包含個人的基本真實信息。對于云計算海量數(shù)據(jù)挖掘的安全性直接影響被挖掘海量數(shù)據(jù)在云計算平臺的安全性。近幾年來,一些基于信息泄露造成的人民財產(chǎn)損失總量較大,嚴(yán)重危害了每一個公民的網(wǎng)絡(luò)使用安全。在對海量數(shù)據(jù)進(jìn)行挖掘時,可以通過獨立挖掘系統(tǒng)的應(yīng)用,隔離原始數(shù)據(jù),避免挖掘分析過程對信息安全性的威脅。同時,對余挖掘數(shù)據(jù)結(jié)果進(jìn)行二級加密。
4 結(jié)論
云計算作為大數(shù)據(jù)技術(shù)的內(nèi)容之一,對于大數(shù)據(jù)的推廣應(yīng)用意義重大。通過價值信息的提取,有利于提升互聯(lián)網(wǎng)服務(wù)水平。在進(jìn)行海量數(shù)據(jù)挖掘時,需要理解并熟練掌握主要的方法技巧,以準(zhǔn)確性、便捷性和安全性原則展開具體的數(shù)據(jù)挖掘工作。
參考文獻(xiàn)
[1]劉增鎖.云計算環(huán)境下海量數(shù)據(jù)中侵入檢測挖掘模型研究[J].計算機(jī)仿真,2015(11).
[2]黃華.基于大云數(shù)據(jù)快速挖掘過程的研究與方針[J].計算機(jī)仿真,2016(06).
作者簡介
李響(1992-),男,四川省成都市人。研究生學(xué)歷。研究方向為知識工程與應(yīng)用軟件。
作者單位
東北師范大學(xué)信息與軟件工程學(xué)院 吉林省長春市 130000