陳志雄
摘要:在社會經(jīng)濟(jì)快速發(fā)展的情況下,網(wǎng)絡(luò)信息技術(shù)的更新速度越來越快,如今,促進(jìn)了大數(shù)據(jù)時(shí)代的進(jìn)一步發(fā)展,而Hadoop作為分布式系統(tǒng)的代表,也成為大數(shù)據(jù)挖掘系統(tǒng)的重要組成部分之一。分布式數(shù)據(jù)挖掘系統(tǒng)的主要任務(wù)是利用Hadoop搭建分布式集群環(huán)境,然后在該環(huán)境上部署相應(yīng)的數(shù)據(jù)挖掘任務(wù),前提是要對分布式文件系統(tǒng)HDFS和MapReduce的并行編程模式原理進(jìn)行深入的分析研究,同時(shí)選擇運(yùn)用K-means聚類算法,使Hadoop平臺的數(shù)據(jù)挖掘系統(tǒng)的任務(wù)具有良好的發(fā)展效率,同時(shí)也能顯示其計(jì)算能力的擴(kuò)展性能。下面就Hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)進(jìn)行深入的分析探討,進(jìn)而促進(jìn)信息數(shù)據(jù)系統(tǒng)的進(jìn)一步發(fā)展。
關(guān)鍵詞:Hadoop平臺;數(shù)據(jù)挖掘;系統(tǒng)設(shè)計(jì);K-means
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)01-0179-01
1 數(shù)據(jù)挖掘的簡單概述
Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),它實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng),具有極高的容錯(cuò)性,在因特網(wǎng)上是最受歡迎的搜索關(guān)鍵字的內(nèi)容分類工具,能夠解決許多具有伸縮性的問題,能提高文件搜索效率[1]。而數(shù)據(jù)挖掘系統(tǒng)是在Hadoop平臺建立的,因此,數(shù)據(jù)挖掘系統(tǒng)的發(fā)展與Hadoop平臺緊密結(jié)合。數(shù)據(jù)挖掘主要是在大量數(shù)據(jù)中尋找有價(jià)值的信息技術(shù),主要由以下三個(gè)階段組成,數(shù)據(jù)準(zhǔn)備階段,需要對大量的信息進(jìn)行清理,并對數(shù)據(jù)整合,同時(shí)還對數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換;數(shù)據(jù)挖掘階段,根據(jù)相應(yīng)的智能算法對數(shù)據(jù)進(jìn)行分析,然后形成一定的數(shù)據(jù)模式;結(jié)果評估階段,主要根據(jù)挖掘出的數(shù)據(jù)模式的運(yùn)行效果進(jìn)行評判,對沒有任何效果的評估模式全部排除。
2 數(shù)據(jù)挖掘的主要任務(wù)與具體計(jì)算方法
2.1 數(shù)據(jù)挖掘基本任務(wù)分析
數(shù)據(jù)挖掘的任務(wù)是由大數(shù)據(jù)發(fā)展的方向決定的,同時(shí)為數(shù)據(jù)挖掘工作提供了方向,由于數(shù)據(jù)挖掘以尋找數(shù)據(jù)模式為主,并且數(shù)據(jù)模式也是隨著數(shù)據(jù)的應(yīng)用領(lǐng)域不同而發(fā)生變化,因此,在數(shù)據(jù)挖掘期間,其任務(wù)主要分為描述性挖掘和預(yù)測性挖掘兩種。描述性挖掘任務(wù)主要根據(jù)數(shù)據(jù)的一般特征,對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行概括、總結(jié),然后尋找數(shù)據(jù)之間的關(guān)系和類型,最終形成固定的數(shù)據(jù)模式;對于預(yù)測性挖掘主要根據(jù)接觸的數(shù)據(jù)做出相應(yīng)的判斷,并加入與之相對應(yīng)的新的數(shù)據(jù)的模式[2]。
2.2 數(shù)據(jù)挖掘的具體計(jì)算方法
數(shù)據(jù)聚類算法是對數(shù)據(jù)進(jìn)行拆分合并同類項(xiàng)計(jì)算,也就是將數(shù)據(jù)項(xiàng)劃分為多層次的子集,對具有相似特性的數(shù)據(jù)項(xiàng)進(jìn)行歸類,然后對同一個(gè)子集中的數(shù)據(jù)進(jìn)行計(jì)算,該計(jì)算方法主要根據(jù)數(shù)據(jù)自身的特性來劃分。具體如下所示:
在數(shù)據(jù)庫B中,所有數(shù)據(jù)的集合為未知數(shù)X={X1,X2,X3……Xn},而在許多的X中有一部分具有相似性,因而Xi(i=1,2,3……n)。其中對于一個(gè)整體集合X,被許多具有相似的X組合分割成m個(gè)子集,出現(xiàn)了許多的C1,C2,C3……Cn。同時(shí)每一個(gè)子集還要滿足一定的條件:①每一個(gè)子集不能為零;②所有的子集整合后必須恰好等于集合X;③每一個(gè)子集不能有共同交集;④i必須不等于零。
聚類法是數(shù)據(jù)挖掘算法的重要組成部分,而K-m eans算法是最常用的最基本的聚類算法。主要根據(jù)空間中K個(gè)中心點(diǎn)對相對應(yīng)的數(shù)據(jù)對象進(jìn)行聚類,當(dāng)然這個(gè)點(diǎn)不是固定不變的,而是設(shè)定一個(gè)或幾個(gè)點(diǎn)后進(jìn)行逐一的變換更新,在不斷更新分配數(shù)據(jù)時(shí),就能尋找到符合條件的聚類結(jié)果[3]。經(jīng)過長期的更新分配之后,根據(jù)數(shù)據(jù)聚類的規(guī)律總結(jié)數(shù)據(jù)模式,然后將這一模式作為數(shù)據(jù)挖掘系統(tǒng)的固定函數(shù)模式,在以后的數(shù)據(jù)挖掘計(jì)算中只需要代入相關(guān)的數(shù)據(jù)就可以快速獲取結(jié)果。
如上述的函數(shù)式,在數(shù)據(jù)挖掘計(jì)算中,需要對Ck固定,就可以選擇出最優(yōu)的Xk;對Xk固定后,就能選擇最優(yōu)的Ck,他們選擇的結(jié)果都是花費(fèi)代價(jià)最小的時(shí)候。采用K-means計(jì)算法可以獲得一個(gè)最優(yōu)解的值,這個(gè)值會使得挖掘的數(shù)據(jù)接近最優(yōu),并且在數(shù)據(jù)挖掘中的優(yōu)勢非常的顯著。
3 結(jié)語
Hadoop是一個(gè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行分布式處理的軟件平臺,具有極高的可靠性和高效性,因而在數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)方面能夠提供很好的幫助,尤其在數(shù)據(jù)挖掘計(jì)算方法方面,能夠根據(jù)數(shù)據(jù)挖掘的數(shù)據(jù)模式建立比較固定優(yōu)越的計(jì)算模式。
參考文獻(xiàn)
[1]郭建偉,李瑛,杜麗萍,趙桂芬,蔣繼婭.基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)研究[J].中國科技信息,2013,13:81-83.
[2]羅剛.基于HADOOP的數(shù)據(jù)挖掘平臺分析與設(shè)計(jì)[J].電子世界,2013,18:16-17.
[3]樊龍,萬定生,顧昕辰.基于Hadoop云平臺的水利普查數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J].計(jì)算機(jī)與數(shù)字工程,2014,05:831-834+875.