• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)探討

    2017-04-25 12:12:09陳志雄
    關(guān)鍵詞:系統(tǒng)設(shè)計(jì)數(shù)據(jù)挖掘

    陳志雄

    摘要:在社會經(jīng)濟(jì)快速發(fā)展的情況下,網(wǎng)絡(luò)信息技術(shù)的更新速度越來越快,如今,促進(jìn)了大數(shù)據(jù)時(shí)代的進(jìn)一步發(fā)展,而Hadoop作為分布式系統(tǒng)的代表,也成為大數(shù)據(jù)挖掘系統(tǒng)的重要組成部分之一。分布式數(shù)據(jù)挖掘系統(tǒng)的主要任務(wù)是利用Hadoop搭建分布式集群環(huán)境,然后在該環(huán)境上部署相應(yīng)的數(shù)據(jù)挖掘任務(wù),前提是要對分布式文件系統(tǒng)HDFS和MapReduce的并行編程模式原理進(jìn)行深入的分析研究,同時(shí)選擇運(yùn)用K-means聚類算法,使Hadoop平臺的數(shù)據(jù)挖掘系統(tǒng)的任務(wù)具有良好的發(fā)展效率,同時(shí)也能顯示其計(jì)算能力的擴(kuò)展性能。下面就Hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)進(jìn)行深入的分析探討,進(jìn)而促進(jìn)信息數(shù)據(jù)系統(tǒng)的進(jìn)一步發(fā)展。

    關(guān)鍵詞:Hadoop平臺;數(shù)據(jù)挖掘;系統(tǒng)設(shè)計(jì);K-means

    中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)01-0179-01

    1 數(shù)據(jù)挖掘的簡單概述

    Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),它實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng),具有極高的容錯(cuò)性,在因特網(wǎng)上是最受歡迎的搜索關(guān)鍵字的內(nèi)容分類工具,能夠解決許多具有伸縮性的問題,能提高文件搜索效率[1]。而數(shù)據(jù)挖掘系統(tǒng)是在Hadoop平臺建立的,因此,數(shù)據(jù)挖掘系統(tǒng)的發(fā)展與Hadoop平臺緊密結(jié)合。數(shù)據(jù)挖掘主要是在大量數(shù)據(jù)中尋找有價(jià)值的信息技術(shù),主要由以下三個(gè)階段組成,數(shù)據(jù)準(zhǔn)備階段,需要對大量的信息進(jìn)行清理,并對數(shù)據(jù)整合,同時(shí)還對數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換;數(shù)據(jù)挖掘階段,根據(jù)相應(yīng)的智能算法對數(shù)據(jù)進(jìn)行分析,然后形成一定的數(shù)據(jù)模式;結(jié)果評估階段,主要根據(jù)挖掘出的數(shù)據(jù)模式的運(yùn)行效果進(jìn)行評判,對沒有任何效果的評估模式全部排除。

    2 數(shù)據(jù)挖掘的主要任務(wù)與具體計(jì)算方法

    2.1 數(shù)據(jù)挖掘基本任務(wù)分析

    數(shù)據(jù)挖掘的任務(wù)是由大數(shù)據(jù)發(fā)展的方向決定的,同時(shí)為數(shù)據(jù)挖掘工作提供了方向,由于數(shù)據(jù)挖掘以尋找數(shù)據(jù)模式為主,并且數(shù)據(jù)模式也是隨著數(shù)據(jù)的應(yīng)用領(lǐng)域不同而發(fā)生變化,因此,在數(shù)據(jù)挖掘期間,其任務(wù)主要分為描述性挖掘和預(yù)測性挖掘兩種。描述性挖掘任務(wù)主要根據(jù)數(shù)據(jù)的一般特征,對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行概括、總結(jié),然后尋找數(shù)據(jù)之間的關(guān)系和類型,最終形成固定的數(shù)據(jù)模式;對于預(yù)測性挖掘主要根據(jù)接觸的數(shù)據(jù)做出相應(yīng)的判斷,并加入與之相對應(yīng)的新的數(shù)據(jù)的模式[2]。

    2.2 數(shù)據(jù)挖掘的具體計(jì)算方法

    數(shù)據(jù)聚類算法是對數(shù)據(jù)進(jìn)行拆分合并同類項(xiàng)計(jì)算,也就是將數(shù)據(jù)項(xiàng)劃分為多層次的子集,對具有相似特性的數(shù)據(jù)項(xiàng)進(jìn)行歸類,然后對同一個(gè)子集中的數(shù)據(jù)進(jìn)行計(jì)算,該計(jì)算方法主要根據(jù)數(shù)據(jù)自身的特性來劃分。具體如下所示:

    在數(shù)據(jù)庫B中,所有數(shù)據(jù)的集合為未知數(shù)X={X1,X2,X3……Xn},而在許多的X中有一部分具有相似性,因而Xi(i=1,2,3……n)。其中對于一個(gè)整體集合X,被許多具有相似的X組合分割成m個(gè)子集,出現(xiàn)了許多的C1,C2,C3……Cn。同時(shí)每一個(gè)子集還要滿足一定的條件:①每一個(gè)子集不能為零;②所有的子集整合后必須恰好等于集合X;③每一個(gè)子集不能有共同交集;④i必須不等于零。

    聚類法是數(shù)據(jù)挖掘算法的重要組成部分,而K-m eans算法是最常用的最基本的聚類算法。主要根據(jù)空間中K個(gè)中心點(diǎn)對相對應(yīng)的數(shù)據(jù)對象進(jìn)行聚類,當(dāng)然這個(gè)點(diǎn)不是固定不變的,而是設(shè)定一個(gè)或幾個(gè)點(diǎn)后進(jìn)行逐一的變換更新,在不斷更新分配數(shù)據(jù)時(shí),就能尋找到符合條件的聚類結(jié)果[3]。經(jīng)過長期的更新分配之后,根據(jù)數(shù)據(jù)聚類的規(guī)律總結(jié)數(shù)據(jù)模式,然后將這一模式作為數(shù)據(jù)挖掘系統(tǒng)的固定函數(shù)模式,在以后的數(shù)據(jù)挖掘計(jì)算中只需要代入相關(guān)的數(shù)據(jù)就可以快速獲取結(jié)果。

    如上述的函數(shù)式,在數(shù)據(jù)挖掘計(jì)算中,需要對Ck固定,就可以選擇出最優(yōu)的Xk;對Xk固定后,就能選擇最優(yōu)的Ck,他們選擇的結(jié)果都是花費(fèi)代價(jià)最小的時(shí)候。采用K-means計(jì)算法可以獲得一個(gè)最優(yōu)解的值,這個(gè)值會使得挖掘的數(shù)據(jù)接近最優(yōu),并且在數(shù)據(jù)挖掘中的優(yōu)勢非常的顯著。

    3 結(jié)語

    Hadoop是一個(gè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行分布式處理的軟件平臺,具有極高的可靠性和高效性,因而在數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)方面能夠提供很好的幫助,尤其在數(shù)據(jù)挖掘計(jì)算方法方面,能夠根據(jù)數(shù)據(jù)挖掘的數(shù)據(jù)模式建立比較固定優(yōu)越的計(jì)算模式。

    參考文獻(xiàn)

    [1]郭建偉,李瑛,杜麗萍,趙桂芬,蔣繼婭.基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)研究[J].中國科技信息,2013,13:81-83.

    [2]羅剛.基于HADOOP的數(shù)據(jù)挖掘平臺分析與設(shè)計(jì)[J].電子世界,2013,18:16-17.

    [3]樊龍,萬定生,顧昕辰.基于Hadoop云平臺的水利普查數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J].計(jì)算機(jī)與數(shù)字工程,2014,05:831-834+875.

    猜你喜歡
    系統(tǒng)設(shè)計(jì)數(shù)據(jù)挖掘
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
    一種基于SATA硬盤陣列的數(shù)據(jù)存儲與控制系統(tǒng)設(shè)計(jì)研究
    工業(yè)熱電偶計(jì)量檢定系統(tǒng)設(shè)計(jì)
    基于物聯(lián)網(wǎng)的煤礦智能倉儲與物流運(yùn)輸管理系統(tǒng)設(shè)計(jì)與應(yīng)用
    目標(biāo)特性測量雷達(dá)平臺建設(shè)構(gòu)想
    科技視界(2016年22期)2016-10-18 14:34:34
    星級酒店建筑電氣及弱電智能系統(tǒng)設(shè)計(jì)分析
    信息管理服務(wù)平臺項(xiàng)目應(yīng)用系統(tǒng)設(shè)計(jì)探析
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    平罗县| 宝兴县| 福建省| 涡阳县| 临武县| 绍兴县| 巨野县| 乐东| 水富县| 新邵县| 宁都县| 民县| 饶河县| 永胜县| 桃源县| 雷州市| 南通市| 元氏县| 大余县| 阿拉善右旗| 英超| 龙口市| 沁水县| 宁陵县| 庄浪县| 信宜市| 高清| 绥棱县| 鹤壁市| 陆良县| 姜堰市| 南乐县| 宝清县| 贡嘎县| 玉门市| 金溪县| 获嘉县| 叙永县| 芒康县| 年辖:市辖区| 平泉县|