• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop 平臺的海量數(shù)據(jù)挖掘算法的研究分析

      2019-02-13 10:45:37羅釗航楊澤威
      數(shù)字通信世界 2019年7期
      關(guān)鍵詞:改進(jìn)型項(xiàng)集事務(wù)

      羅釗航,車 宇,楊澤威

      (中國核動力研究設(shè)計院,成都 610005)

      近些年我國廣播電視業(yè)在積極發(fā)展的過程中,也帶動了無線網(wǎng)的建設(shè)與發(fā)展,特別是在數(shù)字化進(jìn)程下,我國無線微波網(wǎng)也正在加快落實(shí)數(shù)字化升級,尤其是建設(shè)微波中繼通信系統(tǒng)有著建設(shè)快、成本低的優(yōu)勢。因此數(shù)字微波電路及其路由設(shè)計也需要積極朝著數(shù)字化的方向發(fā)展,以便可以更好地適應(yīng)現(xiàn)代化、數(shù)字化的廣播電視無線傳輸系統(tǒng)。而通過明確數(shù)字微波電路路由設(shè)計的注意問題,對保障其設(shè)計科學(xué)合理性具有積極的幫助作用。

      1 Hadoop 相關(guān)技術(shù)

      Hadoop 架構(gòu)是用于集群分布式計算,是集存儲、處理、計算、分析等為一體的分布式系統(tǒng)并行執(zhí)行環(huán)境。Hadoop 框架以HDFS和Map/Reduce 編程模型為核心。HDFS 負(fù)責(zé)管理分布式文件存儲系統(tǒng),Map/Reduce 編程模型為“先分解任務(wù),計算,再匯總結(jié)果”的計算框架。Hadoop 平臺的計算和存儲在一個節(jié)點(diǎn),這種搭配模式更能高效快速的使用資源。

      2 傳統(tǒng)的數(shù)據(jù)挖掘算法

      本節(jié)將主要介紹傳統(tǒng)的數(shù)據(jù)挖掘算法。

      2.1 K-means 聚類算法

      聚類算法屬于無監(jiān)督特性的機(jī)器學(xué)習(xí)領(lǐng)域的算法,最典型的聚類算法為K-means 算法,由于它具有原理簡單和收斂速度快這兩種特性,因而在數(shù)據(jù)挖掘方面K-means 算法有很大研究和發(fā)展。

      2.2 改進(jìn)的PrePost 算法

      PrePost 算法雖然常用于數(shù)據(jù)挖掘,但存在構(gòu)建結(jié)構(gòu)樹效率低下的問題,為適應(yīng)基于Hadoop 平臺的大數(shù)據(jù)挖掘,常對PrePost 算法進(jìn)行改進(jìn),基于B-list 的改進(jìn)PrePost 算法便是其中一種,它具有良好的用高效的連接和剪枝策略等優(yōu)勢。

      2.3 基于矩陣的Apriori 算法

      基于矩陣的Apriori 算法是Apriori 算法的改進(jìn)型,原理如下:設(shè)事務(wù)數(shù)據(jù)庫M,遍歷M 中的每個事務(wù),得到矩陣。算法的描述如下:

      輸入:事務(wù)數(shù)據(jù)庫

      輸出:頻繁項(xiàng)集

      (1)掃描事務(wù)數(shù)據(jù)庫,轉(zhuǎn)換為矩陣。

      (2)計算各項(xiàng)的支持度得到頻繁1-項(xiàng)集。

      (3)計算頻繁i-項(xiàng)集中項(xiàng)籍的個數(shù)Li。

      (4)若Li

      (5)連接i-項(xiàng)集,從而得到(i+1)-項(xiàng)集,再對(i+1)-項(xiàng)集剪枝。

      (6)計算所有(i+1)-項(xiàng)集的支持度。

      (7)計算頻繁(i+1)-項(xiàng)集。

      (8)結(jié)束。

      3 改進(jìn)型的數(shù)據(jù)挖掘算法

      本節(jié)將主要介紹改進(jìn)型數(shù)據(jù)挖掘算法。

      3.1 基于Hadoop 的K-means 聚類算法改進(jìn)型

      基于Hadoop 的K-means 聚類算法改進(jìn)型思想如下:

      (1)首先分割數(shù)據(jù),并對分割后的數(shù)據(jù)進(jìn)行計算,Map 階段計算樣本之間的距離,Reduce 階段完成計算并找到初始聚類中心。

      (2)進(jìn)入二次迭代。

      (3)二次迭代中使用K-means 聚類算法得到鍵值。

      (4)通過Map/Reduce 更新聚類中心。

      (5)計算平均誤差準(zhǔn)則函數(shù)。

      (6)若結(jié)果不收斂,進(jìn)行第(2)步;若結(jié)果收斂,輸出K個類簇,算法結(jié)束。

      3.2 基于Hadoop 的數(shù)據(jù)挖掘算法改進(jìn)型

      基于Hadoop 的數(shù)據(jù)挖掘算法改進(jìn)型[1]的核心思想為:通過負(fù)載均衡策略使用Hadoop 集群中的HDFS 與Map/Reduce 模型對數(shù)據(jù)進(jìn)行計算,得到所有的頻繁模式,再通過kulczynski 度量和不平衡比評估頻繁模式,挖掘數(shù)據(jù)中的價值。

      3.3 基于Hadoop 的Apriori 算法

      由于Hadoop 集群的通信會占用部分硬件系統(tǒng)資源,如I/0、內(nèi)存等,而Apriori 算法可以減少對事務(wù)數(shù)據(jù)庫的掃描,因而將兩者結(jié)合起來,可以極大地提高算法的效率。基于Hadoop 的Apriori 算法可以將掃描數(shù)據(jù)庫次數(shù)降為2次,且無大量中間結(jié)果集產(chǎn)生。

      4 改進(jìn)型算法分析

      4.1 基于Hadoop 的改進(jìn)型K-means 聚類算法

      在算法準(zhǔn)確率方面,明顯高于傳統(tǒng)K-means 聚類算法,此算法在準(zhǔn)確率上有良好的性能,在集群環(huán)境的計算優(yōu)勢逐漸顯示出來,隨著節(jié)點(diǎn)數(shù)的增加,數(shù)據(jù)量越大加速比越大。

      4.2 基于Hadoop 的改進(jìn)型頻繁模式挖掘算法

      基于Hadoop 的改進(jìn)型頻繁模式挖掘算法執(zhí)行時間是由集群中執(zhí)行最長時間的節(jié)點(diǎn)決定的,因而這個算法的核心使對整個集群做負(fù)載均衡。優(yōu)秀的負(fù)載均衡算法能夠使所有節(jié)點(diǎn)的耗時接近,節(jié)點(diǎn)之間通信數(shù)據(jù)量小,系統(tǒng)開銷低,從而提高此算法的效率。

      4.3 基于Hadoop 的Apriori 算法

      基于矩陣的Apriori 算法[2,3]由于減少了對事務(wù)數(shù)據(jù)庫的掃描次數(shù),因而效率高,在同等數(shù)據(jù)量下,算法耗時短。

      5 總結(jié)

      總的來講,數(shù)據(jù)挖機(jī)算法多種多樣,各有優(yōu)劣,當(dāng)前基于Hadoop 平臺的算法主要由這幾類算法延伸或演變而來,本文對這些算法進(jìn)行了概括性的分析和研究。

      猜你喜歡
      改進(jìn)型項(xiàng)集事務(wù)
      “事物”與“事務(wù)”
      基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計與實(shí)現(xiàn)
      Cr5改進(jìn)型支承輥探傷無底波原因分析
      河湖事務(wù)
      改進(jìn)型CKF算法及其在GNSS/INS中的應(yīng)用
      改進(jìn)型逆變器無效開關(guān)死區(qū)消除方法
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      改進(jìn)型抽頭電感準(zhǔn)Z源逆變器
      一種頻繁核心項(xiàng)集的快速挖掘算法
      SQLServer自治事務(wù)實(shí)現(xiàn)方案探析
      永清县| 长垣县| 武宁县| 三原县| 甘泉县| 巴楚县| 英超| 准格尔旗| 克山县| 石门县| 聂拉木县| 道孚县| 云龙县| 望谟县| 潼南县| 衡山县| 贵定县| 拉萨市| 永福县| 赤水市| 海阳市| 利辛县| 乌拉特中旗| 翁牛特旗| 远安县| 封开县| 东莞市| 浠水县| 玉山县| 灵石县| 福贡县| 玉龙| 湘潭市| 开封县| 长宁区| 雷山县| 灵丘县| 四会市| 惠来县| 霍山县| 虎林市|