• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop的數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)

      2019-06-15 01:01:22贠佩晁玉蓉樊華崔超飛陳偉

      贠佩 晁玉蓉 樊華 崔超飛 陳偉

      摘要:Hadoop是一個(gè)分布式開源計(jì)算平臺,它以分布式文件系統(tǒng)HDFS和MapReduce為核心,為用戶提供系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS為分布式文件系統(tǒng)提供存儲環(huán)境,而MapReduce為分布式數(shù)據(jù)提供運(yùn)算環(huán)境。其特點(diǎn)是高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性。

      關(guān)鍵詞:Hadoop;HDFS;MapReduce

      中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2019)03-0180-01

      在巨量數(shù)據(jù)中,迅捷、快速地從數(shù)據(jù)中挖掘出有價(jià)值的信息并將其轉(zhuǎn)化為決策的依據(jù),將成為企業(yè)未來依據(jù)的關(guān)鍵因素。數(shù)據(jù)分析的重要性不言而喻,但隨著數(shù)據(jù)量的突飛猛進(jìn),數(shù)據(jù)處理中遇到難題也更加突出。如何從巨大的數(shù)據(jù)中提取有價(jià)值的信息,并分析深層寓意,進(jìn)而實(shí)現(xiàn)可行性,已經(jīng)成為互聯(lián)網(wǎng)處理的重要問題。

      1 Hadoop

      Hadoop是一個(gè)可靠的分布式共享存儲系統(tǒng),HDFS用于數(shù)據(jù)的存儲,MapReduce用于數(shù)據(jù)分析和處理。HDFS運(yùn)行于集群之上,以流式數(shù)據(jù)存儲超大文件;MapReduce是分布式數(shù)據(jù)處理模型和運(yùn)行環(huán)境。

      1.1 HDFS架構(gòu)

      HDFS的框架采用主從架構(gòu),是由一個(gè)NameNode和多個(gè)DataNode組成。NameNode是中心節(jié)點(diǎn),負(fù)責(zé)對客戶端文件的訪問和文件名字空間的管理。DataNode是一般節(jié)點(diǎn),負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫請求和管理節(jié)點(diǎn)上的存儲,結(jié)構(gòu)圖如圖1所示。

      1.2 MapReduce架構(gòu)

      MapReduce包括一個(gè)主節(jié)點(diǎn),多個(gè)子節(jié)點(diǎn)共同組成??蛻舫绦蜇?fù)責(zé)輸入/輸出,通過抽象的接口實(shí)現(xiàn)map和reduce,與其他參數(shù)共同構(gòu)成整體配置。應(yīng)用MapReduce的程序能夠運(yùn)行在大型商用機(jī)集群,提供可靠容錯(cuò)的并行處理級別的數(shù)據(jù),結(jié)構(gòu)圖如圖2所示。

      2 Hadoop數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)

      采用實(shí)時(shí)Scribe收集各個(gè)Datenode節(jié)點(diǎn)上數(shù)據(jù),數(shù)據(jù)采集完畢后,寫入到分布式HDFS,HDFS以流式數(shù)據(jù)的訪問模式存儲超大文件,MapReduce計(jì)算分析數(shù)據(jù)且HDFS以MapReduce提供底層文件系統(tǒng)的支撐。處理步驟如下:

      (1)根據(jù)輸入數(shù)據(jù)的鍵值對,傳送到Mapper類的map函數(shù)。(2)map輸出鍵值對到緩沖內(nèi)存。(3)Reduce獲取Mapper記錄,產(chǎn)生另外鍵值對,輸出到HDFS中。

      數(shù)據(jù)分析任務(wù)由集群來進(jìn)行計(jì)算,將產(chǎn)生結(jié)果存入HBase進(jìn)行可視化展示,由web服務(wù)器采用相應(yīng)的接口進(jìn)行調(diào)用,采用由Thrift的接口對HBase進(jìn)行訪問。

      整個(gè)數(shù)據(jù)分析系統(tǒng)分別由數(shù)據(jù)收集模塊,Hadoop模塊、HBase模塊和報(bào)警模塊來構(gòu)成,具體結(jié)構(gòu)如圖3所示。

      3 結(jié)語

      根據(jù)海量數(shù)據(jù)處理中的問題,設(shè)計(jì)了基于Hadoop數(shù)據(jù)分析系統(tǒng)。系統(tǒng)從底層數(shù)據(jù)采集、數(shù)據(jù)存儲和計(jì)算、數(shù)據(jù)分析、系統(tǒng)監(jiān)控等方面提供對Scirbe和Hadoop集群指標(biāo)(IO、Load)實(shí)時(shí)監(jiān)控的執(zhí)行,減輕了集群人員的壓力。

      參考文獻(xiàn)

      [1] Tom Wbite著.Hadoop權(quán)威指南[M].清華大學(xué)出版社,2011.

      [2] 朱珠.基于Hadoop的海量數(shù)據(jù)處理模型的研究和應(yīng)用[D].北京:北京郵電大學(xué)圖書館,2007.

      [3] 張華強(qiáng).關(guān)系型數(shù)據(jù)庫與NoSQL數(shù)據(jù)庫[J].電腦知識與技術(shù),2011,7(20):4802-4804.

      [4] 許春玲,張廣泉.分布式文件系統(tǒng)Hadoop HDFS與傳統(tǒng)文件系統(tǒng)Linux FS的比較分析[J].蘇州大學(xué)學(xué)報(bào),2010,30(4):5-9+19.

      [5] 張建勛,古志民.云計(jì)算研究進(jìn)展綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,27(2):429-433.

      [6] 范波.基于MapReduce的結(jié)構(gòu)化查詢機(jī)制的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué)圖書館,2011.

      Data Analysis System Based on Hadoop

      YUN Pei,CHAO Yu-rong,F(xiàn)AN Hua,CUI Chao-fei,CHEN Wei

      (Xianyang Normal University,Xianyang Shaanxi? 712000)

      Abstract:Hadoop is actually a concrete implementation of a distributed file system. The core design of Hadoop's architecture is HDFS and MapReduce. HDFS provides storage for massive data, while MapReduce provides computation for massive data. HDFS features high fault tolerance, high throughput, large data sets and low hardware cost.

      Key words:Hadoop; HDFS;MapReduce

      张北县| 宝丰县| 侯马市| 景泰县| 洞头县| 浦城县| 清远市| 囊谦县| 平陆县| 涞水县| 荥阳市| 日喀则市| 象山县| 海伦市| 额尔古纳市| 紫云| 营口市| 洞口县| 正宁县| 科技| 永新县| 乐平市| 灵寿县| 凌海市| 襄樊市| 沙坪坝区| 洛南县| 巴南区| 遵义县| 麻江县| 靖西县| 京山县| 馆陶县| 尖扎县| 喜德县| 长治县| 南郑县| 甘肃省| 西乡县| 淳化县| 正镶白旗|