• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Hadoop框架核心技術(shù)在高校大數(shù)據(jù)教學(xué)系統(tǒng)中的應(yīng)用

      2018-01-29 15:27:46趙波郭瑞
      無線互聯(lián)科技 2017年18期
      關(guān)鍵詞:大數(shù)據(jù)教學(xué)

      趙波+郭瑞

      摘要:文章構(gòu)建了云中實(shí)驗(yàn)室Hadoop大數(shù)據(jù)實(shí)驗(yàn)平臺(tái),用15臺(tái)服務(wù)器、兩臺(tái)交換機(jī)建立了虛擬化平臺(tái),將大數(shù)據(jù)專業(yè)課所需的環(huán)境虛擬在服務(wù)器群集中;在大數(shù)據(jù)服務(wù)器中利用Hadoop的HDFS,MapReduce,Zookeeper和HBASE高可用性核心技術(shù),有效地實(shí)現(xiàn)了中原工學(xué)院大數(shù)據(jù)教學(xué)系統(tǒng)的高可用性、可靠性,保證系統(tǒng)服務(wù)的不間斷運(yùn)行。

      關(guān)鍵詞:Hadoop;大數(shù)據(jù);教學(xué);HDFS

      隨著大數(shù)據(jù)時(shí)代的到來,大型數(shù)據(jù)集或數(shù)據(jù)的分析處理能力很快成為各大行業(yè)機(jī)構(gòu)克爭力的關(guān)鍵基礎(chǔ)。在大數(shù)據(jù)專業(yè)教學(xué)進(jìn)行過程中,各類數(shù)據(jù)的安全性及運(yùn)算能力越來越重要。大數(shù)據(jù)教學(xué)系統(tǒng)的正常運(yùn)行受到硬件故障、硬件不足等影響。Hadoop架構(gòu)具有_可靠性、商可拓展性、尚容錯(cuò)性和高效性等優(yōu)點(diǎn),采用大型分布式集群,構(gòu)建和部署數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析系統(tǒng),是大型數(shù)據(jù)的理想解決方案,可以高效管理和分析。由于Hadoop在資源管理、數(shù)據(jù)存儲(chǔ)、性能優(yōu)化、作業(yè)調(diào)度、系統(tǒng)安全性和高可用性等方面的優(yōu)勢,Hadoop技術(shù)在互聯(lián)網(wǎng)領(lǐng)域得到了廣泛的運(yùn)用[1]。

      1Hadoop核心技術(shù)概述

      1.1Hadoop簡介

      分布式系統(tǒng)是建立在網(wǎng)絡(luò)上的軟件系統(tǒng)。正是由于軟件的特性,分布式系統(tǒng)具有高度透明性。因此,分布式系統(tǒng)和網(wǎng)絡(luò)之間的區(qū)別更傾向于高層軟件(特別是操作系統(tǒng)),而不是硬件。透明性是指每個(gè)數(shù)據(jù)庫分布節(jié)點(diǎn)對(duì)于用戶的應(yīng)用來說都是透明的,看不出是本地還是遠(yuǎn)程。在分布式數(shù)據(jù)庫系統(tǒng)中,用戶感覺不到數(shù)據(jù)是分布的,即用戶不知道數(shù)據(jù)存于哪個(gè)站點(diǎn)以及事務(wù)在哪個(gè)站點(diǎn)上執(zhí)行等。

      Hadoop是分析、處理大數(shù)據(jù)的軟件平臺(tái),是一個(gè)用Java語言實(shí)現(xiàn)的隸屬于Appach的開源軟件的框架,由大量計(jì)算機(jī)組成的集群實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)進(jìn)行的分布式計(jì)算。以分布式文件系統(tǒng)(Hadoop Distributed FileSystem,HDFS)和

      MapReduce為核心的Hadoop文件系統(tǒng)為用戶提供了系統(tǒng)底層透明的分布式基礎(chǔ)架構(gòu)。

      1.2Hadoop的核心技術(shù)

      Hadoop分布式計(jì)算安裝在Linux系統(tǒng),本文介紹以Ubuntu14.04為基礎(chǔ),其核心技術(shù)通過HDFS,MapReduce等技術(shù)支持實(shí)現(xiàn),HDFS為海量數(shù)據(jù)提供存儲(chǔ),而MapReduce為海量數(shù)據(jù)提供計(jì)算。

      1.2.1HDFS分布式文件系統(tǒng)

      HDFS由1個(gè)管理結(jié)點(diǎn)(NameNode)和N個(gè)數(shù)據(jù)結(jié)點(diǎn)(DataNode)組成,每個(gè)結(jié)點(diǎn)都是一臺(tái)普通的計(jì)算機(jī),在使用操作上與人們熟悉的單機(jī)文件系統(tǒng)類似,均可以創(chuàng)建目錄,創(chuàng)建、刪除、修改、復(fù)制、查看文件內(nèi)容等。

      從HDFS觀點(diǎn)分析,集群中的服務(wù)器各盡其責(zé),通力合作,共同提供了整個(gè)文件系統(tǒng)的服務(wù)。群集服務(wù)器根據(jù)各自的任務(wù)分為主服務(wù)器NameNode和數(shù)據(jù)服務(wù)器DataNode,NameNode作為管理者,管理所有的DataNode進(jìn)行數(shù)據(jù)存儲(chǔ)、備份、組織記錄分配邏輯上的處理。簡單來說,NameNode就是運(yùn)籌帷幄、負(fù)責(zé)布局指揮將軍,具體的存儲(chǔ)、備份是由DataNode這樣的戰(zhàn)士執(zhí)行完成的。故此很多資料將HDFS的組織結(jié)構(gòu)分為master(主人)和slaver(奴隸)的關(guān)系,其實(shí)和NameNode,DataNode劃分道理是一樣的[2]。

      1.2.2MapReduce并行計(jì)算框架

      MapReduce是一個(gè)基于集群的高性能并行計(jì)算平臺(tái)。MapReduce將運(yùn)行于大規(guī)模集群上的復(fù)雜的并行計(jì)算過程高度抽象成兩個(gè)函數(shù):Map(映射)和Reduce(歸約),這是一個(gè)令人瞠目結(jié)舌的模型,該模型簡單卻又威力巨大,是Google公司的核心計(jì)算模型。MapReduce對(duì)需要處理的任務(wù)有一個(gè)基本要求:待處理的數(shù)據(jù)集可以分解為多個(gè)小的任務(wù),而且每個(gè)小任務(wù)都可以完全并行地進(jìn)行處理?;贛apReduce寫出來的程序能夠在由上千臺(tái)商用計(jì)算機(jī)組成的大型集群上運(yùn)行,并且以一種完全可靠容錯(cuò)的方式并行地處理T級(jí)別的數(shù)據(jù)集,完成了Hadoop在集群上存儲(chǔ)的數(shù)據(jù)和任務(wù)的并行計(jì)算與處理。

      從MapReduce計(jì)算模型分析,MapReduce框架和HDFS是運(yùn)行在同一組節(jié)點(diǎn)上的,這種配置允許高效的調(diào)度己經(jīng)存好數(shù)據(jù)節(jié)點(diǎn)上的任務(wù),可以提高整個(gè)集群的網(wǎng)絡(luò)寬帶的利用率。另外,在Hadoop中,參與mapreduce作業(yè)執(zhí)行任務(wù)的機(jī)器有兩個(gè)重要角色:TaskTracker,JobTracker。JobTracker(一個(gè)集群中只能有一臺(tái))是用于管理和調(diào)度工作的,TaskTracker是用于執(zhí)行工作的[3]。

      1.2.3HBase分布式存儲(chǔ)系統(tǒng)

      HBase(HadoopDatabase)是一個(gè)高性能、高可靠性、可伸縮、面向列的分布式存儲(chǔ)系統(tǒng),即使廉價(jià)PCServer利用HBase技術(shù)也可搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。

      HBase是一個(gè)面向列的、分布式的開源數(shù)據(jù)庫。與一般的關(guān)系數(shù)據(jù)庫的區(qū)別主要有兩點(diǎn):HBase基于列的而不是基于行的模式;HBase是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫。

      HBase利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng),HadoopHDFS為HBase提供了高可靠性的底層存儲(chǔ)支持;利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù),HadoopMapReduce為HBase提供了高性能的計(jì)算能力;利用Zookeeper作為協(xié)同服務(wù),ZooKeeper為HBase提供了穩(wěn)定服務(wù)和failover機(jī)制[4]。

      1.2.4ZooKeeper分布式鎖設(shè)施

      ZooKeeper是一種為分布式應(yīng)用所設(shè)計(jì)的高性能、高可用且一致的開源分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Hadoop和Hbase的重要組件,是Hadoop集群管理的一個(gè)必不可少的模塊。該軟件為分布式應(yīng)用提供一致性服務(wù)和功能,包括域名服務(wù)、配置維護(hù)、組服務(wù)、分布式同步等。主要用來解決分布式應(yīng)用中出現(xiàn)的數(shù)據(jù)管理問題,如統(tǒng)一命名服務(wù)、集群管理、分布式消息隊(duì)列、分布式配置管理、分布式協(xié)調(diào)、分布式鎖等。從性能上來說,ZooKeeper決定了它能夠運(yùn)用在大型的、分布式的系統(tǒng)當(dāng)中。從可靠性來說,它不會(huì)因?yàn)槟硞€(gè)節(jié)點(diǎn)的錯(cuò)誤而崩潰。endprint

      ZoopKeeper提供了一套分布式集群管理的機(jī)制,一種基于層次型的目錄樹的數(shù)據(jù)結(jié)構(gòu),并對(duì)樹中的節(jié)點(diǎn)進(jìn)行有效管理,進(jìn)而設(shè)計(jì)出更多的分布式的數(shù)據(jù)管理模型。ZooKeeper的終極目標(biāo)是把復(fù)雜的易出錯(cuò)的關(guān)鍵服務(wù)封裝好,以及將性能高效、功能穩(wěn)定的系統(tǒng)和簡單易用的接口提供給用戶[5]。

      2在高校教學(xué)系統(tǒng)中的應(yīng)用

      2.1中原工學(xué)院Hadoop教學(xué)系統(tǒng)的應(yīng)用現(xiàn)狀

      中原工學(xué)院的Hadoop教學(xué)系統(tǒng)通過學(xué)校部門統(tǒng)一招標(biāo)采購,部署在學(xué)校實(shí)驗(yàn)實(shí)訓(xùn)中心,由實(shí)驗(yàn)實(shí)訓(xùn)中心統(tǒng)一管理和維護(hù);原有的Hadoop系統(tǒng)單一地部署在物理計(jì)算機(jī)上,硬件利用率不高,隨著上課學(xué)生的增加,物理計(jì)算機(jī)的需求也大大增加,不能夠保證教學(xué)的正常運(yùn)行。

      隨著大數(shù)據(jù)專業(yè)招生數(shù)量的增加,學(xué)校安裝部署了大數(shù)據(jù)教學(xué)平臺(tái)。中原工學(xué)院在2017年購置了Hadoop教學(xué)系統(tǒng)云中實(shí)驗(yàn)室,利用服務(wù)器虛擬化技術(shù),在15臺(tái)服務(wù)器上虛擬出1000臺(tái)學(xué)生機(jī)教學(xué)環(huán)境Lmux系統(tǒng)。提高了服務(wù)器硬件的利用率,簡化了機(jī)房管理員的工作,保證了教學(xué)系統(tǒng)正常工作的可用性和穩(wěn)定性。

      2.2在中原工學(xué)院教學(xué)系統(tǒng)中的具體應(yīng)用

      2017年在5臺(tái)浪潮服務(wù)器和10臺(tái)寶德服務(wù)器上安裝部署Ubuntu14.04,并建立云中實(shí)驗(yàn)室系統(tǒng),云中實(shí)驗(yàn)室系統(tǒng)分為Web教師端和Web學(xué)生端。學(xué)生通過Web學(xué)生端新建多個(gè)Ubuntu系統(tǒng),在Ubuntu系統(tǒng)上搭建部署Hadoop,進(jìn)行HDFS和MapReduce等實(shí)驗(yàn)。學(xué)生通過云中實(shí)驗(yàn)室Web學(xué)生端與教師進(jìn)行互動(dòng),教師可以通過云中實(shí)驗(yàn)室Web教師端對(duì)學(xué)生的實(shí)驗(yàn)進(jìn)行查看與批改。

      2.3應(yīng)用效果

      多次測試和實(shí)際的應(yīng)用表明,Hadoop服務(wù)器群集的高可用性技術(shù)滿足了中原工學(xué)院大數(shù)據(jù)教學(xué)系統(tǒng)的正常運(yùn)行。云中實(shí)驗(yàn)室的投入也提高了物理服務(wù)器的利用率。采用高可用性功能后,大數(shù)據(jù)教學(xué)系統(tǒng)服務(wù)器中斷代價(jià)極小,能夠滿足多數(shù)教學(xué)系統(tǒng)運(yùn)行需要,為構(gòu)建高可用的高校大數(shù)據(jù)教學(xué)系統(tǒng)提供了可靠的保障。

      3結(jié)語

      利用Hadoop構(gòu)建中原工學(xué)院高可用性教學(xué)系統(tǒng)群集,將Hadoop,HDFS,MapReduce,HBASE,ZooKeeper等高

      可用性技術(shù)應(yīng)用在大數(shù)據(jù)日常教學(xué)中,保證了所有大數(shù)據(jù)教學(xué)的正常運(yùn)行和大數(shù)據(jù)教學(xué)系統(tǒng)的持續(xù)可用性和穩(wěn)定性,為高校大數(shù)據(jù)實(shí)驗(yàn)提供了堅(jiān)實(shí)的基礎(chǔ)。

      [參考文獻(xiàn)]

      [1]翟永東.Hadoop分布式文件系統(tǒng)(HDFS)可靠性的研究與優(yōu)化[D].武漢:華中科技大學(xué),2011.

      [2]郝向濤.基于Hadoop的分布式文件系統(tǒng)技術(shù)分析及應(yīng)用[D].武漢:武漢理工大學(xué),2013.

      [3]鄧自立.云計(jì)算中的網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)和Hadoop平臺(tái)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2009.

      [4]郝樹魁.HadoopHDFS和MapReduce架構(gòu)淺析[J].郵電設(shè)計(jì)技術(shù),2012(7):37-42.

      [5]肖強(qiáng),朱慶華,鄭華,等.Hadoop環(huán)境下的分布式協(xié)同過濾算法設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2013(1):83-89.endprint

      猜你喜歡
      大數(shù)據(jù)教學(xué)
      微課讓高中數(shù)學(xué)教學(xué)更高效
      甘肅教育(2020年14期)2020-09-11 07:57:50
      “自我診斷表”在高中數(shù)學(xué)教學(xué)中的應(yīng)用
      東方教育(2017年19期)2017-12-05 15:14:48
      對(duì)外漢語教學(xué)中“想”和“要”的比較
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      跨越式跳高的教學(xué)絕招
      體育師友(2013年6期)2013-03-11 18:52:18
      宝应县| 会宁县| 德惠市| 巴林左旗| 张家港市| 宜君县| 尼木县| 会泽县| 那坡县| 垣曲县| 丰城市| 通许县| 崇信县| 丰原市| 灌阳县| 玉龙| 收藏| 泽州县| 凤庆县| 三亚市| 高邑县| 江北区| 苗栗县| 延长县| 龙岩市| 正宁县| 弥渡县| 谢通门县| 沭阳县| 青浦区| 襄樊市| 柳州市| 曲松县| 浦江县| 祁阳县| 祥云县| 山东省| 漯河市| 山丹县| 龙岩市| 饶阳县|