• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Hadoop+GPU大數(shù)據(jù)平臺架構(gòu)可行性分析

      2020-04-10 10:58:09曾貞
      現(xiàn)代信息科技 2020年1期
      關(guān)鍵詞:中職計算機

      摘? 要:在信息化高速發(fā)展的時代,上海市中職計算機類課程開設(shè)與時俱進,各中職校計算機類教學(xué)資源日新月異,但由于缺乏統(tǒng)一資源庫,每個學(xué)校的教學(xué)資源包括教學(xué)案例、音視頻等數(shù)據(jù)不能共享,只能單獨存放在獨立數(shù)據(jù)庫里。研究旨在分析Hadoop+GPU的大數(shù)據(jù)平臺架構(gòu)可行性應(yīng)用,即集中存儲和挖掘上海市中職計算機課程資源。此構(gòu)架旨在匯總并挖掘中職計算機類課程資源,做到資源共享、教學(xué)資源充分利用,可以多層次多維度建立挖掘聯(lián)系。

      關(guān)鍵詞:中職計算機;Hadoop+GPU;大數(shù)據(jù)平臺架構(gòu);可行性應(yīng)用

      中圖分類號:TP311.13? ? ? 文獻標(biāo)識碼:A 文章編號:2096-4706(2020)01-0066-03

      Abstract:In the era of rapid development of information technology,computer courses in secondary vocational schools in Shanghai are advancing with the times,and computer teaching resources in each vocational school are changing with each passing day. However,due to the lack of a unified resource database,the teaching resources of each school include teaching cases,audio and video data cannot be shared and can only be stored in an independent database. The research aims to analyze the feasibility application of the big data platform architecture of Hadoop+GPU,that is,to centrally store and mine the resources of computer courses in secondary vocational schools in Shanghai. This framework aims to aggregate and mine secondary computer course resources,share resources,make full use of teaching resources,and establish mining connections at multiple levels and dimensions.

      Keywords:secondary vocational computer;Hadoop+GPU;big data platform architecture;feasibility application

      0? 引? 言

      在計算機技術(shù)飛速發(fā)展的今天,上海市中職計算機課程開設(shè)的日益繁多,各中職校計算機類教學(xué)資源也與日俱增,但每個學(xué)校的教學(xué)資源包括課件、教學(xué)案例、音視頻等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都是獨立存在的。這么多的計算機類教學(xué)資源如果能被集中載入一個大數(shù)據(jù)平臺并分門別類地存儲,形成數(shù)據(jù)集市,并進行數(shù)據(jù)挖掘,將會大大提高中職計算機類教學(xué)資源的使用度,迸發(fā)出更多的創(chuàng)新思維和創(chuàng)新想法。本文探討的就是上海市中職計算機類課程資源Hadoop+GPU的大數(shù)據(jù)平臺架構(gòu)可行性應(yīng)用分析。

      1? 構(gòu)建Hadoop+GPU大數(shù)據(jù)平臺的作用分析

      構(gòu)建Hadoop+GPU的大數(shù)據(jù)平臺的作用主要有以下兩點。

      1.1? 收集和存儲

      上海市中職計算機類教學(xué)資源數(shù)據(jù)的收集和存儲,包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)就是各中職校各系統(tǒng)數(shù)據(jù)庫中積累的各種計算機課程數(shù)據(jù),比如教案、學(xué)生分?jǐn)?shù)等;非結(jié)構(gòu)化的數(shù)據(jù)包括各類音頻、視頻、動畫、圖像等。

      1.2? 分門別類貼好標(biāo)簽建檔整理

      平臺存儲完海量數(shù)據(jù)后,可以從不同緯度不同角度建立數(shù)據(jù)集市。比如從學(xué)生視角、教師視角、學(xué)科視角來分類切片建成數(shù)據(jù)集市,在不同大數(shù)據(jù)需求分析時可以快速整合。

      Hadoop+GPU的大數(shù)據(jù)平臺架構(gòu)可以集中挖掘上海市中職計算機課程資源,并深入挖掘各資源間的聯(lián)系,做到教學(xué)資源充分利用,起到1+1>2的良好效果。

      2? Hadoop+GPU整體平臺架構(gòu)概述

      2.1? 平臺邏輯架構(gòu)

      Hadoop+GPU的大數(shù)據(jù)平臺架構(gòu)邏輯包含以下幾個組成部分,邏輯架構(gòu)圖如圖1所示。

      2.1.1? 外圍系統(tǒng)

      大數(shù)據(jù)平臺對接的上海市中職計算機類課程資源外圍系統(tǒng)包括各中職校計算機課程教學(xué)課件系統(tǒng)、音視頻系統(tǒng)、圖像資料系統(tǒng)等。

      2.1.2? Hadoop集群

      用來處理大數(shù)據(jù)平臺的所有計算機課程類資源數(shù)據(jù)遷移的工作,并且作為歷史數(shù)據(jù)的存儲,其優(yōu)點在于保證了各中職校計算機類教學(xué)資源數(shù)據(jù)的安全性,一式三份的文件塊備份,Apache Hadoop的另一個優(yōu)點就是部署簡單,容易操作。

      2.1.3? 文件服務(wù)器

      用來存儲Hadoop集群加工完成的各中職校計算機類教學(xué)資源結(jié)果數(shù)據(jù),每一份數(shù)據(jù)都包括一個數(shù)據(jù)的標(biāo)志文件,該文件記錄了表數(shù)據(jù)的行數(shù)以及存儲的大小等信息,如果下游系統(tǒng)需要數(shù)據(jù),則統(tǒng)一到文件服務(wù)器上獲取,保證了統(tǒng)一的數(shù)據(jù)出口。

      2.2? Hadoop節(jié)點架構(gòu)概述

      Apache Hadoop是一款支持?jǐn)?shù)據(jù)密集型分布式應(yīng)用并以Apache 2.0許可協(xié)議發(fā)布的開源軟件框架。支持在商品硬件構(gòu)建的大型集群上運行的應(yīng)用程序。Hadoop是根據(jù)Google公司發(fā)表的MapReduce和Google檔案系統(tǒng)的論文自行實作而成。

      Hadoop框架透明地為應(yīng)用提供可靠性和數(shù)據(jù)移動,實現(xiàn)了名為MapReduce的編程范式:應(yīng)用程序被分割成許多小部分,而每個部分都能在集群中的任意節(jié)點上執(zhí)行或重新執(zhí)行。此外,Hadoop還提供了分布式文件系統(tǒng),用以存儲所有計算節(jié)點的數(shù)據(jù),這為整個集群帶來了非常高的帶寬。MapReduce和分布式文件系統(tǒng)的設(shè)計,使得整個框架能夠自動處理節(jié)點故障,能使應(yīng)用程序與成千上萬的獨立計算的電腦和PB級的數(shù)據(jù)很好地存儲、查詢和分析計算機課程類資源數(shù)據(jù)。

      2.2.1? Hadoop在整體架構(gòu)中的功能

      (1)數(shù)據(jù)存儲。Apache Hadoop的底層HDFS分布式文件系統(tǒng)用來存儲上海市中職計算機類課程資源外圍系統(tǒng)的增量數(shù)據(jù)和歷史數(shù)據(jù);

      (2)數(shù)據(jù)加工。數(shù)據(jù)倉庫移植的所有程序,包括SQL、Shell和存儲過程的程序加工都是通過Hadoop來進行加工的;

      (3)邏輯架構(gòu)。Hadoop架構(gòu)的內(nèi)部邏輯架構(gòu)如圖2所示。

      2.2.2? 各組件的功能描述

      (1)NameNode。Hadoop集群的心臟,保存著所有計算機課程類資源數(shù)據(jù)的元數(shù)據(jù)序列結(jié)構(gòu),并且管理所有節(jié)點的運行狀態(tài),接收DataNode的心跳,判斷節(jié)點是否運行正常;

      (2)Secondary NameNode。輔助名稱節(jié)點,或者檢查點節(jié)點,是監(jiān)控HDFS狀態(tài)的輔助后臺程序,可以保存名稱節(jié)點的副本,故每個集群都有一個,與NameNode進行通訊,定期保存HDFS元數(shù)據(jù)快照;

      (3)DataNode。數(shù)據(jù)節(jié)點,每臺從服務(wù)器節(jié)點都運行一個,負(fù)責(zé)把HDFS數(shù)據(jù)塊讀、寫到本地文件系統(tǒng);

      (4)JobTracker。作業(yè)跟蹤器,運行到主節(jié)點(Name Node)上的一個很重要的進程,是MapReduce體系的調(diào)度器。用于處理作業(yè)(用戶提交的代碼)的后臺程序,決定有哪些文件參與作業(yè)的處理,然后把作業(yè)切割成為一個個的小task,并分配到所需要的數(shù)據(jù)所在的子節(jié)點。

      (5)TaskTracker。任務(wù)跟蹤器,MapReduce體系的最后一個后臺進程,位于每個slave節(jié)點上,與DataNode結(jié)合(代碼與數(shù)據(jù)一起的原則),管理各自節(jié)點上的Task(由JobTracker分配),每個節(jié)點只有一個TaskTracker,但一個TaskTracker可以啟動多個JVM,用于并行執(zhí)行Map任務(wù)或Reduce任務(wù),它與JobTracker交互通信,可以告知JobTracker子任務(wù)完成情況,是集群不可或缺的組成部分。

      2.3? 對外服務(wù)

      平臺對接的外圍系統(tǒng)可以通過JDBC或者ODBC鏈接文件服務(wù)器,根據(jù)表數(shù)據(jù)的標(biāo)志文件,獲取文件服務(wù)器上的數(shù)據(jù)文件,F(xiàn)TP到下游系統(tǒng),供給前臺功能查詢。

      2.4? 整體數(shù)據(jù)流程

      根據(jù)大數(shù)據(jù)平臺的需求概述,計算機課程類資源數(shù)據(jù)的生命周期分為:捕獲數(shù)據(jù)、數(shù)據(jù)的存儲加工、數(shù)據(jù)提供服務(wù)三大塊。

      2.4.1? 捕獲數(shù)據(jù)

      外圍系統(tǒng)數(shù)據(jù)經(jīng)過CDC或者DS工具,將表級的增量數(shù)據(jù)獲取到文件服務(wù)器上,Hadoop集群根據(jù)每個表的標(biāo)志文件獲取數(shù)據(jù),并將增量的數(shù)據(jù)文件裝載到Hadoop-Hive的數(shù)據(jù)庫里,并且進行數(shù)據(jù)文件的基本校驗,捕獲數(shù)據(jù)圖如圖3所示。

      2.4.2? 數(shù)據(jù)存儲加工

      計算機課程類資源數(shù)據(jù)的整體加工是在Hadoop集群中進行的,具體的加工是依賴于Hive的批處理作業(yè)的功能來實現(xiàn)整體大數(shù)據(jù)平臺的作業(yè)開發(fā),包括以下幾點:

      (1)HDFS數(shù)據(jù)存儲。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用;

      (2)ZooKeeper。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶;

      (3)YARN。Apache Hadoop YARN(Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者)是一種新的Hadoop資源管理器,是一個通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度以及數(shù)據(jù)共享;

      (4)MapReduce。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1 TB)的并行運算;

      (5)Hive。Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。

      2.4.3? 數(shù)據(jù)提供服務(wù)

      整體計算機課程類資源數(shù)據(jù)的對外服務(wù)流程數(shù)據(jù)提供服務(wù)圖如圖4所示,Hadoop集群通過Hive加工完成的數(shù)據(jù),通過FTP將數(shù)據(jù)以文本文件的格式存放到文件服務(wù)器中,下游系統(tǒng)根據(jù)各自的業(yè)務(wù)需要,通過判斷文件服務(wù)器上表的標(biāo)志文件進行數(shù)據(jù)的獲取,這樣就可以將數(shù)據(jù)服務(wù)統(tǒng)一化、格式統(tǒng)一化、服務(wù)標(biāo)準(zhǔn)統(tǒng)一化。

      3? 結(jié)? 論

      上海市中職計算機類課程資源Hadoop+GPU的大數(shù)據(jù)平臺架構(gòu)非常具有可行性,海量的計算機類教學(xué)資源能被集中載入平臺存儲,形成數(shù)據(jù)集市,可以進行深度的數(shù)據(jù)挖掘,會大大提高中職計算機類教學(xué)資源的使用度。

      在Hadoop+GPU的大數(shù)據(jù)平臺上可以形成各種維度的數(shù)據(jù)檢索資料庫,可以對結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進行分析,通過大數(shù)據(jù)抓取、數(shù)據(jù)挖掘、數(shù)據(jù)建模等技術(shù),通過時間維度,課程質(zhì)量維度等可以做課程教學(xué)質(zhì)量評估、學(xué)生受歡迎程度等各種科研分析。

      參考文獻:

      [1] 劉彬斌,李柏章,周磊,等.Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版) [M].北京:清華大學(xué)出版社,2018:1-30.

      [2] 黃東軍.Hadoop大數(shù)據(jù)實戰(zhàn)權(quán)威指南 [M].北京:電子工業(yè)出版社,2017:1-10.

      [3] 山姆·阿拉帕蒂.Hadoop專家:管理、調(diào)優(yōu)與Spark |YARN|HDFS安全 [M].北京:電子工業(yè)出版社,2019:5-10.

      [4] 楊力.Hadoop大數(shù)據(jù)開發(fā)實戰(zhàn) [M].北京:人民郵電出版社,2019:1-20.

      作者簡介:曾貞(1982.06-),女,漢族,江西玉山人,講師,碩士,研究方向:新媒體大數(shù)據(jù)。

      猜你喜歡
      中職計算機
      分層教學(xué)法在中職計算機教學(xué)中的應(yīng)用
      微課模式下中職計算機基礎(chǔ)課程教學(xué)的生成之道
      微課在中職計算機基礎(chǔ)教學(xué)中的應(yīng)用
      論創(chuàng)新教育與職校計算機教學(xué)
      淺談如何提高中職學(xué)生學(xué)習(xí)《計算機應(yīng)用基礎(chǔ)》的興趣
      淺議中職計算機教學(xué)“準(zhǔn)、精、特、趣”的四大追求
      考試周刊(2016年85期)2016-11-11 01:56:12
      正定县| 灵璧县| 建德市| 靖西县| 苍梧县| 武威市| 太原市| 彭阳县| 淮滨县| 南靖县| 甘谷县| 天水市| 安国市| 盈江县| 太仆寺旗| 吐鲁番市| 理塘县| 报价| 扶风县| 永修县| 南陵县| 平利县| 双峰县| 阳新县| 柏乡县| 河曲县| 灵川县| 古浪县| 社旗县| 安龙县| 铁力市| 丰县| 文成县| 谷城县| 年辖:市辖区| 富顺县| 延庆县| 岳池县| 进贤县| 玛曲县| 长丰县|