陳鳳妹
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等應(yīng)用的快速發(fā)展,傳統(tǒng)教育基礎(chǔ)設(shè)施存在安全性低、配置復(fù)雜、升級(jí)成本高等一系列問(wèn)題,數(shù)據(jù)的集中管理和維護(hù)變得困難,對(duì)組建新的基于云計(jì)算的教育信息化基礎(chǔ)設(shè)施提出新要求——進(jìn)一步建立教育信息化公共服務(wù)平臺(tái)。隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,其在社會(huì)各個(gè)領(lǐng)域中得到了廣泛的應(yīng)用,主要用于數(shù)據(jù)分析和處理,這樣不僅可以滿足時(shí)代發(fā)展需求,而且還可以更好的推動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展。
國(guó)務(wù)院常務(wù)會(huì)議于2015年通過(guò)了《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,其中明確提出:“創(chuàng)新人才培養(yǎng)模式,建立健全多層次、多類(lèi)型的大數(shù)據(jù)人才培養(yǎng)體系 ”,強(qiáng)調(diào)了大數(shù)據(jù)這一基礎(chǔ)性戰(zhàn)略資料的重要性,教育部高等教育司也于 2016年面向高職院校的專(zhuān)業(yè)設(shè)置中增加了“大數(shù)據(jù)技術(shù)與應(yīng)用”專(zhuān)業(yè)。為此,一些高校也設(shè)置了大數(shù)據(jù)的相關(guān)專(zhuān)業(yè),在一定程度上推動(dòng)了大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。由于大數(shù)據(jù)專(zhuān)業(yè)屬于時(shí)代發(fā)展的新型專(zhuān)業(yè),雖然一些高校已經(jīng)開(kāi)設(shè)了該專(zhuān)業(yè),并對(duì)其進(jìn)行了不斷的摸索和創(chuàng)新,但是缺乏可供直接借鑒和套用的模式。因此,本文將會(huì)立足于大數(shù)據(jù)人才培養(yǎng)要求和社會(huì)人才需求,結(jié)合硅湖職業(yè)技術(shù)學(xué)院大數(shù)據(jù)相關(guān)課程和大數(shù)據(jù)實(shí)驗(yàn)室來(lái)對(duì)大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)建設(shè)與應(yīng)用情況進(jìn)行分析和探究。
一、大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)設(shè)計(jì)
(一)大數(shù)據(jù)處理平臺(tái)
Apache開(kāi)發(fā)的 Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu),能夠?yàn)檎麄€(gè)實(shí)訓(xùn)平臺(tái)提供所需要的數(shù)據(jù)支持。該處理平臺(tái)除了提供包括分布式文件系統(tǒng)和分布式計(jì)算框架MapReduce。HDFS和MapReduce分別為海量數(shù)據(jù)提高數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)技術(shù),實(shí)現(xiàn)了計(jì)算與存儲(chǔ)的高度耦合。伴隨Hadoop項(xiàng)目結(jié)構(gòu)的不斷發(fā)展,逐漸形成了一個(gè)豐富的Hadoop生態(tài)系統(tǒng),主要有:安裝部署工具Ambari、作業(yè)流調(diào)度系統(tǒng)Oozie、數(shù)據(jù)倉(cāng)庫(kù)Hive、內(nèi)存計(jì)算Spark、資源調(diào)度管理框架YARN、數(shù)據(jù)庫(kù)TEL工具 Sqoop、分布式海量日志分析工具Flume、分布式協(xié)調(diào)服務(wù)Zookeeper、分布式數(shù)據(jù)庫(kù)HBase、分布式文件存儲(chǔ)系統(tǒng)HDFS、離線計(jì)算MapReduce、DAG計(jì)算Tez、等主流組件。為了確保實(shí)訓(xùn)工作的順利進(jìn)行,并能夠從大量無(wú)序的海量數(shù)據(jù)中更準(zhǔn)確、更穩(wěn)定、更快速、更可靠地挖掘有價(jià)值的信息,則需要在易管理性、安全性、高可用性等領(lǐng)域來(lái)進(jìn)一步優(yōu)化大數(shù)據(jù)處理平臺(tái)。
(二)在線教學(xué)管理平臺(tái)
該平臺(tái)對(duì)現(xiàn)有在線學(xué)習(xí)系統(tǒng)的功能進(jìn)行了借鑒和引用,并選擇了B/S架構(gòu),從而實(shí)現(xiàn)對(duì)實(shí)訓(xùn)教材、教學(xué)課程、教學(xué)資源庫(kù)等開(kāi)展訪問(wèn)授權(quán)和集中管理。同時(shí),也增設(shè)了在線測(cè)試、在線評(píng)估等輔助功能,從而使教學(xué)質(zhì)量得到有效提升。
(三)云件服務(wù)平臺(tái)
在大數(shù)據(jù)領(lǐng)域,云計(jì)算技術(shù)屬于一項(xiàng)關(guān)鍵技術(shù)手段。該平臺(tái)可以借助互聯(lián)網(wǎng)技術(shù)來(lái)為用戶(hù)提供云端服務(wù),與傳統(tǒng)郵箱、網(wǎng)盤(pán)和在線辦公等軟件進(jìn)行對(duì)比發(fā)現(xiàn),云服務(wù)平臺(tái)不僅對(duì)桌面軟件進(jìn)行了改造,而且本地軟硬件需要依賴(lài)于大量的計(jì)算支持。實(shí)際上,云服務(wù)平臺(tái)也是一種SaaS的服務(wù)方式,其通常將終端的運(yùn)行環(huán)境和操作系統(tǒng)遷移到云端。并借助統(tǒng)一的交互平臺(tái)來(lái)確保交互功能的順利實(shí)現(xiàn)。同時(shí),云服務(wù)平臺(tái)還能夠像在線互動(dòng)教學(xué)平臺(tái)一樣,借助虛擬教學(xué)桌面來(lái)為廣大師生提供在線測(cè)試、資源共享、分組討論等功能,從而確保課堂教學(xué)活動(dòng)的順利進(jìn)行,有效提高教學(xué)質(zhì)量;虛擬實(shí)驗(yàn)桌面還可以為師生提供實(shí)驗(yàn)應(yīng)用環(huán)境和Hadoop部署環(huán)境,以確保大數(shù)據(jù)基礎(chǔ)理論教學(xué)和實(shí)訓(xùn)工作的順利進(jìn)行。
(四)虛擬化實(shí)訓(xùn)平臺(tái)
通常情況下,大數(shù)據(jù)技術(shù)需要依賴(lài)于虛擬化技術(shù)的支撐,并且在開(kāi)展實(shí)訓(xùn)操作階段,各類(lèi)大數(shù)據(jù)組件的數(shù)據(jù)分析、安裝部署等操作都是在虛擬機(jī)上開(kāi)展的,該平臺(tái)可以提供虛擬化網(wǎng)絡(luò)環(huán)境設(shè)置、虛擬機(jī)的創(chuàng)建與配置、存儲(chǔ)資源分配等管理功能,以確保實(shí)訓(xùn)人員能夠順利的完成實(shí)訓(xùn)操作。
(五)算法建模平臺(tái)
數(shù)據(jù)可視化建模和大數(shù)據(jù)分析一般是大數(shù)據(jù)技術(shù)具體應(yīng)用的直接表現(xiàn)。數(shù)據(jù)可視化的主要工具有:Excel、SPSS、Tableau。算法建模分析平臺(tái)集數(shù)據(jù)可視化建模功能和大數(shù)據(jù)分析功能為一體,并支持典型的數(shù)據(jù)分析算法,以確保實(shí)訓(xùn)人員能夠直接通過(guò)以拖拽方式、圖形化組件等方式搭建數(shù)據(jù)分析模型,使大數(shù)據(jù)建模難度有效降低。
(六)教師、學(xué)生和管理員用戶(hù)平臺(tái)
教師端。包括:實(shí)訓(xùn)課程內(nèi)容、實(shí)訓(xùn)管理、管理學(xué)生、查看學(xué)生算法、成績(jī)管理、上傳實(shí)訓(xùn)文件、實(shí)訓(xùn)報(bào)告管理。教師可以登錄教師用戶(hù)平臺(tái),來(lái)查看實(shí)訓(xùn)課程、系統(tǒng)運(yùn)行環(huán)境及實(shí)訓(xùn)內(nèi)容。課程管理涉及到一系列的基礎(chǔ)課程,此時(shí)教師就可以根據(jù)實(shí)際情況來(lái)篩選課程內(nèi)容,以確保課堂教學(xué)活動(dòng)的順利進(jìn)行;同時(shí),教師還可以借助課程內(nèi)容管理模塊,來(lái)編輯和管理課程知識(shí)點(diǎn)內(nèi)容,并做好課程的拓展和維護(hù)管理工作。
學(xué)生端。包括:查看和閱讀實(shí)訓(xùn)指導(dǎo)書(shū)、算法和實(shí)訓(xùn)報(bào)告提交、算法對(duì)比和算法演示分析、修改學(xué)生個(gè)人信息、查看成績(jī)。通過(guò)登陸賬號(hào),學(xué)生可以查看與本人相關(guān)的課程情況,并完成對(duì)相關(guān)課程的學(xué)習(xí)。課程一般包含實(shí)訓(xùn)系統(tǒng)、實(shí)訓(xùn)指導(dǎo)書(shū)及實(shí)訓(xùn)成果等相關(guān)內(nèi)容;進(jìn)入實(shí)訓(xùn)菜單,能夠?qū)?shí)訓(xùn)文檔、實(shí)訓(xùn)手冊(cè)填寫(xiě)情況、實(shí)訓(xùn)的視頻文件進(jìn)行查看;實(shí)訓(xùn)報(bào)告提交后,也可查看到任課老師的具體評(píng)分及實(shí)訓(xùn)筆記等情況。
管理員用戶(hù)平臺(tái)。包括:學(xué)習(xí)資源、運(yùn)算節(jié)點(diǎn)的管理、學(xué)生計(jì)算作業(yè)、查看具體進(jìn)度進(jìn)展、強(qiáng)制關(guān)閉系統(tǒng)。通常情況下,管理員在登錄管理員平臺(tái)后,能夠查看課程、內(nèi)容、賬戶(hù)、系統(tǒng)等選項(xiàng)。系統(tǒng)管理模塊通??梢圆榭催\(yùn)行設(shè)備、檢測(cè)系統(tǒng)、容器環(huán)境等的狀態(tài);內(nèi)容管理模塊通常是對(duì)教師和系統(tǒng)提供的內(nèi)容進(jìn)行管理與維護(hù);課程管理模塊通常是對(duì)基礎(chǔ)和拓展內(nèi)容進(jìn)行管理與維護(hù);用戶(hù)管理模塊通常是對(duì)學(xué)生和教師的賬號(hào)進(jìn)行管理。
二、大數(shù)據(jù)技術(shù)
(一)大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)
在數(shù)據(jù)庫(kù)非共享集群中,任何一個(gè)節(jié)點(diǎn)都有獨(dú)立的內(nèi)存系統(tǒng)和磁盤(pán)存儲(chǔ)系統(tǒng),根據(jù)應(yīng)用特點(diǎn)和數(shù)據(jù)庫(kù)模型可以把業(yè)務(wù)數(shù)據(jù)劃分到各個(gè)節(jié)點(diǎn)上,并借助商業(yè)通用網(wǎng)絡(luò)或?qū)S镁W(wǎng)絡(luò)實(shí)現(xiàn)每臺(tái)數(shù)據(jù)節(jié)點(diǎn)的互相連接和彼此協(xié)同計(jì)算。實(shí)際上,非共享數(shù)據(jù)庫(kù)集群具有高可用、高性能、可伸縮性、資源共享、優(yōu)秀的性?xún)r(jià)比等優(yōu)勢(shì)。在MPP中,數(shù)據(jù)加載可以并列運(yùn)行,并保證所有節(jié)點(diǎn)能夠同時(shí)對(duì)數(shù)據(jù)進(jìn)行讀取,并根據(jù)散列算法,來(lái)獲取自己所需要的數(shù)據(jù)信息,然后以網(wǎng)絡(luò)的方式把節(jié)點(diǎn)數(shù)據(jù)傳輸給目標(biāo)節(jié)點(diǎn),從而實(shí)現(xiàn)對(duì)高速數(shù)據(jù)的有效加載。
(二)分布式數(shù)據(jù)挖掘(DDM)
在20世紀(jì)90年代后期DDM開(kāi)始被人所關(guān)注,其一般是借助分布式計(jì)算機(jī)來(lái)對(duì)分布式數(shù)據(jù)資源進(jìn)行有效的挖掘,并對(duì)局部結(jié)果進(jìn)行整合。通常情況下,DDM的實(shí)施并非都以站點(diǎn)間純粹獨(dú)立挖掘方式為主,如果某個(gè)(些)站點(diǎn)的計(jì)算、存儲(chǔ)和通信能力比較強(qiáng)時(shí),能夠?qū)ζ渌军c(diǎn)的數(shù)據(jù)資源進(jìn)行有效的匯聚,從而形成“局部集中、全局分布”挖掘方式。同時(shí),DDM中的數(shù)據(jù)并非全部來(lái)自于分布式數(shù)據(jù)源,對(duì)于既擁有分布式站點(diǎn),又擁有海量集中數(shù)據(jù)的組織而言,其能夠把數(shù)據(jù)分散到各站點(diǎn),并借助站點(diǎn)資源來(lái)開(kāi)展分布式挖掘,從而有效提高數(shù)據(jù)的挖掘效率。
三、大數(shù)據(jù)技術(shù)分析工具
(一)R語(yǔ)言
R語(yǔ)言是一個(gè)用于數(shù)據(jù)處理、統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具,具有卓越的作圖功能的軟件系統(tǒng)。是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開(kāi)放的軟件系統(tǒng)。對(duì)于R語(yǔ)言而言,其具有比較強(qiáng)大的統(tǒng)計(jì)分析功能,可以更好的滿足大數(shù)據(jù)處理環(huán)境。通常情況下,語(yǔ)言一般是以R軟件包的方式來(lái)對(duì)統(tǒng)計(jì)分析和數(shù)學(xué)計(jì)算工具進(jìn)行發(fā)布,以確保開(kāi)發(fā)者可以在開(kāi)放環(huán)境中對(duì)各類(lèi)數(shù)據(jù)進(jìn)行靈活地處理,并結(jié)合用戶(hù)特點(diǎn)來(lái)構(gòu)建統(tǒng)計(jì)計(jì)算模型,以確保數(shù)據(jù)處理工作的順利進(jìn)行。例如在 Hadoop中,通過(guò)對(duì)TB和PB量級(jí)數(shù)據(jù)的處理,能夠得到GB量級(jí)數(shù)據(jù),其可通過(guò)MapReduce處理,將被縮小后的數(shù)據(jù)再放在R語(yǔ)言中利用信息傳遞接口MPI進(jìn)行計(jì)算處理,大大提高了數(shù)據(jù)處理的效率。
(二)Python語(yǔ)言
Python是一種完全面向?qū)ο蟮恼Z(yǔ)言。任何計(jì)算機(jī)編程語(yǔ)言都有其相對(duì)比較適用的領(lǐng)域,例如,R語(yǔ)言在數(shù)據(jù)分析與制圖領(lǐng)域廣泛應(yīng)用,Java在系統(tǒng)開(kāi)發(fā)領(lǐng)域廣泛應(yīng)用,Matlab在數(shù)值計(jì)算及矩陣運(yùn)算領(lǐng)域廣泛應(yīng)用,Python語(yǔ)言在大數(shù)據(jù)的策略分析領(lǐng)域廣泛應(yīng)用。其中,Python語(yǔ)言也包含了R語(yǔ)言所具備的數(shù)據(jù)挖掘功能,在進(jìn)行大規(guī)模數(shù)據(jù)處理過(guò)程中發(fā)揮著重要的作用。為了更好的方便于更多的人員能夠使用大數(shù)據(jù)支撐平臺(tái),Python還融入了Jupyter開(kāi)發(fā)環(huán)境,此時(shí)可以借助Jupyterlab編寫(xiě)Python代碼,進(jìn)而實(shí)現(xiàn)與大數(shù)據(jù)平臺(tái)的有效交互,完成對(duì)復(fù)雜大數(shù)據(jù)的系統(tǒng)分析。此外,Python語(yǔ)言還能夠有效的集成Fortran、C/C++語(yǔ)言的代碼,并對(duì)其應(yīng)用功能進(jìn)行了有效的擴(kuò)展。
(三)Spark
Spark是通過(guò)Scala語(yǔ)言實(shí)現(xiàn)的,Scala語(yǔ)言是能夠像操作本地集合對(duì)象一樣輕松地操作的分布式數(shù)據(jù)集,是一種面向?qū)ο?、函?shù)式編程語(yǔ)言。Spark是向無(wú)環(huán)圖DAG執(zhí)行引擎,以支持循環(huán)數(shù)據(jù)流與內(nèi)存計(jì)算。它在內(nèi)存中處理數(shù)據(jù)的速度相較于MapReduce快大約100倍,它在磁盤(pán)中處理數(shù)據(jù)的速度相較于MapReduce快大約10倍。
Spark不僅支持Scala編寫(xiě)應(yīng)用程序,而且支持Java、Scala、Python、R、SQL。它提供了80多種高級(jí)特性用于交互式并行計(jì)算。
S p a r k可以運(yùn)行在多個(gè)地方,例如可以運(yùn)行在 Hadoop的Yarn上、Apache Mesos上、Kubernetes上、standalone或云上。Spark還可以訪問(wèn)多個(gè)數(shù)據(jù)源,比如:HDFS、Cassandra、HBase、Hive等數(shù)百個(gè)其他數(shù)據(jù)源中的數(shù)據(jù)。
四、結(jié)語(yǔ)
總之,隨著物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)等科學(xué)技術(shù)的發(fā)展,有效的推動(dòng)了教育信息化建設(shè)的發(fā)展,而大數(shù)據(jù)技術(shù)實(shí)訓(xùn)平臺(tái)的建設(shè),充分利用了在線學(xué)習(xí)平臺(tái)的應(yīng)用功能,將大數(shù)據(jù)實(shí)訓(xùn)的各個(gè)環(huán)節(jié)連接到一起,使得大數(shù)據(jù)實(shí)訓(xùn)服務(wù)變得更方便便捷,隨時(shí)隨地可用、迅速啟動(dòng)和完成。有利于提高學(xué)生專(zhuān)業(yè)素質(zhì)和就業(yè)技能,培養(yǎng)立足社會(huì)需求的大數(shù)據(jù)人才,達(dá)成良好的社會(huì)經(jīng)濟(jì)效益等。