• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Hadoop的課程診改大數(shù)據(jù)可視化分析研究與應(yīng)用

    2023-09-21 18:03:06陳俊生彭莉芬
    關(guān)鍵詞:可視化分析大數(shù)據(jù)

    陳俊生 彭莉芬

    摘? 要:針對(duì)職業(yè)院校課程診改的時(shí)效性和準(zhǔn)確性需求,基于Hadoop平臺(tái)并綜合運(yùn)用Scrapy爬蟲框架、Echarts可視化工具等設(shè)計(jì)大數(shù)據(jù)可視化分析系統(tǒng),以實(shí)現(xiàn)異源異構(gòu)課程診改大數(shù)據(jù)的快速采集、預(yù)處理、存儲(chǔ)、分析、挖掘和可視化展示??梢暬治鼋Y(jié)果以圖、表等方式向用戶展示課程診改大數(shù)據(jù)背后的關(guān)鍵信息和有用知識(shí),為教學(xué)管理部門和教學(xué)團(tuán)隊(duì)改進(jìn)課程教學(xué)提供支持。

    關(guān)鍵詞:Hadoop;課程診改;大數(shù)據(jù);可視化分析

    中圖分類號(hào):G712? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2096-3769(2023)03-053-06

    在大數(shù)據(jù)無(wú)處不在的今天,包括制造、金融、汽車、互聯(lián)網(wǎng)、餐飲、電信、能源、物流、體育、娛樂(lè)和教育等在內(nèi)的社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)[1]。大數(shù)據(jù)由于具有體量大、數(shù)據(jù)類型繁多等特點(diǎn),傳統(tǒng)的數(shù)據(jù)采集、處理和分析方法已經(jīng)遇到了相應(yīng)瓶頸,需要借助于功能更加強(qiáng)大的大數(shù)據(jù)處理平臺(tái)。其中,Hadoop是最受關(guān)注且被運(yùn)用最多的一種,幾乎所有主流廠商都基于Hadoop提供開發(fā)工具、商業(yè)化工具和技術(shù)服務(wù)等,如谷歌、雅虎、微軟、思科、淘寶和騰訊等都支持Hadoop[2]。隨著大數(shù)據(jù)分析處理技術(shù)的快速發(fā)展,大數(shù)據(jù)正在對(duì)社會(huì)發(fā)展產(chǎn)生深遠(yuǎn)的影響,大數(shù)據(jù)決策也正在成為一種新的決策方式[3],因此如何對(duì)分析結(jié)果進(jìn)行直觀有效和科學(xué)合理的展示就顯得尤為重要。大數(shù)據(jù)可視化分析是指用簡(jiǎn)單明了、清晰有效的圖形或動(dòng)畫等呈現(xiàn)出大數(shù)據(jù)中蘊(yùn)含的信息,便于從中提煉出最為重要及關(guān)鍵的信息,獲取最為有用的知識(shí)與價(jià)值,是理解和洞察大數(shù)據(jù)本質(zhì)(seetheunseen)的重要途徑,也是體現(xiàn)大數(shù)據(jù)價(jià)值的關(guān)鍵[4],近年來(lái)正在成為大數(shù)據(jù)分析領(lǐng)域的研究熱點(diǎn)之一。

    課程教學(xué)作為職業(yè)院校人才培養(yǎng)的關(guān)鍵環(huán)節(jié),直接影響著人才培養(yǎng)的質(zhì)量。在職業(yè)院校全面推進(jìn)教學(xué)診改的大背景下,課程診改以課程建設(shè)為統(tǒng)領(lǐng),以提高課程教學(xué)質(zhì)量為目標(biāo),按照事前、事中、事后三個(gè)環(huán)節(jié)實(shí)施。事前設(shè)定目標(biāo)和標(biāo)準(zhǔn),事中進(jìn)行監(jiān)測(cè)預(yù)警,事后診斷與改進(jìn)[5]。目前,絕大部分職業(yè)院校在事前的目標(biāo)和標(biāo)準(zhǔn)設(shè)定方面都較為完善,但事中如何進(jìn)行準(zhǔn)確監(jiān)測(cè)預(yù)警,事后如何進(jìn)行科學(xué)合理的診斷與改進(jìn),卻缺乏足夠的數(shù)據(jù)支撐和有效的數(shù)據(jù)分析手段,仍然存在診斷與改進(jìn)不及時(shí)和不到位的情況。鑒于此,研究如何基于Hadoop平臺(tái)實(shí)現(xiàn)課程診改大數(shù)據(jù)的可視化分析,可幫助學(xué)校教學(xué)管理部門和教學(xué)團(tuán)隊(duì)做出科學(xué)合理的課程診改決策,提升課程教學(xué)質(zhì)量。

    一、大數(shù)據(jù)可視化分析的關(guān)鍵技術(shù)

    (一)大數(shù)據(jù)采集技術(shù)

    大數(shù)據(jù)具有體量大、數(shù)據(jù)類型繁多和產(chǎn)生速度快等特點(diǎn),因此如何進(jìn)行海量異源異構(gòu)數(shù)據(jù)的快速采集是大數(shù)據(jù)可視化分析的基礎(chǔ),也是大數(shù)據(jù)可視化分析技術(shù)的研究起點(diǎn)。在互聯(lián)網(wǎng)行業(yè)快速發(fā)展的今天,數(shù)據(jù)采集方式有了質(zhì)的飛躍,包括傳感器采集、日志采集、網(wǎng)絡(luò)爬蟲采集和數(shù)據(jù)庫(kù)采集等[6]。其中網(wǎng)絡(luò)爬蟲采集指的是在網(wǎng)上到處或者定向抓取特定網(wǎng)站網(wǎng)頁(yè)數(shù)據(jù)的自動(dòng)化程序,由于其使用靈活且可以高度定制,還支持非結(jié)構(gòu)化數(shù)據(jù)的抽取,所以在數(shù)據(jù)采集領(lǐng)域被廣泛使用。

    網(wǎng)絡(luò)爬蟲可以通過(guò)Python、Java和PHP等多種語(yǔ)言實(shí)現(xiàn),由于有強(qiáng)大的第三方程序庫(kù)的支持,其中以Python實(shí)現(xiàn)最為便捷。Scrapy是用純Python編寫的專門用于爬蟲程序開發(fā)的應(yīng)用框架,由多個(gè)模塊組成,用戶一般只需要開發(fā)少數(shù)幾個(gè)模塊就可以輕松實(shí)現(xiàn)相關(guān)主題的爬蟲。Scrapy框架各模塊的功能和使用需求如表1所示。

    Scrapy 框架雖然使用簡(jiǎn)單、高效,但也存在不足,例如,Scrapy框架下的爬蟲不支持分布式、單線程執(zhí)行、內(nèi)存消耗過(guò)大等,因此深入理解 Scrapy 框架的擴(kuò)展機(jī)制,通過(guò)改進(jìn)和擴(kuò)展框架中的一些模塊來(lái)彌補(bǔ)其不足是十分必要的[7]。

    (二)基于Hadoop的大數(shù)據(jù)分析處理技術(shù)

    Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布計(jì)算平臺(tái),為用戶提供系統(tǒng)的底層細(xì)節(jié)透明的分布式基礎(chǔ)框架,具有良好的跨平臺(tái)性,且可以部署在廉價(jià)的計(jì)算機(jī)集群中,目前被公認(rèn)為大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件[8],其與大數(shù)據(jù)分析處理相關(guān)的核心組件如下:(1)分布式文件系統(tǒng)(HDFS)和MapReduce是Hadoop的兩大核心,HDFS是對(duì)谷歌文件系統(tǒng)的開源。HDFS可運(yùn)行在廉價(jià)機(jī)器集群上且可以處理超大數(shù)據(jù)集,在設(shè)計(jì)上HDFS把硬件故障作為一種常態(tài)來(lái)考慮,因此在部分硬件發(fā)生故障時(shí),仍能最大限度地保證文件系統(tǒng)的可用性和可靠性;MapReduce是一種大數(shù)據(jù)集離線并行計(jì)算框架,其核心思想就是“分而治之”,它把原始數(shù)據(jù)集切分成若干個(gè)獨(dú)立的數(shù)據(jù)塊,再分發(fā)給若干個(gè)子節(jié)點(diǎn)來(lái)并行處理,最后通過(guò)整合各子節(jié)點(diǎn)的結(jié)果得到最終結(jié)果。(2)HBase是一個(gè)構(gòu)建在Hadoop之上的分布式的、面向列的開源數(shù)據(jù)庫(kù),HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)非常適合對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)的數(shù)據(jù)庫(kù)。(3)Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,它提供了類似于關(guān)系型數(shù)據(jù)庫(kù)SQL的查詢—HiveQL,Hive將HiveQL轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行,而不必開發(fā)專門的MapReduce應(yīng)用,因此十分適合對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。(4)Sqoop是專門為大數(shù)據(jù)集設(shè)計(jì)的,是用來(lái)在Hadoop和各種數(shù)據(jù)系統(tǒng)之間進(jìn)行雙向數(shù)據(jù)交換的工具,通過(guò)Sqoop可以實(shí)現(xiàn)在HDFS、Hive、HBase和關(guān)系型數(shù)據(jù)庫(kù)之間的數(shù)據(jù)遷移工作。

    (三)數(shù)據(jù)可視化技術(shù)

    隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,可視化展示的應(yīng)用需求越來(lái)越多,各種可視化展示工具也應(yīng)運(yùn)而生,常見的數(shù)據(jù)可視化工具包括D3.js、Data.js、Google Chart Tools、High Charts、Echarts、iCharts、R、Tableau和Python(如pyplot包)等[9]。其中ECharts是由百度團(tuán)隊(duì)開源,并于2018年初捐贈(zèng)給Apache基金會(huì),是一款基于JavaScript的數(shù)據(jù)可視化工具。ECharts由于其簡(jiǎn)單易用、量級(jí)合適,且可以提供生動(dòng)、直觀、可個(gè)性化定制和可交互的數(shù)據(jù)可視化圖表,所以在可視化領(lǐng)域應(yīng)用范圍十分廣泛。

    二、系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    (一)系統(tǒng)整體架構(gòu)設(shè)計(jì)

    系統(tǒng)整體架構(gòu)設(shè)計(jì)如圖1所示,旨在通過(guò)快速有效地對(duì)相關(guān)行業(yè)大數(shù)據(jù)進(jìn)行采集,并基于Hadoop及其核心組件實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、存儲(chǔ)和分析挖掘工作,最終通過(guò)可視化工具圍繞相應(yīng)指標(biāo)和維度對(duì)分析挖掘結(jié)果進(jìn)行合理展示。

    具體來(lái)說(shuō),數(shù)據(jù)采集與清洗層負(fù)責(zé)對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)、網(wǎng)站標(biāo)準(zhǔn)接口數(shù)據(jù)和網(wǎng)絡(luò)公有數(shù)據(jù)進(jìn)行采集和初步清洗工作;數(shù)據(jù)存儲(chǔ)與管理層負(fù)責(zé)對(duì)初步清洗以后的數(shù)據(jù)進(jìn)行集成和存儲(chǔ)工作;數(shù)據(jù)處理與分析層負(fù)責(zé)對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分析和挖掘工作,并將分析和挖掘的結(jié)果加載到結(jié)果數(shù)據(jù)庫(kù)中;數(shù)據(jù)應(yīng)用層通過(guò)自定義數(shù)據(jù)接口實(shí)現(xiàn)對(duì)結(jié)果庫(kù)數(shù)據(jù)的訪問(wèn),并將數(shù)據(jù)推送至前端進(jìn)行可視化展示和交互等,用戶通過(guò)瀏覽器即可使用。

    (二)系統(tǒng)實(shí)現(xiàn)的技術(shù)流程

    系統(tǒng)主要圍繞數(shù)據(jù)采集、預(yù)處理、存儲(chǔ)、分析、挖掘和可視化展示等環(huán)節(jié)設(shè)計(jì)與實(shí)現(xiàn)。借助于數(shù)據(jù)庫(kù)采集工具和自主設(shè)計(jì)的Scrapy分布式爬蟲完成原始數(shù)據(jù)的快速采集工作;使用Kettle和Sqoop等實(shí)現(xiàn)數(shù)據(jù)預(yù)處理工作,并將預(yù)處理后的數(shù)據(jù)存入分布式數(shù)據(jù)庫(kù)Hbase中;數(shù)據(jù)的分析和挖掘工作主要由Hive和MapReduce實(shí)現(xiàn),結(jié)果數(shù)據(jù)將被推送至后臺(tái)MySQL結(jié)果數(shù)據(jù)庫(kù)中;前端通過(guò)自定義數(shù)據(jù)接口獲取結(jié)果數(shù)據(jù),并通過(guò)Echarts等可視化工具實(shí)現(xiàn)后臺(tái)數(shù)據(jù)到前端可視化圖表的轉(zhuǎn)化,系統(tǒng)實(shí)現(xiàn)的技術(shù)流程如圖2所示。

    (三)系統(tǒng)關(guān)鍵環(huán)節(jié)的設(shè)計(jì)與實(shí)現(xiàn)

    從實(shí)現(xiàn)難度和對(duì)系統(tǒng)的重要性影響方面來(lái)考量,系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)的關(guān)鍵環(huán)節(jié)包含以下四個(gè)方面。

    1.分布式爬蟲設(shè)計(jì)

    系統(tǒng)需要圍繞課程診改的指標(biāo)和維度進(jìn)行數(shù)據(jù)采集,雖然每個(gè)學(xué)校的校情不盡相同,但課程診改的目標(biāo)鏈、標(biāo)準(zhǔn)鏈的指標(biāo)和維度大體相通,以某校課程診改為例,需要采集的數(shù)據(jù)對(duì)照關(guān)系,如表2所示。

    由表2可知,除了需要采集業(yè)務(wù)系統(tǒng)和線下數(shù)據(jù)以外,還有來(lái)源和維度眾多的網(wǎng)絡(luò)標(biāo)準(zhǔn)接口數(shù)據(jù)及網(wǎng)絡(luò)公有數(shù)據(jù)需要通過(guò)爬蟲采集。考慮到大數(shù)據(jù)分析的數(shù)據(jù)量級(jí)和課程診改的時(shí)效性問(wèn)題,采用傳統(tǒng)的單機(jī)爬蟲會(huì)受到帶寬、CPU和IO等因素限制,爬取效率過(guò)低,無(wú)法出色完成網(wǎng)絡(luò)數(shù)據(jù)的采集工作,因此設(shè)計(jì)性能更優(yōu)的分布式爬蟲是必需的。

    通過(guò)上節(jié)的分析可知,雖然Scrapy 框架默認(rèn)不支持分布式,但其具有良好的可擴(kuò)展性,因此重點(diǎn)對(duì)基于Scrapy的分布式爬蟲策略進(jìn)行研究,項(xiàng)目組借助于Redis(一種key-value存儲(chǔ)系統(tǒng),具有極高的讀寫性能),并基于redis的特性對(duì)Scrapy做了相應(yīng)的改進(jìn)和擴(kuò)展,進(jìn)而設(shè)計(jì)并實(shí)現(xiàn)了所需的分布式爬蟲。具體來(lái)說(shuō)完成了Scheduler、Duplication Filter、Item Pipeline和Base Spider四個(gè)組件的改進(jìn)和擴(kuò)展工作,改進(jìn)和擴(kuò)展的策略包括:(1)在scheduler組件中重寫了爬蟲調(diào)度模塊,把原有的Scrapy隊(duì)列換成了Redis數(shù)據(jù)庫(kù)隊(duì)列,從而實(shí)現(xiàn)了分布式調(diào)度工作;(2)在Duplication Filter組件中使用Redis的set結(jié)構(gòu)實(shí)現(xiàn)對(duì)request的去重工作;(3)在Item Pipeline組件中將Item存儲(chǔ)在Redis數(shù)據(jù)庫(kù)隊(duì)列中以實(shí)現(xiàn)items processes集群和分布式處理;(4)在Base Spider組件中不再使用原有的Spider類,重寫的RedisSpider繼承了Spider和RedisMixin這兩類,RedisMixin是用來(lái)從Redis數(shù)據(jù)庫(kù)隊(duì)列中循環(huán)讀取url的類。

    2.大數(shù)據(jù)預(yù)處理核心要素

    由于采集到的數(shù)據(jù)通常無(wú)法直接用于后續(xù)的數(shù)據(jù)分析,因?yàn)閷?duì)于來(lái)源眾多、類型多樣的數(shù)據(jù)而言,數(shù)據(jù)缺失和語(yǔ)義模糊等問(wèn)題是不可避免的[10],因此必須進(jìn)行數(shù)據(jù)預(yù)處理操作。大數(shù)據(jù)預(yù)處理包含數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約、數(shù)據(jù)轉(zhuǎn)化與數(shù)據(jù)集成等[11],其核心要素是數(shù)據(jù)的歸一化表示和存儲(chǔ),即如何實(shí)現(xiàn)眾多數(shù)據(jù)系統(tǒng)中異構(gòu)數(shù)據(jù)的快速遷移和集成。由表2可知,課程診改的數(shù)據(jù)具有異源異構(gòu)的特性,具體來(lái)說(shuō)業(yè)務(wù)系統(tǒng)數(shù)據(jù)和線下考核文件數(shù)據(jù)一般都存儲(chǔ)在Oracle或MySQL數(shù)據(jù)庫(kù)中,爬取的數(shù)據(jù)為了操作的方便一般會(huì)直接寫入HBase數(shù)據(jù)庫(kù)中,分析和挖掘的結(jié)果需要存入到MySQL結(jié)果數(shù)據(jù)庫(kù)中,以便最終被可視化展示。面對(duì)眾多的數(shù)據(jù)系統(tǒng),研究如何在不同數(shù)據(jù)系統(tǒng)之間快速實(shí)現(xiàn)數(shù)據(jù)遷移至關(guān)重要。由上節(jié)的分析可知,Sqoop是專門為大數(shù)據(jù)集數(shù)據(jù)遷移工作而設(shè)計(jì)的,結(jié)合Sqoop的特點(diǎn)和系統(tǒng)開發(fā)實(shí)際,利用Sqoop在不同數(shù)據(jù)系統(tǒng)之間的互導(dǎo)操作實(shí)現(xiàn)數(shù)據(jù)的快速遷移和集成。具體實(shí)現(xiàn)過(guò)程如下:

    (1)業(yè)務(wù)系統(tǒng)數(shù)據(jù)導(dǎo)入到HBase

    啟動(dòng)Hadoop集群和HBase,在HBase上創(chuàng)建所需的數(shù)據(jù)表,然后通過(guò)shell命令導(dǎo)入數(shù)據(jù),以導(dǎo)入教務(wù)系統(tǒng)中學(xué)生評(píng)教表score至HBase中為例,導(dǎo)入的命令如下:

    sqoop import--connect jdbc:mysql://bgserver:3306/gradedb--username root-P--table score--hbase-table "gradedb"--column-family "score"--hbase-row-key "sid,cid"--hbase-bulkload

    (2)分析和挖掘結(jié)果導(dǎo)入到Mysql結(jié)果數(shù)據(jù)庫(kù)

    啟動(dòng)Hadoop集群和MySQL數(shù)據(jù)庫(kù)服務(wù)器,登錄MySQL數(shù)據(jù)庫(kù)服務(wù)器并完成結(jié)果數(shù)據(jù)表的創(chuàng)建,然后通過(guò)shell命令導(dǎo)入數(shù)據(jù),以導(dǎo)入Hive統(tǒng)計(jì)分析以后的學(xué)生評(píng)教數(shù)據(jù)為例,導(dǎo)入的命令如下:

    sqoop export--connect jdbc:mysql://bgserver:3306/gradedb--username root-P--table score--input-fields-terminated-by ','--export-dir /user/hive/warehouse/gradedb.db/score/*

    3.基于大數(shù)據(jù)思維的文本數(shù)據(jù)挖掘算法思想

    系統(tǒng)分析和挖掘的數(shù)據(jù)對(duì)象大體可以分為兩類,即結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)和非結(jié)構(gòu)化的網(wǎng)絡(luò)評(píng)論等文本數(shù)據(jù)。對(duì)于結(jié)構(gòu)化數(shù)據(jù)可以通過(guò)搭建Hive數(shù)據(jù)倉(cāng)庫(kù),并利用HiveQL來(lái)完成統(tǒng)計(jì)分析;而對(duì)于非結(jié)構(gòu)化的文本數(shù)據(jù)主要是用來(lái)分析學(xué)生對(duì)于某些課程的關(guān)注點(diǎn)(評(píng)論文本的關(guān)鍵詞)及情感傾向(正面或負(fù)面),需要自行設(shè)計(jì)算法完成。

    由于市面上成熟的開源中文分詞工具很多,所以關(guān)注點(diǎn)的分詞、詞頻統(tǒng)計(jì)和排序等工作實(shí)現(xiàn)較為便捷,因此本環(huán)節(jié)的研究工作主要集中在關(guān)注點(diǎn)情感傾向的分析算法設(shè)計(jì)上。目前文本關(guān)鍵詞的情感傾向分析方法主要有情感詞典方法和機(jī)器學(xué)習(xí)方法兩大類[12],由于中文語(yǔ)義的特殊性,這兩種方法實(shí)現(xiàn)的門檻都比較高??紤]到關(guān)注點(diǎn)情感傾向只需區(qū)分正負(fù)面,而處理的又是大數(shù)據(jù)集,所以關(guān)注點(diǎn)情感傾向與課程評(píng)教評(píng)分之間總體必然呈正相關(guān)[13]。鑒于此,項(xiàng)目組設(shè)計(jì)了基于大數(shù)據(jù)思維的關(guān)注點(diǎn)回溯分析法來(lái)分析關(guān)注點(diǎn)的情感傾向,即將關(guān)注點(diǎn)回溯到評(píng)教評(píng)分?jǐn)?shù)據(jù)中,結(jié)合評(píng)分的高低分布來(lái)判定關(guān)注點(diǎn)的情感傾向。具體的算法流程設(shè)計(jì)如圖3所示。

    4.數(shù)據(jù)可視化展示的實(shí)現(xiàn)

    數(shù)據(jù)可視化展示作為大數(shù)據(jù)可視化分析最后一個(gè)同時(shí)也是最重要的環(huán)節(jié),由圖2可知,分析和挖掘的結(jié)果均存放于MySQL結(jié)果數(shù)據(jù)庫(kù)中,故數(shù)據(jù)可視化分析結(jié)果展示的具體步驟包括:(1)基于Mybatis開發(fā)自定義數(shù)據(jù)接口,向上層提供MySQL結(jié)果數(shù)據(jù)庫(kù)的數(shù)據(jù)訪問(wèn)與處理功能;(2)結(jié)合課程診改的指標(biāo)和維度需求,綜合運(yùn)用HTML、CSS、Java Script、Vue和Echarts等,選擇合適的圖表對(duì)后臺(tái)結(jié)果數(shù)據(jù)進(jìn)行科學(xué)合理的可視化展示。綜合前面的技術(shù)流程和可視化展示的步驟即可實(shí)現(xiàn)課程診改大數(shù)據(jù)的可視化分析。

    三、可視化分析結(jié)果的應(yīng)用價(jià)值

    正如前文所述,課程診改大數(shù)據(jù)可視化分析的結(jié)果旨在通過(guò)簡(jiǎn)單明了、清晰有效的圖形呈現(xiàn)出課程診改大數(shù)據(jù)中蘊(yùn)含的重要及關(guān)鍵信息,從而獲取到最為有用的知識(shí)與價(jià)值,能夠?yàn)榻虒W(xué)診改提供科學(xué)的決策支持。為了便于說(shuō)明,這里以某高校“大數(shù)據(jù)技術(shù)基礎(chǔ)”課程診改的部分可視化分析結(jié)果為例來(lái)對(duì)其應(yīng)用價(jià)值進(jìn)行分析。

    (一)分析學(xué)生的課程視頻觀看行為和觀看趨勢(shì)

    由圖4可知,大部分學(xué)生的視頻觀看次數(shù)都在0~50次之間,觀看300次以上的學(xué)生寥寥無(wú)幾,說(shuō)明大部分學(xué)生對(duì)于課下自主學(xué)習(xí)的積極性和重視程度不夠;學(xué)生單次觀看時(shí)長(zhǎng)大都集中在0~20min之間,這說(shuō)明在當(dāng)前快節(jié)奏的生活中,短小精悍的微課版視頻可能會(huì)更受學(xué)生歡迎,這也為后續(xù)課程視頻資源的建設(shè)和完善提供了新的方向。

    由圖5可知,學(xué)生按教學(xué)周的視頻觀看人次和觀看時(shí)長(zhǎng)總體呈正相關(guān),期初呈現(xiàn)快速增長(zhǎng)趨勢(shì),期中下降趨勢(shì)明顯,期末又呈現(xiàn)出逐步回升的態(tài)勢(shì),這說(shuō)明新學(xué)期伊始的新鮮感和期末考核之前的緊迫感會(huì)刺激學(xué)生的觀看欲望,而期中階段是學(xué)生最容易放松的時(shí)候,這也是教學(xué)過(guò)程中需要及時(shí)預(yù)警并要求教學(xué)團(tuán)隊(duì)加強(qiáng)過(guò)程監(jiān)管的階段。

    (二)分析學(xué)生網(wǎng)絡(luò)評(píng)論中對(duì)于該課程的關(guān)注點(diǎn)

    由圖6可知,學(xué)生對(duì)于該課程的正面關(guān)注點(diǎn)主要集中在OBE加分制、過(guò)程考核、課堂互動(dòng)、1+X課證融合等方面,這說(shuō)明教學(xué)團(tuán)隊(duì)在授課過(guò)程中注重課堂互動(dòng)、過(guò)程考核和OBE加分制的正向激勵(lì)作用等教學(xué)方法,以及積極推行1+X課證融通的課程教學(xué)改革得到了學(xué)生們的普遍認(rèn)可,這些都值得在其他課程教學(xué)過(guò)程中推廣和應(yīng)用。當(dāng)然除了這些正向的關(guān)注點(diǎn)以外,也應(yīng)看到還有諸如枯燥、嚴(yán)厲和拖堂等相對(duì)負(fù)面的關(guān)注點(diǎn),這些則是教學(xué)團(tuán)隊(duì)后續(xù)需要重點(diǎn)診改的地方。

    本文綜合運(yùn)用大數(shù)據(jù)可視化分析技術(shù)(大數(shù)據(jù)采集技術(shù)、基于Hadoop的數(shù)據(jù)分析處理技術(shù)和數(shù)據(jù)可視化技術(shù)等)對(duì)課程診改大數(shù)據(jù)進(jìn)行分析。實(shí)踐證明,分析結(jié)果以圖、表等簡(jiǎn)單明了、清晰有效的方式呈現(xiàn)出課程診改大數(shù)據(jù)中蘊(yùn)含的信息,便于從中提煉出關(guān)鍵的信息和有用的知識(shí),能夠?yàn)閷W(xué)校教學(xué)管理部門和課程教學(xué)團(tuán)隊(duì)推進(jìn)課程診改、有效提高課程教學(xué)質(zhì)量提供相應(yīng)的支持。在系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)過(guò)程中,構(gòu)建了相對(duì)完整的大數(shù)據(jù)可視化分析系統(tǒng)框架,能夠?yàn)榻虒W(xué)診改的學(xué)校、專業(yè)教師和學(xué)生等用戶進(jìn)行大數(shù)據(jù)可視化分析提供一個(gè)較為完善的模板。

    參考文獻(xiàn):

    [1][3][8][10]林子雨.大數(shù)據(jù)技術(shù)原理與應(yīng)用[M].北京:人民郵電出版社,2021:11-34.

    [2]王艷,蔣義然,劉永立.基于Hadoop的大數(shù)據(jù)處理技術(shù)及發(fā)展[J].信息記錄材料,2020(11):021.

    [4]Zikopoulos P, Eaton C. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data[M].New York:McGraw-Hill Osborne Media,2011:1-10.

    [5]教育部辦公廳關(guān)于建立職業(yè)院校教學(xué)工作診斷與改進(jìn)制度的通知[L].教職成廳[2015]2號(hào).

    [6][11]天津?yàn)I海迅騰科技集團(tuán)有限公司.數(shù)據(jù)采集與預(yù)處理項(xiàng)目實(shí)戰(zhàn)[M].天津大學(xué)出版社,2020:45.

    [7]李代祎,謝麗艷,錢慎一,等.基于Scrapy的分布式爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].湖北民族學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,35(3):6.

    [9]賈利娟,劉娟,王健,等.基于PyEcharts的全球玉米貿(mào)易數(shù)據(jù)可視化系統(tǒng)建設(shè)及應(yīng)用展望[J].農(nóng)業(yè)展望,2019,15(03):46-54.

    [12]洪巍,李敏.文本情感分析方法研究綜述[J].計(jì)算機(jī)工程與科學(xué),2019,41(4):8.

    [13]陳俊生,彭莉芬.基于Python+Echarts的大數(shù)據(jù)可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2019(4):6-9.

    Research and application of Hadoop-based big data visualization analysis of curriculum diagnosis and reform

    CHEN Jun-sheng, PENG Li-fen

    (Anhui Vocational College of Electronics & Information Technology,

    Bengbu Anhui 233000, China)

    Abstract: Aiming at the timeliness and accuracy requirements of curriculum diagnosis and reform in vocational colleges, a big data visualization analysis system is designed based on Hadoop platform and comprehensive use of the Scrap crawler framework, Echarts visualization tools, etc., to realize the rapid collection, pre-processing, storage, analysis, mining and visual display of big data of heterogeneous curriculum diagnosis and reform. The visual analysis results show users some potential key information and useful knowledge in the big data of curriculum diagnosis and reform in diagrams and tables, which can provide support for teaching management departments and teaching teams to improve course teaching.

    Key words: Hadoop; Curriculum Diagnosis and Reform; Big Data; Visualization Analysis

    猜你喜歡
    可視化分析大數(shù)據(jù)
    我國(guó)職業(yè)教育師資研究熱點(diǎn)可視化分析
    職教論壇(2016年26期)2017-01-06 19:04:59
    聲波吹灰技術(shù)在SCR中的應(yīng)用研究
    科技傳播(2016年19期)2016-12-27 16:18:28
    可視化分析技術(shù)在網(wǎng)絡(luò)輿情研究中的應(yīng)用
    國(guó)內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢(shì)
    基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
    科技視界(2016年20期)2016-09-29 10:53:22
    祁门县| 蒙自县| 阿瓦提县| 清河县| 富顺县| 阿拉善右旗| 文安县| 南江县| 昔阳县| 正阳县| 大石桥市| 沅江市| 上饶县| 博乐市| 景东| 莆田市| 江北区| 息烽县| 宿松县| 宁德市| 冷水江市| 犍为县| 泸水县| 山丹县| 波密县| 衡东县| 资兴市| 黄大仙区| 江城| 湟中县| 嘉义县| 泸水县| 大英县| 云阳县| 京山县| 玉环县| 长春市| 达拉特旗| 彝良县| 乐安县| 普兰店市|