任東曉,王中華
(1.浙江科技學院 曙光大數(shù)據(jù)學院,杭州 310023;2.電子科技大學 計算機科學與工程學院,成都 611731; 3.北京中電普華信息技術(shù)有限公司,北京 100085)
大數(shù)據(jù)正在實現(xiàn)人類工作、生活與思維的大變革,其威力也強烈沖擊著整個教育系統(tǒng)[1-2]。中國教育科研網(wǎng)、現(xiàn)代遠程教育、校校通、班班通等工程的實施,“泛在學習”“移動學習”“智慧校園”“微課”“慕課”“翻轉(zhuǎn)課堂”“信息化可穿戴設備”等應用[3-7]的普及,在促進中國教育信息化進程的同時,產(chǎn)生了大量類型多和應用價值高的教育大數(shù)據(jù)。教育大數(shù)據(jù)是指在整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的、一切用于教育發(fā)展并可創(chuàng)造巨大潛在價值的數(shù)據(jù)集合[8]。換言之,教育大數(shù)據(jù)是由教育者和受教育者在教學活動和教學管理過程中所產(chǎn)生的有關(guān)教學行為和學習行為的大量數(shù)據(jù),具有廣泛的應用價值。中國政府高度重視教育大數(shù)據(jù)及研究應用,將教育大數(shù)據(jù)上升到國家戰(zhàn)略層面,并提出“探索發(fā)揮大數(shù)據(jù)對變革教育方式、促進教育公平、提升教育質(zhì)量的支撐作用”。在《教育信息化“十三五”規(guī)劃》[9]中,教育大數(shù)據(jù)在學習空間應用及教育管理平臺建設中的重要作用被多次強調(diào)。中國教育數(shù)據(jù)豐富,2016年全國共有學校51.2萬所,各級各類學生近3.2億人,專任教師共計1 578萬人。其中,中國高等教育在全球高等教育所占比例高達20%,在學規(guī)模有3 699萬人。龐大的教育基數(shù)隨之產(chǎn)生了巨大的教育數(shù)據(jù)和伴生數(shù)據(jù),即教育大數(shù)據(jù),構(gòu)成了國家的重要核心數(shù)據(jù)之一[10]。
目前的教育系統(tǒng)信息資源和實體資源被各部門、主體之間的邊界和壁壘所分割,資源的組織是零散的,信息空間與物理空間分離,學校與家庭、社會不易協(xié)同。教育系統(tǒng)的零散分布使得教學與學習活動的靈活性受到限制,以致在一定程度上阻礙了教育的發(fā)展。并且,教育大數(shù)據(jù)還存在數(shù)據(jù)分散、數(shù)據(jù)收集和分析手段落后等問題。從橫向來看,經(jīng)費監(jiān)管、學生在學和就業(yè)、科研、繼續(xù)教育、學生資助、留學和回國等數(shù)據(jù)分屬于不同的單位管理;從縱向的行政區(qū)劃上看,各級地方政府的教育數(shù)據(jù)也多為獨立王國[11-12]。教育信息存在諸多孤島,未能實現(xiàn)有效融合和數(shù)據(jù)共享。教育大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),不同類型數(shù)據(jù)的集成質(zhì)量受到集成準確性差并且冗余度高的簡單數(shù)據(jù)集成系統(tǒng)的影響,實現(xiàn)不同類型數(shù)據(jù)的有效集成和共享是非常重要的。因此,切實有效的數(shù)據(jù)集成和融合方案,可以去掉冗余和錯誤數(shù)據(jù),提高數(shù)據(jù)質(zhì)量,為準確的數(shù)據(jù)分析和挖掘奠定基礎(chǔ)[13-15]。
綜上所述,教育大數(shù)據(jù)是中國基礎(chǔ)性的戰(zhàn)略資源之一。運用大數(shù)據(jù)的思想和方法對教育數(shù)據(jù)進行深度分析和挖掘,找到教育現(xiàn)象、教育內(nèi)容及教育規(guī)律之間的關(guān)聯(lián)性,以符合教育事業(yè)發(fā)展的內(nèi)在邏輯性,是時代發(fā)展的迫切要求。因此,本文針對教育大數(shù)據(jù)多源異構(gòu)等特點,主要研究教育大數(shù)據(jù)的集成融合和智能分析平臺的建設,并給出具體實踐,為教育大數(shù)據(jù)的深度應用提供參考。
教育大數(shù)據(jù)主要產(chǎn)生于教學活動和教育管理過程,收集的是整個教育教學和管理過程中靜態(tài)和動態(tài)的所有數(shù)據(jù),既包括教務管理、圖書管理、學生管理、財務管理、科研管理、后勤服務等系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),又包括課堂教學、教室和實驗室使用、社會實踐、宿舍能耗、校園生活、安全、網(wǎng)絡課件、講課音視頻、圖片、交互記錄、學習痕跡等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。除此之外,教育大數(shù)據(jù)還包括家庭、社區(qū)、博物館、圖書館等非正式環(huán)境下學習活動產(chǎn)生的數(shù)據(jù),以及智能設備、社交媒體等“伴隨式收集”的教育動態(tài)和即時數(shù)據(jù)。教育大數(shù)據(jù)來源分散、類型繁多、質(zhì)量良莠不齊和標準不一致,不同數(shù)據(jù)源間可能存在重復數(shù)據(jù),數(shù)據(jù)冗余度高。從來源廣泛且類型繁多的教育大數(shù)據(jù)中勾勒學生畫像,分析和挖掘?qū)W生潛質(zhì)特征、自我價值傾向、學業(yè)趨勢等具有重要的意義。例如,借助學生基本信息、上課情況、與教師互動記錄、借閱圖書、一卡通、門禁、網(wǎng)上課件下載記錄和停留時間等數(shù)據(jù),通過數(shù)據(jù)關(guān)聯(lián)分析和大數(shù)據(jù)挖掘等技術(shù)可以了解學生行為軌跡和真實狀態(tài),發(fā)現(xiàn)學生的興趣愛好和行為傾向,明確學生的學習類型和風格,得知學生的知識掌握情況,及時預警學生學業(yè),為學生提供多樣化和個性化的幫助,從而提高教學質(zhì)量,促進智慧教育的發(fā)展。
本文針對教育大數(shù)據(jù)現(xiàn)存問題,利用分布式計算、大數(shù)據(jù)分析、數(shù)據(jù)挖掘、機器學習等先進技術(shù),研究多源異構(gòu)數(shù)據(jù)的集成和融合、學生精準畫像和教育過程動態(tài)監(jiān)控管理,以打破教育信息孤島,充分挖掘教育大數(shù)據(jù)的應用價值,按照數(shù)據(jù)來源、關(guān)鍵技術(shù)和平臺搭建的思路展開研究,研究思路概括如圖1所示。
從圖1可以看出,在數(shù)據(jù)收集階段,教育大數(shù)據(jù)主要來源于教育應用系統(tǒng)和智能設備及社交媒體。教育應用系統(tǒng)中的數(shù)據(jù)一般集中存儲在各系統(tǒng)的數(shù)據(jù)庫中,易于獲取,但可能存在大量重復數(shù)據(jù)或者質(zhì)量不高數(shù)據(jù),例如數(shù)據(jù)存在缺失值或異常值。智能設備和社交媒體中的教育數(shù)據(jù),一般可通過API或者爬蟲工具獲取,但可能是半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)?;诮逃髷?shù)據(jù)來源的廣泛性,在教育大數(shù)據(jù)智能分析平臺建設中針對不同問題采用不同的技術(shù)處理手段:
1)不同教育系統(tǒng)間的數(shù)據(jù)關(guān)聯(lián)性較大且存在大量重復數(shù)據(jù),依據(jù)數(shù)值缺失機制,基于極大似然估計、隨機森林、遺傳算法等模型預測缺失值,以提高數(shù)據(jù)預處理質(zhì)量;研究重復數(shù)據(jù)刪除算法,去掉冗余數(shù)據(jù),減縮占用存儲空間。
2)教育大數(shù)據(jù)中的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并存,采用基于服務的邏輯數(shù)據(jù)集成和融合技術(shù),利用HDFS、HBase存儲非結(jié)構(gòu)數(shù)據(jù),關(guān)系型數(shù)據(jù)庫存儲結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)分析結(jié)果,不同數(shù)據(jù)之間利用數(shù)據(jù)服務接口實現(xiàn)邏輯集成和融合,打破教育信息孤島。
3)研究基于語義的異構(gòu)數(shù)據(jù)整合技術(shù)。采用分布式計算并利用MapReduce技術(shù)和Hadoop分布式計算框架等提高數(shù)據(jù)處理速度;通過語義技術(shù)將各種異構(gòu)數(shù)據(jù)表達為語義資源,然后發(fā)布到語義庫中,進而實現(xiàn)語義層面上的數(shù)據(jù)查詢和數(shù)據(jù)計算。
教育大數(shù)據(jù)的智能分析平臺的系統(tǒng)架構(gòu)自下而上分四層:數(shù)據(jù)層、模型層、應用層和展示層。系統(tǒng)架構(gòu)具體如圖2所示。數(shù)據(jù)層采集數(shù)據(jù)并進行數(shù)據(jù)預處理。模型層針對預處理后的數(shù)據(jù),設計并構(gòu)建數(shù)據(jù)分析模型。應用層利用模型進行教育大數(shù)據(jù)分析,主要支持教育質(zhì)量綜合分析、教育質(zhì)量預警和教育決策支持等三方面的應用。展示層利用可視化的方法,將大數(shù)據(jù)分析的結(jié)果進行展示。
圖2 教育大數(shù)據(jù)智能分析平臺系統(tǒng)架構(gòu)Fig.2 Architecture for intelligent analysis platform of educational big data
按照數(shù)據(jù)收集、數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)查詢等數(shù)據(jù)處理流程,教育大數(shù)據(jù)智能分析平臺在建設實踐時,包括深度分析場景、統(tǒng)計分析場景、查詢檢索場景、在線分析處理(online analytical processing,OLAP)場景,如圖3所示。不同應用場景采用的技術(shù)手段和具體內(nèi)容有以下幾個方面:
圖3 教育大數(shù)據(jù)智能分析平臺的應用場景Fig.3 Application scenario of intelligent analysis platform of educational big data
1)在數(shù)據(jù)收集階段,根據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的特點,采用Sqoop和Flume導入數(shù)據(jù)和日志文件;利用kalfka采集實時數(shù)據(jù);通過智能設備和社交媒體提供的API或者爬蟲工具獲取外部數(shù)據(jù)。
2)在數(shù)據(jù)存儲階段,分析不同數(shù)據(jù)存儲方案的優(yōu)缺點,以HDFS、HBase、關(guān)系型數(shù)據(jù)庫為存儲主體,HDFS、HBase存儲非結(jié)構(gòu)數(shù)據(jù),關(guān)系型數(shù)據(jù)庫存儲結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)分析結(jié)果,提高模型的可擴展性。
3)在數(shù)據(jù)分析階段,根據(jù)不同的應用場景,采用Spark、MapReduce、Storm等計算框架實現(xiàn)批處理和流式處理,采用Spark MLIib、Mahout等數(shù)據(jù)建模工具實現(xiàn)聚類、分類、推薦、過濾、頻繁子項挖掘等智能分析功能;數(shù)據(jù)查詢采用HiveQL查詢語句提高數(shù)據(jù)抽取、轉(zhuǎn)化、加載的效率。
基于教育大數(shù)據(jù)的現(xiàn)狀分析,本文提出了教育大數(shù)據(jù)智能分析平臺的建設思路,實現(xiàn)多源異構(gòu)教育大數(shù)據(jù)的集成和融合,打破教育信息孤島;以先進技術(shù)為手段,搭建教育大數(shù)據(jù)智能分析平臺,實現(xiàn)精確學情診斷、及時預警學業(yè)、個性化學習推薦和智能決策支持等,提高教育管理過程的智能性。在后續(xù)工作中,我們將進一步研究教育大數(shù)據(jù)智能分析平臺的隱私保護等問題,以提高數(shù)據(jù)的安全性和平臺的可靠性。