張偉宏
(福建廣播電視大學(xué)職業(yè)學(xué)院,福建福州,350013)
課堂、考試、師生互動(dòng)、校園和家校的各種教育活動(dòng)過程和設(shè)備使用中,只要有教育活動(dòng)的地方,都會收集到大量數(shù)據(jù)。如何發(fā)現(xiàn)這些數(shù)據(jù)背后的隱藏的大概率規(guī)律以及給出解決方法,才是教育質(zhì)量評價(jià)的價(jià)值體現(xiàn)。
教育大數(shù)據(jù)分為廣義和狹義,廣義的教育大數(shù)據(jù)泛指所有來源于各種教育活動(dòng)中所產(chǎn)生的復(fù)雜的、具有多維特征的數(shù)據(jù);而狹義的教育大數(shù)據(jù)是指學(xué)習(xí)者在特定學(xué)習(xí)環(huán)境如學(xué)生管理系統(tǒng)、在線學(xué)習(xí)等平臺下產(chǎn)生的行為數(shù)據(jù)。[1]
教育大數(shù)據(jù)不同以往的數(shù)據(jù)的獨(dú)特之處在于,通過對教育教學(xué)活動(dòng)的數(shù)據(jù)加以分析挖掘,可以對授課等教育過程起到啟發(fā)、調(diào)整的作用。教育大數(shù)據(jù)讓我們從原來宏觀的大課堂教學(xué)到微觀的個(gè)體化“培育”,從而實(shí)現(xiàn)真正的個(gè)性化教育。教學(xué)管理者日常所做的成績分析,僅僅是對學(xué)習(xí)效果的考核和評價(jià)。通過對學(xué)生教育大數(shù)據(jù)進(jìn)行分析、預(yù)測,可為教學(xué)管理者正確認(rèn)識教學(xué)環(huán)境、教學(xué)方法、教學(xué)手段等教學(xué)相關(guān)因子與成績的關(guān)系,從而促使教學(xué)管理者有目的改進(jìn)以及有針對性地糾正學(xué)生的不良學(xué)習(xí)行為。
2017年6月25日至28日,第十屆教育數(shù)據(jù)挖掘國際會議在武漢召開,這是EDM大會首次在中國舉行,說明數(shù)據(jù)挖掘?qū)逃淖饔迷趪鴥?nèi)的得到了重視。數(shù)據(jù)挖掘技術(shù)在中國起步雖晚,但是發(fā)展已經(jīng)越來越好,目前數(shù)據(jù)分析挖掘技術(shù)已經(jīng)成功地應(yīng)用于市場營銷和金融業(yè)等領(lǐng)域,但在教育上的應(yīng)用還不廣泛也不完善。隨著科技發(fā)展和教設(shè)的智能化,教育數(shù)據(jù)通過網(wǎng)絡(luò)采集的更加容易,數(shù)據(jù)量迅速增長,這為數(shù)據(jù)分析提供了信息基礎(chǔ)。
尤其是網(wǎng)絡(luò)教學(xué),在網(wǎng)絡(luò)學(xué)習(xí)中可以記錄學(xué)生關(guān)于學(xué)習(xí)行為的各種數(shù)據(jù),如點(diǎn)擊了什么網(wǎng)頁,停留多長時(shí)間,哪些是最喜歡的頁面,平均多長時(shí)間做一道題花,做題的順序有沒有跳躍,有沒有時(shí)間檢查、檢查幾遍、查出幾道錯(cuò)誤。[2]隨著科學(xué)技術(shù)的發(fā)展,學(xué)校逐漸擁有越來越多的可用的、高質(zhì)量的數(shù)據(jù),就整個(gè)教育領(lǐng)域而言,數(shù)據(jù)是海量的。這些數(shù)據(jù)是寶貴的財(cái)富,給未來教育帶來更大的可能,但如何進(jìn)行信息挖掘,則對教育研究者的想象力提出了挑戰(zhàn)。
Bhardwaj和Pal對300名學(xué)生表現(xiàn)進(jìn)行研究,結(jié)果表明:學(xué)生學(xué)業(yè)成績與學(xué)生在高中的成績、居住位置、教學(xué)媒體的應(yīng)用、母親的教育程度、學(xué)生的其他生活習(xí)慣、家庭年收入和家庭狀況是非常相關(guān)的。[3]舒忠梅和屈瓊斐分別采用逐步回歸、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù),分析學(xué)生的學(xué)習(xí)成績的影響因子,結(jié)果表明學(xué)生在學(xué)習(xí)上所花費(fèi)的時(shí)間是影響學(xué)生學(xué)習(xí)成績的主要因素,也驗(yàn)證了勤能補(bǔ)拙這個(gè)道理。黃岡師范學(xué)院熊寬江等選取漢語言文學(xué)專業(yè)2009級某班級學(xué)生的成績記錄,對學(xué)生進(jìn)行分類,探索學(xué)生的潛在能力??梢娫絹碓蕉嗟膶<覅⑴c教育大數(shù)據(jù)的分析和挖掘行業(yè)中,應(yīng)用方法也更加多樣化。
為達(dá)到數(shù)據(jù)挖掘的目標(biāo),將數(shù)據(jù)分析和挖掘技術(shù)基礎(chǔ)上總結(jié)歸納如下五類技術(shù)方法:
1.預(yù)測。預(yù)知事件發(fā)展的可能性能夠綜合考評多個(gè)預(yù)測變量推斷被預(yù)測變量,例如,通過對某門課程學(xué)習(xí)中,學(xué)生花費(fèi)的時(shí)間、平時(shí)成績情況、對課程態(tài)度等,預(yù)測學(xué)習(xí)者在該門課程的學(xué)習(xí)中取得通過的幾率。[4]
2.聚類。根據(jù)數(shù)據(jù)的特點(diǎn),通過自然集中距離相近的數(shù)據(jù)點(diǎn)將一個(gè)完整的數(shù)據(jù)集劃分成不同的子集或群體,在劃分興趣小組是,通過聚類可以把有相同興趣的學(xué)生歸為一組,通過聚類給予學(xué)生選擇提示,避免的盲目的選擇。
3.關(guān)系挖掘。探索發(fā)現(xiàn)各種變量因子之間的關(guān)系,并對其進(jìn)行分析以供教育指導(dǎo)使用,例如:探討學(xué)生的各種學(xué)習(xí)活動(dòng)和學(xué)習(xí)結(jié)果的之間的關(guān)系,從而按照指導(dǎo)意義改進(jìn)教學(xué)內(nèi)容及教學(xué)手段方法。
4.可視的機(jī)器學(xué)習(xí)模式。用一種便于人類理解的方式描述數(shù)據(jù),以便人們能夠快速地判斷和區(qū)分?jǐn)?shù)據(jù)特征,該方法主要以可視化數(shù)據(jù)分析技術(shù)為主,用以改善機(jī)器學(xué)習(xí)模型。
5.模式發(fā)現(xiàn)。通過對數(shù)據(jù)項(xiàng)的聚類、數(shù)據(jù)關(guān)系挖掘等過程,構(gòu)建了一種供未來分。析的有效解釋模型。通過這些技術(shù),就能夠通過大數(shù)據(jù)來創(chuàng)建為提高學(xué)習(xí)成績而提供支持的學(xué)習(xí)分析系統(tǒng)。這些技術(shù)將幫助教育工作者在教育過程中及時(shí)調(diào)整方法和方式,更加有效地引導(dǎo)學(xué)生朝著個(gè)性化的學(xué)習(xí)進(jìn)程邁進(jìn)。[4]
數(shù)據(jù)進(jìn)行分析和挖掘的方法多樣,可以使用可視化數(shù)據(jù)分析工具也可以設(shè)計(jì)程序,如工作做常用的EXCEL也可以作為數(shù)據(jù)分析挖掘的工作。筆者在教學(xué)工作中采用計(jì)算機(jī)相關(guān)技術(shù)對本校學(xué)生的數(shù)據(jù)進(jìn)行分析和挖掘,以下是兩例應(yīng)用案例。
經(jīng)常需要將WORD和EXCEL文檔數(shù)據(jù)提取合并,并按一定格式輸出。由于原始素材來源不同、格式不同,導(dǎo)致數(shù)據(jù)格式、排版格式上存在著差異。所以在數(shù)據(jù)分析挖掘前需要對數(shù)據(jù)加以清理,統(tǒng)一標(biāo)準(zhǔn)。
表1是學(xué)生名單,表2是學(xué)生畢業(yè)就業(yè)情況表。要求生成畢業(yè)生就業(yè)情況登記表(表3)。
1.原始數(shù)據(jù)存在問題
表1 學(xué)生名單
表2 學(xué)生畢業(yè)就業(yè)情況表
(1)原始數(shù)據(jù)包含三年的畢業(yè)生數(shù)據(jù),將近3000人,數(shù)據(jù)量大。
(2)學(xué)生名單和學(xué)生畢業(yè)就業(yè)情況表數(shù)據(jù)格式不規(guī)范,各部門在表現(xiàn)形式上多樣化。
(3) 數(shù)據(jù)錄入方式多樣導(dǎo)致錯(cuò)別字多。
2.數(shù)據(jù)清理
(1)規(guī)范原始數(shù)據(jù),確認(rèn)文字的對齊方式、時(shí)間格式、電話格式、籍貫表示、專業(yè)表示等,如:表1中“姬取沖”的電話沒有區(qū)號。
(2)比照兩表姓名、性別,糾正錯(cuò)字、漏字。如表1“陳詳妹”與表2“陳祥妹”的文字錯(cuò)誤。
3.設(shè)計(jì)程序生成所需報(bào)表和圖表
程序中用到的以上兩個(gè)表文件:表1是2003級所有班級學(xué)生的詳細(xì)資料,一個(gè)工作表只包含一個(gè)班級,工作表以班級命名,如工作表名031JS1,表示03級計(jì)算機(jī)一班。表2是2003級所有班級學(xué)生就業(yè)信息,全部在一個(gè)工作表中。因?yàn)閷W(xué)號具有唯一性,可以作為兩表的索引。在這里以表1為主文件,表2為輔助文件,先從表1中找出學(xué)號、姓名、性別、班級、出生年月、家庭住址、聯(lián)系電話;然后通過表1中學(xué)號(T_NO)在表2中找出 專業(yè)、畢業(yè)時(shí)間、就業(yè)單位、單位電話、就業(yè)時(shí)間、就業(yè)單位+工種、單位電話;最后將這些數(shù)據(jù)填充到表5(畢業(yè)生就業(yè)情況登記表),得到以“班級+學(xué)生”命名的畢業(yè)生就業(yè)情況登記表報(bào)表。
該例子使用程序設(shè)計(jì)的方式分析挖掘數(shù)據(jù)并顯示就業(yè)情況圖表,適合對計(jì)算機(jī)知識如編程語言、數(shù)據(jù)結(jié)構(gòu)有較深的造詣的專業(yè)人員。
通過挖掘得出的規(guī)則,結(jié)合教育分析、指導(dǎo)教學(xué)工作,提高教學(xué)質(zhì)量。分析的對象為福建鐵路機(jī)電學(xué)校的六門專業(yè)的全部專業(yè)課成績數(shù)據(jù),本文以2016-2017 學(xué)年第一學(xué)期所學(xué)的《計(jì)算機(jī)基礎(chǔ)》為例。計(jì)算機(jī)基礎(chǔ)上課方式采用的是在多媒體機(jī)房,統(tǒng)稱實(shí)驗(yàn)課。分析挖掘數(shù)據(jù)源中學(xué)生的相關(guān)數(shù)據(jù),來判斷哪些因素對學(xué)生的等級考試通過率會造成影響,如性別差別導(dǎo)致學(xué)習(xí)差距,課程興趣導(dǎo)致學(xué)習(xí)差距,平時(shí)成績導(dǎo)致學(xué)習(xí)差距,或者幾個(gè)因子的組合。
1.確定數(shù)據(jù)來源
程序以筆者設(shè)計(jì)的家校通系統(tǒng)數(shù)據(jù)庫為基礎(chǔ)以及學(xué)生的調(diào)查信息經(jīng)過ETL數(shù)據(jù)集成、清理、轉(zhuǎn)換及歸約等轉(zhuǎn)換后生成的。數(shù)據(jù)分成兩部分,60%用來建模,剩下40%用來檢測。本模塊中選擇與成績相關(guān)性較大的性別、計(jì)算機(jī)基礎(chǔ)平時(shí)成績、上機(jī)時(shí)間三個(gè)屬性作為建立學(xué)業(yè)水平測試分類決策樹模型的依據(jù),學(xué)生成績分析基本數(shù)據(jù)示例如表3所示。
數(shù)據(jù)源采用福建鐵路機(jī)電學(xué)校2016級所有專業(yè)的500多位學(xué)生成績信息。
(1)表中計(jì)算機(jī)基礎(chǔ)平時(shí)成績分為:一般,良好,優(yōu)秀;
(2)上機(jī)時(shí)間為計(jì)算機(jī)實(shí)驗(yàn)課出勤情況,系統(tǒng)經(jīng)過離散化處理后分成:實(shí)驗(yàn)課曠課的為D,實(shí)驗(yàn)課早退遲到的為C,上滿兩節(jié)實(shí)驗(yàn)課的為B,課后仍然上機(jī)訓(xùn)練的為A;
(3)分類屬性為:學(xué)業(yè)水平測試>=60 的為“通過”, 學(xué)業(yè)水平測試<60 的為“不通過”。
2.建立決策樹模型
以表3所示的數(shù)據(jù)為數(shù)據(jù)源,應(yīng)用C4.5算法建立決策樹模型,其步驟如下:
表3 學(xué)業(yè)水平考試預(yù)測基本訓(xùn)練集
(1) 對表3中的計(jì)算機(jī)基礎(chǔ)平時(shí)成績、性別、上機(jī)時(shí)間三個(gè)屬性分別計(jì)算信息增益率。通過計(jì)算得到:Gainiratio(計(jì)算機(jī)基礎(chǔ)平時(shí)成績 )>Gainiratio(上機(jī)時(shí)間 )>Gainiratio(性別 ) 。
(2)通過(1)的計(jì)算結(jié)果可知,“計(jì)算機(jī)基礎(chǔ)平時(shí)成績”屬性具有最高的信息增益,所以其被首先選擇作為根結(jié)點(diǎn)。創(chuàng)建一個(gè)根節(jié)點(diǎn),并根據(jù)“計(jì)算機(jī)基礎(chǔ)平時(shí)成績”屬性的取值將數(shù)據(jù)劃分成“優(yōu)秀”、“良好”、“一般”三個(gè)樹的分支,通過該屬性值劃分?jǐn)?shù)據(jù)集合。
(3)對劃分的每個(gè)子數(shù)據(jù)集遞歸執(zhí)行(1)(2)。
通過以上步驟,建立如圖1所示的決策樹模型。由于訓(xùn)練數(shù)據(jù)集是來家校通系統(tǒng)中數(shù)據(jù),再經(jīng)過ETL的數(shù)據(jù)集成、清理、轉(zhuǎn)換及歸約等處理轉(zhuǎn)換后,不會存在噪聲數(shù)據(jù),同樣也會消除數(shù)據(jù)空缺等現(xiàn)象,屬于高質(zhì)量的數(shù)據(jù)。
圖1 學(xué)業(yè)水平測試預(yù)測模型
3.生成分類規(guī)則
決策樹的應(yīng)用是能直接從結(jié)果中提取分類規(guī)則,并以IF……THEN的構(gòu)架顯示分類規(guī)則。該規(guī)則表現(xiàn)形式讓用戶容易理解,建模數(shù)據(jù)量的越大,生成的規(guī)則越準(zhǔn)確。由此模塊可得到如下表4的規(guī)則用來判定學(xué)生的學(xué)業(yè)水平測試是否通過。
表4 分類規(guī)則
4. 指導(dǎo)分類教學(xué)
通過對決策樹的分析不難發(fā)現(xiàn),男生通過的概率比女生大,可就算平時(shí)成績好的如果上機(jī)時(shí)間較少的也通不過考試;只要經(jīng)常上機(jī)做練習(xí)的學(xué)生,不論男女,就算平時(shí)成績一般,通過概率也很大;女生需要更多的上機(jī)練習(xí);通過該決策樹將學(xué)生分成通過和不通過兩個(gè)類別,對劃分出處于不通過的學(xué)生群體要更加關(guān)注,了解不同的個(gè)體差距,真正做的因材施教。
教育數(shù)據(jù)挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù)從教與學(xué)活動(dòng)所產(chǎn)生的數(shù)據(jù)中找出具有指導(dǎo)意義信息的過程。數(shù)據(jù)挖掘?qū)⑷娓倪M(jìn)教育的方方面面,它對于教育領(lǐng)域帶來的將是異于傳統(tǒng)教育的發(fā)展性思維方式,提升教學(xué)效率和教育科學(xué)性,并會帶來終身教育的個(gè)性化匹配。數(shù)據(jù)挖掘?qū)W(xué)習(xí)、教學(xué)、科研、管理、決策、就業(yè)、招生等許多方面帶來巨大的影響。大數(shù)據(jù)分析挖掘相關(guān)技術(shù)的出現(xiàn),使得教師更好地理解學(xué)生,合理的選擇恰當(dāng)?shù)慕虒W(xué)方法,這將給教與學(xué)的過程帶來翻天覆地的變革。
表5 XXX學(xué)校畢業(yè)生就業(yè)情況登記表