隨著互聯(lián)網(wǎng)技術(shù)在教育領(lǐng)域的大規(guī)模應(yīng)用,教育大數(shù)據(jù)挖掘已成為推動(dòng)我國(guó)教育改革、創(chuàng)新發(fā)展的重要戰(zhàn)略。大規(guī)模開(kāi)放在線課程(Massive Open Online Courses,MOOC)作為遠(yuǎn)程教育的重要形式之一,打破了學(xué)習(xí)者的時(shí)間和空間限制,滿足了學(xué)習(xí)者多樣化的學(xué)習(xí)需求。
MOOC平臺(tái)完整記錄了教學(xué)者和學(xué)習(xí)者的行為,產(chǎn)生了大量連續(xù)的教學(xué)互動(dòng)信息。這些信息表征了學(xué)習(xí)者零散、無(wú)意識(shí)的學(xué)習(xí)行為,是深入研究學(xué)習(xí)行為和學(xué)習(xí)心理的新素材。對(duì)其進(jìn)行深入分析,能夠發(fā)掘?qū)W習(xí)者最真實(shí)的思維和學(xué)習(xí)情況,不僅能在理論上促進(jìn)對(duì)學(xué)習(xí)本質(zhì)、學(xué)習(xí)者的學(xué)習(xí)心理和學(xué)習(xí)行為的研究,更能在實(shí)際應(yīng)用中幫助跟蹤學(xué)習(xí)者的學(xué)習(xí)過(guò)程、評(píng)價(jià)學(xué)習(xí)效果、準(zhǔn)確把握其學(xué)習(xí)狀態(tài),以便及早干預(yù)[1-3]。隨著MOOC平臺(tái)在線學(xué)習(xí)系統(tǒng)的激增,教育數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長(zhǎng)的勢(shì)頭,傳統(tǒng)技術(shù)手段已經(jīng)無(wú)法對(duì)海量數(shù)據(jù)進(jìn)行處理和分析。大數(shù)據(jù)技術(shù)可以計(jì)算和分析教、學(xué)、研等多角度的數(shù)據(jù)特征,構(gòu)建用戶畫(huà)像,提取出對(duì)學(xué)生學(xué)習(xí)行為和教師教學(xué)情況的反饋和建議,從而為改善教學(xué)質(zhì)量做出最合理的評(píng)估和決策。
大數(shù)據(jù)挖掘技術(shù)是指從大量數(shù)據(jù)中自動(dòng)搜索特殊關(guān)系信息的過(guò)程。大數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等方法實(shí)現(xiàn)目標(biāo)。其中“機(jī)器學(xué)習(xí)”是21世紀(jì)興起的一門(mén)多領(lǐng)域交叉學(xué)科,機(jī)器學(xué)習(xí)理論主要是設(shè)計(jì)和分析一些讓計(jì)算機(jī)可以自動(dòng)“學(xué)習(xí)”的算法,“機(jī)器學(xué)習(xí)”算法是一類從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法;“深度學(xué)習(xí)”是建立、模擬人腦神經(jīng)網(wǎng)絡(luò),通過(guò)模仿人腦的機(jī)制進(jìn)行數(shù)據(jù)的詮釋,如聲音、圖像和文本識(shí)別等。
從數(shù)學(xué)模型的角度來(lái)講,深度學(xué)習(xí)是一種復(fù)雜的特征提取方法,將原始數(shù)據(jù)通過(guò)一些非線性模型變換為更高層次的抽象表達(dá),再組合多層變換,學(xué)習(xí)提取出非常復(fù)雜的函數(shù)特征方法。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)的核心在于含有多個(gè)隱層,并且各層特征的提取不是通過(guò)人工參與設(shè)計(jì),而是在其學(xué)習(xí)過(guò)程里從數(shù)據(jù)中自學(xué)。這種“黑盒式”的自學(xué)習(xí)特征對(duì)數(shù)據(jù)結(jié)構(gòu)要求低,但對(duì)數(shù)據(jù)量要求大,因此非常適合當(dāng)前互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用的需要[4]。由于深度學(xué)習(xí)非常依賴于高端硬件設(shè)備,而且當(dāng)數(shù)據(jù)量較少時(shí),深度學(xué)習(xí)算法的表現(xiàn)并不佳[5],因此本文采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法建立學(xué)習(xí)預(yù)警模型。
“翻轉(zhuǎn)課堂”作為一種新型教學(xué)模式[6],以學(xué)生為主體,能夠真正調(diào)動(dòng)學(xué)生積極性,提高學(xué)習(xí)效率和質(zhì)量。目前基于MOOC教學(xué)的“翻轉(zhuǎn)課堂”,即線上線下混合教學(xué)法已經(jīng)被廣泛應(yīng)用于高校教學(xué)。然而關(guān)于在如何深入挖掘MOOC平臺(tái)的海量教學(xué)信息分析和預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)行為和特點(diǎn),并制定精準(zhǔn)的教學(xué)方案,從而針對(duì)性地指導(dǎo)學(xué)習(xí)及評(píng)估教學(xué)質(zhì)量等方面的研究尚淺。因此本文將以《臨床藥物治療學(xué)》課程為例,通過(guò)實(shí)證開(kāi)展混合教學(xué)法中基于在線學(xué)習(xí)行為數(shù)據(jù)的學(xué)習(xí)預(yù)警模型研究。
近年來(lái)國(guó)外研究者除關(guān)注學(xué)習(xí)者對(duì)在線學(xué)習(xí)的接受程度外,也關(guān)注學(xué)習(xí)者的學(xué)習(xí)表現(xiàn)、學(xué)習(xí)態(tài)度、學(xué)習(xí)動(dòng)機(jī)以及學(xué)習(xí)風(fēng)格等,數(shù)據(jù)挖掘技術(shù)開(kāi)始受到重視[7]。Teng等人[8]依據(jù)學(xué)習(xí)行為的相似性對(duì)學(xué)習(xí)者進(jìn)行聚類,并在分析聚類結(jié)果后為每類學(xué)習(xí)者提供針對(duì)性建議;Aher等人[9]在K-means 算法聚類的基礎(chǔ)上,應(yīng)用Apriori算法對(duì)各類學(xué)生的課程學(xué)習(xí)記錄進(jìn)行關(guān)聯(lián)規(guī)則分析,得到各類學(xué)生偏好的課程學(xué)習(xí)順序,從而向?qū)W生推薦合適的課程。
隨著大數(shù)據(jù)算法的不斷演進(jìn),國(guó)外大數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用日新月異[10-14]。在可視化預(yù)警系統(tǒng)上,比較有代表性的是可汗學(xué)院的學(xué)習(xí)儀表盤(pán)系統(tǒng)。該系統(tǒng)將學(xué)習(xí)管理系統(tǒng)與可視化工具相結(jié)合,運(yùn)用信息跟蹤技術(shù)和鏡像技術(shù)對(duì)學(xué)習(xí)者的學(xué)習(xí)行為、習(xí)慣興趣等信息進(jìn)行記錄和追蹤,并對(duì)測(cè)驗(yàn)成績(jī)、學(xué)習(xí)時(shí)間和學(xué)習(xí)路徑等數(shù)據(jù)進(jìn)行分析,依據(jù)對(duì)知識(shí)點(diǎn)的掌握情況進(jìn)行反饋預(yù)警,幫助學(xué)習(xí)者提高知識(shí)點(diǎn)掌握程度和改善學(xué)習(xí)技能[15]。近年來(lái)國(guó)內(nèi)MOOC快速崛起,數(shù)據(jù)挖掘技術(shù)被引入在線學(xué)習(xí)行為的研究,涌現(xiàn)出一批研究成果[16-19]。
檢索國(guó)內(nèi)常用數(shù)據(jù)庫(kù),時(shí)間跨度為2007-2018年,獲得有關(guān)學(xué)習(xí)預(yù)警模型設(shè)計(jì)的文獻(xiàn)。如趙慧瓊等設(shè)計(jì)的在線學(xué)習(xí)干預(yù)模型,運(yùn)用數(shù)據(jù)分析技術(shù)對(duì)學(xué)習(xí)管理系統(tǒng)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,利用決策樹(shù)算法進(jìn)行危機(jī)診斷,一旦發(fā)現(xiàn)學(xué)習(xí)者存在危機(jī),則及時(shí)采取電子郵件、資源推薦、彈出窗口等方式發(fā)送預(yù)警信息,以輔助學(xué)習(xí)者的學(xué)習(xí)活動(dòng)順利進(jìn)行[20]。
通過(guò)分析國(guó)內(nèi)外教育大數(shù)據(jù)文獻(xiàn)內(nèi)容發(fā)現(xiàn),在教育數(shù)據(jù)的挖掘上,大多偏重于對(duì)數(shù)據(jù)自身的分析,缺少對(duì)教育價(jià)值的深度分析;在教育數(shù)據(jù)的建模分析上,主要集中在理論模型的建立與性質(zhì)分析,而基于在真實(shí)教學(xué)數(shù)據(jù)上建立機(jī)器學(xué)習(xí)模型進(jìn)行挖掘分析的研究較為少見(jiàn);預(yù)警模型的算法單一,沒(méi)有采用主流機(jī)器學(xué)習(xí)算法,并且很少采用交叉驗(yàn)證、混淆矩陣等技術(shù)評(píng)估和選擇合適的模型。由于機(jī)器學(xué)習(xí)算法日新月異,主觀選擇的某一種機(jī)器學(xué)習(xí)算法有時(shí)并非最好的選擇。如果把目前主流的機(jī)器學(xué)習(xí)算法(如支持向量機(jī)(SVM),隨機(jī)森林、樸素貝葉斯、Logistic回歸、決策樹(shù)、k-近鄰等)都代入數(shù)據(jù)中訓(xùn)練,并用交叉驗(yàn)證、混淆矩陣等技術(shù)評(píng)估和選擇合適的算法模型,這樣的模型精度會(huì)更高,預(yù)警評(píng)估的效果將更好。
《臨床藥物治療學(xué)》課程是浙江醫(yī)藥高等??茖W(xué)校(以下簡(jiǎn)稱“我?!?開(kāi)設(shè)的一門(mén)專業(yè)課程,教師團(tuán)隊(duì)為藥學(xué)院教師,適用對(duì)象為藥學(xué)類專業(yè)的學(xué)生,開(kāi)課時(shí)間為2018年2-6月,實(shí)驗(yàn)對(duì)象為2016級(jí)藥學(xué)專業(yè)的300余名學(xué)生。按班級(jí)分為“MOOC+案例教學(xué)”對(duì)照組和“MOOC+翻轉(zhuǎn)課堂”實(shí)驗(yàn)組(分別為179人和129人),2組分別采用“MOOC+案例”教學(xué)和“MOOC+翻轉(zhuǎn)課堂”教學(xué)。兩組授課內(nèi)容完全相同,且均連續(xù)實(shí)施32學(xué)時(shí)(其中10學(xué)時(shí)是MOOC教學(xué))。
實(shí)驗(yàn)教學(xué)方法主要分為以下兩種。
2.2.1 “MOOC+案例”教學(xué)
預(yù)習(xí):登錄超星泛雅平臺(tái)學(xué)習(xí),完成測(cè)驗(yàn)作業(yè)和討論。
案例引入:課堂上選擇疾病典型案例,根據(jù)教學(xué)目標(biāo)設(shè)置問(wèn)題,給予學(xué)生同樣的案例。
互動(dòng)交流:學(xué)生在課前和課中以小組為單位,互相交流并解決問(wèn)題,在教師引導(dǎo)下小組討論發(fā)言。
歸納總結(jié):教師對(duì)案例討論進(jìn)行點(diǎn)評(píng)及歸納總結(jié)。
臨床實(shí)訓(xùn):醫(yī)院各科室?guī)Ы提t(yī)生帶領(lǐng)學(xué)生閱讀病歷,與患者溝通并了解病情和用藥,根據(jù)案例指導(dǎo)學(xué)生制定和評(píng)價(jià)藥物治療方案。
2.2.2 “MOOC+翻轉(zhuǎn)課堂”教學(xué)
根據(jù)學(xué)生在MOOC平臺(tái)的學(xué)習(xí)情況分層分類設(shè)計(jì)翻轉(zhuǎn)課堂教學(xué)內(nèi)容,分別給予學(xué)習(xí)情況較好和較差的學(xué)生不同難度的案例學(xué)習(xí),并統(tǒng)計(jì)平臺(tái)上學(xué)生知識(shí)掌握情況。針對(duì)未掌握的知識(shí)點(diǎn)進(jìn)行重點(diǎn)講述,其余學(xué)習(xí)過(guò)程與“MOOC+案例”教學(xué)班相同。
表1 慕課+案例教學(xué)組和慕課+翻轉(zhuǎn)課堂組期末成績(jī)
大數(shù)據(jù)挖掘分析與建模流程分為數(shù)據(jù)獲取與特征分析、數(shù)據(jù)預(yù)處理與特征選擇、模型構(gòu)建3個(gè)步驟。
3.1.1 數(shù)據(jù)集描述
從超星MOOC平臺(tái)采集的《臨床藥物治療學(xué)》MOOC在線學(xué)習(xí)行為數(shù)據(jù)描述了一個(gè)學(xué)習(xí)者該門(mén)課程的學(xué)習(xí)記錄,每列項(xiàng)為對(duì)學(xué)習(xí)者學(xué)習(xí)行為的描述,提供了十幾項(xiàng)維度,主要分為3類,分別是課程信息(臨床藥物治療學(xué))、學(xué)習(xí)者的基本信息(學(xué)號(hào)、姓名、性別)、學(xué)習(xí)者的行為信息(視頻觀看時(shí)長(zhǎng)、訪問(wèn)數(shù),任務(wù)點(diǎn)完成百分比、總討論數(shù)、回復(fù)討論、發(fā)表討論、課程視頻得分、課程測(cè)驗(yàn)得分、作業(yè)得分、MOOC綜合成績(jī)、MOOC綜合成績(jī)五級(jí)制等級(jí)、MOOC綜合成績(jī)是否及格、期末成績(jī))。
3.1.2 數(shù)據(jù)獲取
利用Python數(shù)據(jù)分析模塊pandas讀取合并2016級(jí)藥學(xué)專業(yè)300名學(xué)生在超星MOOC平臺(tái)上的學(xué)習(xí)行為信息(包括測(cè)驗(yàn)、作業(yè)成績(jī),討論數(shù),視頻觀看時(shí)長(zhǎng)等指標(biāo)數(shù)據(jù)),并與期末筆試成績(jī)按學(xué)號(hào)關(guān)聯(lián)合并,完成數(shù)據(jù)提取工作。
3.1.3 學(xué)習(xí)者行為分析
通過(guò)單特征分析、多變量統(tǒng)計(jì)分析,統(tǒng)計(jì)繪圖得出以下結(jié)論。MOOC綜合成績(jī)(由線上學(xué)習(xí)中的觀看視頻完成度、線上測(cè)驗(yàn)及線上作業(yè)成績(jī)組成)A-E中期末筆試不及格人數(shù)比例隨等級(jí)下降而升高(圖1)。圖1中“0”代表不及格,“1”代表及格;橫坐標(biāo)中等級(jí)A為90分及以上,等級(jí)B為80~89分,等級(jí)C為70~79分,等級(jí)D為60~69分,等級(jí)E為60分以下;縱坐標(biāo)為人數(shù)。MOOC綜合成績(jī)等級(jí)相同時(shí),不同性別在期末筆試成績(jī)中有顯著差異:女生及格率更高(圖2),且女生在期末筆試成績(jī)中及格人數(shù)的比例明顯高于男生(圖3);總討論數(shù)和訪問(wèn)數(shù)的中位數(shù)數(shù)據(jù)均顯示女生高于男生,但總討論數(shù)、訪問(wèn)數(shù)與期末筆試成績(jī)是否及格均分布呈現(xiàn)區(qū)域不平衡,一般情況下考試及格的學(xué)生總討論數(shù)、訪問(wèn)數(shù)均更高(圖4和圖5)。觀看視頻時(shí)長(zhǎng)的中位數(shù)數(shù)據(jù)女生高于男生,一般情況下考試及格的學(xué)生觀看視頻時(shí)長(zhǎng)更長(zhǎng)(圖6)。
圖1 MOOC綜合成績(jī)等級(jí)與期末筆試成績(jī)及格關(guān)系
圖2 MOOC綜合成績(jī)等級(jí)、性別和期末筆試成績(jī)及格率的關(guān)系
圖3 不同性別和期末筆試成績(jī)及格人數(shù)的對(duì)比
圖4 不同性別和總討論數(shù)對(duì)期末筆試成績(jī)的影響
圖5 不同性別和訪問(wèn)數(shù)對(duì)期末筆試成績(jī)的影響
圖6 不同性別和觀看視頻時(shí)長(zhǎng)對(duì)期末筆試成績(jī)的影響
通過(guò)檢查缺失值并進(jìn)行填充,然后將特征數(shù)據(jù)標(biāo)準(zhǔn)化建立特征熱圖(圖7)篩選各特征相關(guān)性。
將標(biāo)準(zhǔn)化后的特征數(shù)據(jù)通過(guò)熱圖,可以從中看到一些正相關(guān)的特征以及一些負(fù)相關(guān)的特征。去掉其中“課程視頻得分”“期末成績(jī)”“回復(fù)討論”“MOOC綜合成績(jī)五級(jí)制等級(jí)”“課程測(cè)驗(yàn)得分”5個(gè)特征。
圖7 特征熱圖
雖然本文從特征分析部分獲得了一些結(jié)論,但仍然不能準(zhǔn)確地預(yù)測(cè)學(xué)生對(duì)知識(shí)點(diǎn)的掌握情況以及是否能通過(guò)期末筆試。本文將使用主流機(jī)器學(xué)習(xí)算法建模,預(yù)測(cè)學(xué)生是否已經(jīng)掌握相關(guān)知識(shí)。在機(jī)器學(xué)習(xí)領(lǐng)域,沒(méi)有一種算法能夠完美解決所有問(wèn)題,尤其是對(duì)監(jiān)督學(xué)習(xí)(如預(yù)測(cè)建模),所選的算法必須要適用于特定問(wèn)題,這就要求正確的選擇機(jī)器學(xué)習(xí)算法[21]。機(jī)器學(xué)習(xí)算法很多,如分類、回歸、聚類、推薦、圖像識(shí)別領(lǐng)域等,想找到一種合適的算法并不容易。因此在實(shí)際應(yīng)用中通常會(huì)選擇大家普遍認(rèn)同的算法,然后通過(guò)交叉驗(yàn)證(cross-validation)對(duì)每種算法進(jìn)行逐一測(cè)試、比較,最后選擇最好的一個(gè)模型。
本文在教學(xué)實(shí)踐中嘗試使用如支持向量機(jī)(SVM)、隨機(jī)森林(Random-Forests)、樸素貝葉斯(Na?ve Bayes)、邏輯回歸(Logistic Regression)、決策樹(shù)(Decision Tree)、k-近鄰(KNN)等主流機(jī)器學(xué)習(xí)算法建立預(yù)警模型。機(jī)器學(xué)習(xí)預(yù)警模型能夠通過(guò)學(xué)生的學(xué)習(xí)行為信息預(yù)測(cè)其期末筆試成績(jī)是否及格。模型的精度并不是決定機(jī)器學(xué)習(xí)算法效果的唯一因素。假設(shè)算法模型在訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練,需要在測(cè)試集上進(jìn)行測(cè)試才有效果。如果算法模型在訓(xùn)練集上的精確度很高,但是無(wú)法確保在所有的新測(cè)試集上精度都很高,當(dāng)訓(xùn)練和測(cè)試數(shù)據(jù)發(fā)生變化時(shí),精確度也會(huì)改變,它可能會(huì)增加或減少。為了克服這一問(wèn)題并得到一個(gè)廣義模型,我們通常使用交叉驗(yàn)證。我們將數(shù)據(jù)分為10等分,通過(guò)特征數(shù)據(jù)標(biāo)簽準(zhǔn)備、數(shù)據(jù)集切分、多種建模算法對(duì)比,用交叉驗(yàn)證來(lái)評(píng)估模型的精度。模型平均精度排前3位的依次為:支持向量機(jī)(76.33%)、邏輯回歸(75.67%)、隨機(jī)森林(72.67%)。其中支持向量機(jī)(SVM)建立的模型精度最高,平均預(yù)測(cè)精度和最高預(yù)測(cè)精度分別達(dá)到76.33%和90%(表2,圖8,圖9)。
表2 機(jī)器學(xué)習(xí)算法模型平均精度和標(biāo)準(zhǔn)差
圖8 機(jī)器學(xué)習(xí)算法模型平均精度條形圖
圖9 機(jī)器學(xué)習(xí)算法模型精度箱型圖
本文還使用混淆矩陣、ROC曲線下面積對(duì)機(jī)器學(xué)習(xí)算法模型進(jìn)行評(píng)估。
3.3.1 混淆矩陣
混淆矩陣是對(duì)有監(jiān)督機(jī)器學(xué)習(xí)分類算法準(zhǔn)確率進(jìn)行評(píng)估的工具。通過(guò)將訓(xùn)練集數(shù)據(jù)訓(xùn)練好的模型預(yù)測(cè)的數(shù)據(jù)與測(cè)試數(shù)據(jù)進(jìn)行對(duì)比,使用混淆矩陣(Confusion matrix)指標(biāo)對(duì)模型的分類效果進(jìn)行度量[22]。各機(jī)器學(xué)習(xí)預(yù)警模型的混淆矩陣見(jiàn)圖10。
圖10 機(jī)器學(xué)習(xí)算法模型混淆矩陣
3.3.2 ROC曲線下面積(ROC-AUC )
ROC曲線(receiver operating characteristic curve)又稱“接受者操作特征曲線”,最早應(yīng)用于雷達(dá)信號(hào)檢測(cè)領(lǐng)域,后來(lái)人們將其用于評(píng)價(jià)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)能力。ROC曲線是基于混淆矩陣的結(jié)果計(jì)算得出,AUC(Area Under Curve)的值為ROC曲線下面的面積。若模型預(yù)測(cè)完全準(zhǔn)確,則AUC為1。但現(xiàn)實(shí)中不會(huì)有如此完美的模型,一般AUC值在0.5到1之間。AUC值越高,則模型的預(yù)測(cè)能力越好。各機(jī)器學(xué)習(xí)預(yù)警模型ROC-AUC見(jiàn)表3。
表3 機(jī)器學(xué)習(xí)算法模型ROC-AUC
綜合混淆矩陣、ROC-AUC、模型精度交叉驗(yàn)證,選擇支持向量機(jī)(SVM)模型預(yù)測(cè)學(xué)生知識(shí)掌握情況,為教學(xué)評(píng)估、改善“MOOC翻轉(zhuǎn)課堂”教學(xué)質(zhì)量提供了數(shù)字化的模型評(píng)估標(biāo)準(zhǔn)。
《臨床藥物治療學(xué)》是我校藥學(xué)專業(yè)學(xué)生的專業(yè)核心課程,目前以線上線下混合教學(xué)為主。為了更好地利用MOOC指導(dǎo)線下的“翻轉(zhuǎn)課堂”教學(xué),提高教學(xué)質(zhì)量,對(duì)2016級(jí)藥學(xué)專業(yè)1-10班學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)進(jìn)行了挖掘和分析,并通過(guò)機(jī)器學(xué)習(xí)方法建立了在線學(xué)習(xí)行為數(shù)據(jù)與期末閉卷筆試成績(jī)(線下考試)的預(yù)測(cè)模型。
通過(guò)比較不同教學(xué)組的期末筆試成績(jī)發(fā)現(xiàn),通過(guò)MOOC學(xué)習(xí),“翻轉(zhuǎn)課堂”組的學(xué)生成績(jī)要優(yōu)于普通的案例教學(xué)組,說(shuō)明通過(guò)對(duì)MOOC平臺(tái)的數(shù)據(jù)挖掘,可以對(duì)學(xué)生進(jìn)行分層分類教學(xué),并優(yōu)化教學(xué)設(shè)計(jì),從而提高課堂效率。
本文發(fā)現(xiàn)設(shè)置的MOOC綜合成績(jī)并非期末筆試成績(jī)及格的決定性因素,MOOC綜合成績(jī)等級(jí)A中也有部分學(xué)生期末筆試成績(jī)不及格,等級(jí)B-E中期末筆試不及格人數(shù)比例隨等級(jí)下降而升高,說(shuō)明MOOC綜合成績(jī)的組成僅有觀看視頻完成度、線上測(cè)驗(yàn)及線上作業(yè)成績(jī)組成是不夠的,還需引入其他學(xué)習(xí)行為指標(biāo),才能更好地預(yù)測(cè)期末筆試成績(jī)。即使MOOC綜合成績(jī)等級(jí)相同,不同性別學(xué)生的期末筆試成績(jī)也不相同,以女生及格率更高。總體來(lái)看,女生在期末筆試成績(jī)中及格人數(shù)比例明顯高于男生,這可能跟女生更愿意努力學(xué)習(xí)以在考試中取得高分的意愿有一定關(guān)系。在“翻轉(zhuǎn)課堂”實(shí)踐教學(xué)中,觀察到女生在查資料和討論上較活躍,且發(fā)言更加積極主動(dòng),而這種主動(dòng)性在一定程度上推動(dòng)了學(xué)習(xí)進(jìn)步。此外,總討論數(shù)及訪問(wèn)數(shù)的中位數(shù)數(shù)據(jù)反映女生對(duì)MOOC的參與積極性更高,但總討論數(shù)、訪問(wèn)數(shù)與期末筆試成績(jī)是否及格呈現(xiàn)區(qū)域不平衡,一般情況下考試及格的學(xué)生參與度更高(即討論數(shù)、訪問(wèn)數(shù)均更高)。也有個(gè)別異常積極討論的學(xué)生依舊不及格,推測(cè)這部分學(xué)生可能學(xué)習(xí)比較勤奮,但學(xué)習(xí)方法不太得當(dāng),需要教師重點(diǎn)關(guān)注和引導(dǎo)。視頻觀看時(shí)長(zhǎng)的中位數(shù)反映女生的學(xué)習(xí)時(shí)間更長(zhǎng),筆試及格率也更高。研究中發(fā)現(xiàn)觀看視頻完成度(視頻完成90%即給予觀看視頻完成度滿分)相同的情況下,女生及格率更高,推測(cè)部分男生可能僅僅為了完成視頻觀看任務(wù)而播放視頻,并沒(méi)有認(rèn)真觀看和學(xué)習(xí)??梢钥紤]在未來(lái)的視頻播放中插入測(cè)試題,以提高學(xué)生的學(xué)習(xí)注意力,使學(xué)生真正從視頻中學(xué)到知識(shí)。由于視頻觀看完成度指標(biāo)存在一定局限性,選用視頻觀看時(shí)長(zhǎng)這個(gè)指標(biāo)來(lái)替代,能更加客觀地預(yù)測(cè)期末筆試成績(jī)。通過(guò)視頻觀看時(shí)長(zhǎng)發(fā)現(xiàn)一般情況下學(xué)習(xí)時(shí)間越長(zhǎng),及格率越高,推測(cè)反復(fù)看視頻可以加深對(duì)知識(shí)點(diǎn)的理解,這也體現(xiàn)了MOOC學(xué)習(xí)的優(yōu)勢(shì)。
本文以期末筆試成績(jī)作為最終預(yù)測(cè)指標(biāo),因?yàn)殚]卷考試更突顯公平公正,受其他因素干擾較小,且考試知識(shí)點(diǎn)囊括MOOC所學(xué)范圍,分布相對(duì)合理。學(xué)生的學(xué)習(xí)態(tài)度可以通過(guò)在線課程的訪問(wèn)數(shù)、討論數(shù)、視頻觀看時(shí)長(zhǎng)等指標(biāo)體現(xiàn),而學(xué)習(xí)能力在一定程度上可以通過(guò)線上測(cè)驗(yàn)和作業(yè)成績(jī)體現(xiàn)。學(xué)生的學(xué)習(xí)態(tài)度和能力會(huì)影響其最終的學(xué)習(xí)質(zhì)量,因此通過(guò)預(yù)警模型可以提前進(jìn)行干預(yù),對(duì)預(yù)警學(xué)生(預(yù)測(cè)出其期末筆試成績(jī)可能低于60分)進(jìn)行督學(xué)導(dǎo)學(xué),提高其學(xué)習(xí)質(zhì)量,使其真正掌握知識(shí)和技能。
本文總結(jié)了國(guó)內(nèi)外研究者在教育大數(shù)據(jù)挖掘的相關(guān)研究及存在的問(wèn)題,以《臨床藥物治療學(xué)》MOOC課程在線學(xué)習(xí)行為數(shù)據(jù)為基礎(chǔ)使用主流機(jī)器學(xué)習(xí)算法建立預(yù)警模型,并基于各種學(xué)習(xí)行為指標(biāo)預(yù)測(cè)其對(duì)期末筆試成績(jī)的影響。通過(guò)熱圖對(duì)各種學(xué)習(xí)行為特征進(jìn)行篩選,將在線學(xué)習(xí)行為數(shù)據(jù)使用主流機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練和建立預(yù)警模型,綜合混淆矩陣、ROC-AUC、模型精度交叉驗(yàn)證等模型評(píng)估指標(biāo),最終選擇支持向量機(jī)(SVM)模型來(lái)預(yù)測(cè)學(xué)生知識(shí)掌握情況。它對(duì)學(xué)生的學(xué)習(xí)質(zhì)量評(píng)估起到預(yù)警作用。教師可以調(diào)整教學(xué)計(jì)劃,指導(dǎo)線下的“翻轉(zhuǎn)課堂”教學(xué),并重點(diǎn)關(guān)注被預(yù)警的學(xué)生;學(xué)生則需要督促其端正態(tài)度,加強(qiáng)學(xué)習(xí)。
由于本文只選用了300名學(xué)生的MOOC特征數(shù)據(jù),訓(xùn)練數(shù)據(jù)偏少,模型的精度尚需提高。下一步一方面計(jì)劃大量采集不同學(xué)習(xí)者的學(xué)習(xí)行為數(shù)據(jù)來(lái)進(jìn)一步訓(xùn)練模型,另一方面計(jì)劃通過(guò)優(yōu)化特征進(jìn)一步提升模型精度,更好地預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)質(zhì)量,并計(jì)劃對(duì)被預(yù)警者進(jìn)行多種手段干預(yù),如平臺(tái)中的督學(xué)導(dǎo)學(xué)功能、電子郵件,談心法等。同時(shí)通過(guò)深度學(xué)習(xí)為不同的學(xué)習(xí)者精準(zhǔn)推送知識(shí)點(diǎn),真正做到因材施教,從而全面提升教學(xué)質(zhì)量。
中華醫(yī)學(xué)圖書(shū)情報(bào)雜志2019年7期