基于MOOC的大數(shù)據(jù)學(xué)習(xí)預(yù)警模型在混合教學(xué)中的應(yīng)用

2019-10-23 10:19:12

中華醫(yī)學(xué)圖書(shū)情報(bào)雜志 2019年7期

隨著互聯(lián)網(wǎng)技術(shù)在教育領(lǐng)域的大規(guī)模應(yīng)用，教育大數(shù)據(jù)挖掘已成為推動(dòng)我國(guó)教育改革、創(chuàng)新發(fā)展的重要戰(zhàn)略。大規(guī)模開(kāi)放在線課程(Massive Open Online Courses，MOOC)作為遠(yuǎn)程教育的重要形式之一，打破了學(xué)習(xí)者的時(shí)間和空間限制，滿足了學(xué)習(xí)者多樣化的學(xué)習(xí)需求。

MOOC平臺(tái)完整記錄了教學(xué)者和學(xué)習(xí)者的行為，產(chǎn)生了大量連續(xù)的教學(xué)互動(dòng)信息。這些信息表征了學(xué)習(xí)者零散、無(wú)意識(shí)的學(xué)習(xí)行為，是深入研究學(xué)習(xí)行為和學(xué)習(xí)心理的新素材。對(duì)其進(jìn)行深入分析，能夠發(fā)掘?qū)W習(xí)者最真實(shí)的思維和學(xué)習(xí)情況，不僅能在理論上促進(jìn)對(duì)學(xué)習(xí)本質(zhì)、學(xué)習(xí)者的學(xué)習(xí)心理和學(xué)習(xí)行為的研究，更能在實(shí)際應(yīng)用中幫助跟蹤學(xué)習(xí)者的學(xué)習(xí)過(guò)程、評(píng)價(jià)學(xué)習(xí)效果、準(zhǔn)確把握其學(xué)習(xí)狀態(tài)，以便及早干預(yù)[1-3]。隨著MOOC平臺(tái)在線學(xué)習(xí)系統(tǒng)的激增，教育數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長(zhǎng)的勢(shì)頭，傳統(tǒng)技術(shù)手段已經(jīng)無(wú)法對(duì)海量數(shù)據(jù)進(jìn)行處理和分析。大數(shù)據(jù)技術(shù)可以計(jì)算和分析教、學(xué)、研等多角度的數(shù)據(jù)特征，構(gòu)建用戶畫(huà)像，提取出對(duì)學(xué)生學(xué)習(xí)行為和教師教學(xué)情況的反饋和建議，從而為改善教學(xué)質(zhì)量做出最合理的評(píng)估和決策。

大數(shù)據(jù)挖掘技術(shù)是指從大量數(shù)據(jù)中自動(dòng)搜索特殊關(guān)系信息的過(guò)程。大數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)，并通過(guò)統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等方法實(shí)現(xiàn)目標(biāo)。其中“機(jī)器學(xué)習(xí)”是21世紀(jì)興起的一門(mén)多領(lǐng)域交叉學(xué)科，機(jī)器學(xué)習(xí)理論主要是設(shè)計(jì)和分析一些讓計(jì)算機(jī)可以自動(dòng)“學(xué)習(xí)”的算法，“機(jī)器學(xué)習(xí)”算法是一類從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律，并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法；“深度學(xué)習(xí)”是建立、模擬人腦神經(jīng)網(wǎng)絡(luò)，通過(guò)模仿人腦的機(jī)制進(jìn)行數(shù)據(jù)的詮釋，如聲音、圖像和文本識(shí)別等。

從數(shù)學(xué)模型的角度來(lái)講，深度學(xué)習(xí)是一種復(fù)雜的特征提取方法，將原始數(shù)據(jù)通過(guò)一些非線性模型變換為更高層次的抽象表達(dá)，再組合多層變換，學(xué)習(xí)提取出非常復(fù)雜的函數(shù)特征方法。與傳統(tǒng)機(jī)器學(xué)習(xí)相比，深度學(xué)習(xí)的核心在于含有多個(gè)隱層，并且各層特征的提取不是通過(guò)人工參與設(shè)計(jì)，而是在其學(xué)習(xí)過(guò)程里從數(shù)據(jù)中自學(xué)。這種“黑盒式”的自學(xué)習(xí)特征對(duì)數(shù)據(jù)結(jié)構(gòu)要求低，但對(duì)數(shù)據(jù)量要求大，因此非常適合當(dāng)前互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用的需要[4]。由于深度學(xué)習(xí)非常依賴于高端硬件設(shè)備，而且當(dāng)數(shù)據(jù)量較少時(shí)，深度學(xué)習(xí)算法的表現(xiàn)并不佳[5]，因此本文采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法建立學(xué)習(xí)預(yù)警模型。

“翻轉(zhuǎn)課堂”作為一種新型教學(xué)模式[6]，以學(xué)生為主體，能夠真正調(diào)動(dòng)學(xué)生積極性，提高學(xué)習(xí)效率和質(zhì)量。目前基于MOOC教學(xué)的“翻轉(zhuǎn)課堂”，即線上線下混合教學(xué)法已經(jīng)被廣泛應(yīng)用于高校教學(xué)。然而關(guān)于在如何深入挖掘MOOC平臺(tái)的海量教學(xué)信息分析和預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)行為和特點(diǎn)，并制定精準(zhǔn)的教學(xué)方案，從而針對(duì)性地指導(dǎo)學(xué)習(xí)及評(píng)估教學(xué)質(zhì)量等方面的研究尚淺。因此本文將以《臨床藥物治療學(xué)》課程為例，通過(guò)實(shí)證開(kāi)展混合教學(xué)法中基于在線學(xué)習(xí)行為數(shù)據(jù)的學(xué)習(xí)預(yù)警模型研究。

1 數(shù)據(jù)與方法

近年來(lái)國(guó)外研究者除關(guān)注學(xué)習(xí)者對(duì)在線學(xué)習(xí)的接受程度外，也關(guān)注學(xué)習(xí)者的學(xué)習(xí)表現(xiàn)、學(xué)習(xí)態(tài)度、學(xué)習(xí)動(dòng)機(jī)以及學(xué)習(xí)風(fēng)格等，數(shù)據(jù)挖掘技術(shù)開(kāi)始受到重視[7]。Teng等人[8]依據(jù)學(xué)習(xí)行為的相似性對(duì)學(xué)習(xí)者進(jìn)行聚類，并在分析聚類結(jié)果后為每類學(xué)習(xí)者提供針對(duì)性建議；Aher等人[9]在K-means 算法聚類的基礎(chǔ)上，應(yīng)用Apriori算法對(duì)各類學(xué)生的課程學(xué)習(xí)記錄進(jìn)行關(guān)聯(lián)規(guī)則分析，得到各類學(xué)生偏好的課程學(xué)習(xí)順序，從而向?qū)W生推薦合適的課程。

隨著大數(shù)據(jù)算法的不斷演進(jìn)，國(guó)外大數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用日新月異[10-14]。在可視化預(yù)警系統(tǒng)上，比較有代表性的是可汗學(xué)院的學(xué)習(xí)儀表盤(pán)系統(tǒng)。該系統(tǒng)將學(xué)習(xí)管理系統(tǒng)與可視化工具相結(jié)合，運(yùn)用信息跟蹤技術(shù)和鏡像技術(shù)對(duì)學(xué)習(xí)者的學(xué)習(xí)行為、習(xí)慣興趣等信息進(jìn)行記錄和追蹤，并對(duì)測(cè)驗(yàn)成績(jī)、學(xué)習(xí)時(shí)間和學(xué)習(xí)路徑等數(shù)據(jù)進(jìn)行分析，依據(jù)對(duì)知識(shí)點(diǎn)的掌握情況進(jìn)行反饋預(yù)警，幫助學(xué)習(xí)者提高知識(shí)點(diǎn)掌握程度和改善學(xué)習(xí)技能[15]。近年來(lái)國(guó)內(nèi)MOOC快速崛起，數(shù)據(jù)挖掘技術(shù)被引入在線學(xué)習(xí)行為的研究，涌現(xiàn)出一批研究成果[16-19]。

檢索國(guó)內(nèi)常用數(shù)據(jù)庫(kù)，時(shí)間跨度為2007-2018年，獲得有關(guān)學(xué)習(xí)預(yù)警模型設(shè)計(jì)的文獻(xiàn)。如趙慧瓊等設(shè)計(jì)的在線學(xué)習(xí)干預(yù)模型，運(yùn)用數(shù)據(jù)分析技術(shù)對(duì)學(xué)習(xí)管理系統(tǒng)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析，利用決策樹(shù)算法進(jìn)行危機(jī)診斷，一旦發(fā)現(xiàn)學(xué)習(xí)者存在危機(jī)，則及時(shí)采取電子郵件、資源推薦、彈出窗口等方式發(fā)送預(yù)警信息，以輔助學(xué)習(xí)者的學(xué)習(xí)活動(dòng)順利進(jìn)行[20]。

通過(guò)分析國(guó)內(nèi)外教育大數(shù)據(jù)文獻(xiàn)內(nèi)容發(fā)現(xiàn)，在教育數(shù)據(jù)的挖掘上，大多偏重于對(duì)數(shù)據(jù)自身的分析，缺少對(duì)教育價(jià)值的深度分析；在教育數(shù)據(jù)的建模分析上，主要集中在理論模型的建立與性質(zhì)分析，而基于在真實(shí)教學(xué)數(shù)據(jù)上建立機(jī)器學(xué)習(xí)模型進(jìn)行挖掘分析的研究較為少見(jiàn)；預(yù)警模型的算法單一，沒(méi)有采用主流機(jī)器學(xué)習(xí)算法，并且很少采用交叉驗(yàn)證、混淆矩陣等技術(shù)評(píng)估和選擇合適的模型。由于機(jī)器學(xué)習(xí)算法日新月異，主觀選擇的某一種機(jī)器學(xué)習(xí)算法有時(shí)并非最好的選擇。如果把目前主流的機(jī)器學(xué)習(xí)算法(如支持向量機(jī)(SVM)，隨機(jī)森林、樸素貝葉斯、Logistic回歸、決策樹(shù)、k-近鄰等)都代入數(shù)據(jù)中訓(xùn)練，并用交叉驗(yàn)證、混淆矩陣等技術(shù)評(píng)估和選擇合適的算法模型，這樣的模型精度會(huì)更高，預(yù)警評(píng)估的效果將更好。

2 《臨床藥物治療學(xué)》的MOOC在線學(xué)習(xí)課程

2.1 課程基本情況與實(shí)驗(yàn)對(duì)象

《臨床藥物治療學(xué)》課程是浙江醫(yī)藥高等?？茖W(xué)校(以下簡(jiǎn)稱“我?！?開(kāi)設(shè)的一門(mén)專業(yè)課程，教師團(tuán)隊(duì)為藥學(xué)院教師，適用對(duì)象為藥學(xué)類專業(yè)的學(xué)生，開(kāi)課時(shí)間為2018年2-6月，實(shí)驗(yàn)對(duì)象為2016級(jí)藥學(xué)專業(yè)的300余名學(xué)生。按班級(jí)分為“MOOC+案例教學(xué)”對(duì)照組和“MOOC+翻轉(zhuǎn)課堂”實(shí)驗(yàn)組(分別為179人和129人)，2組分別采用“MOOC+案例”教學(xué)和“MOOC+翻轉(zhuǎn)課堂”教學(xué)。兩組授課內(nèi)容完全相同，且均連續(xù)實(shí)施32學(xué)時(shí)(其中10學(xué)時(shí)是MOOC教學(xué))。

2.2 教學(xué)實(shí)驗(yàn)方法

實(shí)驗(yàn)教學(xué)方法主要分為以下兩種。

2.2.1 “MOOC+案例”教學(xué)

預(yù)習(xí)：登錄超星泛雅平臺(tái)學(xué)習(xí)，完成測(cè)驗(yàn)作業(yè)和討論。

案例引入：課堂上選擇疾病典型案例，根據(jù)教學(xué)目標(biāo)設(shè)置問(wèn)題，給予學(xué)生同樣的案例。

互動(dòng)交流：學(xué)生在課前和課中以小組為單位，互相交流并解決問(wèn)題，在教師引導(dǎo)下小組討論發(fā)言。

歸納總結(jié)：教師對(duì)案例討論進(jìn)行點(diǎn)評(píng)及歸納總結(jié)。

臨床實(shí)訓(xùn)：醫(yī)院各科室?guī)Ы提t(yī)生帶領(lǐng)學(xué)生閱讀病歷，與患者溝通并了解病情和用藥，根據(jù)案例指導(dǎo)學(xué)生制定和評(píng)價(jià)藥物治療方案。

2.2.2 “MOOC+翻轉(zhuǎn)課堂”教學(xué)

根據(jù)學(xué)生在MOOC平臺(tái)的學(xué)習(xí)情況分層分類設(shè)計(jì)翻轉(zhuǎn)課堂教學(xué)內(nèi)容，分別給予學(xué)習(xí)情況較好和較差的學(xué)生不同難度的案例學(xué)習(xí)，并統(tǒng)計(jì)平臺(tái)上學(xué)生知識(shí)掌握情況。針對(duì)未掌握的知識(shí)點(diǎn)進(jìn)行重點(diǎn)講述，其余學(xué)習(xí)過(guò)程與“MOOC+案例”教學(xué)班相同。

表1 慕課+案例教學(xué)組和慕課+翻轉(zhuǎn)課堂組期末成績(jī)

3 MOOC學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)挖掘分析與建模

大數(shù)據(jù)挖掘分析與建模流程分為數(shù)據(jù)獲取與特征分析、數(shù)據(jù)預(yù)處理與特征選擇、模型構(gòu)建3個(gè)步驟。

3.1 數(shù)據(jù)獲取與特征分析

3.1.1 數(shù)據(jù)集描述

從超星MOOC平臺(tái)采集的《臨床藥物治療學(xué)》MOOC在線學(xué)習(xí)行為數(shù)據(jù)描述了一個(gè)學(xué)習(xí)者該門(mén)課程的學(xué)習(xí)記錄，每列項(xiàng)為對(duì)學(xué)習(xí)者學(xué)習(xí)行為的描述，提供了十幾項(xiàng)維度，主要分為3類，分別是課程信息(臨床藥物治療學(xué))、學(xué)習(xí)者的基本信息(學(xué)號(hào)、姓名、性別)、學(xué)習(xí)者的行為信息(視頻觀看時(shí)長(zhǎng)、訪問(wèn)數(shù)，任務(wù)點(diǎn)完成百分比、總討論數(shù)、回復(fù)討論、發(fā)表討論、課程視頻得分、課程測(cè)驗(yàn)得分、作業(yè)得分、MOOC綜合成績(jī)、MOOC綜合成績(jī)五級(jí)制等級(jí)、MOOC綜合成績(jī)是否及格、期末成績(jī))。

3.1.2 數(shù)據(jù)獲取

利用Python數(shù)據(jù)分析模塊pandas讀取合并2016級(jí)藥學(xué)專業(yè)300名學(xué)生在超星MOOC平臺(tái)上的學(xué)習(xí)行為信息(包括測(cè)驗(yàn)、作業(yè)成績(jī)，討論數(shù)，視頻觀看時(shí)長(zhǎng)等指標(biāo)數(shù)據(jù))，并與期末筆試成績(jī)按學(xué)號(hào)關(guān)聯(lián)合并，完成數(shù)據(jù)提取工作。

3.1.3 學(xué)習(xí)者行為分析

通過(guò)單特征分析、多變量統(tǒng)計(jì)分析，統(tǒng)計(jì)繪圖得出以下結(jié)論。MOOC綜合成績(jī)(由線上學(xué)習(xí)中的觀看視頻完成度、線上測(cè)驗(yàn)及線上作業(yè)成績(jī)組成)A-E中期末筆試不及格人數(shù)比例隨等級(jí)下降而升高(圖1)。圖1中“0”代表不及格，“1”代表及格；橫坐標(biāo)中等級(jí)A為90分及以上，等級(jí)B為80～89分，等級(jí)C為70～79分，等級(jí)D為60～69分，等級(jí)E為60分以下；縱坐標(biāo)為人數(shù)。MOOC綜合成績(jī)等級(jí)相同時(shí)，不同性別在期末筆試成績(jī)中有顯著差異：女生及格率更高(圖2)，且女生在期末筆試成績(jī)中及格人數(shù)的比例明顯高于男生(圖3)；總討論數(shù)和訪問(wèn)數(shù)的中位數(shù)數(shù)據(jù)均顯示女生高于男生，但總討論數(shù)、訪問(wèn)數(shù)與期末筆試成績(jī)是否及格均分布呈現(xiàn)區(qū)域不平衡，一般情況下考試及格的學(xué)生總討論數(shù)、訪問(wèn)數(shù)均更高(圖4和圖5)。觀看視頻時(shí)長(zhǎng)的中位數(shù)數(shù)據(jù)女生高于男生，一般情況下考試及格的學(xué)生觀看視頻時(shí)長(zhǎng)更長(zhǎng)(圖6)。

圖1 MOOC綜合成績(jī)等級(jí)與期末筆試成績(jī)及格關(guān)系

圖2 MOOC綜合成績(jī)等級(jí)、性別和期末筆試成績(jī)及格率的關(guān)系

圖3 不同性別和期末筆試成績(jī)及格人數(shù)的對(duì)比

圖4 不同性別和總討論數(shù)對(duì)期末筆試成績(jī)的影響

圖5 不同性別和訪問(wèn)數(shù)對(duì)期末筆試成績(jī)的影響

圖6 不同性別和觀看視頻時(shí)長(zhǎng)對(duì)期末筆試成績(jī)的影響

3.2 數(shù)據(jù)預(yù)處理與特征選擇

通過(guò)檢查缺失值并進(jìn)行填充，然后將特征數(shù)據(jù)標(biāo)準(zhǔn)化建立特征熱圖(圖7)篩選各特征相關(guān)性。

將標(biāo)準(zhǔn)化后的特征數(shù)據(jù)通過(guò)熱圖，可以從中看到一些正相關(guān)的特征以及一些負(fù)相關(guān)的特征。去掉其中“課程視頻得分”“期末成績(jī)”“回復(fù)討論”“MOOC綜合成績(jī)五級(jí)制等級(jí)”“課程測(cè)驗(yàn)得分”5個(gè)特征。

圖7 特征熱圖

3.3 學(xué)習(xí)預(yù)警模型構(gòu)建

雖然本文從特征分析部分獲得了一些結(jié)論，但仍然不能準(zhǔn)確地預(yù)測(cè)學(xué)生對(duì)知識(shí)點(diǎn)的掌握情況以及是否能通過(guò)期末筆試。本文將使用主流機(jī)器學(xué)習(xí)算法建模，預(yù)測(cè)學(xué)生是否已經(jīng)掌握相關(guān)知識(shí)。在機(jī)器學(xué)習(xí)領(lǐng)域，沒(méi)有一種算法能夠完美解決所有問(wèn)題，尤其是對(duì)監(jiān)督學(xué)習(xí)(如預(yù)測(cè)建模)，所選的算法必須要適用于特定問(wèn)題，這就要求正確的選擇機(jī)器學(xué)習(xí)算法[21]。機(jī)器學(xué)習(xí)算法很多，如分類、回歸、聚類、推薦、圖像識(shí)別領(lǐng)域等，想找到一種合適的算法并不容易。因此在實(shí)際應(yīng)用中通常會(huì)選擇大家普遍認(rèn)同的算法，然后通過(guò)交叉驗(yàn)證(cross-validation)對(duì)每種算法進(jìn)行逐一測(cè)試、比較，最后選擇最好的一個(gè)模型。

本文在教學(xué)實(shí)踐中嘗試使用如支持向量機(jī)(SVM)、隨機(jī)森林(Random-Forests)、樸素貝葉斯(Na?ve Bayes)、邏輯回歸(Logistic Regression)、決策樹(shù)(Decision Tree)、k-近鄰(KNN)等主流機(jī)器學(xué)習(xí)算法建立預(yù)警模型。機(jī)器學(xué)習(xí)預(yù)警模型能夠通過(guò)學(xué)生的學(xué)習(xí)行為信息預(yù)測(cè)其期末筆試成績(jī)是否及格。模型的精度并不是決定機(jī)器學(xué)習(xí)算法效果的唯一因素。假設(shè)算法模型在訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練，需要在測(cè)試集上進(jìn)行測(cè)試才有效果。如果算法模型在訓(xùn)練集上的精確度很高，但是無(wú)法確保在所有的新測(cè)試集上精度都很高，當(dāng)訓(xùn)練和測(cè)試數(shù)據(jù)發(fā)生變化時(shí)，精確度也會(huì)改變，它可能會(huì)增加或減少。為了克服這一問(wèn)題并得到一個(gè)廣義模型，我們通常使用交叉驗(yàn)證。我們將數(shù)據(jù)分為10等分，通過(guò)特征數(shù)據(jù)標(biāo)簽準(zhǔn)備、數(shù)據(jù)集切分、多種建模算法對(duì)比，用交叉驗(yàn)證來(lái)評(píng)估模型的精度。模型平均精度排前3位的依次為：支持向量機(jī)(76.33%)、邏輯回歸(75.67%)、隨機(jī)森林(72.67%)。其中支持向量機(jī)(SVM)建立的模型精度最高，平均預(yù)測(cè)精度和最高預(yù)測(cè)精度分別達(dá)到76.33%和90%(表2，圖8，圖9)。

表2 機(jī)器學(xué)習(xí)算法模型平均精度和標(biāo)準(zhǔn)差

圖8 機(jī)器學(xué)習(xí)算法模型平均精度條形圖

圖9 機(jī)器學(xué)習(xí)算法模型精度箱型圖

本文還使用混淆矩陣、ROC曲線下面積對(duì)機(jī)器學(xué)習(xí)算法模型進(jìn)行評(píng)估。

3.3.1 混淆矩陣

混淆矩陣是對(duì)有監(jiān)督機(jī)器學(xué)習(xí)分類算法準(zhǔn)確率進(jìn)行評(píng)估的工具。通過(guò)將訓(xùn)練集數(shù)據(jù)訓(xùn)練好的模型預(yù)測(cè)的數(shù)據(jù)與測(cè)試數(shù)據(jù)進(jìn)行對(duì)比，使用混淆矩陣(Confusion matrix)指標(biāo)對(duì)模型的分類效果進(jìn)行度量[22]。各機(jī)器學(xué)習(xí)預(yù)警模型的混淆矩陣見(jiàn)圖10。

圖10 機(jī)器學(xué)習(xí)算法模型混淆矩陣

3.3.2 ROC曲線下面積(ROC-AUC )

ROC曲線(receiver operating characteristic curve)又稱“接受者操作特征曲線”，最早應(yīng)用于雷達(dá)信號(hào)檢測(cè)領(lǐng)域，后來(lái)人們將其用于評(píng)價(jià)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)能力。ROC曲線是基于混淆矩陣的結(jié)果計(jì)算得出，AUC(Area Under Curve)的值為ROC曲線下面的面積。若模型預(yù)測(cè)完全準(zhǔn)確，則AUC為1。但現(xiàn)實(shí)中不會(huì)有如此完美的模型，一般AUC值在0.5到1之間。AUC值越高，則模型的預(yù)測(cè)能力越好。各機(jī)器學(xué)習(xí)預(yù)警模型ROC-AUC見(jiàn)表3。

表3 機(jī)器學(xué)習(xí)算法模型ROC-AUC

綜合混淆矩陣、ROC-AUC、模型精度交叉驗(yàn)證，選擇支持向量機(jī)(SVM)模型預(yù)測(cè)學(xué)生知識(shí)掌握情況，為教學(xué)評(píng)估、改善“MOOC翻轉(zhuǎn)課堂”教學(xué)質(zhì)量提供了數(shù)字化的模型評(píng)估標(biāo)準(zhǔn)。

4 討論

《臨床藥物治療學(xué)》是我校藥學(xué)專業(yè)學(xué)生的專業(yè)核心課程，目前以線上線下混合教學(xué)為主。為了更好地利用MOOC指導(dǎo)線下的“翻轉(zhuǎn)課堂”教學(xué)，提高教學(xué)質(zhì)量，對(duì)2016級(jí)藥學(xué)專業(yè)1-10班學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)進(jìn)行了挖掘和分析，并通過(guò)機(jī)器學(xué)習(xí)方法建立了在線學(xué)習(xí)行為數(shù)據(jù)與期末閉卷筆試成績(jī)(線下考試)的預(yù)測(cè)模型。

4.1 MOOC背景下“翻轉(zhuǎn)課堂”和案例教學(xué)的優(yōu)勢(shì)

通過(guò)比較不同教學(xué)組的期末筆試成績(jī)發(fā)現(xiàn)，通過(guò)MOOC學(xué)習(xí)，“翻轉(zhuǎn)課堂”組的學(xué)生成績(jī)要優(yōu)于普通的案例教學(xué)組，說(shuō)明通過(guò)對(duì)MOOC平臺(tái)的數(shù)據(jù)挖掘，可以對(duì)學(xué)生進(jìn)行分層分類教學(xué)，并優(yōu)化教學(xué)設(shè)計(jì)，從而提高課堂效率。

4.2 MOOC背景下各在線學(xué)習(xí)行為特征分析

本文發(fā)現(xiàn)設(shè)置的MOOC綜合成績(jī)并非期末筆試成績(jī)及格的決定性因素，MOOC綜合成績(jī)等級(jí)A中也有部分學(xué)生期末筆試成績(jī)不及格，等級(jí)B-E中期末筆試不及格人數(shù)比例隨等級(jí)下降而升高，說(shuō)明MOOC綜合成績(jī)的組成僅有觀看視頻完成度、線上測(cè)驗(yàn)及線上作業(yè)成績(jī)組成是不夠的，還需引入其他學(xué)習(xí)行為指標(biāo)，才能更好地預(yù)測(cè)期末筆試成績(jī)。即使MOOC綜合成績(jī)等級(jí)相同，不同性別學(xué)生的期末筆試成績(jī)也不相同，以女生及格率更高。總體來(lái)看，女生在期末筆試成績(jī)中及格人數(shù)比例明顯高于男生，這可能跟女生更愿意努力學(xué)習(xí)以在考試中取得高分的意愿有一定關(guān)系。在“翻轉(zhuǎn)課堂”實(shí)踐教學(xué)中，觀察到女生在查資料和討論上較活躍，且發(fā)言更加積極主動(dòng)，而這種主動(dòng)性在一定程度上推動(dòng)了學(xué)習(xí)進(jìn)步。此外，總討論數(shù)及訪問(wèn)數(shù)的中位數(shù)數(shù)據(jù)反映女生對(duì)MOOC的參與積極性更高，但總討論數(shù)、訪問(wèn)數(shù)與期末筆試成績(jī)是否及格呈現(xiàn)區(qū)域不平衡，一般情況下考試及格的學(xué)生參與度更高(即討論數(shù)、訪問(wèn)數(shù)均更高)。也有個(gè)別異常積極討論的學(xué)生依舊不及格，推測(cè)這部分學(xué)生可能學(xué)習(xí)比較勤奮，但學(xué)習(xí)方法不太得當(dāng)，需要教師重點(diǎn)關(guān)注和引導(dǎo)。視頻觀看時(shí)長(zhǎng)的中位數(shù)反映女生的學(xué)習(xí)時(shí)間更長(zhǎng)，筆試及格率也更高。研究中發(fā)現(xiàn)觀看視頻完成度(視頻完成90%即給予觀看視頻完成度滿分)相同的情況下，女生及格率更高，推測(cè)部分男生可能僅僅為了完成視頻觀看任務(wù)而播放視頻，并沒(méi)有認(rèn)真觀看和學(xué)習(xí)?？梢钥紤]在未來(lái)的視頻播放中插入測(cè)試題，以提高學(xué)生的學(xué)習(xí)注意力，使學(xué)生真正從視頻中學(xué)到知識(shí)。由于視頻觀看完成度指標(biāo)存在一定局限性，選用視頻觀看時(shí)長(zhǎng)這個(gè)指標(biāo)來(lái)替代，能更加客觀地預(yù)測(cè)期末筆試成績(jī)。通過(guò)視頻觀看時(shí)長(zhǎng)發(fā)現(xiàn)一般情況下學(xué)習(xí)時(shí)間越長(zhǎng)，及格率越高，推測(cè)反復(fù)看視頻可以加深對(duì)知識(shí)點(diǎn)的理解，這也體現(xiàn)了MOOC學(xué)習(xí)的優(yōu)勢(shì)。

本文以期末筆試成績(jī)作為最終預(yù)測(cè)指標(biāo)，因?yàn)殚]卷考試更突顯公平公正，受其他因素干擾較小，且考試知識(shí)點(diǎn)囊括MOOC所學(xué)范圍，分布相對(duì)合理。學(xué)生的學(xué)習(xí)態(tài)度可以通過(guò)在線課程的訪問(wèn)數(shù)、討論數(shù)、視頻觀看時(shí)長(zhǎng)等指標(biāo)體現(xiàn)，而學(xué)習(xí)能力在一定程度上可以通過(guò)線上測(cè)驗(yàn)和作業(yè)成績(jī)體現(xiàn)。學(xué)生的學(xué)習(xí)態(tài)度和能力會(huì)影響其最終的學(xué)習(xí)質(zhì)量，因此通過(guò)預(yù)警模型可以提前進(jìn)行干預(yù)，對(duì)預(yù)警學(xué)生(預(yù)測(cè)出其期末筆試成績(jī)可能低于60分)進(jìn)行督學(xué)導(dǎo)學(xué)，提高其學(xué)習(xí)質(zhì)量，使其真正掌握知識(shí)和技能。

5 結(jié)語(yǔ)

本文總結(jié)了國(guó)內(nèi)外研究者在教育大數(shù)據(jù)挖掘的相關(guān)研究及存在的問(wèn)題，以《臨床藥物治療學(xué)》MOOC課程在線學(xué)習(xí)行為數(shù)據(jù)為基礎(chǔ)使用主流機(jī)器學(xué)習(xí)算法建立預(yù)警模型，并基于各種學(xué)習(xí)行為指標(biāo)預(yù)測(cè)其對(duì)期末筆試成績(jī)的影響。通過(guò)熱圖對(duì)各種學(xué)習(xí)行為特征進(jìn)行篩選，將在線學(xué)習(xí)行為數(shù)據(jù)使用主流機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練和建立預(yù)警模型，綜合混淆矩陣、ROC-AUC、模型精度交叉驗(yàn)證等模型評(píng)估指標(biāo)，最終選擇支持向量機(jī)(SVM)模型來(lái)預(yù)測(cè)學(xué)生知識(shí)掌握情況。它對(duì)學(xué)生的學(xué)習(xí)質(zhì)量評(píng)估起到預(yù)警作用。教師可以調(diào)整教學(xué)計(jì)劃，指導(dǎo)線下的“翻轉(zhuǎn)課堂”教學(xué)，并重點(diǎn)關(guān)注被預(yù)警的學(xué)生；學(xué)生則需要督促其端正態(tài)度，加強(qiáng)學(xué)習(xí)。

由于本文只選用了300名學(xué)生的MOOC特征數(shù)據(jù)，訓(xùn)練數(shù)據(jù)偏少，模型的精度尚需提高。下一步一方面計(jì)劃大量采集不同學(xué)習(xí)者的學(xué)習(xí)行為數(shù)據(jù)來(lái)進(jìn)一步訓(xùn)練模型，另一方面計(jì)劃通過(guò)優(yōu)化特征進(jìn)一步提升模型精度，更好地預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)質(zhì)量，并計(jì)劃對(duì)被預(yù)警者進(jìn)行多種手段干預(yù)，如平臺(tái)中的督學(xué)導(dǎo)學(xué)功能、電子郵件，談心法等。同時(shí)通過(guò)深度學(xué)習(xí)為不同的學(xué)習(xí)者精準(zhǔn)推送知識(shí)點(diǎn)，真正做到因材施教，從而全面提升教學(xué)質(zhì)量。