郝巧龍
近年來,MOOC以“互聯(lián)網(wǎng)+教育”模式迅速發(fā)展,積累了海量學(xué)習(xí)行為數(shù)據(jù),MOOC學(xué)習(xí)行為分析及成績預(yù)測成為研究熱點(diǎn)。筆者收集學(xué)習(xí)行為數(shù)據(jù),用Clementine構(gòu)建了MOOC成績預(yù)測模型,為驗(yàn)證其有效性,依托智慧樹平臺(tái)數(shù)據(jù)結(jié)構(gòu)課程的行為數(shù)據(jù)展開實(shí)證研究,旨在為其課程團(tuán)隊(duì)提供指導(dǎo)意見。
【關(guān)鍵詞】MOOC 數(shù)據(jù)挖掘 回歸分析 成績預(yù)測模型
MOOC(Massive Open Online Course)的理想是任何人在任何時(shí)間和地點(diǎn)學(xué)到任何知識(shí)。2012年斯坦福大學(xué)等名校組建了Coursera、Udacity和edX平臺(tái)。2013年清華北大等名校和互聯(lián)網(wǎng)公司展開了MOOC實(shí)踐,研發(fā)了學(xué)習(xí)者在線交互平臺(tái),為分析成績與行為的關(guān)系提供數(shù)據(jù)支持。國內(nèi)在部分課程上進(jìn)行MOOC教學(xué)但實(shí)證研究較少。蔣卓軒[2]首次描述中文MOOC學(xué)習(xí)行為并預(yù)測成績。Suhang Jiang用績效考核和公開課結(jié)合進(jìn)行一周的干預(yù),用logistic回歸分析預(yù)測成績驗(yàn)證了及時(shí)干預(yù)的激勵(lì)作用。筆者理論上對比國內(nèi)外學(xué)習(xí)行為分析及成績預(yù)測成果,用線性回歸分析構(gòu)建了MOOC成績預(yù)測模型;實(shí)踐上用Clementine進(jìn)行實(shí)證研究,預(yù)測效果良好并提出應(yīng)用方案,為教師的決策支持提供嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)保障。
1 成績預(yù)測模型構(gòu)建
筆者分五個(gè)模塊構(gòu)建了MOOC成績預(yù)測模型(圖1)。
模塊一:確定變量初始集。根據(jù)預(yù)測目標(biāo)確定變量范圍,回歸分析的前提是因變量為數(shù)值型變量。
模塊二:全部變量進(jìn)入回歸方程。選擇進(jìn)入法和逐步法將全部變量加入方程中便于對比預(yù)測結(jié)果。
模塊三:篩選重要影響變量進(jìn)入回歸方程。為保證結(jié)果的普適性,需要對變量初始集依次進(jìn)行散點(diǎn)圖分析、統(tǒng)計(jì)量分析和特征選擇,剔除相關(guān)性弱的構(gòu)成變量集3。在變量集3上選擇上述兩種方法進(jìn)入方程。
模塊四:評(píng)估預(yù)測模型確定最優(yōu)回歸模型。方程通過回歸方程的擬合優(yōu)度檢驗(yàn)、回歸方程的顯著性檢驗(yàn)和回歸系數(shù)的顯著性檢驗(yàn)后才能用于實(shí)際問題,通過評(píng)估模塊二、三的模型確定最優(yōu)模型。模塊五:呈現(xiàn)預(yù)測模型結(jié)果。模型結(jié)果直觀呈現(xiàn)變量關(guān)系,形式為Y=ε+β0+β1X1+β2X2+…+βkXk。因變量Y為總成績;ε為誤差且ε~N(0,σ2);β0…βk為未知參數(shù);自變量X1…Xk為影響因素。
2 實(shí)證研究
在2015年3月至6月數(shù)據(jù)結(jié)構(gòu)的學(xué)習(xí)行為數(shù)據(jù)上展開研究,因?yàn)橛斜拘W(xué)生參與,分析結(jié)果可信度強(qiáng)。所用設(shè)備是Intel Core i3處理器,Win 7操作系統(tǒng),2.27GHz主頻,6G內(nèi)存。
2.1 研究過程
模塊一:預(yù)處理行為數(shù)據(jù)存入learner_all表得到變量初始集??偝煽?yōu)橐蜃兞縔,自變量是學(xué)生編號(hào)、學(xué)校編號(hào)、持續(xù)時(shí)間、學(xué)習(xí)進(jìn)度、觀看時(shí)長、筆記數(shù)、一~七次作業(yè)成績、發(fā)帖數(shù)、回帖數(shù)、得分帖數(shù)、一~六次見面課成績、在線成績、論壇得分、見面課成績和期末成績,編號(hào)為X1~X26。
模塊二:X1不起作用將其過濾;將總體樣本分區(qū)70%為訓(xùn)練集30%為測試集;添加回歸模型目標(biāo)為總成績,選擇進(jìn)入法和逐步法使全部變量進(jìn)入方程,為模型結(jié)果連接表輸出和分析節(jié)點(diǎn),執(zhí)行數(shù)據(jù)流(圖2)顯示結(jié)果。
模塊三:一是散點(diǎn)圖分析:讀入learner_all設(shè)置總成績?yōu)檩敵銎渌兞繛檩斎?;添加散點(diǎn)圖節(jié)點(diǎn)Y軸為總成績X軸為25個(gè)自變量,X2、X9、X10與Y不相關(guān)將其剔除得到變量集1。二是統(tǒng)計(jì)量分析:添加統(tǒng)計(jì)量節(jié)點(diǎn)由Pearson相關(guān)性強(qiáng)度得知X3與Y相關(guān)性弱剔除后構(gòu)成變量集2。三是特征選擇:添加特征選擇節(jié)點(diǎn)目標(biāo)為總成績輸入為21個(gè)自變量,其中X4變異系數(shù)低將其剔除形成變量集3。為變量集3添加分區(qū)節(jié)點(diǎn)設(shè)置同模塊二;添加回歸模型選擇進(jìn)入法和逐步法執(zhí)行,為模型結(jié)果連接表輸出和分析節(jié)點(diǎn),執(zhí)行數(shù)據(jù)流(圖2)顯示結(jié)果。
模塊四:
(1)回歸方程的擬合優(yōu)度檢驗(yàn)
依據(jù)判定系數(shù)R2和估計(jì)標(biāo)準(zhǔn)差來檢驗(yàn),R2越接近1表明擬合優(yōu)度越高。進(jìn)入法使變量進(jìn)入方程(無論篩選變量與否),R2均為1表明擬合優(yōu)度高。逐步法進(jìn)入方程R2為1估計(jì)標(biāo)準(zhǔn)差為0.314小于進(jìn)入法的0.331,顯示出逐步法的優(yōu)越性且擬合優(yōu)度提高。
(2)回歸方程的顯著性檢驗(yàn)
依據(jù)概率p值、殘差平方和、殘差均方進(jìn)行檢驗(yàn),p小于0.05表明因變量與所有自變量線性關(guān)系顯著。進(jìn)入法使變量進(jìn)入方程(無論篩選變量與否),p為0線性關(guān)系顯著。表明篩選變量后方程變精練預(yù)測能力未減弱。逐步法建模后殘差均方減至0.110小于進(jìn)入法的0.111,p為0線性關(guān)系顯著。
(3)回歸系數(shù)的顯著性檢驗(yàn)
依據(jù)概率p值進(jìn)行檢驗(yàn),p小于0.05表明自變量與因變量線性關(guān)系顯著。進(jìn)入法使全部變量進(jìn)入方程,僅7個(gè)變量p值小于0.05線性關(guān)系不顯著。進(jìn)入法使重要影響變量進(jìn)入方程,較多變量p值大于0.05但值變小。表明篩選變量后線性關(guān)系有改善。逐步法建模p最大為0.02表明線性關(guān)系顯著。
為直觀展示預(yù)測效果,連接四個(gè)回歸模型添加分析、評(píng)估和輸出表節(jié)點(diǎn)。全部變量_進(jìn)入法對應(yīng)為$E-總成績,篩選變量_進(jìn)入法對應(yīng)$E1-總成績,全部變量_逐步法對應(yīng)$E2-總成績,對應(yīng)$E3-總成績。分析節(jié)點(diǎn)結(jié)果表明測試集的最大/小誤差比訓(xùn)練集小,且$E3-總成績最佳。評(píng)估節(jié)點(diǎn)結(jié)果顯示$E3-總成績增益明顯接近最佳線。圖3展示了訓(xùn)練集和測試集的預(yù)測值與總成績吻合。綜上所述,最優(yōu)回歸模型是篩選變量_逐步法所得的模型。
模塊五:結(jié)果表達(dá)式為
2.2 研究結(jié)果
2.2.1 結(jié)果分析
結(jié)果表明系數(shù)不同對總成績的影響也不同。X24、X23、X25和X26權(quán)重較大。論壇中發(fā)/回帖數(shù)反映學(xué)習(xí)積極性,得分帖數(shù)反映知識(shí)掌握程度,論壇參與越積極總成績越高;在線學(xué)習(xí)時(shí)觀看視頻次數(shù)越多知識(shí)掌握越牢固,自主學(xué)習(xí)能力越強(qiáng)越及時(shí)提交作業(yè);見面課是學(xué)習(xí)者與教師進(jìn)行互動(dòng)探討極大提升積極性;梳理前期知識(shí)能顯著提高期末成績。
2.2.2 應(yīng)用方案
一是學(xué)習(xí)者進(jìn)行自我干預(yù);二是教師和管理者對學(xué)習(xí)者進(jìn)行人工干預(yù);三是開發(fā)者接受學(xué)習(xí)者的建議后對學(xué)習(xí)者進(jìn)行系統(tǒng)干預(yù)。
學(xué)習(xí)者應(yīng)對重點(diǎn)環(huán)節(jié)做出自我調(diào)整,提高自主學(xué)習(xí)能力,縮短學(xué)習(xí)懈怠時(shí)間。教師和管理者應(yīng)精心設(shè)計(jì)教學(xué)視頻和題庫,激發(fā)學(xué)習(xí)興趣提高在線成績;論壇討論應(yīng)縮短答疑時(shí)間,高質(zhì)量帖子應(yīng)加分;見面課是人工干預(yù)的好時(shí)機(jī),能直觀地調(diào)動(dòng)各校學(xué)習(xí)者的積極性,及時(shí)解決疑難點(diǎn);期末考試題的設(shè)計(jì)應(yīng)有區(qū)分度。開發(fā)者應(yīng)以改進(jìn)在線體驗(yàn)和提供優(yōu)質(zhì)資源為目標(biāo),增加個(gè)性化制定學(xué)習(xí)計(jì)劃模塊,根據(jù)學(xué)習(xí)者設(shè)置的自我干預(yù)條件及時(shí)提醒和系統(tǒng)干預(yù)。
3 結(jié)束語
筆者宏觀上運(yùn)用多元線性回歸分析構(gòu)建了普適的成績預(yù)測模型,微觀上進(jìn)行實(shí)證研究,所得表達(dá)式使得教師和學(xué)習(xí)者可直接定位重點(diǎn)模塊,同步提高教和學(xué)的效果。預(yù)測結(jié)果為教師和管理者的決策支持提供了嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)保障,為后續(xù)學(xué)習(xí)行為分析及成績預(yù)測起到借鑒和推動(dòng)作用。
參考文獻(xiàn)
[1]湯敏.慕課革命:互聯(lián)網(wǎng)如何變革教育[M].北京:中信出版社,2015.
[2]蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測[J].計(jì)算機(jī)研究與發(fā)展,2015,03:614-628.
作者單位
中國海洋大學(xué)信息科學(xué)與工程學(xué)院 山東省青島市 266100