吳偉旺
摘要:隨著互聯(lián)網(wǎng)不斷地發(fā)展,越來越多的人選擇通過MOOC平臺(tái)學(xué)習(xí)知識。但是,在網(wǎng)絡(luò)上,老師很難知道學(xué)習(xí)者的學(xué)習(xí)情況,不利于對教學(xué)資源配置和指導(dǎo)教學(xué)過程進(jìn)行調(diào)整。本研究提出建立學(xué)生學(xué)習(xí)動(dòng)態(tài)模型,對學(xué)生學(xué)習(xí)情況進(jìn)行分析并及時(shí)反饋學(xué)習(xí)結(jié)果。本研究先利用最近鄰算法中的IBK算法,對學(xué)生行為數(shù)據(jù)的異常數(shù)據(jù)進(jìn)行排除,運(yùn)用等頻裝箱法將學(xué)生的學(xué)習(xí)成績和學(xué)習(xí)行為數(shù)據(jù)進(jìn)行處理。利用GBDT模型、SVM模型建立學(xué)生學(xué)習(xí)成績預(yù)測模型;最后利用隨機(jī)森林模型對數(shù)據(jù)進(jìn)行訓(xùn)練,建立學(xué)生學(xué)習(xí)成績影響因素模型,并對模型進(jìn)行分析。通過學(xué)生學(xué)習(xí)成績影響因素模型的分析,找出影響學(xué)生學(xué)習(xí)成績的主要幾點(diǎn)因素。通過學(xué)生學(xué)習(xí)成績預(yù)測模型,及時(shí)對學(xué)生學(xué)習(xí)情況進(jìn)行分析。實(shí)驗(yàn)結(jié)果表明,本實(shí)驗(yàn)的學(xué)生學(xué)習(xí)動(dòng)態(tài)模型能較為準(zhǔn)確地對學(xué)生成績進(jìn)行預(yù)測,并能夠及時(shí)得出影響學(xué)生學(xué)習(xí)的主要幾點(diǎn)因素。有利于老師及時(shí)了解學(xué)生情況并及時(shí)對教學(xué)配置和教學(xué)指導(dǎo)進(jìn)行調(diào)整,提高學(xué)生的學(xué)習(xí)效率。
關(guān)鍵詞:MOOC平臺(tái);最鄰近算法;IBK算法;等頻裝箱法;GBDT模型;SVM模型;隨機(jī)森林模型
中圖分類號: G434 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)10-0149-04
Learning Effect Prediction Based on Online Learning Behavior
WU Wei-wang
(Tianjin University Of Finance & Economics Polytechnic College, Tianjin 300222, China)
Abstract: With the continuous development of the Internet, more and more people choose to learn knowledge through the MOOC platform. However, on the Internet, it is difficult for teachers to know the learning situation of the learners, which is not conducive to the adjustment of the allocation of teaching resources and the teaching process. This study proposes to establish a dynamic model of students' learning, to analyze the students' learning situation and to feed back the results in time. In this study, we first use the IBK algorithm in the nearest neighbor algorithm. The abnormal data of students' behavior data are excluded, and the students' learning performance and learning behavior data are processed by the equal frequency packing method. The GBDT model and SVM model are used to establish the students' learning performance prediction model. At last, the random forest model is used to train the data, and the influence factors model of students' learning achievement is set up, and the model is analyzed. Through the analysis of the influence factor model of students' learning achievement, we find out the main factors that affect the students' academic achievement. The students' learning performance is analyzed in time by the model of students' learning achievement prediction. The experimental results show that the student learning dynamic model in this experiment can accurately predict student achievement, and timely draw the main factors that affect student learning. It is helpful for teachers to understand the students' situation in a timely manner and adjust the teaching arrangement and instruction in time to improve the students' learning efficiency.
Key words: MOOC platform, Nearest neighbor algorithm, IBK algorithm, Equal frequency packing method, GBDT model , SVM model, Logistic regression, Random Forest
1 引言
隨著互聯(lián)網(wǎng)不斷地發(fā)展,網(wǎng)絡(luò)教育平臺(tái)上的課程資源越來越豐富,在線學(xué)習(xí)已經(jīng)成為MOOC時(shí)代教學(xué)過程的重要組成部分。課程是遠(yuǎn)程課程的載體[1],承載著遠(yuǎn)程教學(xué)的內(nèi)容與過程。與傳統(tǒng)的教學(xué)方法相比,網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)會(huì)及時(shí)跟蹤學(xué)生的學(xué)習(xí)行為,記錄學(xué)生的學(xué)習(xí)狀態(tài),自動(dòng)采集學(xué)生大量的學(xué)習(xí)行為數(shù)據(jù)和階段性評價(jià)數(shù)據(jù),這些數(shù)據(jù)能夠反映學(xué)生的學(xué)習(xí)狀態(tài)和學(xué)習(xí)效果。我們通過挖掘這些數(shù)據(jù)中隱藏的規(guī)律并對其加以分析,不僅能夠及時(shí)了解學(xué)生的學(xué)習(xí)狀態(tài)和學(xué)習(xí)效果,還可以有效支撐教師的教學(xué)方法和教學(xué)內(nèi)容調(diào)整,實(shí)現(xiàn)個(gè)性化的學(xué)習(xí)指導(dǎo)。
基于教育數(shù)據(jù)挖掘的學(xué)生學(xué)習(xí)路徑和行為分析,以及學(xué)習(xí)效果評價(jià)是進(jìn)行自適應(yīng)教學(xué)和學(xué)習(xí)的基礎(chǔ),能否將其合理運(yùn)用于工作學(xué)習(xí)中,直接關(guān)系到高等教育教學(xué)質(zhì)量的提高與否。 隨著在線學(xué)習(xí)的不斷發(fā)展,課程建設(shè)和課程實(shí)施過程不斷融合[2]。如今時(shí)代發(fā)展迅速,怎樣應(yīng)對當(dāng)今教育環(huán)境的變化是我們應(yīng)該解決的問題。而本文正是基于這一問題提供了一種新的思路:使用新的方法和技術(shù)跟蹤學(xué)生的學(xué)習(xí)行為和過程,及時(shí)對學(xué)生的效果和質(zhì)量進(jìn)行評價(jià),并根據(jù)評價(jià)結(jié)果及時(shí)調(diào)整教學(xué)資源配置和指導(dǎo)教學(xué)過程是我們在新時(shí)期面臨和需要解決的問題。在廣泛收集教學(xué)和學(xué)生學(xué)習(xí)過程數(shù)據(jù)的技術(shù)上,綜合運(yùn)用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的技術(shù)和方法,對學(xué)生學(xué)習(xí)過程數(shù)據(jù)進(jìn)行處理和分析,建立學(xué)習(xí)行為模型和學(xué)習(xí)效果動(dòng)態(tài)評價(jià)模型,可以有效地發(fā)現(xiàn)學(xué)習(xí)內(nèi)容、學(xué)習(xí)資源、教學(xué)行為和學(xué)生學(xué)習(xí)效果之間的相關(guān)關(guān)系,預(yù)測學(xué)習(xí)者未來的學(xué)習(xí)趨勢,從而指導(dǎo)教師的教學(xué)行為和教學(xué)資源分配,這對促進(jìn)大數(shù)據(jù)時(shí)代的教育教學(xué)改革,提高教育教學(xué)質(zhì)量具有重要的現(xiàn)實(shí)意義和研究價(jià)值。
目前,很多的研究和高校教師根據(jù)自己的教學(xué)實(shí)踐和研究,提出了一些行之有效的學(xué)習(xí)行為分析方法。針對edX提供的2012年到2013年兩年的開放數(shù)據(jù),分析了課程參與者類型以及影響MOOC成績的因素[3];基于清華大學(xué)“學(xué)堂在線”電路分析課程的數(shù)據(jù)進(jìn)行,使用logit和tobit模型,分析了課程參與度與完成度之間的關(guān)系[4]。由此可見,學(xué)生學(xué)習(xí)效果分析[5]是很多學(xué)者正在研究的問題。本文將根據(jù)學(xué)生的行為信息對學(xué)生的學(xué)習(xí)成績進(jìn)行預(yù)測以及對學(xué)生成績的影響因素[6]分析進(jìn)行分析。
2 研究設(shè)計(jì)
本文的工作流程分為三個(gè)階段:數(shù)據(jù)采集、學(xué)習(xí)成績預(yù)測模型的建立和學(xué)習(xí)成績影響因素分析以及分析結(jié)果可視化。主要技術(shù)路線如圖1所示:
圖1 主要技術(shù)路線
2.1數(shù)據(jù)采集
對于絕大部分的項(xiàng)目而言,基礎(chǔ)數(shù)據(jù)的收集[7]都是極為重要的一部分,關(guān)系到之后的步驟能否成功。學(xué)習(xí)分析需要收集大量反映學(xué)生學(xué)習(xí)行為和學(xué)習(xí)效果的行為數(shù)據(jù),這些數(shù)據(jù)反映了學(xué)生在某一個(gè)時(shí)期內(nèi)學(xué)習(xí)行為和目標(biāo)變化上的共同特征。數(shù)據(jù)采集是數(shù)據(jù)挖掘的基礎(chǔ)工作,也是比較重要的因素,好的數(shù)據(jù)可以增加模型的準(zhǔn)確率。
2.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的重要一環(huán)[8],尤其是對于學(xué)生學(xué)習(xí)行為的數(shù)據(jù),量大而且復(fù)雜,噪聲干擾極大,需要進(jìn)行許多預(yù)處理操作才能使得以后的工作更簡單[9]。要想對數(shù)據(jù)挖掘出豐富的知識,就必須為它提供干凈、準(zhǔn)確、簡潔的數(shù)據(jù)。然而實(shí)際應(yīng)用系統(tǒng)中收集到的原始數(shù)據(jù)是“臟”的,不完全的、冗余的和模糊的,很少能直接滿足數(shù)據(jù)挖掘算法的要求。在海量的實(shí)際數(shù)據(jù)中無意義的成分也很多,嚴(yán)重影響了數(shù)據(jù)挖掘算法的執(zhí)行效率,其中的噪聲干擾還會(huì)造成無效的歸納。預(yù)處理已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)實(shí)現(xiàn)過程中的關(guān)鍵問題。預(yù)處理的質(zhì)量直接影響學(xué)習(xí)分析結(jié)果的質(zhì)量。
2.3學(xué)習(xí)分析模型
本文建立學(xué)習(xí)分析模型主要包括兩個(gè)方面:學(xué)生學(xué)習(xí)效果分析模型和學(xué)生成績影響因素分析模型。對學(xué)生的學(xué)習(xí)行為數(shù)據(jù)、階段性測試成績以及學(xué)習(xí)環(huán)境等屬性進(jìn)行分析,建立學(xué)生學(xué)習(xí)效果分析模型和學(xué)生成績影響因素分析模型,在用測試集進(jìn)行測試,并根據(jù)測試結(jié)果進(jìn)行修正和調(diào)整。
2.4學(xué)習(xí)指導(dǎo)決策規(guī)劃設(shè)計(jì)
通過對建立學(xué)生學(xué)習(xí)成績預(yù)測模型和學(xué)生成績影響因素模型分析,及時(shí)對學(xué)生的學(xué)習(xí)效果和質(zhì)量進(jìn)行評價(jià),并根據(jù)評價(jià)結(jié)果及時(shí)調(diào)整教學(xué)資源配置和指導(dǎo)教學(xué)過程,有利于提高學(xué)生的學(xué)習(xí)效率。并且將成績分析結(jié)果反饋給學(xué)生,實(shí)時(shí)監(jiān)控學(xué)生學(xué)習(xí)動(dòng)態(tài),督促和指導(dǎo)學(xué)生學(xué)習(xí)。
3 數(shù)據(jù)準(zhǔn)備
3.1數(shù)據(jù)收集
本文以UCI提供的EPM(Educational Process Mining,EPM)數(shù)據(jù)集對學(xué)生階段性學(xué)習(xí)效果進(jìn)行分析。該數(shù)據(jù)集對應(yīng)的課程“電路原理實(shí)驗(yàn)”,包含了學(xué)習(xí)行為數(shù)據(jù)、階段性測試成績以及學(xué)習(xí)環(huán)境的屬性。本文以該數(shù)據(jù)集為研究對象,通過對學(xué)生學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析,建立學(xué)習(xí)成績預(yù)測模型和評價(jià),對學(xué)生的學(xué)習(xí)效果進(jìn)行評價(jià)。該課程開展網(wǎng)上在線學(xué)習(xí),并完成線上實(shí)驗(yàn)和練習(xí)。學(xué)生的行為數(shù)據(jù)被記錄在平臺(tái)中課程結(jié)束后會(huì)對學(xué)生進(jìn)行期末成績測試,每個(gè)學(xué)生擁有一張?jiān)嚲恚譃榱鶄€(gè)大題,每道大題對應(yīng)一個(gè)階段。共六個(gè)階段。本文對這六個(gè)階段的成績進(jìn)行分析和預(yù)測。UCI提供的EPM(Educational Process Mining,EPM)數(shù)據(jù)集,具有官方性和嚴(yán)謹(jǐn)性。例如,學(xué)生的學(xué)習(xí)行為數(shù)據(jù)精確到了毫秒。本文應(yīng)用的數(shù)據(jù)具體包括的屬性為:student_ID(學(xué)生id)、exercise(練習(xí))、activity(所處活動(dòng))、start_time(開始時(shí)間)、end_time(結(jié)束時(shí)間)、idle_time(中間休息時(shí)間間隔)、mouse_click_left(鼠標(biāo)左鍵點(diǎn)擊次數(shù))、mouse_click_right(鼠標(biāo)右鍵點(diǎn)擊次數(shù))、mouse_movement(鼠標(biāo)移動(dòng)面積)、keystroke(鍵盤擊鍵次數(shù))。因?yàn)榫€上課程并不像實(shí)體課那樣,老師不可以控制學(xué)生的行為和上課時(shí)間。必然學(xué)生的學(xué)習(xí)過程和時(shí)間比較分散。
3.2數(shù)據(jù)預(yù)處理
平臺(tái)收集的數(shù)據(jù),數(shù)據(jù)龐大,種類繁雜,為了方便構(gòu)建模型。必須要對數(shù)據(jù)進(jìn)行整理和清洗[10]。
本文運(yùn)用基于最近鄰算法中的IBK算法,計(jì)算學(xué)生間向量空間距離的大小,間向量比較小的有78名學(xué)生,間向量比較大的有10名學(xué)生,我們將這10名學(xué)生設(shè)為異常點(diǎn)實(shí)例。通過二次人工篩選,最終確定其中8名學(xué)員的年齡、學(xué)位、學(xué)習(xí)過程和學(xué)習(xí)成績嚴(yán)重不符,有可能不是自己完成的最終測試,所以作為異常點(diǎn)排除,最終得到有效學(xué)生70名。
其次,將數(shù)據(jù)離散化。本文對學(xué)生測試成績分為4個(gè)區(qū)間,對每個(gè)階段分別處理,設(shè)每個(gè)階段的總成績?yōu)镾,將學(xué)生的成績分為4個(gè)階段,(0~25%S]、(25%S~50%S]、(50%S~75%S]、(75%S~S],分別代表成績的差、中、良和優(yōu)四個(gè)等級。以這四個(gè)等級作為目標(biāo)變量。對于其他屬性的處理,本文采用了等頻裝箱法,分別分成少、中、多三個(gè)層次。之后構(gòu)建學(xué)生成績預(yù)測模型。
4 模型構(gòu)建
4.1模型介紹
學(xué)生成績預(yù)測是一個(gè)分類問題[10],本文根據(jù)處理的數(shù)據(jù)進(jìn)行模型建立,構(gòu)建學(xué)習(xí)效果模型。
本文選用GBDT算法和SVM算法構(gòu)建模型。GBDT算法是對異常值的處理,GBDT能夠使用一些健壯的損失函數(shù),比如HUBER損失函數(shù)和QUANTILE損失函數(shù),對異常值的處理還是完美的。
SVM算法運(yùn)算速度比較快。SVM算法中引入了核函數(shù),所以對于高維的樣本,SVM能輕松應(yīng)對。
對于學(xué)生成績影響因素分析,通過觀察發(fā)現(xiàn),處理完的數(shù)據(jù)維度比較高,不好做特征處理,并且為了增加效率,我們選用了隨機(jī)森林算法。
隨機(jī)森林由多個(gè)決策樹構(gòu)成。決策樹中的每一個(gè)節(jié)點(diǎn)都是關(guān)于某個(gè)特征的條件,為的是將數(shù)據(jù)集按照不同的響應(yīng)變量一分為二。利用不純度可以確定節(jié)點(diǎn)(最優(yōu)條件),對于分類問題,通常采用基尼不純度或者信息增益[11]。
4.2模型構(gòu)建
4.2.1學(xué)生成績預(yù)測模型
學(xué)習(xí)成績的預(yù)測其實(shí)是一個(gè)分類的過程。模型的構(gòu)建階段是核心部分,所以也是最重要的部分。根據(jù)數(shù)據(jù)的結(jié)構(gòu)特征,選取合適的模型。并且因?yàn)榇藬?shù)據(jù)學(xué)員較少,為了提高準(zhǔn)確率,本實(shí)驗(yàn)使用了10折交叉驗(yàn)證法。即將學(xué)生大概分成十組,每一份輪流作為測試集,其他數(shù)據(jù)作為測試集進(jìn)行成績預(yù)測,并將實(shí)驗(yàn)結(jié)果進(jìn)行平均處理,通過GBDT模型和SVM模型的預(yù)測,各個(gè)學(xué)期學(xué)生成績預(yù)測準(zhǔn)確率如表1:
4.2.2學(xué)生成績影響因素分析
對于學(xué)生在每個(gè)活動(dòng)花費(fèi)精力的多少,通過時(shí)間進(jìn)行衡量,學(xué)生在一個(gè)活動(dòng)花費(fèi)時(shí)間越多,說明他在這個(gè)活動(dòng)花費(fèi)的精力越大。
通過隨機(jī)森林的算法進(jìn)行分析,隨機(jī)森林模型可根據(jù)兩種不同的標(biāo)準(zhǔn)計(jì)算各個(gè)自變量對因變量的影響程度并輸出其重要性得分。第一種度量方式為精度平均減少值,第二種為節(jié)點(diǎn)不純度平均減少值,本文應(yīng)用第一種度量方式的得分對各個(gè)因素的重要性進(jìn)行測度。
以SESSION6為例,對學(xué)生的學(xué)習(xí)行為進(jìn)行分析,各個(gè)因素的重要性得分表(表2)。
從表中可以看出,Diagram、Study_Materials、Deed_Es這幾種活動(dòng)得分比較高,而Deed_es_#_#、Study_es_#_#、TextEditor_es_#_#這幾個(gè)活動(dòng)的得分比較低。
5 模型分析
對于學(xué)生成績預(yù)測模型,在每個(gè)SESSION中,課程的不同,學(xué)生學(xué)習(xí)行為數(shù)據(jù)在每個(gè)階段的結(jié)構(gòu)存在不同,所以每個(gè)階段模型的準(zhǔn)確率不同。通過應(yīng)用最近鄰算法中的IBK算法,能夠看出學(xué)生與學(xué)生之間存在差異,個(gè)別學(xué)生差異明顯,對于這樣異常的行為數(shù)據(jù),應(yīng)進(jìn)行排除處理。通過學(xué)生的行為數(shù)據(jù),能夠比較準(zhǔn)確地對學(xué)生的成績進(jìn)行預(yù)測。
對于學(xué)生的成績影響因素模型,從實(shí)驗(yàn)結(jié)果可以看出,在SESSION6中,Diagram、Study_Materials、Deed_Es這幾個(gè)活動(dòng)比較重要,花費(fèi)較長時(shí)間在這幾個(gè)活動(dòng)上面有利于學(xué)生更容易的取得好成績。并且在SESSION1~SESSION6中重要的活動(dòng)是不一樣的,所以在學(xué)生學(xué)習(xí)不同知識時(shí),學(xué)習(xí)平臺(tái)或者老師可以對學(xué)生的學(xué)習(xí)方法進(jìn)行提示。
6 總結(jié)
本研究采集在線課程學(xué)生的學(xué)習(xí)行為信息和學(xué)生考試成績,采用GBDT模型、SVM模型這兩種常見的數(shù)據(jù)模型方法,構(gòu)造學(xué)生成績預(yù)測模型。通過學(xué)生的行為數(shù)據(jù),能夠比較準(zhǔn)確地對學(xué)生的成績進(jìn)行預(yù)測。
采用隨機(jī)森林?jǐn)?shù)據(jù)挖掘模型,構(gòu)造學(xué)生成績影響因素模型。通過對每種活動(dòng)的評分進(jìn)行比較,能夠篩選出在學(xué)習(xí)過程中,比較重要的幾點(diǎn)活動(dòng)。學(xué)生在學(xué)習(xí)過程中,老師有必要提醒學(xué)生對重要的活動(dòng)進(jìn)行重視[12],學(xué)生也有必要對重要活動(dòng)進(jìn)行重視,這樣可以增加學(xué)習(xí)效率。
參考文獻(xiàn):
[1] 魏志慧,陳麗,希建華。網(wǎng)絡(luò)課程教學(xué)交互質(zhì)量評價(jià)指標(biāo)體系研究[J].開放教育研究,2004(6):34-39.
[2] 特里·安德森,王志軍.希望/冒險(xiǎn):大規(guī)模開放網(wǎng)絡(luò)課程(MOOCs)與開放遠(yuǎn)程教育[J].中國電化教育,2014(1):46-51.
[3] Bres low L,Pritchard DE,DeBoer J .Studying Learning in the Worldwide Classroom Research into edXs First MOOC 2012[J].RESEACH & PRACTICE IN ASSESSMENT,2013,8:13-25.
[4] 李曼麗,許舜平,孫夢.MOOC學(xué)習(xí)者課程學(xué)習(xí)行為分析——以電路原理課程為例[J]. 開放教育研究,2015,21(2):63-69.
[5] 洪家榮,李星原.Neocognitron學(xué)習(xí)算法分析[J].軟件學(xué)報(bào),1994(4):35-39.
[6] 趙明.在線學(xué)習(xí)與課堂學(xué)習(xí)的分析比較[J].科技視界,2015(28):214+242.
[7] 陳永府,楊小獻(xiàn),黃正東.基于規(guī)則的數(shù)據(jù)收集研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007(1):164-167.
[8] 楊陽,劉峰,張?zhí)旄?分類器的數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)工程,1998(4):33-34+42.
[9] 劉慶波,李華彪,洪家榮.示例學(xué)習(xí)的數(shù)據(jù)預(yù)處理[J].微電子學(xué)與計(jì)算機(jī),1993(9):34-37.
[10] 趙博,徐衛(wèi)亞,趙亞瓊.數(shù)據(jù)預(yù)處理模型及其應(yīng)用[J].水電能源科學(xué),2012(5):86-88.
[11] 王健,郝銀華,盧吉龍.教學(xué)視頻呈現(xiàn)方式對自主學(xué)習(xí)效果的實(shí)驗(yàn)研究[J].電化教育研究,2014(3):95-101+107.
[12] 智若.學(xué)習(xí)與年齡[J].成人教育,1982(2):23.