徐丹 路永 于化龍
【摘 要】隨著在線教育平臺(tái)的發(fā)展,在學(xué)生和在線平臺(tái)的交互過程中產(chǎn)生了大量的學(xué)習(xí)數(shù)據(jù),為教育數(shù)據(jù)挖掘提供了數(shù)據(jù)基礎(chǔ)。本文以KDD Cup 2010提供的在線學(xué)習(xí)數(shù)據(jù)為研究對(duì)象,利用協(xié)同過濾算法找到待預(yù)測(cè)學(xué)生的K近鄰,進(jìn)而對(duì)該學(xué)生的答題結(jié)果進(jìn)行預(yù)測(cè),取得了理想的效果。
【關(guān)鍵詞】協(xié)同過濾;教育數(shù)據(jù)挖掘;學(xué)習(xí)結(jié)果預(yù)測(cè)
中圖分類號(hào): TP391.3 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)30-0052-004
DOI:10.19694/j.cnki.issn2095-2457.2018.30.022
Student Performance Prediction based on Collaborative Filtering Algorithm
XU Dan1 LU Yong2 YU Hua-long1
(1.School of Computer Science,Jiangsu University of Science and Technology,Zhenjiang Jiangsu 212003;
2.Department of Technology and Informationization,Public Security Bureau of Xuzhou,Xuzhou Jiangsu 221000)
【Abstract】A large amount of learning data is generated during the interactive between the students and online study platforms.The data is captured and stored and consequently used for educational data mining.In this paper,we utilize the collaborative filtering algorithm to find the K nearest neighbours of the test student.The performance of the student will be predicted according to its K nearest neighbours.The experiment is executed on KDD Cup 2010 data set and shows expected results.
【Key words】Collaborative filtering algorithm;Educational data mining;Student performance prediction
0 引言
近年來,隨著慕課、edex等在線教育平臺(tái)的出現(xiàn)和普及,在學(xué)生和在線平臺(tái)的交互過程中產(chǎn)生了大量的學(xué)習(xí)數(shù)據(jù),教育大數(shù)據(jù)的概念隨之興起。在此基礎(chǔ)上產(chǎn)生了教育數(shù)據(jù)挖掘和學(xué)習(xí)分析兩種相互關(guān)聯(lián)又互有不同的研究領(lǐng)域[1]。
國際教育數(shù)據(jù)挖掘?qū)W會(huì)認(rèn)為教育數(shù)據(jù)挖掘的主要目的為:利用數(shù)據(jù)挖掘的方法探索教育數(shù)據(jù),幫助更好的理解學(xué)生以及學(xué)生的學(xué)習(xí)環(huán)境和背景,進(jìn)而預(yù)測(cè)學(xué)習(xí)者群體的學(xué)習(xí)效果[2]。學(xué)習(xí)分析則通過搜集教與學(xué)過程中的行為數(shù)據(jù),并應(yīng)用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法和模型,從多個(gè)維度深度挖掘有價(jià)值的數(shù)據(jù)信息,揭示其中隱藏的學(xué)習(xí)行為模式,預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)結(jié)果,從系統(tǒng)角度出發(fā)幫助學(xué)生、導(dǎo)師和教育管理者做學(xué)習(xí)和教學(xué)決策[3,4]。二者的關(guān)鍵不同在于教育數(shù)據(jù)挖掘側(cè)重于全自動(dòng)方法發(fā)現(xiàn)教育數(shù)據(jù)隱藏信息,更多的用于結(jié)果預(yù)測(cè);學(xué)習(xí)分析則偏向于采用人為主導(dǎo)的方法分析教育數(shù)據(jù),更多的用于為學(xué)習(xí)行為和現(xiàn)象尋找可解釋和可理解的模型[5]。
教育數(shù)據(jù)挖掘中的主要任務(wù)之一是學(xué)習(xí)結(jié)果預(yù)測(cè)。通過對(duì)學(xué)生學(xué)習(xí)行為和學(xué)習(xí)過程的分析預(yù)測(cè)未來的結(jié)果事件,例如哪些學(xué)生可能存在輟學(xué)的風(fēng)險(xiǎn)。也可對(duì)不能直接采集的數(shù)據(jù)屬性進(jìn)行預(yù)測(cè),如學(xué)生的學(xué)習(xí)成績。在[6]中,等人開發(fā)的Purdue Signals project項(xiàng)目即是采用預(yù)測(cè)模型進(jìn)行學(xué)生學(xué)習(xí)結(jié)果預(yù)測(cè)的典型案例,實(shí)踐證明該系統(tǒng)能夠明顯的改善教學(xué)效果。
本文的主要工作是通過協(xié)同過濾算法對(duì)在線教育數(shù)據(jù)進(jìn)行挖掘,探尋數(shù)據(jù)之間存在的關(guān)聯(lián)模式,對(duì)學(xué)習(xí)結(jié)果進(jìn)行預(yù)測(cè)。因此本文的研究重點(diǎn)在于數(shù)據(jù)的獲取和分析以及數(shù)據(jù)挖掘算法在教育數(shù)據(jù)中的應(yīng)用。
1 協(xié)同過濾算法
協(xié)同過濾算法在電子商務(wù)和推薦系統(tǒng)中被廣泛應(yīng)用[7]。其基本思想是,通過對(duì)用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好,基于不同的偏好對(duì)用戶進(jìn)行群組劃分并推薦類別相似的商品。協(xié)同過濾算法根據(jù)其主體不同可分為兩類:基于用戶的協(xié)同過濾算法和基于商品的協(xié)同過濾算法。
本文將協(xié)同過濾算法用于學(xué)生學(xué)習(xí)結(jié)果預(yù)測(cè),將學(xué)生看作用戶,將學(xué)生的學(xué)習(xí)表現(xiàn)看作項(xiàng)目,采用以學(xué)生為主體的協(xié)同過濾算法,尋找與目標(biāo)學(xué)生距離最近的K個(gè)學(xué)生,根據(jù)這K個(gè)學(xué)生的學(xué)習(xí)結(jié)果來預(yù)測(cè)目標(biāo)學(xué)生的學(xué)習(xí)結(jié)果。
如圖1所示,本文算法流程主要包括三個(gè)部分,首先計(jì)算待分類數(shù)據(jù)和已知數(shù)據(jù)之間的相似性,其次根據(jù)相似性生成待分類數(shù)據(jù)的K近鄰集合,最后根據(jù)K近鄰中學(xué)生的答題結(jié)果預(yù)測(cè)待分類學(xué)生的答題結(jié)果。
2 學(xué)習(xí)結(jié)果預(yù)測(cè)
教育數(shù)據(jù)挖掘產(chǎn)生的主要原因之一是不斷增加的、可分析的教育數(shù)據(jù)的出現(xiàn)。當(dāng)學(xué)習(xí)者通過電子設(shè)備與在線學(xué)習(xí)平臺(tái)交互時(shí),學(xué)習(xí)數(shù)據(jù)便被獲取并存儲(chǔ)起來以備后用。比較有代表性的教育數(shù)據(jù)來源于卡耐基梅隆大學(xué)的Datashop,其提供了多個(gè)與教育相關(guān)的公開和私有數(shù)據(jù)集[8]。另一個(gè)具有代表性的數(shù)據(jù)集是KDD(Data Mining and Knowledge Discovery)Cup 2010提供的關(guān)于學(xué)生通過在線輔助教學(xué)平臺(tái)學(xué)習(xí)情況的公開數(shù)據(jù)集[9]。KDD Cup 2010是為數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)競(jìng)賽而設(shè)置的數(shù)據(jù)集,有明確的訓(xùn)練集和測(cè)試集,其目的是用于學(xué)生學(xué)習(xí)結(jié)果的預(yù)測(cè)。因此,在本文中選用KDD CUP 2010作為我們的實(shí)驗(yàn)數(shù)據(jù)集。
KDD CUP 2010一共有5個(gè)數(shù)據(jù)集,包括3個(gè)發(fā)展數(shù)據(jù)集和2個(gè)挑戰(zhàn)數(shù)據(jù)集。兩個(gè)數(shù)據(jù)集最大的不同是,發(fā)展數(shù)據(jù)集用于參賽算法的測(cè)試,其測(cè)試集提供真值數(shù)據(jù),而挑戰(zhàn)數(shù)據(jù)集用于比賽,其測(cè)試集不提供真值數(shù)據(jù)。我們選擇發(fā)展數(shù)據(jù)集中的Algebar I 2005-2006數(shù)據(jù)集用于實(shí)驗(yàn)。通過575名學(xué)生在數(shù)學(xué)學(xué)習(xí)過程中和計(jì)算機(jī)輔助教學(xué)系統(tǒng)之間的交互數(shù)據(jù)預(yù)測(cè)學(xué)生最終的答題結(jié)果。學(xué)生通過計(jì)算機(jī)輔助教學(xué)系統(tǒng)答題,在答題過程中與輔助教學(xué)系統(tǒng)之間的交互可分為兩種:一是遇到困難可以向輔助教學(xué)系統(tǒng)提問,二是答題結(jié)束后提交最終答案,學(xué)生和教學(xué)系統(tǒng)的每次交互稱為一個(gè)transaction。在學(xué)生學(xué)習(xí)過程中,有四個(gè)基本概念,分別為問題、步驟、知識(shí)點(diǎn)和學(xué)習(xí)機(jī)會(huì)數(shù)。其中,問題是學(xué)生要解決的基本任務(wù),也可稱為練習(xí),通常包括多個(gè)步驟,有的步驟可用于解決不同的問題。每個(gè)步驟可能包括多個(gè)知識(shí)點(diǎn),當(dāng)然,不同的步驟可以涉及相同的知識(shí)點(diǎn)。學(xué)習(xí)機(jī)會(huì)數(shù)是指學(xué)生學(xué)習(xí)某個(gè)知識(shí)點(diǎn)的次數(shù),當(dāng)學(xué)生在解題過程中遇到某一知識(shí)點(diǎn),則該知識(shí)點(diǎn)的機(jī)會(huì)數(shù)加1。數(shù)據(jù)集中的特征如表1所示。
導(dǎo)入之后得到的數(shù)據(jù)示例如表2所示,需要注意的是,為了方便顯示我們省略了一些屬性。另外,KC是關(guān)于知識(shí)點(diǎn)的詳細(xì)描述,所占篇幅較長,我們僅以SkillRule代替。
訓(xùn)練數(shù)據(jù)集中有19種特征,其中特征7-13、15-17的值在測(cè)試數(shù)據(jù)集中被隱藏,特征14 (Correct First Attempt) 為需要預(yù)測(cè)的分類特征。因此,在訓(xùn)練過程中也排除了特征7-13和特征15-17。我們將剩下的8種非類別特征分為三類,一是與學(xué)生相關(guān)的特征,即特征2;二是與題目相關(guān)的特征,即特征3-6;第三類是與知識(shí)點(diǎn)相關(guān)的特證,即特征18和19。在對(duì)數(shù)據(jù)樣本進(jìn)行距離度量過程中采用協(xié)同過濾算法,把學(xué)生當(dāng)做主體,即協(xié)同過濾算法中的客戶,將題目和知識(shí)點(diǎn)看作與客戶相關(guān)的項(xiàng)目。
2.1 相似性度量
距離度量也分為三個(gè)部分,學(xué)生本身的相似性度量、學(xué)習(xí)-題目相似性度量和學(xué)生-知識(shí)點(diǎn)相似性度量。
學(xué)生本身的相似性度量,給定訓(xùn)練集Dtr,sp為訓(xùn)練樣本中的學(xué)生標(biāo)識(shí)號(hào),sq為待分類樣本中的學(xué)生標(biāo)識(shí)號(hào),則學(xué)生自身的相似度為:
學(xué)生-題目相似性度量,記學(xué)生sp,sq所做的步驟集合分別為Isp,Isq,其做過的相同步驟的集合可表示為,則學(xué)生-題目相似度可用Pearson相似性度量[10]方法表示如下:
式中,I是學(xué)生sp,sq做過相同步驟的數(shù)量,是學(xué)生sp提交的第i個(gè)步驟的結(jié)果,是學(xué)生sp在相同步驟上的提交結(jié)果的均值。
學(xué)生-知識(shí)點(diǎn)相似性度量,記學(xué)生sp,sq所做的步驟涉及的知識(shí)點(diǎn)集合分別為Ksp,Ksq,則相同的知識(shí)點(diǎn)集合可表示為,則學(xué)生-題目相似度可表示為:
式中,表示學(xué)生sp的第k個(gè)知識(shí)點(diǎn)出現(xiàn)次數(shù)。該公式前一項(xiàng)給出了兩個(gè)學(xué)生知識(shí)點(diǎn)的交集和并集中知識(shí)點(diǎn)數(shù)量的比值,后一項(xiàng)給出了對(duì)于相同的知識(shí)點(diǎn),其出現(xiàn)次數(shù)的差距的倒數(shù)。
因此,以學(xué)生為主體的兩個(gè)數(shù)據(jù)樣本之間的相似度可以用公式(4)表示,并將最終的相似性度量進(jìn)行歸一化。
2.2 結(jié)果預(yù)測(cè)
對(duì)于待分類的數(shù)據(jù)記錄,計(jì)算其和已知數(shù)據(jù)記錄的相似性度量,獲取和待分類記錄中相似度最高的K個(gè)記錄,并且按照相似度從大到小的順序降序排列。
確定待分類記錄的最近鄰后,即可預(yù)測(cè)其對(duì)應(yīng)的的答題結(jié)果。這里我們采用加權(quán)平均的方法,即取該記錄的最近鄰中K個(gè)學(xué)生的答題結(jié)果的均值,若均值大于0.5,則認(rèn)為待分類記錄的學(xué)生的答題結(jié)果為1,否則為0。
本文采用均方根誤差值RMSE(Root Mean Square Error)評(píng)估預(yù)測(cè)值和真實(shí)值之間的差異。記i為一問題步驟,s為學(xué)生,則esi表示學(xué)生s對(duì)于步驟i的答題結(jié)果的預(yù)測(cè)值,gsi表示學(xué)生s對(duì)于步驟i的答題結(jié)果的真實(shí)值。RMSE值越小,則預(yù)測(cè)值與真實(shí)值越接近,算法的分類正確率越高。
預(yù)測(cè)算法在測(cè)試數(shù)據(jù)集Dt上的RMSE可用下式計(jì)算:
在測(cè)試數(shù)據(jù)集上的分類正確率和RMSE如圖2所示。圖中K是表示待測(cè)試數(shù)據(jù)的最近鄰數(shù)量,分別取5,10和15。從圖中可知,當(dāng)K=10時(shí),其RMSE和預(yù)測(cè)正確率明顯高于K=5時(shí)的性能;但相較于K=10,K=15時(shí)的RMSE和正確率指標(biāo)略有改進(jìn),但幅度不大。
3 結(jié)語
本文首先對(duì)KDD Cup 2010提供的數(shù)據(jù)集進(jìn)行了詳細(xì)的分析,在此基礎(chǔ)上探討了協(xié)同過濾算法在學(xué)生學(xué)習(xí)結(jié)果預(yù)測(cè)中的應(yīng)用,并取得了理想的預(yù)測(cè)結(jié)果。下一步工作重點(diǎn)在于構(gòu)建針對(duì)本校學(xué)生的學(xué)習(xí)數(shù)據(jù)集,進(jìn)行學(xué)習(xí)結(jié)果分析與預(yù)測(cè),據(jù)此進(jìn)行個(gè)性化的干預(yù)和指導(dǎo)。
【參考文獻(xiàn)】
[1]蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2014:1.
[2]Baker RS,Inventado PS.Educational data mining and learning analytics[M]//Learning analytics.Springer,New York,NY,2014:61-75.
[3]Pe a-Ayala A.Educational data mining:A survey and a data mining-based analysis of recent works[J].Expert systems with applications,2014,41(4):1432-1462.
[4]賀超凱,吳蒙.edX 平臺(tái)教育大數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測(cè)[J].中國遠(yuǎn)程教育,2016(6):54-59.
[5]Siemens G,d Baker R S J.Learning analytics and educational data mining:towards communication and collaboration[C]//Proceedings of the 2nd international conference on learning analytics and knowledge.ACM,2012:252-254.
[6]Arnold K E.Signals:Applying academic analytics[J].Educause Quarterly,2010,33(1):1-10.
[7]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學(xué)報(bào),2017,35(2):16-24.
[8]Koedinger K R,Baker R S J,Cunningham K,et al.A data repository for the EDM community:The PSLC DataShop[J]. Handbook of educational data mining,2010,43:43-56.
[9]Stamper J,Pardos Z A.The 2010 KDD Cup Competition Dataset:Engaging the machine learning community in predictive learning analytics[J].Journal of Learning Analytics,2016,3(2):312-316.
[10]劉翠翠.協(xié)同過濾算法在教育數(shù)據(jù)挖掘中學(xué)生成績預(yù)測(cè)的研究[D].昆明理工大學(xué),2016.