周慶 王衛(wèi)芳 葛亮 肖逸楓 唐代
摘要:針對大學(xué)生存在學(xué)業(yè)風(fēng)險、高校管理難度增大的問題,提出了基于一卡通數(shù)據(jù)與課程分類預(yù)測學(xué)生是否存在及格風(fēng)險的方法。首先對計算機學(xué)院學(xué)生的一卡通數(shù)據(jù)與課程成績進行預(yù)處理與特征提取,利用皮爾遜相關(guān)系數(shù)與Apriori算法分析不同學(xué)期課程成績間、早餐次數(shù)與成績間的相關(guān)性和關(guān)聯(lián)性。然后結(jié)合早餐次數(shù)與同類型課程的成績,運用多種分類器預(yù)測學(xué)生未來成績是否及格。結(jié)果表明,該方法可預(yù)測學(xué)生某門課程是否存在不及格風(fēng)險,便于教輔人員及時干預(yù)學(xué)業(yè)困難學(xué)生。
關(guān)鍵詞:學(xué)業(yè)風(fēng)險;相關(guān)性分析;關(guān)聯(lián)分析;課程分類;成績預(yù)測
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)24-0236-04
Abstract: Aiming at the academic risk of College students and the difficulty of Teaching Management in Universities,this paper presented a method based on campus card data and the idea of curriculum classification to predict whether students can pass the course examination. First of all, preprocessing the data of students' campus card data and course performance, and extracting the features, Secondly, using Pearson's correlation coefficient and Apriori algorithm to analyze not only the correlation between the course results of different semesters, but also the relevance between breakfast time and course performance. Then, combining the number of breakfast with the results of the same type of course, a variety of classifiers were used to predict whether the students' future performance was passed. The result shows that this method can predict whether there is a risk of failure in a student's course, and it is convenient for teachers to help students with academic difficulties in time.
Key words: academic risk; correlation analysis; association analysis; curriculum classification; performance prediction
1 引言
大學(xué)生在校期間的學(xué)業(yè)表現(xiàn)是影響其畢業(yè)及未來就業(yè)的關(guān)鍵因素,為了完善高校學(xué)生管理制度,各大高校全面推進“學(xué)業(yè)預(yù)警”制度,最終目的是幫助存在學(xué)業(yè)風(fēng)險的同學(xué)順利完成學(xué)業(yè)[1]。影響學(xué)生成績的因素較多,比如師資水平、性別差異、課程難易程度、不適應(yīng)大學(xué)生活等。目前,已有較多的學(xué)者針對學(xué)業(yè)成績預(yù)測做了相關(guān)研究,如武彤等人利用決策樹算法分析學(xué)生課堂表現(xiàn)與性別的差異,預(yù)測學(xué)生最終是否通過某門課程[2];王凱成等人利用Microsoft SQL Server提供的數(shù)據(jù)挖掘功能分析學(xué)生歷史成績數(shù)據(jù),預(yù)測學(xué)生的平均學(xué)分績點,幫助老師提前采取措施干預(yù)學(xué)分績點不達標(biāo)的同學(xué)[3];張紅林等人分析學(xué)生早餐習(xí)慣與課程成績的關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)早餐就餐次數(shù)多、時間早的學(xué)生成績明顯高于就餐次數(shù)少、時間晚的規(guī)律[4]。文獻[5-7]均基于Apriori或改進的Apriori算法挖掘課程成績間的相關(guān)性,從理論上分析關(guān)聯(lián)規(guī)則,沒有實際的應(yīng)用。以上都是針對單一的數(shù)據(jù)源進行研究,沒有有效結(jié)合一卡通消費數(shù)據(jù)與課程之間的關(guān)聯(lián)性對學(xué)生具體某門課程進行預(yù)測,不能提供針對性的意見。
因此,本文采用有效的數(shù)據(jù)挖掘算法,分析學(xué)生校園一卡通數(shù)據(jù)、歷史課程數(shù)據(jù)與后期課程之間的相關(guān)性,利用Apriori算法挖掘不同課程間隱藏的關(guān)聯(lián)規(guī)則。根據(jù)課程間的關(guān)聯(lián)規(guī)則,并結(jié)合其他學(xué)者的研究人工將課程分類,結(jié)合學(xué)生的早餐次數(shù)、早餐時間與課程分類的思想,運用多個分類模型預(yù)測學(xué)生未來課程的成績是否及格。通過在真實數(shù)據(jù)集進行實驗,表明該方法的可行性,提前發(fā)現(xiàn)學(xué)生可能不及格的課程,為輔導(dǎo)員發(fā)現(xiàn)學(xué)業(yè)困難學(xué)生提供參考依據(jù)。
2 數(shù)據(jù)的預(yù)處理
2.1 數(shù)據(jù)清理
2.1.1 成績數(shù)據(jù)
2.1.2 一卡通數(shù)據(jù)
一卡通刷卡數(shù)據(jù)記錄了全校師生在校的消費記錄,包括食堂、超市、洗衣等多種消費類型。經(jīng)初步的統(tǒng)計,超市、洗衣等方面的消費支出所占比例較少,數(shù)據(jù)離散,消費不穩(wěn)定,且該高校位于郊區(qū),學(xué)生大部分時間選擇在食堂就餐,食堂的消費數(shù)據(jù)較全面,因此本文僅研究學(xué)生在食堂的消費數(shù)據(jù)。
同一學(xué)院同一年級學(xué)生之間的課程具有相似性,學(xué)生成績才具有可比性,因此為了研究消費行為與成績之間的相關(guān)性,本文僅抽取某高校計算機學(xué)院2015級學(xué)生294名學(xué)生,2015年9月至2016年6月期間在食堂的消費數(shù)據(jù)作為研究樣本,總共98112條刷卡記錄。
2.2 特征提取
針對成績數(shù)據(jù),經(jīng)過數(shù)據(jù)清理階段,標(biāo)準(zhǔn)化學(xué)生每門課程的成績,然后計算學(xué)生歷史不及格課程數(shù)、平均學(xué)分績點和成績分段比例,其中成績分段比例是指學(xué)生每個分?jǐn)?shù)段的課程所占比例,總共分為五個成績段,A等:90-100分,B等:80-90分,C等:70-80分,D等:60-70分,E等:小于60分。其中,平均學(xué)分績點的計算公式為:
平均學(xué)分績點=∑(課程學(xué)分×成績績點)/∑課程學(xué)分
對于消費數(shù)據(jù),分析學(xué)生食堂的就餐時間,規(guī)定早餐時間為06:45-09:45。假設(shè)學(xué)生每天8點前吃早餐,則表明該生因有課或作息規(guī)律早起,學(xué)生越自律,其成績優(yōu)異的可能性就越高,因此將學(xué)生早餐的時間段按以下規(guī)則進行劃分,B0:06:45-07:45,B1:07:45-08:45,B208:45-09:45 ,統(tǒng)計學(xué)生每個早餐時間段早餐次數(shù):B0_Count,B1_Count,B2_Count,以及三個時間段的早餐總次數(shù)B_Count,分析早餐習(xí)慣與成績之間的相關(guān)性。
3 相關(guān)性分析與關(guān)聯(lián)分析
3.1 歷史成績間的分析
3.1.1 成績之間的相關(guān)性
因?qū)W習(xí)方法和個人能力的不同,不同學(xué)生的課程成績存在差異性。例如文獻[8]中劉紅梅等人分析計算機專業(yè)學(xué)生的課程成績,發(fā)現(xiàn)各學(xué)期及各類型課程成績之間具有較高相關(guān)性。假設(shè)學(xué)生擅長數(shù)學(xué),其數(shù)學(xué)類的課程如高等數(shù)學(xué)、概率論成績就會較高,體現(xiàn)了知識及學(xué)習(xí)過程的連貫性。
為了驗證學(xué)生課程成績間之間的相關(guān)性,統(tǒng)計計算機學(xué)院2015級294名學(xué)生前四學(xué)期所有課程的成績,計算課程成績間的皮爾遜相關(guān)系數(shù),表1列出部分相關(guān)性較高的課程。
以匯編語言基礎(chǔ)為例,該課程的成績與大學(xué)物理實驗、面向?qū)ο蟪绦蛟O(shè)計及數(shù)據(jù)結(jié)構(gòu)有較高的相關(guān)性,即匯編語言成績較高,則其他幾門課程的得分也較高,反之較低,由此可推斷學(xué)生課程間的成績具有相關(guān)性。
3.1.2 不及格課程間的關(guān)聯(lián)性
數(shù)據(jù)挖掘是從大量的應(yīng)用數(shù)據(jù)中提取人們事先不知道的、潛在并且有用的信息和知識的過程,其中關(guān)聯(lián)數(shù)據(jù)挖掘可以從眾多的項集中挖掘出具有潛在價值的信息[9]。自從Agrawal等人1993年提出關(guān)聯(lián)規(guī)則的思想[10],關(guān)聯(lián)規(guī)則已得到普遍的應(yīng)用,例如文獻[11]使用改進的頻繁項挖掘算法分析課程成績,發(fā)現(xiàn)課程之間的相關(guān)性。
假設(shè)學(xué)生不及格課程間也存在某種關(guān)聯(lián)性,比如科目A不及格,則科目B不及格的概率較高。為了進一步驗證假設(shè)是否合理正確,統(tǒng)計計算機學(xué)院2015級所有學(xué)生前三學(xué)期不及格課程,利用Apriori算法得到部分關(guān)聯(lián)規(guī)則如表2所示:
由表2可知,如果高等數(shù)據(jù)不及格,則線性代數(shù)、離散數(shù)學(xué)、大學(xué)物理等課程可能也不及格,而表1表明這三門課的課程成績也具有相關(guān)性,因此可推斷學(xué)生未通過同類型課程的概率具有相似性。這些課程都屬于基礎(chǔ)類課程,但是前兩門課程偏數(shù)學(xué)類,離散數(shù)學(xué)屬于專業(yè)基礎(chǔ)課程,后續(xù)的研究將結(jié)合課程間的相關(guān)性與關(guān)聯(lián)規(guī)則,人為干涉將課程分類。
3.2 早餐習(xí)慣與成績間的關(guān)聯(lián)性
學(xué)生的早餐次數(shù)、早餐時間能夠反映學(xué)生生活的規(guī)律性,我們認(rèn)為生活越規(guī)律的同學(xué)其自律性越強[12]。為了分析學(xué)生生活習(xí)慣是否對成績有影響,采用Apriori算法挖掘潛在的關(guān)聯(lián)規(guī)則。首先根據(jù)統(tǒng)計分析和人為經(jīng)驗,將早餐次數(shù)、平均學(xué)分績點離散化,離散規(guī)則如下:
a) 將各個時間段的早餐次數(shù)B0_Count,B1_Count,B2_Count,以及早餐總次數(shù)B_Count從小到大進行排序,前30%的同學(xué)早餐次數(shù)標(biāo)記為少,30-60%的同學(xué)標(biāo)記為中,60以后的同學(xué)標(biāo)記為多。
b) 將學(xué)分績點從高到低進行排序,前15%的同學(xué)規(guī)范為優(yōu)秀,15%-30%的同學(xué)規(guī)范為良好,30%-45%的同學(xué)規(guī)范為中等,45%-60%的同學(xué)規(guī)范為及格,60%以后的同學(xué)規(guī)范為不及格。
利用Apriori算法挖掘離散后各個項集,最終得到支持度與置信度較高的部分關(guān)聯(lián)規(guī)則如表3所示:
由表3可知,當(dāng)早餐次數(shù)較多時,成績等級為中等或優(yōu)秀,反之早餐次數(shù)較少,成績等級為及格,由此可知學(xué)生成績的好壞與早餐次數(shù)存在關(guān)聯(lián),早餐次數(shù)越多的同學(xué),生活越規(guī)律,其按時上課或?qū)W習(xí)的可能性也越大??傊磿r吃早餐對學(xué)生的身體健康或?qū)W業(yè)表現(xiàn)都是有益的,可引導(dǎo)學(xué)生形成良好的生活作息習(xí)慣。
4 基于一卡通數(shù)據(jù)與課程分類的成績預(yù)測模型
4.1 課程的分類
因篇幅有限,表1、表2僅列出部分課程間的相關(guān)性與關(guān)聯(lián)規(guī)則,由表1和表2可知,匯編語言的成績與大學(xué)物理實驗、面向?qū)ο蟪绦蛟O(shè)計、數(shù)據(jù)結(jié)構(gòu)等課程相關(guān)。文獻[13]基于頻繁模式挖掘發(fā)現(xiàn)課程間的關(guān)聯(lián)性,并提出課程分類的思想,因此本文分析計算機學(xué)院所有學(xué)生的必修課程,結(jié)合其他學(xué)者的研究、專家知識、課程間的關(guān)聯(lián)規(guī)則,人工將計算機專業(yè)的必修課分為五個類別,這些類別的課程將用于預(yù)測第四學(xué)期同類型課程是否及格,如表4所示:
需要特別說明的是,課程的分類是根據(jù)課程間的相關(guān)性、關(guān)聯(lián)規(guī)則以及其他研究者以往的研究與經(jīng)驗劃分的,比如表1中匯編語言基礎(chǔ)與大學(xué)物理是強相關(guān),但兩門課程并沒有劃分為同一類別,因為匯編語言基礎(chǔ)側(cè)重于專業(yè)編程類課程,而大學(xué)物理實驗則劃分為電子邏輯類。
4.2 成績預(yù)測模型
影響學(xué)生成績的因素較多,比如師資水平、課程難易度、學(xué)生學(xué)習(xí)習(xí)慣、學(xué)習(xí)態(tài)度等。本文僅研究學(xué)生在校的消費行為、生活作息的規(guī)律性、歷史關(guān)聯(lián)課程與未來課程的相關(guān)性和關(guān)聯(lián)性,預(yù)測學(xué)生未來的某門課程是否及格。
針對這個問題,本文提出了基于數(shù)據(jù)挖掘的成績預(yù)測模型,該模型考慮了課程的開課時間順序的問題,利用學(xué)生前三學(xué)期同類型課程的成績和早餐次數(shù)預(yù)測第四學(xué)期的某門課程是否及格。為了實驗方便,本文篩選了學(xué)生第四學(xué)期的概率論與數(shù)理統(tǒng)計、脈沖電路、數(shù)據(jù)結(jié)構(gòu)三門課進行對比實驗,因為思想政治類課程比如馬克思主義基本原理,所有同學(xué)課程成績都是及格,無研究意義。則已知學(xué)生的特征X, 如果學(xué)生課程成績大于60,則[y=1]。其中X包括前三學(xué)期不及格課程數(shù)、平均學(xué)分績點、成績分段比例、各個時間段的早餐次數(shù)、前三學(xué)期同類型課程的成績。
5 實驗與分析
5.1 數(shù)據(jù)集
數(shù)據(jù)集包含某高校計算機學(xué)院2015級294名學(xué)生在校的相關(guān)數(shù)據(jù),其中校園一卡通的刷卡記錄總計113111條,刪除無關(guān)數(shù)據(jù)后僅保留在食堂的消費記錄有98112條。
實際教學(xué)環(huán)境中,每門課程不及格人數(shù)較少,導(dǎo)致正負(fù)樣本不均衡,因此選擇曲線下面積 (Area Under roc Curve, AUC),真陽率(True Positivie Rate,TPR)、假陽率(False Positive Rate,F(xiàn)PR)作為評估指標(biāo)[14],AUC 是指ROC曲線下方的面積,值越大分類器的效果越好,而真陽率TPR代表不及格的同學(xué)被正確預(yù)測出來的比例,假陽率FPR則指實際及格同學(xué)而被預(yù)測為不及格所占的比例,當(dāng)然我們希望我TPR越高越好,而FPR越低越好。具體的計算公式為:
重復(fù)五次實驗對評判指標(biāo)AUROC、TPR、FPR取平均值,每次實驗中采用五折交叉驗證的方法,使用多種分類預(yù)測模型對比結(jié)果,如支持向量機(SVM),樸素貝葉斯(NB),邏輯回歸(LR)。
5.2 結(jié)果與討論
三種分類器的預(yù)測結(jié)果如表5所示。本文提出的預(yù)測方法是假設(shè)所有學(xué)生的學(xué)習(xí)能力、教學(xué)環(huán)境等相同,但實際存在的不可控制因素會影響預(yù)測結(jié)果。由實驗結(jié)果可知,三種分類器的評判指標(biāo)AUC值較大,F(xiàn)PR值較小,這表明該方法可以較有效為學(xué)生提供課程警示機制,盡管三種分類器的評價指標(biāo)值相差不大,但SVM的效果最好,因此我們選擇SVM為分類器模型。
針對實驗結(jié)果,分析如下:
a) AUC越大,分類器的效果越好。由表5可知,針對每一門課程,三種分類器計算得到的AUC均大于0.7,且大部分大于0.8,表明實驗具有應(yīng)用意義,可以有效預(yù)測學(xué)生某門課程是否及格。
b) 每門課程考試中,不及格的人數(shù)所占較少,正負(fù)樣本比例約為1:10,樣本不均衡問題限制了真正比例(TPR)值較小。
c) FPR值較小,表明將實際及格的同學(xué)預(yù)測為不及格的概率較小,誤判率較低。
通過分析,數(shù)據(jù)結(jié)構(gòu)課程的預(yù)測結(jié)果明顯優(yōu)于其他兩門課,因為與數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的課程數(shù)較多,這也表明通過關(guān)聯(lián)課程預(yù)測學(xué)生成績的可行性,有效地將一卡通數(shù)據(jù)特征與關(guān)聯(lián)課程結(jié)合起來,提高預(yù)測TPR的值是后續(xù)的研究目標(biāo)。在實際應(yīng)用中,影響學(xué)生成績的因素較多,且不及格人數(shù)較少,正負(fù)樣本不均衡,本文提出的方法可以有效預(yù)測學(xué)生未來成績是否及格,及時反饋學(xué)生可能不及格的課程,進行針對性的指導(dǎo)。
6結(jié)束語
傳統(tǒng)教學(xué)環(huán)境的不穩(wěn)定,老師教學(xué)方法與學(xué)生個人學(xué)習(xí)能力,以及教材內(nèi)容滯后問題等都是影響學(xué)生成績的因素,因此本文提出的課程分類的思想僅用于輔助判斷學(xué)生在同類型課程的學(xué)習(xí)能力,起參考作用。
本文僅針對學(xué)生校園一卡通數(shù)據(jù)與歷史成績數(shù)據(jù)進行研究,分析了學(xué)生的生活作息習(xí)慣、歷史成績與最終成績間的相關(guān)性和關(guān)聯(lián)規(guī)則,結(jié)合課程關(guān)聯(lián)分類與學(xué)生早起次數(shù)、生活規(guī)律性預(yù)測學(xué)成績,能夠較為準(zhǔn)確的預(yù)測學(xué)生未來可能不及格的科目,發(fā)揮學(xué)業(yè)預(yù)警機制的作用。如何更有效的利用校園一卡通數(shù)據(jù)、歷史成績數(shù)據(jù)挖掘影響學(xué)生成績的因素,完善課程分類,提高預(yù)測結(jié)果是我們下一步的研究目標(biāo)。
參考文獻:
[1]池振國, 崔灝, 孫寧. 淺析實施學(xué)業(yè)預(yù)警機制對高校學(xué)風(fēng)建設(shè)的影響[J]. 天津市教科院學(xué)報, 2013(3):23-24.
[2]武彤, 王秀坤. 決策樹算法在學(xué)生成績預(yù)測分析中的應(yīng)用[J]. 微計算機信息, 2010,26(3):209-211.
[3]王凱成. 基于數(shù)據(jù)挖掘的大學(xué)生學(xué)業(yè)預(yù)警研究[D]. 上海師范大學(xué), 2012:10.
[4]張林紅, 劉紅梅. 基于一卡通數(shù)據(jù)分析的學(xué)生早餐習(xí)慣與成績關(guān)聯(lián)規(guī)則挖掘[J]. 阜陽師范學(xué)院學(xué)報(自然科學(xué)版), 2014,31(4):92-95.
[5]李愛鳳, 陳啟買. 基于數(shù)據(jù)挖掘技術(shù)的課程相關(guān)性模式研究與實現(xiàn)[J]. 現(xiàn)代電子技術(shù), 2007,30(13):121-122.
[6]吳江紅. 基于關(guān)聯(lián)規(guī)則挖掘的課程相關(guān)性研究與應(yīng)用[J]. 天津科技大學(xué)學(xué)報, 2009,24(4):73-75.
[7]袁路妍, 李鋒. 改進的關(guān)聯(lián)規(guī)則Apriori算法在課程成績分析中的應(yīng)用[J]. 中國教育信息化, 2017(17):62-65.
[8]劉紅梅, 李京. 計算機專業(yè)本科生課程成績的相關(guān)性分析[J]. 安慶師范學(xué)院學(xué)報(自科版), 2015(1):120-123.
[9]Witten, Frank I H. Data Mining[J]. Practical Machine Learning Tools & Techniques with Java Implementations, 2005, 13(4):1-1.
[10]Agrawal R, Swami A. Mining association rules between sets of items in large databases[C]// Acm Sigmod International Conference on Management of Data. ACM, 1993:207-216.
[11]高小鵬,阮 帥,于福洋,等. 基于教學(xué)數(shù)據(jù)的課程關(guān)聯(lián)挖掘研究[J]. 計算機教育, 2018(3):84-88.
[12]徐劍. 基于一卡通數(shù)據(jù)的消費行為與成績的關(guān)聯(lián)性研究分析[D]. 南昌大學(xué), 2010.
[13]何楚, 宋健, 卓桐. 基于頻繁模式譜聚類的課程關(guān)聯(lián)分類模型和學(xué)生成績預(yù)測算法研究[J]. 計算機應(yīng)用研究, 2015, 32(10):2930-2933.
[14]陶存貴. 不平衡小樣本數(shù)據(jù)的特征提取與分類方法研究[D]. 哈爾濱工業(yè)大學(xué), 2012.