白金 劉琳婧 周江輝
摘 要 通過利用高校教務(wù)管理信息儲存的教務(wù)信息,開發(fā)設(shè)計基于數(shù)據(jù)挖掘的學(xué)生成績動態(tài)預(yù)警模型;引入數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則方法和決策樹方法,利用Apriori算法和ID3算法分別對學(xué)生成績進(jìn)行數(shù)據(jù)挖掘,以期找出課程間的內(nèi)在聯(lián)系,并將它們分別作為關(guān)聯(lián)規(guī)則用于學(xué)生成績預(yù)警,最后比較兩種算法,選擇較優(yōu)算法模型作為最后成績預(yù)警模型。該預(yù)警模型有利于對學(xué)生做出提前預(yù)警,對提高學(xué)生成績具有良好效果。
關(guān)鍵詞 數(shù)據(jù)挖掘 預(yù)警模型 關(guān)聯(lián)規(guī)則 決策樹
中圖分類號:TP315 文獻(xiàn)標(biāo)識碼:A DOI:10.16400/j.cnki.kjdks.2015.02.074
Dynamic Warning Model of Students' Achievement
BAI Jin, LIU Linjing, ZHOU Jianghui
(Business Information College, Shanghai University of International Business and Economics, Shanghai 201600)
Abstract Through the use of the Senate Higher Educational Administration Management Information storage, development and design based on student achievement data mining dynamic warning model; the introduction of data mining association rules and decision tree method using Apriori algorithm and ID3 algorithm separately on student achievement data mining in order to find the intrinsic link between the course and they were used as association rules for student achievement warning, final comparison of the two algorithms, selecting optimum algorithm model as the final score early warning models. The warning model is beneficial for students to make early warning, to improve student achievement with good results.
Key words data mining; warning model; association rules; decision tree
0 引言
隨著高校教務(wù)管理信息系統(tǒng)的廣泛應(yīng)用,高校擁有大量學(xué)生的考試成績和教務(wù)數(shù)據(jù),國內(nèi)已有一些研究者以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)面向這些信息展開了數(shù)據(jù)挖掘工作,如魏順平在《學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時代下教育數(shù)據(jù)的價值》一文中介紹了教育數(shù)據(jù)挖掘在我國的發(fā)展歷程及相關(guān)的概念,并提到了5類教育數(shù)據(jù)挖掘方法;①葉福蘭則利用數(shù)據(jù)挖掘技術(shù)在高校已有的教育數(shù)據(jù)上給出了學(xué)生成績預(yù)警的分析,尋找不及格課程間內(nèi)在聯(lián)系、可能聯(lián)系和關(guān)鍵因素;②劉斌、陳依潼則利用K-均值聚類方法分析學(xué)生評價方式;③以及王璇利用Apriori算法分析大學(xué)生心理狀況。④
1 基于數(shù)據(jù)挖掘技術(shù)的成績預(yù)警模型
預(yù)警主要分為兩個部分:規(guī)則產(chǎn)生和規(guī)則匹配。規(guī)則產(chǎn)生部分,預(yù)警模型接收學(xué)生成績訓(xùn)練集,從中依靠內(nèi)部算法獲取符合要求的成績預(yù)警規(guī)則。規(guī)則匹配部分,預(yù)警模型接受待處理學(xué)生成績和課程,而后根據(jù)規(guī)則產(chǎn)生部分產(chǎn)生的規(guī)則,進(jìn)行逐一匹配、篩選,最后輸出預(yù)警信息。
如圖1所示,基于數(shù)據(jù)挖掘的成績預(yù)警模型由數(shù)據(jù)輸入/輸出接口,數(shù)據(jù)預(yù)處理模塊、預(yù)警規(guī)則挖掘模塊、成績預(yù)警規(guī)則庫和預(yù)警模塊5部分組成。其中,預(yù)警規(guī)則挖掘模塊是該模型的核心部分,它負(fù)責(zé)從輸入的訓(xùn)練集中挖掘預(yù)警規(guī)則,并將符合條件的規(guī)則儲存到預(yù)警規(guī)則庫中。預(yù)警模塊式將從數(shù)據(jù)預(yù)處理模塊里的學(xué)生成績和課程信息,與成績預(yù)警規(guī)則庫中的規(guī)則匹配,再根據(jù)已設(shè)定的預(yù)警條件比較,繼而決定是否生成預(yù)警信息。數(shù)據(jù)輸入/輸出接口、預(yù)警模塊可以實(shí)現(xiàn)實(shí)時的學(xué)生成績預(yù)警信息,到達(dá)動態(tài)預(yù)警的目的。
圖1 基于數(shù)據(jù)挖掘的成績預(yù)警模型
2 基于關(guān)聯(lián)規(guī)則的成績預(yù)警模型
2.1 關(guān)聯(lián)規(guī)則和 Apriori算法
設(shè) = {,,……,}是項(Item)的集合。記為事務(wù)的集合,事務(wù)是項的集合,并且 。對應(yīng)每一個事務(wù)有唯一的標(biāo)識,如事務(wù)號,記作。設(shè)是一個中項的集合,如果 ,那么稱事務(wù)包含。項的集合稱為項集。包含個項的項集稱為項集。項集的出現(xiàn)頻率是指包含該項集的事務(wù)數(shù),簡稱為項集的頻率或支持度計數(shù)。
定義1 ?一個關(guān)聯(lián)規(guī)則是形如 的蘊(yùn)涵式,這里 , ,并且∩= 。
定義2 ?規(guī)則 在事務(wù)數(shù)據(jù)中具有支持度,表示支持度S(support)是事務(wù)集中同時包含 和的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為support( ),即:
support( ) = ∣{:∪ ,}∣/∣∣?00% = ?%
定義3 ?規(guī)則 在事務(wù)集中的置信度(confidence)是指包含和的事務(wù)數(shù)與包含的事務(wù)數(shù)之比,記為confidence( ),即:
confidence( ) =∣{:∪ ,}∣/∣: ,∣?00% = ?%
定義4 ?同時滿足最小支持度(min_sup)和最小可信度(min_conf)的規(guī)則稱為關(guān)聯(lián)規(guī)則,即S( )>min_sup且C( )>min_conf成立時,規(guī)則 稱為強(qiáng)關(guān)聯(lián)規(guī)則。
Apriori算法是關(guān)聯(lián)規(guī)則的重要方法,是挖掘布爾型頻繁項目集的算法。它使用一種稱為逐層搜索的迭代方法,“K-項集”用于探索“K+1-項集”。這是一個基于兩階段頻繁集思想的方法,將關(guān)聯(lián)規(guī)則算法的設(shè)計分為兩個子問題:①找到所有支持度大于min_sup的項集,即頻繁項集。②使用第一步找到的頻繁項集找到置信度大于或 最小置信度min_conf的關(guān)聯(lián)規(guī)則。
2.2 基于關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)
2.2.1 數(shù)據(jù)預(yù)處理
由于目前高校成績數(shù)據(jù)庫中存貯的成績信息主要是百分制的成績和五分制成績?yōu)橹?,所以需將?shí)驗數(shù)據(jù)進(jìn)行處理、變換。本文基于關(guān)聯(lián)規(guī)則的成績預(yù)警模型方法是將學(xué)生成績變?yōu)殡x散的布爾類型數(shù)據(jù)(0,1)。具體為:將學(xué)生成績大于該科平均分的,記為0;小于該科平均分的,記為1。再添加輔助列“預(yù)警”,如果學(xué)生成績存在不及格科目,記為“Y”;不存在不及格科目的,記為“N”。一般而言,數(shù)據(jù)變換的過程需要經(jīng)歷數(shù)據(jù)選擇、數(shù)據(jù)清洗(多次成績處理和缺失成績處理)、數(shù)據(jù)集成和變換等步驟。
2.2.2 基于關(guān)聯(lián)規(guī)則挖掘結(jié)果分析
實(shí)現(xiàn)本模型的軟件環(huán)境為操作系統(tǒng)為Windows XP,采用Oracle 數(shù)據(jù)庫管理系統(tǒng)提取學(xué)生成績,并使用SPSS Clementine軟件進(jìn)行數(shù)據(jù)挖掘工作。根據(jù)Clementine軟件的特點(diǎn),本實(shí)驗選擇處理時將低于平均成績記為“1”,高于平均成績的記為“0”。這樣的目的是使本次分析出的關(guān)聯(lián)規(guī)則方向為:對于學(xué)生成績不及格情況下,各個課程之間的關(guān)聯(lián)性。
表1 挖掘出的規(guī)則數(shù)和類規(guī)則平均預(yù)測準(zhǔn)確率
以教務(wù)管理系統(tǒng)中導(dǎo)出信息管理與信息系統(tǒng)2010級和2011級部分學(xué)生3年的成績?yōu)橛?xùn)練集,以其余學(xué)生3年成績?yōu)闇y試集Dtest,用以挖掘課程和學(xué)生成績之間的關(guān)聯(lián)關(guān)系。并最終,選擇信息管理與信息系統(tǒng)的10門必修課程成績作為最后實(shí)驗數(shù)據(jù)。10門課程為:數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,數(shù)據(jù)庫原理與應(yīng)用,操作系統(tǒng),C++面向?qū)ο蟪绦蛟O(shè)計,程序設(shè)計基礎(chǔ)(英),微積分(I),微積分(II),概率論,線性代數(shù)。
設(shè)={,,… }為類關(guān)聯(lián)規(guī)則的規(guī)則集。將已經(jīng)產(chǎn)生的關(guān)聯(lián)規(guī)則 ,記為(,),得到類關(guān)聯(lián)規(guī)則:(,) ,為類別。記為類別為“Y”的數(shù)據(jù)集合。定義類規(guī)則:(,)的預(yù)警準(zhǔn)確率為(),類規(guī)則集的預(yù)測準(zhǔn)確率為()。
(公式1)P()=
(公式2)()=
經(jīng)過反復(fù)試驗、驗證,分別設(shè)置最小支持度分別為0.40、0.37、0.34,最小置信度為0.90、0.87和0.84,在此參數(shù)條件設(shè)置下挖掘類規(guī)則集預(yù)警準(zhǔn)確率。
上文所提出的模型從上述實(shí)驗結(jié)果看,準(zhǔn)確性在60%~70%之間。實(shí)驗結(jié)果表明,該模型及其方法在實(shí)踐上是有效的。
3 基于決策樹算法的成績預(yù)警模型
3.1 決策樹算法
決策樹算法是一種典型的分類和預(yù)測方法,也是一種逼近離散函數(shù)值的方法。它具有算法思想簡單,識別樣本效率高,對噪聲數(shù)據(jù)有很好的健壯性等優(yōu)點(diǎn)。決策樹使用樣本的自身屬性作為節(jié)點(diǎn),用屬性取值作為分支的樹型結(jié)構(gòu)。它的根節(jié)點(diǎn)是所有樣本中信息量最大的屬性。ID3算法是機(jī)器學(xué)習(xí)領(lǐng)域中最具有影響力的決策樹方法之一,采用自頂向下的遞歸方法C4.5是ID3算法的改進(jìn)算法,它增加了:能夠?qū)B續(xù)屬性離散化處理等變化。而C5.0是C4.5應(yīng)用于大數(shù)據(jù)集上的分類算法,主要在執(zhí)行效率和內(nèi)存使用方面進(jìn)行了改進(jìn)。本文采用C5.0算法進(jìn)行挖掘分析。
3.2 基于C5.0算法的發(fā)現(xiàn)
(1)數(shù)據(jù)預(yù)處理。將如表1所示的原始數(shù)據(jù),將成績分為3種:“0<成績<60”記為“差”;將“60<=成績<80”記為“一般”;將“成績=>80”記為“好”。并增加一列“預(yù)警”,將學(xué)生成績存在掛科的記為“Y”;不存在掛科的記為“N”。
(2)基于C5.0算法挖掘結(jié)果分析。使用SPSS Clementine軟件進(jìn)行分析,選擇將決策樹進(jìn)行剪枝,將科目:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘和C++面向?qū)ο蟪绦蛟O(shè)計和操作系統(tǒng)從決策樹中剪去。
最后,從決策樹中抽取的規(guī)則為(表2):
通過表2可以分析出,微積分A(I)和微積分A(II)對學(xué)生影響較大,當(dāng)該科為“一般”或者“好”時,學(xué)生不屬于預(yù)警生的概率較大。當(dāng)學(xué)生數(shù)據(jù)結(jié)構(gòu)不及格時情況時,學(xué)生有很大可能成為預(yù)警生。因此學(xué)校在日常教學(xué)活動中,應(yīng)特別關(guān)注學(xué)生這幾門課程的學(xué)習(xí)。
(3)準(zhǔn)確性測試。設(shè)={,,… }為從決策樹中抽取的規(guī)則的規(guī)則集。設(shè),,…,為課程名,有個取值:{,,…,}。={,,…}為類別的集合。定義規(guī)則: ? ?= ,…, ?= ,then 的預(yù)警準(zhǔn)確率為,類規(guī)則集的預(yù)測準(zhǔn)確率為。
(公式3)=
(公式4)()=
通過訓(xùn)練集Dtest,本模型通過上述數(shù)據(jù)可達(dá)到60%的預(yù)警準(zhǔn)確率。實(shí)驗結(jié)果也表明,基于決策樹技術(shù)的學(xué)生動態(tài)成績預(yù)警模型在實(shí)踐上是有效的。但據(jù)歷史經(jīng)驗來看,C5.0算法優(yōu)勢在與準(zhǔn)確性高,而本次試驗準(zhǔn)確率卻為60%,初步分析是由于試驗數(shù)據(jù)有限,對準(zhǔn)確性測試過程產(chǎn)生了一些影響。
4 結(jié)論
在將兩種方法的輸出轉(zhuǎn)化為統(tǒng)一輸出后,即兩種方法輸出都為:預(yù)警類別,因此,可直接進(jìn)行準(zhǔn)確性比較。通過比較上述兩種模型和方法,發(fā)現(xiàn)選用Apriori算法,模型預(yù)警率較高。而且C5.0算法預(yù)警率較低。對數(shù)據(jù)的噪聲較為敏感,訓(xùn)練集中的一些錯誤會對實(shí)驗結(jié)果產(chǎn)生較大影響。當(dāng)C5.0算法訓(xùn)練集增加時,C5.0的決策樹也會變化,所以當(dāng)學(xué)生成績訓(xùn)練集變化時,成績決策樹變化,從而使預(yù)警規(guī)則庫發(fā)生不斷變化,這對于成績預(yù)警過程來說,是不方便的。
通過設(shè)計基于關(guān)聯(lián)規(guī)則的成績動態(tài)預(yù)警模型,初步證明了基于數(shù)據(jù)挖掘的預(yù)警技術(shù)是有效的。隨著對應(yīng)用領(lǐng)域的不斷深入開發(fā),對基于數(shù)據(jù)挖掘的預(yù)警技術(shù)的深入研究,相信該模型、機(jī)制具有更廣闊的前景。
注釋
① 魏順平.學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時代下教育數(shù)據(jù)的價值.現(xiàn)在教育技術(shù),2013(2).
② 葉福蘭.基于數(shù)據(jù)挖掘的高校學(xué)生成績預(yù)警狀況分析.長春師范學(xué)院學(xué)報(自然科學(xué)版),2013(5).
③ 劉斌,陳依潼.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用.電腦編程技巧與維護(hù),2014(16).
④ 王璇.改進(jìn)的Apriori算法在大學(xué)生心理數(shù)據(jù)分析中的應(yīng)用.中原工學(xué)院院報,2011(22).