張 梁,楊立波,張小勇,史俊冰
(太原學(xué)院智能感知與多維信息處理實驗室 山西 太原 030032)
高校學(xué)生成績是高校實施素質(zhì)教育的直接反映,各高校每年都存在學(xué)生對本專業(yè)內(nèi)容掌握不扎實、對不同課程之間的聯(lián)系不清晰導(dǎo)致的掛科等現(xiàn)象,對歷史成績數(shù)據(jù)進行成績挖掘和分析有助于對學(xué)生的學(xué)習(xí)情況進行全面評估和管理,學(xué)生也可以從中得到學(xué)習(xí)經(jīng)驗,更好地規(guī)劃學(xué)業(yè)[1]。成績挖掘體現(xiàn)在海量成績中“淘得真金”的過程,是指通過對每項有效成績進行分析篩選,對成績中隱含的、先前未知并存在價值信息的研究過程。
隨著學(xué)生數(shù)量的增加和學(xué)科關(guān)聯(lián)性的提升,考試成績呈現(xiàn)出龐大而復(fù)雜的特征,而關(guān)聯(lián)規(guī)則中的Apriori 算法處理大訓(xùn)練集時,通過高效的候選集生成和剪枝策略,能夠快速挖掘出頻繁項集和關(guān)聯(lián)規(guī)則,眾多學(xué)者將Apriori算法成功運用于學(xué)生成績分析,并取得了顯著的成果。付翠貞[2]提出差分隱私保護的Apriori 算法,在支持度-置信度體系下又引入提升度對關(guān)聯(lián)規(guī)則進行挖掘,選取學(xué)生成績數(shù)據(jù)集進行了有效驗證并且評價了算法應(yīng)用的有效性。廖宣植[3]利用WEKA 平臺內(nèi)置的Apriori 算法對臨床專業(yè)課程進行了成績挖掘,研究結(jié)果表明了醫(yī)學(xué)、微生物學(xué)等專業(yè)課程之間存在關(guān)聯(lián)性,并對研究結(jié)果進行了分析,給出了成績預(yù)測模型。吳小東等[4]利用Apriori 算法對高校計算機專業(yè)學(xué)生的課程成績進行了針對性分析,關(guān)注“不及格”和“優(yōu)秀”成績的關(guān)聯(lián)規(guī)則,通過挖掘強規(guī)則,揭示了不同課程成績之間的相互影響關(guān)系。然而上述研究樣本空間涵蓋的學(xué)生維度少,生成的關(guān)聯(lián)規(guī)則可能無法捕捉成績中各個項或維度之間的完整復(fù)雜關(guān)系,在此情況下關(guān)聯(lián)規(guī)則可能偏向于某些模式,從而導(dǎo)致有偏差的推薦,并且在頻度-可信度評價下將產(chǎn)生大量關(guān)聯(lián)規(guī)則,其中冗余規(guī)則對實際分析幫助不大反而增加處理和分析的負(fù)擔(dān)。
鑒于此,本文對某應(yīng)用型高校智能系2017 級—2020級學(xué)生進行考試成績分析,通過引入興趣度和提升度的Apriori 算法對學(xué)生成績進行關(guān)聯(lián)規(guī)則分析,挖掘每一屆學(xué)生在學(xué)習(xí)相同專業(yè)課程時取得的學(xué)習(xí)成果,旨在揭示潛在的關(guān)聯(lián)規(guī)則,從而積極影響學(xué)生在學(xué)習(xí)專業(yè)課程方面的表現(xiàn)。
Apriori 算法基于先驗知識原理,應(yīng)用于大規(guī)模成績樣本中發(fā)現(xiàn)頻繁項集和關(guān)聯(lián)規(guī)則。經(jīng)典的支持度-置信度框架是傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法的核心,用于衡量關(guān)聯(lián)規(guī)則的頻繁程度和準(zhǔn)確性。但它存在一定的缺陷,忽略了規(guī)則分布情況和多層次關(guān)聯(lián),在樣本關(guān)聯(lián)規(guī)則挖掘中,一些規(guī)則可能在成績集中分布廣泛但分析價值低,而其他規(guī)則雖不頻繁,但在特定子集中體現(xiàn)出事務(wù)屬性關(guān)聯(lián)模式[5]。為了規(guī)避傳統(tǒng)模式下缺陷,本文采用增添興趣度、提升度和改進篩選標(biāo)準(zhǔn)等方法提升關(guān)聯(lián)規(guī)則的質(zhì)量。
考試成績樣本中各學(xué)生一組成績稱為一個事物,每門課程成績稱為一個項。令I(lǐng)={i1,i2,…,id} 是成績樣本中所有項的集合,而T={t1,t2,…,tN} 是所有成績樣本中事務(wù)的組合,若A和B為I中的兩個項集,同時滿足,則A→B構(gòu)成一個關(guān)聯(lián)規(guī)則,所有關(guān)聯(lián)規(guī)則組成成績事務(wù)庫D,其中事務(wù)集T同時支持A和B的事務(wù)數(shù)在成績事務(wù)庫D中的占比為Sup(A→B),形式化定義為式(1);置信度則為同時存在A和B兩個項集的事務(wù)數(shù)與只包含A項集事務(wù)數(shù)之比,形式化定義為式(2)。若Apriori 算法中滿足Sup(A→B)≥Supmin 的規(guī)則項同時滿足Conf(A→B)≥Confmin 要求,此規(guī)則即為強關(guān)聯(lián)規(guī)則。
經(jīng)典關(guān)聯(lián)規(guī)則算法中支持度-置信度框架是存在缺陷的[6],通過專業(yè)課模電和高頻電子線路分析可以看出置信度高并不一定代表關(guān)聯(lián)規(guī)則有分析價值。表1 中Sup(模電優(yōu)秀→高頻優(yōu)秀)為14%,Conf(模電優(yōu)秀→高頻優(yōu)秀)為70%,意味著模電成績優(yōu)秀的學(xué)生中有70%的可能性在高頻中也表現(xiàn)出色,但整體高頻課程中表現(xiàn)優(yōu)秀的學(xué)生在總?cè)藬?shù)中占比為80%,意味著模電成績優(yōu)秀的學(xué)生在高頻電子課程中表現(xiàn)出色的可能性雖然較高(70%的置信度),但整體而言,更多的學(xué)生在高頻課程中表現(xiàn)出色,這與關(guān)聯(lián)規(guī)則的置信度不一致。
表1 模擬電子技術(shù)和高頻電子線路成績樣本
提升度和興趣度的引入避免了類似上述矛盾的出現(xiàn),提高了衡量關(guān)聯(lián)規(guī)則的重要性和相關(guān)性指標(biāo)。興趣度對成績樣本中規(guī)則的前提和結(jié)果是否存在非隨機關(guān)聯(lián)進行了判斷,Interest(A→B) ≥1 表示規(guī)則前提和結(jié)果存在正向關(guān)聯(lián),即規(guī)則中事務(wù)A對事務(wù)B有積極影響,形式化定義如式(3)。衡量關(guān)聯(lián)規(guī)則的結(jié)果對前提的影響取決于提升度范圍,提升度大于1 表示關(guān)聯(lián)規(guī)則的出現(xiàn)提升了結(jié)果出現(xiàn)的概率,等于1 則二者無關(guān),定義為式(4)。
關(guān)聯(lián)算法是在成績事務(wù)庫D中挖掘符合相關(guān)最小閾值設(shè)定的關(guān)聯(lián)規(guī)則,整體算法流程由3 部分組成:
(1)迭代生成候選集。從頻繁(k -1)-項集(記為(Lk -1)-)中獲取每個項集的最后一項,然后將這些項排序。遍歷頻繁(k-1)-項集并逐個連接,生成候選k-項集的候選項[7]。Apriori 算法利用先驗性質(zhì)減少計算量,即對于生成的候選k -項集,它的所有子集都必須是頻繁(k -1)-項集。算法對每個候選k -項集,遍歷其所有(k -1) 項子集,不滿足最小支持度閾值的要求則剪枝去除[8]。
(2)尋找頻繁項集。針對每個候選k -項集,掃描整個成績集,計算候選集在成績集中的支持度,將滿足最小支持度閾值的候選k -項集作為頻繁k -項集,記為Lk。這些項集用于下一輪迭代直至算法結(jié)束。
(3)關(guān)聯(lián)規(guī)則輸出。對于每個頻繁項集Lk,生成其所有可能的非空子集,作為關(guān)聯(lián)規(guī)則的前項。對于每個規(guī)則的前項,依據(jù)規(guī)則的興趣度、置信度等最小閾值設(shè)定篩選出滿足要求的關(guān)聯(lián)規(guī)則并輸出。
采集完某應(yīng)用型高校智能系2017 級—2020 級成績數(shù)據(jù)后,運用Apriori 算法進行成績挖掘。將考試成績數(shù)據(jù)整合后獲得328 名學(xué)生八門課程成績共2 624 條成績,每條包括學(xué)生姓名、學(xué)號、課程名稱、課程編號、學(xué)分、成績等14 項成績屬性,學(xué)生原始考試成績?nèi)绫? 所示。
表2 學(xué)生原始考試成績
(1)成績清洗。成績挖掘中并不關(guān)注學(xué)生姓名、學(xué)號等冗余信息,故在成績預(yù)處理階段將無用屬性項刪除,對原始成績進行成績降維操作,從而突出主要分析對象并降低計算和處理的復(fù)雜度。
(2)成績離散化。降維后的成績樣本仍保留著連續(xù)的成績值,而這些連續(xù)值可能呈現(xiàn)多樣性和不均衡性等分布特點。為了加快挖掘的收斂速度,須對樣本進行成績離散化。通過離散化可以增強成績數(shù)據(jù)的魯棒性和降低過擬合風(fēng)險,離散化后將成績賦予類別標(biāo)簽,使得異常值在其類別中具有更高相似性,降低了模型受異常值影響產(chǎn)生過擬合的風(fēng)險,在一定程度上平衡了成績的不穩(wěn)定性,離散化后成績樣本提高了關(guān)聯(lián)算法進行規(guī)則挖掘的效率和規(guī)則的適用性。
鑒于上述分析結(jié)果,將各科目成績樣本離散化為5 個成績等級依次為A、B、C、D、E,A 為最優(yōu),E 為差,離散結(jié)果如表3 所示。
表3 離散化成績樣本
挖掘過程[9]首先將成績降維和離散化作為挖掘的預(yù)處理階段,旨在消除成績樣本中異常值的影響[10-11],從而形成更具代表性的樣本集,其次應(yīng)用改進的Apriori 算法對樣本集挖掘其中蘊含的關(guān)聯(lián)規(guī)則,通過設(shè)置觀測閾值,可以篩選出具有顯著意義的強規(guī)則,此類強規(guī)則反映了各科目間的關(guān)聯(lián)關(guān)系,最終通過對符合閾值的強規(guī)則進行綜合分析,得出各科目間相互影響的關(guān)系。
為了評估改進后的Apriori 算法在樣本成績中挖掘關(guān)聯(lián)規(guī)則的效率,將對比傳統(tǒng)的Apriori 算法與經(jīng)過改進版本的挖掘效率,有助于在成績事務(wù)庫中進行關(guān)聯(lián)規(guī)則分析時運行效率更高的算法[12]。將成績事務(wù)庫的2624 條成績規(guī)整后對關(guān)聯(lián)規(guī)則挖掘算法性能進行比較,設(shè)置不同參數(shù)下對比兩種算法在置信度和支持度上的關(guān)聯(lián)規(guī)則數(shù)量,結(jié)果如表4、表5 所示。
表4 置信度定值下各支持度輸出關(guān)聯(lián)規(guī)則數(shù)量
表5 支持度定值下各置信度輸出關(guān)聯(lián)規(guī)則數(shù)量
表4、表5 采用改進率指標(biāo)客觀衡量改進的Apriori 算法相對于傳統(tǒng)算法在規(guī)則挖掘性能方面的提升程度,較大的改進率表明改進算法在關(guān)聯(lián)規(guī)則挖掘性能方面相對于傳統(tǒng)算法具有更大的提升,形式化定義如式(5)。根據(jù)改進率定義得到不同參數(shù)下兩種算法的性能表現(xiàn),如圖1 所示,改進率均大于0,并且支持度閾值范圍在0.10 ~0.18范圍內(nèi),置信度閾值范圍在0.1 ~0.3 范圍內(nèi)改進率達到最高,表明改進后的Apriori 算法支持度和置信度閾值在此范圍內(nèi)篩選強規(guī)則均優(yōu)于傳統(tǒng)挖掘規(guī)則算法,設(shè)置合適的置信度-支持度最小閾值可以有效濾除掉冗余規(guī)則,有效驗證了改進算法在挖掘關(guān)聯(lián)規(guī)則性能方面取得了顯著的進步。并且通過圖1 表明將支持度最小閾值取為0.18,置信度最小閾值取為0.20 時,改進算法的最小興趣度閾值設(shè)置為0.50,最小提升度設(shè)置為1 時,挖掘強規(guī)則性能為最優(yōu),效能分別提升49.75%和51.19%。
圖1 不同參數(shù)下兩種算法性能比較
基于改進的Apriori 算法對成績樣本集進行關(guān)聯(lián)規(guī)則挖掘共得到496 條強關(guān)聯(lián)規(guī)則,根據(jù)提升度和興趣度篩選出置信度、支持度、興趣度、提升度參數(shù)值最高的前5 條繪制部分關(guān)聯(lián)規(guī)則表。
表6 中置信度最高的前5 項關(guān)聯(lián)規(guī)則表明超過90%的概率證明跨課程的知識應(yīng)用使得學(xué)生能夠在其他專業(yè)課程中將電路與電子學(xué)的理論應(yīng)用于實踐,并在處理知識細(xì)節(jié)時更加深入和精準(zhǔn),并且支持度和興趣度均大于0.5,支持度最高達到0.72,提升度均大于1,表示5 門課程獲優(yōu)和電路電子學(xué)課程獲優(yōu)超過半數(shù),并且這個現(xiàn)象都呈現(xiàn)出顯著的正向趨勢。
表6 置信度-部分關(guān)聯(lián)規(guī)則表
表7 顯示了支持度前5 的關(guān)聯(lián)規(guī)則,并且前項和后項置信度都相對較高,說明課程間存在知識結(jié)構(gòu)相似,課程之間存在相輔相成關(guān)系,并且規(guī)則1、2 和規(guī)則3、4 還表現(xiàn)出雙向關(guān)聯(lián)關(guān)系,學(xué)生學(xué)習(xí)這些課程過程中可能知識互相啟發(fā),雙向受益。并且前4 條規(guī)則一定程度說明數(shù)字邏輯和電路,微機和電路具有較高的共現(xiàn)性,即涉及到這兩門課程時成績往往呈現(xiàn)出關(guān)聯(lián)性,提醒任課教師應(yīng)在平時教學(xué)過程中保持溝通,協(xié)同發(fā)力。
表7 支持度-部分關(guān)聯(lián)規(guī)則表
從表8 可以看出傳感器與其他課程之間的關(guān)聯(lián)性具有顯著的正向關(guān)系,提升度均大于1.30,分析得出傳感器內(nèi)容中涉及到的電路部分、程序編寫部分、邏輯組成和通信部分在其他課程中均有細(xì)致講解,所以傳感器成績與數(shù)字邏輯與數(shù)字系統(tǒng)、單片機等課程呈現(xiàn)相關(guān)關(guān)系,即傳感器課程提供了單片機、計算機網(wǎng)絡(luò)技術(shù)等課程的基礎(chǔ)知識和技能。這就要求任課教師及時調(diào)整授課方式,在平時授課期間需結(jié)合領(lǐng)域?qū)I(yè)和應(yīng)用項目對傳感器原理與應(yīng)用進行課堂內(nèi)容的擴充和發(fā)展。
表8 提升度-部分關(guān)聯(lián)規(guī)則表
表9 給出了興趣度較高的前5 條規(guī)則,興趣度較高表示前項課程影響后項課程的考試等級,分析挖掘的規(guī)則1 和2 可以發(fā)現(xiàn)傳感器獲優(yōu)的學(xué)生在邏輯電路、單片機(如51 和嵌入式)、計算機應(yīng)用方面綜合能力更強,可能此類學(xué)生在學(xué)科競賽中積累了一定經(jīng)驗,反哺了課程的學(xué)習(xí),達到了良性循環(huán)模式。但傳感器課程獲良的同學(xué)可能還欠缺實踐環(huán)節(jié),在單獨的課程考試上成績還可以,但并沒有將所學(xué)課程綜合應(yīng)用,所以此類學(xué)生邏輯電路、計算機基礎(chǔ)知識和程序編寫有一定基礎(chǔ),但未能達優(yōu),此外規(guī)則4、5 揭示了計算機網(wǎng)絡(luò)對數(shù)字邏輯與數(shù)字系統(tǒng)和傳感器原理與應(yīng)用等課程具有一定因果性,在實際教學(xué)過程中,計算機應(yīng)用往往關(guān)聯(lián)單片機和傳感器進行課程設(shè)計和課程實驗等,在一定程度上也驗證了挖掘規(guī)則的有效性。
表9 興趣度-部分關(guān)聯(lián)規(guī)則表
成績挖掘在高校成績分析中的應(yīng)用可以幫助高校更好地了解學(xué)生表現(xiàn)、優(yōu)化課堂管理、個性化教學(xué),為教師決策和學(xué)生發(fā)展提供科學(xué)依據(jù),進而提升教育質(zhì)量和學(xué)生綜合素質(zhì)。本文在此前提下進行了相關(guān)研究,采用添加提升度和興趣度改進的Apriori 算法對成績樣本進行挖掘關(guān)聯(lián)規(guī)則,同時和傳統(tǒng)的挖掘算法進行了對比,結(jié)果表明改進算法的性能方面具有更大的提升;最后對挖掘規(guī)則篩選出的各參數(shù)值最大的前5 條規(guī)則進行分析,對學(xué)生在不同課程中的表現(xiàn)模式背后的原因進行分析,針對性地給出學(xué)生提高專業(yè)課程的建議。