• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進的Apriori 算法在高校成績分析中的研究

    2024-05-03 05:41:52楊立波張小勇史俊冰
    信息記錄材料 2024年3期
    關(guān)鍵詞:項集置信度關(guān)聯(lián)

    張 梁,楊立波,張小勇,史俊冰

    (太原學(xué)院智能感知與多維信息處理實驗室 山西 太原 030032)

    0 引言

    高校學(xué)生成績是高校實施素質(zhì)教育的直接反映,各高校每年都存在學(xué)生對本專業(yè)內(nèi)容掌握不扎實、對不同課程之間的聯(lián)系不清晰導(dǎo)致的掛科等現(xiàn)象,對歷史成績數(shù)據(jù)進行成績挖掘和分析有助于對學(xué)生的學(xué)習(xí)情況進行全面評估和管理,學(xué)生也可以從中得到學(xué)習(xí)經(jīng)驗,更好地規(guī)劃學(xué)業(yè)[1]。成績挖掘體現(xiàn)在海量成績中“淘得真金”的過程,是指通過對每項有效成績進行分析篩選,對成績中隱含的、先前未知并存在價值信息的研究過程。

    隨著學(xué)生數(shù)量的增加和學(xué)科關(guān)聯(lián)性的提升,考試成績呈現(xiàn)出龐大而復(fù)雜的特征,而關(guān)聯(lián)規(guī)則中的Apriori 算法處理大訓(xùn)練集時,通過高效的候選集生成和剪枝策略,能夠快速挖掘出頻繁項集和關(guān)聯(lián)規(guī)則,眾多學(xué)者將Apriori算法成功運用于學(xué)生成績分析,并取得了顯著的成果。付翠貞[2]提出差分隱私保護的Apriori 算法,在支持度-置信度體系下又引入提升度對關(guān)聯(lián)規(guī)則進行挖掘,選取學(xué)生成績數(shù)據(jù)集進行了有效驗證并且評價了算法應(yīng)用的有效性。廖宣植[3]利用WEKA 平臺內(nèi)置的Apriori 算法對臨床專業(yè)課程進行了成績挖掘,研究結(jié)果表明了醫(yī)學(xué)、微生物學(xué)等專業(yè)課程之間存在關(guān)聯(lián)性,并對研究結(jié)果進行了分析,給出了成績預(yù)測模型。吳小東等[4]利用Apriori 算法對高校計算機專業(yè)學(xué)生的課程成績進行了針對性分析,關(guān)注“不及格”和“優(yōu)秀”成績的關(guān)聯(lián)規(guī)則,通過挖掘強規(guī)則,揭示了不同課程成績之間的相互影響關(guān)系。然而上述研究樣本空間涵蓋的學(xué)生維度少,生成的關(guān)聯(lián)規(guī)則可能無法捕捉成績中各個項或維度之間的完整復(fù)雜關(guān)系,在此情況下關(guān)聯(lián)規(guī)則可能偏向于某些模式,從而導(dǎo)致有偏差的推薦,并且在頻度-可信度評價下將產(chǎn)生大量關(guān)聯(lián)規(guī)則,其中冗余規(guī)則對實際分析幫助不大反而增加處理和分析的負(fù)擔(dān)。

    鑒于此,本文對某應(yīng)用型高校智能系2017 級—2020級學(xué)生進行考試成績分析,通過引入興趣度和提升度的Apriori 算法對學(xué)生成績進行關(guān)聯(lián)規(guī)則分析,挖掘每一屆學(xué)生在學(xué)習(xí)相同專業(yè)課程時取得的學(xué)習(xí)成果,旨在揭示潛在的關(guān)聯(lián)規(guī)則,從而積極影響學(xué)生在學(xué)習(xí)專業(yè)課程方面的表現(xiàn)。

    1 基于興趣度和提升度規(guī)則關(guān)聯(lián)算法模型

    Apriori 算法基于先驗知識原理,應(yīng)用于大規(guī)模成績樣本中發(fā)現(xiàn)頻繁項集和關(guān)聯(lián)規(guī)則。經(jīng)典的支持度-置信度框架是傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法的核心,用于衡量關(guān)聯(lián)規(guī)則的頻繁程度和準(zhǔn)確性。但它存在一定的缺陷,忽略了規(guī)則分布情況和多層次關(guān)聯(lián),在樣本關(guān)聯(lián)規(guī)則挖掘中,一些規(guī)則可能在成績集中分布廣泛但分析價值低,而其他規(guī)則雖不頻繁,但在特定子集中體現(xiàn)出事務(wù)屬性關(guān)聯(lián)模式[5]。為了規(guī)避傳統(tǒng)模式下缺陷,本文采用增添興趣度、提升度和改進篩選標(biāo)準(zhǔn)等方法提升關(guān)聯(lián)規(guī)則的質(zhì)量。

    1.1 增添興趣度和提升度的關(guān)聯(lián)規(guī)則機理

    考試成績樣本中各學(xué)生一組成績稱為一個事物,每門課程成績稱為一個項。令I(lǐng)={i1,i2,…,id} 是成績樣本中所有項的集合,而T={t1,t2,…,tN} 是所有成績樣本中事務(wù)的組合,若A和B為I中的兩個項集,同時滿足,則A→B構(gòu)成一個關(guān)聯(lián)規(guī)則,所有關(guān)聯(lián)規(guī)則組成成績事務(wù)庫D,其中事務(wù)集T同時支持A和B的事務(wù)數(shù)在成績事務(wù)庫D中的占比為Sup(A→B),形式化定義為式(1);置信度則為同時存在A和B兩個項集的事務(wù)數(shù)與只包含A項集事務(wù)數(shù)之比,形式化定義為式(2)。若Apriori 算法中滿足Sup(A→B)≥Supmin 的規(guī)則項同時滿足Conf(A→B)≥Confmin 要求,此規(guī)則即為強關(guān)聯(lián)規(guī)則。

    經(jīng)典關(guān)聯(lián)規(guī)則算法中支持度-置信度框架是存在缺陷的[6],通過專業(yè)課模電和高頻電子線路分析可以看出置信度高并不一定代表關(guān)聯(lián)規(guī)則有分析價值。表1 中Sup(模電優(yōu)秀→高頻優(yōu)秀)為14%,Conf(模電優(yōu)秀→高頻優(yōu)秀)為70%,意味著模電成績優(yōu)秀的學(xué)生中有70%的可能性在高頻中也表現(xiàn)出色,但整體高頻課程中表現(xiàn)優(yōu)秀的學(xué)生在總?cè)藬?shù)中占比為80%,意味著模電成績優(yōu)秀的學(xué)生在高頻電子課程中表現(xiàn)出色的可能性雖然較高(70%的置信度),但整體而言,更多的學(xué)生在高頻課程中表現(xiàn)出色,這與關(guān)聯(lián)規(guī)則的置信度不一致。

    表1 模擬電子技術(shù)和高頻電子線路成績樣本

    提升度和興趣度的引入避免了類似上述矛盾的出現(xiàn),提高了衡量關(guān)聯(lián)規(guī)則的重要性和相關(guān)性指標(biāo)。興趣度對成績樣本中規(guī)則的前提和結(jié)果是否存在非隨機關(guān)聯(lián)進行了判斷,Interest(A→B) ≥1 表示規(guī)則前提和結(jié)果存在正向關(guān)聯(lián),即規(guī)則中事務(wù)A對事務(wù)B有積極影響,形式化定義如式(3)。衡量關(guān)聯(lián)規(guī)則的結(jié)果對前提的影響取決于提升度范圍,提升度大于1 表示關(guān)聯(lián)規(guī)則的出現(xiàn)提升了結(jié)果出現(xiàn)的概率,等于1 則二者無關(guān),定義為式(4)。

    1.2 關(guān)聯(lián)算法流程

    關(guān)聯(lián)算法是在成績事務(wù)庫D中挖掘符合相關(guān)最小閾值設(shè)定的關(guān)聯(lián)規(guī)則,整體算法流程由3 部分組成:

    (1)迭代生成候選集。從頻繁(k -1)-項集(記為(Lk -1)-)中獲取每個項集的最后一項,然后將這些項排序。遍歷頻繁(k-1)-項集并逐個連接,生成候選k-項集的候選項[7]。Apriori 算法利用先驗性質(zhì)減少計算量,即對于生成的候選k -項集,它的所有子集都必須是頻繁(k -1)-項集。算法對每個候選k -項集,遍歷其所有(k -1) 項子集,不滿足最小支持度閾值的要求則剪枝去除[8]。

    (2)尋找頻繁項集。針對每個候選k -項集,掃描整個成績集,計算候選集在成績集中的支持度,將滿足最小支持度閾值的候選k -項集作為頻繁k -項集,記為Lk。這些項集用于下一輪迭代直至算法結(jié)束。

    (3)關(guān)聯(lián)規(guī)則輸出。對于每個頻繁項集Lk,生成其所有可能的非空子集,作為關(guān)聯(lián)規(guī)則的前項。對于每個規(guī)則的前項,依據(jù)規(guī)則的興趣度、置信度等最小閾值設(shè)定篩選出滿足要求的關(guān)聯(lián)規(guī)則并輸出。

    2 Apriori 算法對成績挖掘

    采集完某應(yīng)用型高校智能系2017 級—2020 級成績數(shù)據(jù)后,運用Apriori 算法進行成績挖掘。將考試成績數(shù)據(jù)整合后獲得328 名學(xué)生八門課程成績共2 624 條成績,每條包括學(xué)生姓名、學(xué)號、課程名稱、課程編號、學(xué)分、成績等14 項成績屬性,學(xué)生原始考試成績?nèi)绫? 所示。

    表2 學(xué)生原始考試成績

    2.1 成績預(yù)處理

    (1)成績清洗。成績挖掘中并不關(guān)注學(xué)生姓名、學(xué)號等冗余信息,故在成績預(yù)處理階段將無用屬性項刪除,對原始成績進行成績降維操作,從而突出主要分析對象并降低計算和處理的復(fù)雜度。

    (2)成績離散化。降維后的成績樣本仍保留著連續(xù)的成績值,而這些連續(xù)值可能呈現(xiàn)多樣性和不均衡性等分布特點。為了加快挖掘的收斂速度,須對樣本進行成績離散化。通過離散化可以增強成績數(shù)據(jù)的魯棒性和降低過擬合風(fēng)險,離散化后將成績賦予類別標(biāo)簽,使得異常值在其類別中具有更高相似性,降低了模型受異常值影響產(chǎn)生過擬合的風(fēng)險,在一定程度上平衡了成績的不穩(wěn)定性,離散化后成績樣本提高了關(guān)聯(lián)算法進行規(guī)則挖掘的效率和規(guī)則的適用性。

    鑒于上述分析結(jié)果,將各科目成績樣本離散化為5 個成績等級依次為A、B、C、D、E,A 為最優(yōu),E 為差,離散結(jié)果如表3 所示。

    表3 離散化成績樣本

    2.2 成績挖掘過程

    挖掘過程[9]首先將成績降維和離散化作為挖掘的預(yù)處理階段,旨在消除成績樣本中異常值的影響[10-11],從而形成更具代表性的樣本集,其次應(yīng)用改進的Apriori 算法對樣本集挖掘其中蘊含的關(guān)聯(lián)規(guī)則,通過設(shè)置觀測閾值,可以篩選出具有顯著意義的強規(guī)則,此類強規(guī)則反映了各科目間的關(guān)聯(lián)關(guān)系,最終通過對符合閾值的強規(guī)則進行綜合分析,得出各科目間相互影響的關(guān)系。

    為了評估改進后的Apriori 算法在樣本成績中挖掘關(guān)聯(lián)規(guī)則的效率,將對比傳統(tǒng)的Apriori 算法與經(jīng)過改進版本的挖掘效率,有助于在成績事務(wù)庫中進行關(guān)聯(lián)規(guī)則分析時運行效率更高的算法[12]。將成績事務(wù)庫的2624 條成績規(guī)整后對關(guān)聯(lián)規(guī)則挖掘算法性能進行比較,設(shè)置不同參數(shù)下對比兩種算法在置信度和支持度上的關(guān)聯(lián)規(guī)則數(shù)量,結(jié)果如表4、表5 所示。

    表4 置信度定值下各支持度輸出關(guān)聯(lián)規(guī)則數(shù)量

    表5 支持度定值下各置信度輸出關(guān)聯(lián)規(guī)則數(shù)量

    表4、表5 采用改進率指標(biāo)客觀衡量改進的Apriori 算法相對于傳統(tǒng)算法在規(guī)則挖掘性能方面的提升程度,較大的改進率表明改進算法在關(guān)聯(lián)規(guī)則挖掘性能方面相對于傳統(tǒng)算法具有更大的提升,形式化定義如式(5)。根據(jù)改進率定義得到不同參數(shù)下兩種算法的性能表現(xiàn),如圖1 所示,改進率均大于0,并且支持度閾值范圍在0.10 ~0.18范圍內(nèi),置信度閾值范圍在0.1 ~0.3 范圍內(nèi)改進率達到最高,表明改進后的Apriori 算法支持度和置信度閾值在此范圍內(nèi)篩選強規(guī)則均優(yōu)于傳統(tǒng)挖掘規(guī)則算法,設(shè)置合適的置信度-支持度最小閾值可以有效濾除掉冗余規(guī)則,有效驗證了改進算法在挖掘關(guān)聯(lián)規(guī)則性能方面取得了顯著的進步。并且通過圖1 表明將支持度最小閾值取為0.18,置信度最小閾值取為0.20 時,改進算法的最小興趣度閾值設(shè)置為0.50,最小提升度設(shè)置為1 時,挖掘強規(guī)則性能為最優(yōu),效能分別提升49.75%和51.19%。

    圖1 不同參數(shù)下兩種算法性能比較

    2.3 改進Apriori 算法關(guān)聯(lián)規(guī)則

    基于改進的Apriori 算法對成績樣本集進行關(guān)聯(lián)規(guī)則挖掘共得到496 條強關(guān)聯(lián)規(guī)則,根據(jù)提升度和興趣度篩選出置信度、支持度、興趣度、提升度參數(shù)值最高的前5 條繪制部分關(guān)聯(lián)規(guī)則表。

    表6 中置信度最高的前5 項關(guān)聯(lián)規(guī)則表明超過90%的概率證明跨課程的知識應(yīng)用使得學(xué)生能夠在其他專業(yè)課程中將電路與電子學(xué)的理論應(yīng)用于實踐,并在處理知識細(xì)節(jié)時更加深入和精準(zhǔn),并且支持度和興趣度均大于0.5,支持度最高達到0.72,提升度均大于1,表示5 門課程獲優(yōu)和電路電子學(xué)課程獲優(yōu)超過半數(shù),并且這個現(xiàn)象都呈現(xiàn)出顯著的正向趨勢。

    表6 置信度-部分關(guān)聯(lián)規(guī)則表

    表7 顯示了支持度前5 的關(guān)聯(lián)規(guī)則,并且前項和后項置信度都相對較高,說明課程間存在知識結(jié)構(gòu)相似,課程之間存在相輔相成關(guān)系,并且規(guī)則1、2 和規(guī)則3、4 還表現(xiàn)出雙向關(guān)聯(lián)關(guān)系,學(xué)生學(xué)習(xí)這些課程過程中可能知識互相啟發(fā),雙向受益。并且前4 條規(guī)則一定程度說明數(shù)字邏輯和電路,微機和電路具有較高的共現(xiàn)性,即涉及到這兩門課程時成績往往呈現(xiàn)出關(guān)聯(lián)性,提醒任課教師應(yīng)在平時教學(xué)過程中保持溝通,協(xié)同發(fā)力。

    表7 支持度-部分關(guān)聯(lián)規(guī)則表

    從表8 可以看出傳感器與其他課程之間的關(guān)聯(lián)性具有顯著的正向關(guān)系,提升度均大于1.30,分析得出傳感器內(nèi)容中涉及到的電路部分、程序編寫部分、邏輯組成和通信部分在其他課程中均有細(xì)致講解,所以傳感器成績與數(shù)字邏輯與數(shù)字系統(tǒng)、單片機等課程呈現(xiàn)相關(guān)關(guān)系,即傳感器課程提供了單片機、計算機網(wǎng)絡(luò)技術(shù)等課程的基礎(chǔ)知識和技能。這就要求任課教師及時調(diào)整授課方式,在平時授課期間需結(jié)合領(lǐng)域?qū)I(yè)和應(yīng)用項目對傳感器原理與應(yīng)用進行課堂內(nèi)容的擴充和發(fā)展。

    表8 提升度-部分關(guān)聯(lián)規(guī)則表

    表9 給出了興趣度較高的前5 條規(guī)則,興趣度較高表示前項課程影響后項課程的考試等級,分析挖掘的規(guī)則1 和2 可以發(fā)現(xiàn)傳感器獲優(yōu)的學(xué)生在邏輯電路、單片機(如51 和嵌入式)、計算機應(yīng)用方面綜合能力更強,可能此類學(xué)生在學(xué)科競賽中積累了一定經(jīng)驗,反哺了課程的學(xué)習(xí),達到了良性循環(huán)模式。但傳感器課程獲良的同學(xué)可能還欠缺實踐環(huán)節(jié),在單獨的課程考試上成績還可以,但并沒有將所學(xué)課程綜合應(yīng)用,所以此類學(xué)生邏輯電路、計算機基礎(chǔ)知識和程序編寫有一定基礎(chǔ),但未能達優(yōu),此外規(guī)則4、5 揭示了計算機網(wǎng)絡(luò)對數(shù)字邏輯與數(shù)字系統(tǒng)和傳感器原理與應(yīng)用等課程具有一定因果性,在實際教學(xué)過程中,計算機應(yīng)用往往關(guān)聯(lián)單片機和傳感器進行課程設(shè)計和課程實驗等,在一定程度上也驗證了挖掘規(guī)則的有效性。

    表9 興趣度-部分關(guān)聯(lián)規(guī)則表

    3 結(jié)語

    成績挖掘在高校成績分析中的應(yīng)用可以幫助高校更好地了解學(xué)生表現(xiàn)、優(yōu)化課堂管理、個性化教學(xué),為教師決策和學(xué)生發(fā)展提供科學(xué)依據(jù),進而提升教育質(zhì)量和學(xué)生綜合素質(zhì)。本文在此前提下進行了相關(guān)研究,采用添加提升度和興趣度改進的Apriori 算法對成績樣本進行挖掘關(guān)聯(lián)規(guī)則,同時和傳統(tǒng)的挖掘算法進行了對比,結(jié)果表明改進算法的性能方面具有更大的提升;最后對挖掘規(guī)則篩選出的各參數(shù)值最大的前5 條規(guī)則進行分析,對學(xué)生在不同課程中的表現(xiàn)模式背后的原因進行分析,針對性地給出學(xué)生提高專業(yè)課程的建議。

    猜你喜歡
    項集置信度關(guān)聯(lián)
    硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
    “一帶一路”遞進,關(guān)聯(lián)民生更緊
    正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
    奇趣搭配
    智趣
    讀者(2017年5期)2017-02-15 18:04:18
    置信度條件下軸承壽命的可靠度分析
    軸承(2015年2期)2015-07-25 03:51:04
    關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
    卷宗(2014年5期)2014-07-15 07:47:08
    一種頻繁核心項集的快速挖掘算法
    計算機工程(2014年6期)2014-02-28 01:26:12
    多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
    語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
    丹阳市| 建平县| 香格里拉县| 神农架林区| 绩溪县| 哈密市| 常州市| 天峻县| 津南区| 新绛县| 白山市| 原平市| 平远县| 界首市| 丘北县| 卓资县| 井研县| 深圳市| 唐河县| 顺平县| 奇台县| 合肥市| 长乐市| 清新县| 蒲江县| 饶阳县| 延边| 乳源| 阜康市| 永嘉县| 武威市| 茶陵县| 宝山区| 明光市| 囊谦县| 嘉义县| 合川市| 郎溪县| 普陀区| 宜城市| 教育|