馬天昊 夏靜 楊婧雅 唐銘
[摘 ? ? ? ? ? 要] ?“數(shù)學(xué)成績好的學(xué)生一般物理成績也好”的論斷可信嗎?如果可信,那可信度有多高呢?為了回答該疑問,以某中學(xué)2016級698名學(xué)生某學(xué)期的成績?yōu)闃颖緮?shù)據(jù),使用經(jīng)典的Apriori算法,對各科目成績間潛在的關(guān)聯(lián)關(guān)系進(jìn)行挖掘,得到了一系列的關(guān)聯(lián)規(guī)則,如數(shù)學(xué)、物理、生物成績都為A等級的學(xué)生,其化學(xué)成績有70%左右的可能性也為A等級。基于這些結(jié)論可對學(xué)生如何提高學(xué)習(xí)成績給出針對性的建議。
[關(guān) ? ?鍵 ? 詞] ?數(shù)據(jù)挖掘;Apriori算法;關(guān)聯(lián)規(guī)則;成績分析;科目推薦
[中圖分類號] ?D920.4 ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼] ?A ? ? ? ? ? ?[文章編號] ?2096-0603(2019)27-0092-03
學(xué)生成績作為學(xué)生學(xué)業(yè)水平的直接體現(xiàn),備受學(xué)生、家長、老師及學(xué)校的關(guān)注。然而學(xué)生的成績各有差異,如何結(jié)合學(xué)生自身的成績分布特點,基于現(xiàn)有成績有效提高整體成績,一直是大家關(guān)心的問題。
近年來,數(shù)據(jù)挖掘技術(shù)應(yīng)用廣泛,不僅可用于對學(xué)生成績的分析研究[1],也可進(jìn)行學(xué)生綜合素質(zhì)的評估[2]。當(dāng)前,全國各省市正面臨高考改革,如江蘇、浙江等地都將采用高考等級賦分制度[3],而本文的關(guān)聯(lián)規(guī)則挖掘正與成績等級緊密相關(guān)。在實際生活中,各學(xué)校對學(xué)生成績的利用僅限于最普通的描述統(tǒng)計,如平均分、最高分、增長率等較為粗淺的層次,并沒有很好地利用成績數(shù)據(jù)進(jìn)行更深層次的分析和挖掘,很少思考和研究諸如“各科目成績間是否存在某種潛在關(guān)聯(lián)關(guān)系”等問題。
本文旨在利用數(shù)據(jù)挖掘中的Apriori算法[4],從大量的歷史成績中發(fā)現(xiàn)學(xué)生成績的發(fā)展規(guī)律,找到學(xué)生各科成績間的關(guān)聯(lián)規(guī)則,該方法易實現(xiàn),且結(jié)論易于理解。教育工作者可據(jù)此向?qū)W生提供有針對性的學(xué)習(xí)建議,進(jìn)而達(dá)到快速有效提升學(xué)生成績的目的。
一、數(shù)據(jù)來源與管理
(一)數(shù)據(jù)來源與處理
數(shù)據(jù)的質(zhì)量在數(shù)據(jù)挖掘中起著決定性作用,一份準(zhǔn)確、標(biāo)準(zhǔn)的數(shù)據(jù)是進(jìn)行數(shù)據(jù)挖掘工作的基礎(chǔ)。本文采用的數(shù)據(jù)來源于高考改革省份浙江省某市2016級學(xué)生的成績分?jǐn)?shù)。刪除部分對成績數(shù)據(jù)挖掘沒有用處的信息,隨后進(jìn)行類型轉(zhuǎn)換、缺失數(shù)據(jù)刪除、四舍五入等數(shù)據(jù)預(yù)處理操作,最終得到685條完整的成績信息,并將其作為挖掘過程中的數(shù)據(jù)集。
(二)等級賦分
由于每次考試難度不同,單純用分?jǐn)?shù)高低難以進(jìn)行成績好壞的衡量。事實上,在中、高考等升學(xué)考試的錄取過程中,也并不是依據(jù)分?jǐn)?shù)的高低來進(jìn)行錄取,而是關(guān)注其相對排名?;诖?,依照浙江省高考改革方案中對成績分級的方案[5],本文采用如下方法將排名后的成績劃分為5個等級:取各科目成績排名前15%的成績?yōu)锳等級;排名為15%到45%的成績?yōu)锽等級;排名為45%到75%成績?yōu)镃等級;排名為75%到95%的成績?yōu)镈等級;排名在最后5%的成績?yōu)镋等級。以某次考試成績?yōu)槔?,其各科目各等級對?yīng)分?jǐn)?shù)范圍如表1所示。
然后,對本次考試中每位學(xué)生的各科目成績依照表1的標(biāo)準(zhǔn)進(jìn)行等級賦分。表2展示了部分樣本的原始成績數(shù)據(jù)及其對應(yīng)等級。
? 如,對樣本1,表示某學(xué)生在本次考試中,語文得分82分,其位于85至93之間,故根據(jù)表1,該學(xué)生的語文成績被劃分為C等級。同理,對其他樣本數(shù)據(jù)進(jìn)行類似的等級賦分。
二、基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則最早出現(xiàn)在購物籃問題的研究中[4],如經(jīng)典的“啤酒與尿布”案例。關(guān)聯(lián)規(guī)則挖掘旨在快速有效地發(fā)現(xiàn)隱藏于大型事務(wù)或關(guān)系數(shù)據(jù)集中的有趣模式,在各個領(lǐng)域尤其是互聯(lián)網(wǎng)領(lǐng)域備受關(guān)注。經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法有很多,本文采用經(jīng)典的Apriori算法對等級賦分后的樣本數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘[4],旨在尋找各科目成績間的潛在關(guān)聯(lián)關(guān)系。
(一)Apriori算法
Apriori算法是一種最為常用的通過頻繁項集挖掘關(guān)聯(lián)規(guī)則的算法,它能夠發(fā)現(xiàn)事物數(shù)據(jù)庫中頻繁出現(xiàn)的數(shù)據(jù)集,從而構(gòu)造數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,這些聯(lián)系構(gòu)成的規(guī)則可幫助用戶找出某些行為特征,以便進(jìn)行決策。它主要由頻繁項集挖掘和確定強(qiáng)關(guān)聯(lián)規(guī)則兩個子任務(wù)組成。
(二)通過Apriori算法挖掘關(guān)聯(lián)規(guī)則
以Apriori算法為基礎(chǔ)尋找關(guān)聯(lián)規(guī)則的方法主要有以下幾個步驟組成:
Step 1設(shè)定最小支持度和最小置信度;
Step 2掃描成績數(shù)據(jù)表,進(jìn)行各科目等級計數(shù);
Step 3尋找滿足最小支持度的項,構(gòu)成頻繁1-項集,以此類推,找到頻繁2-項集,頻繁3-項集,直到無頻繁k-項集為止;
Step 4根據(jù)最小置信度找到符合條件的強(qiáng)關(guān)聯(lián)規(guī)則;
Step 5強(qiáng)關(guān)聯(lián)規(guī)則輸出。
三、結(jié)果與分析
設(shè)定最小支持度為10%,最小置信度為50%,運用Apriori算法尋找得到21條符合條件的關(guān)聯(lián)規(guī)則,部分關(guān)聯(lián)規(guī)則及其對應(yīng)的支持度與置信度如表3所示。
根據(jù)關(guān)聯(lián)規(guī)則的定義對成績間的關(guān)聯(lián)規(guī)則作如下理解:當(dāng)某科或某幾科成績達(dá)到一定等級時,有另一科目的成績以與置信度相等的可能性取得某個確定等級。即通過找到的關(guān)聯(lián)關(guān)系,可以判斷出某一科目的成績等級受其他科目成績的影響程度。
本文以表3陳列的(4)(7)兩條關(guān)聯(lián)規(guī)則為例進(jìn)行說明:
(4)化學(xué)、地理成績均取得A等級的學(xué)生,生物成績有70.1%左右的可能性為A等級;
(7)語文、政治、歷史成績分別取得B、B、C等級的同學(xué),地理成績有50%左右的可能性為C等級。
四、結(jié)論與討論
本文以某校2016級學(xué)生成績數(shù)據(jù)樣本進(jìn)行了科目成績間關(guān)聯(lián)規(guī)則的挖掘,舉例說明了關(guān)聯(lián)規(guī)則在成績數(shù)據(jù)分析中的實際意義。從685條數(shù)據(jù)中,挖掘出了以下關(guān)聯(lián)規(guī)則:{mathlevel=mathA}=>{phylevel=phyA},支持度為0.114827,置信度為0.691754。此條關(guān)聯(lián)規(guī)則為“數(shù)學(xué)好的同學(xué)一般物理也好”這一說法提供了很好的理論依據(jù),置信度這一標(biāo)準(zhǔn)為其中的“一般”二字給出了充足的量化參考。
根據(jù)Apriori算法挖掘出的關(guān)聯(lián)規(guī)則,可以有針對性地對不同學(xué)習(xí)情況的學(xué)生就提升成績提供建議。以表3中第(7)條關(guān)聯(lián)規(guī)則為例,若某位學(xué)生語文、政治、歷史成績分別取得B、B、C等級,但地理為D等級,并未達(dá)到推薦的C等級,則可向該位同學(xué)提出將學(xué)習(xí)重心向地理學(xué)科傾斜的建議。
眾所周知,高考模式改革勢在必行,高一學(xué)生如何進(jìn)行恰當(dāng)?shù)目颇窟x擇是一大頭疼問題所在。此時,考慮基于高考分?jǐn)?shù)等級劃分進(jìn)行關(guān)聯(lián)規(guī)則挖掘,以避免考試難度而引起的分?jǐn)?shù)差異,進(jìn)而可對學(xué)生各科成績進(jìn)行準(zhǔn)確有效的分析,為學(xué)生提供實際且有效的幫助。
參考文獻(xiàn):
[1]趙輝.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的研究及應(yīng)用[D].大連:大連海事大學(xué),2007.
[2]林國全,梁月汝,徐英虎.關(guān)聯(lián)規(guī)則挖掘在大學(xué)畢業(yè)生綜合素質(zhì)評估中的應(yīng)用[J].巢湖學(xué)院學(xué)報,2009,11(6):33-36.
[3]譚小莉,彭文波,李祚山.新一輪高考綜合改革背景下選考科目分?jǐn)?shù)轉(zhuǎn)換與合成方法初探[J].中國考試,2018(11):30-40.
[4]徐華.數(shù)據(jù)挖掘:方法與應(yīng)用:應(yīng)用案例[M].北京:清華大學(xué)出版社,2018.
編輯 張 慧