遲殿委 李蕊
摘 要 本文基于某高職院校云計(jì)算技術(shù)與應(yīng)用專(zhuān)業(yè)學(xué)生期末成績(jī)以及針對(duì)學(xué)生學(xué)習(xí)影響因素的調(diào)查數(shù)據(jù),采用基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法,進(jìn)行數(shù)據(jù)分析實(shí)驗(yàn),找出該專(zhuān)業(yè)不同課程最終教學(xué)結(jié)果之間的關(guān)聯(lián)關(guān)系,同時(shí)也從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn)對(duì)學(xué)生整體學(xué)習(xí)效果影響明顯的因素,為教師日常教學(xué)提供輔助決策支持,對(duì)提高人才培養(yǎng)質(zhì)量具有一定價(jià)值。
關(guān)鍵詞 成績(jī) 數(shù)據(jù)挖掘 WEKA 關(guān)聯(lián)規(guī)則
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A
0引言
數(shù)據(jù)挖掘自動(dòng)從大量的數(shù)據(jù)樣本中尋找數(shù)據(jù)間潛在的關(guān)系,形成有價(jià)值的規(guī)則,即從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)庫(kù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用還處在發(fā)展階段,如果能對(duì)學(xué)校考務(wù)系統(tǒng)存儲(chǔ)的學(xué)生數(shù)據(jù)運(yùn)用大數(shù)據(jù)挖掘技術(shù)進(jìn)行綜合分析,就能發(fā)現(xiàn)各信息之間的聯(lián)系和規(guī)律。
本文以某專(zhuān)業(yè)學(xué)生期末成績(jī)數(shù)據(jù)及學(xué)生基本信息數(shù)據(jù)為例,結(jié)合數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理、連續(xù)屬性離散化技術(shù)以及關(guān)聯(lián)規(guī)則挖掘技術(shù),分析專(zhuān)業(yè)科目之間的相關(guān)性、學(xué)生最終成績(jī)與學(xué)生自身屬性、外界因素之間的關(guān)聯(lián)關(guān)系。
1基于關(guān)聯(lián)規(guī)則挖掘的學(xué)習(xí)成績(jī)分析過(guò)程
本文實(shí)驗(yàn)平臺(tái)采用開(kāi)源平臺(tái)WEKA,該平臺(tái)集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法。實(shí)驗(yàn)基本過(guò)程是:首先對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,包括連續(xù)數(shù)據(jù)的離散化、屬性缺失項(xiàng)的填補(bǔ)等,然后將數(shù)據(jù)保存為WEKA平臺(tái)典型數(shù)據(jù)文件格式,并加載到相應(yīng)算法處理界面,配置相關(guān)參數(shù)進(jìn)行數(shù)據(jù)挖掘?qū)嶒?yàn)。
1.1數(shù)據(jù)采集和預(yù)處理
本文以山東某高職院校云計(jì)算技術(shù)與應(yīng)用專(zhuān)業(yè)學(xué)生為例,考試成績(jī)數(shù)據(jù)涉及到的科目有專(zhuān)業(yè)必修課、公共基礎(chǔ)課、專(zhuān)業(yè)選修課共7門(mén)課程。部分學(xué)生成績(jī)數(shù)據(jù)如表1。
對(duì)表1每個(gè)科目成績(jī)進(jìn)行離散處理,根據(jù)成績(jī)分布特點(diǎn),部分科目成績(jī)普遍偏高,所以人為劃分分?jǐn)?shù)檔次做法可能會(huì)影響結(jié)果的可信度。這里成績(jī)分布比較均勻,沒(méi)有明顯的離群點(diǎn),所以本文采用等寬法進(jìn)行離散化,分?jǐn)?shù)按照從高檔到低檔分為四個(gè)檔次,分別為A、B、C、D,里面出現(xiàn)舞弊的,成績(jī)置為0。
1.2課程學(xué)習(xí)效果之間的相關(guān)性分析
該部分實(shí)驗(yàn)?zāi)繕?biāo)在于發(fā)現(xiàn)不同科目之間學(xué)生成績(jī)檔次的內(nèi)在關(guān)系,同時(shí)也能發(fā)現(xiàn)某科目成績(jī)與平均分之間隱含關(guān)系,產(chǎn)生的這些規(guī)則可以為學(xué)生提供預(yù)警參考,也為不同科目教師提供教學(xué)參考。
實(shí)驗(yàn)采用關(guān)聯(lián)規(guī)則挖掘Apriori算法,這里設(shè)置最小支持度為0.2,最小置信度為0.6,并將明顯無(wú)效的關(guān)聯(lián)規(guī)則消除。以下是部分關(guān)聯(lián)規(guī)則:
(1)綜合人文素質(zhì)=C ==> 毛澤東思想和中國(guó)特色社會(huì)主義理論體系概論=C conf:(1)
(2)體育=D ==> 計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)=C? conf:(0.99)
(3)JAVA程序設(shè)計(jì)=A ==> 數(shù)據(jù)庫(kù)原理與應(yīng)用=A? conf:(0.98)
以上選取置信度接近1的規(guī)則,其中第1條規(guī)則不難看出公共基礎(chǔ)課的科目之間有很強(qiáng)的關(guān)聯(lián)關(guān)系,這些課程之間的成績(jī)會(huì)互相影響,第3條規(guī)則也能反映同為計(jì)算機(jī)專(zhuān)業(yè)核心課程Java程序設(shè)計(jì)和數(shù)據(jù)庫(kù)原理與應(yīng)用也具有極強(qiáng)的相關(guān)性。這些規(guī)則的形成可以發(fā)現(xiàn)不同課程間的內(nèi)在關(guān)系,可以給學(xué)生提供參考,加強(qiáng)對(duì)其他課程影響比較大的科目的學(xué)習(xí)力度,從而提升整體學(xué)習(xí)效果。
1.3影響學(xué)習(xí)效果的因素調(diào)查分析
該部分實(shí)驗(yàn)基于學(xué)生調(diào)查問(wèn)卷數(shù)據(jù)以及學(xué)生所有科目成績(jī)的平均分,目標(biāo)在于發(fā)現(xiàn)對(duì)學(xué)習(xí)效果有較大影響的因素,以及這些因素之間的隱含內(nèi)在關(guān)系。這里學(xué)生屬性主要包括籍貫、專(zhuān)業(yè)興趣度、學(xué)習(xí)動(dòng)機(jī)、任課教師滿意度、家人關(guān)注度、性別、平均分。
這里設(shè)置最小支持度為0.1,最小置信度為0.8,將數(shù)據(jù)用Weka進(jìn)行關(guān)聯(lián)規(guī)則挖掘,得到部分強(qiáng)關(guān)聯(lián)規(guī)則如下:
(1)專(zhuān)業(yè)興趣度=喜歡==> 任課教師滿意度=滿意 conf:(1)
(2)學(xué)習(xí)動(dòng)機(jī)=就業(yè)==> 家人關(guān)注度=關(guān)注? conf:(1)
(3)家人關(guān)注度=不關(guān)注==> 平均分=D? conf:(1)
(4)任課教師滿意度=滿意 ==> 性別=男 conf:(0.86)
(5)平均分=D ==> 專(zhuān)業(yè)興趣度=不喜歡 conf:(0.83)
產(chǎn)生的這些規(guī)則能夠反映一些影響學(xué)生學(xué)習(xí)效果的因素。其中,第3條和第5條規(guī)則,反映了學(xué)生學(xué)習(xí)效果可能與家人關(guān)注度和專(zhuān)業(yè)興趣度有很大關(guān)系。而從第1條規(guī)則看出,學(xué)生如果對(duì)專(zhuān)業(yè)有很大興趣就會(huì)對(duì)任課教師更加認(rèn)可。產(chǎn)生的規(guī)則可以啟發(fā)老師重視學(xué)習(xí)興趣的培養(yǎng),適當(dāng)改進(jìn)現(xiàn)有教學(xué)模式,從而提高學(xué)習(xí)效果。
2結(jié)束語(yǔ)
本文基于某計(jì)算機(jī)專(zhuān)業(yè)學(xué)生期末成績(jī)以及針對(duì)學(xué)生學(xué)習(xí)影響因素的調(diào)查數(shù)據(jù),采用關(guān)聯(lián)規(guī)則挖掘算法,從樣本數(shù)據(jù)中找出不同科目教學(xué)效果之間的關(guān)聯(lián)關(guān)系和科目之間隱含的相關(guān)性,為教師開(kāi)設(shè)的關(guān)鍵科目提供警示參考,并加強(qiáng)教師們之間的溝通協(xié)調(diào)。同時(shí),找出對(duì)學(xué)生學(xué)習(xí)效果有明顯影響的因素,包括學(xué)生自身屬性和外界因素等,為教師改進(jìn)教學(xué)計(jì)劃,關(guān)注學(xué)生實(shí)際情況,更好的因材施教提供輔助決策支持。
作者簡(jiǎn)介:遲殿委(1982-),男,山東外事職業(yè)大學(xué),系統(tǒng)架構(gòu)設(shè)計(jì)師,碩士,研究方向:數(shù)據(jù)分析與數(shù)據(jù)挖掘,系統(tǒng)架構(gòu)設(shè)計(jì)等。
參考文獻(xiàn)
[1] 劉健.基于數(shù)據(jù)挖掘的軟件系統(tǒng)優(yōu)化與重構(gòu)的研究[D].天津:河北工業(yè)大學(xué),2013.
[2] 蘇新寧,楊建林,鄧三鴻等.數(shù)據(jù)挖掘理論與技術(shù)[M]北京:科學(xué)技術(shù)文獻(xiàn)出版,2003: 53-65.
[3]Mehmed Kantardzic.數(shù)據(jù)挖掘——概念、模型、方法和算法[M].陳茵,程雁譯.北京:清華大學(xué)出版社,2003.
[4] 武書(shū)彥,李咚.數(shù)據(jù)挖掘的探索性研究[J].制造業(yè)自動(dòng)化,2011,33(02):98-100.
[5] 方勝吉,翁蘇湘,李廣慶.淺談高等醫(yī)學(xué)院校學(xué)生”數(shù)據(jù)挖掘”能力的培養(yǎng)[J]科技創(chuàng)新導(dǎo)報(bào),2010(33):182.