劉紅保
摘 要:本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用于計(jì)算機(jī)文化基礎(chǔ)等級(jí)考試中,通過使用ID3分類方法,分析最近幾個(gè)學(xué)期計(jì)算機(jī)文化基礎(chǔ)成績(jī),發(fā)現(xiàn)影響學(xué)生通過考試的因素在于學(xué)生自身學(xué)習(xí)意愿是否按時(shí)交作業(yè)是否做練習(xí)題,與任課教師的教學(xué)方法、其他科成績(jī)、有無計(jì)算機(jī)基礎(chǔ)等因素關(guān)系很大,為計(jì)算機(jī)文化基礎(chǔ)教學(xué)提供有效的理論依據(jù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;ID3算法;影響因素
1 數(shù)據(jù)挖掘的概述
1.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,抽取隱含在其中的、人們事先不知道的、但又潛在有用的知識(shí)的過程。此定義包含三個(gè)層次的含義:①數(shù)據(jù)必須是真實(shí)的、大量的、含噪聲的;②發(fā)現(xiàn)的是用戶感興趣、可理解的知識(shí);③發(fā)現(xiàn)的知識(shí)只面向特定的領(lǐng)域。
1.2 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘可以概括為三個(gè)部分:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示。其中數(shù)據(jù)預(yù)處理可以分為:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換四個(gè)部分。
1.3 數(shù)據(jù)挖掘的方法
目前比較常用的數(shù)據(jù)挖掘分析方法有:關(guān)聯(lián)規(guī)則分析、分類分析、預(yù)測(cè)分析、聚類分析等。
2 主要算法設(shè)計(jì)
2.1 數(shù)據(jù)搜集,分析影響學(xué)生計(jì)算機(jī)一級(jí)成績(jī)的因素,需要以下幾個(gè)方面的信息
①學(xué)生基本信息。應(yīng)包括如下屬性:學(xué)號(hào)、姓名、性別、籍貫、民族、專業(yè)、班級(jí),這些信息可以通過學(xué)院的綜合教務(wù)管理系統(tǒng)獲得。②學(xué)生調(diào)查信息。內(nèi)容包括學(xué)號(hào)、學(xué)習(xí)興趣、學(xué)習(xí)前的知識(shí)掌握情況、課后上機(jī)練習(xí)時(shí)間量、做模擬題情況等。這些信息主要通過調(diào)查,由學(xué)生填寫。③學(xué)生成績(jī)。成績(jī)數(shù)據(jù)表中包括了學(xué)生的學(xué)號(hào)、平時(shí)成績(jī)、等級(jí)考試成績(jī),這個(gè)數(shù)據(jù)庫(kù)由學(xué)院綜合教務(wù)管理系統(tǒng)獲得。④評(píng)教數(shù)據(jù)。包括教師編號(hào)、評(píng)教情況等。
2.2 數(shù)據(jù)預(yù)處理
①數(shù)據(jù)集成和變換。主要采用數(shù)據(jù)庫(kù)相關(guān)技術(shù)把得到多個(gè)數(shù)據(jù)庫(kù)文件數(shù)據(jù)合并到學(xué)生成績(jī)分析基本表中。②數(shù)據(jù)清理。把不一致的數(shù)據(jù)補(bǔ)充完整,處理空缺值的方法有:忽略元組、人工填寫空缺值、使用全局常量、采用平均值填充、使用最有可能的值填充空缺值。③數(shù)據(jù)規(guī)約。就是縮小所挖掘數(shù)據(jù)的規(guī)模,并且挖掘出來的結(jié)果與原有的數(shù)據(jù)集多獲得的結(jié)果基本相同。學(xué)生基本信息中的民族、籍貫等、成績(jī)庫(kù)中的考試時(shí)間、考試地點(diǎn)等屬性是與成績(jī)不相關(guān)的屬性,需要進(jìn)行維規(guī)約。形成新的影響學(xué)生成績(jī)分析的基本數(shù)據(jù)表如表1。
2.3 進(jìn)行數(shù)據(jù)分類挖掘,生成分類規(guī)則
如:IF文理科=文AND是否按時(shí)交作業(yè)=是AND其他平均成績(jī)=優(yōu)秀AND有無計(jì)算機(jī)基礎(chǔ)=有AND教師評(píng)教=優(yōu)秀AND學(xué)生作模擬題>4THEN通過
IF文理科=理AND是否按時(shí)交作業(yè)=是AND其他平均成績(jī)=優(yōu)秀AND有無計(jì)算機(jī)基礎(chǔ)=有AND教師評(píng)教=優(yōu)秀AND學(xué)生作模擬題>4THEN通過
IF文理科=文AND是否按時(shí)交作業(yè)=否AND其他平均成績(jī)=優(yōu)秀AND有無計(jì)算機(jī)基礎(chǔ)=有AND教師評(píng)教=優(yōu)秀AND學(xué)生作模擬題<4THEN不通過
IF文理科=理AND是否按時(shí)交作業(yè)=否AND其他平均成績(jī)=優(yōu)秀AND有無計(jì)算機(jī)基礎(chǔ)=有AND教師評(píng)教=優(yōu)秀AND學(xué)生作模擬題<4THEN不通過
……
2.4 實(shí)驗(yàn)結(jié)果分析
通過以上分類規(guī)則的分析可以看出,學(xué)生能否通過計(jì)算機(jī)一級(jí)等級(jí)考試的關(guān)鍵因素是按時(shí)做作業(yè),提交作業(yè),多做練習(xí)多做模擬題,與學(xué)生是否具有計(jì)算機(jī)基礎(chǔ)沒有關(guān)系,與學(xué)生是否是文理科也沒有關(guān)系,即使其他成績(jī)一般,通過多做練習(xí)多做模擬題也是可以通過的,說明與其他課程的成績(jī)沒有必然的關(guān)系,學(xué)生不按時(shí)提交作業(yè),不做練習(xí)不做模擬題,教師再優(yōu)秀,該學(xué)生的計(jì)算機(jī)一級(jí)也是無法通過的。由此可知在今后的計(jì)算機(jī)文化基礎(chǔ)教學(xué)過程中,任課教師應(yīng)該注重學(xué)生的平時(shí)作業(yè)完成情況,著重加強(qiáng)學(xué)生的上機(jī)實(shí)驗(yàn)練習(xí),鼓勵(lì)學(xué)生課后多做計(jì)算機(jī)一級(jí)模擬試題,從而確保學(xué)生計(jì)算機(jī)一級(jí)考試的通過。
本文把數(shù)據(jù)挖掘技術(shù)引入到計(jì)算機(jī)一級(jí)等級(jí)領(lǐng)域,利用數(shù)據(jù)挖掘的分類技術(shù)對(duì)一級(jí)成績(jī)數(shù)據(jù)分類,并使用ID3算法具體實(shí)現(xiàn)分類挖掘。實(shí)驗(yàn)結(jié)果達(dá)到了預(yù)期的目標(biāo),挖掘出了一系列影響計(jì)算機(jī)一級(jí)通過的分類規(guī)則,為學(xué)院的計(jì)算機(jī)一級(jí)等級(jí)考試提供了科學(xué)的參考依據(jù)。
[參考文獻(xiàn)]
[1]紀(jì)希禹.《數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例》.機(jī)械工業(yè)出版社,2009.4.
[2]李慶香.《數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用研究》.西南大學(xué),2009.12.
[3]劉芳,林海霞.《數(shù)據(jù)挖掘技術(shù)在高校計(jì)算機(jī)等級(jí)考試成績(jī)分析中的應(yīng)用》.計(jì)算機(jī)與信息技術(shù),2008.11.