倪婧文 沈良忠
摘要:以某高中高考二模成績(jī)?yōu)槔赪eka平臺(tái)運(yùn)用決策樹(shù)分類(lèi)技術(shù)對(duì)高考文科生考試的六個(gè)科目數(shù)據(jù)進(jìn)行更深層次的有效分析處理,從中發(fā)現(xiàn)各科成績(jī)對(duì)總成績(jī)的影響,提取出由決策樹(shù)生成的分類(lèi)規(guī)則,對(duì)高中教育具有一定的指導(dǎo)意義和實(shí)踐價(jià)值。
關(guān)鍵詞:決策樹(shù);數(shù)據(jù)挖掘;ID3;高考成績(jī);Weka
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)22-0004-03
1概述
自從1977年我國(guó)恢復(fù)高考制度以后,高考作為高等教育專(zhuān)業(yè)人才的選拔手段,自然而然地成為每年度的關(guān)注熱點(diǎn)。隨著大數(shù)據(jù)時(shí)代的到來(lái),運(yùn)用數(shù)據(jù)挖掘的相關(guān)技術(shù),分析高考成績(jī)中各科目與高考總分之間內(nèi)在關(guān)系,顯得尤為重要。萬(wàn)雅奇使用關(guān)聯(lián)規(guī)則算法計(jì)算高考科目成績(jī)中等和較差情況下,不同科目之間關(guān)聯(lián)性強(qiáng)弱的規(guī)律。周琦基于改進(jìn)后的決策樹(shù)算法利用信息增益率參數(shù)對(duì)屬性重要性進(jìn)行評(píng)估,找出影響學(xué)生高考成績(jī)的潛在因素,實(shí)現(xiàn)對(duì)高考成績(jī)的預(yù)測(cè)。楊娟基于學(xué)生的三次模擬考試成績(jī)數(shù)據(jù),挖掘出模擬考試成績(jī)與高考考試成績(jī)之間的關(guān)聯(lián),并從高考分?jǐn)?shù)、高考等第和高考選修三個(gè)方面進(jìn)行決策樹(shù)建模來(lái)預(yù)測(cè)學(xué)生高考考試成績(jī)。數(shù)據(jù)挖掘技術(shù)也同時(shí)被用于分析其他類(lèi)型的考試成績(jī),如李海峰分析了平時(shí)英語(yǔ)成績(jī)對(duì)學(xué)生英語(yǔ)四級(jí)考試影響,并大膽預(yù)測(cè)學(xué)生英語(yǔ)四級(jí)考試通過(guò)情況。劉靜利用決策樹(shù)技術(shù)對(duì)CET 4的考試成績(jī)進(jìn)行多元化的分析,分析得到CET-4考試中聽(tīng)力理解、閱讀理解、綜合和寫(xiě)作四個(gè)部分對(duì)CET-4成績(jī)影響的程度。
由此可見(jiàn),數(shù)據(jù)挖掘技術(shù)在高校的成績(jī)管理中已經(jīng)得到了較為廣泛的研究和應(yīng)用,但是對(duì)于中學(xué)教育階段的成績(jī)管理目前仍然停留在簡(jiǎn)單的數(shù)據(jù)查詢(xún)、統(tǒng)計(jì)階段和簡(jiǎn)單的排名分析階段,學(xué)校對(duì)學(xué)生的成績(jī)也只是停留在最高分、平均分、及格率、優(yōu)秀率分析的層面上,而缺少深入的詳細(xì)的數(shù)據(jù)分析。因此,本文主要針對(duì)學(xué)生高考的二模成績(jī),分析學(xué)生各高考科目之間的相互關(guān)系,并根據(jù)各科成績(jī)預(yù)測(cè)高考成績(jī)的情況。學(xué)生可以根據(jù)研究結(jié)果及時(shí)調(diào)整自己的學(xué)習(xí)方向,讓復(fù)習(xí)更有針對(duì)性,同時(shí)也幫助教師及時(shí)調(diào)整教學(xué)策略,提高教學(xué)質(zhì)量。
2決策樹(shù)算法
2.1數(shù)據(jù)獲取
本文以2016年溫州某高校學(xué)生二模成績(jī)作為研究對(duì)象,數(shù)據(jù)直接從學(xué)校教務(wù)系統(tǒng)導(dǎo)出,具有高完整性和可信度。數(shù)據(jù)刪除了姓名、身份證號(hào)等冗余字段,主要保留各科成績(jī)等信息;同時(shí)針對(duì)部分考生成績(jī)?nèi)笔鶎?dǎo)致的總分異常情況進(jìn)行了記錄刪除,最終保留數(shù)據(jù)記錄315條。具體的數(shù)據(jù)如表1所示:
2.2數(shù)據(jù)處理
由于決策樹(shù)的ID3算法只能處理離散化的數(shù)據(jù),所以要對(duì)成績(jī)數(shù)據(jù)進(jìn)行離散化的處理。高考考試的試卷總分?jǐn)?shù)是750分,通常人們認(rèn)為高考的本科線為各科及格分?jǐn)?shù)的總和,因此根據(jù)總分是否大于450分進(jìn)行設(shè)置,將“總分”字段按照大于等于450分的為“PASS”,否則為“NOPASS”。
語(yǔ)文、數(shù)學(xué)和英語(yǔ)滿(mǎn)分為150分,按照110、90劃分為三個(gè)層次,分別記為“A”、“B”、“c”三個(gè)等級(jí)。歷史、政治、地理滿(mǎn)分為100分,按照80、60劃分為三個(gè)層次,分別記為“A”、“B”、“C”三個(gè)等級(jí)。經(jīng)過(guò)數(shù)據(jù)處理之后,最終得到的數(shù)據(jù)如表2所示:
2.3決策樹(shù)構(gòu)建
決策樹(shù)模型是最常用的一種數(shù)據(jù)挖掘方法。它可以直接表現(xiàn)數(shù)據(jù)的特點(diǎn),有利于理解,具有良好的分類(lèi)預(yù)測(cè)能力,并能促進(jìn)提取決策規(guī)則。ID3算法屬于一種自頂向下、分而治之的遞歸構(gòu)造決策樹(shù)的貪心算法。其優(yōu)點(diǎn)是在測(cè)試屬性的選擇上,利用了信息增益的概念,描述簡(jiǎn)單,構(gòu)造的決策樹(shù)平均深度較小,分類(lèi)速度快,學(xué)習(xí)能力強(qiáng),適合于大規(guī)模的數(shù)據(jù)處理。
ID3算法在決策樹(shù)構(gòu)建的過(guò)程中,最重要的就是根結(jié)點(diǎn)的選擇。ID3算法首先找出具有最大信息增益的屬性作為當(dāng)前的分裂結(jié)點(diǎn)。然后把當(dāng)前樣本分成多個(gè)子集,每個(gè)子集又選擇最大信息增益的屬性劃分,一直進(jìn)行到所有子集僅包含同一類(lèi)型的數(shù)據(jù)為止。具體操作過(guò)程如下:
1)計(jì)算分類(lèi)屬性的期望信息
考生二模成績(jī)中,有115條是“PASS”,另外200條是“NO-PASS”,因此分類(lèi)屬性的期望信息為:
2)計(jì)算出各科屬性的信息量
①首先計(jì)算“語(yǔ)文”信息量,“語(yǔ)文”屬性取值分別為“A”、“B”、“c”。其中,33個(gè)“A”樣本中“PASS'的有28個(gè),“NO-PASS”的有5個(gè);218個(gè)“B”樣本中“PASS”有84個(gè),“NOPASS”有134個(gè);64個(gè)值為“C”樣本中“PASS”有3個(gè),“NOPASS”有61個(gè)。通過(guò)以下公式計(jì)算得到“語(yǔ)文”的信息增益。
②同理,按照各科的樣本分類(lèi)計(jì)算各科的信息量,得到的本欄目責(zé)任編輯:王力結(jié)果如表3所示:
用信息增益來(lái)選擇度量測(cè)試屬性,這個(gè)度量是一個(gè)很好的度量屬性,我們將當(dāng)前節(jié)點(diǎn)的屬性規(guī)定為具有最高信息增益的屬性。因此,比較以上6個(gè)屬性字段的信息增益量,找出信息增益量最大的Math字段,把“數(shù)學(xué)”字段當(dāng)做決策樹(shù)的根節(jié)點(diǎn),然后再針對(duì)“數(shù)學(xué)”的每個(gè)分支進(jìn)行類(lèi)似的操作即可生成決策樹(shù)。
3基于決策樹(shù)的的成績(jī)分析
本文利用Weka軟件中決策樹(shù)ID3算法進(jìn)行決策樹(shù)分析,比較各個(gè)測(cè)試屬性的信息增益率,選擇數(shù)值最大的“數(shù)學(xué)”作為根結(jié)點(diǎn),并根據(jù)它的幾個(gè)屬性形成新的訓(xùn)練集得到?jīng)Q策樹(shù)。部分決策樹(shù)如圖1所示。
根據(jù)以上決策樹(shù)模型可知,高考六個(gè)科目中數(shù)學(xué)成績(jī)起到?jīng)Q定性的作用,然后是英語(yǔ)成績(jī),接下來(lái)是語(yǔ)文成績(jī),依次是政治、歷史、地理。由決策樹(shù)模型,進(jìn)而幫助同學(xué)們調(diào)整自己的學(xué)習(xí)方法、提高學(xué)習(xí)效率,從而進(jìn)一步提高考試成績(jī)。從決策樹(shù)模型中,根據(jù)學(xué)生的語(yǔ)文、數(shù)學(xué)、英語(yǔ)、政治、歷史、地理成績(jī)提取學(xué)生總成績(jī)的通過(guò)情況的分類(lèi)規(guī)則。根據(jù)分類(lèi)結(jié)果為“PASS”或“NOPASS”提取分類(lèi)規(guī)則。提取的部分代表性分類(lèi)規(guī)則如表4所示:
根據(jù)表4的規(guī)則,可以得到如下結(jié)論:
結(jié)論1:由決策樹(shù)提取的分類(lèi)規(guī)則對(duì)高中生高考復(fù)習(xí)有著重要的指導(dǎo)作用,同學(xué)們可以根據(jù)自己實(shí)際學(xué)習(xí)情況,參考決策樹(shù)挖掘結(jié)果,找出自己的學(xué)習(xí)薄弱環(huán)節(jié),進(jìn)行針對(duì)性的學(xué)習(xí)訓(xùn)練,對(duì)可以通過(guò)考試的幾種情況有所了解,為自己制定學(xué)習(xí)計(jì)劃和學(xué)習(xí)目標(biāo)提供參考。從上面的規(guī)則我們可以看出在高考中總成績(jī)的優(yōu)秀和各科成績(jī)息息相關(guān),六門(mén)科目中一旦有任意一門(mén)成績(jī)有取得高分及為A,則總成績(jī)通過(guò)的概率會(huì)加大;反言而之,當(dāng)六門(mén)科目中出現(xiàn)多門(mén)考試不及格,則總成績(jī)也不會(huì)太理想。
結(jié)論2:在高考中,數(shù)學(xué)成績(jī)對(duì)高考總分的影響是最為重要的,其次是英語(yǔ)部分和語(yǔ)文部分。歷史、政治、地理三門(mén)成績(jī)的是否優(yōu)秀對(duì)總成績(jī)的通過(guò)率影響較小。因此,同學(xué)們?cè)跍?zhǔn)備考試的時(shí)候可以將數(shù)學(xué)部分作為重點(diǎn)來(lái)進(jìn)行強(qiáng)化訓(xùn)練,有些同學(xué)誤以為把時(shí)政地三門(mén)非主科訓(xùn)練好就能順利通過(guò)考試的想法是不科學(xué)的。語(yǔ)文數(shù)學(xué)英語(yǔ)仍然是高考中最為重要的科目,這些考生要提前調(diào)整自己的學(xué)習(xí)計(jì)劃、完善自己的學(xué)習(xí)方法、科學(xué)的提高學(xué)習(xí)成績(jī)。
結(jié)論3:另一方面,各高中教師也可以根據(jù)決策樹(shù)的幾種規(guī)則,在日常的教學(xué)工作中,合理制定教學(xué)計(jì)劃,適時(shí)調(diào)整教學(xué)方法。學(xué)??梢栽趶?fù)習(xí)階段重點(diǎn)安排數(shù)學(xué)課,老師加強(qiáng)數(shù)學(xué)方面的復(fù)習(xí)計(jì)劃,經(jīng)常提醒同學(xué)們重視數(shù)學(xué)成績(jī)練習(xí),對(duì)數(shù)學(xué)存在困難的同學(xué),提醒他們多做題,看錯(cuò)題,了解自己數(shù)學(xué)成績(jī)不佳的原因。根據(jù)數(shù)據(jù)挖掘分析結(jié)果教師對(duì)同學(xué)們學(xué)習(xí)進(jìn)行科學(xué)的指導(dǎo),幫助學(xué)生進(jìn)一步提高學(xué)習(xí)效率。
4小結(jié)
數(shù)據(jù)挖掘是當(dāng)今最為前沿的綜合性學(xué)科之一,為時(shí)下的許多重要領(lǐng)域提供了數(shù)據(jù)分析業(yè)務(wù)解決方案。高考作為人生中最為重要的一大考試,考試信息的分析和信息化管理將極大地促進(jìn)教育信息化的建設(shè)。本文針對(duì)某高中高考二模成績(jī)數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)去分析高考二模成績(jī)數(shù)據(jù),這是一種非常有意義的嘗試,而且得到了有價(jià)值的結(jié)論,可以將其運(yùn)用到實(shí)際的教學(xué)研究中的,從而為學(xué)校的教育教學(xué)提供了決策的支持。endprint