黃 敏,何中市
(1.重慶工貿(mào)職業(yè)技術(shù)學(xué)院 信息工程系,重慶408000;2.重慶大學(xué) 計(jì)算機(jī)學(xué)院,重慶400044)
教學(xué)質(zhì)量評(píng)價(jià)作為保障教學(xué)質(zhì)量的重要手段之一,各高職院校建立了相應(yīng)的評(píng)價(jià)系統(tǒng),隨著時(shí)間的推移,系統(tǒng)內(nèi)的評(píng)價(jià)數(shù)據(jù)也在飛速的增長(zhǎng),傳統(tǒng)的數(shù)據(jù)分析手段已明顯落后。簡(jiǎn)單地將評(píng)價(jià)結(jié)果反饋給教學(xué)管理部門(mén),并將該結(jié)果作為教師獎(jiǎng)懲、晉升職稱(chēng)等的依據(jù)之一,無(wú)法對(duì)評(píng)價(jià)對(duì)象與評(píng)價(jià)結(jié)果間隱含的信息進(jìn)行深入挖掘。數(shù)據(jù)挖掘技術(shù)作為一種新興的先進(jìn)的數(shù)據(jù)分析工具,正被廣泛應(yīng)用在各個(gè)領(lǐng)域[1-4]。基于數(shù)據(jù)挖掘技術(shù)的教學(xué)質(zhì)量評(píng)價(jià)系統(tǒng)也進(jìn)行了較多的研究[5-8],但對(duì)評(píng)價(jià)結(jié)果的分析及應(yīng)用方面研究較少。鑒于此,本文利用數(shù)據(jù)挖掘中的分類(lèi)技術(shù)對(duì)評(píng)價(jià)對(duì)像與評(píng)價(jià)結(jié)果之間的關(guān)系進(jìn)行深入研究,采用分類(lèi)算法構(gòu)造決策樹(shù),挖掘出潛在關(guān)系,并將研究結(jié)果運(yùn)用于實(shí)際,為教學(xué)管理者提供了更多的幫助信息。
數(shù)據(jù)挖掘也叫數(shù)據(jù)開(kāi)采,就是按照既定的目標(biāo),從大量數(shù)據(jù)中提取先前未知的信息或模式。它是從數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn) (knowledge discovery in database,KDD)過(guò)程中的一個(gè)主要步驟。
KDD過(guò)程可以分為4部份:數(shù)據(jù)清理與集成 (cleaning and integration)、選擇與轉(zhuǎn)換 (selection and transformation)、數(shù)據(jù)挖掘 (data mining)、評(píng)估與表示 (evaluation and presentation)。數(shù)據(jù)清理與集成的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,然而實(shí)際系統(tǒng)中收集到的原始數(shù)據(jù)通常是 “臟”的,即數(shù)據(jù)存在雜亂性、重復(fù)性以及不完整性;選擇與轉(zhuǎn)換可以處理數(shù)據(jù)中的遺漏及清洗臟數(shù)據(jù),從而提高數(shù)據(jù)挖掘的質(zhì)量;數(shù)據(jù)挖掘階段進(jìn)行實(shí)際的挖掘操作,它要先決定是進(jìn)行發(fā)現(xiàn)型的數(shù)據(jù)挖掘還是驗(yàn)證型的數(shù)據(jù)挖掘,然后選擇合適的工具,進(jìn)行發(fā)現(xiàn)知識(shí)的操作及證實(shí)發(fā)現(xiàn)的知識(shí);評(píng)估與表示這一步聚的任務(wù)不僅是采用特定的方式把結(jié)果表達(dá)出來(lái),還要對(duì)信息進(jìn)行過(guò)濾處理,如果不能令人滿(mǎn)意,需要重復(fù)以上數(shù)據(jù)挖掘過(guò)程。
數(shù)據(jù)挖掘分類(lèi)技術(shù)主要有決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、k-均值、貝葉期分類(lèi)、粗糙集、遺傳算法、回歸算法等等,這些技術(shù)一般有兩個(gè)步驟[9]。①建立模型,通過(guò)分析由屬性描述的樣本集來(lái)建立模型;②模型應(yīng)用,即使用模型進(jìn)行分類(lèi),通過(guò)對(duì)模型的預(yù)測(cè)準(zhǔn)確率進(jìn)行評(píng)估,如果認(rèn)為模型的準(zhǔn)確率可以接受,則可以用它對(duì)數(shù)據(jù)樣本或?qū)ο筮M(jìn)行分類(lèi)。分類(lèi)結(jié)果的好壞取決于預(yù)測(cè)準(zhǔn)確率的高低,選擇不同的分類(lèi)技術(shù)將導(dǎo)致不同的分類(lèi)結(jié)果。
決策樹(shù)又稱(chēng)判定樹(shù),它是一個(gè)類(lèi)似于流程圖的樹(shù)結(jié)構(gòu),提供了使用一組 “if-then”規(guī)則來(lái)分類(lèi)記錄的技術(shù)[10]。決策樹(shù)由節(jié)點(diǎn)、分支和葉子3部分組成,節(jié)點(diǎn)代表屬性,葉子結(jié)點(diǎn)代表類(lèi)別,樹(shù)的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn),從根節(jié)點(diǎn)到葉子結(jié)點(diǎn)的一條路徑開(kāi)成一條分類(lèi)規(guī)則,其應(yīng)用較為廣泛[11-12]。目前已形成了多種決策樹(shù)算法,如 CLS、ID3、CHAID、CART、FACT、C4.5、GINI、SEE5、SLIQ、SPRINT等[13]。其中最著名的算法是1986年J.R.Quinlan在 “Induction of Decision Trees”論文中提出的ID3算法和1993年改進(jìn)后的C4.5算法。C4.5算法是ID3算法的改進(jìn)版本,它采用信息增益率 (gain ratio)克服了用信息增益選擇屬性時(shí)偏向于選擇取值多的屬性不足;在樹(shù)構(gòu)造過(guò)程中或者構(gòu)造完成之后,進(jìn)行剪枝;能夠完成對(duì)連續(xù)屬性的離散化處理;能夠?qū)τ诓煌暾麛?shù)據(jù)進(jìn)行處理;最終可以形成產(chǎn)生式規(guī)則。
C4.5算法是通過(guò)訓(xùn)練樣本集構(gòu)造一個(gè)決策樹(shù),而決策樹(shù)的每個(gè)結(jié)點(diǎn)是使用信息增益率來(lái)選擇屬性。信息增益率計(jì)算方法如下:
設(shè)S= {S1,S2,…,Sn},每個(gè)數(shù)據(jù)對(duì)象有 m個(gè)屬性,選擇其中一個(gè)屬性V為類(lèi)標(biāo)號(hào)屬性,且V= {V1,V2,…,Vk},其中k為屬性V的取值個(gè)數(shù),則屬性V的取值將數(shù)據(jù)對(duì)象集合S劃分為k個(gè)子集Ci(i=1,2,…k)。設(shè)si是子集Ci中的對(duì)象個(gè)數(shù),則對(duì)一個(gè)給定的對(duì)象分類(lèi)所需要的期望信息為
其中pi=si/n,是任意對(duì)象屬于Ci的概率。
設(shè)屬性A有u個(gè)不同取值 {a1,a2,…,au},利用屬性A的不同取值可以將數(shù)據(jù)對(duì)象集合S劃分為u個(gè)子集{S1,S2,…,Su},其中Sj包含了S中在屬性A上具有相同值aj,設(shè)Sij是子集Sj中集合Cj的對(duì)象個(gè)數(shù),則由屬性A劃分子集的熵為
其中I(s1j+…+skj)=。
因此,在屬性A上分枝的信息增益為
屬性A的信息熵為
屬性A的信息增益率為
通過(guò)以上公式,可求出數(shù)據(jù)對(duì)象各屬性的信息增益率,找出其中具有最高信息增益率的屬性作為分支結(jié)點(diǎn),依次類(lèi)推即可構(gòu)建一棵分類(lèi)決策樹(shù)。
本應(yīng)用研究以重慶某職業(yè)技術(shù)學(xué)院教學(xué)管理系統(tǒng)里的數(shù)據(jù)為基礎(chǔ),主要是針對(duì)教師的基本情況和評(píng)價(jià)結(jié)果之間的關(guān)系進(jìn)行分析,建立優(yōu)秀教師模型,使學(xué)校對(duì)教師激勵(lì)有一個(gè)確切的依據(jù),同時(shí)對(duì)學(xué)校將來(lái)引進(jìn)人才方面提供一定的參考。研究過(guò)程使用的是教師基本情況和2009年秋期教學(xué)評(píng)價(jià)結(jié)果兩個(gè)方面的數(shù)據(jù),這些數(shù)據(jù)可以通過(guò)目前正在使用的教學(xué)管理系統(tǒng)里的數(shù)據(jù)庫(kù)獲取 (見(jiàn)表1和表2)。
表1 教師基本信息
表2 教師教學(xué)質(zhì)量評(píng)價(jià)結(jié)果
數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)消減等幾步。在教師信息表中雖然有一些感興趣的屬性缺少屬性值,但根據(jù)C4.5算法的特點(diǎn),這些記錄可以保留。在評(píng)價(jià)結(jié)果表中,有些教師因?yàn)閰⑴c評(píng)價(jià)的學(xué)生過(guò)少 (<20)或者某老師在該學(xué)期沒(méi)有任課而沒(méi)有評(píng)價(jià)結(jié)果,所以進(jìn)行了刪除,同時(shí)對(duì)一些不感興趣的屬性進(jìn)行數(shù)據(jù)清理、集成后共有168條記錄,占總記錄數(shù)的98.6%。為了讓挖掘結(jié)果易于理解,我們采用直方圖中的分箱法對(duì)年齡進(jìn)行處理,最終生成訓(xùn)練數(shù)據(jù)如表3所示。
表3 最終生成的訓(xùn)練數(shù)據(jù)
本研究中,經(jīng)過(guò)訓(xùn)練共有168個(gè)教學(xué)評(píng)價(jià)數(shù)據(jù),4個(gè)屬性,分別是性別、學(xué)歷、職稱(chēng)、年齡,根據(jù)教學(xué)評(píng)價(jià)結(jié)果屬性的不同取值,將樣本分為兩個(gè)不同的子集: {“yes”}、{“no”}。表4是用于計(jì)算增益的部分?jǐn)?shù)據(jù)。
現(xiàn)在計(jì)算教學(xué)評(píng)價(jià) (JXPJ)的信息熵
表4 各屬性樣本分布
下面計(jì)算教學(xué)評(píng)價(jià)基于其它屬性的條件信息熵
E (XB)= - (99/168 ((37/99)log2(37/99)+(62/99)log2(62/99))- (69/168 ((29/69)log2(29/69)+ (40/69)log2(40/69))=0.965035562
Gain=I (S1,S2) - E (XB) =0.993883692-0.965035562=0.0288481
split_info (XB)= - (99/168)log2(99/168)-(69/168)log2(69/168)=0.976874013
則教師性別 (XB)的信息增益率為
gain_ratio (XB)=Gain/split_info=0.0288481/0.976874013=0.029531
同理可計(jì)算
gain_ratio (XL)=0.150159766
gain_ratio (ZC)=0.067266797
gain_ratio (NL)=0.060292002
經(jīng)過(guò)比較,由于教師學(xué)歷 (XL)屬性具有最高信息增益率,可以得出決策樹(shù)的第一層節(jié)點(diǎn)為教師學(xué)歷,然后建立第一層節(jié)點(diǎn)。
其它節(jié)點(diǎn)依次類(lèi)推,直到所有的樣本都屬于同一類(lèi)或樣本數(shù)為空,建立葉子節(jié)點(diǎn),當(dāng)所有的屬性值都已經(jīng)訪(fǎng)過(guò),就完成了決策樹(shù)的建立 (見(jiàn)圖1)。
當(dāng)決策樹(shù)創(chuàng)建時(shí),由于訓(xùn)練樣本太少或數(shù)據(jù)中存在噪聲和孤立點(diǎn),許多分枝反映的是訓(xùn)練數(shù)據(jù)中的異?,F(xiàn)象,建立的決策樹(shù)會(huì)過(guò)度擬合訓(xùn)練樣本集,反而不具有很好的預(yù)測(cè)性能[14]。通常用兩種方法對(duì)樹(shù)進(jìn)行修剪,分別為先剪枝方法、后剪枝方法,后剪枝方法主要有4種:悲觀(guān)錯(cuò)誤剪枝 (PEP)、最小錯(cuò)誤剪枝 (MEP)、代價(jià)復(fù)雜度剪枝(CCP)、基于錯(cuò)誤剪枝 (EBP)[15]。本文采用的是基于錯(cuò)誤剪枝。其基本思想是讓決策樹(shù)完全地生長(zhǎng),通過(guò)計(jì)算某結(jié)點(diǎn)上的子樹(shù)被剪枝可能出現(xiàn)有期望錯(cuò)誤率,如果剪去該結(jié)點(diǎn)導(dǎo)致較低的期望錯(cuò)誤率,則刪除該結(jié)點(diǎn);如果剪去該結(jié)點(diǎn)導(dǎo)致較高的期望錯(cuò)誤率,則保留該子樹(shù)。圖2就是通過(guò)后剪枝后的教學(xué)效果是否優(yōu)秀的分類(lèi)決策樹(shù)。
決策樹(shù)最大的優(yōu)點(diǎn)就是可以直接提取分類(lèi)規(guī)則。將決策樹(shù)進(jìn)行廣度優(yōu)先搜索,對(duì)每一個(gè)葉節(jié)點(diǎn),求出從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑,該路徑所有節(jié)點(diǎn)的劃分條件并在一起,并在每個(gè)葉節(jié)點(diǎn)生成IF-THEN規(guī)則,即構(gòu)成一條分類(lèi)規(guī)則。由于本研究中主要是希望了解教學(xué)質(zhì)量評(píng)價(jià)結(jié)果為“優(yōu)”的情況,因此所提取的規(guī)則主要考慮分類(lèi)為 “yes”的百分比規(guī)則。所生成的分類(lèi)規(guī)則如下:
規(guī)則1:IF學(xué)歷=碩士 THEN 類(lèi)是 “yes”的比例為92.3%;
規(guī)則2:IF學(xué)歷=本科AND性別=男AND職稱(chēng)=副教授THEN類(lèi)是 “yes”的比例為85.5%;
規(guī)則3:IF學(xué)歷=本科AND性別=男AND職稱(chēng)=高講AND年齡>37THEN類(lèi)是 “yes”的比例為87.5%;
規(guī)則4:IF學(xué)歷=本科AND性別=女AND職稱(chēng)=副教授A(yíng)ND年齡>45THEN類(lèi)是 “yes”的比例為90.9%;
圖1 教學(xué)質(zhì)量評(píng)價(jià)結(jié)果決策樹(shù)
圖2 剪枝后的教學(xué)質(zhì)量評(píng)價(jià)結(jié)果決策樹(shù)
規(guī)則5:IF學(xué)歷=本科AND性別=女AND職稱(chēng)=高講AND年齡>45THEN類(lèi)是 “yes”的比例為79.3%。
將從決策樹(shù)中提取的分類(lèi)規(guī)則匯報(bào)給教學(xué)管理者,根據(jù)規(guī)則,教學(xué)管理者對(duì)學(xué)校教師任課情況做了一定的調(diào)整,對(duì)具有高學(xué)歷、高職稱(chēng)及年齡在37歲以上的教師充實(shí)到教學(xué)第一線(xiàn),并適當(dāng)增加課時(shí)量,發(fā)揮他們的長(zhǎng)處,在教學(xué)隊(duì)伍中起到帶頭、示范作用。對(duì)于年青教師則通過(guò)交流、聽(tīng)課、教學(xué)活動(dòng)等手段來(lái)提高他們的教學(xué)經(jīng)驗(yàn)及能力。在引進(jìn)人才方面也以高學(xué)歷高職稱(chēng)為主。經(jīng)過(guò)2010年春期實(shí)踐,對(duì)2010年春期的評(píng)價(jià)結(jié)果進(jìn)行挖掘,30歲以下的年青教師的優(yōu)秀率從原來(lái)的10.12%提高到28.43%,具有明顯的提高。
本文結(jié)合重慶某職業(yè)技術(shù)學(xué)院2009年秋教學(xué)評(píng)價(jià)結(jié)果及教師個(gè)人信息數(shù)據(jù),利用決策樹(shù)分類(lèi)算法實(shí)現(xiàn)了二者之間關(guān)系的分析,并得出一定的結(jié)論,為教學(xué)管理者提供決策支持并取得一定的效果。當(dāng)然,教師的儀表、行為,學(xué)生自身素質(zhì)及其它因素是否也會(huì)影響到學(xué)生對(duì)教師的評(píng)價(jià),這也值得探討。將數(shù)據(jù)挖掘技術(shù)充分應(yīng)用到教學(xué)評(píng)價(jià)系統(tǒng)中,能幫助教學(xué)管理者和決策者從中獲取更多有價(jià)值的、有興趣的信息與知識(shí),對(duì)教學(xué)的發(fā)展與教學(xué)質(zhì)量的提高有很大的幫助。
[1]LIU Mei-ling,LI Xi,LI Yong-sheng.Application of data mining in university teaching and management [J].Computer Engineering and Design,2010,31 (5):1130-1133 (in Chinese).[劉美玲,李熹,李永勝.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用 [J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31 (5):1130-1133.]
[2]YU La-sheng,LI Qiang.Research on application of data mining in quality supervising and management system [J].Computer Engineering and Design,2010,31 (10):2327-2334(in Chinese).[余臘生,李強(qiáng).數(shù)據(jù)挖掘在質(zhì)量管理系統(tǒng)中的應(yīng)用研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(10):2327-2334.]
[3]YE Ming-quan, WU Chang-rong,HU Xue-gang.Research and application on medical data mining based on rough sets[J].Computer Engineering and Applications,2010,46(21):232-234 (in Chinese).[葉明全,伍長(zhǎng)榮,胡學(xué)鋼.基于粗糙集的醫(yī)療數(shù)據(jù)挖掘研究與應(yīng)用.計(jì)算機(jī)工程與應(yīng)用,2010,46 (21):232-234.]
[4]WANG Wei-h(huán)ui,GENG Guo-h(huán)ua,CHEN Li.Appliacation of data mining to insurance business [J].Computer Applications and Software,2008,25 (3):123-125 (in Chinese). [王偉輝,耿國(guó)華,陳莉.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)業(yè)務(wù)中的應(yīng)用 [J].計(jì)算機(jī)應(yīng)用與軟件,2008,25 (3):123-125.]
[5]WANG Jia-xin,WANG Xu-h(huán)ui.Teaching evaluation system through network based on data mining [J].Journal of Henan Institute of Engineering,2009,21 (3):50-52 (in Chinese).[王佳欣,王旭輝.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)評(píng)教系統(tǒng) [J].河南工程學(xué)院學(xué)報(bào) (自然科學(xué)版),2009,21 (3):50-52.]
[6]XIAO Zhi-ming.Data mining in higher education evaluation system [J].Coal Technology,2010,29 (7):212-214 (in Chinese).[肖志明.數(shù)據(jù)挖掘在高校教學(xué)評(píng)價(jià)系統(tǒng)中的應(yīng)用[J].煤炭技術(shù),2010,29 (7):212-214.]
[7]GUO Xiao-li,GUO Ping,F(xiàn)ENG Li.Implementation of data mining technology in analysis and appraisal system of teaching quality [J].Journal of Northeast Dianli University Natural Science Edition,2006,26 (3):70-73 (in Chinese). [郭曉利,郭平,馮力.基于數(shù)據(jù)挖掘技術(shù)的教學(xué)質(zhì)量分析評(píng)價(jià)系統(tǒng)的實(shí)現(xiàn) [J].東北電力大學(xué)學(xué)報(bào) (自然科學(xué)版),2006,26(3):70-73.]
[8]FU Hai-yan,F(xiàn)U Mou-song,ZHANG Cheng-yi.Application of rough set theory to instruction quality evaluation and analysis[J].Computer Engineering and Applications,2007,43(36):214-216 (in Chinese).[付海艷,符謀松,張誠(chéng)一.粗糙集理論在高校教學(xué)質(zhì)量評(píng)價(jià)分析中的應(yīng)用 [J].計(jì)算機(jī)工程與應(yīng)用,2007,43 (36):214-216.]
[9]MENG Fan-rong,SHI Lei,HU Ji-cheng.Research on classification technology of data mining [J].Computer and Modernization,2008,24 (3):29-31 (in Chinese).[孟凡榮,施蕾,胡繼成.數(shù)據(jù)挖掘中分類(lèi)技術(shù)的研究 [J].計(jì)算機(jī)與現(xiàn)代化,2008,24 (3):29-31.]
[10]TAN Jun-lu,WU Jian-h(huán)ua.Classification algorithm of rule based on decision-tree [J].Computer Engineering and Design,2010,31 (5):1017-1019 (in Chinese).[譚俊璐,武建華.基于決策樹(shù)規(guī)則的分類(lèi)算法研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31 (5):1017-1019.]
[11]CHENG Tie-xin,GUO Tao,QI Xin.Application of decision-tree cluster model in the risk pre-warning for the tender evaluation of civil projects [J].Journal of Applied Statistics and Management,2010,29 (1):122-128 (in Chinese).[程鐵信,郭濤,祁昕.決策樹(shù)分類(lèi)模型在工程項(xiàng)目評(píng)標(biāo)風(fēng)險(xiǎn)預(yù)警 中的應(yīng) 用 [J].數(shù)理統(tǒng)計(jì)與 管理,2010,29 (1):122-128.]
[12]CHENG Chang-pin,CHEN Qian.Research of applying the method of decision tree based on information gain ratio to college students employment forecasting [J].Computer Simulation,2010,27 (2):299-302 (in Chinese). [程昌品,陳強(qiáng).基于信息增益比的決策樹(shù)用于畢業(yè)生就業(yè)預(yù)測(cè) [J].計(jì)算機(jī)仿真,2010,27 (2):299-302.]
[13]ZHANG Hai-xiao.The research on application of data classification in teaching of high learning [D].The Full Text of Chinese good Master’s Thesis Database,2005 (in Chinese).[張海笑.數(shù)據(jù)挖掘分類(lèi)技術(shù)在高校教學(xué)中的應(yīng)用研究 [D].中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫(kù),2005.]
[14]LU Jing-jing.Teaching evaluation systems based on data mining [D].The full text of Chinese Good Master’s Thesis Database,2007(in Chinese).[盧晶晶.基于數(shù)據(jù)挖掘的教學(xué)評(píng)價(jià)系統(tǒng) [D].中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫(kù),2007.]
[15] WEI Hong-ning.Comparison among methods of decision tree pruning[J].Journal of Southwest Jiaotong University,2005,40 (1):44-48 (in Chinese). [魏紅寧.決策樹(shù)剪枝方法的比較 [J].西南交通大學(xué)學(xué)報(bào),2005,40 (1):44-48.]