馬耀蘭
(北方民族大學(xué) 信息與計(jì)算科學(xué)學(xué)院,寧夏 銀川 750021)
數(shù)據(jù)挖掘在大學(xué)生綜合素質(zhì)測評中的應(yīng)用
馬耀蘭
(北方民族大學(xué) 信息與計(jì)算科學(xué)學(xué)院,寧夏 銀川 750021)
討論了數(shù)據(jù)挖掘中決策樹算法的原理及其模型的建立過程,并把它應(yīng)用到高校的大學(xué)生綜合素質(zhì)測評中,借助計(jì)算機(jī)對綜合素質(zhì)測評信息進(jìn)行挖掘,所獲取的知識對指導(dǎo)今后的教學(xué)和學(xué)生工作有重要意義.實(shí)驗(yàn)仿真結(jié)果表明該模型能夠很好的實(shí)現(xiàn)預(yù)期的分類效果.
數(shù)據(jù)挖掘;決策樹;綜合素質(zhì)
當(dāng)今世界各國經(jīng)濟(jì)、科技競爭歸根到底是人才的競爭,培養(yǎng)高素質(zhì)人才已是一項(xiàng)戰(zhàn)略性任務(wù).因此,高等院校理當(dāng)成為培養(yǎng)高素質(zhì)創(chuàng)造型人才的重地.高素質(zhì)人才要求在政治思想、科技文化、綜合能力素質(zhì)等各方面有突出表現(xiàn).大學(xué)生評先樹優(yōu)作為鼓勵(lì)先進(jìn)、樹立榜樣的主要激勵(lì)措施,在培養(yǎng)全面發(fā)展的人才工程中發(fā)揮著重要作用.怎樣客觀、正確地評估和衡量學(xué)生的發(fā)展?fàn)顩r和綜合素質(zhì),其方法如何,以及如何體現(xiàn)先進(jìn)的管理思想和理念,已經(jīng)成為一個(gè)值得探討的重要課題.本文把數(shù)據(jù)挖掘中的決策樹算法用于大學(xué)生綜合素質(zhì)信息分析中,通過實(shí)例驗(yàn)證決策樹算法具有較高的分類精度,它為信息社會的高校學(xué)生工作提供了一種全新的思路和方法.
決策樹方法是通過確定一系列的if-then的邏輯 (分枝)關(guān)系,從一組無秩序、無規(guī)則的事例中推理出一套分層規(guī)則,將所有可能發(fā)生的結(jié)局的概率分布用樹形圖表達(dá),生成決策樹,從而達(dá)到對研究對象進(jìn)行精確預(yù)測或正確分類的目的.決策樹是一個(gè)類似于流程圖的樹結(jié)構(gòu),樹結(jié)構(gòu)中的每個(gè)內(nèi)部節(jié)點(diǎn)代表一個(gè)屬性上的測試,每個(gè)分枝代表一個(gè)測試輸出,每個(gè)樹葉節(jié)點(diǎn)代表一個(gè)類,所以從決策樹的根到葉結(jié)點(diǎn)的一條路徑就對應(yīng)著一條取舍規(guī)則,整棵決策樹就對應(yīng)著一組析取表達(dá)式規(guī)則,因此能通過目標(biāo)變量預(yù)測屬性變量.
為導(dǎo)出結(jié)構(gòu)簡單的決策樹,可以以信息增益(Information Gain)、信息熵(Entropy)等為判據(jù),選擇判定屬性.信息增益方法基于信息熵原理,信息熵是對信息混亂程度的一種度量.一般來說,信息如果是均勻的混合分布,則信息熵就高.若信息呈一致性分布,則信息熵就低.在決策樹中,“信息”由類標(biāo)簽表示,即若數(shù)據(jù)子集中類別混合均勻分布,則信息熵較高.若類別單一分布,則信息熵較低.通過比較每個(gè)屬性形成劃分的前后信息熵的變化,選擇使得信息熵朝最小的方向變化的屬性,就能使得決策樹迅速地達(dá)到葉節(jié)點(diǎn),從而能構(gòu)造緊湊的決策樹.具體來說,對每個(gè)數(shù)據(jù)集或數(shù)據(jù)子集,信息熵可以定義為
式(1)中,c是數(shù)據(jù)集/子集Dj中決策類的個(gè)數(shù),pi是第i個(gè)決策類在D中的比例.
對于任一個(gè)屬性,將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)子集,則該屬性的信息增益為未進(jìn)行劃分時(shí)的數(shù)據(jù)集的信息熵與劃分后數(shù)據(jù)子集的信息熵加權(quán)和的差,即
式(2)中,A是候選屬性,k是該屬性的分支數(shù);D是未使用A進(jìn)行劃分時(shí)的數(shù)據(jù)集,Dj是由A劃分而成的子數(shù)據(jù)集;|·|代表數(shù)據(jù)集的實(shí)例個(gè)數(shù).
在所有屬性中,具有最大Gain(A)的屬性被選為當(dāng)前進(jìn)行劃分的結(jié)點(diǎn).
屬性A的信息增益比率為
對于生成的決策樹,可以直接從中提取規(guī)則.此過程是將決策樹轉(zhuǎn)化成比較直觀的規(guī)則形式,可以更好地理解分類結(jié)果.分類規(guī)則是用if-then形式表示,每條規(guī)則都是一條從根到葉節(jié)點(diǎn)的路徑,葉結(jié)點(diǎn)表示具體的結(jié)論,而葉結(jié)點(diǎn)以上的結(jié)點(diǎn)及其邊表示的相應(yīng)條件的條件取值.
本文以某高校綜合素質(zhì)問卷調(diào)查所收集的信息為數(shù)據(jù)依據(jù),應(yīng)用數(shù)據(jù)挖掘中的決策樹算法對大學(xué)生綜合素質(zhì)信息建立分類模型,相關(guān)屬性包括:性別、民族、專業(yè)、政治面貌、是否獨(dú)生子女、家住地區(qū)、英語水平、綜合素質(zhì)等28個(gè)屬性.
對以上收集的樣本數(shù)據(jù),經(jīng)預(yù)處理(如噪聲數(shù)據(jù)的處理及冗余數(shù)據(jù)的處理)以后,我們?yōu)槊總€(gè)字段進(jìn)行編號,并且將字段的每個(gè)取值轉(zhuǎn)化為“字母+數(shù)字”形式的示意字符串存儲于計(jì)算機(jī)之中,最終得到的用于建模的樣本數(shù)據(jù)集合相關(guān)信息如表1所示.
表1 經(jīng)過處理后的樣本數(shù)據(jù)集合字段信息
本文采用數(shù)據(jù)挖掘軟件SPSSC lementine12.0進(jìn)行決策樹模型的構(gòu)建,在決策樹的構(gòu)建中,有關(guān)C 5.0的模型參數(shù)均采用默認(rèn)設(shè)置,本次C 5.0 算法生成的決策樹(見圖1)如下:
圖1 綜合素質(zhì)測評的決策樹圖
決策樹模型的好壞是由其精度評價(jià)的,因此我們還分析了預(yù)測模型來評估它們產(chǎn)生精確預(yù)測值的能力,即在預(yù)測值和實(shí)際值之間的比較,結(jié)果如表2所示.
表2 預(yù)測值與實(shí)際值的比較分析
由表2可知,300名同學(xué)中,實(shí)際有140名同學(xué)綜合素質(zhì)好,積極進(jìn)取,模型預(yù)測準(zhǔn)確了100名,即綜合素質(zhì)好,積極進(jìn)取的預(yù)測正確率達(dá)71.43%.實(shí)際有140名同學(xué)綜合素質(zhì)雖有不足,但仍具有積極進(jìn)取意識,模型預(yù)測準(zhǔn)確了130名,即綜合素質(zhì)雖有不足,但仍具有積極進(jìn)取意識的預(yù)測正確率為92.86%.實(shí)際有20名同學(xué)綜合素質(zhì)一般,進(jìn)取意識不強(qiáng),模型預(yù)測準(zhǔn)確了20名,預(yù)測正確率達(dá)到100%.由此可以看出,決策樹的分類的精度較高.
結(jié)論:將決策樹算法應(yīng)用到大學(xué)生綜合素質(zhì)測評中,具有很好的效果.當(dāng)然,還有很多不足之處,還需要改進(jìn).
〔1〕Han J,Kamber M.Data Mining:Concepts and Techniques.Morgan Kaufmann Publishers,2001:279-333.
〔2〕王闐,佘光輝.決策樹C4.5算法在森林資源二類調(diào)查中的應(yīng)用[J].南京林業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,31(3):115-118.
〔3〕龐素琳,鞏吉璋.C5.0分類算法及在銀行個(gè)人信用評級中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2009,29(12):95-104.
〔4〕張洪田,葉樹江.構(gòu)建工程應(yīng)用型本科院校學(xué)生綜合素質(zhì)教育模式的研究與實(shí)踐[J].中國高教研究,2010(1):59-60.
TP 311
A
1673-260X(2010)12-0033-03
北方民族大學(xué)教學(xué)研究項(xiàng)目(項(xiàng)目編號:2008TR32-YB)資助