• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      K-均值聚類與決策樹C4.5算法在成績分析中的應(yīng)用研究

      2018-03-12 06:09:17
      福建質(zhì)量管理 2018年4期
      關(guān)鍵詞:總成績信息熵決策樹

      (重慶工商大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院 重慶 400067)

      引言

      學(xué)生的成績分析是高校管理中的最重要一環(huán),是進(jìn)行綜合素質(zhì)測評的依據(jù),但目前各高校采取的是比較簡單淺層次的分析,且不重視各科之間和各科與總成績之間的種種關(guān)聯(lián),只以總成績的高低來作為劃分成績等級(jí)的依據(jù),忽略了各科目的難易程度、重要程度、教學(xué)水平的差異程度等因素。所以,為幫助老師合理地開展和改善教學(xué)工作,更好地找到影響成績的相關(guān)因素,制定科學(xué)有效的成績分析模型是非常必要且不可忽視的重中之重。

      一、決策樹原理及其經(jīng)典算法

      (一)決策樹原理

      決策樹(Decision Tree)是機(jī)器學(xué)習(xí)中最基礎(chǔ)且應(yīng)用最廣泛的算法模型,也是最經(jīng)常使用的數(shù)據(jù)挖掘算法,是一種有監(jiān)督的學(xué)習(xí)方法。具體來講它是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程,關(guān)鍵步驟在于找到對劃分?jǐn)?shù)據(jù)分類時(shí)起決定性作用的某種特征。它通常的表現(xiàn)形式為附加概率結(jié)果的樹狀結(jié)構(gòu)決策圖,以最直觀的表示形態(tài)來展現(xiàn)結(jié)果。決策樹的原理和算法相對直觀簡單,再加上它效率高可反復(fù)利用等特點(diǎn),被越來越多的讀者使用。

      (二)ID3算法簡介

      ID3算法是決策樹的一種,ID3算法的核心思想就是以信息增益來度量屬性的選擇,選擇分裂后信息增益最大的屬性進(jìn)行分裂。該算法的缺點(diǎn)在于處理大型數(shù)據(jù)速度較慢,不可以并行和不可以處理數(shù)值型數(shù)據(jù),只適用于非增量數(shù)據(jù)集。它的基本步驟為:(1)計(jì)算分類系統(tǒng)信息熵(2)計(jì)算條件熵(3)計(jì)算信息增益量。

      (三)C4.5算法簡介

      C4.5算法可以看成是ID3算法的后續(xù)算法,但它是基于信息增益比的分類決策方法,即其根本區(qū)別就在于C4.5算法在選取決斷特征時(shí)選擇信息增益比最大的,即分類決策的依據(jù)有些不同,但都是貪心算法的運(yùn)用,且在遞歸和結(jié)構(gòu)上大致相同。在C4.5算法的決策樹中,每個(gè)節(jié)點(diǎn)都保存了可以用于計(jì)算某值屬性的信息。

      (四)ID3算法與C4.5算法的比較和選取

      在決策樹算法中,C4.5算法可以看做是ID3算法的一個(gè)后續(xù)發(fā)展,在分類決策的依據(jù)和處理的廣泛性問題上均有所優(yōu)化。其具體優(yōu)勢如下幾點(diǎn):(1)用信息增益率來選擇屬性:在ID3算法中使用信息增益來選擇屬性,這無疑會(huì)造成會(huì)偏向于選擇值多的屬性。(2)對非離散數(shù)據(jù)即連續(xù)數(shù)值型數(shù)據(jù)也能處理。(3)在決策樹的構(gòu)造過程中對樹進(jìn)行剪枝:這就改進(jìn)了在ID3算法中樹的高度無節(jié)制地增長和過度擬合數(shù)據(jù)的出現(xiàn)。(4)能夠?qū)Σ煌暾麛?shù)據(jù)也能夠進(jìn)行處理。

      綜上看來,C4.5算法在算法的效率和性能程度上較優(yōu)于ID3算法。為選取C4.5算法運(yùn)用于下文的實(shí)例分析,下面具體闡述C4.5算法的實(shí)際計(jì)算步驟:

      設(shè)訓(xùn)練樣本數(shù)據(jù)集X={X1,X2,…Xn},屬性集Q={Q1,Q2,…Qm},Qm的值域?yàn)閧q1,q2,…qt},則:

      第1步:求得不同類別的信息熵為

      第2步:屬性Qm的信息熵為

      第3步:屬性Qm的信息增益為

      gain(X,Qm)=M(X)-B(X,Qm)

      第4步:屬性Qm的信息增益率為

      ratio(X,Qm)=gain(X,Qm)/split(X,Qm)

      其中對屬性Qm的分割信息量定義為

      數(shù)據(jù)集對Qm的條件熵為

      M(X,Qm=qj)=∑(-P(Xi|Qm=qj)log2P(Xi|Qm=qj)

      二、K-Means聚類算法

      K均值聚類算法屬于聚類分析方法中一種較為基本的且應(yīng)用廣泛的劃分方法,是一種無監(jiān)督的學(xué)習(xí)算法,它將相似的數(shù)據(jù)歸納到同一簇中,即在無類標(biāo)號(hào)數(shù)據(jù)中發(fā)現(xiàn)簇和簇中心的方法,在SPSS中即可完成。首先算法以K個(gè)初始點(diǎn)作為質(zhì)心,然后將N個(gè)數(shù)據(jù)對象劃分為K個(gè)聚類,最后再根據(jù)距離中心點(diǎn)的最短距離不斷調(diào)整質(zhì)心,利用各聚類中對象的均值所獲得的一個(gè)中心對象來計(jì)算并定義“相似度”。此算法要求滿足,分類對象在同一聚類中的相似度較高,而在不同聚類中的相似度較低。整個(gè)流程圖如下圖1所示:

      圖1 模型流程圖

      三、基于K均值聚類和決策樹C4.5算法的實(shí)例分析

      (一)數(shù)據(jù)的預(yù)處理與聚類

      本文選取的數(shù)據(jù)樣本來源于某高校大三年級(jí)統(tǒng)計(jì)學(xué)專業(yè)學(xué)生的期末考試成績。在原始數(shù)據(jù)中,個(gè)別學(xué)生有缺考、休學(xué)等情況,在進(jìn)行聚類分析和決策樹的構(gòu)造之前可以將此類數(shù)據(jù)看成無效數(shù)據(jù)給予清除,此例中無效數(shù)據(jù)只有2個(gè),最終可處理的樣本數(shù)為48個(gè),預(yù)處理后得到表1:

      表1 大三上統(tǒng)計(jì)學(xué)專業(yè)(1)班期末成績

      表2 各等級(jí)的聚類中心點(diǎn)(分)

      首先運(yùn)用SPSS將進(jìn)行K-均值聚類,將期末成績分為“優(yōu)、良、中”三個(gè)等級(jí)。聚類后的結(jié)果包括各等級(jí)的聚類中心和各等級(jí)相對應(yīng)的人數(shù),分別見表2、表3。由于篇幅問題,這里僅將“多元統(tǒng)計(jì)分析“這個(gè)科目與總成績的等級(jí)人數(shù)細(xì)分情況給予展示,具體見表4:

      表3 各等級(jí)的人數(shù)(人)

      表4 多元統(tǒng)計(jì)分析成績與總成績等級(jí)對應(yīng)人數(shù)

      通過K均值聚類后就可以更加清楚直觀地看到,各個(gè)科目成績的重心點(diǎn)、各科成績在三種等級(jí)下的人數(shù)分配、總成績在三種等級(jí)下的人數(shù)分配,對這個(gè)班學(xué)生成績水平的大致情況有了個(gè)直觀了解。

      (二)決策樹的構(gòu)建

      首先,根據(jù)表3中總分在各等級(jí)下的人數(shù)情況,根據(jù)公式(可算得不同類別的信息熵為:

      然后,針對“多元統(tǒng)計(jì)分析”進(jìn)行信息熵。

      如表4所示,在此成績?yōu)椤皟?yōu)”的情況下,其中總成績?yōu)椤皟?yōu)”的有6人,總成績?yōu)椤傲肌钡挠?人,總成績?yōu)椤爸小钡挠?人。根據(jù)公式(可得該科目成績在等級(jí)為“優(yōu)”的情況下的子集信息熵:

      B(X,Qm)1=-6/8*log2(6/8)-2/8*log2(2/8)

      同理,該科目成績在等級(jí)為“良”的情況下的子集信息熵:

      B(X,Qm)2=-9/25*log2(9/25)-12/25*log2(12/25)-4/25*log2(4/25)

      該科目成績在等級(jí)為“中”的情況下的子集信息熵:

      B(X,Qm)3=-3/15*log2(3/15)-9/15*log2(9/15)-3/15*log2(3/15)

      其次,根據(jù)公式(和44求得“多元統(tǒng)計(jì)分析”的信息熵和信息增益率。

      gain(X,Qm)=8/48*B(X,Qm)1+25/48*B(X,Qm)2+15/48*B(X,Qm)3

      ratio(X,Qm)1=gain(X,Qm)/split(X,Qm)=gain(X,Qm)/-8/48*log2(8/48)-25/48*log2(25/48)-15/48*log2(15/48)=0.444

      同理可求出“國民經(jīng)濟(jì)、統(tǒng)計(jì)軟件應(yīng)用、英語、社會(huì)實(shí)踐報(bào)告”的信息熵和信息增益率,由于篇幅問題這里就不一一列出,直接列出其余課程的信息增益率:

      ratio(X,Qm)2=0.376ratio(X,Qm)3=0.402ratio(X,Qm)4=0.362ratio(X,Qm)5=0.195

      由此可見,“多元統(tǒng)計(jì)分析”的信息增益率最大,可選作首個(gè)節(jié)點(diǎn)以C4.5算法分裂其“優(yōu)、良、中”3個(gè)屬性。

      (三)規(guī)則提取和規(guī)則結(jié)果分析

      總評為“優(yōu)”的規(guī)則提取如下:1.若“多元統(tǒng)計(jì)分析”成績?yōu)椤皟?yōu)”且“統(tǒng)計(jì)軟件應(yīng)用”成績?yōu)椤皟?yōu)”,則可直接判定為“優(yōu)”。2.若“多元統(tǒng)計(jì)分析”成績?yōu)椤傲肌鼻摇敖y(tǒng)計(jì)軟件應(yīng)用”、“英語”、“國民經(jīng)濟(jì)”成績均為“優(yōu)”,則可判定為“優(yōu)”。

      總評為“中”的規(guī)則提取如下:若“多元統(tǒng)計(jì)分析”成績?yōu)椤爸小鼻摇皣窠?jīng)濟(jì)”成績?yōu)椤傲肌被颉爸小?。相對于那些學(xué)位公共課,“國民經(jīng)濟(jì)”課程相對較通俗易懂,取得高分的幾率應(yīng)該在所有學(xué)科中比較大;若像“多元統(tǒng)計(jì)分析”這樣的必須掌握的學(xué)位專業(yè)課為“中”,且“國民經(jīng)濟(jì)”這樣的公共課為“良”或“中”,這著實(shí)反應(yīng)出該類學(xué)生對必須掌握的課程以及最簡單的課程都沒有好的成績,從一定程度上可以說明該學(xué)生的學(xué)習(xí)態(tài)度不太端正,才會(huì)導(dǎo)致總體情況不容樂觀。其余具體情況見下圖2所示(為簡明書寫,各學(xué)科以最前面的兩個(gè)字表示):

      圖2 決策樹規(guī)則展示

      由上分析可知,單憑總成績的高低來分析成績是不太科學(xué)合理的,其中的“多元統(tǒng)計(jì)分析”和“統(tǒng)計(jì)軟件應(yīng)用”為統(tǒng)計(jì)學(xué)專業(yè)學(xué)生的學(xué)位專業(yè)課,學(xué)生想要學(xué)習(xí)好專業(yè)技能以便更好地找工作,那么學(xué)好這兩門課是必要的。當(dāng)然,這兩門學(xué)科的學(xué)科難度是相對較大的,能在期末考試中取得高分的同學(xué)在一定程度上可以說明是比較優(yōu)秀的。在今后的教學(xué)中,對此類學(xué)科的教學(xué)管理方法也應(yīng)該加以重視。一般來講,專業(yè)課成績比較好的其他課程成績也相對較不錯(cuò),而連學(xué)位公共課成績都不太好的學(xué)生其他成績也更是不容樂觀,這一點(diǎn)也符合常理。

      四、結(jié)論

      由于K均值聚類法的“算法簡單快速,具有較高的效率且可收縮”等優(yōu)點(diǎn),首先選取了此類無監(jiān)督的學(xué)習(xí)算法將數(shù)據(jù)進(jìn)行合理地分類。再考慮到目前比較流行的決策樹算法易于理解較為直觀,對ID3和C4.5算法綜合比較,優(yōu)選出基于C4.5算法的決策樹來進(jìn)行規(guī)制的構(gòu)造。通過對實(shí)例“學(xué)生期末考試成績的評定”的分析,摒棄了原始的按總分成績來劃分等級(jí)的不合理規(guī)制,將K均值聚類法和決策樹的C4.5算法引入其中,得出了全新的成績評定規(guī)則,從分析的過程和結(jié)果上看,此類算法更加科學(xué)合理。

      [1]饒秀琪,張國基.基于KPCA的決策樹的方法及其應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2007

      [2]葛宏偉,楊鏡非.決策樹在短期電氣負(fù)荷預(yù)測中的應(yīng)用.[J].華中電力,2009

      [3]Han Jiawei,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2005

      [4]姚雙良.數(shù)據(jù)挖掘在高校課程相關(guān)性中的應(yīng)用研究[J].科技通報(bào),2012

      [5]高陽,廖家平,吳偉.基于決策樹的ID3算法與C4.5算法[J].湖北工業(yè)大學(xué)學(xué)報(bào),2011

      [6]哈申花,張春生.基于C4.5決策樹學(xué)生成績數(shù)據(jù)挖掘方法[J].內(nèi)蒙古民族大學(xué)學(xué)報(bào),2010

      猜你喜歡
      總成績信息熵決策樹
      基于信息熵可信度的測試點(diǎn)選擇方法研究
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
      電子測試(2017年12期)2017-12-18 06:35:48
      一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
      謝文駿與劉翔110m欄分段成績與總成績的灰色關(guān)聯(lián)度對比分析
      體育科研(2016年5期)2016-07-31 17:44:26
      基于決策樹的出租車乘客出行目的識(shí)別
      基于信息熵的IITFN多屬性決策方法
      飛鏢比賽
      飛鏢比賽
      讀寫算(上)(2015年25期)2015-09-10 12:15:02
      临西县| 蒙阴县| 吴川市| 水富县| 天台县| 建瓯市| 井陉县| 彝良县| 东丽区| 五常市| 东乡| 新绛县| 黑河市| 汤原县| 黄平县| 思南县| 陇川县| 铜梁县| 宜阳县| 太谷县| 岳西县| 从江县| 安远县| 祁东县| 油尖旺区| 秦皇岛市| 改则县| 鞍山市| 镶黄旗| 和顺县| 渭源县| 岳池县| 临夏县| 富民县| 原平市| 白城市| 庐江县| 玉门市| 定远县| 新乐市| 剑阁县|