• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      決策樹(shù)C44.5算法在學(xué)生成績(jī)分析中的應(yīng)用

      2015-08-07 12:14:27商俊燕陸兵柏倩然
      微型電腦應(yīng)用 2015年4期
      關(guān)鍵詞:考工決策樹(shù)數(shù)據(jù)挖掘

      商俊燕,陸兵,柏倩然

      決策樹(shù)C44.5算法在學(xué)生成績(jī)分析中的應(yīng)用

      商俊燕,陸兵,柏倩然

      針對(duì)學(xué)院教務(wù)系統(tǒng)中日益增加的數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)找到這些數(shù)據(jù)間的聯(lián)系,能幫助學(xué)院管理人員提高管理質(zhì)量。決策樹(shù)算法是數(shù)據(jù)挖掘技術(shù)中用于分類預(yù)測(cè),利用決策樹(shù)算法對(duì)教務(wù)系統(tǒng)中的數(shù)據(jù)進(jìn)行分析,找出各課程之間隱藏的關(guān)系,有利于提高教學(xué)質(zhì)量,提高高職院校的教學(xué)管理。

      決策樹(shù);數(shù)據(jù)挖掘;學(xué)生成績(jī);

      0 引言

      目前,高校教務(wù)系統(tǒng)中積累的學(xué)生成績(jī)數(shù)據(jù)越來(lái)越多,對(duì)數(shù)據(jù)的處理主要還是集中在統(tǒng)計(jì)學(xué)生各科成績(jī),學(xué)生的通過(guò)一次性通過(guò)率等簡(jiǎn)單的過(guò)程。利用數(shù)據(jù)挖掘技術(shù)來(lái)分析現(xiàn)有系統(tǒng)中的數(shù)據(jù)、研究各門課程之間存在的聯(lián)系、分析影響學(xué)生成績(jī)的主要因素,可以幫助任課老師合理設(shè)計(jì)教學(xué)內(nèi)容,為教務(wù)管理者提供制定教學(xué)計(jì)劃、評(píng)價(jià)教學(xué)效果的數(shù)據(jù)支持。

      1 決策樹(shù)

      決策樹(shù)算法是一種人工智能的機(jī)器學(xué)習(xí)技術(shù),用于實(shí)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律的挖掘和新數(shù)據(jù)對(duì)象的分類預(yù)測(cè)技術(shù)之一。它通過(guò)歸納和提煉現(xiàn)有數(shù)據(jù)所包含的規(guī)律,建立分類預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)未來(lái)新數(shù)據(jù)的預(yù)測(cè)。利用決策樹(shù)來(lái)解決分類問(wèn)題是,它對(duì)使用者來(lái)說(shuō)容易使用,且生成后的規(guī)則容易理解、分類的精度高、對(duì)噪聲的健壯性也很好,因此,很多領(lǐng)域如醫(yī)療診斷數(shù)據(jù)、市場(chǎng)營(yíng)銷分析、金融評(píng)估系統(tǒng)、客戶分析等等都能使用決策樹(shù)算法來(lái)進(jìn)行分類預(yù)測(cè)。

      C4.55決策樹(shù)算法是基于ID3 算法改進(jìn)而來(lái)的。C4.5算法以信息增益率為標(biāo)準(zhǔn)決定決策樹(shù)分支的準(zhǔn)則,尋找最佳分組變量和分割點(diǎn),從而建立決策樹(shù)。

      2 決策樹(shù)C4.5算法在學(xué)生成績(jī)中的應(yīng)用

      利用決策樹(shù)算法對(duì)本院教務(wù)系統(tǒng)中的學(xué)生各科成績(jī)來(lái)進(jìn)行分析,分析各課程之間隱藏的內(nèi)在關(guān)系。在本文中主要利用專業(yè)的數(shù)據(jù)挖掘軟件SPPSS Clementinne來(lái)進(jìn)行挖掘分析。具體挖掘過(guò)程如下圖1所示:

      圖1 決策樹(shù)處理過(guò)程圖

      2.1 數(shù)據(jù)準(zhǔn)備

      本文中用到的數(shù)據(jù)是本院教務(wù)管理系統(tǒng)中的學(xué)生各門課程的學(xué)習(xí)成績(jī)。在該項(xiàng)目中我們準(zhǔn)備了本院2013到2014學(xué)年第二學(xué)期信息工程系12電商331和122電商332班84位學(xué)生的各科成績(jī)表、學(xué)生基本信息表、課程表。其基本信息如圖2所示:

      圖2 數(shù)據(jù)的基本信息圖

      在這些數(shù)據(jù)中可能存在冗余數(shù)據(jù)、空值等情況,這些都會(huì)影響到數(shù)據(jù)模型的準(zhǔn)確率,因此,我們?cè)谶M(jìn)行數(shù)據(jù)挖掘前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。

      2.2 數(shù)據(jù)預(yù)處理

      當(dāng)數(shù)據(jù)收集完成以后,數(shù)據(jù)還不能直接進(jìn)行挖掘,主要原因在于這些數(shù)據(jù)中可能存在不完整、有空值、含有噪聲等情況,需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,提高數(shù)據(jù)的質(zhì)量,有助于建立高準(zhǔn)確率的數(shù)據(jù)模型。

      (1)數(shù)據(jù)集成

      通過(guò)數(shù)據(jù)集成,我們把圖2中的3張表集合在一張表“綜合學(xué)生成績(jī)分析表”中,它包含的字段有:學(xué)號(hào)、姓名、性別、課程名、課程成績(jī),該表中共有83條記錄?!熬C合學(xué)生成績(jī)分析表”如表1所示:

      1 綜合學(xué)生成績(jī)分析表

      (2)數(shù)據(jù)質(zhì)量評(píng)估

      高質(zhì)量數(shù)據(jù)是數(shù)據(jù)挖掘的前提和基礎(chǔ),數(shù)據(jù)質(zhì)量評(píng)估是對(duì)現(xiàn)有數(shù)據(jù)的取值情況異常程度及缺失情況的綜合評(píng)價(jià)。通過(guò)數(shù)據(jù)質(zhì)量評(píng)估,發(fā)現(xiàn)數(shù)據(jù)中有若干字段下存在缺失值。通過(guò)分析發(fā)現(xiàn)產(chǎn)生缺失值主要有兩種原因:一是在收集過(guò)程中人為失誤造成,重新填入數(shù)據(jù)即可;二是由于學(xué)生因?yàn)槿笨蓟蛐輰W(xué)原因沒(méi)有數(shù)據(jù),對(duì)于這種數(shù)據(jù)直接刪除記錄。通過(guò)評(píng)估整理,新的學(xué)生成績(jī)分析表中共有81條記錄。

      (3)數(shù)據(jù)轉(zhuǎn)換和精簡(jiǎn)

      在新數(shù)據(jù)表中,課程成績(jī)主要采用兩種方法來(lái)記錄:一是采用百分制,二是采用等級(jí)制,即使在等級(jí)制計(jì)分方式中,由于老師習(xí)慣,計(jì)分方式也不一致。課程成績(jī)記錄不統(tǒng)一,需要把它們轉(zhuǎn)換成統(tǒng)一的計(jì)分方式,具體變換規(guī)則如表2和表3所示:

      表2 成績(jī)轉(zhuǎn)換表

      表3 等級(jí)制轉(zhuǎn)換表

      在我們集成的數(shù)據(jù)表“綜合學(xué)生成績(jī)分析表”中的每個(gè)字段不一定對(duì)建立的決策樹(shù)模型有用,如果把每個(gè)字段都用于決策樹(shù)模型,反而會(huì)增加模型的復(fù)雜度,降低模型的準(zhǔn)確率。因此,利用數(shù)據(jù)精簡(jiǎn)的方法來(lái)找出對(duì)決策樹(shù)模型沒(méi)有影響或影響程度不大的字段。通過(guò)精簡(jiǎn),發(fā)現(xiàn)在“綜合學(xué)生成績(jī)分析表”中,學(xué)號(hào)、姓名、班級(jí)、體育這些字段中的取值對(duì)建立模型的相關(guān)度不高,因此,在建決策樹(shù)模型的時(shí)候忽略這些字段。新的“綜合學(xué)生成績(jī)分析表”中剩余字段包括課程名、成績(jī)等。

      2.3 構(gòu)建決策樹(shù)模型

      在本文中,我們利用SPSS CLEMENTINE12.0軟件中決策樹(shù)算法節(jié)點(diǎn)和預(yù)處理后的學(xué)生成績(jī)表來(lái)構(gòu)建決策樹(shù)模型和分類規(guī)則。形成的數(shù)據(jù)流節(jié)點(diǎn)如圖3所示:

      圖3 決策樹(shù)數(shù)據(jù)流節(jié)點(diǎn)圖

      對(duì)于電子商務(wù)專業(yè)學(xué)生,職業(yè)考工實(shí)訓(xùn)課程是必修課程,綜合考核學(xué)生掌握電子商務(wù)專業(yè)知識(shí)和專業(yè)技能的課程,因此,筆者將職業(yè)考工作為輸出變量。在建立決策樹(shù)模型時(shí),我們將數(shù)據(jù)的70%作為訓(xùn)練集,30%作為測(cè)試集,生成的模型預(yù)測(cè)正確率為58.02%。

      2.4 模型優(yōu)化

      在決策樹(shù)分類模型中,樣本中可能還存在噪聲,對(duì)分類預(yù)測(cè)結(jié)果存在影響,針對(duì)這一情況,我們對(duì)決策樹(shù)進(jìn)行修剪,利用專家模式生成決策樹(shù),每個(gè)分支最小記錄數(shù)都為2。根據(jù)不同修剪嚴(yán)重性生成決策樹(shù),找出預(yù)測(cè)精度較高的模型。不同修剪嚴(yán)重性的預(yù)測(cè)精度如表4所示:

      表4 不同修剪嚴(yán)重性決策樹(shù)模型預(yù)測(cè)精度表

      從表4可以看出,當(dāng)修剪嚴(yán)重性設(shè)為30-60時(shí)模型精確度相對(duì)較高,我們采用修剪嚴(yán)重性為40。

      2.5 決策樹(shù)模型分析

      根據(jù)上述設(shè)置,決策樹(shù)分類規(guī)則如下:

      規(guī)則1:如果電子商務(wù)安全技術(shù)=“不及格”并且電子商務(wù)項(xiàng)目策劃與管理=“不及格”,則職業(yè)考工實(shí)訓(xùn)=“不及格”。

      規(guī)則2:如果電子商務(wù)安全技術(shù)=“中等”并且商務(wù)禮儀=“不及格”,則職業(yè)考工實(shí)訓(xùn)=“及格”。

      如果電子商務(wù)安全技術(shù)=“及格”并且電子商務(wù)項(xiàng)目策劃與管理=“良好”并且就業(yè)與創(chuàng)業(yè)指導(dǎo)=“及格”,則職業(yè)考工實(shí)訓(xùn)=“及格”。

      如果電子商務(wù)安全技術(shù)=“及格”并且電子商務(wù)項(xiàng)目策劃與管理=“良好”并且就業(yè)與創(chuàng)業(yè)指導(dǎo)=“良好”,則職業(yè)考工實(shí)訓(xùn)=“及格”。

      如果電子商務(wù)安全技術(shù)=“良好”并且商務(wù)禮儀=“及格”,則職業(yè)考工實(shí)訓(xùn)=“及格”。

      一些模擬聲音的詞語(yǔ)能讓讀者產(chǎn)生豐富聯(lián)想,教學(xué)中,可以抓住文本中的擬聲詞引導(dǎo)學(xué)生再現(xiàn)畫(huà)面,如:蘇教版二年級(jí)下冊(cè)《歌唱二小放牛郎》中“四下里‘乒乒乓乓’響起了槍聲,敵人才知道受了騙”。讀到這一句,學(xué)生不由得在座位上一邊用手做出打槍的樣子,一邊響亮地讀出“乒乒乓乓”這個(gè)詞語(yǔ),相信他們已從這個(gè)詞中感受到戰(zhàn)斗的激烈的畫(huà)面及對(duì)敵人的仇恨的情感。在蘇教版二年級(jí)下冊(cè)《下大雨》中“嗚——哇,嗚——哇”,學(xué)生從中感受到雨點(diǎn)之大,讀到這里,一些學(xué)生還縮了縮脖子,感覺(jué)雨很大,雨聲就在耳旁。

      規(guī)則 3: 如果電子商務(wù)安全技術(shù)=“中等”并且商務(wù)禮儀=“中等”,則職業(yè)考工實(shí)訓(xùn)=“中等”。

      如果電子商務(wù)安全技術(shù)=“及格”并且電子商務(wù)項(xiàng)目策劃與管理=“優(yōu)秀”,則職業(yè)考工實(shí)訓(xùn)=“中等”。

      規(guī)則 4:如果電子商務(wù)安全技術(shù)=“及格”并且電子商務(wù)項(xiàng)目策劃與管理=“中等”,則職業(yè)考工實(shí)訓(xùn)=“良好”。

      如果電子商務(wù)安全技術(shù)=“及格”并且電子商務(wù)項(xiàng)目策劃與管理=“良好”并且就業(yè)與創(chuàng)業(yè)指導(dǎo)=“中等”,則職業(yè)考工實(shí)訓(xùn)=“良好”。

      如果電子商務(wù)安全技術(shù)=“良好”并且商務(wù)禮儀=“中等”,則職業(yè)考工實(shí)訓(xùn)=“良好”。

      規(guī)則 5:如果電子商務(wù)安全技術(shù)=“中等”并且商務(wù)禮儀=“及格”,則職業(yè)考工實(shí)訓(xùn)=“優(yōu)秀”。

      如果電子商務(wù)安全技術(shù)=“中等”并且商務(wù)禮儀=“良好”,則職業(yè)考工實(shí)訓(xùn)=“優(yōu)秀”。

      如果電子商務(wù)安全技術(shù)=“良好”并且商務(wù)禮儀=“優(yōu)秀”,則職業(yè)考工實(shí)訓(xùn)=“優(yōu)秀”。

      如果電子商務(wù)安全技術(shù)=“良好”并且商務(wù)禮儀=“良好”,則職業(yè)考工實(shí)訓(xùn)=“優(yōu)秀”。

      從規(guī)則集中看出,如果電子商務(wù)安全技術(shù)課程及格,電子商務(wù)項(xiàng)目策劃與管理成績(jī)“良好”并且就業(yè)與創(chuàng)業(yè)指導(dǎo)=“及格”或者就業(yè)與創(chuàng)業(yè)指導(dǎo)=“良好”,則職業(yè)考工實(shí)訓(xùn)成績(jī)可能“及格”。如果電子商務(wù)安全技術(shù)課程成績(jī)“及格”,電子商務(wù)項(xiàng)目策劃與管理課程成績(jī)“良好”并且就業(yè)與創(chuàng)業(yè)指導(dǎo)成績(jī)?yōu)?中等",那職業(yè)考工實(shí)訓(xùn)成績(jī)“良好”可能性很大。如果電子商務(wù)安全技術(shù)成績(jī)?yōu)椤傲己谩辈⑶疑虅?wù)禮儀成績(jī)?yōu)椤爸械取?,那么職業(yè)考工實(shí)訓(xùn)成績(jī)?yōu)椤傲己谩薄H绻娮由虅?wù)安全技術(shù)成績(jī)?yōu)椤皟?yōu)秀”,則職業(yè)考工實(shí)訓(xùn)可能為“優(yōu)秀”。如果電子商務(wù)安全技術(shù)課程為“良好”并且商務(wù)禮儀成績(jī)“優(yōu)秀”,那么職業(yè)考工實(shí)訓(xùn)可能也為“優(yōu)秀”。電子商務(wù)安全技術(shù)課程、電子商務(wù)項(xiàng)目策劃與管理課程與職業(yè)考工實(shí)訓(xùn)相關(guān)度很大。這兩門課程也是電子商務(wù)專業(yè)的專業(yè)基礎(chǔ)課程,我們要重視專業(yè)基礎(chǔ)課程教學(xué)和建設(shè)。

      3 總結(jié)

      利用決策樹(shù)算法分析各課程之間的聯(lián)系,可以指導(dǎo)教務(wù)安排各課程之間的先后順序,有利于教師的教學(xué)和學(xué)生掌握知識(shí),從而提高學(xué)院的教學(xué)質(zhì)量,為培養(yǎng)合格的高職人才打下結(jié)實(shí)的基礎(chǔ)。

      [1]薛薇,陳歡歌.基于Clementine的數(shù)據(jù)挖掘[M].北京:中國(guó)人民大學(xué)出版社, 2012.

      [2]王平霞,郝志廷.決策樹(shù)技術(shù)在高職院校學(xué)生成績(jī)分析中的應(yīng)用研究[J].電腦知識(shí)與技術(shù),2013,13.

      [3]孫麗英.數(shù)據(jù)挖掘在計(jì)算機(jī)等級(jí)考試中的應(yīng)用[J].計(jì)算機(jī)教育,2010,7(2):38-41.

      [4]李紹中.數(shù)據(jù)挖掘改進(jìn)算法在學(xué)生成績(jī)分析中的應(yīng)用[J].科技通信,2012,28(8):208-212.

      [5]徐鵬,林森.基于C4.5決策樹(shù)的流量分類方法[J].軟件學(xué)報(bào),2009,10,2692-2704.

      [6]雷燕瑞.數(shù)據(jù)挖掘技術(shù)在高職成績(jī)分析中的應(yīng)用[J].軟件學(xué)報(bào),2013,34(12).

      Applicatioo n of the Decision Tree e Algorithmm C4.5 in AAnalysis off Student GGrade

      Shang JJunyan, Lu Binng, Bai Qianran
      (Changzhou Innstitute of Lightt Industry Technnology)

      To solve the pproblem with inncreasing dataquantity in thee college educattional administtration system,it uses the tecchnology off data mining tto make connecctions with these data so thatt it can help thee college administrators imprrove managemeent quality. DDecision Tree iss used to do claassification andprediction in ddata mining. It aanalyzes the daata of educationnal administratioon system byy using Decisioon Tree to find oout the hidden rrelationships off each curriculuum. That can beenefit the improovement of teacching qualitty and managemment of the colleege.

      ds: The Decisioon Tree; Data MMining; Studentt Grade; the Deccision Tree Alggorithm

      TP181

      A

      2014.12.25)

      1007-757X(2015)04-0043-02

      商俊燕(1978-),女,江蘇常州,常州輕工職業(yè)技術(shù)學(xué)院, 講師,本科,研究方向:數(shù)據(jù)庫(kù)及數(shù)據(jù)挖掘,常州,2133164

      陸 兵(1967-),男,江蘇常州,常州輕工職業(yè)技術(shù)學(xué)院,副教授,本科,研究方向:數(shù)據(jù)庫(kù)及數(shù)據(jù)挖掘,常州,213164

      柏倩然(1992-),女,江蘇常州,常州輕工職業(yè)技術(shù)學(xué)院,大專,研究方向:數(shù)據(jù)庫(kù)應(yīng)用,常州,213164

      猜你喜歡
      考工決策樹(shù)數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      “墻-壁”小考——《欽定古今圖書(shū)集成——經(jīng)濟(jì)匯編考工典》墻壁部的評(píng)述與考證
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      《考工記》與中國(guó)傳統(tǒng)工匠精神內(nèi)涵
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于決策樹(shù)的出租車乘客出行目的識(shí)別
      《考工記》“和合”思想在古琴制作中的體現(xiàn)
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      平和县| 四子王旗| 霍城县| 海淀区| 沙河市| 邢台市| 洪江市| 亳州市| 江山市| 香河县| 万山特区| 涟水县| 阿图什市| 舟山市| 丹阳市| 伊通| 平舆县| 和龙市| 宣威市| 呼和浩特市| 宁夏| 龙泉市| 谢通门县| 大冶市| 西贡区| 高阳县| 黎城县| 右玉县| 普洱| 庐江县| 沧州市| 偃师市| 青冈县| 攀枝花市| 时尚| 肇庆市| 祁连县| 长汀县| 桓台县| 鄂托克旗| 阳信县|