• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      教務(wù)管理系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用探究

      2017-04-20 16:44:56徐敏
      教育教學(xué)論壇 2017年14期
      關(guān)鍵詞:決策樹數(shù)據(jù)挖掘

      徐敏

      摘要:教學(xué)管理決策在高校教育中是一項重要的工作。目前,高校內(nèi)部運行的各種管理系統(tǒng)和各類數(shù)據(jù)庫,已經(jīng)積累了包括學(xué)籍管理系統(tǒng)、成績管理系統(tǒng)在內(nèi)的海量數(shù)據(jù)。本文主要研究如何采用數(shù)據(jù)挖掘技術(shù)在學(xué)院教務(wù)管理系統(tǒng)中,對海量數(shù)據(jù)進行發(fā)掘和應(yīng)用,為人才培養(yǎng)提供比較客觀的決策支持。

      關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;ID3算法

      中圖分類號:G471 文獻標(biāo)志碼:A 文章編號:1674-9324(2017)14-0009-02

      一、前言

      隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘正成為一個日益受到重視的熱點研究領(lǐng)域,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。據(jù)相關(guān)資料調(diào)查顯示,在一個大型企業(yè)數(shù)據(jù)庫中,只有其中百分之七的數(shù)據(jù)能夠得到很好的應(yīng)用。同樣,高校內(nèi)部運行的各種管理系統(tǒng)和各類數(shù)據(jù)庫,已經(jīng)積累了海量的數(shù)據(jù),然而隱藏在這些海量數(shù)據(jù)中的深層次的模式一直沒有得到充分的發(fā)掘和應(yīng)用,學(xué)校管理者只能通過簡單數(shù)據(jù)查詢和排序等傳統(tǒng)數(shù)據(jù)庫技術(shù)功能獲得表面的信息。我們努力想要解決的是,如何對那些龐大的海量數(shù)據(jù)進行高層次的處理,從中找出管理者關(guān)心的規(guī)律和模式,以此幫助管理者更好地把現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為可供使用的知識進行決策和研究,來提高學(xué)校管理決策的科學(xué)性,提高管理水平和辦學(xué)質(zhì)量。

      二、決策樹分類算法

      決策樹(Decision Tree)學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法。它著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形成的分類規(guī)則,它的一個最大優(yōu)點就是在學(xué)習(xí)過程中不需要使用者了解很多背景知識(這也同時是它最大的缺點),只要訓(xùn)練例子能夠用“屬性—結(jié)論”式的方式表達出來,就能使用該算法來學(xué)習(xí)。決策樹算法中最著名的算法是Quinlan提出的ID3算法。他把C.E.Shannon的信息論引入到了決策樹算法中,把信息熵作為選擇測試屬性的標(biāo)準(zhǔn),對訓(xùn)練樣本集進行分類,并構(gòu)造決策樹來預(yù)測如何由測試屬性對整個樣本空間進行劃分。ID3算法采用信息量作為測試屬性的選擇標(biāo)準(zhǔn)來分割訓(xùn)練樣本集并最終生成決策樹。

      三、數(shù)據(jù)的收集和整理

      本研究利用數(shù)據(jù)挖掘技術(shù)中的ID3算法,在教務(wù)管理系統(tǒng)中,實現(xiàn)一個專業(yè)方向選擇輔助指導(dǎo)的模塊,大學(xué)生在修完職業(yè)基礎(chǔ)課后,能更好地按自身的特點選擇專業(yè)方向。

      在大學(xué)生專業(yè)方向輔助指導(dǎo)中,我們將以服裝系為例使用決策樹分類挖掘技術(shù)中的ID3算法,通過學(xué)生大學(xué)一年級專業(yè)基礎(chǔ)課的學(xué)習(xí)成績,配合問卷調(diào)查,預(yù)測學(xué)生最適合選擇的專業(yè)方向。

      我們以華南女子學(xué)院服裝專業(yè)學(xué)生在大一期間的成績?yōu)橥诰驍?shù)據(jù)源(共194個樣本),根據(jù)學(xué)生各科的學(xué)習(xí)成績信息,剔除了成績表中與專業(yè)發(fā)展方向無顯著相關(guān)性的屬性,如體育等課程屬性,選擇7門具有代表性的專業(yè)基礎(chǔ)課作為基礎(chǔ)數(shù)據(jù)進行處理。

      其次,對訓(xùn)練表中的每一列成績屬性的值進行離散化處理。我們將成績分成三個部分,用A表示[80,100]之間的分?jǐn)?shù),用B表示[70,79]之間的分?jǐn)?shù),用C表示[0,69]之間的分?jǐn)?shù)。

      除了學(xué)習(xí)成績之外,我們還需要考慮影響學(xué)生專業(yè)方向選擇的其他因素,服裝系的專業(yè)方向具體劃分為三個方面:制板與工藝方向;造型設(shè)計方向;市場營銷方向。

      學(xué)生在大一修完專業(yè)基礎(chǔ)課后,自行選擇專業(yè)方向。為了更好地了解學(xué)生選擇專業(yè)方向的動機、階段性學(xué)習(xí)的完成情況,以及大學(xué)二年級工學(xué)結(jié)合的專業(yè)實踐后對自己所選方向的滿意度,我們設(shè)計了問卷調(diào)查調(diào)查:①學(xué)生的個人興趣:A.手工制作;B.創(chuàng)意設(shè)計;C.人際交往。②選擇專業(yè)方向時是否按興趣來選擇。③經(jīng)過一年的專業(yè)學(xué)習(xí),覺得現(xiàn)在的專業(yè)方向是否合適自己。

      通過數(shù)據(jù)收集、數(shù)據(jù)整理之后,我們實際可以使用的數(shù)據(jù)記錄為182條,由于在系統(tǒng)實現(xiàn)過程中,我們還需要預(yù)留一部分?jǐn)?shù)據(jù)進行數(shù)據(jù)分析準(zhǔn)確度測試,因此,在放入訓(xùn)練數(shù)據(jù)集進行決策樹模型生成訓(xùn)練的實際數(shù)據(jù)記錄為146條。

      四、利用ID3算法構(gòu)造學(xué)生成績分析決策樹

      (一)信息增益的計算

      首先我們先利用公式計算出信息熵,參加數(shù)據(jù)挖掘的記錄有146條,經(jīng)過兩年的專業(yè)學(xué)習(xí)后,認(rèn)為自己更適合學(xué)習(xí)制板與工藝方向的有58人,認(rèn)為自己更適合學(xué)習(xí)造型設(shè)計方向的有48人,覺得自己更適合市場營銷方向的有32人,不確定方向的8人。

      下面計算信息增益值。

      利用公式:信息增益值I(S/A)=H(S)-H(S/A)

      經(jīng)過整理后,參加數(shù)據(jù)挖掘的屬性有9個,通過計算得到的Gain(S,xq)最大,即個人興趣對分類最有幫助,所以選擇興趣對決策樹的結(jié)構(gòu)進行首次分區(qū),產(chǎn)生4分枝。

      (二)遞歸創(chuàng)建決策樹

      選擇興趣作為測試屬性之后訓(xùn)練實例集分為4個子集,生成4個子節(jié)點,對每個子節(jié)點遞歸采用上述過程進行分類直至每個節(jié)點中各個實例屬于同類。

      以“興趣=手工制作”為例。

      選擇手工制作的同學(xué)一共有56人,經(jīng)過兩年的專業(yè)學(xué)習(xí)后,認(rèn)為自己更適合學(xué)習(xí)制板與工藝方向的有42人,更適合學(xué)習(xí)造型設(shè)計方向的有8人,更適合市場營銷方向的有4人,不確定方向的2人。

      通過計算得到的Gain(S_xq.手工制作,sjyl)最大,即“服裝結(jié)構(gòu)設(shè)計原理(簡稱設(shè)計原理)”的信息對分類最有幫助,所以選擇“服裝結(jié)構(gòu)設(shè)計原理”的成績對決策樹的結(jié)構(gòu)進行再次分區(qū),產(chǎn)生3個分枝。

      計算選擇興趣為“手工制作”的學(xué)生里,設(shè)計原理成績大等于80分,其余的6門課程成績相應(yīng)的信息增益值,發(fā)現(xiàn)興趣選擇手工制作的所有設(shè)計原理成績大等于80分的同學(xué)在兩年的學(xué)習(xí)后認(rèn)為自己最適合工藝方向因此不再另做計算。于是,我們研究興趣為“手工制作”且設(shè)計原理成績介于70—80分之間,其余6門成績的信息增益值計算。通過計算得到的Gain(S_xq.手工制作_sjyl.介于70—80分,jcgy)最大,按照信息增益最大的原則選擇“基礎(chǔ)工藝”的成績?yōu)楦Y(jié)點,并將樣本分成3部分,然后對每一棵子樹按照以上方法遞歸計算。由于決策樹的構(gòu)建是一個遞歸的計算,而本研究采用數(shù)據(jù)結(jié)點較多,因此我們在Microsoft Visual Studio 2005環(huán)境下用C#語言編程,利用程序生成其余的決策樹。

      (三)樹剪枝

      在實際應(yīng)用中,部分?jǐn)?shù)據(jù)因數(shù)量太少以至于不能產(chǎn)生目標(biāo)函數(shù)的有代表性的采樣,導(dǎo)致我們使用決策樹算法生成的決策樹很多分支反映的是訓(xùn)練數(shù)據(jù)集中的異常。因此我們設(shè)置生成決策樹的最小樣本值為4,進行預(yù)剪枝處理。為了降低剪枝后的冗余,在剪枝后,如果有某個葉子結(jié)點下的所有屬性值指向的結(jié)果都相同,則認(rèn)為該葉子結(jié)點是冗余的葉子結(jié)點,將被刪除,其屬性值將作為該結(jié)點原父節(jié)點的屬性值被保留。

      由此決策樹導(dǎo)出相關(guān)規(guī)則如下。

      1.if (興趣=手工制作and服裝結(jié)構(gòu)設(shè)計原理≥80) then 適合工藝方向

      2.if (xq=='手工制作' and服裝結(jié)構(gòu)設(shè)計原理=='介于80~70' and基礎(chǔ)工藝≥80' and成衣工藝≥80and 款式效果圖≥80' and款式設(shè)計≥80') then 適合工藝方向

      3.if (xq=='手工制作' and 服裝結(jié)構(gòu)設(shè)計原理=='介于80~70' and基礎(chǔ)工藝≥80 and成衣工藝≥80 and款式效果圖≥80 and款式設(shè)計<70) then 適合工藝方向

      本次參與數(shù)據(jù)挖掘的屬性較多,從而導(dǎo)出的規(guī)則也相當(dāng)多,由于篇幅有限,這里不再一一羅列,我們將留做測試的36條數(shù)據(jù)運用到?jīng)Q策樹得出的所有規(guī)則里,經(jīng)過測試有31條規(guī)則命中,準(zhǔn)確率為86.1%。

      五、應(yīng)用開發(fā)運行環(huán)境

      利用ID3算法得出的知識規(guī)則,我們在教務(wù)管理系統(tǒng)上增加了學(xué)生選擇專業(yè)方向的頁面。

      硬件環(huán)境:PIII以上的微機

      操作系統(tǒng):Windows 2000

      數(shù)據(jù)庫系統(tǒng):SQL SERVER 2000

      編程語言:ASP

      采用B/S 模式

      六、小結(jié)

      本文主要討論的是使用ID3算法生成決策樹,最后由決策樹產(chǎn)生分類規(guī)則,完成了根據(jù)學(xué)生興趣以及專業(yè)課成績來判斷適合選擇的專業(yè)方向的決策樹模型建立。最后應(yīng)用所獲得的規(guī)則,實現(xiàn)了教務(wù)管理系統(tǒng)中的專業(yè)方向選擇系統(tǒng)。

      參考文獻:

      [1]白雪.決策樹分類算法的研究及其在教學(xué)評估中的應(yīng)用[J].電腦開發(fā)與應(yīng)用.2007,(02):24-26.

      [2]陳文偉,黃金才,趙新顯著.數(shù)據(jù)挖掘技術(shù)[M].北京:工業(yè)大學(xué)出版社,2002:7.

      [3]欒麗華.決策樹分類技術(shù)研究[J].計算機工程,2004,9:94-96.

      [4]李強.創(chuàng)建決策樹算法的比較研究-ID3,C4.5,C5.0算法的比較[J].甘肅科學(xué)學(xué)報,2006,(12):84-87.

      [5]馬瑜,王有剛.ID3算法應(yīng)用研究[J].信息技術(shù).2006,(12):84-86.

      [6]李道國,苗奪謙,俞冰.決策樹剪枝算法的研究與改進[J].計算機工程,2005,(8):19-21.

      猜你喜歡
      決策樹數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于改進決策樹的故障診斷方法研究
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      基于決策樹的出租車乘客出行目的識別
      基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
      電測與儀表(2016年2期)2016-04-12 00:24:40
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      陆良县| 长兴县| 新闻| 吴堡县| 哈巴河县| 平塘县| 龙里县| 泗水县| 东乌珠穆沁旗| 都兰县| 虞城县| 蓬溪县| 商丘市| 个旧市| 辽宁省| 连城县| 临洮县| 珲春市| 米脂县| 五峰| 郧西县| 宁乡县| 崇左市| 美姑县| 古丈县| 津市市| 沂水县| 岳阳市| 武夷山市| 开鲁县| 林芝县| 广饶县| 达尔| 探索| 阿巴嘎旗| 渭南市| 佳木斯市| 白玉县| 循化| 肇源县| 巫溪县|