郭巧馳 楊洪
摘要:排課管理是高校教學管理中的一項重要任務。在厘清C4.5算法及其決策樹構(gòu)建方法基礎上,對排課管理信息進行數(shù)據(jù)預處理,以“是否高職”作為目標屬性研究高級職稱老師的授課情況,構(gòu)建C4.5算法決策樹,從而得到高職授課規(guī)律并提出合理排課建議。該方法對優(yōu)化師資力量配置,提高教學效果具有重要意義。
關鍵詞:排課管理;C4.5算法;決策樹;裁剪優(yōu)化
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)02-0249-03
Research on the Application of C4.5 Classification Decision Tree in University Course Arrangement Management
GUO Qiao-chi,YANG Hong
(Ordnance Sergeant School, Army University of Engineering, Wuhan 430000, China)
Abstract: Course arrangement management is an important task in the teaching management of colleges and universities. On the basis of clarifying the C4.5 algorithm and decision tree building methods, after data preprocessing of course arrangement management information, we toke the Taking " Senior Professional Title Teachers" as the target attribute to construct the decision tree on C4.5 algorithm, resulting in higher vocational teaching law and put forward reasonable suggestions timetable. This method is of great significance to optimize the allocation of teachers and improve the teaching effect.
Key words: Course arrangement management; C4.5 algorithm; decision tree; cutting optimization
排課管理是高校教學管理中的一項重要任務,構(gòu)建科學合理的課程安排計劃,發(fā)現(xiàn)課程安排中的潛在問題并提供科學化建議,對提高教務工作效率,優(yōu)化師資配置,提升教學質(zhì)量具有重要意義。
為了厘清高級職稱老師的授課情況,利用數(shù)據(jù)挖掘中的決策樹分類算法對課程信息進行挖掘,重點研究高職和非高職老師的授課安排配備情況,發(fā)現(xiàn)其中規(guī)律并為排課提供合理化建議。
1 C4.5算法
針對數(shù)據(jù)挖掘分類的問題,決策樹是經(jīng)典的解決方案,像一棵樹的組成,決策樹分類器分為決策節(jié)點、分支、葉子。決策樹算法最早是由機器學習研究者Quinlan提出,稱作ID3,并且在此基礎上,又進一步提出了后繼算法C4.5[1,2]。
決策樹分類器就是對決策樹遍歷的過程,而決策樹分類器在本質(zhì)上來說是依次利用被分類對象的幾個屬性來進行分類的方法。決策樹只有一個根節(jié)點,即只有一個起始位置,這個根節(jié)點就是決策樹分類器的開始,決策樹的決策節(jié)點就是決策過程中的一個決策,通過這個決策對經(jīng)過此節(jié)點的數(shù)據(jù)流進行分類。在進行決策樹遍歷的過程中,每個節(jié)點的改變都有可能導致結(jié)果翻天覆地的變化,也就是說,一個決策節(jié)點的變化都可能導致葉子的變化。
分類算法一般都是可以分成兩步的過程[3],第一步是模型的建立,也稱為訓練階段,目的是把數(shù)據(jù)類或概念集的分類器進行描述和預先定義。第二步是對分類器進行評估,評估的主要方面是預測是否準確等等。如果評估結(jié)果顯示準確性是可以被接受的,則此分類算法的模型就可以被接受,否則就需要重新選擇分類算法的模型,重新進行上述兩個步驟。
決策樹方法是利用樹型結(jié)構(gòu)表示分類或決策集合,利用分類器算法對某一目標變量進行預測,其優(yōu)點是可以用直觀的規(guī)則來描述與變量相關的因素,除此之外,對這些因素影響程度進行比較分析,可以得到主要影響等[4]。
評價一般從分類器的預測結(jié)果準確性、建立和使用模型所用時間、處理原始噪聲數(shù)據(jù)的能力、處理大規(guī)模數(shù)據(jù)的能力等等方面來衡量,而在這其中,檢測結(jié)果中被正確或錯誤得分類和預測的所占比例是中最重要的度量結(jié)果。
2 決策樹的構(gòu)建
如何進行屬性選擇便成為決策樹效率是否高甚至決策樹是否成功的關鍵。首先,根據(jù)信息論我們可以明確,對于期望越小的信息,它的增益也就越大,分類后的信息的有效性越大,所以,我們需要找到這個“期望”,然后根據(jù)這個屬性分類進行決策樹的構(gòu)造[5]。
假設D為用上述進行的劃分的依據(jù),則根據(jù)D的熵可以表示為:
[info(D)=-i=1mpilog2pi] (1)
熵的實際意義是表示D中的分類標號所需要的平均信息量,其中pi表示第i個類別在整個過程中出現(xiàn)的概率,可以用屬于次類別元素的數(shù)量除以元素總量進行計算。
假設將D按照屬性S進行劃分,則S對D劃分的期望信息為:
[infos(D)=j=1kDjDinfoDj] (2)
信息增益在分類前后造成的信息量差值為:endprint
[GainR=Info(D)-Infos(D)] (3)
由于info(D)相同,即減數(shù)相同,所以欲得到最大的Gain(R),只需找到最小的Infos(D)。即將屬性S作為劃分節(jié)點進行構(gòu)建決策樹。
3 C4.5決策樹在排課管理中的應用
以某高校的課程管理信息作為數(shù)據(jù)集,使用C4.5決策樹進行數(shù)據(jù)挖掘,重點分析高職老師的任課情況。
3.1 應用背景
選取了某高校2016學年的課程管理信息作為應用數(shù)據(jù)集,該數(shù)據(jù)集涵括了30余萬條樣本數(shù)據(jù),包括了基本屬性集合為{開課單位、課程性質(zhì)、合班人數(shù)、學時學分},目標屬性為{職稱}。
對樣本數(shù)據(jù)進行數(shù)據(jù)預處理后,屬性集合數(shù)據(jù)均調(diào)整為標稱屬性[6],其中各屬性在全體樣本數(shù)據(jù)集D上離散取值為:
開課單位={基礎部,電子學院,動力機械學院,電力電氣學院,直屬單位}
課程性質(zhì)={必修,選修}
合班人數(shù)={多,中,少}
學時學分={高,中,低}
職稱={高職,非高職}
3.2 C4.5決策樹運用
按照C4.5決策樹構(gòu)建方法對所有數(shù)據(jù)集的各屬性求望值信息info,結(jié)果見表1:
分析上述數(shù)據(jù),最大的熵值是開課單位,所以決策樹第一層按照開課單位進行劃分,并計算各單位的Gain(R)得到一層決策樹如圖1。
對不同開課單位的課程性質(zhì)、合班人數(shù)、學時學分3個屬性進行期望值計算,其中電力電氣學院的課程數(shù)據(jù)低于484條,進行決策樹剪裁,其子決策樹直接為兩個葉子頂點{高職和非高職}。其他單位結(jié)果見表2:
分析上述數(shù)據(jù),“基礎部”最大的熵值是合班人數(shù),所以決策樹下一層按照合班人數(shù)進行劃分,而其課程性質(zhì)支持度太小,做裁剪處理,合班人數(shù)的下一層選擇學時學分,形成“理學院”的完整決策樹如圖2;“電子學院”最大的熵值是合班人數(shù),所以決策樹下一層按照合班人數(shù)進行劃分;“動力機械學院”最大的熵值是合班人數(shù),所以決策樹下一層按照合班人數(shù)進行劃分,而其課程性質(zhì)支持度太小,做裁剪處理,合班人數(shù)的下一層選擇學時學分,形成“動力機械學院”的完整決策樹;“直屬系”最大的熵值是學時學分,所以決策樹下一層按照學時學分進行劃分。
同理可以得到各開課單位的決策樹,并按照樣本數(shù)據(jù)低于5%的原則進行裁剪優(yōu)化[7];對于葉子節(jié)點,我們設定閥值為0.7,即認為具有顯著特征屬于某一類目標屬性,對圖2分析各節(jié)點高職所占比例,并進行裁剪劃分,用Y和N標識葉子節(jié)點的歸類,可以得到圖3。
經(jīng)上分析,對各個開課單位按照同樣方法完整構(gòu)建2016學年課表數(shù)據(jù)的決策樹構(gòu)建,總的決策樹見圖4。
根據(jù)圖4可以初步以下結(jié)論:
1) 職稱為高職的教員更傾向于選擇{小班}和{學時數(shù)少或中等}的課程。
2) 動力機械學院、電子學院的大班高學分課程由高職教員授課較多。
3) 直屬系所開設的學時少并且小班的課程中有86.1%是由高職教員授課。
根據(jù)上述結(jié)論,向教務課程管理人員提出以下決策建議:
1) 增加職稱為高職的教員教授屬性為{大班}和{學分學時數(shù)高}的課程。
2) 對不同的開課單位應當進行分類指導,其中動力機械學院、電子學院高職授課情況較好,電力電氣學院授課情況應當單獨研究。
4 結(jié)束語
在排課管理信息中經(jīng)過數(shù)據(jù)預處理,以“是否高職”作為目標屬性研究高級職稱老師的授課情況,使用典型的C4.5決策樹算法,通過實際樣本數(shù)據(jù)構(gòu)建決策樹,得到高職授課規(guī)律并提出合理排課建議。
該方法是數(shù)據(jù)挖掘技術在實際教學管理業(yè)務中的具體應用,對優(yōu)化師資力量配置,提高教學效果具有重要意義。
參考文獻:
[1] Quinlan J R.Induction of decision tree[J].Machine learning,1986(1):81-86.
[2] Quinlan J R.C4.5:Programs for machine learning[M].San Mateo:Morgan Kaufmann Publishers Inc,1993:17-42.
[3] 孔玉婷.數(shù)據(jù)挖掘中的分類算法研究與應用[D]. 鞍山:遼寧科技大學, 2015.
[4] Xingdong Wu,Vipin Kumar.The Top ten algorithms in data mining[M].Taylor&Francis CRC press,2009.
[5] 王元茂,楊松濤. 信息熵及其在中醫(yī)“證癥”關聯(lián)中的應用研究[J]. 電腦知識與技術,2016,12(27):229-231.
[6] 李玉霞,劉麗. 基于標稱變量向量化處理的網(wǎng)絡入侵檢測算法[J]. 科技通報,2014,30(2):99-101.
[7] 張曉龍,駱名劍. 基于IF-THEN規(guī)則的決策樹裁剪算法[J]. 計算機應用,2005,25(9):1986-1988.endprint