張貴元
摘 要 在目前深化產(chǎn)教融合,推進(jìn)職業(yè)教育的形勢(shì)下,職業(yè)化專業(yè)人才可持續(xù)培養(yǎng)已經(jīng)成為趨勢(shì),傳統(tǒng)的成績(jī)分析有一定的局限性。本文介紹了決策樹(shù)技術(shù)算法的原理,針對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行預(yù)處理和集成轉(zhuǎn)化,基于Microsoft SQL Server BI平臺(tái)運(yùn)用決策樹(shù)算法對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行挖據(jù)分析。通過(guò)試驗(yàn)結(jié)果分析,打破原有成績(jī)分析得局限,使現(xiàn)有數(shù)據(jù)體現(xiàn)更好的價(jià)值,從而輔助教學(xué)管理者做出相應(yīng)決策,更好的提高教學(xué)質(zhì)量。
關(guān)鍵詞 數(shù)據(jù)挖掘 Microsoft決策樹(shù)算法 成績(jī)分析
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A
0引言
在目前深化產(chǎn)教融合,推進(jìn)職業(yè)教育的形勢(shì)下,職業(yè)化專業(yè)人才可持續(xù)培養(yǎng)已經(jīng)成為趨勢(shì),特別是2018年廣東省教育廳關(guān)于中職畢業(yè)生考取本科的政策,在此新政下中職學(xué)校的學(xué)生參加高職高考繼續(xù)深造學(xué)習(xí)是以后新的方向,新政下的深化教學(xué)改革,拓寬學(xué)生升學(xué)途徑,推動(dòng)新的人才培養(yǎng)體系,健全學(xué)生需求導(dǎo)向的課程調(diào)整,統(tǒng)籌職業(yè)教育與升學(xué)的合理布局,是每個(gè)學(xué)校面臨的問(wèn)題。而高職高考的必備條件是等級(jí)證書(shū)+文化基礎(chǔ)課程,那么提高等級(jí)證書(shū)的通過(guò)率是迫在眉睫。目前利用數(shù)據(jù)挖掘研究中職學(xué)校等級(jí)考證的較少,學(xué)校教務(wù)系統(tǒng)也沒(méi)有對(duì)學(xué)生各課程成績(jī)和技能證書(shū)通過(guò)時(shí)間以及通過(guò)率進(jìn)行深層次分析。因此通過(guò)數(shù)據(jù)挖掘決策樹(shù)技術(shù),研究英語(yǔ)等級(jí)考證通過(guò)率和其他因素之間的潛在關(guān)系,提高等級(jí)考試通過(guò)率,保證高職高考上線率,就顯得尤為重要。
1 Microsoft SQL Server BI 數(shù)據(jù)挖掘功能
本文應(yīng)用決策樹(shù)技術(shù)對(duì)成績(jī)的分析是在Microsoft SQL Server BI平臺(tái)上完成。Microsoft SQL Server BI 平臺(tái)具有很強(qiáng)大的功能,涵蓋了常用的數(shù)據(jù)挖掘技術(shù)。它將數(shù)據(jù)挖掘技術(shù)以集成化,模塊化,系統(tǒng)化、界面化的方式簡(jiǎn)潔的呈現(xiàn)出來(lái),即使不具備很深的專業(yè)知識(shí),也能夠很容易上手,簡(jiǎn)單的操作,讓它具備更廣泛的應(yīng)用市場(chǎng)。適合數(shù)據(jù)研究分析實(shí)驗(yàn),可以得到有效的數(shù)據(jù)研究結(jié)果。該智能平臺(tái)中包括了很多數(shù)據(jù)挖掘的算法,其中常用的決策樹(shù)、聚類分析、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)等都可以選擇,并且在實(shí)驗(yàn)過(guò)程中可以設(shè)置不同的參數(shù)來(lái)對(duì)比實(shí)驗(yàn)結(jié)果。Microsoft SQL Server BI平臺(tái)除了內(nèi)置的算法,還可以根據(jù)實(shí)際需求將設(shè)計(jì)好的算法程序以插件的形式導(dǎo)入 Microsoft SQL Server BI 平臺(tái)以滿足實(shí)驗(yàn)的需求。
2 Microsoft 決策樹(shù)算法
在構(gòu)建決策樹(shù)模型之前先闡述一下Microsoft 決策樹(shù)算法的基本理論基礎(chǔ),Microsoft 決策樹(shù)算法它是集結(jié)了各種創(chuàng)建樹(shù)在一起的綜合性的算法。通過(guò)在樹(shù)中創(chuàng)建一系列拆分來(lái)生成數(shù)據(jù)挖掘模型。Microsoft 決策樹(shù)算法提供了三種信息獲取計(jì)分公式,第一種是信息量的均Shannon,第二種是使用K2先驗(yàn)的Bayesian網(wǎng)絡(luò),第三種是使用先驗(yàn)統(tǒng)一Dirichlet分布的 Bayesian網(wǎng)絡(luò)。這三種都是經(jīng)過(guò)論證,并且使用在數(shù)據(jù)挖掘領(lǐng)域的方法。在使用的過(guò)程中,我們可以設(shè)置不同的參數(shù)進(jìn)行數(shù)據(jù)分析,對(duì)分析結(jié)果進(jìn)行觀察求證,得到最優(yōu)化的實(shí)驗(yàn)結(jié)果。
Microsoft決策樹(shù)算法經(jīng)過(guò)實(shí)踐,是一種速度快而且效率高的算法,并且兼容度高。這樣的優(yōu)勢(shì)在于多個(gè)處理器可以協(xié)同處理數(shù)據(jù),共同生成一個(gè)一致的模型?;谶@些優(yōu)點(diǎn)和特征,Microsoft決策樹(shù)分類器就是我們?cè)囼?yàn)中較為具有優(yōu)勢(shì)的工具。并且在實(shí)驗(yàn)的過(guò)程中我們通過(guò)設(shè)置COMPLEXITY_PENALTY 參數(shù),增大它的值可以限制樹(shù)的增長(zhǎng)。限制關(guān)聯(lián)模型中的項(xiàng)數(shù)以限制生成的樹(shù)的數(shù)量。增大MINIMUM_SUPPORT 參數(shù)的值可以避免過(guò)度擬合。
在Microsoft決策樹(shù)算法中樹(shù)的形狀和深度是由選擇的計(jì)分方法和參數(shù)的設(shè)定來(lái)決定的,參數(shù)的值不同引起節(jié)點(diǎn)拆分的位置也不同。因此,我們?cè)谠囼?yàn)中要掌握各個(gè)參數(shù)屬性,通過(guò)設(shè)定不同的數(shù)值,去控制樹(shù)的增長(zhǎng)、樹(shù)的形狀以及輸入和輸出屬性。
主要的參數(shù)如下:
2.1 Complexity_Penalty
Complexity_Penalty 該參數(shù)是一個(gè)浮點(diǎn)類型的參數(shù),它的取值范圍是[0,1]之間。在實(shí)驗(yàn)中,當(dāng)設(shè)定的值接近0的時(shí)候,生成的樹(shù)會(huì)比較大,因?yàn)檫@樣的值對(duì)樹(shù)的增長(zhǎng)限制比較小,反之,當(dāng)設(shè)定的值接近1的時(shí)候,數(shù)據(jù)所創(chuàng)建的樹(shù)會(huì)比較小。
2.2 Minimum_Support
Minimum_Support 該參數(shù)是規(guī)定生成樹(shù)中最小節(jié)點(diǎn)的個(gè)數(shù),參數(shù)默認(rèn)值一般為10,根據(jù)實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練集的數(shù)量來(lái)確定該參數(shù)值,訓(xùn)練數(shù)據(jù)集中的事例越多該參數(shù)值越大,這樣設(shè)置實(shí)驗(yàn)數(shù)據(jù)比較科學(xué)。
2.3 Score_Method
Score_Method 該參數(shù)是決定決策樹(shù)增長(zhǎng)使用的方法。根據(jù)參數(shù)值的不同選擇不同的方法。當(dāng)它的值為1的時(shí)候,使用信息熵來(lái)控制樹(shù)的增長(zhǎng);當(dāng)它的值為3的時(shí)候,使用Bayesian with K2 Prior方法;當(dāng)它的值為4的時(shí)候,使用 Bayesian Dirichlet Equivalent with Uniform prior(BDEU)方法。該參數(shù)的默認(rèn)值是4,我們?cè)谠囼?yàn)中可以通過(guò)設(shè)置不同參數(shù)來(lái)對(duì)比試驗(yàn)數(shù)據(jù)結(jié)果的精確性。
3決策樹(shù)技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用
3.1數(shù)據(jù)預(yù)處理和集成
本文研究的是英語(yǔ)一級(jí)考試成績(jī)和學(xué)生其他成績(jī)之間的關(guān)聯(lián)關(guān)系。因此,把英語(yǔ)一級(jí)成績(jī)當(dāng)成研究指標(biāo),為了達(dá)到實(shí)驗(yàn)的完整性以及準(zhǔn)確性,試驗(yàn)數(shù)據(jù)采集,涵蓋了五個(gè)專業(yè)層次不同的學(xué)生三年在校的各科成績(jī),通過(guò)分類手段選擇了200個(gè)左右的學(xué)生成績(jī)信息來(lái)當(dāng)作數(shù)據(jù)挖掘的主要分析對(duì)象,經(jīng)過(guò)預(yù)處理保留有效信息1354條。針對(duì)預(yù)處理后的1354條學(xué)生原始成績(jī)數(shù)據(jù),結(jié)合試驗(yàn)需求,需要對(duì)成績(jī)數(shù)據(jù)進(jìn)行集成和轉(zhuǎn)化,由于本文分析學(xué)生英語(yǔ)一級(jí)成績(jī)和公共基礎(chǔ)課程、專業(yè)課程、專業(yè)類別、通過(guò)的時(shí)間等之間的關(guān)聯(lián)關(guān)系。因此,將學(xué)生的各科成績(jī)集成轉(zhuǎn)化為專業(yè)課平均成績(jī)、公共課平均成績(jī)、英語(yǔ)平均成績(jī)、英語(yǔ)一級(jí)成績(jī)、英語(yǔ)一級(jí)考試學(xué)期、專業(yè)類別等試驗(yàn)所用的數(shù)據(jù)信息。
3.2構(gòu)建和使用決策樹(shù)分類模型
創(chuàng)建決策樹(shù)模型,利用 Microsoft Visual Studio 打開(kāi)“挖
掘模型”的界面,右鍵單擊“Microsoft_Decision_Trees”命令,打開(kāi)“算法參數(shù)”選項(xiàng)窗口,在該窗口中設(shè)置算法參數(shù),經(jīng)過(guò)不同參數(shù)設(shè)置對(duì)比實(shí)驗(yàn)結(jié)果,該實(shí)驗(yàn)使用模型默認(rèn)的參數(shù)得到的數(shù)據(jù)分析結(jié)果較準(zhǔn)確。
使用微軟的程序開(kāi)發(fā)工具集(Business Intelligence Development Studio, BI Dev Studio)按照界面的操作提示,能夠快速有效的完成實(shí)驗(yàn)數(shù)據(jù)的數(shù)據(jù)挖掘分析。本文使用 BI Dev Studio部署SQL Server Analysis(SSAS)數(shù)據(jù)挖掘項(xiàng)目,使用該向?qū)芸焖俚貏?chuàng)建和使用決策樹(shù)模型進(jìn)行數(shù)據(jù)挖掘,具體步驟如下:
(1)創(chuàng)新建數(shù)據(jù)源。創(chuàng)建新數(shù)據(jù)源的時(shí)候,要新建一個(gè)項(xiàng)目為 “Analysis Services 項(xiàng)目”,然后我們進(jìn)入數(shù)據(jù)源向?qū)Т翱?,在提供的選項(xiàng)中選擇“使用服務(wù)賬號(hào)”。
(2)創(chuàng)建數(shù)據(jù)源視圖。在“數(shù)據(jù)源視圖向?qū)А贝翱谥羞x擇提前預(yù)處理過(guò)的實(shí)驗(yàn)數(shù)據(jù)源,生成數(shù)據(jù)源的視圖。
(3)創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)。創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)的方法很簡(jiǎn)單,只單擊“解決方案資源管理器”命令,在菜單選擇 “挖掘結(jié)構(gòu)”命令,然后選擇“新建數(shù)據(jù)挖掘結(jié)構(gòu)”命令完成操作,在“創(chuàng)帶有挖掘模型的挖掘結(jié)構(gòu)”選項(xiàng)中根據(jù)實(shí)驗(yàn)要求選擇算法,在這里我們選擇“Microsoft決策樹(shù)”。點(diǎn)擊“下一步”后在窗口中指定定型數(shù)據(jù),最后完成數(shù)據(jù)挖掘結(jié)構(gòu)的創(chuàng)建。
4決策樹(shù)算法挖掘?qū)W生成績(jī)結(jié)果分析
通過(guò)SQL Server 2008 BI利用算法對(duì)數(shù)據(jù)進(jìn)行挖掘,得到實(shí)驗(yàn)決策樹(shù)的模型圖和屬性關(guān)系的拓?fù)鋱D,如圖1所示。結(jié)合決策樹(shù)節(jié)點(diǎn)屬性數(shù)據(jù),根據(jù)模型圖和關(guān)系拓?fù)鋱D得出英語(yǔ)一級(jí)成績(jī)和其它屬性之間的內(nèi)在關(guān)聯(lián)關(guān)系。
4.1產(chǎn)生分類規(guī)則
Microsoft 的決策樹(shù)模型圖中從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)代表了一條數(shù)據(jù)挖掘規(guī)則,通過(guò)分析模型而得出部分有效的規(guī)則,如下所示:
(1)通過(guò)學(xué)期>3.333 and專業(yè)不等于汽修,通過(guò)一級(jí),概率=10%
(2)通過(guò)學(xué)期>3.333 and專業(yè)=汽修,通過(guò)一級(jí),概率=11%
(3)通過(guò)學(xué)期<3.333 and專業(yè)=軟件與信息服務(wù),一級(jí)不合格,概率=37%
(4)通過(guò)學(xué)期<3.333 and專業(yè)不等于軟件與信息服務(wù) and專業(yè)不等于會(huì)計(jì),通過(guò)一級(jí),概率=21%
(5)通過(guò)學(xué)期<3.333 and專業(yè)=會(huì)計(jì),通過(guò)一級(jí),概率=42%
通過(guò)規(guī)則得知,通過(guò)學(xué)期對(duì)一級(jí)通過(guò)率有直接影響,專業(yè)屬性的不同一級(jí)通過(guò)率有很大差異性,結(jié)合節(jié)點(diǎn)“挖掘圖例”中的屬性詳情,找出一級(jí)成績(jī)和其他成績(jī)屬性的關(guān)聯(lián),分析如下:
(1)在第二、三學(xué)期參加英語(yǔ)一級(jí)考試通過(guò)率是56%,而在第四學(xué)期以后參加英語(yǔ)一級(jí)考試通過(guò)率僅有10%左右。
(2)在第二、三學(xué)期軟件與信息服務(wù)專業(yè)的通過(guò)率較高為63%,會(huì)計(jì)專業(yè)為42%,其余專業(yè)總的通過(guò)率21%。
(3)在第二、三學(xué)期通過(guò)英語(yǔ)一級(jí)的學(xué)生入學(xué)成績(jī)、專業(yè)課程、英語(yǔ)平均成績(jī)都屬于中等水平以上。而不能通過(guò)的學(xué)生這幾個(gè)成績(jī)屬于合格或者以下。
(4)在第四學(xué)期以后參加英語(yǔ)一級(jí)通過(guò)的學(xué)生入學(xué)成績(jī)、公共課程成績(jī)、英語(yǔ)平均成績(jī)、專業(yè)課程成績(jī)屬于合格至中等水平。
4.2結(jié)果分析
在本文中把英語(yǔ)一級(jí)分?jǐn)?shù)當(dāng)作目標(biāo)對(duì)象,分析其他方面對(duì)分?jǐn)?shù)的作用。在對(duì)分?jǐn)?shù)產(chǎn)生影響的各種條件里,學(xué)生最開(kāi)始進(jìn)入學(xué)校時(shí)取得的成績(jī)和英語(yǔ)平均成績(jī)的作用是最明顯的。這主要是由于進(jìn)入學(xué)校時(shí)成績(jī)不錯(cuò)的同學(xué),各方面學(xué)習(xí)能力較強(qiáng),可以自覺(jué)的進(jìn)行學(xué)習(xí),考試的分?jǐn)?shù)也很高。而入學(xué)考試分?jǐn)?shù)低的學(xué)生,由于分?jǐn)?shù)較低就到了中等的職業(yè)學(xué)校,之前的學(xué)習(xí)不是很好,尤其是在英語(yǔ)以及數(shù)學(xué)方面比較明顯,所以英語(yǔ)考級(jí)達(dá)到標(biāo)準(zhǔn)的幾率也不是很高。公共課的分?jǐn)?shù)又比專業(yè)性課程明顯,主要是因?yàn)樵谥新殞W(xué)校,特別是汽修數(shù)控專業(yè),同學(xué)們都將專業(yè)課當(dāng)作重點(diǎn),對(duì)公共課程的要求不是很高,但是英語(yǔ)就屬于公共課的一種。由于我們學(xué)校專業(yè)的差異性以及“三二分段”中高職連貫培養(yǎng)的特殊性,進(jìn)入二年級(jí)之后就要準(zhǔn)備“三二分段”考試了,這些方面的考試考察的重要是同學(xué)們的專業(yè)能力以及技能。所以,在第四以及第四學(xué)期以后就不會(huì)進(jìn)行更深入的英語(yǔ)學(xué)習(xí),因此,這部分同學(xué)們?cè)谒膶W(xué)期以后,缺乏英語(yǔ)上的提升,考試達(dá)標(biāo)的概率就會(huì)更低。汽修專業(yè)、數(shù)控專業(yè)、媒體傳播專業(yè)的同學(xué)在錄取分?jǐn)?shù)不是很高,學(xué)習(xí)基礎(chǔ)較弱,第二、三學(xué)期考試通過(guò)率不高。計(jì)算機(jī)專業(yè)的同學(xué)合格率是最高的,計(jì)算機(jī)專業(yè)和東莞職業(yè)技術(shù)學(xué)院進(jìn)行合作辦學(xué),“軟件信息與服務(wù)”專業(yè)是中高職連貫培養(yǎng),學(xué)生招生分?jǐn)?shù)線較高,部分學(xué)生成績(jī)比高中的分?jǐn)?shù)線還要高,學(xué)生綜合素質(zhì)較高。會(huì)計(jì)專業(yè)女生多,招生成績(jī)也較好,因此在第二、三學(xué)期的考試中通過(guò)率也不錯(cuò),除了軟件與信息服務(wù)專業(yè),其它幾個(gè)專業(yè)成績(jī)都比較好。
4.3數(shù)據(jù)挖掘結(jié)論和意見(jiàn)
因?yàn)槲覀儗W(xué)校的教學(xué)任務(wù)方向和專業(yè)屬性有很大程度上的關(guān)聯(lián)性,一些專業(yè)是“3+2”類型的,并且這種類型的學(xué)生占有很大比率,而其余專業(yè)進(jìn)行高職考試的也很多,而參加高職高考的班級(jí)對(duì)于英語(yǔ)一級(jí)證書(shū)的需求迫切度更高,在對(duì)英語(yǔ)一級(jí)考試有影響的相關(guān)因素進(jìn)行分析后,對(duì)課程進(jìn)行合理穩(wěn)定的調(diào)整操作。打破常規(guī)的統(tǒng)一模式,進(jìn)行有差別,有針對(duì)的去安排。
(1)安排“三二分段”中高職連貫培養(yǎng)班級(jí)的課程時(shí),因?yàn)閷W(xué)生的入學(xué)考試分?jǐn)?shù)很高,基礎(chǔ)較好,因此,英語(yǔ)方面的教學(xué)依據(jù)學(xué)校的正常教學(xué)安排來(lái)完成,根據(jù)我們學(xué)校實(shí)際排課情況,即在前兩個(gè)學(xué)期正常進(jìn)度進(jìn)行英語(yǔ)教學(xué),學(xué)生的英語(yǔ)考級(jí)都會(huì)被安排到第二第三學(xué)期,確保英語(yǔ)考級(jí)的分?jǐn)?shù)能夠達(dá)標(biāo)。
(2)非“三二分段”中高職連貫培養(yǎng)班級(jí)這些學(xué)生基礎(chǔ)稍弱,通過(guò)對(duì)這些同學(xué)在英語(yǔ)考級(jí)方面的要求以及教務(wù)管理系統(tǒng)對(duì)課程調(diào)整進(jìn)行細(xì)致分析之后,可以根據(jù)專業(yè)實(shí)際需求在第一、二學(xué)期適當(dāng)減少專業(yè)課程,增加英語(yǔ)課程課時(shí)(由于專業(yè)特征和學(xué)生的需求都不同,學(xué)校課程安排計(jì)劃是第1、2、5、6學(xué)期安排英語(yǔ)課程),保證這些專業(yè)的學(xué)生盡量在第二三學(xué)期通過(guò)英語(yǔ)一級(jí)考試,提升英語(yǔ)一級(jí)通過(guò)率。
(3)針對(duì)專業(yè)差異性,數(shù)控、汽修男生多,他們對(duì)實(shí)踐操作容易產(chǎn)生興趣,但是他們對(duì)英語(yǔ)這種基礎(chǔ)課程的學(xué)習(xí)興趣卻不是很濃厚。所以,在對(duì)性別、入學(xué)考試的分?jǐn)?shù)等各方面因素進(jìn)行了分析之后,主要針對(duì)汽修、數(shù)控等專業(yè)的學(xué)生,學(xué)校能夠?yàn)槠浞峙浣虒W(xué)水平以及專業(yè)水平較高的教師來(lái)幫助他們。并且,在日常教學(xué)里,還能夠在一二三學(xué)期里增加英語(yǔ)教學(xué)的頻率,平衡英語(yǔ)課和其他課程的差別,提升通過(guò)英語(yǔ)考級(jí)的人數(shù)比例。
5結(jié)束語(yǔ)
本文通過(guò) Microsoft SQL Server BI 智能平臺(tái)的決策樹(shù)算法分析學(xué)生英語(yǔ)一級(jí)成績(jī)和其他成績(jī)以及通過(guò)學(xué)期之間的關(guān)系,挖掘出有用的規(guī)則,通過(guò)該算法對(duì)學(xué)生成績(jī)數(shù)據(jù)的分析,能夠精準(zhǔn)的對(duì)成績(jī)做出正確有效的評(píng)估,為提高英語(yǔ)一級(jí)的通過(guò)率做出有效的決策支持。
參考文獻(xiàn)
[1] 鄧蓓蓓.基于信息增益的量化算法及其在決策樹(shù)中應(yīng)用的研究[D].廣州:廣東工業(yè)大學(xué),2016.
[2] 瞿花斌.數(shù)據(jù)挖掘的決策樹(shù)技術(shù)在高校畢業(yè)生管理中的應(yīng)用[D].濟(jì)南:山東大學(xué),2014.
[3] 李宣冬.C4.5 決策樹(shù)算法在素質(zhì)教育學(xué)分成績(jī)分析與評(píng)價(jià)中的應(yīng)用[J].中小企業(yè)管理與科技,2015.
[4] 李杰.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用研究[D].西安:西安石油大學(xué),2010.