摘要:隨著職業(yè)教育改革的不斷深化和畢業(yè)生人數(shù)的逐年遞增,學(xué)生就業(yè)工作和職業(yè)生涯發(fā)展指導(dǎo)工作任務(wù)越來(lái)越重。該文以甘肅林業(yè)職業(yè)技術(shù)學(xué)院信息工程學(xué)院近四年的畢業(yè)生數(shù)據(jù)作為挖掘?qū)ο螅捎昧烁倪M(jìn)的ID3決策樹(shù)算法對(duì)高職學(xué)校應(yīng)往屆畢業(yè)生的基本信息、學(xué)業(yè)成績(jī)、實(shí)踐能力、就業(yè)狀況等數(shù)據(jù)予以挖掘,把挖掘到的規(guī)則運(yùn)用到高職學(xué)生管理服務(wù)和教育教學(xué)中,為高職院校就業(yè)指導(dǎo)部門(mén)提供更多的理論決策支持。
關(guān)鍵詞:數(shù)據(jù)挖掘;ID3算法;職業(yè)發(fā)展分析
中圖分類(lèi)號(hào):TP311 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)15-0025-03
目前,許多高職院校都建立了諸如學(xué)生成績(jī)管理系統(tǒng)、就業(yè)數(shù)據(jù)一站式管理系統(tǒng)等。但因缺乏數(shù)據(jù)挖掘技術(shù),因而只能用于數(shù)據(jù)統(tǒng)計(jì)與匯總,潛在的和有價(jià)值的信息得不到充分發(fā)掘。本文采用決策樹(shù)技術(shù),探索和分析與高職學(xué)生職業(yè)發(fā)展相關(guān)的數(shù)據(jù),利用改進(jìn)后的ID3算法試圖找出其中的規(guī)則,構(gòu)造分類(lèi)決策樹(shù),建立數(shù)據(jù)挖掘模型,利用該模型預(yù)測(cè)新數(shù)據(jù),發(fā)掘高職學(xué)生職業(yè)發(fā)展的影響因素相關(guān)性研究及應(yīng)用,以在學(xué)生職業(yè)規(guī)劃中提供幫助和指導(dǎo)。
1 數(shù)據(jù)挖掘?qū)嵤┻^(guò)程
1.1 挖掘?qū)ο蠹澳繕?biāo)確定
本文選取甘肅林業(yè)職業(yè)技術(shù)學(xué)院信息工程學(xué)院2015-2018年的畢業(yè)生資料。通過(guò)數(shù)據(jù)挖掘和分析,管理者可以根據(jù)高職學(xué)生的不同特點(diǎn)制定對(duì)應(yīng)的職業(yè)生涯規(guī)劃指導(dǎo)方案。
1.2 數(shù)據(jù)采集
本文的數(shù)據(jù)主要來(lái)源渠道為:畢業(yè)生的基本信息和就業(yè)信息由招生就業(yè)處就業(yè)指導(dǎo)中心獲取,計(jì)算機(jī)等級(jí)成績(jī)、實(shí)踐能力數(shù)據(jù)由二級(jí)學(xué)院競(jìng)賽情況數(shù)據(jù)獲得。學(xué)業(yè)成績(jī)、英語(yǔ)AB級(jí)成績(jī)來(lái)自教務(wù)管理系統(tǒng)。
1.3 數(shù)據(jù)預(yù)處理
因?yàn)閷W(xué)院各部門(mén)業(yè)務(wù)重點(diǎn)不同,各自的數(shù)據(jù)庫(kù)中所存儲(chǔ)的數(shù)據(jù)也會(huì)和預(yù)期的數(shù)據(jù)格式有很大的差異,因此需要進(jìn)行合理的數(shù)據(jù)預(yù)先處理,以解決該問(wèn)題。
1.3.1 數(shù)據(jù)集成
把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中稱之為數(shù)據(jù)集成?!皩W(xué)生基本信息表”“學(xué)業(yè)成績(jī)表”“畢業(yè)生就業(yè)匯總表”等數(shù)據(jù)表眾多,需要跨數(shù)據(jù)庫(kù)去查找多個(gè)表,因此在收集到數(shù)據(jù)之后,根據(jù)數(shù)據(jù)屬性間以及屬性所在表之間的關(guān)系,去除所有代碼項(xiàng)和無(wú)關(guān)的數(shù)據(jù)項(xiàng),將全部所需數(shù)據(jù)項(xiàng)集成到一個(gè)數(shù)據(jù)表,命名為“就業(yè)信息匯總表”,如圖1所示。
1.3.2 數(shù)據(jù)清理
在數(shù)據(jù)庫(kù)中的數(shù)據(jù)中含有噪聲、數(shù)據(jù)表示方式不一致等,有些數(shù)據(jù)不完整,有些感興趣的屬性可能缺少屬性值,例如學(xué)生的全國(guó)計(jì)算機(jī)等級(jí)考試,如果未參加考試或者考試沒(méi)有通過(guò),則該項(xiàng)數(shù)據(jù)為Null,需要通過(guò)一些方式予以補(bǔ)充。同時(shí)對(duì)數(shù)據(jù)庫(kù)中無(wú)效的數(shù)據(jù)記錄進(jìn)行清除,如有退學(xué)、開(kāi)除的學(xué)生等,可將其記錄予以刪除。對(duì)于休學(xué)、留級(jí)的學(xué)生數(shù)據(jù)需要?dú)w集到復(fù)學(xué)后的班級(jí)中再予以挖掘。
1.3.3 數(shù)據(jù)歸約
在收集到的學(xué)生相關(guān)信息數(shù)據(jù)庫(kù)中所包含屬性非常多,但是有些數(shù)據(jù)和數(shù)據(jù)挖掘并不是很相關(guān),并且規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié)果與規(guī)約前執(zhí)行結(jié)果相同或幾乎相同,可通過(guò)冗余屬性的刪除,將屬性有大量不同的值但是這個(gè)值影響因子較小的刪掉;將各屬性值進(jìn)行轉(zhuǎn),如把就業(yè)狀態(tài)分為“就業(yè)”“應(yīng)征入伍”“升學(xué)”“待就業(yè)”四種情況;對(duì)連續(xù)數(shù)據(jù)值數(shù)據(jù)離散化,如學(xué)業(yè)課程成績(jī)通常以百分比表示,需將所有課程的成績(jī)進(jìn)行匯總后計(jì)算平均值,利用GPA標(biāo)準(zhǔn)公式計(jì)算后將其離散為“優(yōu)秀”“良好”和“一般”三類(lèi)。
1.4 訓(xùn)練集與測(cè)試集的選擇
本文對(duì)收集到1048條的學(xué)生相關(guān)信息進(jìn)行整理,將2015-2017屆畢業(yè)生數(shù)據(jù)處理后得到的629條有效記錄作為訓(xùn)練樣本數(shù)據(jù),通過(guò)改進(jìn)的ID3算法生成決策樹(shù)模型,然后用2018屆畢業(yè)生的228條數(shù)據(jù)作為測(cè)試數(shù)據(jù)集,作為驗(yàn)證模型驗(yàn)證規(guī)則。通過(guò)數(shù)據(jù)的歸約,最終得到的數(shù)據(jù)樣本集統(tǒng)計(jì)如表1所示。
2 改進(jìn)的ID3算法在畢業(yè)生就業(yè)分析中的實(shí)施
改進(jìn)的ID3決策樹(shù)構(gòu)造的步驟為:
(l)將表中屬性值作數(shù)據(jù)源,通過(guò)公式[IX=-j=1mPjlog2Pj]分別計(jì)算各個(gè)屬性的信息熵;
(2)通過(guò)改進(jìn)的基于動(dòng)態(tài)屬性權(quán)值的ID3算法公式Gain(S,C)=I(S)–[ωI]*E(S,C)計(jì)算信息增益,將最大信息增益的屬性設(shè)置為根節(jié)點(diǎn);
(3)遞歸計(jì)算每個(gè)子集,步驟(1)和(2)被每一個(gè)子集依次調(diào)用。用相同的算法計(jì)算其余各屬性值的信息增益并進(jìn)行分類(lèi),直到每個(gè)屬性對(duì)應(yīng)于單一值或者樹(shù)的增長(zhǎng)超過(guò)一定的規(guī)模為止。
2.1 構(gòu)造決策樹(shù)
根據(jù)就業(yè)信息訓(xùn)練樣本集記錄統(tǒng)計(jì)表(表1),將其中2015-2017屆畢業(yè)生數(shù)據(jù)共629條,作為訓(xùn)練樣本數(shù)據(jù)集S,根據(jù)畢業(yè)生就業(yè)狀況分為四類(lèi):就業(yè)(A)、應(yīng)征入伍(B)、升學(xué)(C)、待就業(yè)(D)。
訓(xùn)練樣本集S中有629個(gè)元組,A、B、C、D四個(gè)子集中元組個(gè)數(shù)分別為:S1=467,S2=25,S3=76,S4=61。
所以性別的熵值為:
用相同方式分別計(jì)算專(zhuān)業(yè)、是否為學(xué)生干部、學(xué)業(yè)成績(jī)、實(shí)習(xí)實(shí)踐成績(jī)、英語(yǔ)AB級(jí)獲得情況、計(jì)算機(jī)等級(jí)證獲得情況、競(jìng)賽能力的熵值。
根據(jù)改進(jìn)的屬性權(quán)值選擇方法,在此對(duì)訓(xùn)練樣本集的計(jì)算屬性權(quán)值和信息增益,最終結(jié)果如下表2:
通過(guò)以上結(jié)果分析發(fā)現(xiàn),改進(jìn)后的算法計(jì)算所得的實(shí)習(xí)實(shí)踐成績(jī)的信息增益值為0.360,遠(yuǎn)高于其余屬性的信息增益值,所以“實(shí)習(xí)實(shí)踐成績(jī)”將作為決策樹(shù)的根節(jié)點(diǎn)。計(jì)算每個(gè)分支并根據(jù)信息增益導(dǎo)出下一個(gè)決策屬性,通過(guò)改進(jìn)后的ID3算法計(jì)算信息增益,構(gòu)建了初始決策樹(shù),通過(guò)后修剪決策樹(shù)的方法,剪枝后的決策樹(shù)如下圖2所示:
2.2 規(guī)則提取
決策樹(shù)分類(lèi)規(guī)則的信息表示一般為生成規(guī)則方法,即對(duì)生成的決策樹(shù)先序遍歷,使用已建立的決策樹(shù),在每個(gè)節(jié)點(diǎn)上生成“IF...THEN”規(guī)則。根據(jù)上面生成的決策樹(shù),本文生成以的部分重要分類(lèi)規(guī)則如下:
(1)IF(實(shí)習(xí)實(shí)踐成績(jī)=“優(yōu)秀”)AND(是否班干部=“是”)THEN Prediction='就業(yè)'Probability=0.673
(2)IF(實(shí)習(xí)實(shí)踐成績(jī)=“優(yōu)秀”)AND(是否班干部!=“是”)AND(學(xué)業(yè)成績(jī)=“優(yōu)秀”)THEN Prediction='就業(yè)'Probability=0.860
(3)IF(實(shí)習(xí)實(shí)踐成績(jī)=“優(yōu)秀”)AND(是否班干部!=“是”)AND(學(xué)業(yè)成績(jī)=“良好”)THEN Prediction='就業(yè)'Probability=1
(4)IF(實(shí)習(xí)實(shí)踐成績(jī)=“良好”)AND(競(jìng)賽能力=“強(qiáng)”)THEN Prediction='就業(yè)'Probability=0.848
(5)IF(實(shí)習(xí)實(shí)踐成績(jī)=“良好”)AND(競(jìng)賽能力=“中”)AND(性別=“男”)THEN Prediction='應(yīng)征入伍'Probability=0.089
(6)IF(實(shí)習(xí)實(shí)踐成績(jī)=“良好”)AND(競(jìng)賽能力=“弱”)THEN Prediction='升學(xué)'Probability=0.508
(7)IF(實(shí)習(xí)實(shí)踐成績(jī)=“良好”)AND(競(jìng)賽能力=“弱”)THEN Prediction='就業(yè)'Probability=0.426
(8)IF(實(shí)習(xí)實(shí)踐成績(jī)=“一般”)THEN Prediction=“待就業(yè)” Probability=0.633
從決策樹(shù)規(guī)則中可以得出,對(duì)于高職院校畢業(yè)生,實(shí)習(xí)實(shí)踐成績(jī)、計(jì)算機(jī)水平、專(zhuān)業(yè)課成績(jī)、競(jìng)賽能力和是否班干部對(duì)職業(yè)發(fā)展的影響因子比較大,實(shí)習(xí)實(shí)踐成績(jī)、專(zhuān)業(yè)課成績(jī)、競(jìng)賽能力和是否班干部高效的投入力度將對(duì)畢業(yè)生的職業(yè)發(fā)展起到極其重要的作用。
2.3 分類(lèi)規(guī)則驗(yàn)證
將生成的規(guī)則按照IBMSPSS語(yǔ)法進(jìn)行規(guī)范后,連同驗(yàn)證數(shù)據(jù)集導(dǎo)入SPSS軟件,通過(guò)決策樹(shù)分類(lèi)預(yù)測(cè)功能,生成2018屆228條畢業(yè)生的就業(yè)狀態(tài)數(shù)據(jù),預(yù)測(cè)結(jié)果保存到畢業(yè)去向字段中。
通過(guò)實(shí)驗(yàn)所得預(yù)測(cè)結(jié)果如表3所示。將預(yù)測(cè)得到的分類(lèi)結(jié)果與學(xué)生初次就業(yè)情況統(tǒng)計(jì)表予以比較,其中正確的記錄有172個(gè),不正確的記錄56條,正確率為75.4%,分類(lèi)的準(zhǔn)確度還是比較高的,模型可用于對(duì)準(zhǔn)畢業(yè)生數(shù)據(jù)進(jìn)行預(yù)測(cè)和決策支持。
對(duì)預(yù)測(cè)結(jié)論和誤差分析,2018屆畢業(yè)生中選擇就業(yè)的人數(shù)大于了70%,為高職畢業(yè)生的發(fā)展主渠道,基本符合實(shí)際情況。應(yīng)征入伍預(yù)測(cè)為4,屬性對(duì)結(jié)果影響較小,很難準(zhǔn)確預(yù)測(cè)。升學(xué)人數(shù)誤差較大,這是因?yàn)椴糠謱W(xué)生會(huì)放棄升學(xué)而選擇就業(yè)的情況。而待就業(yè)誤差,主要是因政策原因有業(yè)不就的影響,但隨著甘肅省就業(yè)政策的變動(dòng),因各類(lèi)招考而有業(yè)不就的情況將有所減少。對(duì)于預(yù)測(cè)結(jié)果為未就業(yè)的學(xué)生,要加大關(guān)注度,從而提高畢業(yè)生的就業(yè)質(zhì)量。
3 職業(yè)發(fā)展決策支持系統(tǒng)的實(shí)現(xiàn)
在前文得出模型的基礎(chǔ)上,進(jìn)一步建立決策支持系統(tǒng),針對(duì)本文內(nèi)容,經(jīng)過(guò)分析系統(tǒng)的需求和功能之后,開(kāi)發(fā)一個(gè)就業(yè)決策支持系統(tǒng),系統(tǒng)中應(yīng)用前文所得決策規(guī)則,實(shí)現(xiàn)學(xué)生就業(yè)狀態(tài)的統(tǒng)計(jì)和預(yù)測(cè),獲得“職業(yè)生涯預(yù)測(cè)”結(jié)果,也可通過(guò)學(xué)生或姓名抽取學(xué)生信息,將預(yù)測(cè)出個(gè)體學(xué)生的就業(yè)狀態(tài),顯示在預(yù)測(cè)狀態(tài)欄中,如圖3所示。
4 結(jié)語(yǔ)
本文首先提出了目前高職院校就業(yè)制度的實(shí)際情況,然后指出利用決策樹(shù)技術(shù)挖掘?qū)W生職業(yè)發(fā)展信息的必要性,完成了問(wèn)題確定、數(shù)據(jù)收集、集成、清理和轉(zhuǎn)換等一系列的數(shù)據(jù)挖掘和處理任務(wù),并利用改進(jìn)的基于動(dòng)態(tài)屬性權(quán)值的ID3算法利用生成的決策樹(shù)產(chǎn)生的分類(lèi)規(guī)則,建立就業(yè)狀態(tài)預(yù)測(cè)模型,通過(guò)在高職院校學(xué)生職業(yè)發(fā)展預(yù)測(cè)中的應(yīng)用,并利用信息工程學(xué)院2018屆畢業(yè)生的信息對(duì)就業(yè)狀態(tài)預(yù)測(cè)模型進(jìn)行驗(yàn)證。利用所得規(guī)則開(kāi)發(fā)了職業(yè)發(fā)展決策支持系統(tǒng)。經(jīng)分析驗(yàn)證,優(yōu)化后的ID3算法——基于動(dòng)態(tài)屬性權(quán)值的ID3算法應(yīng)用于解決高職院校學(xué)生職業(yè)發(fā)展預(yù)測(cè)問(wèn)題效果良好,所得結(jié)論可為學(xué)院管理者做出合適的決策有所幫助,進(jìn)一步提升職業(yè)生涯指導(dǎo)工作效果。
參考文獻(xiàn):
[1] 孫麗爽.決策樹(shù)技術(shù)在高校就業(yè)分析系統(tǒng)中的應(yīng)用[D].西安理工大學(xué),2017.
[2] 武文廷.一種基于動(dòng)態(tài)屬性權(quán)值的ID3算法改進(jìn)[J].電腦知識(shí)與技術(shù),2019(2).
[3] 陰亞芳,孫朝陽(yáng).決策樹(shù)算法在實(shí)踐教學(xué)中的應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程,2018(06):1078-1088.
【通聯(lián)編輯:代影】