宋 夏
(淮北職業(yè)技術(shù)學院 建筑工程系,安徽 淮北 235000)
爬蟲算法在淮北職業(yè)技術(shù)學院就業(yè)指導系統(tǒng)中的應用研究
宋 夏
(淮北職業(yè)技術(shù)學院 建筑工程系,安徽 淮北 235000)
目前,由于高校擴招,高校畢業(yè)生逐年增加,就業(yè)難的問題逐漸凸顯?;幢甭殬I(yè)技術(shù)學院每年面臨20%的學生難就業(yè)的問題。另外,該校的就業(yè)指導系統(tǒng)不完善,無法滿足就業(yè)處進行就業(yè)預測,制定科學就業(yè)指導方案的需要。運用決策樹算法構(gòu)建就業(yè)分析模型,并進行進一步的驗證,可以改進就業(yè)指導系統(tǒng),提高就業(yè)指導工作效率。
爬蟲技術(shù);就業(yè)指導系統(tǒng);決策樹算法
海量信息的涌現(xiàn)和科學技術(shù)的不斷進步,越來越多的行業(yè)開始運用爬蟲技術(shù)進行數(shù)據(jù)挖掘。網(wǎng)絡爬蟲也叫網(wǎng)絡蜘蛛,是一個從互聯(lián)網(wǎng)中自動抓取網(wǎng)頁的程序。[1]2016年高效畢業(yè)生人數(shù)達到765萬,大學生就業(yè)壓力大、找工作難成為一大困境。[2]對于高校來說,畢業(yè)學生信息數(shù)據(jù)龐大,利用簡單的搜索、查詢難以滿足大量信息的處理需要。爬蟲技術(shù)能夠按照一定的順序爬取相關(guān)的信息,并且能夠?qū)λ鸭男畔⑦M行數(shù)據(jù)處理。因此,很多高校也在逐漸引進數(shù)字挖掘技術(shù)并運用到學校的日常管理工作中,利用數(shù)字挖掘技術(shù)有針對性地分析學生和用人單位的信息,為高效人才培養(yǎng)計劃的制定提供數(shù)據(jù)支持。目前,數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,爬蟲策略的廣泛應用,相關(guān)研究人員開發(fā)了一系列的算法。其中,決策樹算法能夠?qū)崿F(xiàn)對于數(shù)據(jù)的自動歸類,以樹形的形態(tài)進行呈現(xiàn)。該算法具備其他算法所不具有的直觀性、易學性以及快速性等優(yōu)點。利用決策樹算法進行數(shù)據(jù)預測,可以幫助高職畢業(yè)生規(guī)避就業(yè)風險,正確認識自身價值,同時能夠為高校專業(yè)設置、培養(yǎng)方案制定以及就業(yè)指導提供科學的依據(jù)。[3]
淮北職業(yè)技術(shù)學院是1999年7月經(jīng)國家教育部批準的公辦全日制普通高等學校。學院高度重視畢業(yè)生就業(yè)工作,以社會就業(yè)形勢為風向標,以人才的高質(zhì)量輸出為己任,對于學生的實習、技能培訓以及就業(yè)指導等提供全方位的支持和幫助,為學生高質(zhì)量就業(yè)創(chuàng)造良好的條件。盡管淮北職業(yè)技術(shù)學院的就業(yè)工作取得了很大的進展,但是由于各種主客觀原因的影響,每年仍有20%以上同學處于待就業(yè)或者“慢就業(yè)”狀態(tài)。
1.1 淮北職業(yè)技術(shù)學院就業(yè)情況
1.1.1 畢業(yè)生概況
淮北職業(yè)技術(shù)學院2016屆畢業(yè)生共有3067人,其中高職(統(tǒng)招)畢業(yè)生人數(shù)2892人,中專部(“3+2”及五年一貫制)畢業(yè)生人數(shù)175人,分屬41專業(yè)。2016屆畢業(yè)生男女比例約為1:1.47,女生人數(shù)偏多,主要集中在適合女生性別優(yōu)勢的專業(yè),如護理、空乘、財會、服裝等,這些專業(yè)所在系部的招生規(guī)模也比較大。該院畢業(yè)生以漢族生源居多且多為省內(nèi)生源,省內(nèi)省外比例約為59:1,省內(nèi)生源以淮北市生源最多,占省內(nèi)生源的36.77%,淮北與省內(nèi)其他城市生源比例約為1:1.72,省內(nèi)其他城市的生源也多為淮北周邊城市,如宿州、亳州、阜陽等。由此可見,淮北職業(yè)技術(shù)學院生源多來自以院校所在地——淮北為核心的皖北地區(qū)。2016屆畢業(yè)生具體情況如表1所示。
表1 2016屆畢業(yè)生概況
1.1.2 畢業(yè)生就業(yè)情況
截至2016年12月底,淮北職業(yè)技術(shù)學院2016屆已就業(yè)畢業(yè)生為2685人,就業(yè)率為87.54%。2016屆畢業(yè)生流向主要集中在衛(wèi)生和社會工作、制造業(yè)、居民服務、修理和其他服務業(yè)、建筑業(yè)、信息傳輸、軟件和信息技術(shù)服務業(yè)等行業(yè),充分體現(xiàn)出學院以機械制造、金融商貿(mào)、電子信息等作為主干專業(yè)的特點。畢業(yè)生所從事的職業(yè)多為各類技術(shù)人員、業(yè)務人員、服務人員和操作人員;所從業(yè)的單位也多為城鎮(zhèn)社區(qū)、中小微企業(yè)等,與畢業(yè)生專業(yè)和學歷相吻合,充分體現(xiàn)國家對職業(yè)院校畢業(yè)生面向基層就業(yè)的號召。但由于各種主客觀原因,有20%以上同學處于待就業(yè)或者“慢就業(yè)”狀態(tài)。其中非困難生的就業(yè)率要低于困難生的就業(yè)率,占87.27%。
1.2 淮北職業(yè)技術(shù)學院學生就業(yè)存在的問題
第一,對于就業(yè)指導老師而言,信息采集工作困難,就業(yè)指導系統(tǒng)落后,缺乏先進的數(shù)據(jù)挖掘技術(shù)來提高就業(yè)指導工作的效率。
第二,對于學生本身而言,很多學生好高騖遠、眼高手低,對工作標準要求過高,難以溝通疏導。
面對學生的信息采集工作費時費力的現(xiàn)狀,就業(yè)指導老師很難通過人工采集的方式來全面搜集學生的信息,也無法精確地為學生匹配相應的崗位信息。因此,需要借助于有針對性、高效的計算機技術(shù)建立高效的就業(yè)信息服務平臺來解決“慢就業(yè)”和“難就業(yè)”問題。
2.1 數(shù)據(jù)挖掘的決策樹技術(shù)
決策樹方法是數(shù)據(jù)挖掘的核心技術(shù)之一。[4]作為一種預測模型,該算法能夠呈現(xiàn)對象屬性和對象值之間的對應聯(lián)系。在決策樹模型當中,節(jié)點代表對象,分叉代表對應的對象值,葉節(jié)點所關(guān)聯(lián)的是從根節(jié)點到葉節(jié)點對應的對象值。決策樹是數(shù)據(jù)挖掘技術(shù)中的一種典型的技術(shù),不僅能夠?qū)?shù)據(jù)進行分析,還可以通過數(shù)據(jù)分析進行預測。
2.2 C5.0算法
C5.0決策樹算法是從跟節(jié)點不斷地分枝生長,該根節(jié)點包含了所有訓練集數(shù)據(jù),并最終將所有訓練集數(shù)據(jù)歸到某一葉節(jié)點。該算法中,最為關(guān)鍵的問題是選取最佳的分類變量與切分點。
在經(jīng)典的ID3決策樹算法中,最佳分類變量是根據(jù)信息增益來選取的。信息增益即是信息熵,用來衡量系統(tǒng)的不確定性大小,信息增益越大,即信息熵越小,表明系統(tǒng)不確定性越低,反之,信息增益越小,則信息熵越大,表明系統(tǒng)不確定性越高。所以,在構(gòu)建決策樹的時候如果選取某一分類變量時使得相應的信息增益率增大,則表明分類與預測效果越好。在本章節(jié)的研究中,采用C5.0算法來構(gòu)建決策樹的時候便是依據(jù)信息增益率來確定最優(yōu)的分類變量。信息增益率的數(shù)學公式如下:
其中,InfoGainRation(A)即是決策樹的信息增益率,而InfoGain(A)即是決策樹的信息增益。一般來說,信息增益難以評估決策樹分類變量選取的優(yōu)劣,主要是因為容易受到分組變量劃分數(shù)目的影響與干擾,如當類目數(shù)增加時會導致信息增益增加,影響分組變量選取的正確性。因此,本文中選取信息增益率來代替信息增益,保證分組變量的選取更加準確。
同分組變量的選取一樣,劃分點的選取也依據(jù)信息增益率。由于C5.0算法生成的是二叉樹,所以優(yōu)化劃分點的選取時將數(shù)據(jù)一分為二。在構(gòu)建決策樹的過程中,計算不同的分類變量與切分點組合下的信息增益率,并將信息增益率取最大值的分類變量與切分點視作最優(yōu)。
2.3 就業(yè)分析模型構(gòu)建與結(jié)果分析
用C5.0算法進行分析要經(jīng)過三個環(huán)節(jié),首先是數(shù)據(jù)的選取階段,然后就業(yè)分析模型構(gòu)建,最后對模型加以驗證,對結(jié)果進行評估。
2.3.1 數(shù)據(jù)選取
數(shù)據(jù)準備階段比較重要,因為數(shù)據(jù)的質(zhì)量會最終影響模型的構(gòu)建及結(jié)果的輸出。在大學生就業(yè)分析模型中,選取淮北職業(yè)技術(shù)學院3年來共計12450名畢業(yè)生的相關(guān)數(shù)據(jù)信息作為研究樣本。
但是,在學校教學管理系統(tǒng)的就業(yè)管理模塊中存儲的原始數(shù)據(jù)的維度屬性太多??紤]到不相關(guān)屬性約簡與冗余屬性約簡,最后選取了畢業(yè)生的個人基本情況、在校表現(xiàn)以及就業(yè)意向三個方面的16個屬性,包括性別、政治情況、專業(yè)分數(shù)、期望月薪、就業(yè)單位性質(zhì)等。其中,以就業(yè)單位類型為標識屬性,剩下的則是決策屬性。屬性名和對應類型如表2所示:
表2 屬性名以及類型
屬性名類型類別離散值所學專業(yè)名離散值所學專業(yè)分數(shù)連續(xù)值家庭經(jīng)濟狀況離散值身高連續(xù)值特長離散值學校職務離散值獎勵離散值技能證書離散值就業(yè)意向離散值期望月薪連續(xù)值就業(yè)地區(qū)離散值就業(yè)單位類型離散值
其中,部分樣本數(shù)據(jù)如表3所示:
表3 部分樣本數(shù)據(jù)集
由于樣本數(shù)據(jù)無法直接用來建模,還需要進行相應的預處理,即數(shù)據(jù)離散化與分層處理,主要采用分箱、直方圖分析以及直觀劃分等。對專業(yè)分數(shù)、身高、期望月薪三個屬性進行離散化處理后,結(jié)果如表4至表6示:
表4 專業(yè)分數(shù)離散化處理
表5 身高離散化處理
表6 期望月薪離散化處理
而對于其他屬性則按期不同類別來賦予相應的標簽化數(shù)值,如表7至表9所示:
表7 就業(yè)單位性質(zhì)離散化處理
表8 個人特長離散化處理
表9 政治面貌離散化處理
采取上述方法對數(shù)據(jù)進行處理化之后,即轉(zhuǎn)化為計算機語言可以識別的知識,其中部分樣本數(shù)據(jù)經(jīng)過數(shù)據(jù)處理之后如表10所示:
表10 離散化處理后的部分樣本數(shù)據(jù)集
2.3.2 就業(yè)分析模型
本實驗旨在通過升級后的決策樹算法對于就業(yè)單位類型進行預測,接著對該預測模型加以測試,查看其是否準確。實驗主要有三個步驟:第一,構(gòu)建就業(yè)單位類型預測模型;第二,對比預測結(jié)果與實際的樣本數(shù)據(jù);第三,對預測結(jié)果進行分析。其中,將12450名畢業(yè)生的相關(guān)數(shù)據(jù)分為兩份,8300份為訓練數(shù)據(jù)集,用來學習與構(gòu)建決策樹,而4150份為測試數(shù)據(jù)集,用來評估模型的準確率。
由于樣本數(shù)據(jù)維度比較大,所構(gòu)建的決策樹分支較多,不能一一羅列,所以這里將以專業(yè)成績?yōu)榻Y(jié)點的分支為例,對其挖掘的結(jié)果進行分析。其中,該決策樹分支如圖1所示:
圖1 決策樹部分分支結(jié)構(gòu)
現(xiàn)將上述決策樹得到的推理結(jié)果轉(zhuǎn)換為IF…THEN的形式,其中部分結(jié)果如下所示:
IF“專業(yè)分數(shù)=優(yōu)” and “所學專業(yè)名=生物工程”and“獎勵=國家獎學金”THEN“讀書深造”。
IF“專業(yè)分數(shù)=優(yōu)” and “所學專業(yè)名=生物工程”and “獎勵=無” and “個人特長=文藝” THEN “事業(yè)單位”。
IF“專業(yè)分數(shù)=優(yōu)” and “所學專業(yè)名=生物工程”and “獎勵=無” and “個人特長=無” and “技能證書=無” THEN“私營企業(yè)”。
IF“專業(yè)分數(shù)=中” and “所學專業(yè)名=計算機” and “期望月薪=6000以上” THEN “私營企業(yè)”。
IF“專業(yè)分數(shù)=中” and “所學專業(yè)名=計算機” and “期望月薪=6000以上”and “就業(yè)意向=區(qū)內(nèi)”THEN “私營企業(yè)”。
IF“專業(yè)分數(shù)=中” and “所學專業(yè)名=計算機” and “期望月薪=3500-4000” and “就業(yè)意向=區(qū)內(nèi)” THEN “國有企業(yè)”。
IF“專業(yè)分數(shù)=中” and “所學專業(yè)名=汽車服務” and “學校職務=無” and “就業(yè)意向=區(qū)內(nèi)” THEN “國有企業(yè)”。
IF“專業(yè)分數(shù)=中” and “所學專業(yè)名=汽車服務” and “學校職務=無” and “就業(yè)意向=區(qū)內(nèi)” THEN “合資企業(yè)”。
通過對決策樹所提供的規(guī)則進行深入分析,能對學生的就業(yè)規(guī)律有清晰的認識,如專業(yè)成績優(yōu),在校期間獲得過國家獎學金,則多為選擇升學深造;若成績?yōu)榱蓟蛘咧校瑢I(yè)偏理科,就業(yè)意向為區(qū)內(nèi),則大部分選擇公務員或者事業(yè)單位;若專業(yè)成績中等,專業(yè)為工科,在校期間擔任過學生干部,則多數(shù)選擇了國有企業(yè);若專業(yè)為計算機,意向月薪為6000以上,就業(yè)意向為區(qū)內(nèi),則多數(shù)選了私營企業(yè)等等。
同時從相關(guān)規(guī)則的分析中可以發(fā)現(xiàn),影響學生就業(yè)單位選擇的關(guān)鍵外因在于學生的專業(yè)分數(shù)、所學專業(yè)名、獎勵、學校職務、就業(yè)意向、意向月薪等。所以,對于學生的就業(yè)率和就業(yè)質(zhì)量的提高,高校應著重培養(yǎng)學生的專業(yè)技能,并對學生的就業(yè)觀念加以引導。
2.3.3 結(jié)果評估
在上述決策樹模型與相應的推理規(guī)則之后,為了驗證其有效性與準確性,我們采用之前劃分出來的測試集樣本對上述模型進行測試。在這里用預測準確率來衡量算法的優(yōu)劣,其中預測準確率=對比結(jié)果一致的樣本數(shù)/測試集總樣本數(shù)。首先,將得到的部分預測分類結(jié)果和實際就業(yè)結(jié)果進行對比,具體情況如表11所示:
表11 部分預測結(jié)果與實際結(jié)果對比表
從上面部分測試結(jié)果來看,十位學生就業(yè)單位預測中有8位是正確的,2位為預測錯誤。此外,統(tǒng)計所有測試數(shù)據(jù)集的預測結(jié)果與實際結(jié)果,其中4150個樣本數(shù)據(jù)中預測準確的共計3527,預測錯誤的是598,即模型的準確率為84.9%(表12):
表12 就業(yè)預測模型準確率
根據(jù)上面的驗證結(jié)果,發(fā)現(xiàn)所構(gòu)建的學生就業(yè)分析模型準確度較高,具有非常大的參考價值,能夠為指導大學生進行職業(yè)規(guī)劃提高決策支持。
隨著爬蟲的研究不斷深入,爬行策略與算法也在不斷完善,爬蟲技術(shù)對于收集信息方面的應用也日趨廣泛。[5-6]利用決策樹算法能夠提高爬蟲程序的爬取準確率。[7]本文結(jié)合了淮北職業(yè)技術(shù)學院的就業(yè)現(xiàn)狀,運用決策樹算法創(chuàng)建大學生就業(yè)分析模型,并以大學生成績與就業(yè)信息為數(shù)據(jù)來源進行實證研究,驗證了模型的有效性。通過該算法能夠分析出專業(yè)分數(shù)、獎勵、就業(yè)意向等因素對于學生的就業(yè)選擇的影響最大,因此能夠為高校招生就業(yè)處工作人員提供就業(yè)指導依據(jù),提高就業(yè)指導決策的效率,促進學生就業(yè)率的提升。
[1] 田俊. 淺談主題網(wǎng)絡爬蟲關(guān)鍵技術(shù)[J]. 天津職業(yè)院校聯(lián)合學報,2017(3):78-85.
[2] 韓冰. 基于數(shù)據(jù)挖掘的就業(yè)困難學生認定研究[J]. 中國大學生就業(yè),2017(1):44-50.
[3] 王彥新,王紅. 用大數(shù)據(jù)助推高職畢業(yè)生就業(yè)難題化解的研究[J]. 辦公自動化,2016(7):26-28.
[4] 劉哲,趙志剛. 數(shù)據(jù)挖掘技術(shù)在大學生就業(yè)分析中的實證研究[J]. 沈陽師范大學學報(自然科學版),2016(1):105-108.
[5] 于娟,劉強. 主題網(wǎng)絡爬蟲研究綜述[J]. 計算機工程與科學,2015(2):231-237.
[6] Houqing Lu,Donghui Zhan,Lei Zhou,etc.An Improved Focused Crawler:Using Web Page Classification and Link Priority Evaluation[J].Mathematical Problems in Engineering,2016(3).
[7] Ali Seyfi,Ahmed Patel,Joaquim Celestino Júnior. Empirical evaluation of the link and content-based focused Treasure-Crawler[J]. Computer Standards & Interfaces,2016(44).
責任編輯:何玉付
2017-07-01
宋夏(1987—),女,安徽淮北人,助教,研究方向:計算機應用技術(shù)。
TP315;G718.5
:A
:1671-8275(2017)05-0136-05