• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于XGBoost的員工離職預(yù)測及特征分析模型

    2021-05-07 10:44:44王志寧
    關(guān)鍵詞:薪資預(yù)測特征

    王志寧

    (新疆財經(jīng)大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院,新疆烏魯木齊 830001)

    0 引言

    當(dāng)今就業(yè)環(huán)境、人力資源管理策略在科學(xué)技術(shù)發(fā)展的影響下呈現(xiàn)出新特點:一方面,重要人才成為影響企業(yè)核心競爭力、質(zhì)量效益的關(guān)鍵;另一方面,員工離職的影響也在加劇,關(guān)鍵性人才的主動離職會對公司的運營造成損失,也增加了重新招聘及新員工培訓(xùn)的成本。而隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,人力資源策略數(shù)據(jù)化的價值不斷放大?;趩T工情況、薪資等各項指標(biāo)數(shù)據(jù)建立機器學(xué)習(xí)算法模型,預(yù)測員工的離職傾向逐漸成為人力資源管理的新方向[1]。員工離職預(yù)測能協(xié)助管理者提前介入員工的離職意向,調(diào)整管理策略,為保留人才贏得時機,也擴大為員工留任提供解決方案的空間。

    員工離職是人力資源領(lǐng)域的核心問題,有不少學(xué)者針對員工離職問題進行研究[2-4]。而人力資源管理策略數(shù)據(jù)化的不斷發(fā)展,針對員工離職問題的預(yù)測研究也頗受關(guān)注[5],劉婷婷運用C4.5決策樹算法選取IBM分析平臺樣例數(shù)據(jù),建模預(yù)測員工是否離職[6]。張紫君基于GBDT算法研究員工離職的預(yù)測問題,并根據(jù)特征重要性總結(jié)員工離職的影響因素[7]。李強等人結(jié)合Adaboost和Random Forest算法構(gòu)建員工離職預(yù)測模型,取得了高于單一算法模型的預(yù)測準(zhǔn)確性[8]。

    為進一步提高離職預(yù)測模型的性能及可解釋性。本文基于數(shù)據(jù)科學(xué)競賽平臺Kaggle中的員工分析數(shù)據(jù)集,運用XGBoost算法構(gòu)建員工離職預(yù)測模型,與機器學(xué)習(xí)主流算法進行相應(yīng)模型評價指標(biāo)的實驗對比,驗證XGBoost模型的效果,并結(jié)合SHAP方法提升預(yù)測模型的可解釋性,分析員工離職決策的成因。

    1 模型方法

    離職預(yù)測是二分類問題,設(shè)員工數(shù)據(jù)集為X,包含員工的工作滿意程度、相對薪資等特征,Y為目標(biāo)變量,即員工是否離職。基于XGBoost算法構(gòu)建員工離職預(yù)測模型,XGBoost是梯度提升決策樹的改進算法,其完整的目標(biāo)函數(shù)如公式(1)所示,由損失函數(shù)和正則化懲罰項相加而成,正則化項用以控制模型的復(fù)雜度。其中yi為樣本真實值,為預(yù)測值,ft為每一輪迭代所建立的樹模型,最優(yōu)化目標(biāo)函數(shù)即求解出樹結(jié)構(gòu)。集成的基本思想是在每一輪迭代過程中,增加一棵決策樹,使模型的效果能夠提升,過程如公式(2)所示為第t輪迭代模型的預(yù)測值,為前t-1輪的模型預(yù)測,ft(xi) 表示第t輪迭代新加入的樹模型。

    XGBoost利用二階泰勒級數(shù)近似目標(biāo)函數(shù),將目標(biāo)函數(shù)轉(zhuǎn)化為與樹結(jié)構(gòu)直接相關(guān)的形式,在節(jié)點分裂時,預(yù)先按照特征值大小進行特征排序,保存為block結(jié)構(gòu),迭代中會重復(fù)使用這個結(jié)構(gòu),減小計算量;并采用類似分位點選取的方式,僅選出常數(shù)個特征值作為其候選分割點,從候選分割點中選出最優(yōu)的分割點,以實現(xiàn)預(yù)測準(zhǔn)確、運算快速的目標(biāo)。

    2 實驗測試及分析

    本文選用準(zhǔn)確率、F1值和AUC值三項分類算法評價指標(biāo)衡量模型的優(yōu)劣性。是否離職分類結(jié)果混淆矩陣如表1所示。準(zhǔn)確率是指對于給定測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比;F1值是綜合評價指標(biāo),F1值越接近1,表明模型預(yù)測越準(zhǔn)確。準(zhǔn)確率和F1值是由混淆矩陣計算得到??衫没煜仃嚴L制出ROC曲線,AUC值是由該曲線求得。AUC值越大,模型精度越高。準(zhǔn)確率和F1值的計算公式如公式(3)、(4)所示。

    本文所選取數(shù)據(jù)集包含的特征如表2所示,是否離職作為標(biāo)簽。預(yù)處理后的樣本總量為14999,特征總數(shù)為9。將特征變量與目標(biāo)變量輸入模型,劃分訓(xùn)練集與預(yù)測集數(shù)據(jù),建模訓(xùn)練預(yù)測。模型最優(yōu)超參數(shù)組合為:n_estimators=60,learning_rate=0.1,max_depth=5,其余參數(shù)為默認值。將所建立的離職預(yù)測模型與Logistic算法、樸素貝葉斯、支持向量機分類、線性判別分析算法進行相應(yīng)評價指標(biāo)的交叉驗證實驗對比,對比結(jié)果如表3所示。

    表1 分類結(jié)果混淆矩陣Tab.1 Confusion matrix of classification results

    表2 數(shù)據(jù)集特征屬性Tab.2 Data set characteristic attributes

    分析對比實驗結(jié)果,本文建立的XGBoost模型的預(yù)測準(zhǔn)確率為95.6%,F1值為92.8%,AUC值為93.6%,在三項指標(biāo)上,相較于其他四種算法模型,都具有最佳表現(xiàn)。員工是否離職與其相對薪資水平、工作內(nèi)容、滿意度等特征之間存在復(fù)雜的非線性關(guān)系,基于集成方法的XGBoost平衡模型的復(fù)雜度與精確性,并基于貪心算法尋找最佳分裂點,具有優(yōu)越性。

    3 基于SHAP的模型解釋分析

    SHAP以博弈論思想為基礎(chǔ),被廣泛用于解釋復(fù)雜算法。核心是計算特征的歸因值,每個特征計算的歸因值反映該特征影響模型預(yù)測值的程度。歸因值是特征對預(yù)測結(jié)果的作用力,正值表明該特征對模型預(yù)測有提升作用,負值表示該特征對模型預(yù)測構(gòu)成負向作用,模型的預(yù)測值由模型預(yù)測的平均值與每個特征的作用力相加而得。

    表3 模型性能對比結(jié)果Tab.3 Model performance comparison results

    圖1 SHAP特征摘要圖Fig.1 SHAP feature summary diagram

    表4 XGBoost,SHAP算法特征重要度對比Tab.4 XGBoost, SHAP algorithm feature importance comparison

    如圖1所示SHAP摘要圖,根據(jù)每個特征對于員工是否離職的影響程度重要性進行排序繪制,顏色表示特征的具體數(shù)值,越接近紅色,特征數(shù)值越大,越接近藍色,數(shù)值越小;圖中每個點為一個樣本。如表4所示XGBoost特征重要度與SHAP特征重要度排序?qū)Ρ取?/p>

    綜合分析得出,對公司的滿意程度、在公司工作的年數(shù)、同時負責(zé)項目的數(shù)量、平均每月工作時長、相對薪資水平是影響員工離職的關(guān)鍵因素。員工的滿意程度、相對薪資水平越高,離職的可能性越低,符合員工期望的工作內(nèi)容及狀態(tài),能夠滿足員工的認同感與獲得感,并具有不錯的薪資收入水平,是員工在工作崗位上長久、穩(wěn)定付出的重要基礎(chǔ)。工作年數(shù)較短如2至3年的員工,正處在發(fā)展適應(yīng)階段,對于當(dāng)前工作的感受尚未完全,離職的可能性較低;員工在公司工作的年數(shù)越長,越趨于穩(wěn)定,在公司工作7年以上的員工已經(jīng)成為公司中的重要一員,離職可能性也較低。而工作年數(shù)在4至6年的員工,具有跳槽、尋找新工作環(huán)境的潛在傾向,其離職的可能性較大。此外,平均每月工作時長在300小時左右的員工,日常休息時間多被工作所占用,離職的可能性較大。同時負責(zé)項目越多的員工,對于工作的滿意程度越低,員工的工作壓力會受到同時負責(zé)項目數(shù)量的影響,較多的項目帶來的工作壓力較大,占用員工休息時間的可能性更大,員工的離職傾向也越高。

    圖2 SHAP特征交互圖Fig.2 SHAP feature interactive diagram

    SHAP模型不僅可以對樣本特征總體分析,還可以顯示兩個特征的交互作用關(guān)系對于目標(biāo)變量的影響。如圖2所示satisfaction_level(對公司的滿意程度)特征依賴圖為基礎(chǔ),number_project(同時負責(zé)項目的數(shù)量)的特征數(shù)值大小著色表示的特征交互圖。分析發(fā)現(xiàn),同時負責(zé)項目越多的員工,對于工作的滿意程度越低,其離職的可能性較大。員工的工作壓力會受到同時負責(zé)項目數(shù)量的影響,較多的項目帶來的工作壓力較大,占用員工休息時間的可能性更大,員工的離職傾向也越高。

    4 結(jié)語

    人力資源策略管理數(shù)據(jù)化不斷發(fā)展,員工離職預(yù)測問題的研究愈發(fā)重要。本文基于員工分析數(shù)據(jù)集運用XGBoost算法建立離職預(yù)測模型,與Logistic、樸素貝葉斯、支持向量機分類、線性判別分析算法進行相應(yīng)分類算法評價指標(biāo)的實驗對比,并結(jié)合SHAP模型提高可解釋性,分析影響員工離職決策的因素。下一步工作可以考慮增加新特征,進一步提升預(yù)測模型對于員工離職問題的應(yīng)用意義。

    猜你喜歡
    薪資預(yù)測特征
    無可預(yù)測
    黃河之聲(2022年10期)2022-09-27 13:59:46
    選修2-2期中考試預(yù)測卷(A卷)
    選修2-2期中考試預(yù)測卷(B卷)
    不簡單以“住房薪資”引才——遵循“一步一重天”的人才發(fā)展規(guī)律
    如何表達“特征”
    不忠誠的四個特征
    抓住特征巧觀察
    不必預(yù)測未來,只需把握現(xiàn)在
    線性代數(shù)的應(yīng)用特征
    河南科技(2014年23期)2014-02-27 14:19:15
    邵东县| 许昌县| 阳江市| 建始县| 光山县| 辽源市| 云安县| 金秀| 饶阳县| 万安县| 吉水县| 阿瓦提县| 灌阳县| 潜山县| 景泰县| 涿州市| 东源县| 田东县| 鹤庆县| 吉木乃县| 上饶市| 遂平县| 武夷山市| 九寨沟县| 冕宁县| 永宁县| 太仓市| 石狮市| 天等县| 南丹县| 天峨县| 昌宁县| 弋阳县| 土默特右旗| 扬州市| 霸州市| 喀喇沁旗| 信宜市| 罗田县| 柘城县| 高台县|