• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Logistic 回歸與決策樹的員工數(shù)據(jù)可視化與離職預(yù)測研究

      2023-06-21 01:58:54龔建偉張林鋒佘奇根
      關(guān)鍵詞:決策樹準(zhǔn)確度可視化

      龔建偉, 張林鋒, 佘奇根, 于 放

      (北京師范大學(xué)香港浸會(huì)大學(xué)聯(lián)合國際學(xué)院理工科技學(xué)院, 廣東珠海 519087)

      0 引 言

      對于企業(yè)來說,員工離職率高意味著企業(yè)難以留住人才,同時(shí)也給未來的經(jīng)營帶來許多不確定性。究其員工為什么會(huì)離職,以及不同員工的離職概率等,都是企業(yè)不得不面臨的難題。 搞清楚與員工離職有關(guān)的因素不僅可以幫助企業(yè)預(yù)測未來的人力資源變動(dòng)情況與需求,同時(shí)有助于幫助企業(yè)找到員工離職背后的原因。 顯然,員工的離職并不完全是隨機(jī)的,員工的自身情況與工作條件等諸多原因都可能對其離職概率產(chǎn)生影響。 因此,使用機(jī)器學(xué)習(xí)方法對員工離職的概率進(jìn)行研究具有充分的可行性,企業(yè)也可運(yùn)用這些方法來建立員工離職預(yù)警機(jī)制[1-2],這對企業(yè)的長遠(yuǎn)發(fā)展可謂裨益良多。

      早期研究人員依據(jù)歷史數(shù)據(jù)進(jìn)行預(yù)測,往往是將傳統(tǒng)統(tǒng)計(jì)方法用于時(shí)間序列模型當(dāng)中,如ARIMA[3]、多元線性回歸模型等。 后來,研究人員逐漸開始運(yùn)用機(jī)器學(xué)習(xí)算法來對股票等信息進(jìn)行預(yù)測,這些算法相較傳統(tǒng)模型而言效果通常來說要更令人滿意[4]。 離職預(yù)測問題是一個(gè)典型的分類問題,目前已有諸多機(jī)器學(xué)習(xí)算法可以應(yīng)用于此類問題[5],完全可以應(yīng)用于離職預(yù)測當(dāng)中。 雖然有許多算法可以利用,但是不同算法在準(zhǔn)確度和樣本規(guī)模適應(yīng)性等方面各有千秋[6-7]。 目前,已有一些研究者利用XGBoost 算法[8]、隨機(jī)森林[9-10]等方法進(jìn)行了員工離職預(yù)測模型的構(gòu)建,但這些研究大多僅基于一種算法,亦無法給出離職的概率而只能進(jìn)行簡單的是非判斷。 也有一些研究者對不同算法的準(zhǔn)確性進(jìn)行了對比[11],但該研究所對比的模型均使用默認(rèn)參數(shù)而沒有進(jìn)行優(yōu)化,故模型仍有值得改進(jìn)之處。在運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測時(shí),需要警惕過擬合的問題,此類問題可以通過參數(shù)調(diào)優(yōu)來解決[12]。

      1 相關(guān)技術(shù)

      1.1 數(shù)據(jù)可視化

      在實(shí)驗(yàn)正式開始之前,需要運(yùn)用dropna 函數(shù)來清洗實(shí)驗(yàn)數(shù)據(jù),該函數(shù)可以去除數(shù)據(jù)集中含有缺失值的數(shù)據(jù)行,進(jìn)而確保在后續(xù)可視化與用于預(yù)測的數(shù)據(jù)都是有效的。 可視化部分主要借助matplotlib繪圖庫來展示數(shù)據(jù)集的基本信息,該繪圖庫可以用于繪制餅狀圖、條形圖等圖片。 完成基本的可視化之后,為了進(jìn)一步判斷不同因素與離職之間的相關(guān)性大小,實(shí)驗(yàn)運(yùn)用了DataFrame 內(nèi)建的corr 函數(shù),該函數(shù)可以用于計(jì)算不同數(shù)據(jù)之間的相關(guān)系數(shù)。 為了更加直觀地看出不同因素與離職之間相關(guān)系數(shù)的正負(fù)與大小如何,實(shí)驗(yàn)同樣以可視化的形式展示了相關(guān)系數(shù)的條形圖。

      1.2 離職預(yù)測

      在預(yù)測部分,首先以Logistic 回歸方法對員工離職與否進(jìn)行了預(yù)測,該方法的特色在于可以給出員工離職的概率。 通過測試可以得到Logistic 回歸的準(zhǔn)確率和ROC曲線、AUC值等指標(biāo),這些指標(biāo)可以用于判斷模型的優(yōu)良程度。 憑借搭建好的Logistic回歸模型,可以構(gòu)建根據(jù)員工個(gè)人信息來預(yù)測離職概率的模塊。 隨后,實(shí)驗(yàn)使用sklearn 庫中的多種分類器對員工離職與否進(jìn)行了預(yù)測,測試了K 近鄰算法、決策樹、隨機(jī)森林、極度決策樹、梯度提升分類器、AdaBoostClassifier 和支持向量分類器等多種模型的準(zhǔn)確率,最終采用其中預(yù)測準(zhǔn)確度最高的模型,以構(gòu)建判斷員工是否會(huì)離職的預(yù)測模塊。

      2 數(shù)據(jù)可視化

      2.1 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)所選硬件環(huán)境為16GB 計(jì)算機(jī)內(nèi)存,Windows10 64 位1909 版操作系統(tǒng),搭載有Intel Xeon E3-1231v3 3.4 GHz 處理器與GTX960 顯卡;軟件環(huán)境為基于Python3.6 編程語言的sklearn 機(jī)器學(xué)習(xí)庫中集成的linear_model 與K 近鄰算法、決策樹等模型。

      2.2 數(shù)據(jù)集

      2.2.1 數(shù)據(jù)集導(dǎo)入

      實(shí)驗(yàn)數(shù)據(jù)來源于kaggle 上一份某印度公司的人力資源部門提供的約有四千余條數(shù)據(jù)的數(shù)據(jù)集,其主要內(nèi)容包括員工的個(gè)人信息有:教育程度、入職年份、所在城市、收入水平、年齡、性別、是否被冷落過、工作經(jīng)驗(yàn)以及未來兩年內(nèi)離職與否等。

      將數(shù)據(jù)集導(dǎo)入之后,通過head 函數(shù)可以觀察到數(shù)據(jù)集所包含的內(nèi)容,如圖1 所示。

      圖1 數(shù)據(jù)集基本情況Fig. 1 Dataset overview

      2.2.2 數(shù)據(jù)可視化分析

      為了更加直觀地了解員工的大體狀況,調(diào)用matplotlib.pyplot 對員工的基本信息進(jìn)行了可視化。圖2 為員工入職時(shí)間的可視化展示,其它針對工作經(jīng)驗(yàn)、學(xué)歷等方面的展示大體相同,故不再贅述。

      圖2 員工入職年份的可視化Fig. 2 Visualization of the joining year of employees

      基本的可視化完成之后,通過value_counts 函數(shù)計(jì)量了根據(jù)不同要素劃分的員工群體離職比例,以觀察哪些群體的員工更有離職的可能。 圖3 中的百分比均通過round 函數(shù)保留小數(shù)點(diǎn)后兩位,每個(gè)群體標(biāo)題之后所跟的百分比為該群體在整體員工中所占比例。

      圖3 根據(jù)學(xué)歷或者地區(qū)劃分的不同群體員工離職比例Fig. 3 Turnover ratio of employees in different groups by education background or region

      通過數(shù)據(jù)可視化可以看出,員工的離職并非完全隨機(jī),不同群體的員工離職率確有顯著差異。 通常情況下,人們會(huì)認(rèn)為學(xué)歷越高的員工工作會(huì)更加穩(wěn)定,因?yàn)檫@意味著他們的專業(yè)技術(shù)水平更高,但數(shù)據(jù)集展現(xiàn)出的情況并非如此。 究其原因,可能是碩士學(xué)歷持有者在求職市場中屬于相對較為稀少的高級人才,同時(shí)也是企業(yè)高級人才構(gòu)成的中堅(jiān)力量,在就業(yè)市場非常受歡迎。 不僅如此,碩士學(xué)歷持有者的年齡往往也更年輕,相比博士學(xué)歷者更有優(yōu)勢,因此其可能會(huì)選擇跳槽來換取更高的待遇。 本科學(xué)歷的員工跳槽不一定能有更好待遇,所以離職的會(huì)更少;博士學(xué)歷者屬于稀缺人才(占比不到4%),公司對其待遇和許諾的前途都會(huì)更好,所以離職率也會(huì)偏低。 當(dāng)然,年齡同樣也是一個(gè)影響因素,博士畢業(yè)者大多在三十歲左右,其年齡上沒有什么優(yōu)勢可言,跳槽的風(fēng)險(xiǎn)也可能更大,這對離職率亦有影響。

      在地區(qū)方面,實(shí)驗(yàn)選取的數(shù)據(jù)集中的員工分布于3 個(gè)城市,其中新德里(印度首都)是2 500萬人口規(guī)模的城市,班加羅爾(印度第三大城市)約1 000萬人口規(guī)模的城市,浦那(印度西部城市)則是約500萬人口規(guī)模的城市。 可以發(fā)現(xiàn),人口規(guī)模最小的城市離職率最高,新德里的員工離職率相對偏高,而人口規(guī)模處于中位城市的員工離職率最低。 究其原因,城市的人口規(guī)模小可能意味著該地薪資水平不高、工作環(huán)境不好、未來發(fā)展受限等;但大城市往往也伴隨著高生活成本、日常通勤時(shí)間長、競爭激烈等問題,這都會(huì)帶來一定的壓力,所以人口規(guī)模適中的城市離職率反而最低。

      地區(qū)和學(xué)歷已被證實(shí)對離職概率有顯著影響,故實(shí)驗(yàn)進(jìn)一步繪制了根據(jù)性別和是否被冷落過劃分的員工群體離職狀況,如圖4 所示。

      圖4 不同群體員工離職比例Fig. 4 Turnover ratio of employees in different groups

      2.2.3 相關(guān)系數(shù)可視化

      上述數(shù)據(jù)可視化結(jié)果僅能證明了員工自身與周圍的諸多因素對離職與否有影響,并不能證明影響的程度如何,不同因素對離職的影響大小仍需以相關(guān)系數(shù)的形式展現(xiàn)。 為了計(jì)算相關(guān)系數(shù),實(shí)驗(yàn)對數(shù)據(jù)集中的文本信息進(jìn)行了賦值,即對不同學(xué)歷、不同地區(qū)分別按照一定順序(如:學(xué)歷從低到高)賦值1、2、3 等,隨后計(jì)算了相關(guān)系數(shù)矩陣,并用matplotlib.pyplot 繪制了其他因素與離職與否的相關(guān)系數(shù),如圖5 所示。

      圖5 不同因素與離職與否的相關(guān)系數(shù)Fig. 5 Correlation coefficient between different factors and turnover

      3 離職預(yù)測

      3.1 基于Logistic 回歸的離職概率預(yù)測

      Logistic 回歸是一種經(jīng)典的預(yù)測方法,其原理是將線性回歸的結(jié)果帶入Sigmoid 函數(shù),從而使連續(xù)變量轉(zhuǎn)換為0 ~1 區(qū)間的一個(gè)概率值。 當(dāng)概率大于0.5 時(shí),樣本歸為正,當(dāng)概率小于0.5 時(shí),樣本歸為負(fù)[13]。 這一特性意味著邏輯回歸模型可以被用于概率預(yù)測。 Sigmoid 函數(shù)如式(1)所示:

      實(shí)驗(yàn)調(diào)用了sklearn.linear_model 來進(jìn)行Logistic回歸,并將數(shù)據(jù)集的前3 000條數(shù)據(jù)作為訓(xùn)練集,剩余數(shù)據(jù)作為測試集。 為了便于訓(xùn)練,在訓(xùn)練之前需要將數(shù)據(jù)集中的文本信息轉(zhuǎn)換為數(shù)字。 由于年齡與加入年份的數(shù)據(jù)與其他類型數(shù)據(jù)有較大偏差,故在Logistic 回歸時(shí)僅選擇教育程度、收入水平、城市、性別、工作經(jīng)驗(yàn)以及是否被冷落過6 項(xiàng)來進(jìn)行預(yù)測。對于Logistic 回歸模型來說,ROC曲線與AUC值是相當(dāng)重要的指標(biāo),如果得出的AUC值小于等于0.5,則說明預(yù)測并不可行。 因此,實(shí)驗(yàn)用sklearn.metrics繪制了ROC曲線,如圖6 所示。

      圖6 Logistic 回歸模型的ROC 曲線與AUC 值Fig. 6 ROC curve and AUC value of logistic regression model

      Logistic 回歸模型的AUC值越接近1 則說明模型越優(yōu)秀[14],0.67 左右這個(gè)數(shù)值只能說是差強(qiáng)人意,但仍有利用價(jià)值。 通過.predict()方法與進(jìn)一步計(jì)算實(shí)驗(yàn)發(fā)現(xiàn),Logistic 回歸模型的準(zhǔn)確率為72.96%。準(zhǔn)確率不高的原因可能與數(shù)據(jù)集本身的內(nèi)容有一定關(guān)聯(lián)。 此外,將入職年份排除在模型之外,也可能對Logistic 回歸的準(zhǔn)確率造成了相當(dāng)大的影響,因?yàn)閺南嚓P(guān)系數(shù)來看,入職年份與離職與否之間存在相當(dāng)大的相關(guān)性。 在Logistic 回歸模型訓(xùn)練完成之后,僅需將數(shù)值替換為需要輸入的內(nèi)容即可構(gòu)建員工離職概率預(yù)測模塊,如圖7 所示。

      圖7 基于Logistic 回歸的員工離職概率預(yù)測模塊Fig. 7 Prediction of turnover probability based on logistic regression

      在圖7 中,用戶輸入了一名碩士學(xué)歷、在班加羅爾工作、高薪資水平、男性、沒有被冷落過、三年工作經(jīng)驗(yàn)的員工信息,基于Logistic 回歸的預(yù)測模塊給出了該員工離職的概率為29.64%。 由此可見,模型僅需輸入員工的相關(guān)信息即可給出該員工的離職概率,若有更多用于訓(xùn)練的數(shù)據(jù),則準(zhǔn)確度也可進(jìn)一步提高,說明該模型具有較高的實(shí)用價(jià)值。 在現(xiàn)實(shí)生活當(dāng)中,員工的信息可能更為多元,但預(yù)測的原理是一致的,故預(yù)測模型的可遷移性亦有保證。

      3.2 基于機(jī)器學(xué)習(xí)算法的員工離職預(yù)測

      3.2.1 模型對比

      Sklearn 庫中有許多模型可供使用,這些模型大多屬于分類器,無法給出離職概率,只能針對員工離職與否進(jìn)行分類判斷。 在此測試中,將數(shù)據(jù)集中90%劃分為訓(xùn)練集,10%劃分為測試集,random_state設(shè)置為39。 實(shí)驗(yàn)共對7 種模型進(jìn)行了測試,下面是對KNN 模型的測試。

      在正式測試KNN 模型之前,需要針對不同K值(即臨近鄰居的數(shù)量)進(jìn)行測試以選擇最優(yōu)化的結(jié)果。 圖8 中的測試結(jié)果表明,K=11 時(shí)的KNN 模型具有最佳的準(zhǔn)確率(81.55%)。 這一準(zhǔn)確率高于Logistic 回歸,同時(shí)也為調(diào)優(yōu)后的結(jié)果,在對其他模型進(jìn)行測試時(shí),也會(huì)采取類似的調(diào)優(yōu)操作。

      圖8 不同K 值的KNN 模型錯(cuò)誤率Fig. 8 KNN model error rate with different K values

      以決策樹模型為例,在未調(diào)優(yōu)時(shí),測試結(jié)果如圖9 所示,準(zhǔn)確度約為85.2%。

      圖9 未調(diào)優(yōu)時(shí)決策樹的測試結(jié)果Fig. 9 Test results of decision tree without tuning

      對于決策樹模型來說, max_depth(樹的最大深度)、min_samples_leaf(葉節(jié)點(diǎn)必須有的最小樣本數(shù)量)和min_samples_split(前節(jié)點(diǎn)允許分裂的最小樣本數(shù))3 個(gè)參數(shù)的設(shè)置會(huì)對準(zhǔn)確度產(chǎn)生明顯的影響,如果設(shè)置不當(dāng)?shù)脑?,?zhǔn)確度反而會(huì)下降。 如:將參數(shù)設(shè)置為max_depth =8、min_samples_leaf =2、min_samples_split=7 時(shí),測試結(jié)果如圖10 所示,準(zhǔn)確度約為84.8%,這一結(jié)果甚至要劣于未調(diào)優(yōu)的決策樹模型。

      圖10 調(diào)優(yōu)失敗時(shí)決策樹的測試結(jié)果Fig. 10 Test results of decision tree when tuning fails

      為了找到合適的調(diào)優(yōu)參數(shù),實(shí)驗(yàn)利用網(wǎng)格搜索法(GridSearchCV)來尋找最優(yōu)的調(diào)優(yōu)參數(shù),該方法分為網(wǎng)格搜索和交叉驗(yàn)證兩部分,能夠在驗(yàn)證集上找到準(zhǔn)確度最高的參數(shù)。 最終的調(diào)優(yōu)參數(shù)尋找結(jié)果如圖11 所示。

      圖11 利用網(wǎng)格搜索法尋找調(diào)優(yōu)參數(shù)Fig. 11 Use GridSearchCV to find tuning parameters

      將參數(shù)max_depth =10、min_samples_leaf =3、min_samples_split=7 輸入模型后,測試可得該決策樹模型的準(zhǔn)確度約為87.3%。 在相同的實(shí)驗(yàn)環(huán)境下,進(jìn)一步測試了其他幾種模型,測試結(jié)果如圖12所示。 通過對比發(fā)現(xiàn),調(diào)優(yōu)后的決策樹模型有著最高的準(zhǔn)確度,因此實(shí)驗(yàn)最終選擇了該模型。

      圖12 七種分類器的測試結(jié)果Fig. 12 Test results of seven classifiers

      3.2.2 預(yù)測模塊

      由于設(shè)置調(diào)優(yōu)參數(shù)后的決策樹模型具有最高的準(zhǔn)確率,因此實(shí)驗(yàn)基于該決策樹模型搭建了能夠根據(jù)員工個(gè)人信息來判斷員工是否會(huì)離職的模塊,如圖13 所示。

      圖13 基于決策樹的員工離職與否預(yù)測Fig. 13 Prediction of employee turnover with decision tree

      當(dāng)用戶輸入了一名碩士學(xué)歷、2017 年入職、在浦那工作、中等薪資水平、25 歲、女性、被冷落過、1年工作年限的員工,預(yù)測模塊隨即給出了預(yù)測結(jié)果:該員工會(huì)離職。 由此可見,該模型在測試集上有著較高的準(zhǔn)確度,因此具有一定的應(yīng)用價(jià)值。

      4 結(jié)束語

      為了搭建員工離職預(yù)測模型,實(shí)驗(yàn)首先將數(shù)據(jù)集可視化,以探究與離職有關(guān)的種種影響因素;然后運(yùn)用Logistic 回歸與優(yōu)化后的決策樹模型搭建了員工離職預(yù)測模塊,分別給出了離職的概率與是否離職的二分類預(yù)測。 在多種機(jī)器學(xué)習(xí)算法的對比當(dāng)中,實(shí)驗(yàn)對這些模型進(jìn)行了調(diào)優(yōu),這意味著對比更加科學(xué),且最終準(zhǔn)確率也更高。 本實(shí)驗(yàn)的美中不足在于Logistic 回歸模型的準(zhǔn)確率相對不高,未來研究可考慮對模型進(jìn)一步改進(jìn),將入職年份等與離職有較強(qiáng)相關(guān)性的因素納入模型當(dāng)中,這對進(jìn)一步提升模型的準(zhǔn)確度會(huì)有所幫助。

      猜你喜歡
      決策樹準(zhǔn)確度可視化
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      基于CGAL和OpenGL的海底地形三維可視化
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
      建筑科技(2018年6期)2018-08-30 03:40:54
      基于決策樹的出租車乘客出行目的識(shí)別
      動(dòng)態(tài)汽車衡準(zhǔn)確度等級的現(xiàn)實(shí)意義
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      油尖旺区| 桂平市| 原平市| 凌云县| 临安市| 宁安市| 江永县| 贵德县| 新绛县| 罗源县| 菏泽市| 德昌县| 桐梓县| 高台县| 肃北| 娱乐| 白城市| 交口县| 洛川县| 迭部县| 锦屏县| 丰都县| 丽江市| 措勤县| 珠海市| 新安县| 桐庐县| 平南县| 台中市| 新巴尔虎右旗| 青田县| 涿鹿县| 巫山县| 阿拉善右旗| 通州区| 汉川市| 秦皇岛市| 天峻县| 沂水县| 德令哈市| 天津市|