張樹瑜, 王 秀
(1.上海航天控制技術(shù)研究所, 上海 201109; 2.上海市微型電腦應(yīng)用學(xué)會, 上海 200030)
?
基于云關(guān)聯(lián)的企業(yè)隱性社會責(zé)任對離職傾向影響的研究
張樹瑜1, 王 秀2
(1.上海航天控制技術(shù)研究所, 上海 201109; 2.上海市微型電腦應(yīng)用學(xué)會, 上海 200030)
從企業(yè)隱性社會責(zé)任提取對離職傾向影響因素的權(quán)重和順序是人力資源管理大數(shù)據(jù)研究的一項重要工作。在云模型的基礎(chǔ)上給出一種改進的云關(guān)聯(lián)規(guī)則提取方法,并對推導(dǎo)過程進行了論證。給出實現(xiàn)該關(guān)聯(lián)規(guī)則提取的具體算法(CAR-RSL),使非空間屬性可以在多個層次上得到很好的概括,從而發(fā)現(xiàn)強壯的關(guān)聯(lián)規(guī)則。應(yīng)用于實際離職人員數(shù)據(jù)庫的數(shù)據(jù)挖掘后表明,可以有效提取可視化和語義關(guān)聯(lián)規(guī)則,能有效判別離職傾向影響因素的權(quán)重,對企業(yè)人力資源管理具有較強的實際指導(dǎo)意義。
企業(yè)隱性社會責(zé)任; 云關(guān)聯(lián)規(guī)則; 離職傾向; 大數(shù)據(jù)
一個企業(yè)的發(fā)展離不開各項資源的支撐與運作,其中最核心的是企業(yè)發(fā)展所需的各種各樣的“人才”。由于每個企業(yè)涉及多種影響原因,員工會發(fā)生離職的情況。一方面,離職對企業(yè)是一種“優(yōu)勝劣汰”,是補充新鮮血液的必要機制;另一方面,過多優(yōu)秀骨干人才的離開也會大大影響企業(yè)的正常乃至可持續(xù)發(fā)展。
隱性社會責(zé)任是指相對于企業(yè)在依法依規(guī)(如勞動法、勞動合同法等)進行勞動關(guān)系等顯性管理行為之外,在法律法規(guī)中未做規(guī)定的企業(yè)自行組織同時依法依規(guī)為員工提供有助于職業(yè)發(fā)展機會的隱性行為(如企業(yè)福利,包括對員工的關(guān)心、學(xué)歷再深造、增值醫(yī)療服務(wù)等)。在眾多的離職原由中分析出影響優(yōu)秀骨干人才離職較大的關(guān)鍵因素,以此為基礎(chǔ)切實改進實際工作機制和方法,進一步實現(xiàn)以經(jīng)營結(jié)果為主導(dǎo)的人才戰(zhàn)略,成為各企業(yè)重點關(guān)注的焦點。
因此,如何在“紛繁復(fù)雜”的人力資源積累的多年、多維度離職統(tǒng)計數(shù)據(jù)中通過大數(shù)據(jù)分析數(shù)據(jù)挖掘方法發(fā)現(xiàn)影響較大的因素,成為企業(yè)離職研究的重點。
目前,國內(nèi)通過智能數(shù)據(jù)挖掘方法對企業(yè)隱性社會責(zé)任離職傾向影響因素的研究還屬于空白,往往集中于純算法研究或簡單的離職原因歸納總結(jié)。在云關(guān)聯(lián)規(guī)則提取方面,Brin S[1]等人首先提出了挖掘關(guān)聯(lián)規(guī)則的思想,并討論了含有布爾型屬性的關(guān)聯(lián)規(guī)則的挖掘問題。但實際的很多數(shù)據(jù)庫,通過語義屬性加以數(shù)字描述難度較大,于是精確地求出各屬性不同取值點或取值范圍之間的關(guān)聯(lián)是困難的,這就需要根據(jù)語義屬性對上述方法進行改進以提取有效的規(guī)則。人力資源管理中,通常關(guān)心的是抽象程度更高的一些內(nèi)在關(guān)聯(lián)程度,比如人力資源范疇中的職業(yè)發(fā)展、薪酬待遇等與離職傾向的關(guān)系。在離職傾向影響因素研究方面,文獻中[2]提到的一種是總結(jié)法,即根據(jù)公開發(fā)行的數(shù)據(jù)或材料進行定性歸納總結(jié),以供企業(yè)人力資源參考;另一種是分析法[3],雖然對離職的影響因素進行了定量判斷,但是借助于SPSS、AMOS等相關(guān)軟件,而這類軟件本身的缺陷在于內(nèi)部算法或程度進行了數(shù)據(jù)封裝,統(tǒng)計輸入的模式也不盡相同,從而對于分析或計算結(jié)果的準確性不能給予保證。本文直接從云模型的根本原理出發(fā)進行關(guān)聯(lián)規(guī)則的算法改進及設(shè)計,從而得出企業(yè)隱性社會責(zé)任影響員工離職傾向因素的權(quán)重和順序。同時,由于作者本人在實際企業(yè)從事人力資源管理工作,數(shù)據(jù)的來源和離職影響因素本身的選取也可以保證客觀、準確。
隱性社會責(zé)任對離職傾向的影響因素不確定性主要分成模糊性和隨機性兩種情況。作為處理模糊性問題的主要工具,模糊集理論用隸屬度來刻畫模糊事物的亦此亦彼性。針對這一問題,李德毅教授[4]在傳統(tǒng)模糊集理論和概率統(tǒng)計的基礎(chǔ)上提出了定性定量不確定性轉(zhuǎn)換模型--云模型。云模型用期望值Ex、熵En和超熵He表征定性概念,將定性定量轉(zhuǎn)換中的模糊性和隨機性集成到一起,克服了模糊集理論中隸屬函數(shù)的固有缺陷。
云是用語言值表示的某個不確定概念與其定量表示之間的不確定轉(zhuǎn)換模型,根據(jù)不同的條件來生成。在給定論域中特定的數(shù)值X的條件下的云發(fā)生器稱為X條件云發(fā)生器,給定特定的隸屬度值μ的條件下的云發(fā)生器稱為Y條件云發(fā)生器。云的生成算法可以用軟件的方式實現(xiàn),也可以固化成硬件實現(xiàn),稱為云發(fā)生器(Cloud Generator)。由云的數(shù)字特征產(chǎn)生云滴,即實現(xiàn)從定性到定量的轉(zhuǎn)換, 稱為正向云發(fā)生器如圖1所示。
圖1 正向云發(fā)生器
上面的云生成算法即為正向云發(fā)生器算法。
正向云發(fā)生器是根據(jù)已有正態(tài)云的數(shù)字特征Ex,En和He,產(chǎn)生滿足上述正態(tài)云分布規(guī)律的二維云Drop(x,μ)稱為云滴;逆向云發(fā)生器是已知云中相當(dāng)數(shù)量的云滴分布Drop(x,μ),確定正態(tài)云的3個數(shù)字特征值Ex,En和He。正向云發(fā)生器可以根據(jù)不同的條件來生成,X條件云發(fā)生器生成的云滴位于同一條豎直線上,橫坐標數(shù)值均為x,縱坐標隸屬度值呈概率分布。
給定符合某一正態(tài)云分布規(guī)律的一組云滴作為樣本(xi,μi),產(chǎn)生云所描述的定性概念的3個數(shù)字特征值(Ex,En,He),即從定量到定性的轉(zhuǎn)換,其軟件或硬件實現(xiàn)成為逆向云發(fā)生器,如圖3所示。
圖2 逆向云發(fā)生器
正向云發(fā)生器和逆向云發(fā)生器相結(jié)合,實現(xiàn)定性與定量的隨時轉(zhuǎn)換。
逆向云發(fā)生器算法如式(1)—(3)。
Ex=Mean(xi)
(1)
En=stdev(xi)
(2)
(3)
其中,Mean(·),stdev(·)分別為求均值和標準差的函數(shù)。
2.1 定義
定義 將離職影響因素屬性定義域利用云模型進行劃分,并在此基礎(chǔ)上產(chǎn)生的關(guān)聯(lián)規(guī)則稱為離職影響因素云關(guān)聯(lián)規(guī)則。
設(shè)X={x1,x2,…,xp},Y={y1,y2,…,yq}是I的子集,且X∩Y=φ,A={fx1,fx2,…,fxp},B={fy1,fy2,…,fyq},這里X={學(xué)歷分布,職稱分布,工作年限,業(yè)績與薪酬,部門分布,崗位可否替代,員工去向},為員工的基本屬性;Y={職業(yè)發(fā)展、薪酬福利、企業(yè)文化、工作氛圍、生活平衡、學(xué)歷提升、培訓(xùn)需求},為企業(yè)隱性社會責(zé)任。
若fxi(i=1,2,…,p)和fyj(j=1,2,…,q)分別是屬性xi和yj論域上的概念,記Z=X∪Y,C=A∪B。所要討論的云關(guān)聯(lián)規(guī)則的語義形式為“如果X且如果Y則影響B(tài)”,但是這里沒有給出影響因素的權(quán)重。
2.2 云關(guān)聯(lián)規(guī)則提取推導(dǎo)
若干項的集合組成項集,對于項集X={ip,iq,…,ik},事務(wù)t屬于X的程度μX(t)定義為式(4):
μX(t)=min(μip(t),μiq(t),…,μik(t))
(4)
數(shù)據(jù)庫D中所有事務(wù)屬于X的平均程度稱為項集X的支持度,定義為式(5):
(5)
N為數(shù)據(jù)庫D所含事務(wù)數(shù)。
規(guī)則的支持度與置信度分別定義式(6)、式(7)。
Support(X?Y)=Support(X∪Y)
(6)
Confidence(X?Y)=Support(X∪Y)/Support(X)
(7)
云關(guān)聯(lián)規(guī)則的提取問題就是:產(chǎn)生置信度與支持度分別大于用戶定義最小值的所有相聯(lián)規(guī)則。該問題又可以分兩步來解:
(1) 產(chǎn)生所有支持度大于最小支持度min(Sup)的項集,這些項集稱為強項集。
(2) 對于每個強項集,產(chǎn)生所有大于最小置信度min(Conf)的規(guī)則。
已知事務(wù)數(shù)據(jù)庫D,若R={r1,r2,…,rk}為強項集,根據(jù)強項集的定義有式(8):
(8)
設(shè)S={rp,rq,…,rω}(1≤p,q,…,ω≤k)是R的子集且S≠φ,根據(jù)支持度的定義有式(9)。
(9)
則對于任一事務(wù)t有式(10)。
μR(t)=min(μr1(t),μr2(t),…,μrk(t)),
μS(t)=min(μrp(t),μrq(t),…,μrω(t))
(10)
由于S∈R,有式(11)。
{μr1(t),μr2(t),…,μrk(t)}?{μrp(t),μrq(t),…,μrω(t)}
(11)
從而可以得到式(12)。
Support(S)≥Support(R)≥min(Sup)
(12)
其中,項集的長度:項集中所包含的項的個數(shù);
k項集:長度為k的項集,即k個模糊概念的集合;
k強k項集:支持度大于等于min(sup)的k項集;
k候選k項集:支持度可能大于等于min(sup)的k項集;
Lk:所有強k項集的集合;
Ck:所有候選k項集的集合。
通過上述論證可以得出:任何強項集的非空子集必是強項集。
一條云關(guān)聯(lián)的語義規(guī)則可以寫作如下的形式[5](13):
(13)
使用機器學(xué)習(xí)的方法,從一個已知分類的對象訓(xùn)練集中可以推理得出一個分類規(guī)則的集合。
至此,云關(guān)聯(lián)規(guī)則的提取方法正確性論證完畢?;谏鲜稣撟C,下面給出基于離職影響因素的云相聯(lián)規(guī)則提取算法(Cloud association rules based on recessive social liability,簡稱CAR-RSL)。
基于企業(yè)隱性社會責(zé)任的云關(guān)聯(lián)規(guī)則提取算法CAR-RSL需多次掃描數(shù)據(jù)庫,依次生成L1,L2,…,Lp(p為強項集的最大可能長度)。首先計算各屬性的平均值,得各個單項的支持度,刪除其中小于min(Sup)的項,進而得到L1;在計算Lk時,并非計算所有k項集的支持度,而是根據(jù)任何強項集的子集必是強項集的原則,由強項集Lk-1生成候選項集Ck,然后計算Ck中各項集的支持度,刪除支持度小于min(Sup)的項集,進而得到強項集Lk;算法循環(huán)執(zhí)行直到?jīng)]有新的強項集產(chǎn)生為止;最后,由強項集產(chǎn)生關(guān)聯(lián)規(guī)則。
下面給出算法流程:
Input:largel infor //輸入項集長度
Itemsets infor //輸入項集長度
L1={large1-itemsets} //相似項集合
1.3 統(tǒng)計學(xué)方法 采用SPSS 19.0統(tǒng)計學(xué)軟件對數(shù)據(jù)進行分析。計量資料用均數(shù)±標準差表示,組間比較采用t檢驗。在分析過程中,多組間的數(shù)據(jù)比較處理采用One-way ANOVA方法進行分析。以P<0.05為差異有統(tǒng)計學(xué)意義。
Output:Genrules (Answer) //關(guān)聯(lián)規(guī)則
Begin
For all candidatesc∈Ck
or(k=2;Lk-1≠φ;k++) ∥計算候選項集的相關(guān)系數(shù)
For all transactionst∈Ddo
Ck= apriori_gen(Lk-1) ∥產(chǎn)生新的候選項集
c_count=c_count+ min(μc1(t),μc2(t),…,μck(t))
c_count=c_count/N∥取平均值
Lk={c∈Ck|c_count≥min(Sup)}
If (large1-itemsets =add(large1-itemsets))
Answer =∪kLk
Genrules (Answer) ∥根據(jù)強項集產(chǎn)生相聯(lián)規(guī)則
End
其中函數(shù)apriori_gen()的功能是由強項集Lk-1生成候選項集Ck,分如下兩個步驟:
A. 首先將Lk-1中各項項集進行組合
在項集Lk-1,p,Lk-1,q中存在:p.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1 B. 從Ck中刪除{c∈Ck|c有不屬于Lk-1的k-1項子集} 另外,算法最后調(diào)用函數(shù)Genrules(),其功能是由強項集產(chǎn)生規(guī)則。它對于每個強項集L,輸出形如(L-A)?A的規(guī)則,其中A是L的非空子集且滿足Support(L)/Support(L-A)≥ min(Conf)。 4.1 云關(guān)聯(lián)可視化和語義規(guī)則提取 我們感興趣的是“離職傾向因素”與各種隱性社會責(zé)任的關(guān)系,這里采用上述描述的CAR-RSL算法來挖掘關(guān)聯(lián)規(guī)則。本文仿真輸入數(shù)據(jù)是利用本企業(yè)近3年內(nèi)約150位員工離職因素統(tǒng)計數(shù)據(jù)庫,仿真中使用最小支持度50%和最小置信度80%來進行數(shù)據(jù)挖掘。使用CAR-RSL算法進行數(shù)據(jù)挖掘生成的支持度分析表,如表1所示。 以“離職傾向因素”作為后續(xù)結(jié)果,其它屬性的聯(lián)合作為先行條件,可視化云關(guān)聯(lián)規(guī)則中以橢圓形表示,如圖3所示。 圖3 關(guān)于“隱性社會責(zé)任對離職傾向因素”的可視化云關(guān)聯(lián)規(guī)則圖 在橢圓形上標識的數(shù)字就是隱性社會責(zé)任對離職傾向影響的提取因素數(shù)量,分散分布的面積為權(quán)重大小,從而更加直觀的得到離職影響因素的先后順序。 從圖3中可以看出,在企業(yè)隱性社會責(zé)任(包括職業(yè)發(fā)展、待遇提升、企業(yè)文化、工作氛圍、生活平衡、學(xué)歷提升、培訓(xùn)需求)中,確定影響超過50%最小支持度的因素有四個:職業(yè)發(fā)展、待遇提升、工作氛圍和生活平衡,并且可以得出企業(yè)需要重點關(guān)注的隱性社會責(zé)任置信度順序首先為職業(yè)發(fā)展,其次為待遇提升,第三為生活平衡,第四為工作氛圍。 表1 云關(guān)聯(lián)規(guī)則CAR-RSL算法支持度分析表 相應(yīng)的,也可以按照云模型的語義關(guān)聯(lián)規(guī)則描述如下: 規(guī)則1. 如果職業(yè)發(fā)展是“好”,待遇提升是“好”,生活平衡是“好”,那么離職傾向是“低”。 規(guī)則2. 如果職業(yè)發(fā)展是“好”,待遇提升是“中等”,生活平衡是“好”,那么離職傾向是“中等”。 規(guī)則3. 如果職業(yè)發(fā)展是“好”,待遇提升是“好”,生活平衡是“中等”,那么離職傾向是“低”。 規(guī)則4. 如果職業(yè)發(fā)展是“中等”,待遇提升是“差”,生活平衡是“中等”,那么離職傾向是“高”。規(guī)則5. 如果職業(yè)發(fā)展是“差”,待遇提升是“中等”,生活平衡是“好”,那么離職傾向是“差”。 規(guī)則6. 如果職業(yè)發(fā)展是“中等”,待遇提升是“中等”,生活平衡是“好”,那么離職傾向是“中等”。 規(guī)則7. ………… 規(guī)則8. ………… 顯而易見,企業(yè)需要的離職傾向影響因素在我們提取的可視化和語義關(guān)聯(lián)規(guī)則中清楚地顯示出來,表明CAR-RSL算法對非空間屬性的知識表示和概括能力得到了充分的體現(xiàn)。 4.2CAR-RSL算法有效性及穩(wěn)定性分析 運用CAR-RSL算法進行的仿真結(jié)果,如圖4所示。 圖4 CM-T算法的有效性和穩(wěn)定性仿真圖 出于便利考慮,圖中的Z軸與傳統(tǒng)的Y或Yd軸不同,這里定義為冗余(Error)。從仿真結(jié)果中可以看出,該算法具 有良好的有效性及穩(wěn)定性。 本文在云模型基礎(chǔ)上對關(guān)聯(lián)規(guī)則的提取過程進行了改進,并通過數(shù)學(xué)理論推導(dǎo)及設(shè)計,提出一種改進的云關(guān)聯(lián)規(guī)則算法。將該新方法應(yīng)用于本企業(yè)隱性社會責(zé)任對離職傾向影響因素的權(quán)重分析,不僅得到了影響離職的四個主要傾向因素,而且還得到了離職傾向影響因素的權(quán)重順序。該算法可以通過自學(xué)習(xí)技術(shù)不斷細化決策,使輸出結(jié)果更精確,相關(guān)性更高。雖然這些數(shù)據(jù)分析或關(guān)聯(lián)規(guī)則看上去直觀明顯,但隨著企業(yè)戰(zhàn)略發(fā)展的不同需求,企業(yè)隱性社會責(zé)任的范疇也會發(fā)生變化,即存在影響離職傾向的隱式影響,就需要定期對影響離職的企業(yè)隱性社會責(zé)任因素進行梳理和選取,做到適當(dāng)補充或刪減,才能更好的為企業(yè)的戰(zhàn)略發(fā)展做好支撐與決策,從而獲得對企業(yè)最有價值的決策信息。 [1]BrinS.Theanatomyoflarge-scalehypertertextualWebsearchengine[C]//Proc.ofthe7thInt’1worldWideWebConf.Brishane,Austrilian,1998:121-126. [2]Ying,H.TheTakagi-SugenoFuzzyControllersUsingtheSimplifiedLinearControlRulersareNonlinearVariableGainControllers[J].Automatica, 1998, 34(2):157-167. [3]YiDu,De-yiLi.AMethodofDataSourceGenerationforTestingDataMiningAlgorithm[J].JournalofComputerResearch&Development, 2000, 37(7):776-782. [4]De-yiLi,Kai-changDi,De-renLi,etal.MiningAssociationRuleswithLinguisticCloudModels[J].JournalofSoftware, 2000, 11(2):143-158. [5]Ying,H.SufficientConditionsonUniformApproximationofMultivariateFunctionsbyGeneralTakagi-SugenoFuzzySystemswithLinearRuleConsequent[J].IEEETrans.SMC.,2001,36(3):235-238. Research on Enterprise Recessive Social Liability for the Effect of Demission Incline Based on Cloud Correlation Zhang Shuyu, Wang Xiu (1. Shanghai Aerospace Control Technology Institute, Shanghai 201109, China;2. Shanghai Microcomputer Applications Association, Shanghai 200030, China) It is an important wok to extract the weight and sequence of demission incline actors from enterprise recessive social liability for human resource manage. Firstly, the paper provides an improved cloud correlation extracting method based on cloud model. Secondly, the real algorithm (CAR-RSL) is provided to realize the correlation rules, which effectively generalize the non-spatial attribute in many layers, and detect stronger correlation rules. The algorithm demonstrates the validity of extracting visualization and semantic correlation rules, and differentiates the weight of demission incline actor by applying real data mining of demission database. There are reasonably direction meanings for enterprise human resources management. Enterprise recessive social liability; Cloud correlation rules; Demission incline; Big data 張樹瑜(1978-),男,山西,博士,高級工程師,研究方向:自動化與數(shù)據(jù)挖掘。 王 秀(1980-),女,吉林,本科,研究方向:期刊信息化。 1007-757X(2017)07-0048-04 TP311 A 2017.03.01)4 仿真結(jié)果分析
5 總結(jié)