文 /呂 堅(jiān) 梁 樑 林 童
利用當(dāng)下最為流行的機(jī)器學(xué)習(xí)中的支持向量機(jī)算法(support vector machine, SVM),建立心理狀態(tài)、心理風(fēng)險(xiǎn)和積極心理品質(zhì)三個(gè)方面的預(yù)測模型,從不同的角度反映個(gè)體思想狀況的積極、風(fēng)險(xiǎn)以及風(fēng)險(xiǎn)耐受性(自我調(diào)節(jié)性),能夠有效分辨出高中低三個(gè)水平的心理狀態(tài)和積極心理品質(zhì)的人群,同時(shí)能夠區(qū)分出高心理風(fēng)險(xiǎn)與低心理風(fēng)險(xiǎn)的人群。
當(dāng)前,人的思想活動(dòng)的獨(dú)立性、選擇性、多變性和差異性進(jìn)一步增強(qiáng),導(dǎo)致思想政治工作面臨許多新情況、新矛盾和新挑戰(zhàn)。為更全面掌握基層員工的心理特點(diǎn)、工作感受及組織態(tài)度等動(dòng)態(tài),切實(shí)了解員工所思所想,國網(wǎng)浙江公司深入剖析當(dāng)前員工思想動(dòng)態(tài)分析工作中存在的不足,及時(shí)發(fā)現(xiàn)問題并提出具有價(jià)值的意見和建議,以進(jìn)一步加強(qiáng)員工思想政治教育,增強(qiáng)員工關(guān)愛政策的針對性,進(jìn)而為公司管理決策提供依據(jù)和參考。通過多范圍、多層級地采集員工思想動(dòng)態(tài)方面的數(shù)據(jù),并借助大數(shù)據(jù)技術(shù),架構(gòu)全新的、符合新形勢要求的思想動(dòng)態(tài)分析模型,通過指數(shù)化分析及預(yù)警,創(chuàng)新了思想工作。
研究目標(biāo)
實(shí)現(xiàn)科學(xué)有效地監(jiān)測員工的心理狀態(tài)、心理風(fēng)險(xiǎn)和積極心理品質(zhì)(心理耐受、調(diào)整能力);依據(jù)測量結(jié)果更有針對性地開展工作,改善員工的心理健康,提高其生活質(zhì)量和工作效率;讓員工的思想狀況保持良好水平,切實(shí)增強(qiáng)組織的績效表現(xiàn),提升組織的工作成效。
研究方法
行為數(shù)據(jù)測量。行為數(shù)據(jù)包含受測者所有活動(dòng)足跡的數(shù)據(jù)資料,能夠全面、實(shí)時(shí)、真實(shí)地記錄全部數(shù)據(jù),信息量豐富,有利于后期的數(shù)據(jù)挖掘和分析。這一技術(shù)不僅實(shí)現(xiàn)了對研究變量的在線測量,而且避免了傳統(tǒng)方法中數(shù)據(jù)收集工作耗時(shí)費(fèi)力的缺陷,可在大規(guī)模施測的同時(shí)無干擾地記錄被試者的真實(shí)行為。
機(jī)器學(xué)習(xí)算法。心理測評領(lǐng)域亟需一種有效的數(shù)據(jù)分析方法來處理這些問題,以實(shí)現(xiàn)對個(gè)體能力和特質(zhì)更為準(zhǔn)確的評估。研究發(fā)現(xiàn)機(jī)器學(xué)習(xí)的不同算法均能夠較為準(zhǔn)確地識別情緒(快樂、中性、憤怒)。同時(shí)基于行為數(shù)據(jù)測量的優(yōu)勢,機(jī)器學(xué)習(xí)技術(shù)可以在這類研究中體現(xiàn)出獨(dú)特的優(yōu)勢,能夠通過充分利用行為數(shù)據(jù)信息,建立較為復(fù)雜的模型,實(shí)現(xiàn)更準(zhǔn)確的預(yù)測。
采用機(jī)器學(xué)習(xí)的模式對員工思想狀況監(jiān)測的預(yù)測模型進(jìn)行科學(xué)和系統(tǒng)研究,通過收集的變量去建立心理狀態(tài)、積極心理品質(zhì)以及心理風(fēng)險(xiǎn)的預(yù)測模型,利用機(jī)器學(xué)習(xí)最常用的監(jiān)督學(xué)習(xí)算法中的隨機(jī)森林(Random Forest, RF)、支持向量機(jī)(Support Vector Machine, SVM)和樸素貝葉斯(Naive Bayesian Model,NBM)算法,利用R stido進(jìn)行數(shù)據(jù)清理、統(tǒng)計(jì)分析與模型搭建。這三種算法經(jīng)過前人驗(yàn)證,已經(jīng)證明是最好的三種機(jī)器學(xué)習(xí)的分類算法,其中隨機(jī)森林和支持向量機(jī)算法尤為出色(Cernadas, E., & Amorim, D,2014)。最后經(jīng)過模型比對,選擇了更為優(yōu)秀的支持向量機(jī)作為我們最終使用的算法。研究具體過程包括數(shù)據(jù)采集、數(shù)據(jù)集清理、模型建設(shè)與驗(yàn)證三個(gè)核心步驟。
數(shù)據(jù)采集。本次研究主要使用了問卷收集的方式,對國網(wǎng)浙江省電力公司1 429名員工進(jìn)行數(shù)據(jù)收集,排除疑似無效作答的作答者340人,最后有效作答數(shù)據(jù)為1 089份(男性729人,女性360人),年齡范圍在21歲~57歲之間。問卷包含傳統(tǒng)專業(yè)心理學(xué)問卷(如:大五人格、心理資本量表、心理健康連續(xù)量表、抑郁量表)以及員工生活行為的問題(人口學(xué)變量、生活、情感、家庭、工作、行為等)。問卷一共包含155個(gè)題,題目類型都為選擇題,分為單選題和多選題兩種。
數(shù)據(jù)集清理。在做機(jī)器學(xué)習(xí)之前最重要的工作是清理我們的數(shù)據(jù)集,對整個(gè)數(shù)據(jù)集的被試和預(yù)測變量進(jìn)行嚴(yán)密的篩查,為的是能夠提高最后的預(yù)測效果,并在此基礎(chǔ)上進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)集清理主要包括無效數(shù)據(jù)清洗和變量處理兩項(xiàng)內(nèi)容,其整體概覽圖如圖1所示。
圖1 數(shù)據(jù)集清理過程概覽
模型訓(xùn)練與驗(yàn)證。清理好數(shù)據(jù)之后,我們就開始進(jìn)行機(jī)器學(xué)習(xí)的模型建立,即模型的訓(xùn)練和驗(yàn)證,其機(jī)器學(xué)習(xí)流程圖及部分機(jī)器學(xué)習(xí)計(jì)算機(jī)語言如圖2所示。
圖2 機(jī)器學(xué)習(xí)流程圖
對比隨機(jī)森林(Random Forest, RF)、支持向量機(jī)(Support Vector Machine, SVM)和樸素貝葉斯(Naive Bayesian Model,NBM)算法,發(fā)現(xiàn)支持向量機(jī)的預(yù)測效果最好,最后使用支持向量機(jī)作為預(yù)測建模算法。
首先把樣本分為80%的訓(xùn)練集(用做模型訓(xùn)練,得到最終模型)以及20%的測試集(用做模型效果的驗(yàn)證)。
支持向量機(jī)中有三個(gè)非常重要的超參數(shù)會對模型產(chǎn)生影響
核函數(shù)(kernel):有4個(gè)可選核函數(shù),分別為線性核函數(shù)(linear)、多項(xiàng)式核函數(shù)(polynomial)、徑向基核函數(shù)(radial basis)以及神經(jīng)網(wǎng)絡(luò)核函數(shù)(sigmoid)。識別率最高、性能最好的是徑向基核函數(shù),其次是多項(xiàng)式核函數(shù),而最差的是神經(jīng)網(wǎng)絡(luò)核函數(shù)。
Cost超參數(shù):允許支持向量存在軟決策邊界的懲罰項(xiàng)的系數(shù),C越大表明越允許交叉項(xiàng)存在,但是容易發(fā)生過擬合。
Gama超參數(shù):核函數(shù)一種的一個(gè)調(diào)和參數(shù),目的也是為了避免發(fā)生過擬合。
在選擇核函數(shù)和兩個(gè)超參數(shù)的時(shí)候,需要不斷地嘗試最終達(dá)到最好的模型效果。
超參數(shù)選擇
通過窮舉法搜索Cost和gama參數(shù)的值,使他們兩個(gè)出現(xiàn)一個(gè)最優(yōu)的搭配,當(dāng)gama=0.01,C=10的時(shí)候模型能夠得到最優(yōu)的預(yù)測效果。
基礎(chǔ)推薦模型變量選擇
心理狀態(tài)模型中基礎(chǔ)推薦出46個(gè)變量,心理風(fēng)險(xiǎn)模型基礎(chǔ)推薦出18個(gè)變量,積極心理品質(zhì)模型基礎(chǔ)推薦出25個(gè)變量。
模型預(yù)測結(jié)果
最終選擇使用機(jī)器學(xué)的SVM算法進(jìn)行建模。模型預(yù)測準(zhǔn)確率良好,能夠分辨出高中低三個(gè)水平的積極心理品質(zhì)和心理狀態(tài)的人群,同時(shí)也能夠區(qū)分出高心理風(fēng)險(xiǎn)與低心理風(fēng)險(xiǎn)的人群。
模型應(yīng)用
針對性地開發(fā)國網(wǎng)浙江省電力公司員工思想狀況預(yù)測模型的分類器,包括心理狀態(tài)、心理風(fēng)險(xiǎn)和積極心理品質(zhì)三個(gè)分類器。通過該分類器,收集員工在本研究中所涉及到的預(yù)測自變量信息,利用計(jì)算機(jī)系統(tǒng)對模型分類器進(jìn)行調(diào)用,即可自動(dòng)化預(yù)測得到員工在心理狀態(tài)、心理風(fēng)險(xiǎn)以及積極心理品質(zhì)三個(gè)方面的思想狀況水平,如圖3所示。
圖3模型分類器使用流程圖
此次研究結(jié)果顯示,員工心理狀態(tài)、心理風(fēng)險(xiǎn)及積極心理品質(zhì)模型預(yù)測準(zhǔn)確率均超過7成,表明其已經(jīng)達(dá)到了比較好的效果,也說明了通過員工行為數(shù)據(jù)對員工的思想狀況進(jìn)行預(yù)測是可行的,體現(xiàn)了我們此項(xiàng)研究工作的初步成果。我們同時(shí)也需要注意,在今后的工作中,在此模型的優(yōu)化方面仍有改進(jìn)空間,結(jié)合理論與經(jīng)驗(yàn),優(yōu)化數(shù)據(jù)收集方式、優(yōu)化變量的選取,逐漸對模型進(jìn)行迭代升級,以使這項(xiàng)工作的整體效果不斷優(yōu)化。