云南中醫(yī)藥大學信息學院 董如福
云南師范大學教育學部 云南中醫(yī)藥大學信息學院 楊福華
云南中醫(yī)藥大學信息學院 劉紅杏
高校畢業(yè)生就業(yè)工作事關(guān)社會和諧穩(wěn)定,面對面對網(wǎng)絡(luò)平臺上海量的就職信息,學生如何找到適合自己的崗位,企業(yè)如何讓自己的招聘信息脫穎而出是較為困難的問題,就業(yè)市場供需矛盾仍然突出。通過構(gòu)建基于用戶畫像的精準就業(yè)模型,繪制畢業(yè)生用戶畫像,為畢業(yè)生精準推送與自身相符的崗位,實現(xiàn)“人職匹配”,真正實現(xiàn)畢業(yè)生就業(yè)精化、高質(zhì)量就業(yè)。
2021年,根據(jù)教育部發(fā)布的數(shù)據(jù)顯示,我國大學畢業(yè)生數(shù)將達到909萬人,再創(chuàng)歷史新高,就業(yè)形勢復雜嚴峻。為了緩解這種壓力,國家行政部門發(fā)布了《國務(wù)院關(guān)于進一步做好新形勢下就業(yè)創(chuàng)業(yè)工作的意見》、《教育部辦公廳關(guān)于開展全國普通高校畢業(yè)生精準就業(yè)服務(wù)工作的通知》等文件,要求各地各高校要充分利用短信、APP、微信等渠道,建立精準就業(yè)服務(wù)平臺。根據(jù)畢業(yè)生不同階段需求和求職意愿,精準推送相應(yīng)的就業(yè)政策、崗位信息、指導服務(wù),實現(xiàn)就業(yè)服務(wù)個性化、差異化。其次,網(wǎng)絡(luò)技術(shù)的高速發(fā)展也為就業(yè)服務(wù)的精準化提供了技術(shù)保障,畢業(yè)生在在校期間產(chǎn)生了海量的數(shù)據(jù),包括基礎(chǔ)數(shù)據(jù):畢業(yè)生成績數(shù)據(jù)、畢業(yè)生基本信息數(shù)據(jù)等、學校管理數(shù)據(jù)等。通過對這些數(shù)據(jù)進行分析、挖掘,構(gòu)建畢業(yè)生用戶畫像。為畢業(yè)生精準推送與自身相符的崗位,實現(xiàn)“人職匹配”,為畢業(yè)生提供精準化就業(yè)服務(wù)。
用戶畫像是由交互設(shè)計之父Alan Cooper提出,是指用戶信息的標簽化,是建立在一系列數(shù)據(jù)之上的目標用戶模型。用戶畫像根據(jù)用戶的社會屬性、生活習慣和消費行為等信息,抽取處一個或一類用戶的標簽,對用戶信息進行結(jié)構(gòu)化處理。通過對用戶信息的分析和挖掘,實現(xiàn)對用戶群體特征的準確描述,從而能精準預測用戶的實際需求。
用戶畫像在電子商務(wù)、圖書情報、社交媒體和醫(yī)療健康等領(lǐng)域都有廣泛的應(yīng)用。用戶畫像通過定性和定量的方法,對用戶的各個屬性進行分析、概括,全面精確的獲取用戶的需求,為用戶提供個性化、精準的服務(wù)或商品打下基礎(chǔ)。
目前,將用戶畫像運用于就業(yè)推薦方面取得了豐碩的成果。劉艷提出通過利用大數(shù)據(jù)能夠有效促進校園管理和建設(shè)的開展,能夠?qū)π@就業(yè)情況進行用戶畫像建設(shè)。張東迅通過構(gòu)建雇主畫像的總體框架,進行了雇主畫像維度和標簽體系的設(shè)計,并探索且提出了雇主畫像的構(gòu)建方法和流程。通過已有研究發(fā)現(xiàn),目前基于用戶畫像的就業(yè)推薦研究還不夠深入,對畢業(yè)生就業(yè)情況的用戶畫像建設(shè)僅停留在實踐探索層面,研究還不夠深入。其次,我國大學生就業(yè)質(zhì)量偏低的情況還沒有改變,具體體現(xiàn)在就業(yè)穩(wěn)定性低,崗位匹配度低,就業(yè)期望與崗位實際差距大。構(gòu)建基本的信息化管理平臺,建立用戶畫像,通過有效地抓取和合理地利用畢業(yè)生、高校的數(shù)據(jù),并對其進行數(shù)據(jù)分析和挖掘,來提高高校就業(yè)服務(wù)質(zhì)量和精準就業(yè)服務(wù)的水平具有重要的意義。
數(shù)據(jù)的采集是建立用戶畫像的基礎(chǔ),T.Laouge、J.LARDY和N.B.ABDALLAH認為用戶畫像中的用戶特征信息主要包含兩個方面:一是穩(wěn)定因素,如用戶的人口統(tǒng)計學數(shù)據(jù);二是可變因素。另外,代懋等指出大學生就業(yè)匹配主要受供給、需求和中介因素的影響。其中,供給因素主要考察大學生人口統(tǒng)計特征和在校實踐等對職位匹配的影響,包括性別、受教育程度、戶籍、專業(yè)類別、學習成績、在校是否擔任學生干部、參加社會實踐的情況。其中,需求、中介因素以及供給因素中的受教育程度、專業(yè)類別對于同一個學校的畢業(yè)生而言是不變因素,在此就不再討論。按照用戶畫像中用戶特征信息,認為畢業(yè)生的用戶畫像的穩(wěn)定因素主要是指畢業(yè)生人口統(tǒng)計學數(shù)據(jù),包括性別、生源地、學習成績、是否擔任學生干部、參加實習情況等。此類信息數(shù)據(jù)主要是通過采集學校的相關(guān)應(yīng)用系統(tǒng)產(chǎn)生。而可變因素包括畢業(yè)生在校期間借閱圖書的情況、使用學校就業(yè)信息系統(tǒng)產(chǎn)生的數(shù)據(jù)信息等,則從圖書管理系統(tǒng)和學校就業(yè)信息系統(tǒng)獲取。經(jīng)過采集和篩選以后,共得到了150名醫(yī)學信息學畢業(yè)生的信息,共計8000條數(shù)據(jù)。采集的數(shù)據(jù)維度如表1所示。
表1 采集的數(shù)據(jù)維度
本次研究的數(shù)據(jù)主要來源于某中醫(yī)藥大學醫(yī)學信息工程專業(yè)的歷屆畢業(yè)生,通過對采集到的數(shù)據(jù),進行有效組織存儲,整合成數(shù)據(jù)集。Guimaraes TP將用戶畫像的數(shù)據(jù)來源總結(jié)為用戶的基本素養(yǎng)、學歷層次、社會關(guān)系、工作狀態(tài)、位置情況、時間信息等。按照云南中醫(yī)藥大學醫(yī)學信息工程人才培養(yǎng)方案,該專業(yè)的畢業(yè)生就業(yè)方向主要分為電子信息類、網(wǎng)絡(luò)技術(shù)類、軟件設(shè)計開發(fā)類、醫(yī)學信息系統(tǒng)分析和設(shè)計類。所以,本文就以此為依據(jù)對畢業(yè)生進行分類,將用戶畫像數(shù)據(jù)進行聚類、分析。
(1)基本信息
基本信息維度主要是對畢業(yè)生的畫像進行基本繪制,主要包含性別和生源地兩個信息。由于基本信息不同,對應(yīng)的就業(yè)需求也不同。在進行畢業(yè)生用戶畫像標簽構(gòu)建過程中,要對用戶基本信息數(shù)據(jù)作標簽化處理,為每個用戶賦予不同形式與內(nèi)容的標簽。
(2)就業(yè)能力
就業(yè)能力維度作為畢業(yè)生就業(yè)畫像的核心內(nèi)容,主要包括主要課程的成績、實習單位、實習時間和實習成績。云南中醫(yī)藥大學醫(yī)學信息工程專業(yè)畢業(yè)生就業(yè)方向和對應(yīng)課程設(shè)置如表2所示。
表2 云南中醫(yī)藥大學醫(yī)學信息工程專業(yè)畢業(yè)生就業(yè)方向和對應(yīng)課程設(shè)置
通過教務(wù)管理系統(tǒng)獲取學生的專業(yè)課成績,并以此為依據(jù),對學生的成績進行預處理,利用數(shù)據(jù)挖掘的相關(guān)方法,對畢業(yè)生相關(guān)數(shù)據(jù)進行分析。
(3)就業(yè)傾向
就業(yè)傾向維度主要是作為畢業(yè)生生畫像的輔助內(nèi)容,主要包含了生源地、喜好、發(fā)展前景等。比如通過生源地可以給畢業(yè)生推薦生源地所在就業(yè)單位;通過專業(yè)相關(guān)、個人喜好、發(fā)展前景等屬性內(nèi)容推薦高度匹配就業(yè)崗位。
數(shù)據(jù)預處理是將數(shù)據(jù)進行清洗、集成、標準化和轉(zhuǎn)換,并直接用于數(shù)據(jù)分析、建立模型的技術(shù)實現(xiàn)過程。根據(jù)采集到的數(shù)據(jù),將各個字段進行量化,得到的數(shù)據(jù)特征如表3所示。
表3 根據(jù)采集數(shù)據(jù)各個字段量化的數(shù)據(jù)特征
通過數(shù)據(jù)分析過程,梳理得出單個學生的特征標簽,實現(xiàn)個體的用戶畫像的構(gòu)建:
XX,男,云南XX人,電子信息類成績較好,在XX公司實習從事軟件開發(fā)工作,實習成績較好,喜歡借閱關(guān)于軟件開發(fā)類的書籍。
XXX,女,山東XX人,網(wǎng)絡(luò)信息系統(tǒng)和設(shè)計類課程成績較好,在醫(yī)院信息科實習,實習成績較好,喜歡借閱UI設(shè)計的書籍。
XXX,男,云南XX,網(wǎng)絡(luò)技術(shù)類課程成績較好,在某網(wǎng)絡(luò)集成代理商實習,實習成績較好,無書籍借閱情況。
本文采用k-means算法進行聚類,通過Elbow Method方法得出當k=4時,聚類效果最佳。由此可得到4類畢業(yè)生類別:畢業(yè)生群體1為就業(yè)能力強,目標明確。該類學生在平時成績好,通過就業(yè)興趣維度發(fā)現(xiàn)其有明確的就業(yè)方向;畢業(yè)生群體2為就業(yè)能力弱,目標明確。該類學生在平時成績一般,但有明確的就業(yè)方向;畢業(yè)生群體3為就業(yè)能力強,但無明確的就業(yè)方向;畢業(yè)生群體4為就業(yè)能力弱,無明確的就業(yè)方向。
根據(jù)畢業(yè)生用戶畫像進行崗位匹配,本文采用貝葉斯算法對某中醫(yī)藥院校醫(yī)學專業(yè)畢業(yè)生的就業(yè)方向進行預測,為畢業(yè)生實現(xiàn)更加充分、更高質(zhì)量的精準就業(yè)提供強有力保障。貝葉斯定理是一種把類的先驗知識和從數(shù)據(jù)中收集新證據(jù)相結(jié)合的統(tǒng)計原理。
貝葉斯定理的作用是在已知P(A|B)的情況下求得P(B|A)。其中,P(A|B)表示事件B已經(jīng)發(fā)生的前提下事件A發(fā)生的概率,P(A)和P(B)為無條件概率。精準就業(yè)推薦算法如下:
算法輸入:已知2018屆至2020屆某中醫(yī)藥大學醫(yī)學信息學專業(yè)畢業(yè)生的畫像信息和就業(yè)方向。
算法輸出:確定2021屆某中醫(yī)藥大學醫(yī)學信息學專業(yè)畢業(yè)生就業(yè)方向,作為就業(yè)推薦方向。
(1)將畢業(yè)生的各項屬性進行預處理。例如,將課程成績?yōu)?0分以上賦值為3,課程成績70-79賦值為2,課程成績60-69賦值為1,60分以下賦值為0;
(2)設(shè)畢業(yè)生用戶畫像集合為S={a1,a2,a3…am},a1-am表示用戶畫像的特征屬性,即為表中的各屬性值;
(3)設(shè)醫(yī)學信息工程專業(yè)的就業(yè)方向為集合C={y1,y2,y3…yn};
(4)計算P(y1|S),P(y2|S),P(y3|S)…P(yn|S):1)將2018屆至2020屆某中醫(yī)藥大學醫(yī)學信息學專業(yè)畢業(yè)生作為訓練樣本集;2)得到各就業(yè)方向下畢業(yè)生用戶畫像特征屬性的條件概率;3)若各個特征屬性是條件獨立的,則根據(jù)貝葉斯定理有如下推導。因為分母對于所有的就業(yè)方向為常量,因此取得分子的最大值即可。
(5)取得為最大值,則C。
基于用戶畫像的就業(yè)服務(wù)平臺主要包括以下幾個模塊,如圖1所示。
圖1 用戶畫像的就業(yè)服務(wù)平臺架構(gòu)
從基本信息、就業(yè)能力、就業(yè)傾向等維度對畢業(yè)生的數(shù)據(jù)進行采集和分析,平臺收集的信息主要來源于平臺注冊獲取相關(guān)信息、全國就業(yè)信息網(wǎng)和高校應(yīng)用系統(tǒng)相關(guān)信息,通過開發(fā)的就業(yè)服務(wù)平臺中的模塊實現(xiàn)對相關(guān)信息進行采集。之后對就業(yè)信息進行清洗和格式整理,并存儲在對應(yīng)的數(shù)據(jù)庫中。
利用已建立的就業(yè)服務(wù)信息系統(tǒng),利用獲取到的數(shù)據(jù)組成的多源數(shù)據(jù),進行有效量化,整合成數(shù)據(jù)集,然后進行深度分析,構(gòu)建畢業(yè)生用戶畫像,為畢業(yè)生提供精準化就業(yè)服務(wù)。
基于用戶特征,對需要推薦的畢業(yè)生和已有的畢業(yè)生用戶畫像庫進行相似度匹配,為畢業(yè)生精準推送相關(guān)崗位,實現(xiàn)“人職匹配”。
畢業(yè)生可以對推薦結(jié)果進行反饋。通過就業(yè)服務(wù)系統(tǒng)實現(xiàn)對畢業(yè)生就業(yè)滿意度、就業(yè)推薦匹配度等多方面的就業(yè)質(zhì)量綜合情況進行收集,根據(jù)職業(yè)的需求與發(fā)展需要,得出相應(yīng)的結(jié)果。并以此為依據(jù)對用戶畫像進行更新,為高校的人才培養(yǎng)、就業(yè)服務(wù)等提供改革依據(jù)。
利用大數(shù)據(jù)技術(shù),構(gòu)建基本的信息化管理平臺,建立用戶畫像,通過有效地抓取和合理地利用畢業(yè)生、高校的數(shù)據(jù),并對其進行數(shù)據(jù)分析和挖掘來提高高校就業(yè)服務(wù)的效率和精準就業(yè)服務(wù)的水平具有重要的意義。對畢業(yè)生用戶就業(yè)用戶畫像進行研究是實現(xiàn)精準化就業(yè)的重要途徑之一,可以更好地促進實現(xiàn)高等教育培養(yǎng)高素質(zhì)人才的最終目的,減少教育資源浪費,為國家發(fā)展提供更專業(yè)的各方面人才,對學校而言可以對實現(xiàn)對人才培養(yǎng)方案的不斷優(yōu)化,對于大學生個人而言也更能更好地促進自我價值的最終實現(xiàn)。