王 龍, 楊敬旗, 田思雨
(遼寧大學(xué) 信息學(xué)院, 沈陽(yáng) 110036)
當(dāng)前,多數(shù)高校就業(yè)服務(wù)系統(tǒng)都還只是處于就業(yè)信息發(fā)布狀態(tài),僅僅是將企業(yè)的招聘信息和招聘要求發(fā)布到網(wǎng)絡(luò)信息系統(tǒng)中,學(xué)生只能進(jìn)行簡(jiǎn)單的瀏覽與查詢(xún),無(wú)法將網(wǎng)絡(luò)信息服務(wù)的優(yōu)勢(shì)發(fā)揮出來(lái)。在就業(yè)信息系統(tǒng)中引入和提供個(gè)性化推薦技術(shù),向?qū)W生提供符合其自身特點(diǎn)的就業(yè)信息,可以提高學(xué)生的就業(yè)率和就業(yè)匹配度,是就業(yè)服務(wù)系統(tǒng)的一個(gè)必然發(fā)展趨勢(shì),也是就業(yè)服務(wù)領(lǐng)域的研究熱點(diǎn)之一[1-4]。
越來(lái)越多企業(yè)招聘信息加入系統(tǒng),導(dǎo)致學(xué)生在企業(yè)信息搜索上花費(fèi)的時(shí)間和精力越來(lái)越大,提供個(gè)性化的就業(yè)信息推薦服務(wù)會(huì)有效地提高學(xué)生的系統(tǒng)使用效率和就業(yè)成功率,使得就業(yè)信息系統(tǒng)從以“企業(yè)招聘信息”為中心轉(zhuǎn)換為更高層次的以“學(xué)生自身特點(diǎn)”為中心[5-6]。因此,在就業(yè)信息系統(tǒng)中加入個(gè)性化的推薦服務(wù)是十分必要的。
本文提出一種基于學(xué)生行為分析的個(gè)性化就業(yè)信息推薦服務(wù)方法,首先給出個(gè)性化就業(yè)信息推薦服務(wù)模型,然后設(shè)計(jì)了一種基于行為分析的個(gè)性化就業(yè)信息推薦方法,最后進(jìn)行了實(shí)驗(yàn)討論與分析。
圖1 個(gè)性化就業(yè)信息推薦服務(wù)模型Fig.1 Personalized employment information recommendation service model
在大多數(shù)就業(yè)信息系統(tǒng)中,學(xué)生模塊、企業(yè)模塊和管理模塊之間僅僅實(shí)現(xiàn)了數(shù)據(jù)的簡(jiǎn)單交互。學(xué)生用戶(hù)只能在就業(yè)信息系統(tǒng)中進(jìn)行簡(jiǎn)單的瀏覽與查詢(xún),進(jìn)行自主的企業(yè)招聘信息選擇,無(wú)法滿(mǎn)足學(xué)生用戶(hù)對(duì)企業(yè)招聘信息的個(gè)性化需求。主要表現(xiàn)為:在就業(yè)信息系統(tǒng)中包含大量的企業(yè)招聘信息,學(xué)生用戶(hù)需要花費(fèi)大量時(shí)間去閱讀其可能根本不感興趣的招聘信息,嚴(yán)重影響了系統(tǒng)的使用效率。為了有效減少這些無(wú)用的操作,系統(tǒng)需要通過(guò)分析學(xué)生的系統(tǒng)使用行為信息來(lái)獲取學(xué)生的興趣模型,進(jìn)而從系統(tǒng)中找到那些符合學(xué)生自身特點(diǎn)和需求、對(duì)學(xué)生可能會(huì)有用的企業(yè)招聘信息進(jìn)行智能推薦。本文提出一種個(gè)性化的就業(yè)信息推薦服務(wù)模型,具體如圖1所示。
當(dāng)某個(gè)學(xué)生用戶(hù)在使用就業(yè)信息系統(tǒng)時(shí),看到自己感興趣的職位就會(huì)點(diǎn)擊進(jìn)入職位詳情頁(yè)面進(jìn)行詳細(xì)了解,根據(jù)對(duì)職位的有意程度,用戶(hù)會(huì)選擇直接投遞簡(jiǎn)歷或者將職位進(jìn)行收藏。而對(duì)于用戶(hù)不感興趣的職位,往往不會(huì)對(duì)職位進(jìn)行任何操作。在這個(gè)過(guò)程中,用戶(hù)的搜索、點(diǎn)擊標(biāo)題、查看詳情、瀏覽官網(wǎng)、收藏、取消收藏等行為都是學(xué)生用戶(hù)的個(gè)性化行為信息,這些行為信息通過(guò)系統(tǒng)日志被收集。通過(guò)行為信息收集可以得到大量的行為數(shù)據(jù),雖然這種行為數(shù)據(jù)可以體現(xiàn)用戶(hù)的喜好程度,但卻無(wú)法衡量,需要通過(guò)某種方式將這些行為數(shù)據(jù)轉(zhuǎn)化成學(xué)生興趣模型,然后再利用轉(zhuǎn)化后的興趣模型作為個(gè)性化就業(yè)信息推薦的依據(jù)。最后根據(jù)學(xué)生興趣模型,對(duì)系統(tǒng)中的就業(yè)信息進(jìn)行分析,找出符合學(xué)生興趣和特點(diǎn)的就業(yè)信息推薦給學(xué)生。具體的推薦流程如圖2所示。
圖2 推薦流程Fig.2 Recommendation process
傳統(tǒng)的推薦方法通常會(huì)使用用戶(hù)對(duì)項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)作為輸入,這些評(píng)分?jǐn)?shù)據(jù)可以明確表示出用戶(hù)對(duì)項(xiàng)目的興趣大小,利用這些評(píng)分?jǐn)?shù)據(jù)作為輸入的推薦算法可以有效地預(yù)測(cè)出用戶(hù)興趣度較高的項(xiàng)目[7-9]。但是在就業(yè)信息服務(wù)網(wǎng)站中,因?yàn)閷W(xué)生用戶(hù)之間的標(biāo)準(zhǔn)不同,所處的情景不同,可能給出的評(píng)分信息也不相同,這種評(píng)分標(biāo)準(zhǔn)不統(tǒng)一的情況會(huì)嚴(yán)重影響推薦結(jié)果。因此在就業(yè)信息服務(wù)系統(tǒng)中,利用學(xué)生用戶(hù)在系統(tǒng)中的行為數(shù)據(jù)來(lái)表示用戶(hù)的喜好程度更為合適。
學(xué)生在就業(yè)信息服務(wù)系統(tǒng)中的行為信息主要包括搜索、點(diǎn)擊標(biāo)題、查看詳情、瀏覽官網(wǎng)、收藏、取消收藏等,這些行為可以直接或間接地反映出學(xué)生對(duì)招聘信息的喜好程度。通過(guò)分析系統(tǒng)日志,提取學(xué)生用戶(hù)行為信息,構(gòu)建如下空間模型X:
(1)
其中:m代表學(xué)生的個(gè)數(shù);n代表行為的種類(lèi);xij代表學(xué)生i的第j個(gè)行為的操作次數(shù)??紤]到各個(gè)行為對(duì)學(xué)生喜好的貢獻(xiàn)度不同,以及次數(shù)累加對(duì)最終結(jié)果的影響,推薦服務(wù)對(duì)于操作次數(shù)需進(jìn)行如下變換:1次收藏和取消收藏看成5次操作,1次瀏覽官網(wǎng)看成3次操作,1次查看詳情看成2次操作,1次點(diǎn)擊標(biāo)題看成1次操作,1次返回為搜索結(jié)果看成0.5次操作。在標(biāo)準(zhǔn)化處理過(guò)程中,對(duì)于不同的屬性采用不同的標(biāo)準(zhǔn)化方法,對(duì)于正向?qū)傩?通常會(huì)希望其權(quán)重更大一些,按照公式(2)處理數(shù)據(jù),而對(duì)于負(fù)向?qū)傩?通常希望其權(quán)值更小一些,按照公式(3)處理數(shù)據(jù)。
在本系統(tǒng)的實(shí)際運(yùn)算中,考慮到取消收藏被認(rèn)為是用戶(hù)偏好的減少,其權(quán)重的設(shè)置自然是越小越符合系統(tǒng)的設(shè)定,所以使用公式(3)進(jìn)行處理,而除它之外的行為對(duì)于用戶(hù)偏好來(lái)說(shuō)都是正向的指標(biāo),所以選擇使用公式(2)進(jìn)行處理。執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)化后,得到最終的學(xué)生行為信息矩陣X′:
(4)
獲取學(xué)生行為信息矩陣后,利用熵值法[10-11]確定各項(xiàng)行為的權(quán)重。數(shù)據(jù)標(biāo)準(zhǔn)化處理后就可以得到一個(gè)新的矩陣數(shù)據(jù),根據(jù)新的矩陣就可以計(jì)算第i個(gè)用戶(hù)下第j種行為屬性占該用戶(hù)的比重,相應(yīng)的計(jì)算公式見(jiàn)式(5)。獲取相應(yīng)的比重信息之后就可以據(jù)此計(jì)算相應(yīng)行為的信息熵,計(jì)算公式見(jiàn)式(6)。
(7)
其中wj就是第j個(gè)行為所對(duì)應(yīng)的權(quán)重。通過(guò)上述的計(jì)算過(guò)程,可以得到系統(tǒng)中各行為的相應(yīng)權(quán)重,利用每個(gè)學(xué)生對(duì)應(yīng)的行為信息計(jì)算出學(xué)生對(duì)職位的評(píng)分?jǐn)?shù)據(jù)。計(jì)算公式見(jiàn)式(8)。
(8)
其中:dup代表學(xué)生u對(duì)職位p的評(píng)分信息;num_upj表示學(xué)生u對(duì)職位p的第j種行為的操作次數(shù)。
經(jīng)過(guò)上述用戶(hù)行為的分析,得出學(xué)生對(duì)職位的評(píng)分?jǐn)?shù)據(jù),以評(píng)分?jǐn)?shù)據(jù)為學(xué)生興趣度的度量構(gòu)建學(xué)生興趣集合。將學(xué)生i評(píng)分過(guò)的職位構(gòu)建成學(xué)生候選興趣集合Gi,Gij為學(xué)生i對(duì)職位j的評(píng)分?jǐn)?shù)據(jù),設(shè)置閾值t,將學(xué)生候選興趣集合中職位評(píng)分大于t的職位作為用戶(hù)的興趣職位。其中閾值t的取值為學(xué)生候選興趣集合G中所有職位評(píng)分的平均值,計(jì)算公式如式(9)所示。
(9)
最后將Gij中評(píng)分?jǐn)?shù)據(jù)大于ti的職位作為學(xué)生的興趣職位,得到如下的學(xué)生興趣模型:
{(position1,d1),(position2,d2),…,(positionn,dn)}
由上述得到的模型,可以得出學(xué)生評(píng)分矩陣,由于崗位信息過(guò)多將導(dǎo)致評(píng)分矩陣稀疏的情況,通常可以通過(guò)填充或降維的方法解決矩陣稀疏問(wèn)題[12-15]。本文利用相似學(xué)生集合進(jìn)行評(píng)分填充的方法來(lái)緩解評(píng)分矩陣中存在的數(shù)據(jù)稀疏問(wèn)題。根據(jù)學(xué)生的背景屬性計(jì)算學(xué)生之間的相似度,找出相似度較高的學(xué)生形成相似學(xué)生集合,對(duì)學(xué)生無(wú)評(píng)分?jǐn)?shù)據(jù)但其相似學(xué)生集合中的學(xué)生有評(píng)分?jǐn)?shù)據(jù)的項(xiàng)進(jìn)行填充,填充方式為線(xiàn)性加權(quán)求和。
在計(jì)算學(xué)生之間的相似度時(shí)需要利用學(xué)生的背景屬性進(jìn)行計(jì)算,對(duì)于學(xué)生的背景屬性特征的選取,結(jié)合學(xué)生背景與企業(yè)招聘時(shí)的關(guān)注點(diǎn),確定采用學(xué)生的性別、籍貫、學(xué)校、學(xué)位、專(zhuān)業(yè)、英語(yǔ)水平、實(shí)習(xí)經(jīng)驗(yàn)、獲獎(jiǎng)這幾項(xiàng)作為學(xué)生的背景屬性構(gòu)成背景屬性向量B={b1,b2,b3,b4,b5,b6,b7,b8},利用學(xué)生的背景屬性向量進(jìn)行學(xué)生之間的相似度計(jì)算,舉例如下:
對(duì)于學(xué)生a和學(xué)生b,對(duì)比2人的背景屬性向量,若Baj=Bbj(Baj代表學(xué)生a的第j項(xiàng)背景屬性,Bbj代表學(xué)生b的第j項(xiàng)背景屬性),則學(xué)生a和學(xué)生b之間的相似向量S_abj=1,否則S_abj=0。根據(jù)相似向量S,計(jì)算學(xué)生a和學(xué)生b之間的相似度,計(jì)算公式如式(10)所示。
(10)
根據(jù)相似學(xué)生的評(píng)分?jǐn)?shù)據(jù)對(duì)該學(xué)生的評(píng)分?jǐn)?shù)據(jù)進(jìn)行填充。在計(jì)算時(shí),需要考慮學(xué)生相似集合中的學(xué)生評(píng)分信息以及學(xué)生之間的行為相似性。學(xué)生之間的行為相似性利用學(xué)生在系統(tǒng)中的行為數(shù)據(jù)進(jìn)行計(jì)算。行為相似性分為3個(gè)部分:搜索行為相似性、瀏覽行為相似性以及收藏行為相似性,其中瀏覽行為指點(diǎn)擊標(biāo)題、查看詳情、瀏覽官網(wǎng)中的任意一種。計(jì)算公式如式(11)~(14)所示。
其中:S_Aij表示學(xué)生i和學(xué)生j的行為相似性;S_cij表示學(xué)生i和學(xué)生j的搜索行為相似性;S_fij表示學(xué)生i和學(xué)生j的瀏覽行為相似性;S_dij表示學(xué)生i和學(xué)生j的搜藏行為相似性;P_ci表示學(xué)生i搜索過(guò)的職位集合;P_fi表示學(xué)生i瀏覽過(guò)的職位集合;P_di表示學(xué)生i搜藏過(guò)的職位集合。
最后根據(jù)行為相似性和相似用戶(hù)集合進(jìn)行評(píng)分填充。詳細(xì)計(jì)算公式如式(15)所示。
(15)
根據(jù)最終的評(píng)分矩陣,采用調(diào)整的余弦相似度,對(duì)職位之間的相似度進(jìn)行計(jì)算,找出職位相似集合P,計(jì)算公式如式(16)所示。
(16)
采用偏好計(jì)算公式(17),預(yù)測(cè)待推薦學(xué)生對(duì)未評(píng)分企業(yè)的評(píng)分值。
(17)
最后,考慮到學(xué)生被企業(yè)的成功錄用幾率隨著企業(yè)在招聘人數(shù)上的需求呈負(fù)相關(guān)關(guān)系,也就是隨著企業(yè)招聘時(shí)間的延長(zhǎng),企業(yè)需求人數(shù)也在下降,學(xué)生應(yīng)聘成功的機(jī)率也會(huì)減小,所以在最終的評(píng)分值這里,考慮到對(duì)應(yīng)聘成功率的影響,加入了時(shí)間因素,如公式(18),得到最終評(píng)分計(jì)算公式(19),根據(jù)預(yù)測(cè)的評(píng)分值對(duì)企業(yè)進(jìn)行排序,選取TOP-N推薦給學(xué)生。
系統(tǒng)服務(wù)完成后,提取就業(yè)信息網(wǎng)站上的歷史信息作為實(shí)驗(yàn)數(shù)據(jù),以是否投遞過(guò)簡(jiǎn)歷作為依據(jù),對(duì)算法進(jìn)行分析與評(píng)價(jià),并與傳統(tǒng)的基于用戶(hù)的協(xié)同過(guò)濾算法進(jìn)行比較。實(shí)驗(yàn)在個(gè)人PC機(jī)上完成,配置為Intel i-7-3770 3.4 GHz CPU,32 G內(nèi)存,操作系統(tǒng)選取Win 10,開(kāi)發(fā)語(yǔ)言采用Python語(yǔ)言。具體實(shí)驗(yàn)過(guò)程如下:
1) 對(duì)于每個(gè)學(xué)生,分別刪除部分其對(duì)已投遞過(guò)和未投遞過(guò)簡(jiǎn)歷的企業(yè)行為信息;
2) 設(shè)定推薦企業(yè)招聘信息的數(shù)量;
3) 運(yùn)行算法,進(jìn)行測(cè)試,記錄推薦結(jié)果;
4) 得出算法的精確率Pre,召回率Rec。
精確率Pre和召回率Rec的定義如式(20)~(21)所示。
其中:S表示學(xué)生集合;W(s)表示推薦給學(xué)生的企業(yè)集合;U(s)表示實(shí)驗(yàn)步驟(1)中刪除的已投遞過(guò)簡(jiǎn)歷的企業(yè)集合。
測(cè)試結(jié)果如圖3、圖4所示。
圖3 算法精確率對(duì)比Fig.3 Precision comparison
圖4 算法召回率對(duì)比Fig.4 Recall comparison
圖5 算法綜合對(duì)比Fig.5 Comprehensive comparison
由測(cè)試結(jié)果可知,企業(yè)招聘信息推薦數(shù)量較少時(shí)精確率較高,隨著推薦數(shù)量的增加,精確率呈現(xiàn)先下降再上升的狀態(tài),當(dāng)推薦信息達(dá)到一定數(shù)量時(shí),準(zhǔn)確率又開(kāi)始下降;召回率隨著推薦數(shù)量的增加不斷上升,但增長(zhǎng)趨勢(shì)逐漸變緩。在推薦數(shù)量取值為16時(shí),相對(duì)于傳統(tǒng)的基于用戶(hù)的協(xié)同過(guò)濾算法,本文的推薦算法的正確率達(dá)到79%,提高了8%左右,召回率達(dá)到70%,提高了5%左右。
對(duì)準(zhǔn)確率和召回率進(jìn)行綜合考慮,計(jì)算P和R的調(diào)和平均值F=(2×P×R)/(P+R),結(jié)果如圖5所示。
由圖5可知,本文算法的調(diào)和平均值F高于傳統(tǒng)的基于用戶(hù)的協(xié)同過(guò)濾算法,隨著推薦數(shù)量的增加,F的值也在增加,在推薦數(shù)量為16時(shí),推薦效果達(dá)到峰值。
綜上分析,本文提出的推薦算法具有較高的性能,無(wú)論在正確率還是在召回率上都要優(yōu)于傳統(tǒng)的基于用戶(hù)的協(xié)同過(guò)濾推薦算法,滿(mǎn)足個(gè)性化就業(yè)信息推薦服務(wù)的基本需求。
本文將個(gè)性化推薦服務(wù)技術(shù)應(yīng)用于就業(yè)信息系統(tǒng)中,在就業(yè)信息系統(tǒng)中引入就業(yè)信息推薦服務(wù),提出了基于用戶(hù)行為信息分析的學(xué)生用戶(hù)興趣模型獲取方法和基于評(píng)分矩陣的就業(yè)信息推薦方法,該服務(wù)可以有效地提高就業(yè)信息系統(tǒng)的服務(wù)質(zhì)量和使用效率。
沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年4期