付俊生 蘇小魯
隨著互聯(lián)網(wǎng)的普及以及全球金融危機(jī)的影響,越來越多的求職者利用互聯(lián)網(wǎng)發(fā)布簡歷尋找工作職位,包括眾多的海外求職者也希望能到中國淘金。中國市場上傳統(tǒng)的人力資源網(wǎng)站例如51job、ChinaHR等也都面向海外求職者開辟了招聘頻道或者與國外的公司進(jìn)行合作。這樣的平臺面向海外求職者免費(fèi)注冊并可填寫簡歷,并為國內(nèi)用人單位提供了眾多優(yōu)秀的人才。但因?yàn)槭情_放的平臺,所有訪問者都可以免費(fèi)注冊,因此簡歷庫中很多注冊用戶都稱不上高層次人才,只是普通的海外求職者,并且已經(jīng)逐漸不能滿足用人單位對優(yōu)秀人才的渴求。
黨中央對于當(dāng)前的國際人才競爭也非常重視,提出把實(shí)施“千人計(jì)劃”、引進(jìn)高層次海外人才,作為提升企業(yè)核心競爭力的緊迫戰(zhàn)略任務(wù),努力為企業(yè)發(fā)展、國家富強(qiáng)廣攬?zhí)煜氯瞬?。中央各個(gè)部門也都在建立人才資源庫。但是由于渠道單一、專業(yè)性強(qiáng),造成了各個(gè)海外高層次人才資源庫信息量都較小,且相對集中在特定的領(lǐng)域,無法滿足國內(nèi)企業(yè)對于各類高層次海外人才的渴求。
為了充實(shí)我們的海外高層次人才簡歷庫,應(yīng)對日益激烈的國際人才競爭,貫徹落實(shí)中央人才強(qiáng)國戰(zhàn)略,國家外國專家局國外人才信息研究中心對互聯(lián)網(wǎng)上諸多國際知名的大學(xué)、科研院所、企業(yè)機(jī)構(gòu)和各國政府網(wǎng)站中公開發(fā)布的高層次人才簡歷信息進(jìn)行了分析。我們認(rèn)為將互聯(lián)網(wǎng)上公開的簡歷信息搜集到一起并提供給國內(nèi)有需求的用人單位,將為引進(jìn)高層次海外人才提供更多的渠道和更有價(jià)值的信息。因此我們產(chǎn)生了開發(fā)海外高層次人才簡歷搜索引擎的設(shè)想。目的是借助互聯(lián)網(wǎng)這個(gè)工具,在已有的Chinajob.com國際人才交流平臺的基礎(chǔ)上,挖掘在互聯(lián)網(wǎng)上公開的海外高層次人才簡歷,充實(shí)我們的人力資源庫,為國內(nèi)的企業(yè)單位提供更加廣泛的渠道和信息。
根據(jù)需求,本搜索引擎只針對互聯(lián)網(wǎng)上公開的高層次人才簡歷信息進(jìn)行搜索過濾和抓取,因此我們采用了廣域網(wǎng)搜索、垂直搜索和索引頁面搜索相結(jié)合的方式,通過人工輸入的特定的URL進(jìn)行遍歷,對遍歷到的頁面根據(jù)設(shè)定好的過濾算法及詞頻算法進(jìn)行分析,符合條件的頁面被認(rèn)定為是簡歷信息并保存到本地的數(shù)據(jù)庫。
下面簡單介紹一下三種搜索方式的區(qū)別:
1、廣域網(wǎng)搜索:通過工作人員在后臺添加特定的網(wǎng)頁URL,并開啟蜘蛛程序?qū)υ揢RL進(jìn)行遍歷、分析和過濾,遍歷過程中首先將每個(gè)頁面下的標(biāo)記地址記錄在待搜索頁面列表中,在處理完當(dāng)前頁面后,從待搜索頁面列表中取出下一個(gè)URL再執(zhí)行分析和過濾的流程。直到將本URL下所有頁面遍歷完畢,并將符合過濾條件的簡歷信息保存到本地?cái)?shù)據(jù)庫中。
2、垂直搜索:通過工作人員在互聯(lián)網(wǎng)上查找到專業(yè)的簡歷搜索網(wǎng)站或人才庫,根據(jù)其URL參數(shù)為ID輪詢或分頁輪詢分別由蜘蛛程序?qū)ζ湎旅總€(gè)子頁面進(jìn)行直接抓取,保存到本地?cái)?shù)據(jù)庫。采用這種方式搜索到的簡歷信息可以保證其真實(shí)可用性,并大大簡化了后面的數(shù)據(jù)處理過程。
3、索引頁面搜索:通過工作人員在互聯(lián)網(wǎng)上查找到特定的組織機(jī)構(gòu)人員建立頁面URL,提交并開啟蜘蛛程序。蜘蛛程序默認(rèn)該頁面下所有子頁面為簡歷信息頁面并進(jìn)行抓取,保存到本地?cái)?shù)據(jù)庫。
對數(shù)據(jù)抓取過程完畢后,需要由工作人員對本地?cái)?shù)據(jù)進(jìn)行再處理才能進(jìn)入前臺展示數(shù)據(jù)庫。工作人員為每個(gè)特定URL下抓取的頁面進(jìn)行分析,建立頁面過濾規(guī)則,去除掉源頁面的頁頭和其他無用信息。建立規(guī)則可對所有符合該URL特征的頁面直接執(zhí)行過濾操作,完成數(shù)據(jù)的批量處理,并進(jìn)入前臺展示數(shù)據(jù)庫。
系統(tǒng)后臺由蜘蛛管理模塊、后臺管理模塊以及系統(tǒng)監(jiān)控三個(gè)模塊組成。其中系統(tǒng)監(jiān)控模塊只有系統(tǒng)管理員可以執(zhí)行操作。
蜘蛛管理模塊后臺分為系統(tǒng)管理員權(quán)限和系統(tǒng)操作員權(quán)限對蜘蛛的運(yùn)行進(jìn)行管理操作。
后臺管理模塊共設(shè)置了三種權(quán)限的管理員,分別為系統(tǒng)管理員、普通管理員和地方外專局。其中系統(tǒng)管理員可以對系統(tǒng)的用戶、參數(shù)、數(shù)據(jù)、日志等所有信息進(jìn)行管理操作;普通管理員可以對蜘蛛數(shù)據(jù)、展示數(shù)據(jù)、簡歷錄入及批量導(dǎo)入進(jìn)行管理操作;地方外專局用戶可對展示數(shù)據(jù)進(jìn)行管理并可錄入簡歷。
設(shè)置地方外專局用戶以及簡歷錄入功能是為了靈活的擴(kuò)展我們的高層次人才簡歷庫而開發(fā)的功能。我們可以為更多的合作伙伴添加后臺管理賬戶,方便他們將自己所有的專家簡歷信息輸入到我們的數(shù)據(jù)庫中,這些人工輸入的簡歷信息將被系統(tǒng)認(rèn)為是權(quán)重最高的簡歷,在前臺用戶搜索的展示列表中將最先展示這些簡歷信息。合作單位還可以針對每條簡歷信息添加評論并與其他注冊用戶共享評論信息,建立起有效的評價(jià)體系,為用人單位提供較好的評價(jià)查詢功能。
系統(tǒng)前臺搜索為用戶提供了關(guān)鍵詞搜索、屏幕劃詞翻譯和高級搜索功能,用戶可在搜索框中輸入關(guān)鍵詞進(jìn)行搜索,或者點(diǎn)擊系統(tǒng)提供的關(guān)鍵詞列表進(jìn)行搜索。同時(shí)為普通用戶提供了劃詞翻譯,使一般用戶可及時(shí)查詢到與中文相對應(yīng)的英文關(guān)鍵詞。
高級搜索功能為用戶提供了關(guān)鍵詞分類、語種、學(xué)歷等選項(xiàng),為用戶提供多詞復(fù)合查詢的功能。
在每個(gè)搜索結(jié)果頁面為用戶提供信息最初來源的鏈接,使用戶可以得到更多有用的信息。
本搜索引擎采用的搜索策略及方式區(qū)別于廣域網(wǎng)海搜方式,因此只要修改過濾算法以及詞頻表便可應(yīng)用于其他行業(yè)中,在未來可與更多的企業(yè)機(jī)構(gòu)進(jìn)行合作開發(fā),拓展更多的領(lǐng)域。
以海外高層次人才簡歷搜索引擎為基礎(chǔ),我們還可以進(jìn)一步加強(qiáng)對簡歷信息來源的控制,增加評價(jià)體系中對專家成就、學(xué)術(shù)會(huì)議、論文與著作等信息的添加管理,以此提高簡歷的質(zhì)量控制。
進(jìn)一步加強(qiáng)高層次人才簡歷搜索引擎的推廣與應(yīng)用,建立會(huì)員機(jī)制,變單向服務(wù)為平臺服務(wù)。
在現(xiàn)有資源的基礎(chǔ)上,努力建設(shè)高層次海外人才資源庫,拓寬人才信息渠道,吸引更多優(yōu)秀的海外人才,為應(yīng)對國際金融危機(jī)、推動(dòng)科學(xué)發(fā)展提供人才保證。
(作者單位:國家外國專家局國外人才信息研究中心)