嚴(yán)慧琳
黎明職業(yè)大學(xué) 商學(xué)院,福建 泉州 362000
大學(xué)生就業(yè)問題屬于高校人才培養(yǎng)急需解決的問題,該問題在社會(huì)上的關(guān)注度很高[1]。在互聯(lián)網(wǎng)時(shí)代下,高校就業(yè)信息搜索模型水平的要求也逐漸增加,通過高校就業(yè)信息搜索模型實(shí)現(xiàn)就業(yè)信息的采集,解決大學(xué)生就業(yè)困難的問題,促進(jìn)大學(xué)生對口專業(yè)就業(yè)的精準(zhǔn)性[2-4]。
通用搜索模型是對全部互聯(lián)網(wǎng)信息實(shí)施采集與索引,因此該模型的查全率較高,但其覆蓋的信息較為廣泛,這導(dǎo)致該模型信息分類的精準(zhǔn)性較低,不能滿足用戶高查準(zhǔn)率的信息搜索要求。垂直搜索模型通過一定的策略實(shí)現(xiàn)遍歷深度與廣度的干預(yù),使模型能夠遍歷所有和主題有關(guān)的網(wǎng)頁,再篩選出合理的遍歷結(jié)果,垂直搜索模型具有更為專注、精準(zhǔn)與深入的優(yōu)點(diǎn)。謝曉暉等研究了基于深度神經(jīng)網(wǎng)絡(luò)的搜索引擎點(diǎn)擊模型構(gòu)建[5],程煜華研究了基于D-S 證據(jù)理論的信息檢索模型[6],這兩個(gè)搜索模型的準(zhǔn)確率與搜索效率均不高。
高校就業(yè)信息垂直搜索模型主要通過5 個(gè)步驟實(shí)現(xiàn)信息搜索,分別為URL(Uniform Resource Locator,統(tǒng)一資源定位符)、信息采集、信息去噪、構(gòu)建索引與信息搜索,圖1 為具體步驟流程圖。
圖1 互聯(lián)網(wǎng)時(shí)代高校就業(yè)信息垂直搜索模型
步驟1:以門戶網(wǎng)站就業(yè)信息板塊與權(quán)威就業(yè)信息網(wǎng)站的URL 為就業(yè)信息集的獲取途徑,通過人工發(fā)現(xiàn)方式獲取URL 初始就業(yè)信息。
步驟2:利用深度就業(yè)信息方法結(jié)合網(wǎng)絡(luò)爬蟲技術(shù),獲取URL 就業(yè)信息網(wǎng)頁與包括就業(yè)信息的超鏈網(wǎng)頁信息,采用 DOM (Document Object Model,文檔對象模型)技術(shù)分析與提取各個(gè)URL 就業(yè)信息網(wǎng)頁,包括就業(yè)信息的超鏈接網(wǎng)頁信息內(nèi)的就業(yè)名稱與地址等信息。
步驟3:基于節(jié)點(diǎn)權(quán)重去噪處理URL 就業(yè)信息網(wǎng)頁,包括就業(yè)信息超鏈網(wǎng)頁的就業(yè)名稱與地址等,去除無效與干擾信息,存儲于URL 資源庫。
步驟4:通過排序策略對資源庫內(nèi)的網(wǎng)頁構(gòu)建索引,形成索引庫。
步驟5:采用基于超鏈接和標(biāo)記文本算法實(shí)現(xiàn)高校就業(yè)信息搜索。
利用深度服務(wù)信息自動(dòng)采集算法實(shí)現(xiàn)高校就業(yè)信息采集。圖2 為深度服務(wù)信息采集流程。
圖2 深度就業(yè)信息采集方法
采集方法流程步驟如下:
步驟1:通過原地圖矢量數(shù)據(jù)對POI(Point Of Interest,信息點(diǎn))的分類編碼搜索就業(yè)信息名稱與地址等POI 點(diǎn)數(shù)據(jù),依據(jù)定義結(jié)構(gòu)形成深度就業(yè)信息點(diǎn),就業(yè)信息字段空缺。
步驟2:利用網(wǎng)絡(luò)爬蟲獲取就業(yè)信息類網(wǎng)站上發(fā)布就業(yè)信息的服務(wù)地點(diǎn)URL,利用DOM 技術(shù)分析與提取各個(gè)URL 內(nèi)就業(yè)信息的名稱與地址。
步驟3:計(jì)算步驟1 內(nèi)獲取的各個(gè)深度就業(yè)信息點(diǎn)內(nèi)的名稱、地址等字段和步驟2 內(nèi)得到的各個(gè)URL 相應(yīng)的名稱、地址等字符串相似度,選取最優(yōu)URL 頁面的深度就業(yè)信息[7,8],利用編輯距離與最大公共子序列算法補(bǔ)充步驟1 內(nèi)空缺的就業(yè)信息。
1.2.1 算法基本思想
基于節(jié)點(diǎn)權(quán)重的去噪算法以VIPS(Visionbased Page Segmentation,基于頁面視覺分塊算法)為基礎(chǔ),將VPIS 形成的基本視覺塊樹轉(zhuǎn)換成樣式樹,通過樣式樹節(jié)點(diǎn)內(nèi)的樣式特征,先將葉子節(jié)點(diǎn)劃分為細(xì)粒度的樣式樹,然后權(quán)重標(biāo)注樣式樹,最后依據(jù)權(quán)重標(biāo)注實(shí)施剪枝,形成去噪后的URL 就業(yè)信息[9]。圖3 為URL 就業(yè)信息的去噪流程。
圖3 URL 就業(yè)信息去噪流程
一般情況下,所形成的樣式樹沒有權(quán)重表示,可以屬性節(jié)點(diǎn)為基礎(chǔ),加入權(quán)重節(jié)點(diǎn)的概念。FT代表權(quán)重節(jié)點(diǎn)T,可記為F,(k,u,t,m),k為當(dāng)前節(jié)點(diǎn)內(nèi)鏈接數(shù)與總鏈接數(shù)的比值,也叫鏈接比;u為當(dāng)前節(jié)點(diǎn)和容器節(jié)點(diǎn)在樹形結(jié)構(gòu)中的距離,也叫樹路徑距離;t為總文本中當(dāng)前節(jié)點(diǎn)的所占比例,也叫文本比;m為節(jié)點(diǎn)私有屬性的權(quán)重系數(shù)。利用節(jié)點(diǎn)的標(biāo)簽數(shù)量n歸一化值R(Fj),可確保R(Fj)值處于[0,1]之間,公式如下:
式(1)中,第j個(gè)標(biāo)簽的鏈接比是kj;第kj個(gè)標(biāo)簽的文本系數(shù)是tj;第j個(gè)標(biāo)簽的樹路徑距離是uj;權(quán)重樹內(nèi)的節(jié)點(diǎn)路徑和是D。
1.2.2 視覺塊樹細(xì)粒度化
VIPS 形成的視覺樹,僅是大概提取URL 就業(yè)信息頁面的基本布局信息,粗粒度的視覺塊樹先將噪聲與正文整合在同一個(gè)塊內(nèi),再實(shí)施細(xì)粒度化。利用樣式節(jié)點(diǎn)與屬性節(jié)點(diǎn)對形成的樣式樹實(shí)施標(biāo)注。通過子元素的相似度分析已完成標(biāo)注的塊節(jié)點(diǎn)。二元組
在相關(guān)系數(shù)比較小時(shí),需要分裂子節(jié)點(diǎn),通過從上至下的層次遍歷方式,實(shí)現(xiàn)初步分裂視覺樹。
1.2.3 細(xì)節(jié)樹剪枝
通過上述方法獲取的是一顆基于樣式的視覺樹,對于樣式與基本屬性方面,已經(jīng)不能細(xì)分,以基于樣式的視覺樹為基礎(chǔ),實(shí)施噪聲的判斷[10,11]。通過統(tǒng)計(jì)大量線上URL 就業(yè)信息頁面發(fā)現(xiàn),噪聲區(qū)域的鏈接比通常多于正文區(qū)域,文本比較低,樹距離較淺。這需要加入權(quán)重節(jié)點(diǎn)的概念,以從上至下的方式標(biāo)注細(xì)粒度化的視覺塊樹,再剪枝處理權(quán)重低的節(jié)點(diǎn)。初次遍歷時(shí),可刪除具有樣式樹節(jié)點(diǎn)內(nèi)存在的鍵值對 position:fixed 與 display:none 的節(jié)點(diǎn),實(shí)施一次簡單的預(yù)處理,position:fixed 在網(wǎng)頁內(nèi)屬于懸浮窗,display:none 在網(wǎng)頁內(nèi)屬于不做顯示的元素,根據(jù)觀察很多網(wǎng)頁的經(jīng)驗(yàn)發(fā)現(xiàn),position:fixed與display:none 均是判斷噪聲節(jié)點(diǎn)的主要依據(jù)。
剪枝算法的步驟為:
步驟1:得到樣式樹,假設(shè)Tj為樣式樹。
步驟2:循環(huán)處理樣式樹的各個(gè)節(jié)點(diǎn)Fj。
步驟3:如果一個(gè)節(jié)點(diǎn)的css(Cascading Style Sheets,層疊樣式表)屬性內(nèi)存在position:fixed 與display:none 等鍵值對,就需要?jiǎng)h除這個(gè)節(jié)點(diǎn)。
步驟4:計(jì)算出文本比與節(jié)點(diǎn)的距離深度后,計(jì)算權(quán)重值R(Fj)。
步驟5:循環(huán)處理樣式樹的各個(gè)節(jié)點(diǎn)FT。
步驟6:去除平級節(jié)點(diǎn)內(nèi)權(quán)重較小的節(jié)點(diǎn)。
1.3.1 算法描述
利用基于超鏈接和標(biāo)記文本的算法實(shí)現(xiàn)高校就業(yè)信息的搜索,具體步驟如下:
另一方面,銷售成本的增加以及銷售收入的降低都將導(dǎo)致企業(yè)毛利率的下降,米奧會(huì)展2016年較2015年度平均銷售單價(jià)上漲14.79%,而平均單位銷售成本上漲30.69%,其中單位宣傳推廣成本上漲136.98%;2017年較2016年度平均銷售單價(jià)下降1.23%,同期平均單位銷售成本上漲3.14%,單位宣傳推廣成本下降0.60%。由此可見,宣傳推廣成本的增加也是導(dǎo)致境外自辦展毛利率下降的主要因素。
步驟1:將索引庫內(nèi)的就業(yè)信息網(wǎng)頁當(dāng)作圖G,圖G內(nèi)各個(gè)文檔B均有Authority 與Hub 兩個(gè)值。其中,Authority 表示一個(gè)權(quán)威URL 就業(yè)信息網(wǎng)頁的入度值,就是該URL 就業(yè)信息網(wǎng)頁被其余網(wǎng)頁引用的數(shù)量。一個(gè)網(wǎng)頁的入度值與Authority 值成正比。Hub 表示一個(gè)URL 就業(yè)信息網(wǎng)頁的出度值,就是該URL 就業(yè)信息網(wǎng)頁指向其余網(wǎng)頁的數(shù)量,可獲取指向權(quán)威網(wǎng)頁的鏈接集合。某一個(gè)網(wǎng)頁的出度值與該網(wǎng)頁的Hub 值成正比,Hub 網(wǎng)頁具有隱含說明某一個(gè)就業(yè)話題權(quán)威網(wǎng)頁的作用。優(yōu)質(zhì)的Hub 網(wǎng)頁為指向很多存在很高的Authority 值的網(wǎng)頁,優(yōu)質(zhì)的Authority 網(wǎng)頁為通過數(shù)個(gè)很高的Hub 值所指向的網(wǎng)頁。用A[B]代表Authority 值,用H[B]代表Hub值其中,網(wǎng)頁集合是V。
步驟 2:初始化A[B]與H[B],獲取A[B]=1 與H[B]=1。
步驟3:內(nèi)容匹配,匹配所搜索關(guān)鍵字和鏈接中的標(biāo)記文本,若匹配,那么對鏈宿網(wǎng)頁賦予標(biāo)記,再計(jì)算得到這個(gè)網(wǎng)頁的權(quán)值weight(B),若不匹配,那么掃描在這個(gè)網(wǎng)頁內(nèi)的全部內(nèi)容,再計(jì)算得到對應(yīng)的權(quán)值weight(B)。
步驟4:歸一化權(quán)值weight(B)。
步驟6:計(jì)算Authority 值與Hub 值的權(quán)值為
H[B]=weight(B)×H[B]
步驟7:歸一化處理所計(jì)算得到的A值與H值,即
步驟8:如果A值與H值沒有收斂的情況下,轉(zhuǎn)到步驟5。
步驟9:設(shè)置Y為門檻值,同時(shí)選出A值與H值超過Y的全部網(wǎng)頁和賦以標(biāo)記的網(wǎng)頁,按照排序輸出搜索結(jié)果[12-14]。
1.3.2 文檔相關(guān)度權(quán)值的計(jì)算
文檔的相關(guān)度權(quán)值就是文檔和搜索條件的相似程度,權(quán)值與相似程度成正比,權(quán)值越高,和文檔相關(guān)性越高[15]。在搜索條件和超鏈接中標(biāo)記的文本匹配情況下,依據(jù)N層向量空間模型算法,在邏輯上將一個(gè)文檔劃分成N個(gè)相對獨(dú)立的文本段,通過文本段的內(nèi)容構(gòu)建文本特征向量與文本權(quán)值向量。超鏈接屬于一個(gè)獨(dú)立的文本段,能夠通過N層向量空間模型算法計(jì)算各個(gè)URL 就業(yè)信息網(wǎng)頁的權(quán)值,計(jì)算公式為:
式(3)中,G網(wǎng)頁特征項(xiàng)hG的權(quán)值是WG,鏈接中標(biāo)記文本的長度是L,G網(wǎng)頁特征項(xiàng)hG在鏈接中出現(xiàn)的頻率是hf G,那么第a條匹配的超鏈接權(quán)值為:
式(4)、(5)中,匹配的超鏈接條數(shù)是b,搜索條件內(nèi)不同特征項(xiàng)數(shù)量是e。
在搜索條件和標(biāo)記文本不匹配的情況下,掃描URL 就業(yè)信息網(wǎng)頁全部內(nèi)容,利用TF*IDF 方法計(jì)算文檔的相似度,公式為:
式(6)中,特征項(xiàng)hG表示文檔dz的能力大小是WzG,特征項(xiàng)hG在文檔dz內(nèi)出現(xiàn)的頻率是hf zG,文檔集合中的文檔個(gè)數(shù)是N,文檔集合中出現(xiàn)特征項(xiàng)hG的文檔個(gè)數(shù)是BG,特征項(xiàng)hG反比文檔頻率是zdf G。
根據(jù)式(6)發(fā)現(xiàn),hf zG與WzG成正比,BG與WzG成反比,表示特征項(xiàng)可以代表文檔的內(nèi)容。
利用余弦公式計(jì)算全部URL 就業(yè)信息網(wǎng)頁權(quán)值,第z篇文檔和搜索條件Q的相關(guān)性是S(dz,Q),公式如(7)所示:
從互聯(lián)網(wǎng)中下載1 000 個(gè)網(wǎng)頁為實(shí)驗(yàn)對象,將其平均分為10 組,每組包含50 個(gè)屬于高校就業(yè)信息的網(wǎng)頁,分析本文模型搜索高校就業(yè)信息的性能。
采用本文模型與文獻(xiàn)[5]模型、文獻(xiàn)[6]模型在1 000 個(gè)網(wǎng)頁中采集有關(guān)高校就業(yè)信息的網(wǎng)頁,其中基于深度神經(jīng)網(wǎng)絡(luò)的搜索引擎點(diǎn)擊模型構(gòu)建與基于D-S 證據(jù)理論的信息檢索模型研究,分別是文獻(xiàn)[5]模型與文獻(xiàn)[6]模型,表1 為三種模型的采集結(jié)果。
表1 三種模型的采集結(jié)果
根據(jù)表1 可知,本文模型能夠有效采集到有關(guān)高校就業(yè)的網(wǎng)頁,準(zhǔn)確性更高。
利用可以同時(shí)兼顧準(zhǔn)確率與召回率的F-measure 作為綜合評價(jià)指標(biāo),測試三種模型對網(wǎng)頁去噪處理的準(zhǔn)確率,準(zhǔn)確率公式為:
式(8)、(9)中,當(dāng)前網(wǎng)頁被抽取出的正文塊是λ0;當(dāng)前網(wǎng)頁內(nèi)全部的正文塊是λ1;正文內(nèi)抽取出來的信息塊是λ2。
在F-measure 公式內(nèi)β用于調(diào)整準(zhǔn)確率與召回率的權(quán)重,實(shí)驗(yàn)中只需考慮網(wǎng)頁抽取的準(zhǔn)確率與召回率,故選擇1 為β值,判斷去噪效果的公式為:
利用三種模型對1 000 個(gè)網(wǎng)頁實(shí)施去噪處理,圖4、圖5 與圖6 分別為三種模型的去噪處理準(zhǔn)確率、召回率與F-measure 值。
圖4 三種模型去噪處理的準(zhǔn)確率
圖5 三種模型去噪處理的召回率
圖6 三種模型的F-measure 值
根據(jù)圖4、圖5 與圖6 可知,本文模型能夠有效對所采集的高校就業(yè)信息網(wǎng)頁實(shí)施去噪處理,去噪準(zhǔn)確性更高。
評價(jià)就業(yè)信息搜索模型性能的主要指標(biāo)是查全率與查準(zhǔn)率。查全率為搜索到的相關(guān)高校就業(yè)信息網(wǎng)頁和全部符合條件的高校就業(yè)信息網(wǎng)頁數(shù)量的比例;查準(zhǔn)率為搜索到的相關(guān)高校就業(yè)信息網(wǎng)頁和搜索到的所有網(wǎng)頁的比率。
利用三種模型搜索100 個(gè)文本文件中的高校就業(yè)信息,測試三種模型在Authority 值與Hub 值情況下的查準(zhǔn)率與查全率,表2 與表3 分別是兩種值情況下的查全率與查準(zhǔn)率。
表2 Authority 值情況下的查全率與查準(zhǔn)率
表3 Hub 值情況下的查準(zhǔn)率與查全率
根據(jù)表2 與表3 可知,三種模型均是隨著查全率的不斷提升,呈現(xiàn)查準(zhǔn)率逐漸降低的趨勢。實(shí)驗(yàn)證明:本文模型的查全率與查準(zhǔn)率均高于其余兩種模型,能夠有效克服主題偏離情況。
為分析本文模型的搜索性能,測試三種模型的排序誤差率與查詢速度,分別如圖7 與圖8 所示。
圖7 三種模型的排序誤差率
圖8 三種模型的搜索時(shí)間
根據(jù)圖7 可知,三種模型的排序誤差率均隨著文本文件數(shù)量的增加而增加,本文模型排序誤差率的增加幅度明顯低于其余兩種模型。
根據(jù)圖8 可知,隨著文本文件數(shù)目的不斷增多,三種模型的搜索時(shí)間均有所增長,本文模型的搜索時(shí)間增長得比較平緩,其余兩種模型的搜索時(shí)間的增長幅度較大。
搜索模型屬于互聯(lián)網(wǎng)中重要的信息采集工具,垂直搜索模型是第四代搜索模型,屬于針對指定領(lǐng)域的搜索模型,比通用搜索模型更為專業(yè)?;ヂ?lián)網(wǎng)時(shí)代高校就業(yè)信息垂直搜索模型,僅對垂直搜索模型實(shí)施了初步研究,日后在保證搜索準(zhǔn)確率與搜索效率的同時(shí),還可深入研究大學(xué)生的查詢記錄,挖掘大學(xué)生潛在的求職意向,優(yōu)化搜索的排序結(jié)果。