• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      互聯(lián)網(wǎng)時(shí)代高校就業(yè)信息垂直搜索模型

      2021-09-13 09:11:20嚴(yán)慧琳
      普洱學(xué)院學(xué)報(bào) 2021年3期
      關(guān)鍵詞:樣式權(quán)值網(wǎng)頁

      嚴(yán)慧琳

      黎明職業(yè)大學(xué) 商學(xué)院,福建 泉州 362000

      大學(xué)生就業(yè)問題屬于高校人才培養(yǎng)急需解決的問題,該問題在社會(huì)上的關(guān)注度很高[1]。在互聯(lián)網(wǎng)時(shí)代下,高校就業(yè)信息搜索模型水平的要求也逐漸增加,通過高校就業(yè)信息搜索模型實(shí)現(xiàn)就業(yè)信息的采集,解決大學(xué)生就業(yè)困難的問題,促進(jìn)大學(xué)生對口專業(yè)就業(yè)的精準(zhǔn)性[2-4]。

      通用搜索模型是對全部互聯(lián)網(wǎng)信息實(shí)施采集與索引,因此該模型的查全率較高,但其覆蓋的信息較為廣泛,這導(dǎo)致該模型信息分類的精準(zhǔn)性較低,不能滿足用戶高查準(zhǔn)率的信息搜索要求。垂直搜索模型通過一定的策略實(shí)現(xiàn)遍歷深度與廣度的干預(yù),使模型能夠遍歷所有和主題有關(guān)的網(wǎng)頁,再篩選出合理的遍歷結(jié)果,垂直搜索模型具有更為專注、精準(zhǔn)與深入的優(yōu)點(diǎn)。謝曉暉等研究了基于深度神經(jīng)網(wǎng)絡(luò)的搜索引擎點(diǎn)擊模型構(gòu)建[5],程煜華研究了基于D-S 證據(jù)理論的信息檢索模型[6],這兩個(gè)搜索模型的準(zhǔn)確率與搜索效率均不高。

      1 高校就業(yè)信息垂直搜索模型

      高校就業(yè)信息垂直搜索模型主要通過5 個(gè)步驟實(shí)現(xiàn)信息搜索,分別為URL(Uniform Resource Locator,統(tǒng)一資源定位符)、信息采集、信息去噪、構(gòu)建索引與信息搜索,圖1 為具體步驟流程圖。

      圖1 互聯(lián)網(wǎng)時(shí)代高校就業(yè)信息垂直搜索模型

      步驟1:以門戶網(wǎng)站就業(yè)信息板塊與權(quán)威就業(yè)信息網(wǎng)站的URL 為就業(yè)信息集的獲取途徑,通過人工發(fā)現(xiàn)方式獲取URL 初始就業(yè)信息。

      步驟2:利用深度就業(yè)信息方法結(jié)合網(wǎng)絡(luò)爬蟲技術(shù),獲取URL 就業(yè)信息網(wǎng)頁與包括就業(yè)信息的超鏈網(wǎng)頁信息,采用 DOM (Document Object Model,文檔對象模型)技術(shù)分析與提取各個(gè)URL 就業(yè)信息網(wǎng)頁,包括就業(yè)信息的超鏈接網(wǎng)頁信息內(nèi)的就業(yè)名稱與地址等信息。

      步驟3:基于節(jié)點(diǎn)權(quán)重去噪處理URL 就業(yè)信息網(wǎng)頁,包括就業(yè)信息超鏈網(wǎng)頁的就業(yè)名稱與地址等,去除無效與干擾信息,存儲于URL 資源庫。

      步驟4:通過排序策略對資源庫內(nèi)的網(wǎng)頁構(gòu)建索引,形成索引庫。

      步驟5:采用基于超鏈接和標(biāo)記文本算法實(shí)現(xiàn)高校就業(yè)信息搜索。

      1.1 就業(yè)信息采集

      利用深度服務(wù)信息自動(dòng)采集算法實(shí)現(xiàn)高校就業(yè)信息采集。圖2 為深度服務(wù)信息采集流程。

      圖2 深度就業(yè)信息采集方法

      采集方法流程步驟如下:

      步驟1:通過原地圖矢量數(shù)據(jù)對POI(Point Of Interest,信息點(diǎn))的分類編碼搜索就業(yè)信息名稱與地址等POI 點(diǎn)數(shù)據(jù),依據(jù)定義結(jié)構(gòu)形成深度就業(yè)信息點(diǎn),就業(yè)信息字段空缺。

      步驟2:利用網(wǎng)絡(luò)爬蟲獲取就業(yè)信息類網(wǎng)站上發(fā)布就業(yè)信息的服務(wù)地點(diǎn)URL,利用DOM 技術(shù)分析與提取各個(gè)URL 內(nèi)就業(yè)信息的名稱與地址。

      步驟3:計(jì)算步驟1 內(nèi)獲取的各個(gè)深度就業(yè)信息點(diǎn)內(nèi)的名稱、地址等字段和步驟2 內(nèi)得到的各個(gè)URL 相應(yīng)的名稱、地址等字符串相似度,選取最優(yōu)URL 頁面的深度就業(yè)信息[7,8],利用編輯距離與最大公共子序列算法補(bǔ)充步驟1 內(nèi)空缺的就業(yè)信息。

      1.2 就業(yè)信息去噪

      1.2.1 算法基本思想

      基于節(jié)點(diǎn)權(quán)重的去噪算法以VIPS(Visionbased Page Segmentation,基于頁面視覺分塊算法)為基礎(chǔ),將VPIS 形成的基本視覺塊樹轉(zhuǎn)換成樣式樹,通過樣式樹節(jié)點(diǎn)內(nèi)的樣式特征,先將葉子節(jié)點(diǎn)劃分為細(xì)粒度的樣式樹,然后權(quán)重標(biāo)注樣式樹,最后依據(jù)權(quán)重標(biāo)注實(shí)施剪枝,形成去噪后的URL 就業(yè)信息[9]。圖3 為URL 就業(yè)信息的去噪流程。

      圖3 URL 就業(yè)信息去噪流程

      一般情況下,所形成的樣式樹沒有權(quán)重表示,可以屬性節(jié)點(diǎn)為基礎(chǔ),加入權(quán)重節(jié)點(diǎn)的概念。FT代表權(quán)重節(jié)點(diǎn)T,可記為F,(k,u,t,m),k為當(dāng)前節(jié)點(diǎn)內(nèi)鏈接數(shù)與總鏈接數(shù)的比值,也叫鏈接比;u為當(dāng)前節(jié)點(diǎn)和容器節(jié)點(diǎn)在樹形結(jié)構(gòu)中的距離,也叫樹路徑距離;t為總文本中當(dāng)前節(jié)點(diǎn)的所占比例,也叫文本比;m為節(jié)點(diǎn)私有屬性的權(quán)重系數(shù)。利用節(jié)點(diǎn)的標(biāo)簽數(shù)量n歸一化值R(Fj),可確保R(Fj)值處于[0,1]之間,公式如下:

      式(1)中,第j個(gè)標(biāo)簽的鏈接比是kj;第kj個(gè)標(biāo)簽的文本系數(shù)是tj;第j個(gè)標(biāo)簽的樹路徑距離是uj;權(quán)重樹內(nèi)的節(jié)點(diǎn)路徑和是D。

      1.2.2 視覺塊樹細(xì)粒度化

      VIPS 形成的視覺樹,僅是大概提取URL 就業(yè)信息頁面的基本布局信息,粗粒度的視覺塊樹先將噪聲與正文整合在同一個(gè)塊內(nèi),再實(shí)施細(xì)粒度化。利用樣式節(jié)點(diǎn)與屬性節(jié)點(diǎn)對形成的樣式樹實(shí)施標(biāo)注。通過子元素的相似度分析已完成標(biāo)注的塊節(jié)點(diǎn)。二元組為子元素的樣式節(jié)點(diǎn),E(Tag,Attrs,Content)為節(jié)點(diǎn)E的屬性信息,節(jié)點(diǎn)標(biāo)識是Tag,屬性信息是Attrs,節(jié)點(diǎn)的文本信息是Content。lj與li的Styles(樣式節(jié)點(diǎn))的存在形式是鍵值對,這就需要將鍵值對轉(zhuǎn)換成樣式系數(shù)Cj與Ci,通過節(jié)點(diǎn)標(biāo)識 Tag 代表 HTML 內(nèi)相應(yīng)的 Node(節(jié)點(diǎn))值,lj與li用(Tj,Cj)與(Ti,Ci)代表。判斷節(jié)點(diǎn)相似度公式為:

      在相關(guān)系數(shù)比較小時(shí),需要分裂子節(jié)點(diǎn),通過從上至下的層次遍歷方式,實(shí)現(xiàn)初步分裂視覺樹。

      1.2.3 細(xì)節(jié)樹剪枝

      通過上述方法獲取的是一顆基于樣式的視覺樹,對于樣式與基本屬性方面,已經(jīng)不能細(xì)分,以基于樣式的視覺樹為基礎(chǔ),實(shí)施噪聲的判斷[10,11]。通過統(tǒng)計(jì)大量線上URL 就業(yè)信息頁面發(fā)現(xiàn),噪聲區(qū)域的鏈接比通常多于正文區(qū)域,文本比較低,樹距離較淺。這需要加入權(quán)重節(jié)點(diǎn)的概念,以從上至下的方式標(biāo)注細(xì)粒度化的視覺塊樹,再剪枝處理權(quán)重低的節(jié)點(diǎn)。初次遍歷時(shí),可刪除具有樣式樹節(jié)點(diǎn)內(nèi)存在的鍵值對 position:fixed 與 display:none 的節(jié)點(diǎn),實(shí)施一次簡單的預(yù)處理,position:fixed 在網(wǎng)頁內(nèi)屬于懸浮窗,display:none 在網(wǎng)頁內(nèi)屬于不做顯示的元素,根據(jù)觀察很多網(wǎng)頁的經(jīng)驗(yàn)發(fā)現(xiàn),position:fixed與display:none 均是判斷噪聲節(jié)點(diǎn)的主要依據(jù)。

      剪枝算法的步驟為:

      步驟1:得到樣式樹,假設(shè)Tj為樣式樹。

      步驟2:循環(huán)處理樣式樹的各個(gè)節(jié)點(diǎn)Fj。

      步驟3:如果一個(gè)節(jié)點(diǎn)的css(Cascading Style Sheets,層疊樣式表)屬性內(nèi)存在position:fixed 與display:none 等鍵值對,就需要?jiǎng)h除這個(gè)節(jié)點(diǎn)。

      步驟4:計(jì)算出文本比與節(jié)點(diǎn)的距離深度后,計(jì)算權(quán)重值R(Fj)。

      步驟5:循環(huán)處理樣式樹的各個(gè)節(jié)點(diǎn)FT。

      步驟6:去除平級節(jié)點(diǎn)內(nèi)權(quán)重較小的節(jié)點(diǎn)。

      1.3 信息搜索算法

      1.3.1 算法描述

      利用基于超鏈接和標(biāo)記文本的算法實(shí)現(xiàn)高校就業(yè)信息的搜索,具體步驟如下:

      另一方面,銷售成本的增加以及銷售收入的降低都將導(dǎo)致企業(yè)毛利率的下降,米奧會(huì)展2016年較2015年度平均銷售單價(jià)上漲14.79%,而平均單位銷售成本上漲30.69%,其中單位宣傳推廣成本上漲136.98%;2017年較2016年度平均銷售單價(jià)下降1.23%,同期平均單位銷售成本上漲3.14%,單位宣傳推廣成本下降0.60%。由此可見,宣傳推廣成本的增加也是導(dǎo)致境外自辦展毛利率下降的主要因素。

      步驟1:將索引庫內(nèi)的就業(yè)信息網(wǎng)頁當(dāng)作圖G,圖G內(nèi)各個(gè)文檔B均有Authority 與Hub 兩個(gè)值。其中,Authority 表示一個(gè)權(quán)威URL 就業(yè)信息網(wǎng)頁的入度值,就是該URL 就業(yè)信息網(wǎng)頁被其余網(wǎng)頁引用的數(shù)量。一個(gè)網(wǎng)頁的入度值與Authority 值成正比。Hub 表示一個(gè)URL 就業(yè)信息網(wǎng)頁的出度值,就是該URL 就業(yè)信息網(wǎng)頁指向其余網(wǎng)頁的數(shù)量,可獲取指向權(quán)威網(wǎng)頁的鏈接集合。某一個(gè)網(wǎng)頁的出度值與該網(wǎng)頁的Hub 值成正比,Hub 網(wǎng)頁具有隱含說明某一個(gè)就業(yè)話題權(quán)威網(wǎng)頁的作用。優(yōu)質(zhì)的Hub 網(wǎng)頁為指向很多存在很高的Authority 值的網(wǎng)頁,優(yōu)質(zhì)的Authority 網(wǎng)頁為通過數(shù)個(gè)很高的Hub 值所指向的網(wǎng)頁。用A[B]代表Authority 值,用H[B]代表Hub值其中,網(wǎng)頁集合是V。

      步驟 2:初始化A[B]與H[B],獲取A[B]=1 與H[B]=1。

      步驟3:內(nèi)容匹配,匹配所搜索關(guān)鍵字和鏈接中的標(biāo)記文本,若匹配,那么對鏈宿網(wǎng)頁賦予標(biāo)記,再計(jì)算得到這個(gè)網(wǎng)頁的權(quán)值weight(B),若不匹配,那么掃描在這個(gè)網(wǎng)頁內(nèi)的全部內(nèi)容,再計(jì)算得到對應(yīng)的權(quán)值weight(B)。

      步驟4:歸一化權(quán)值weight(B)。

      步驟6:計(jì)算Authority 值與Hub 值的權(quán)值為

      H[B]=weight(B)×H[B]

      步驟7:歸一化處理所計(jì)算得到的A值與H值,即

      步驟8:如果A值與H值沒有收斂的情況下,轉(zhuǎn)到步驟5。

      步驟9:設(shè)置Y為門檻值,同時(shí)選出A值與H值超過Y的全部網(wǎng)頁和賦以標(biāo)記的網(wǎng)頁,按照排序輸出搜索結(jié)果[12-14]。

      1.3.2 文檔相關(guān)度權(quán)值的計(jì)算

      文檔的相關(guān)度權(quán)值就是文檔和搜索條件的相似程度,權(quán)值與相似程度成正比,權(quán)值越高,和文檔相關(guān)性越高[15]。在搜索條件和超鏈接中標(biāo)記的文本匹配情況下,依據(jù)N層向量空間模型算法,在邏輯上將一個(gè)文檔劃分成N個(gè)相對獨(dú)立的文本段,通過文本段的內(nèi)容構(gòu)建文本特征向量與文本權(quán)值向量。超鏈接屬于一個(gè)獨(dú)立的文本段,能夠通過N層向量空間模型算法計(jì)算各個(gè)URL 就業(yè)信息網(wǎng)頁的權(quán)值,計(jì)算公式為:

      式(3)中,G網(wǎng)頁特征項(xiàng)hG的權(quán)值是WG,鏈接中標(biāo)記文本的長度是L,G網(wǎng)頁特征項(xiàng)hG在鏈接中出現(xiàn)的頻率是hf G,那么第a條匹配的超鏈接權(quán)值為:

      式(4)、(5)中,匹配的超鏈接條數(shù)是b,搜索條件內(nèi)不同特征項(xiàng)數(shù)量是e。

      在搜索條件和標(biāo)記文本不匹配的情況下,掃描URL 就業(yè)信息網(wǎng)頁全部內(nèi)容,利用TF*IDF 方法計(jì)算文檔的相似度,公式為:

      式(6)中,特征項(xiàng)hG表示文檔dz的能力大小是WzG,特征項(xiàng)hG在文檔dz內(nèi)出現(xiàn)的頻率是hf zG,文檔集合中的文檔個(gè)數(shù)是N,文檔集合中出現(xiàn)特征項(xiàng)hG的文檔個(gè)數(shù)是BG,特征項(xiàng)hG反比文檔頻率是zdf G。

      根據(jù)式(6)發(fā)現(xiàn),hf zG與WzG成正比,BG與WzG成反比,表示特征項(xiàng)可以代表文檔的內(nèi)容。

      利用余弦公式計(jì)算全部URL 就業(yè)信息網(wǎng)頁權(quán)值,第z篇文檔和搜索條件Q的相關(guān)性是S(dz,Q),公式如(7)所示:

      2 實(shí)驗(yàn)分析

      從互聯(lián)網(wǎng)中下載1 000 個(gè)網(wǎng)頁為實(shí)驗(yàn)對象,將其平均分為10 組,每組包含50 個(gè)屬于高校就業(yè)信息的網(wǎng)頁,分析本文模型搜索高校就業(yè)信息的性能。

      2.1 采集性能

      采用本文模型與文獻(xiàn)[5]模型、文獻(xiàn)[6]模型在1 000 個(gè)網(wǎng)頁中采集有關(guān)高校就業(yè)信息的網(wǎng)頁,其中基于深度神經(jīng)網(wǎng)絡(luò)的搜索引擎點(diǎn)擊模型構(gòu)建與基于D-S 證據(jù)理論的信息檢索模型研究,分別是文獻(xiàn)[5]模型與文獻(xiàn)[6]模型,表1 為三種模型的采集結(jié)果。

      表1 三種模型的采集結(jié)果

      根據(jù)表1 可知,本文模型能夠有效采集到有關(guān)高校就業(yè)的網(wǎng)頁,準(zhǔn)確性更高。

      2.2 去噪性能

      利用可以同時(shí)兼顧準(zhǔn)確率與召回率的F-measure 作為綜合評價(jià)指標(biāo),測試三種模型對網(wǎng)頁去噪處理的準(zhǔn)確率,準(zhǔn)確率公式為:

      式(8)、(9)中,當(dāng)前網(wǎng)頁被抽取出的正文塊是λ0;當(dāng)前網(wǎng)頁內(nèi)全部的正文塊是λ1;正文內(nèi)抽取出來的信息塊是λ2。

      在F-measure 公式內(nèi)β用于調(diào)整準(zhǔn)確率與召回率的權(quán)重,實(shí)驗(yàn)中只需考慮網(wǎng)頁抽取的準(zhǔn)確率與召回率,故選擇1 為β值,判斷去噪效果的公式為:

      利用三種模型對1 000 個(gè)網(wǎng)頁實(shí)施去噪處理,圖4、圖5 與圖6 分別為三種模型的去噪處理準(zhǔn)確率、召回率與F-measure 值。

      圖4 三種模型去噪處理的準(zhǔn)確率

      圖5 三種模型去噪處理的召回率

      圖6 三種模型的F-measure 值

      根據(jù)圖4、圖5 與圖6 可知,本文模型能夠有效對所采集的高校就業(yè)信息網(wǎng)頁實(shí)施去噪處理,去噪準(zhǔn)確性更高。

      2.3 搜索性能

      評價(jià)就業(yè)信息搜索模型性能的主要指標(biāo)是查全率與查準(zhǔn)率。查全率為搜索到的相關(guān)高校就業(yè)信息網(wǎng)頁和全部符合條件的高校就業(yè)信息網(wǎng)頁數(shù)量的比例;查準(zhǔn)率為搜索到的相關(guān)高校就業(yè)信息網(wǎng)頁和搜索到的所有網(wǎng)頁的比率。

      利用三種模型搜索100 個(gè)文本文件中的高校就業(yè)信息,測試三種模型在Authority 值與Hub 值情況下的查準(zhǔn)率與查全率,表2 與表3 分別是兩種值情況下的查全率與查準(zhǔn)率。

      表2 Authority 值情況下的查全率與查準(zhǔn)率

      表3 Hub 值情況下的查準(zhǔn)率與查全率

      根據(jù)表2 與表3 可知,三種模型均是隨著查全率的不斷提升,呈現(xiàn)查準(zhǔn)率逐漸降低的趨勢。實(shí)驗(yàn)證明:本文模型的查全率與查準(zhǔn)率均高于其余兩種模型,能夠有效克服主題偏離情況。

      為分析本文模型的搜索性能,測試三種模型的排序誤差率與查詢速度,分別如圖7 與圖8 所示。

      圖7 三種模型的排序誤差率

      圖8 三種模型的搜索時(shí)間

      根據(jù)圖7 可知,三種模型的排序誤差率均隨著文本文件數(shù)量的增加而增加,本文模型排序誤差率的增加幅度明顯低于其余兩種模型。

      根據(jù)圖8 可知,隨著文本文件數(shù)目的不斷增多,三種模型的搜索時(shí)間均有所增長,本文模型的搜索時(shí)間增長得比較平緩,其余兩種模型的搜索時(shí)間的增長幅度較大。

      3 結(jié)論

      搜索模型屬于互聯(lián)網(wǎng)中重要的信息采集工具,垂直搜索模型是第四代搜索模型,屬于針對指定領(lǐng)域的搜索模型,比通用搜索模型更為專業(yè)?;ヂ?lián)網(wǎng)時(shí)代高校就業(yè)信息垂直搜索模型,僅對垂直搜索模型實(shí)施了初步研究,日后在保證搜索準(zhǔn)確率與搜索效率的同時(shí),還可深入研究大學(xué)生的查詢記錄,挖掘大學(xué)生潛在的求職意向,優(yōu)化搜索的排序結(jié)果。

      猜你喜歡
      樣式權(quán)值網(wǎng)頁
      CPMF-I 取樣式多相流分離計(jì)量裝置
      一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
      CPMF-I 取樣式多相流分離計(jì)量裝置
      取樣式多相流分離計(jì)量裝置
      CONTENTS
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      這是巴黎發(fā)布的新樣式
      灯塔市| 罗田县| 延吉市| 富阳市| 阳山县| 宜春市| 隆化县| 内乡县| 刚察县| 若尔盖县| 柳河县| 兰州市| 广西| 十堰市| 新乡市| 六安市| 定日县| 德清县| 汉川市| 韩城市| 温州市| 广汉市| 星子县| 城口县| 绥棱县| 霍山县| 赤壁市| 涟水县| 罗山县| 济宁市| 宿州市| 遂川县| 石屏县| 玉龙| 周口市| 西盟| 平塘县| 麦盖提县| 尉氏县| 平凉市| 绍兴市|