張曉孿 王西鋒
摘 要: 隨著互聯網技術的應用,大量求職者期望能從招聘網站中快速、精準獲取有用信息,因此分析并抽取這些網站中的招聘信息具有實際應用的價值。針對Web信息抽取技術在招聘信息系統(tǒng)中的應用,提出了一種基于語義的Web招聘信息抽取的方法,首先是構建主題蜘蛛程序抓取網頁,然后對預處理過的網頁中的命名實體進行識別。經測試采用本文提出的方法進行信息抽取是可行的,命名實體識別的準確率和召回率能達到71%以上。
關鍵詞: 語義; Web招聘信息抽取; 蜘蛛程序; 命名實體識別
中圖分類號: TP391
文獻標志碼: A
文章編號:1007-757X(2019)06-0069-02
Abstract: With the application of the Internet technology, a large number of job seekers expect to obtain useful information quickly and accurately from the recruitment Website. That the recruitment information extraction provides for the majority of job seekers correct employment information is of great importance. Aiming at the application of Web information extraction technology in recruitment information system, this paper proposes a Web recruitment information extraction method based on semantic. The first is to build a topic spider program to crawl the Web page, and then to identify named entity from pre-processed Web pages. After testing, it is feasible to use the method proposed in this paper to extract the information, and the accuracy and recall rate of named entity recognition are all above 71%.
Key words: Semantic; Web recruiting information extraction; Spider program; Named entity recognition
0?引言
隨著互聯網技術的應用與普及,越來越多的企業(yè)與公司通過網站發(fā)布相關招聘信息,這種招聘方式顯現出信息量大、信息增長速度快和信息處理難度大等弊端,解決這些問題的關鍵就是從網頁中抽取出人們感興趣的信息。面對這些海量招聘信息,大量求職者期望能從這些網站中快速、精準的獲取有用信息,對他們求職提供參考,因此招聘信息抽取為廣大求職者提供正確的就業(yè)信息有著非常重要的意義,具有實際應用的價值。
雖然國內外學者已對網絡招聘系統(tǒng)做了大量研究,但是卻很少涉及對網絡招聘信息的抽取、挖掘和分析。本文針對Web信息抽取技術在招聘信息系統(tǒng)中的應用,提出了一種基于語義的Web招聘信息抽取的方法,其目標是將分散在海量Web頁面中的動態(tài)變化的招聘信息抽取出來,以結構化、語義清晰的形式提供給求職者,幫助求職者正確了解當前的就業(yè)趨勢,盡快找到稱心滿意的工作,并進一步提高網絡信息中數據的利用率。
1?相關工作
隨著網絡招聘系統(tǒng)的普及,網絡招聘的信息也越來越多,目前國內學術界對網絡招聘信息抽取的研究不多,大多是網絡招聘系統(tǒng)的研究以及網絡招聘的現狀和優(yōu)劣勢的研究[1]。王孟頔[2]提出了一種基于VIPS視覺分割算法,利用網頁所呈現出來的布局結構和視覺特征,對招聘頁面進行視覺分割處理。陳建輝[3]提出一種基于模式發(fā)現的在線招聘信息抽取器設計框架,實現招聘信息的自動抽取。俞琰[4]提出了基于數據挖掘聚類的模型合并方法生成隱馬爾可夫模型,為每個抽取域生成一個隱馬爾可夫模型HMM,用于獲取更多的有用信息。
由于網頁本身在某種程度上具有一定的結構,Web信息抽取不同于對普通文本的抽取。很多的網頁基本上都遵從萬維網聯盟W3C制定的文檔對象模型(DOM)樹型結構標準,從而降低了Web信息抽取工作的難度[5]。有關中文信息抽取研究起步較晚,并且由于漢語本身的特點,以往的研究工作主要集中在對同一領域信息的抽取,傳統(tǒng)的信息抽取方法由于缺少語義信息的支持,抽取的準確率不高,系統(tǒng)的擴展性和可移植性比較差,跨領域抽取大多數采用基于統(tǒng)計的方法,缺少對抽取文本的理解,抽取質量不高[6]。
2?Web招聘信息抽取的關鍵技術
由于各個招聘網站的結構各異,形態(tài)多樣,傳統(tǒng)的Web信息抽取方式,如基于HTML結構的方式以及包裝器歸納方式就顯得力不從心,所以本文研究采用基于自然語言理解的方式進行Web信息抽取。本文進行信息抽取的步驟為:首先構建網絡蜘蛛Spider,“爬行”WWW上的若干招聘網站并抓取相關網頁;然后由基于自然語言理解的信息抽取模塊將Spider抓取的網頁抽取成結構化信息并存入數據庫;最后將用戶所關注的招聘信息清楚地顯示在界面上。
2.1?構建主題網絡蜘蛛程序
網頁蜘蛛又稱為網絡爬蟲,是一種按照一定的規(guī)則,自動地抓取萬維網信息的程序或者腳本。網絡蜘蛛的工作原理是從網站某一個頁面開始讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環(huán)下去,直到把這個網站所有的網頁都抓取完為止。網絡爬蟲按照系統(tǒng)結構和實現技術,大致可以分為以下幾種類型:通用網絡爬蟲、聚焦網絡爬蟲(主題網絡爬蟲)、增量式網絡爬蟲、深層網絡爬蟲[7]。主題蜘蛛能夠定向性地采集和主題搜索范圍相關的網頁,忽略不相關的網頁和不必要的網頁,選擇內容相關的以及適合做進一步處理的網頁優(yōu)先采集??紤]到抓取招聘網頁的效率,本文在傳統(tǒng)網絡蜘蛛的基礎上對其進行功能上進行擴充,實現搜索專業(yè)化,增加主題確立模塊和主題相關度分析模塊,設計實現主題型蜘蛛。主題確立模塊主要功能是通過學習樣本網頁來確定用戶所要抓取的主題,并將主題內容以文本形式保存,以便在實際的網頁采集過程中作為判斷網頁和鏈接是否與主題相關的標準。主題相關度分析模塊是系統(tǒng)的核心模塊,它將獲取的網頁進行內容分析,提取頁面內容進行網頁主題相關度計算。
本文選擇多家招聘網站首頁,如拉勾網、中華英才網、中國人才熱線和前程無憂等作為樣本網站里的網頁進行分析,自動提取這些網頁里面的關鍵詞并根據關鍵詞在網頁中出現的次數計算其權值,最后綜合各樣本網頁的關鍵詞,確定出一組能夠代表主題的特征詞。
2.2?網頁預處理
對于常見的人才招聘網站來說,由于頁面上除了招聘信息外,一般都有許多其他“噪聲”信息。蜘蛛抓取到的頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的HTML格式標簽、JavaScript程序等無法用于抽取的內容。網頁預處理首先要做的就是從HTML文件中去除標簽、程序,提取出可以用于信息處理的網頁面文字內容。目前Web上的數據大部分都是以HTML形式出現,主要目的是為了顯示,讓人通過瀏覽器瀏覽,缺乏對數據本身的描述,不含清晰的語義信息,模式也不太明確。首先對蜘蛛程抓取的網頁HTML/XML標簽過濾,在過濾結束標簽時加上段落分隔符就可以保留半結構化文本特征。其次是進行分詞和停用詞處理,本文選用中科院計算所漢語詞法分析系統(tǒng)ICTCLAS作為詞法分析組件,在ICTCLAS基礎上,把它簡單的封裝成一個庫,只保留段落的詞法分析功能,并將分詞結果輸出為XML格式,便于后面信息抽取模塊處理。
2.3?命名實體識別
命名實體識別是信息提取、問答系統(tǒng)、句法分析、機器翻譯等應用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中占有重要地位。一般來說,命名實體識別的任務就是識別出待處理文本中3個大類、7個小類命名實體,識別過程包括實體邊界識別和確定實體類別。本文Web招聘信息抽取主要對預處理過的網頁中的組織機構名、招聘職位名進行識別,具體識別過程如下:
(1) 組織機構名的識別:通過分析組織機構名的語法和構成方式,發(fā)現組織機構名的形成過程是一個具有詞性選擇的隨機性和詞語選擇的隨機性兩個特征。組織機構名形成了一個隱馬爾可夫鏈,并且該鏈具有兩個層面的隨機性特征,可以用詞性的轉移概率和詞語的轉移概率共同描述組織機構名的生成概率。形式化描述如下:
(2) 招聘職位名的識別:對職位名識別需要構造一個識別資源職位名列表,對待處理文本中出現的職位名根據職位名列表進行匹配,根據職位名核心詞進行職位名識別的方法可以通過半結構化文本的特點以及職位名詞法信息和某些關鍵性詞的提示。職位名識別算法描述如下:a) 需要構造一個識別資源職位名列表,該列表可從網上搜集得到并進行完善,共有521條職位名。對待處理文本中出現的職位名根據職位名列表進行匹配,如果匹配成功,則保存識別出來的職位名;b) 再次以職位名核心詞為驅動在文中遍歷,根據文本中的分隔符進行職位名的識別;c) 通過詞法信息和關鍵詞的提示對識別出的職位名進行排除,然后與步驟a識別出的職位名相比較,如果不重復則保存該職位名,并重復步驟b和步驟c,直至職位名核心詞表為空。
3?系統(tǒng)實現與測試
本系統(tǒng)處理流程為:首先是由Spider開始抓取招聘網站的網頁,然后將保存的網頁預處理后進入信息抽取模塊,在知識庫和規(guī)則庫的輔助下識別出的命名實體并保存在數據庫中。在測試階段,選擇網絡爬蟲抓取的500個網頁的作為測試數據,其中招聘信息有231條(沒有完全選取招聘信息是為了客觀衡量識別的正確率),組織機構名有 242個,職位名205個(含重復)。評測標準使用正確率和召回率兩個評測指標,測試結果如表1所示。
通過上面的一系列測試可以看出,系統(tǒng)的信息抽取的準確率和召回率均在71%以上。在界面呈現部分還提供了必要的提示信息,如顯示給用戶信息源的URL,便于用戶進行重點關注。總體來說它可以滿足人們的在Web招聘信息獲取方面的基本需要。實驗結果表明,本文提出的基于語義的招聘信息抽取技術能夠有效抽取出招聘頁面內重要的文本信息,優(yōu)化了信息抽取結果。
4?總結
隨著信息技術的普及和發(fā)展, 網絡已成為招聘信息的重要來源。網絡招聘、網絡求職日趨流行,通過互聯網進行招聘、求職對降低招聘、求職成本, 提高成功率起了重大的作用。網絡招聘信息抽取是從半結構化的Web海量招聘數據中,按用戶要求抽取且形成相關的有效的結構數據處理過程。下一步的研究內容是采用新的模式發(fā)現的方法獲取抽取規(guī)則, 使整個半結構化數據的抽取過程簡化,且人工干預降低到最少,進一步提高信息抽取的質量。
參考文獻
[1]?趙丹. 網絡招聘信息的分析與挖掘[D]. 貴州:貴州財經大學, 2017.
[2]?王孟頔, 邰泳. 基于VIPS的職位信息抽取技術研究[J]. 軟件導刊, 2015, 14(9): 22-24.
[3]?陳建輝, 劉利民. 基于模式發(fā)現的在線招聘信息抽取[J]. 微計算機信息, 2006, 22(9): 194-196.
[4]?俞琰. 基于隱馬爾可夫模型的招聘網絡信息抽取[J]. 北京電子科技學院學報, 2008, 16(4): 93-98.
[5]?李汝君, 張俊, 張曉民,等. 健康領域Web信息抽取[J].計算機應用, 2016, 36(1): 163-170.
[6]?楊選選, 張蕾. 基于語義角色和概念圖的信息抽取模型[J]. 計算機應用, 2010, 30(2): 411-414.
[7]?孫立偉, 何國輝, 吳禮發(fā). 網絡爬蟲技術的研究[J]. 電腦知識與技術, 2010, 6(15): 4112-4115.
(收稿日期: 2018.06.20)