湖北工業(yè)大學 陳育兵
基于Heritrix主題爬蟲的定制與實現(xiàn)
湖北工業(yè)大學 陳育兵
本文在開源爬蟲框架Heritrix基礎上,進行多線程優(yōu)化,定制面向搜狐新聞網(wǎng)頁爬取的主題爬蟲。試驗表明,在改進擴展后的Heritrix基礎上,能高效快速爬取搜狐站點下的新聞網(wǎng)頁。
主題爬蟲;定制與實現(xiàn)
隨著網(wǎng)絡信息的爆炸式增長,如何在網(wǎng)絡中獲得有用的信息已變得很困難。搜索引擎在信息檢索中發(fā)揮的重要作用,是人們的日常生活不可缺少的工具。雅虎、谷歌、MSN、百度和其他的商業(yè)搜索引擎是許多通用的搜索引擎,最成功的典范,但隨著網(wǎng)絡變得越來越復雜,有時這些通用搜索引擎在信息檢索中迷失方向。然而,在近年來方興未艾的各種搜索技術(shù),在禁區(qū)許可證技術(shù)為基礎的流媒體搜索,元搜索,垂直搜索技術(shù),并因此成為搜索領域的研究重點。
隨著網(wǎng)絡信息的迅速膨脹,搜索引擎的主要關注的是如何被發(fā)現(xiàn)許多準確和有效的信息,精確度成為搜索引擎的主要目標。這也是大多數(shù)人型搜索引擎的挑戰(zhàn)。他們通常是非常低的精度,返回到搜索結(jié)果的用戶成千上萬,有效的結(jié)果可能只有很少甚至沒有。由于各種制約因素的客觀存在,門戶網(wǎng)站的搜索引擎是難以解決的,因為他們是在幾秒鐘內(nèi)數(shù)以萬計的用戶,在數(shù)億的記錄中,找出信息,以滿足客戶的需求,同時給信息量大,時間短,語言歧義的門戶網(wǎng)站的搜索引擎帶來了巨大的挑戰(zhàn)。如何解決這個問題?從專題型項目出現(xiàn)、發(fā)展和成熟,我們相信,主題搜索引擎的方向發(fā)展,應該是一個解決問題的想法。
網(wǎng)絡爬蟲其實是一個基于網(wǎng)絡的程序。從初始網(wǎng)頁集出發(fā),遍歷互聯(lián)網(wǎng)自動收集網(wǎng)絡信息。爬行動物當打開一個HTML頁面,它會分析結(jié)構(gòu)的HTML標簽來獲取信息,并獲得超鏈接,然后點擊要通過既定的搜索戰(zhàn)略選擇下一個站點訪問其他頁面。從理論上講,如果分配給蜘蛛適當?shù)某跏嘉募拖鄳木W(wǎng)絡搜索戰(zhàn)略,它可以遍歷整個網(wǎng)絡。其性能在很大程度上影響了搜索引擎網(wǎng)站的大小。
本文研究和分析了通用搜索引擎,個性化搜索引擎的概念;通用網(wǎng)絡爬蟲和主題網(wǎng)絡爬蟲的概念;分析了國內(nèi)外各大爬蟲框架及其發(fā)展狀況;重點研究和分析了無比強大的Java開源網(wǎng)絡爬蟲框架Heritrix的基本概念及其架構(gòu);在Heritrix基礎上擴展和定制了面向搜狐的新聞搜索,添加了自己的Extractor,實現(xiàn)了多線程優(yōu)化,并且擴展FrontierSchedule來爬取特定網(wǎng)頁內(nèi)容,取消Robot限制,最后試驗證明,通過優(yōu)化和擴展定制,實現(xiàn)了高效快速爬取特定主題下的網(wǎng)頁內(nèi)容。
[1]劉世濤.簡析搜索引擎中網(wǎng)絡爬蟲的搜索策略[J].阜陽師范學院學報(自然科學版),2006(03).
[2]王巖.搜索引擎中網(wǎng)絡爬蟲技術(shù)的發(fā)展[J].電信快報,2008(10).
[3]龔勇.搜索引擎中網(wǎng)絡爬蟲的研究[D].武漢理工大學,2010.
2017-09-10)