張捷 郝建維 李歡歡
摘? 要:隨著移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)以及人工智能時(shí)代的到來,數(shù)據(jù)在整個(gè)互聯(lián)網(wǎng)體系中的地位顯得越來越重要,而數(shù)據(jù)體量的大小對大數(shù)據(jù)的分析以及人工智能的最終學(xué)習(xí)成果也有著深刻影響。但是目前的現(xiàn)狀是,全世界范圍內(nèi)的大多數(shù)企業(yè)都深陷數(shù)據(jù)不完善或者數(shù)據(jù)體量太小的窘境,尤其對新創(chuàng)企業(yè)和小微型企業(yè)來說,這個(gè)已經(jīng)成為了它們生存和發(fā)展的桎梏。因此,能夠從無時(shí)無刻抓取大量數(shù)據(jù)的爬蟲就顯得尤為必要,故而我們深入地研究網(wǎng)絡(luò)爬蟲是非常有必要的。本文將會(huì)通過基于twisted的異步爬蟲框架Scrapy,對網(wǎng)絡(luò)爬蟲進(jìn)行研究,并實(shí)現(xiàn)抓取互聯(lián)網(wǎng)頁數(shù)據(jù)以及文件文本數(shù)據(jù)的分布式策略。
關(guān)鍵詞:Scrapy? Python? 爬蟲? 分布式? 文件? 網(wǎng)頁
中圖分類號:TP391.3 ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2020)07(c)-0149-05
Abstract: With the advent of the mobile Internet, big data and artificial intelligence era, the status of data in the entire Internet system is becoming more and more important, and the amount of data has a profound impact on the analysis of big data and the final learning results of artificial intelligence. However, the current status quo is that most companies around the world are deeply mired in data imperfections or too small data volume, especially for new ventures and small and micro enterprises, which have become their survival and development. Therefore, it is especially necessary to be able to crawl large amounts of data from time to time, so it is very necessary for us to study web crawlers in depth. This article will explore the layer web crawler through the twisted asynchronous crawler framework Scrapy, and implement the strategy of crawling Internet page data and file text data.
Key Words: Scrapy;Python;Crawler;Distributed;File;WebPage
1? 引言
隨著互聯(lián)網(wǎng)在人類經(jīng)濟(jì)社會(huì)中的應(yīng)用日益廣泛,其所涵蓋的信息規(guī)模呈指數(shù)增長,信息的形式和分布具有多樣化、全球化特征。專業(yè)化的信息獲取和加工需求,正面臨著巨大的挑戰(zhàn)。如何獲取互聯(lián)網(wǎng)中的有效信息?這就促進(jìn)了“爬蟲”技術(shù)的飛速發(fā)展。
傳統(tǒng)的爬蟲對于網(wǎng)頁內(nèi)容信息的關(guān)注遠(yuǎn)遠(yuǎn)大于其他形式的存儲的信息。然而,互聯(lián)網(wǎng)作為人類巨大的數(shù)據(jù)寶庫,并不僅僅只存有網(wǎng)頁內(nèi)容信息,還存在極其龐大的各種各樣格式的文件信息。
本文將以Scrapy為框架,對以文件和網(wǎng)頁進(jìn)行抓取并進(jìn)行內(nèi)容解析的分布式爬蟲進(jìn)行研究和設(shè)計(jì)。
2? 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序或者腳本。網(wǎng)絡(luò)爬蟲一般從一個(gè)url開始,通過獲取網(wǎng)頁內(nèi)容,并識別網(wǎng)頁上的其它url,放入url隊(duì)列中,再不斷地從隊(duì)列中獲取url重復(fù)上述過程,直至url集合為空。
對于爬蟲的分類,我們可以從爬蟲面向的對象和url入隊(duì)方式的不同,分為以下四種。
(1)通用網(wǎng)絡(luò)爬蟲,又稱為全網(wǎng)爬蟲,一般搜索引擎采用這種類別的爬蟲。通用爬蟲可以以一定數(shù)量的種子url開始,對整個(gè)互聯(lián)網(wǎng)的網(wǎng)絡(luò)信息進(jìn)行采集,供搜索引擎使用。這類爬蟲的爬取范圍和數(shù)量巨大,對速度和存儲有著很高的要求。基于這兩點(diǎn)要求,通用爬蟲一般會(huì)采取一定的策略,常見策略有:廣度優(yōu)先策略和深度優(yōu)先策略。
①廣度優(yōu)先策略:其基本原理是按照深度由小到大的順序,依次訪問url,直到?jīng)]有url可以訪問為止。爬蟲在訪問一條分支后返回到最后url的上一級搜索其它url,直至所有的url訪問完畢。這種策略一般使用于垂直搜索。
②深度優(yōu)先策略:這種策略將所有url劃分為多層,當(dāng)同一層的鏈接訪問完畢后才深入到下層鏈接進(jìn)行訪問,直到所有的鏈接訪問完畢。這種策略對爬蟲訪問的深度能夠很好控制,防止爬蟲進(jìn)入過深的分支。
(2)聚焦網(wǎng)絡(luò)爬蟲,又叫定向爬蟲,是指有選擇性地爬取指定內(nèi)容或特定鏈接的網(wǎng)絡(luò)爬蟲。聚焦網(wǎng)絡(luò)爬蟲引入了評分模塊,針對網(wǎng)頁內(nèi)容或鏈接信息對其進(jìn)行評分,不同的評分,訪問的優(yōu)先級也不同。
(3)增量式網(wǎng)絡(luò)爬蟲是指只爬取新產(chǎn)生的或發(fā)生內(nèi)容改變的網(wǎng)頁的爬蟲,對已經(jīng)爬取的并且沒有內(nèi)容變化的網(wǎng)頁不進(jìn)行采集。
(4)深層網(wǎng)絡(luò)爬蟲一般是指爬取深層網(wǎng)絡(luò)頁面的網(wǎng)絡(luò)爬蟲。深層網(wǎng)絡(luò)頁面是相對于能夠任意訪問的表層網(wǎng)絡(luò)頁面而言的,一般類似于用戶需要登錄或需要提交關(guān)鍵字才能訪問的頁面,我們就稱之為深層網(wǎng)絡(luò)頁面。
3? Scrapy原理介紹
Scrapy是Python開發(fā)的一個(gè)以twisted異步網(wǎng)絡(luò)通信為核心的網(wǎng)絡(luò)爬蟲框架。因?yàn)槠潇`活性和易擴(kuò)展性讓Scrapy廣為人們使用,且用途非常廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動(dòng)化測試等。
Scrapy的總體架構(gòu)可以分為以下部分:
(1)引擎(Engine),主要負(fù)責(zé)Spider、Downloader、Itempiplien以及Scheduler之間通信,信號和數(shù)據(jù)傳遞。
(2)調(diào)度器(Scheduler),接收Engine傳遞過來的Request請求,將請求整理,入隊(duì),并且在Engine需要Request的時(shí)候,將Request傳遞給Engine。
(3)下載器(Downloader),下載Engine推送的Request,并將下載好的Response返回給Engine。
(4)爬蟲(Spiders),接收Engine推送的Response,解析Reponse內(nèi)容,并根據(jù)內(nèi)容獲取Item需要的數(shù)據(jù),并且提取頁面相關(guān)鏈接,重新生成Request推送給Engine,由Engine交由Scheduler。
(5)項(xiàng)目管道(Pipeline),負(fù)責(zé)處理爬蟲從網(wǎng)頁中抽取的實(shí)體,并對實(shí)體進(jìn)行業(yè)務(wù)操作。
(6)下載器中間件(Downloader Middewares),介于Engine和Downloader之間,主要處理兩者之間的請求和響應(yīng)。
(7)爬蟲中間件(Spiders Middewares),介于Engine和Spider之間,主要工作是處理Spider的響應(yīng)輸入和請求輸出。
(8)調(diào)度器中間件(Scheduler Middewares),介于Scrapy引擎和調(diào)度之間的中間件,處理從Scrapy引擎發(fā)送到調(diào)度的請求和響應(yīng)。
5種核心組件極其中間鍵通過異步網(wǎng)絡(luò)進(jìn)行通信,各自完成自己的功能而不依賴于其他組件的裝填。正是這種通過異步網(wǎng)絡(luò)通信的低耦合架構(gòu),讓Scrapy在解析url,下載內(nèi)容,實(shí)體處理上有著非常高的效率。
4? 分布式網(wǎng)頁及文件爬蟲解決方案
雖然異步網(wǎng)絡(luò)通信架構(gòu)使Scrapy能在短時(shí)間訪問大量的鏈接,但是相較于互聯(lián)網(wǎng)龐大的數(shù)據(jù)體量而言,還是顯得力不從心。于是我們考慮設(shè)計(jì)分布式的爬蟲架構(gòu)來滿足現(xiàn)在的互聯(lián)網(wǎng)的需求。
我們可以使用Scrapy-Redis組件來擴(kuò)展Scrapy,Scrapy-Redis 是為了更方便地實(shí)現(xiàn) Scrapy 分布式爬取而提供的一些以 Redis 為基礎(chǔ)的組件。然而Scrapy-Redis對Redis去重隊(duì)列的策略仍存在著一些弊端,導(dǎo)致隊(duì)列無限地增長。如何優(yōu)化Scrapy-Redis,并實(shí)現(xiàn)網(wǎng)頁和文件的爬取將是接下來的主要內(nèi)容。
4.1 Scrapy-Redis的去重優(yōu)化
Scrapy去重在配置文件中去重是默認(rèn)開啟, 主要通過RFPDupeFilter類進(jìn)行去重,通過查看RFPDupeFilter類源碼,可看到去重的核心是request_seen方法,其代碼如下:
def request_seen(self, request)
fp = request_fingerprint(request)
added = self.server.sadd(self.key, fp)
return not added
其中request_fingerprint方法對requset進(jìn)行sha1加密,將加密過后的密文存儲到Redis的dupefilter去重隊(duì)列中,當(dāng)Spider之后每次獲取網(wǎng)頁上連接生成request后,再一次通過requset進(jìn)行加密,并與dupefilter隊(duì)列中的數(shù)據(jù)進(jìn)行比較,如果發(fā)現(xiàn)有重復(fù)數(shù)據(jù),則當(dāng)前request不進(jìn)入Scheduler的url隊(duì)列中。然而,dupefilter隊(duì)列會(huì)隨著訪問的鏈接增長而持續(xù)增長,這樣就會(huì)消耗大量的內(nèi)存資源和比較request的時(shí)間資源。
Bloom filter 是由 Howard Bloom 在1970年提出的二進(jìn)制向量數(shù)據(jù)結(jié)構(gòu),它具有很好的空間和時(shí)間效率,被用來檢測一個(gè)元素是不是集合中的一個(gè)成員。如果檢測結(jié)果為是,該元素不一定在集合中;但如果檢測結(jié)果為否,該元素一定不在集合中。因此Bloom filter具有100%的召回率。利用Bloolm的特性,我們可以優(yōu)化scrapy的去重隊(duì)列。
通過重寫request_seen()方法,使用Redis的Bloolm類對入隊(duì)過程進(jìn)行改寫,Bloolm filter的特性快速的判斷request是否存在,如果存在,則不將request放入url隊(duì)列。通過重寫后代碼如下:
def request_seen(self, request):
fp = request_fingerprint(request)
if self.bf.isContains(fp):? ? # 如果已經(jīng)存在
return True
else:
self.bf.insert(fp)
return False
至此,我們通過Bloolm filter改寫后的去重組件,能夠極大地提升我們的去重效率和內(nèi)存資源。
4.2 網(wǎng)頁和文件的策略
4.2.1 網(wǎng)頁爬蟲策略
Scrapy爬取數(shù)據(jù)過程可以分為定義實(shí)體(Item)、抽取內(nèi)容(Spider),存儲實(shí)體(Pipeline)三個(gè)部分,通過這三個(gè)部分,能夠快速地實(shí)現(xiàn)一個(gè)網(wǎng)頁爬蟲,這也是Scrapy框架流行的重要原因。
(1)Item是保存爬取到的數(shù)據(jù)容器,使用方法和Python字典類似。根據(jù)從網(wǎng)頁上獲取到的數(shù)據(jù)對Item進(jìn)行統(tǒng)一建模。從而在Item中定義相應(yīng)的字段field。示例代碼如下:
class CrawlerItem(scrapy.Item):
#標(biāo)題
title = scrapy.Field();
#內(nèi)容
content = scrapy.Field();
#鏈接
hrefs = scrapy.Field();
#url
url = scrapy.Field();
(2)Sprider的parse方法是抽取內(nèi)容的主要方法,Spider類必須繼承scrapy-redis. spiders.RedisSpider類以實(shí)現(xiàn)分布式采集,Spider采集過程是,首先從Redis的start_url中讀取種子url,由Download下載返回response,Engine會(huì)將response傳遞給spider的parse方法,由parse方法對reponse進(jìn)行處理,并返回request生成器和item生成器。抽取頁面內(nèi)容時(shí),可以使用xpath模塊。Scrapy內(nèi)置對xpath支持,能夠快速地提取頁面內(nèi)容。代碼如下:
def parse(self, response):
url = response.url;
item = CrawlerItem();
item['title'] = response.xpath(
'//head/title/text()').extract();
item['content'] =self._get_content(
response.body.decode(response.encoding))
item['url'] = response.url;
item['hrefs'] = self._get_href(response);
yield item;
for href in item['hrefs']:
yield Request(url= href,
callback=self.parse);
(3)Pipeline是數(shù)據(jù)存儲的管道,parse提取的Item由Enginec傳遞給Pipeline,調(diào)用Pipeline的process_item方法對Item進(jìn)行存儲操作,示例如下:。
def process_item(self, item, spider);
#處理數(shù)據(jù)
logger.info(item['url']+'? has crawled');
通過這三個(gè)部分的簡單實(shí)現(xiàn),一個(gè)能夠爬取網(wǎng)頁的標(biāo)題,內(nèi)容,頁面鏈接以及當(dāng)前頁面的通用型網(wǎng)頁爬蟲產(chǎn)生了。常見的互聯(lián)網(wǎng)頁面就可以通過該爬蟲進(jìn)行采集。
4.2.2 文件爬蟲策略
文件爬蟲的策略整個(gè)流程與與網(wǎng)頁爬蟲的策略相似,而且Scrapy支持FTP形式的文件爬蟲,但是Scrapy的FTP并不能對整個(gè)文件節(jié)點(diǎn)的文件進(jìn)行下載,只能手動(dòng)地推送文件的url,對該url的單個(gè)文件進(jìn)行下載。而我們希望通過配置FTP的根節(jié)點(diǎn),來采集整個(gè)FTP節(jié)點(diǎn)的所有文件,并解析文件內(nèi)容。我們對原Scrapy的FTP爬蟲框架進(jìn)行優(yōu)化,以支持FTP節(jié)點(diǎn)的整體下載。
Scrapy主要通過FTPDownloadHandler類對文件進(jìn)行下載,該類中由download_request方法生成FTP連接生成器對象,gotClient方法通過生成器對象來獲取FTP的客戶端,并通過_build_response私有方法下載文件,如果文件出現(xiàn)錯(cuò)誤,則由_failed方法返回錯(cuò)誤內(nèi)容。
gotClient方法只能下載文件,如果url為文件夾路徑,則會(huì)返回錯(cuò)誤信息。gotClient源碼如下:
def gotClient(self, client, request, filepath):
self.client = client
protocol = ReceivedDataProtocol
(request.meta.get("ftp_local_filename"))
return client.retrieveFile(filepath, protocol)
.addCallbacks(callback=self._build_response,
callbackArgs=(request, protocol),
errback=self._failed,
errbackArgs=(request,))
通過集成FTPDownloadHandler類,重寫gotClient方法,我們可以實(shí)現(xiàn)當(dāng)url為文件夾路徑時(shí),獲取該路徑下的文件名,并將文件名放入response中返回,交由spider處理,當(dāng)url為文件路徑時(shí),下載文件,返回response。另外,通過對response.meta.file_type進(jìn)行設(shè)置,當(dāng)url為文件夾時(shí)設(shè)置為dir,為文件時(shí)設(shè)置為file來判別url的類型。實(shí)現(xiàn)代碼如下:
def gotClient(self, client, request, filepath):
self.client = client
protocol = ReceivedDataProtocol(request.meta.get("ftp_local_filename"))
if (not 'file_type' in request.meta) or ('dir' in request.meta['file_type']):
return client.list(filepath, protocol)\
.addCallbacks(callback=self._build_response,
callbackArgs=(request, protocol),
errback=self._failed,
errbackArgs=(request,))
else:
return client.retrieveFile(filepath, protocol)\
.addCallbacks(callback=self._build_response,
callbackArgs=(request, protocol),
errback=self._failed,
errbackArgs=(request,))
Spider獲取到reponse后,判斷response.meta.file_type,如果為dir,則解析reponse的文件名,并生成相應(yīng)的url,包裝成Request放入Scheduler的url隊(duì)列;如果為file,則抽取相應(yīng)內(nèi)容,存儲實(shí)體。spider代碼如下:
def parse(self, response):
item = CrawlerItem();
url = response.url;
ftp_user = response.meta['ftp_user'];
ftp_password = response.meta['ftp_password'];
#當(dāng)文件為文件夾或者file_type 為None時(shí),獲取當(dāng)前文件夾下的所有文檔及文件夾
if (not 'file_type' in response.meta) or ('dir' in response.meta['file_type']):
content = response.body.decode('latin-1')
line = content.split('\r\n');
re_fileName = re.compile('[^\s]+', re.I)
for files in line:
#判斷目錄
#通過空格分隔信息
infos = re_fileName.findall(files);
if not infos:
continue;
file_name = infos[-1];
if '
req = Request( url = url+'/'+file_name,meta={'file_type':'dir','ftp_user':ftp_user,'ftp_password':ftp_password},callback=self.parse,dont_filter=True);
else:
req = Request( url = url+'/'+file_name,meta={'file_type':'file','ftp_user':ftp_user,'ftp_password':ftp_password},callback=self.parse);
yield req;
logger.debug(response.body.decode('gbk')+' has puted in quee');
else:
util = FileUtil();
file_name = url.split('/')[-1];
item['content'] =util.get_content(file_name,response.body);
url = parse.unquote(url);
title = url.split('/')[-1];
item['title'] = title.encode(encoding='latin-1').decode('gbk');
item['url'] = url;
yield item;
至此,一個(gè)FTP節(jié)點(diǎn)爬蟲就實(shí)現(xiàn)了,我們可以通過配置根節(jié)點(diǎn)url到start_url隊(duì)列中,來采集整個(gè)FTP節(jié)點(diǎn)的文件內(nèi)容。
5? 結(jié)語
Scrapy雖然有著擴(kuò)展性好。易于開發(fā)的特點(diǎn),但是單節(jié)點(diǎn)的爬取方式已經(jīng)不能適應(yīng)信息指數(shù)式增長大數(shù)據(jù)時(shí)代,而集成了scrapy-redis組件的Scrapy雖然能夠分布式部署,但是內(nèi)存會(huì)持續(xù)消耗,并且速度也會(huì)逐漸降低。
優(yōu)化后的scrapy-redis,大大降低了內(nèi)存使用量,在速度上也有所提升。另外,文件節(jié)點(diǎn)整體爬取的問題也得到了有效的解決,能夠滿足現(xiàn)有互聯(lián)網(wǎng)信息爬取的大部分需求。
參考文獻(xiàn)
[1] 李光敏,李平,汪聰.基于Scrapy的分布式數(shù)據(jù)采集與分析——以知乎話題為例[J].湖北師范大學(xué)學(xué)報(bào):自然科學(xué)版,2019,39(3):1-7.
[2] 華云彬,匡芳君.基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[J].智能計(jì)算機(jī)與應(yīng)用,2018,8(5):46-50.
[3] 陶興海.基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2017(11):23.
[4] 李代祎,謝麗艷,錢慎一,等.基于Scrapy的分布式爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].湖北民族學(xué)院學(xué)報(bào):自然科學(xué)版,2017,35(3):317-322.
[5] 舒德華.基于Scrapy爬取電商平臺數(shù)據(jù)及自動(dòng)問答系統(tǒng)的構(gòu)建[D].武漢:華中師范大學(xué),2016.
[6] 樊宇豪.基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2018.
[7] 李代祎,謝麗艷,錢慎一,等.基于Scrapy的分布式爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].湖北民族學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,35(3):317-322.
[8] 張靖宇,梁久禎.中文網(wǎng)頁分布式并行索引的設(shè)計(jì)與實(shí)現(xiàn)[J].微計(jì)算機(jī)信息,2010,26(15):127-128,191.