• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種多源統(tǒng)一爬蟲框架的設(shè)計(jì)與實(shí)現(xiàn)

    2021-04-18 23:45潘洪濤
    軟件工程 2021年4期
    關(guān)鍵詞:網(wǎng)絡(luò)爬蟲

    摘? 要:面向深層網(wǎng)數(shù)據(jù)的爬蟲技術(shù)與反爬蟲技術(shù)之間的對(duì)抗隨著網(wǎng)站技術(shù)、大數(shù)據(jù)、異步傳輸?shù)燃夹g(shù)的發(fā)展而呈現(xiàn)此消彼長(zhǎng)的趨勢(shì)。綜合對(duì)比當(dāng)前主流的爬蟲和反爬蟲技術(shù),針對(duì)高效開發(fā)、快速爬取的需求,MUCrawler(多源統(tǒng)一爬蟲框架)被設(shè)計(jì)成一種可以面向多個(gè)網(wǎng)站數(shù)據(jù)源,以統(tǒng)一的接口形式提供爬蟲開發(fā)的Python框架。測(cè)試結(jié)果顯示,該框架不但能夠突破不同的反爬蟲技術(shù)獲取網(wǎng)站數(shù)據(jù),在開發(fā)效率、魯棒性和爬取效率等方面也體現(xiàn)出較好的運(yùn)行效果。

    關(guān)鍵詞:Python開發(fā);網(wǎng)絡(luò)爬蟲;瀏覽器行為;HTTP請(qǐng)求

    中圖分類號(hào):TP311.1? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):2096-1472(2021)-04-30-03

    Abstract: Confrontation between crawler technology for deep web data and anti-crawler technology has waxed and waned with development of website technology, big data, and asynchronous transmission technology. This paper proposes to develop a Multi-source Uniform-interface Crawler (MUCrawler) framework after comprehensively comparing current mainstream crawler and anti-crawler technologies and considering the needs of efficient development and fast crawling. MUCrawler framework can face multiple websites data sources and provide Python framework of crawler development in the form of a uniform interface. Test results show that the proposed framework can not only break through different anti-crawler technologies to obtain website data, but also show better operating results in terms of development efficiency, robustness, and crawling efficiency.

    Keywords: Python program; web crawler; browser behavior; HTTP (High Text Transfer Protocol) request

    1? ?引言(Introduction)

    網(wǎng)絡(luò)爬蟲(crawler,也稱spider、robot等)是面向互聯(lián)網(wǎng),能夠通過(guò)URL(Uniform Resource Locator,統(tǒng)一資源定位器)自動(dòng)獲取Web頁(yè)面數(shù)據(jù)的程序[1]。高性能的網(wǎng)絡(luò)爬蟲搜集互聯(lián)網(wǎng)信息是搜索引擎(如Google、Baidu等)的基礎(chǔ)。網(wǎng)絡(luò)爬蟲也是大數(shù)據(jù)和人工智能訓(xùn)練的一個(gè)重要數(shù)據(jù)來(lái)源,如社交網(wǎng)絡(luò)情緒分類[2]、農(nóng)業(yè)物資分析[3]或金融市場(chǎng)分析[4]等數(shù)據(jù)就可以采用網(wǎng)絡(luò)爬蟲從對(duì)應(yīng)網(wǎng)站中采集。

    無(wú)限制的網(wǎng)絡(luò)爬蟲可能對(duì)網(wǎng)站造成流量壓力,因此,許多網(wǎng)站采用反爬蟲技術(shù)對(duì)網(wǎng)頁(yè)的自動(dòng)化爬取進(jìn)行限制,由此導(dǎo)致很多爬蟲程序失效[5]。反爬蟲技術(shù)的發(fā)展要求爬蟲程序必須不斷改進(jìn)才能突破反爬蟲限制獲取網(wǎng)頁(yè)內(nèi)容。本文針對(duì)當(dāng)前流行的爬蟲和反爬蟲技術(shù)進(jìn)行對(duì)比分析,在綜合各種爬蟲技術(shù)的基礎(chǔ)上提出了一種針對(duì)多數(shù)據(jù)源,提供統(tǒng)一接口的Python網(wǎng)絡(luò)爬蟲框架MUCrawler(Multi-source Uniform-interface Crawler,多源統(tǒng)一爬蟲框架),并針對(duì)招聘網(wǎng)站進(jìn)行測(cè)試。

    2? 網(wǎng)絡(luò)爬蟲功能分析(Functional analysis of network crawler)

    2.1? ?功能分類

    依據(jù)數(shù)據(jù)存儲(chǔ)展現(xiàn)方式的不同,Web網(wǎng)站可以分成表層網(wǎng)和深層網(wǎng)[6],針對(duì)兩種網(wǎng)絡(luò)設(shè)計(jì)的爬蟲程序也稱為表層網(wǎng)爬蟲和深層網(wǎng)爬蟲。在當(dāng)前的網(wǎng)絡(luò)中,以靜態(tài)頁(yè)面為主要存儲(chǔ)展現(xiàn)的網(wǎng)站(表層網(wǎng))越來(lái)越少,更多的網(wǎng)站則是使用數(shù)據(jù)庫(kù)存取的動(dòng)態(tài)頁(yè)面、AJAX(Asynchronous JavaScript and XML,異步的JavaScript和XML)數(shù)據(jù)加載、JSON(JavaScript Object Notation, JavaScript對(duì)象簡(jiǎn)譜)數(shù)據(jù)傳輸?shù)纳顚泳W(wǎng),因此,深層網(wǎng)爬蟲應(yīng)用最廣泛。

    依據(jù)爬取Web數(shù)據(jù)的范圍,網(wǎng)絡(luò)爬蟲可以分為通用型爬蟲和主題型爬蟲兩類。通用型爬蟲是對(duì)互聯(lián)網(wǎng)所有Web信息進(jìn)行遍歷獲取,這種爬蟲主要作為搜索引擎的信息采集工具,具有全面性、高效率、高并發(fā)、海量存儲(chǔ)等特點(diǎn)[7]。與通用型爬蟲不同,主題型爬蟲則是針對(duì)某一個(gè)或幾個(gè)網(wǎng)站,進(jìn)行特定主題信息的獲取[8]。主題型網(wǎng)絡(luò)爬蟲在當(dāng)前大數(shù)據(jù)分析領(lǐng)域應(yīng)用較為廣泛。

    2.2? ?基本功能

    網(wǎng)絡(luò)爬蟲必須能夠模擬瀏覽器行為,針對(duì)URL自動(dòng)完成HTTP請(qǐng)求,并能夠接收服務(wù)器傳回的HTTP響應(yīng)信息。Web服務(wù)器響應(yīng)的信息一般為HTML(Hyper Text Markup Language,超文本標(biāo)記語(yǔ)言)、XML(Extensible Markup Language,可擴(kuò)展標(biāo)記語(yǔ)言)或者JSON等格式的數(shù)據(jù),也可能是圖像或者視頻格式文件。因此,網(wǎng)絡(luò)爬蟲需要將服務(wù)器相應(yīng)的信息按照語(yǔ)法結(jié)構(gòu)進(jìn)行解析,從中過(guò)濾出有用的信息。

    網(wǎng)絡(luò)爬蟲還要具有迭代查找或者構(gòu)造URL的功能。當(dāng)前多數(shù)網(wǎng)站是信息存放在數(shù)據(jù)庫(kù)的動(dòng)態(tài)網(wǎng)站,網(wǎng)絡(luò)爬蟲需要通過(guò)自動(dòng)表單填寫和提交,使用POST方法來(lái)獲取新的URL以及分析網(wǎng)站URL結(jié)構(gòu),也可以通過(guò)字符串拼接方式構(gòu)造GET方法的URL。如果網(wǎng)站響應(yīng)信息為HTML響應(yīng)信息,也可以從頁(yè)面信息中過(guò)濾“href”“src”等標(biāo)簽或?qū)傩垣@取更深層次的URL。

    能夠?qū)崿F(xiàn)網(wǎng)絡(luò)爬蟲基本功能的Python擴(kuò)展庫(kù)包括:Urllib、Requests實(shí)現(xiàn)HTTP請(qǐng)求和響應(yīng)處理,Beautifulsoup、PyQuery、lxml等實(shí)現(xiàn)響應(yīng)文檔解析。

    2.3? ?擴(kuò)展功能

    網(wǎng)絡(luò)數(shù)據(jù)的大規(guī)模爬取、存儲(chǔ)和處理,要求網(wǎng)絡(luò)爬蟲除了具備上述基本功能,還需要具備并行調(diào)度、數(shù)據(jù)去重和數(shù)據(jù)存儲(chǔ)等功能[9]。短時(shí)間內(nèi)獲取海量網(wǎng)絡(luò)數(shù)據(jù)需要提高采集效率,在Robots協(xié)議允許范圍內(nèi),采取多線程并發(fā)的方式是主要途徑[10]。網(wǎng)絡(luò)信息中存在大量重復(fù)的URL或冗余數(shù)據(jù),獲取這些數(shù)據(jù)不但會(huì)浪費(fèi)寶貴的計(jì)算資源、帶寬資源和存儲(chǔ)資源,還會(huì)給服務(wù)器造成不必要的壓力,因此,去除這些重復(fù)URL和冗余數(shù)據(jù)對(duì)于提高網(wǎng)絡(luò)爬蟲效率至關(guān)重要。侯美靜等基于DOM(Document Object Model,文檔對(duì)象模型)結(jié)構(gòu)計(jì)算頁(yè)面相似度,實(shí)現(xiàn)智能URL去重提高爬取效率[11]。存儲(chǔ)爬取數(shù)據(jù)的方式有多種,如數(shù)據(jù)庫(kù)存儲(chǔ)等結(jié)構(gòu)化存儲(chǔ)、JSON等半結(jié)構(gòu)化存儲(chǔ)及文本圖像視頻等非結(jié)構(gòu)化存儲(chǔ),因此網(wǎng)絡(luò)爬蟲還應(yīng)具備多種存儲(chǔ)方式的接口。

    2.4? ?反爬蟲技術(shù)及對(duì)應(yīng)策略

    數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)寶貴的資源,多數(shù)大型網(wǎng)站對(duì)自己的數(shù)據(jù)都有防范措施,即采用反爬蟲技術(shù)對(duì)網(wǎng)站爬取進(jìn)行限制。常用的反爬蟲機(jī)制和應(yīng)對(duì)策略如表1所示[12-13]。

    2.5? ?爬蟲框架

    隨著搜索引擎,尤其是大數(shù)據(jù)技術(shù)的發(fā)展,網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用越來(lái)越廣泛。采用Python基本功能庫(kù)(如Requests)編碼實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲,可以靈活定制爬蟲功能,但開發(fā)效率較低。因此,許多組織或個(gè)人開發(fā)了網(wǎng)絡(luò)爬蟲框架作為中間件來(lái)提高開發(fā)效率[14-15],如Scrapy、Pyspider、Crawley等,其中應(yīng)用最廣泛的就是Scrapy,文獻(xiàn)[16]就是基于Scrapy設(shè)計(jì)開發(fā)就業(yè)推薦系統(tǒng)。

    Scrapy是一個(gè)高層次的、快速開源的網(wǎng)絡(luò)爬蟲框架,用于爬取網(wǎng)站并從頁(yè)面中提取數(shù)據(jù)。Scrapy以Scrapy engine為中心,實(shí)現(xiàn)發(fā)起HTTP請(qǐng)求、接收響應(yīng)、迭代提取URL等網(wǎng)絡(luò)爬蟲功能,并通過(guò)URL列表、數(shù)據(jù)列表輸出的統(tǒng)一調(diào)度來(lái)控制并發(fā),提高系統(tǒng)效率。但是,Scrapy針對(duì)使用AJAX等動(dòng)態(tài)加載數(shù)據(jù)的反爬取技術(shù)的應(yīng)對(duì)策略不足,無(wú)法突破高級(jí)反爬蟲技術(shù)的屏蔽。

    3? 多源統(tǒng)一爬蟲框架(Multi-source uniform-interface spider structure)

    綜上分析,各種網(wǎng)絡(luò)爬蟲技術(shù)均有自己的優(yōu)勢(shì)和不足,尤其是針對(duì)不同的反爬蟲技術(shù),有些爬蟲技術(shù)受到限制而另外一些卻能突破。大型網(wǎng)站的結(jié)構(gòu)和內(nèi)容在不斷地變化,針對(duì)網(wǎng)絡(luò)爬蟲所采取的反爬蟲措施也在不斷強(qiáng)化。例如,2019年針對(duì)知名招聘網(wǎng)站A開發(fā)的網(wǎng)絡(luò)爬蟲技術(shù),在2020年已經(jīng)失效。因此,本文結(jié)合各種爬蟲與反爬蟲技術(shù)開發(fā)一種面向多數(shù)據(jù)源的統(tǒng)一爬蟲框架。

    3.1? ?設(shè)計(jì)原則

    周德懋等提出高性能網(wǎng)絡(luò)爬蟲應(yīng)該具有可伸縮性、提高下載質(zhì)量、避免下載垃圾問(wèn)題的特點(diǎn)[9],于成龍等還補(bǔ)充了禮貌爬行、并行性等特點(diǎn)[17]。這些特點(diǎn)都是本框架設(shè)計(jì)的原則,突出的主要有四點(diǎn):

    (1)多源通用:針對(duì)采用了各種不同反爬蟲技術(shù)的網(wǎng)站,框架均具有適應(yīng)性,且需要屏蔽采取爬蟲技術(shù)底層細(xì)節(jié),為用戶提供統(tǒng)一的URL請(qǐng)求接口。

    (2)提高性能:以客戶端計(jì)算資源和帶寬資源為基礎(chǔ),在框架中采用多線程網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)并發(fā)數(shù)據(jù)采集。不同的網(wǎng)絡(luò)爬蟲技術(shù)采取不同的并發(fā)度,如Requests針對(duì)大型網(wǎng)站多主題數(shù)據(jù)爬取采用大量線程(線程數(shù)>10);針對(duì)中小型網(wǎng)站的多主題數(shù)據(jù)爬取采取少量線程并發(fā)(線程數(shù)≤10);針對(duì)Selenium等模擬瀏覽器運(yùn)行AJAX數(shù)據(jù)加載的網(wǎng)絡(luò)爬蟲則采取單線程,避免出現(xiàn)錯(cuò)誤。

    (3)適度采集:網(wǎng)絡(luò)爬蟲爬取信息會(huì)擠占網(wǎng)站的計(jì)算資源和帶寬資源,對(duì)同一網(wǎng)站無(wú)限制的并發(fā)大量請(qǐng)求連接會(huì)消耗其資源,影響正常用戶的訪問(wèn)。因此,本框架采取“禮貌”爬取方式,限制單位時(shí)間內(nèi)并發(fā)的請(qǐng)求連接數(shù)量以及兩次請(qǐng)求之間的時(shí)間間隔。

    (4)統(tǒng)一存儲(chǔ):用戶對(duì)爬取的數(shù)據(jù)可能采取MySQL等數(shù)據(jù)庫(kù)存儲(chǔ),也可能采取csv文件甚至文本文件存儲(chǔ)。因此,本框架封裝多種存儲(chǔ)方式接口,調(diào)用方式統(tǒng)一,參數(shù)各異。

    3.2? ?框架結(jié)構(gòu)

    本框架包括下載、分析、存儲(chǔ)和調(diào)度四個(gè)模塊,其結(jié)構(gòu)如圖1所示。

    3.3? ?框架模塊說(shuō)明

    (1)下載模塊:下載模塊是MUCrawler框架體現(xiàn)“多源統(tǒng)一”特點(diǎn)的模塊?!岸嘣础奔炊鄠€(gè)數(shù)據(jù)源(Web網(wǎng)站),這些Web網(wǎng)站可能采取不同的反爬蟲策略;“統(tǒng)一”即針對(duì)不同數(shù)據(jù)源,MUCrawler封裝了不同的爬取技術(shù),如Requests、Selenium等,只需要設(shè)置網(wǎng)站域名(host)、對(duì)應(yīng)的方法名和headers參數(shù)即可。

    (2)分析模塊:除了有用數(shù)據(jù),頁(yè)面包括大量的HTML標(biāo)簽、CSS樣式、JavaScript代碼等。分析模塊的功能是從已經(jīng)下載的頁(yè)面中過(guò)濾出有用信息,主要采用Beautifulsoup、Selenium等技術(shù),將特定標(biāo)簽或?qū)傩灾械男畔⑻崛〕鰜?lái)。在MUCrawler中,用戶只需要設(shè)定標(biāo)簽或者屬性與信息的對(duì)應(yīng)關(guān)系,同時(shí)設(shè)置該條數(shù)據(jù)的名稱,即可通過(guò)鍵值對(duì)的方式存入數(shù)組。

    (3)調(diào)度模塊:形成URL隊(duì)列,通過(guò)對(duì)URL的入隊(duì)和出隊(duì)操作實(shí)現(xiàn)對(duì)URL請(qǐng)求進(jìn)度的控制。當(dāng)配置高并發(fā)的時(shí)候,會(huì)同時(shí)出隊(duì)多個(gè)URL發(fā)送到下載模塊來(lái)請(qǐng)求頁(yè)面;當(dāng)配置低并發(fā)或單線程時(shí),每次只彈出少數(shù)幾個(gè)甚至一個(gè)URL發(fā)送到下載模塊來(lái)請(qǐng)求頁(yè)面。通過(guò)設(shè)置兩個(gè)URL請(qǐng)求間隔時(shí)間控制訪問(wèn)速度。

    (4)存儲(chǔ)模塊:Web數(shù)據(jù)存儲(chǔ)可以有多種形式,如文本文件存儲(chǔ)、csv或excel文件存儲(chǔ)、數(shù)據(jù)庫(kù)存儲(chǔ)等。針對(duì)這些形式,MUCrawler框架封裝了文本文件存儲(chǔ)接口,接口參數(shù)包括命名規(guī)則、文件大小限制等;csv或excel文件存儲(chǔ),接口參數(shù)包括命名規(guī)則、sheet設(shè)定、列名、文件大小限制等;數(shù)據(jù)庫(kù)存儲(chǔ)接口包括MySQL、NoSQL等多種,接口參數(shù)包括數(shù)據(jù)庫(kù)連接參數(shù)、字段對(duì)應(yīng)關(guān)系、重復(fù)數(shù)據(jù)判定字段等,封裝了select、insert、delete等操作方法。

    4? MUCrawler框架應(yīng)用測(cè)試(MUCrawler application and test)

    招聘類網(wǎng)站是典型的數(shù)據(jù)密集、更新快速的深層網(wǎng)網(wǎng)站。為了測(cè)試應(yīng)用效果,MUCrawler框架針對(duì)招聘類網(wǎng)站進(jìn)行了采集實(shí)踐[15]。

    4.1? ?測(cè)試環(huán)境

    MUCrawler基于Python環(huán)境,軟硬件配置如下:

    服務(wù)器:DELL PowerEdge R210 II;CPU:Intel(R) Xeon(R)E3-1220,3.1 GHz;內(nèi)存:8 GB;硬盤:1 TB;操作系統(tǒng):Windows Server 2008 R2。

    VMware虛擬機(jī):CPU:1顆2核;內(nèi)存:2 GB;硬盤:20 GB。

    操作系統(tǒng):Windows 7 professional 64 bit。

    軟件環(huán)境:Python 3.7.7 64 bit。

    網(wǎng)絡(luò)環(huán)境:100 MB以太網(wǎng)物理網(wǎng)絡(luò),NAT虛擬網(wǎng)絡(luò)設(shè)置。

    4.2? ?測(cè)試方案

    MUCrawler框架的測(cè)試目標(biāo)主要是功能測(cè)試、開發(fā)效率測(cè)試、魯棒性測(cè)試和爬取效率測(cè)試等。為了對(duì)比框架運(yùn)行效果,選擇其他主流方法、庫(kù)或框架進(jìn)行對(duì)比。選擇了三家知名的招聘網(wǎng)站作為測(cè)試對(duì)象,分別以L、W、Z表示。按照不同的關(guān)鍵字進(jìn)行搜索,每個(gè)網(wǎng)站得到100個(gè)URL鏈接,將這300個(gè)鏈接作為測(cè)試URL庫(kù)。框架測(cè)試對(duì)比項(xiàng)目如表2所示。

    4.3? ?測(cè)試結(jié)果

    按照測(cè)試方案,功能測(cè)試針對(duì)L、W和Z網(wǎng)站的URL分別進(jìn)行爬取,爬取功能實(shí)現(xiàn)結(jié)果如表3所示,“Y”代表成功爬取,“N”代表爬取失敗。

    分別采用Requests、Selenium、Scrapy和MUCrawler四種技術(shù)對(duì)三個(gè)目標(biāo)網(wǎng)站的URL鏈接庫(kù)進(jìn)行開發(fā)效率測(cè)試、魯棒性測(cè)試和爬取效率測(cè)試。為了便于對(duì)比,本文將測(cè)試結(jié)果進(jìn)行歸一化,如公式(1)所示,其中為第個(gè)網(wǎng)站的測(cè)試值。

    四種技術(shù)的開發(fā)效率、魯棒性和爬取效率的測(cè)試結(jié)果經(jīng)過(guò)歸一化處理,均轉(zhuǎn)換為0—1的小數(shù),數(shù)值越小性能越優(yōu),結(jié)果如圖2所示。

    4.4? ?結(jié)果分析

    圖2所展示的測(cè)試結(jié)果表明,在性能上Scrapy的開發(fā)效率、魯棒性和爬取效率均為最優(yōu),其次是Requests,MUCrawler第三,而Selenium則在這些方面均處于劣勢(shì)。但結(jié)合表1的功能測(cè)試,針對(duì)部分網(wǎng)站的反爬措施,只有Selenium、MUCrawler能夠?qū)崿F(xiàn)三個(gè)網(wǎng)站的Web信息爬取,且MUCrawler針對(duì)三個(gè)測(cè)試網(wǎng)站的爬取效率高于Selenium。

    5? ?結(jié)論(Conclusion)

    MUCrawler網(wǎng)絡(luò)爬蟲框架綜合各種Python爬蟲技術(shù)的優(yōu)勢(shì),能夠突破常用爬蟲技術(shù)的限制實(shí)現(xiàn)信息的爬取。然而,MUCrawler并非Python原生開發(fā)的類庫(kù),只是基于Requests、Selenium等技術(shù)進(jìn)行的二次開發(fā),因此在爬取性能上還不能做到最優(yōu)。

    參考文獻(xiàn)(References)

    [1] BRIN S, PAGE L. The anatomy of a large-scale hypertextual web search engine[J]. Computer Networks, 1998, 30(1):107-117.

    [2] 彭紀(jì)奔,吳林,陳賢,等.基于爬蟲技術(shù)的網(wǎng)絡(luò)負(fù)面情緒挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(10):9-13;71.

    [3] TIAN F, TAN H, CHENG Z, et al. Research and construction of the online pesticide information center and discovery platform based on web crawler[J]. Procedia Computer Science, 2020, 166:9-14.

    [4] LIU P, XIA X, LI A. Tweeting the financial market: Media effect in the era of big data[J]. Pacific-Basin Finance Journal, 2018, 51(7):267-290.

    [5] 張曄,孫光光,徐洪云,等.國(guó)外科技網(wǎng)站反爬蟲研究及數(shù)據(jù)獲取對(duì)策研究[J].競(jìng)爭(zhēng)情報(bào),2020,16(01):24-28.

    [6] 曾偉輝,李淼.深層網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008(05):122-126.

    [7] ARASU A, CHO J. Searching the web[J]. ACM Transactions on Internet Technology, 2001, 1(1):2-43.

    [8] 林椹尠,袁柱,李小平.一種主題自適應(yīng)聚焦爬蟲方法[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(5):316-321.

    [9] 周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計(jì)算機(jī)科學(xué),2009,36(08):26-29;53.

    [10] BEDI P, THUKRAL A, BANATI H, et al. A multi-threaded semantic focused crawler[J]. Journal of Computer Science and Technology, 2012, 27(6):1233-1242.

    [11] 侯美靜,崔艷鵬,胡建偉.基于爬蟲的智能爬行算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(11):215-219;277.

    [12] 胡立.Python反爬蟲設(shè)計(jì)[J].計(jì)算機(jī)與網(wǎng)絡(luò),2020,46(11):48-49.

    [13] 余本國(guó).基于Python網(wǎng)絡(luò)爬蟲的瀏覽器偽裝技術(shù)探討[J].太原學(xué)院學(xué)報(bào)(自然科學(xué)版),2020,38(1):47-50.

    [14] LI J T, MA X. Research on hot news discovery model based on user interest and topic discovery[J]. Cluster Comput, 2019, 22(7):8483-8491.

    [15] PENG T, HE F, ZUO W L. A new framework for focused web crawling[J]. Wuhan University Journal of Natural Sciences, 2006, 11(9):1394-1397.

    [16] 陳榮征,陳景濤,林澤銘.基于網(wǎng)絡(luò)爬蟲和智能推薦的大學(xué)生精準(zhǔn)就業(yè)服務(wù)系統(tǒng)研究[J].電腦與電信,2019(Z1):39-43.

    [17] 于成龍,于洪波.網(wǎng)絡(luò)爬蟲技術(shù)研究[J].東莞理工學(xué)院學(xué)報(bào),2011,18(03):25-29.

    作者簡(jiǎn)介:

    潘洪濤(1979-),男,碩士,副教授.研究領(lǐng)域:網(wǎng)絡(luò)安全,軟件開發(fā)和計(jì)算機(jī)職業(yè)教育.

    猜你喜歡
    網(wǎng)絡(luò)爬蟲
    基于分布式的農(nóng)業(yè)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    微信平臺(tái)下的教務(wù)信息獲取和隱私保護(hù)方法研究
    搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景
    煉鐵廠鐵量網(wǎng)頁(yè)數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁(yè)挖掘研究
    主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
    淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲流量
    基于淘寶某商品銷售量監(jiān)控系統(tǒng)
    網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究
    99re6热这里在线精品视频| 久久精品国产99精品国产亚洲性色 | 精品久久久久久电影网| 亚洲七黄色美女视频| 亚洲精品国产精品久久久不卡| 亚洲精品美女久久av网站| 99国产精品一区二区蜜桃av | 亚洲片人在线观看| 天堂中文最新版在线下载| 99热国产这里只有精品6| 我的亚洲天堂| 天堂俺去俺来也www色官网| 欧美黑人精品巨大| 亚洲一码二码三码区别大吗| 午夜久久久在线观看| 亚洲专区字幕在线| 国产精品亚洲一级av第二区| 国产精品国产高清国产av | 老汉色∧v一级毛片| 美国免费a级毛片| 国产成+人综合+亚洲专区| 国产精品久久久久成人av| 99国产精品一区二区三区| 亚洲伊人色综图| 国产欧美亚洲国产| 一区在线观看完整版| 国产精品一区二区免费欧美| 婷婷成人精品国产| 19禁男女啪啪无遮挡网站| 制服诱惑二区| 国产激情欧美一区二区| 嫩草影视91久久| 大香蕉久久网| x7x7x7水蜜桃| 丰满人妻熟妇乱又伦精品不卡| 亚洲中文日韩欧美视频| 999久久久国产精品视频| 一二三四社区在线视频社区8| 国产黄色免费在线视频| 黑人欧美特级aaaaaa片| 婷婷成人精品国产| 99re6热这里在线精品视频| 青草久久国产| 我的亚洲天堂| 日韩制服丝袜自拍偷拍| 天堂动漫精品| 一级作爱视频免费观看| 亚洲欧美日韩高清在线视频| 久久久久国产精品人妻aⅴ院 | 99热只有精品国产| 怎么达到女性高潮| 搡老乐熟女国产| 亚洲一区二区三区不卡视频| 妹子高潮喷水视频| 老司机靠b影院| 婷婷成人精品国产| 美女高潮喷水抽搐中文字幕| 19禁男女啪啪无遮挡网站| 午夜精品在线福利| aaaaa片日本免费| 欧美精品av麻豆av| 99精品欧美一区二区三区四区| 女性生殖器流出的白浆| 国产精品久久久久久人妻精品电影| 亚洲五月婷婷丁香| 在线av久久热| 人人妻人人添人人爽欧美一区卜| 国产精品久久久久成人av| 妹子高潮喷水视频| 国产真人三级小视频在线观看| 精品人妻熟女毛片av久久网站| 一夜夜www| 麻豆国产av国片精品| 亚洲综合色网址| 91老司机精品| 日韩欧美一区视频在线观看| 亚洲熟妇熟女久久| 国产成人精品久久二区二区91| 久久久国产成人免费| 国产精品免费大片| 午夜日韩欧美国产| 亚洲精品一卡2卡三卡4卡5卡| 韩国精品一区二区三区| 国产欧美日韩一区二区三| 久久国产精品大桥未久av| 亚洲人成电影观看| 可以免费在线观看a视频的电影网站| 91大片在线观看| av电影中文网址| 999久久久精品免费观看国产| 人人妻,人人澡人人爽秒播| 国产不卡av网站在线观看| 精品国产乱码久久久久久男人| 人人妻人人澡人人看| 两个人看的免费小视频| 亚洲精品av麻豆狂野| 美女国产高潮福利片在线看| 热re99久久精品国产66热6| 国产无遮挡羞羞视频在线观看| 亚洲精品在线美女| 嫩草影视91久久| 日本欧美视频一区| 99精国产麻豆久久婷婷| av福利片在线| 国产人伦9x9x在线观看| 老司机深夜福利视频在线观看| 丁香欧美五月| 大香蕉久久成人网| 午夜日韩欧美国产| 一区福利在线观看| 国产熟女午夜一区二区三区| 久久 成人 亚洲| 亚洲精品在线观看二区| av网站免费在线观看视频| 黄色丝袜av网址大全| 国产亚洲精品久久久久久毛片 | 大码成人一级视频| 久久香蕉精品热| 高清视频免费观看一区二区| 老司机午夜十八禁免费视频| 国产乱人伦免费视频| 热99久久久久精品小说推荐| 国产熟女午夜一区二区三区| 又黄又粗又硬又大视频| 日韩欧美一区视频在线观看| 国产极品粉嫩免费观看在线| 欧美性长视频在线观看| 欧美黑人精品巨大| 青草久久国产| 免费在线观看视频国产中文字幕亚洲| 国产xxxxx性猛交| 亚洲精华国产精华精| 欧美久久黑人一区二区| 精品人妻1区二区| 久久99一区二区三区| 国产高清videossex| 国产一区二区三区视频了| 欧美日韩中文字幕国产精品一区二区三区 | 飞空精品影院首页| 国产精品国产av在线观看| 黄色视频不卡| 麻豆av在线久日| 亚洲精品乱久久久久久| 美女福利国产在线| 亚洲精品国产区一区二| avwww免费| 91精品三级在线观看| 欧美激情高清一区二区三区| 欧美乱妇无乱码| 一级毛片精品| 91九色精品人成在线观看| 激情视频va一区二区三区| 中文字幕人妻丝袜一区二区| 在线av久久热| 国产无遮挡羞羞视频在线观看| 色94色欧美一区二区| 可以免费在线观看a视频的电影网站| 国产精品免费视频内射| 国产男女超爽视频在线观看| 国产日韩一区二区三区精品不卡| 村上凉子中文字幕在线| 狠狠狠狠99中文字幕| 亚洲精品国产色婷婷电影| 成人av一区二区三区在线看| 国产精品久久久久久人妻精品电影| 9色porny在线观看| 精品久久久久久,| 中国美女看黄片| 丁香六月欧美| 丰满的人妻完整版| 色婷婷av一区二区三区视频| 在线观看www视频免费| 人人妻人人澡人人爽人人夜夜| 校园春色视频在线观看| 一进一出抽搐gif免费好疼 | 久久精品国产99精品国产亚洲性色 | 制服诱惑二区| 91九色精品人成在线观看| 人妻 亚洲 视频| 欧美成狂野欧美在线观看| 亚洲av片天天在线观看| 久久中文看片网| 三级毛片av免费| 欧美不卡视频在线免费观看 | 99香蕉大伊视频| 无限看片的www在线观看| 午夜免费观看网址| 18禁裸乳无遮挡动漫免费视频| 色老头精品视频在线观看| 亚洲精品美女久久久久99蜜臀| 精品久久久久久电影网| 亚洲精品在线美女| 满18在线观看网站| 亚洲成人手机| 日本精品一区二区三区蜜桃| 校园春色视频在线观看| 12—13女人毛片做爰片一| 黄频高清免费视频| 窝窝影院91人妻| 丁香欧美五月| 日本wwww免费看| a级毛片黄视频| 国产欧美亚洲国产| 久久影院123| 亚洲av成人不卡在线观看播放网| 视频在线观看一区二区三区| 国产在视频线精品| 黄色视频不卡| 搡老乐熟女国产| 国产亚洲精品第一综合不卡| 69精品国产乱码久久久| 变态另类成人亚洲欧美熟女 | 亚洲精品美女久久久久99蜜臀| 18禁裸乳无遮挡动漫免费视频| 一区二区三区激情视频| 国产有黄有色有爽视频| 两个人看的免费小视频| 久久精品aⅴ一区二区三区四区| 99香蕉大伊视频| 久久久久国产精品人妻aⅴ院 | 亚洲专区字幕在线| 国产一区二区激情短视频| 美女扒开内裤让男人捅视频| 99国产极品粉嫩在线观看| 日韩人妻精品一区2区三区| 少妇猛男粗大的猛烈进出视频| 精品视频人人做人人爽| e午夜精品久久久久久久| 精品国产亚洲在线| av网站免费在线观看视频| 美女福利国产在线| www.999成人在线观看| 精品午夜福利视频在线观看一区| 婷婷成人精品国产| 丝袜人妻中文字幕| 国产精品乱码一区二三区的特点 | 国产精品久久久人人做人人爽| 视频区图区小说| 亚洲欧美精品综合一区二区三区| 中文字幕人妻丝袜制服| 一区二区三区国产精品乱码| 午夜福利,免费看| 老司机午夜十八禁免费视频| 高清欧美精品videossex| 欧美精品高潮呻吟av久久| 天堂动漫精品| videosex国产| 精品国产一区二区久久| 热re99久久国产66热| 91字幕亚洲| 他把我摸到了高潮在线观看| 日韩人妻精品一区2区三区| 婷婷丁香在线五月| 亚洲va日本ⅴa欧美va伊人久久| 久久国产乱子伦精品免费另类| 午夜福利免费观看在线| 美女 人体艺术 gogo| 黄片播放在线免费| 亚洲欧美日韩另类电影网站| 成年动漫av网址| 久久天躁狠狠躁夜夜2o2o| svipshipincom国产片| 一边摸一边做爽爽视频免费| 午夜免费观看网址| cao死你这个sao货| 免费观看精品视频网站| 国产精品久久久人人做人人爽| 十分钟在线观看高清视频www| 欧美成人午夜精品| 人成视频在线观看免费观看| av电影中文网址| 人人妻人人爽人人添夜夜欢视频| 久久久久精品国产欧美久久久| 91成人精品电影| 午夜精品久久久久久毛片777| 九色亚洲精品在线播放| 天天添夜夜摸| 免费一级毛片在线播放高清视频 | 午夜福利视频在线观看免费| 性少妇av在线| 黑人巨大精品欧美一区二区蜜桃| 久99久视频精品免费| 亚洲五月色婷婷综合| 日韩视频一区二区在线观看| 我的亚洲天堂| 欧美黄色片欧美黄色片| 伦理电影免费视频| 久久国产精品男人的天堂亚洲| 久99久视频精品免费| 亚洲熟女毛片儿| 亚洲av熟女| 黑人操中国人逼视频| 亚洲av成人av| 国产日韩一区二区三区精品不卡| 亚洲av欧美aⅴ国产| 午夜日韩欧美国产| 女性生殖器流出的白浆| 日日摸夜夜添夜夜添小说| 18禁国产床啪视频网站| 国产高清videossex| 啦啦啦免费观看视频1| 免费不卡黄色视频| 18禁观看日本| 女警被强在线播放| 亚洲专区中文字幕在线| 欧美日韩福利视频一区二区| 亚洲精品在线美女| 国产色视频综合| 成年版毛片免费区| 国产1区2区3区精品| 水蜜桃什么品种好| 欧美在线一区亚洲| 成年人午夜在线观看视频| 欧美午夜高清在线| 久久这里只有精品19| 亚洲一区中文字幕在线| 国产精品免费一区二区三区在线 | 成人手机av| 黄色毛片三级朝国网站| 亚洲 国产 在线| 精品国产一区二区三区久久久樱花| 成年女人毛片免费观看观看9 | 国产91精品成人一区二区三区| 国产精华一区二区三区| 亚洲在线自拍视频| 老熟女久久久| 大型av网站在线播放| 色综合欧美亚洲国产小说| 亚洲国产精品合色在线| 在线免费观看的www视频| 如日韩欧美国产精品一区二区三区| 王馨瑶露胸无遮挡在线观看| 在线免费观看的www视频| 欧美中文综合在线视频| 国产精品香港三级国产av潘金莲| 91麻豆av在线| 精品视频人人做人人爽| av网站在线播放免费| 村上凉子中文字幕在线| 久久这里只有精品19| 三上悠亚av全集在线观看| 丝袜人妻中文字幕| 亚洲午夜理论影院| 久久久精品免费免费高清| 老司机午夜十八禁免费视频| 中文亚洲av片在线观看爽 | 美女国产高潮福利片在线看| 最近最新中文字幕大全免费视频| 不卡av一区二区三区| 国产精品自产拍在线观看55亚洲 | 亚洲国产精品一区二区三区在线| 9191精品国产免费久久| 国产一区二区三区在线臀色熟女 | 伊人久久大香线蕉亚洲五| 午夜精品在线福利| 999精品在线视频| 1024视频免费在线观看| 777久久人妻少妇嫩草av网站| 天堂√8在线中文| 首页视频小说图片口味搜索| 男人舔女人的私密视频| 在线观看免费午夜福利视频| 久久久久久免费高清国产稀缺| 国产精品 国内视频| 欧美性长视频在线观看| 国产精品影院久久| 午夜精品在线福利| 久久久久久人人人人人| 中文字幕人妻熟女乱码| 中文亚洲av片在线观看爽 | 一二三四在线观看免费中文在| 69av精品久久久久久| 国产精品乱码一区二三区的特点 | 19禁男女啪啪无遮挡网站| 免费观看精品视频网站| 欧美日韩中文字幕国产精品一区二区三区 | 午夜福利乱码中文字幕| 99热国产这里只有精品6| 国产无遮挡羞羞视频在线观看| 日韩人妻精品一区2区三区| 色婷婷久久久亚洲欧美| av网站免费在线观看视频| 老司机在亚洲福利影院| 一级片免费观看大全| av不卡在线播放| 午夜福利在线免费观看网站| 欧美乱码精品一区二区三区| 国内毛片毛片毛片毛片毛片| 欧美 亚洲 国产 日韩一| 俄罗斯特黄特色一大片| 韩国av一区二区三区四区| 亚洲人成77777在线视频| 亚洲av片天天在线观看| 国内毛片毛片毛片毛片毛片| 一本大道久久a久久精品| 国产免费现黄频在线看| 最新在线观看一区二区三区| 国产日韩欧美亚洲二区| 777米奇影视久久| 亚洲第一av免费看| 丰满人妻熟妇乱又伦精品不卡| 国产主播在线观看一区二区| 久久国产精品人妻蜜桃| 亚洲久久久国产精品| 免费观看精品视频网站| 女人久久www免费人成看片| 国精品久久久久久国模美| 美女高潮到喷水免费观看| 啦啦啦视频在线资源免费观看| 国产免费现黄频在线看| 一本综合久久免费| av有码第一页| 女人爽到高潮嗷嗷叫在线视频| 国内毛片毛片毛片毛片毛片| 亚洲午夜精品一区,二区,三区| 人成视频在线观看免费观看| 亚洲熟女毛片儿| 久久性视频一级片| 国产精品综合久久久久久久免费 | 国产成人精品在线电影| 一本综合久久免费| cao死你这个sao货| 女同久久另类99精品国产91| 国产av又大| 亚洲精品中文字幕在线视频| 99久久国产精品久久久| 色在线成人网| 最新在线观看一区二区三区| 国产精品香港三级国产av潘金莲| 国产人伦9x9x在线观看| 啦啦啦 在线观看视频| 在线观看免费高清a一片| 亚洲性夜色夜夜综合| 亚洲欧美一区二区三区久久| 国产av精品麻豆| 99国产精品一区二区三区| 欧美在线一区亚洲| 精品国产超薄肉色丝袜足j| 亚洲欧美日韩高清在线视频| 国产av一区二区精品久久| 中文字幕最新亚洲高清| 国产精品九九99| 久久国产亚洲av麻豆专区| 久久精品人人爽人人爽视色| 一区二区三区国产精品乱码| 国产伦人伦偷精品视频| 亚洲专区字幕在线| 免费人成视频x8x8入口观看| 热99国产精品久久久久久7| 欧美精品人与动牲交sv欧美| 国产精品久久久久久精品古装| 国产欧美日韩综合在线一区二区| 女人高潮潮喷娇喘18禁视频| 久久久国产成人免费| 日韩制服丝袜自拍偷拍| 精品国产一区二区久久| 老司机靠b影院| 美女 人体艺术 gogo| 午夜免费成人在线视频| 久久久久视频综合| 国产蜜桃级精品一区二区三区 | 久久中文字幕人妻熟女| 757午夜福利合集在线观看| 最新的欧美精品一区二区| 欧美 亚洲 国产 日韩一| 五月开心婷婷网| 精品国内亚洲2022精品成人 | 亚洲九九香蕉| 老司机福利观看| 天堂俺去俺来也www色官网| 日韩欧美免费精品| 人人妻人人添人人爽欧美一区卜| 欧美在线黄色| 美女 人体艺术 gogo| 久久香蕉精品热| 久久99一区二区三区| 丁香六月欧美| 久久精品国产清高在天天线| 久久精品国产99精品国产亚洲性色 | 一级a爱片免费观看的视频| 69精品国产乱码久久久| 黄色成人免费大全| 国产有黄有色有爽视频| 一级毛片精品| 老汉色av国产亚洲站长工具| 王馨瑶露胸无遮挡在线观看| 男女免费视频国产| 在线观看66精品国产| 黄片大片在线免费观看| 亚洲av成人不卡在线观看播放网| 国产成人啪精品午夜网站| 欧美午夜高清在线| 精品国内亚洲2022精品成人 | 国产区一区二久久| 身体一侧抽搐| 丝袜美腿诱惑在线| 少妇猛男粗大的猛烈进出视频| 欧美激情 高清一区二区三区| 成人18禁在线播放| 日本精品一区二区三区蜜桃| 在线观看舔阴道视频| 满18在线观看网站| 黄网站色视频无遮挡免费观看| 视频区图区小说| 婷婷成人精品国产| 欧美日韩乱码在线| 久久国产精品影院| 女警被强在线播放| 亚洲 国产 在线| 99热国产这里只有精品6| 国产视频一区二区在线看| 久久久久久久久久久久大奶| 亚洲成人免费电影在线观看| 中文欧美无线码| 婷婷精品国产亚洲av在线 | 欧美黄色片欧美黄色片| 亚洲中文日韩欧美视频| 狠狠狠狠99中文字幕| 在线观看免费视频日本深夜| 三级毛片av免费| 日本欧美视频一区| 久久国产精品人妻蜜桃| 黄色视频,在线免费观看| av免费在线观看网站| 欧美日韩视频精品一区| 免费观看人在逋| 91在线观看av| 夜夜爽天天搞| 国产亚洲精品久久久久久毛片 | 老熟妇乱子伦视频在线观看| 久久精品亚洲av国产电影网| 国产日韩欧美亚洲二区| 成人18禁在线播放| 啦啦啦 在线观看视频| 午夜福利影视在线免费观看| 丝袜人妻中文字幕| 亚洲精品在线观看二区| 多毛熟女@视频| 亚洲熟妇中文字幕五十中出 | www.自偷自拍.com| 法律面前人人平等表现在哪些方面| 美女高潮到喷水免费观看| 欧美性长视频在线观看| 制服诱惑二区| 无遮挡黄片免费观看| 亚洲欧洲精品一区二区精品久久久| 色94色欧美一区二区| 免费日韩欧美在线观看| 男女下面插进去视频免费观看| 亚洲中文字幕日韩| 国产97色在线日韩免费| 日本精品一区二区三区蜜桃| 免费在线观看视频国产中文字幕亚洲| 国产色视频综合| 极品少妇高潮喷水抽搐| 久久ye,这里只有精品| 精品久久久久久久毛片微露脸| 亚洲色图av天堂| 99香蕉大伊视频| 亚洲国产看品久久| 99国产精品99久久久久| 男女下面插进去视频免费观看| 飞空精品影院首页| 99久久综合精品五月天人人| 亚洲精品国产精品久久久不卡| 热99国产精品久久久久久7| 91国产中文字幕| 亚洲成人免费av在线播放| 午夜免费鲁丝| 18禁美女被吸乳视频| 成人特级黄色片久久久久久久| 可以免费在线观看a视频的电影网站| 日本精品一区二区三区蜜桃| 亚洲va日本ⅴa欧美va伊人久久| 亚洲熟女精品中文字幕| 在线观看免费视频网站a站| 国产激情欧美一区二区| 亚洲av熟女| 女人被躁到高潮嗷嗷叫费观| 国产精品欧美亚洲77777| 岛国毛片在线播放| 欧美不卡视频在线免费观看 | 色综合婷婷激情| 色精品久久人妻99蜜桃| 国产精品影院久久| 久久人人爽av亚洲精品天堂| 亚洲精品中文字幕一二三四区| 不卡一级毛片| 欧美日韩亚洲国产一区二区在线观看 | 久久亚洲真实| 99久久人妻综合| 久久人妻av系列| 精品免费久久久久久久清纯 | 国产成人欧美在线观看 | 国产亚洲精品一区二区www | av天堂在线播放| 9色porny在线观看| 亚洲七黄色美女视频| 国产成人欧美| 美女扒开内裤让男人捅视频| 午夜福利免费观看在线| 精品一区二区三区视频在线观看免费 | 大香蕉久久成人网| 午夜影院日韩av| 亚洲精品久久午夜乱码| 亚洲一码二码三码区别大吗| 亚洲精品在线观看二区| 国产人伦9x9x在线观看| 午夜亚洲福利在线播放| 精品电影一区二区在线| 正在播放国产对白刺激| 叶爱在线成人免费视频播放| 在线观看免费视频日本深夜| 婷婷丁香在线五月| 19禁男女啪啪无遮挡网站|