• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于ICE的分布式爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)

    2015-12-02 02:28:46雷滋和陶宏才
    關(guān)鍵詞:爬蟲(chóng)服務(wù)端中間件

    雷滋和, 陶宏才

    (西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,四川成都611756)

    0 引言

    隨著移動(dòng)智能和互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展,近年來(lái),Twitter、Facebook、新浪微博為代表的社交網(wǎng)絡(luò)[1]的出現(xiàn)和快速發(fā)展深深地影響了人們的交流方式,成為生活中不可或缺的一部分。社交網(wǎng)絡(luò)集交友、傳媒、電商等多種功能于一體,吸引了不同年齡段、不同性別、不同職業(yè)、不同國(guó)籍的大量用戶。

    微博是一種社交網(wǎng)站,不過(guò)隨著快速發(fā)展及用戶的需求,已經(jīng)逐漸演變成一種社會(huì)化自媒體。平臺(tái)中媒體用戶利用微博吸引關(guān)注,偶像明星利用微博保持和粉絲的交流,商家用戶利用微博發(fā)布一些促銷(xiāo)信息和商品廣告。草根用戶利用微博關(guān)注最新新聞和親朋好友的最新動(dòng)態(tài)。微博平臺(tái)由于自身的一些特性,如簡(jiǎn)潔性、傳播性、實(shí)時(shí)性等,吸引了大量用戶。

    由于社交網(wǎng)絡(luò)吸引了大量用戶,因此,對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)的分析管理也有很多研究。通過(guò)對(duì)微博數(shù)據(jù)的挖掘,可以分析預(yù)測(cè)用戶的愛(ài)好,獲取社會(huì)熱點(diǎn)新聞?shì)浾?,挖掘人際關(guān)系,預(yù)測(cè)信息傳播趨勢(shì)等。同時(shí),通過(guò)挖掘用戶興趣,也可進(jìn)行商業(yè)推廣等。不過(guò),要做到上述這些數(shù)據(jù)的分析,最重要的一步就是需要進(jìn)行數(shù)據(jù)采集。為此,針對(duì)新浪微博,采用中間件ICE,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),以采集微博數(shù)據(jù)。

    1 技術(shù)簡(jiǎn)介

    1.1 爬蟲(chóng)技術(shù)

    網(wǎng)絡(luò)爬蟲(chóng)(Crawler)又稱(chēng)為網(wǎng)頁(yè)蜘蛛,是一種按照某個(gè)規(guī)則自動(dòng)從互聯(lián)網(wǎng)獲取信息資源的程序。爬蟲(chóng)從一個(gè)或多個(gè)初始的頁(yè)面URL開(kāi)始,通過(guò)分析源文件中的URL,提取出新的URL鏈接;然后又利用這些鏈接,繼續(xù)尋找新的鏈接。如此不斷循環(huán),直至抓取和分析完所有頁(yè)面。作為搜索引擎和網(wǎng)絡(luò)數(shù)據(jù)挖掘的基礎(chǔ)組成部分,網(wǎng)絡(luò)爬蟲(chóng)起著重要的數(shù)據(jù)采集作用。

    早期的Google爬蟲(chóng)由斯坦福大學(xué)設(shè)計(jì)[3]。該爬蟲(chóng)由一個(gè)URL服務(wù)器將URL分發(fā)到若干爬蟲(chóng)節(jié)點(diǎn),各爬蟲(chóng)通過(guò)單線程異步I/O方式爬取網(wǎng)頁(yè)。Mercator[4]爬蟲(chóng)由康柏系統(tǒng)研究中心的 Allan Heydon和MarcNajork開(kāi)發(fā),采用多線程同步方式以及一些優(yōu)化策略(如DNS緩沖、延遲存儲(chǔ)等)爬取網(wǎng)頁(yè)。國(guó)內(nèi)也有機(jī)構(gòu)對(duì)爬蟲(chóng)進(jìn)行研究,例如,北大天網(wǎng)[5]開(kāi)發(fā)的分布式網(wǎng)絡(luò)爬蟲(chóng),采用兩階段哈希機(jī)制實(shí)現(xiàn)了億級(jí)數(shù)量的網(wǎng)頁(yè)爬取。

    1.2 ICE中間件技術(shù)

    ICE網(wǎng)絡(luò)通信引擎[6-7],是一種面向?qū)ο蟮母咝阅苤虚g件,提供完善的、適合于異構(gòu)網(wǎng)絡(luò)環(huán)境的分布式系統(tǒng)解決方案,包括庫(kù)、API和工具。

    圖1 ICE邏輯結(jié)構(gòu)圖

    圖1展示了ICE客戶與服務(wù)器內(nèi)部的邏輯結(jié)構(gòu)圖,服務(wù)端與客戶端是由ICE核心庫(kù)、Slice接口的生成代碼以及應(yīng)用程序代碼組成。ICE核心庫(kù)包含網(wǎng)絡(luò)通信、多線程等一些鏈接庫(kù)且提供了API接口,應(yīng)用程序通過(guò)ICE API可訪問(wèn)核心庫(kù)并進(jìn)行事務(wù)管理。代理由Slice接口生成,主要有2個(gè)功能:(1)為客戶提供訪問(wèn)服務(wù)端接口;(2)為數(shù)據(jù)傳輸提供整編和解編功能,整編將復(fù)雜的數(shù)據(jù)結(jié)構(gòu)序列化,轉(zhuǎn)換為數(shù)據(jù)傳輸?shù)臉?biāo)準(zhǔn)形式,解編則將收到的數(shù)據(jù)反序列化。骨架亦由Slice接口生成,是代理在服務(wù)端的等價(jià)物,提供向上調(diào)用接口及整編和解編功能。對(duì)象適配器為ICE API之一,負(fù)責(zé)創(chuàng)建傳給客戶的代理,且將客戶端的請(qǐng)求轉(zhuǎn)換成服務(wù)端對(duì)應(yīng)對(duì)象上的特定方法。

    2 分布式爬蟲(chóng)的設(shè)計(jì)實(shí)現(xiàn)

    2.1 爬蟲(chóng)基本結(jié)構(gòu)

    分布式爬蟲(chóng)一般分為主從式和對(duì)等式2種結(jié)構(gòu),文中采用主從式結(jié)構(gòu)進(jìn)行分布式爬蟲(chóng)的設(shè)計(jì),系統(tǒng)分為服務(wù)端和客戶端。服務(wù)端能夠進(jìn)行任務(wù)的調(diào)度與數(shù)據(jù)存儲(chǔ),客戶端進(jìn)行數(shù)據(jù)的爬取??蛻舳伺c服務(wù)端進(jìn)行通信時(shí),文中采用ICE中間件技術(shù)進(jìn)行通信。

    圖2 分布式爬蟲(chóng)框架

    圖2給出整個(gè)爬蟲(chóng)的架構(gòu)圖。整個(gè)爬蟲(chóng)框架主要分為3部分:

    (1)消息中間件。為客戶端和服務(wù)端提供通信。

    (2)爬蟲(chóng)服務(wù)端。爬蟲(chóng)服務(wù)端包括2個(gè)模塊:調(diào)度服務(wù)和存儲(chǔ)服務(wù)。調(diào)度服務(wù)端從任務(wù)列表中取出任務(wù)后,向爬蟲(chóng)客戶端分發(fā)任務(wù);存儲(chǔ)服務(wù)端負(fù)責(zé)將爬蟲(chóng)爬取到的數(shù)據(jù)存儲(chǔ)到DB中。

    (3)爬蟲(chóng)客戶端。主要分布于各個(gè)節(jié)點(diǎn)上,爬蟲(chóng)客戶端從調(diào)度服務(wù)器獲取任務(wù),然后進(jìn)行微博數(shù)據(jù)爬取,將爬取到的數(shù)據(jù)發(fā)送到存儲(chǔ)服務(wù)器,進(jìn)行統(tǒng)一存儲(chǔ)。

    框架通過(guò)ICE中間件技術(shù),將各個(gè)功能模塊分布到各個(gè)Server上,各個(gè)模塊分工明確,并且不相互干擾。如若爬取更多數(shù)據(jù),只需要增加爬蟲(chóng)客戶端即可。

    2.2 ICE中間件設(shè)計(jì)

    作為一個(gè)面向?qū)ο蟮闹虚g件平臺(tái),ICE提供了一系列的工具、API和庫(kù)建立面向?qū)ο蟮目蛻舳撕头?wù)器的網(wǎng)絡(luò)通信,ICE適合在異構(gòu)環(huán)境中應(yīng)用,并且應(yīng)用的源碼都可以移植。

    圖3給出基于ICE應(yīng)用程序的開(kāi)發(fā)流程。系統(tǒng)開(kāi)發(fā)時(shí)首先需要定制公共接口,其功能在服務(wù)端實(shí)現(xiàn)。通過(guò)接口,爬蟲(chóng)客戶端可以向服務(wù)端發(fā)送請(qǐng)求,服務(wù)端根據(jù)接口的請(qǐng)求完成相應(yīng)的操作。ICE通過(guò)Slice語(yǔ)言來(lái)編寫(xiě)公共的接口文件,它是以一種獨(dú)立于特定編程語(yǔ)言的方式定義數(shù)據(jù)、接口、操作等,然后通過(guò)ICE內(nèi)置編譯器轉(zhuǎn)換成特定語(yǔ)言的API。在編寫(xiě)ICE應(yīng)用時(shí),均需進(jìn)行Slice接口的定義。

    圖3 開(kāi)發(fā)流程

    在爬蟲(chóng)系統(tǒng)中,涉及到服務(wù)模塊在爬蟲(chóng)系統(tǒng)中擔(dān)當(dāng)著不同的任務(wù),因此,這里給定2個(gè)Slice。表1給出涉及到的2個(gè)服務(wù)模塊同爬蟲(chóng)客戶端的接口。

    可以看到,在Slice中,定義爬蟲(chóng)服務(wù)端與客戶端進(jìn)行交互的數(shù)據(jù)類(lèi)型以及相對(duì)應(yīng)的接口。在Slice定義后,可以根據(jù)Slice生成相應(yīng)的骨架和代理。ICE提供了生成骨架和代理的工具,基于Python語(yǔ)言,生成骨架和代理代碼如下:

    Ice.loadSlice('scheduler_server.ice')

    import weiboCrawler

    通過(guò)loadSlice,即可將Slice語(yǔ)言轉(zhuǎn)換成骨架(或代理),在形成的骨架(或代理)中,不僅包含所定義的接口,源碼同時(shí)為客戶和服務(wù)器提供針對(duì)特定類(lèi)型的運(yùn)行時(shí)支持。在接口確定后,便可以進(jìn)行爬蟲(chóng)服務(wù)端和客戶端的開(kāi)發(fā)。服務(wù)端實(shí)現(xiàn)接口中所定義的功能,客戶端通過(guò)代理,調(diào)用接口中的方法,便可在服務(wù)端執(zhí)行對(duì)應(yīng)的方法,實(shí)現(xiàn)與服務(wù)端的交互。需要說(shuō)明的是,圖3中最下一層形成的即是圖2的分布式爬蟲(chóng)框架。其中,用2個(gè)簡(jiǎn)略的ICE框表示圖2中的中間件部分。

    表1 調(diào)度服務(wù)模塊和存儲(chǔ)服務(wù)模塊的Slice接口

    2.3 爬蟲(chóng)服務(wù)端設(shè)計(jì)

    由Slice生成的骨架類(lèi)是一個(gè)抽象的接口類(lèi),在服務(wù)端進(jìn)行設(shè)計(jì)時(shí),需要繼承骨架類(lèi),并將對(duì)應(yīng)接口的功能實(shí)現(xiàn)。爬蟲(chóng)系統(tǒng)包含調(diào)度服務(wù)和存儲(chǔ)服務(wù)2個(gè)服務(wù)端。

    2.3.1 調(diào)度服務(wù)

    模塊為整個(gè)爬蟲(chóng)系統(tǒng)的控制節(jié)點(diǎn),整個(gè)爬蟲(chóng)系統(tǒng)需要依賴(lài)此節(jié)點(diǎn)獲取爬取任務(wù)??蛻舳送ㄟ^(guò)接口獲取需要爬取的微博用戶ID,在爬取完畢后通過(guò)接口通知調(diào)度服務(wù)。因此,服務(wù)模塊與客戶端交互有2個(gè)接口:

    getUser:爬蟲(chóng)客戶端通過(guò)該接口獲取需要爬取的用戶ID。

    putUser:爬蟲(chóng)客戶端通過(guò)該接口通知調(diào)度服務(wù)某個(gè)微博用戶爬取完畢。

    系統(tǒng)通過(guò)任務(wù)隊(duì)列的方式來(lái)實(shí)現(xiàn)任務(wù)的調(diào)度。在系統(tǒng)中,爬取一個(gè)微博用戶微博數(shù)據(jù)為一條任務(wù),客戶端通過(guò)從服務(wù)端獲取所要爬取的微博用戶ID即任務(wù)ID對(duì)微博數(shù)據(jù)進(jìn)行爬取。系統(tǒng)采用ICE內(nèi)置數(shù)據(jù)庫(kù)Berkeley DB實(shí)現(xiàn)任務(wù)隊(duì)列。系統(tǒng)中涉及2個(gè)數(shù)據(jù)庫(kù),一個(gè)用來(lái)存儲(chǔ)未爬取的用戶ID,另一個(gè)存儲(chǔ)已經(jīng)爬取完畢的用戶ID。客戶端獲取時(shí),都是從未爬取的數(shù)據(jù)庫(kù)中獲取需要爬取的用戶ID,通過(guò)2個(gè)數(shù)據(jù)庫(kù),起到了任務(wù)隊(duì)列的作用。系統(tǒng)進(jìn)行任務(wù)調(diào)度的主要流程為:啟動(dòng)調(diào)度服務(wù)端,系統(tǒng)讀取未爬取的微博用戶ID到任務(wù)隊(duì)列;客戶端通過(guò)接口從服務(wù)端獲取任務(wù);服務(wù)端從任務(wù)隊(duì)列取出任務(wù)ID,分發(fā)給客戶端;客戶端執(zhí)行任務(wù)完畢,通知服務(wù)端,服務(wù)端將完成的任務(wù)ID存儲(chǔ)到數(shù)據(jù)庫(kù)中去。

    2.3.2 存儲(chǔ)服務(wù)

    模塊為爬蟲(chóng)系統(tǒng)的存儲(chǔ)節(jié)點(diǎn),所有爬蟲(chóng)客戶端爬取的微博數(shù)據(jù)都會(huì)發(fā)送到本模塊進(jìn)行存儲(chǔ)。模塊為爬蟲(chóng)客戶端提供的接口為writeWB,客戶端通過(guò)調(diào)用該接口即可進(jìn)行數(shù)據(jù)的存儲(chǔ)。

    系統(tǒng)采用分布式數(shù)據(jù)庫(kù)Hbase[9]對(duì)爬取的微博數(shù)據(jù)存儲(chǔ),HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),適合非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。文中主要對(duì)微博數(shù)據(jù)的ID、內(nèi)容、用戶ID、發(fā)布時(shí)間等字段存儲(chǔ)。系統(tǒng)中通過(guò)Thrift來(lái)對(duì)Hbase進(jìn)行訪問(wèn),存儲(chǔ)微博數(shù)據(jù)。存儲(chǔ)微博數(shù)據(jù)的具體流程為:啟動(dòng) Hbase并啟動(dòng)Hbase的Thrift服務(wù);通過(guò)Thrift與Hbase建立服務(wù);啟動(dòng)爬蟲(chóng)的存儲(chǔ)服務(wù),爬蟲(chóng)客戶端通過(guò)接口將爬取的微博數(shù)據(jù)發(fā)送到服務(wù)端;服務(wù)端接收到數(shù)據(jù)后,利用Thrift API將微博數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)中去。

    在調(diào)度服務(wù)和存儲(chǔ)服務(wù)完成對(duì)應(yīng)功能后,均需要建立一個(gè)通信器(communicator),完成對(duì)ICE運(yùn)行時(shí)服務(wù)的初始化。然后,創(chuàng)建一個(gè)對(duì)象適配器(adapter),并創(chuàng)建代理接口、設(shè)置代理標(biāo)識(shí),用以將客戶的請(qǐng)求映射到編程語(yǔ)言對(duì)象上的特定方法創(chuàng)建可以傳給客戶的代理。系統(tǒng)涉及2個(gè)標(biāo)識(shí),分別是調(diào)度服務(wù)和存儲(chǔ)服務(wù),客戶端通過(guò)這2個(gè)標(biāo)識(shí)可以識(shí)別對(duì)應(yīng)的代理。設(shè)置好后,將代理增加到適配器中去。具體過(guò)程如下面代碼所示:

    服務(wù)端在創(chuàng)建完畢后,通過(guò)適配器的activate方法將其激活,然后調(diào)用waitForShutdown方法啟動(dòng)通信器,以響應(yīng)和處理客戶端發(fā)出的連接請(qǐng)求。

    2.4 爬蟲(chóng)客戶端設(shè)計(jì)

    在進(jìn)行客戶端的功能開(kāi)發(fā)時(shí),客戶端需要與服務(wù)端取得通信??蛻舳伺c服務(wù)端的一次通信過(guò)程為:創(chuàng)建通信器,初始化ICE運(yùn)行時(shí)服務(wù);通過(guò)服務(wù)端地址和代理標(biāo)識(shí),獲取服務(wù)端在客戶端的遠(yuǎn)程代理;客戶端通過(guò)代理調(diào)用接口中的方法,與服務(wù)端進(jìn)行通信;客戶端執(zhí)行完畢,通信結(jié)束,銷(xiāo)毀通信器。至此,客戶端與服務(wù)端就完成一次通信。

    爬蟲(chóng)客戶端進(jìn)行初始化的代碼如下所示:

    每個(gè)爬蟲(chóng)節(jié)點(diǎn)創(chuàng)建一個(gè)通信器,通過(guò)初始化服務(wù)代理Prx并且調(diào)用checkedCast方法,將服務(wù)代理轉(zhuǎn)換成服務(wù)端在客戶端對(duì)應(yīng)的代理,爬蟲(chóng)系統(tǒng)中,包含調(diào)度代理和存儲(chǔ)代理2個(gè)代理。ICE運(yùn)行時(shí),在庫(kù)的支持下,每個(gè)節(jié)點(diǎn)與服務(wù)器的通信器就建立了連接。然后,爬蟲(chóng)節(jié)點(diǎn)就可以通過(guò)代理Prx調(diào)用接口中數(shù)據(jù)和方法。這樣,訪問(wèn)遠(yuǎn)程對(duì)象和數(shù)據(jù)就如同本地訪問(wèn)一樣,實(shí)際代碼運(yùn)行于服務(wù)端。爬蟲(chóng)節(jié)點(diǎn)正是利用這個(gè)特點(diǎn),與調(diào)度服務(wù)及存儲(chǔ)服務(wù)進(jìn)行數(shù)據(jù)的交互。

    圖4 爬取流程

    爬蟲(chóng)節(jié)點(diǎn)主要負(fù)責(zé)從網(wǎng)絡(luò)上爬取數(shù)據(jù),具體流程如圖4所示。

    (1)模擬登錄。微博同傳統(tǒng)的web網(wǎng)站不同,以前的網(wǎng)站不需要登錄,而微博需要進(jìn)入個(gè)人主頁(yè)需要登錄,否則訪問(wèn)將會(huì)跳轉(zhuǎn)到登錄頁(yè)面。因此,在進(jìn)行數(shù)據(jù)爬取時(shí),需要設(shè)計(jì)登錄模塊,只有登錄后的用戶才可進(jìn)行微博數(shù)據(jù)的爬取。文中采用SESSION機(jī)制,通過(guò)COOKIE和URL重寫(xiě)實(shí)現(xiàn)用戶登錄。

    (2)登錄成功后,爬蟲(chóng)通過(guò)調(diào)度服務(wù)端代理,與調(diào)度服務(wù)端進(jìn)行通信,獲取微博用戶的ID,利用用戶ID和新浪微博url(http://weibo.com/aj/mblog/mbloglist)分段抓取用戶的微博數(shù)據(jù)。此時(shí)返回的是JSON數(shù)據(jù),需先將JSON解析,然后利用BeautifulSoup解析出用戶的每條微博數(shù)據(jù)。Beautiful Soup提供一些簡(jiǎn)單的、python式的函數(shù)處理導(dǎo)航、搜索、修改分析樹(shù)等。它是一個(gè)工具箱,通過(guò)解析文檔為用戶提供需要抓取的數(shù)據(jù)。

    (3)解析完畢后,爬蟲(chóng)利用存儲(chǔ)端代理,訪問(wèn)數(shù)據(jù)存儲(chǔ)方法,將解析的數(shù)據(jù)發(fā)送到存儲(chǔ)模塊,進(jìn)行微博數(shù)據(jù)的存儲(chǔ)。

    (4)爬蟲(chóng)節(jié)點(diǎn)爬取完一個(gè)客戶的微博數(shù)據(jù)后,通知調(diào)度服務(wù)器爬取完畢,同時(shí)會(huì)重新獲取新的用戶ID,重新進(jìn)行爬取。

    3 系統(tǒng)部署與運(yùn)行

    實(shí)驗(yàn)采用了5臺(tái)機(jī)器,圖5為實(shí)驗(yàn)網(wǎng)絡(luò)拓?fù)鋱D。各機(jī)器均為L(zhǎng)inux環(huán)境,通過(guò)無(wú)線路由器TL-WR841N(通過(guò)100 Mbps WAN口連至Internet)通信。各機(jī)器的具體配置如表2所示。

    表2 系統(tǒng)部署

    實(shí)驗(yàn)中,調(diào)度模塊部署在機(jī)器a上,機(jī)器b用于存儲(chǔ)微博數(shù)據(jù),其余3臺(tái)機(jī)器為爬蟲(chóng)節(jié)點(diǎn),用于爬取微博數(shù)據(jù)。系統(tǒng)在爬蟲(chóng)節(jié)點(diǎn)配置了新浪微博賬號(hào)進(jìn)行登錄驗(yàn)證后,即可對(duì)數(shù)據(jù)進(jìn)行爬取。盡管新浪微博開(kāi)放平臺(tái)提供了訪問(wèn)接口,但基于該接口的爬蟲(chóng)在爬取數(shù)據(jù)時(shí),需要申請(qǐng)?jiān)L問(wèn)授權(quán)并受訪問(wèn)次數(shù)限制。與這種基于微博開(kāi)放平臺(tái)訪問(wèn)接口的爬蟲(chóng)不同,系統(tǒng)勿需授權(quán)申請(qǐng)且不受訪問(wèn)次數(shù)限制,通過(guò)在各個(gè)爬蟲(chóng)節(jié)點(diǎn)對(duì)訪問(wèn)網(wǎng)頁(yè)頻率進(jìn)行設(shè)置,能有效避免因爬取過(guò)快而導(dǎo)致的爬取失敗。實(shí)驗(yàn)了相同時(shí)間內(nèi)不同爬蟲(chóng)節(jié)點(diǎn)數(shù)下系統(tǒng)的爬取效果,如表3所示。由表3可以看到,隨著爬蟲(chóng)節(jié)點(diǎn)數(shù)的增加,系統(tǒng)爬取的微博數(shù)量亦在成倍增加。因此,系統(tǒng)只需增加新的爬蟲(chóng)節(jié)點(diǎn),勿需對(duì)已有系統(tǒng)進(jìn)行變更,就能極大提高系統(tǒng)的爬取能力,具有較強(qiáng)的適應(yīng)性和可擴(kuò)展性。

    表3 相同時(shí)間內(nèi)不同爬蟲(chóng)節(jié)點(diǎn)數(shù)下系統(tǒng)的爬取效果

    4 結(jié)束語(yǔ)

    結(jié)合消息中間件ICE設(shè)計(jì)實(shí)現(xiàn)一個(gè)分布式爬蟲(chóng)系統(tǒng)。文中介紹爬蟲(chóng)及ICE工作原理,討論基于ICE中間件的分布式爬蟲(chóng)的實(shí)現(xiàn)方法?;贗CE,將爬蟲(chóng)的各個(gè)模塊獨(dú)立開(kāi)來(lái),系統(tǒng)具有可擴(kuò)展性、適應(yīng)性。實(shí)驗(yàn)表明,爬蟲(chóng)系統(tǒng)能夠快速地從互聯(lián)網(wǎng)爬取微博數(shù)據(jù)。

    [1] 李林容.社交網(wǎng)絡(luò)的特性及其發(fā)展趨勢(shì)[J].新聞界,2010,(5):32-34.

    [2] 周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲(chóng):研究綜述[J].計(jì)算機(jī)科學(xué),2009,36(8):26-29.

    [3] Brin S,Page L.The anatomy of a large-scale hypertextual Web search engine[J].Computer Networks& Isdn Systems,1998,30(98):107-117.

    [4] Heydon A,Najork M.Mercator:A scalable,extensible Web crawler[J].World Wide Web-internet& Web Information Systems,1999,2(4):219-229.

    [5] 北京大學(xué)天網(wǎng)搜索引擎[EB/OL].http://e.pku.edu.cn,2015-05-06.

    [6] 聶彤彤.中間件技術(shù)的發(fā)展與應(yīng)用[J].中國(guó)信息導(dǎo)報(bào),2005,(7):59-61.

    [7] Henning M,Spruiell M.Distributed Programming with Ice[R].Zeroc Inc Revision,2003.

    [8] Leader-us.ZeroC Ice權(quán)威指南[M].北京:電子工業(yè)出版社.

    [9] Apache HBase Reference Guide[EB/OL].http://hbase.apache.org/book.html,2015-06-08.

    [10] 劉裕,吳堅(jiān).中間件技術(shù)與ICE[J].微機(jī)發(fā)展,2004,14(10):37-39.

    [11] 張俊軍,章旋.ICE中間件技術(shù)及其應(yīng)用研究[J].計(jì)算機(jī)與現(xiàn)代化,2012(5):192-194.

    [12] Boldi P,Codenotti B,Santini M,et al.Ubi-Crawler:a scalable fully distributed Web crawler[J].Software Practice& Experience,2004,34(8):711-726.

    [13] 丁云亮,谷利澤,楊榆.基于分布式中間件ICE的應(yīng)用架構(gòu)研究[J].計(jì)算機(jī)應(yīng)用,2009,29(S2):27-28.

    [14] Zhang L,Yun ming Y E,Song H,et al.Design and Implementation of a Distributed High-Performance Web Crawler[J].Journal of Shanghai Jiaotong University,2004,38(1):59-61.

    [15] 葉允明,于水,馬范援,等.分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J].電子學(xué)報(bào),2002,30(S1):2008-2011.

    [16] 許笑,張偉哲,張宏莉,等.廣域網(wǎng)分布式Web爬蟲(chóng)[J].軟件學(xué)報(bào),2010,21(5):1067-1082.

    猜你喜歡
    爬蟲(chóng)服務(wù)端中間件
    利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
    基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
    RFID中間件技術(shù)及其應(yīng)用研究
    電子制作(2018年14期)2018-08-21 01:38:10
    云存儲(chǔ)中基于相似性的客戶-服務(wù)端雙端數(shù)據(jù)去重方法
    基于VanConnect中間件的設(shè)計(jì)與開(kāi)發(fā)
    新時(shí)期《移動(dòng)Web服務(wù)端開(kāi)發(fā)》課程教學(xué)改革的研究
    利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
    在Windows Server 2008上創(chuàng)建應(yīng)用
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
    電子制作(2017年9期)2017-04-17 03:00:46
    中間件在高速公路領(lǐng)域的應(yīng)用
    亚洲四区av| 亚洲在久久综合| 免费观看在线日韩| 99久久中文字幕三级久久日本| 一夜夜www| 熟女人妻精品中文字幕| 欧美97在线视频| 最近中文字幕2019免费版| eeuss影院久久| 18禁在线播放成人免费| 午夜爱爱视频在线播放| 成人午夜精彩视频在线观看| 久久热精品热| 久久久精品欧美日韩精品| 免费观看的影片在线观看| 直男gayav资源| 看免费成人av毛片| 亚洲av二区三区四区| 国产精品1区2区在线观看.| 老女人水多毛片| 国产久久久一区二区三区| 高清在线视频一区二区三区| 日韩视频在线欧美| 国产成人一区二区在线| 成人亚洲精品一区在线观看 | 一级毛片久久久久久久久女| 国产高清有码在线观看视频| 亚洲精品国产av成人精品| 日韩一区二区三区影片| 久久久久久久久久成人| 26uuu在线亚洲综合色| 午夜亚洲福利在线播放| 晚上一个人看的免费电影| 伦精品一区二区三区| 国产极品天堂在线| 亚洲av一区综合| 99热全是精品| 亚洲在久久综合| 国产真实伦视频高清在线观看| 亚洲国产欧美人成| 麻豆乱淫一区二区| 搞女人的毛片| 亚洲欧美成人综合另类久久久| 久久97久久精品| 国产一级毛片在线| 色综合色国产| 国产成人91sexporn| 国产免费视频播放在线视频 | 美女黄网站色视频| 在线 av 中文字幕| 欧美变态另类bdsm刘玥| 中文欧美无线码| 亚洲av一区综合| a级毛色黄片| 赤兔流量卡办理| 国产乱人视频| 视频中文字幕在线观看| 久久久久久久国产电影| 三级男女做爰猛烈吃奶摸视频| 欧美日韩精品成人综合77777| 一个人免费在线观看电影| 国产精品一二三区在线看| 国产精品人妻久久久久久| 久久久亚洲精品成人影院| 色哟哟·www| 能在线免费观看的黄片| 尾随美女入室| 最新中文字幕久久久久| 禁无遮挡网站| 人人妻人人看人人澡| 中文字幕av成人在线电影| 麻豆国产97在线/欧美| 亚洲欧美中文字幕日韩二区| 一级毛片aaaaaa免费看小| 中文天堂在线官网| 一个人免费在线观看电影| 嘟嘟电影网在线观看| 少妇熟女aⅴ在线视频| 亚洲精品日韩av片在线观看| 国产精品久久久久久av不卡| 国产探花在线观看一区二区| 国产av在哪里看| 久久综合国产亚洲精品| 欧美极品一区二区三区四区| 一级毛片黄色毛片免费观看视频| 国产 亚洲一区二区三区 | 亚洲精品影视一区二区三区av| 中文字幕制服av| 看十八女毛片水多多多| 色综合亚洲欧美另类图片| 午夜福利视频1000在线观看| 18+在线观看网站| 婷婷色麻豆天堂久久| 亚洲最大成人av| 免费在线观看成人毛片| 九草在线视频观看| 国产精品av视频在线免费观看| 亚洲高清免费不卡视频| 免费人成在线观看视频色| 久久久亚洲精品成人影院| 舔av片在线| 男人狂女人下面高潮的视频| 国产白丝娇喘喷水9色精品| 草草在线视频免费看| 亚洲精品影视一区二区三区av| 国产综合懂色| 日韩av在线免费看完整版不卡| 深爱激情五月婷婷| 久久人人爽人人片av| 人妻一区二区av| 哪个播放器可以免费观看大片| 女人十人毛片免费观看3o分钟| 午夜福利成人在线免费观看| 三级经典国产精品| 五月玫瑰六月丁香| 又爽又黄无遮挡网站| 黄色配什么色好看| 日韩欧美三级三区| 麻豆乱淫一区二区| 免费av不卡在线播放| 日韩大片免费观看网站| av女优亚洲男人天堂| 午夜视频国产福利| 免费播放大片免费观看视频在线观看| 麻豆成人午夜福利视频| 18+在线观看网站| 深夜a级毛片| 亚洲欧美日韩卡通动漫| 亚洲三级黄色毛片| 成年女人看的毛片在线观看| 嫩草影院精品99| 欧美 日韩 精品 国产| 欧美最新免费一区二区三区| 激情五月婷婷亚洲| 亚洲久久久久久中文字幕| 久久久久久久久久久免费av| 欧美精品国产亚洲| 建设人人有责人人尽责人人享有的 | 精品人妻视频免费看| 成人午夜高清在线视频| 精品久久久噜噜| 久久精品人妻少妇| 久久韩国三级中文字幕| 国产精品麻豆人妻色哟哟久久 | 麻豆av噜噜一区二区三区| 十八禁网站网址无遮挡 | 乱人视频在线观看| 国产av不卡久久| 精品久久国产蜜桃| 中国国产av一级| 亚洲精品中文字幕在线视频 | 国产单亲对白刺激| 久久久精品免费免费高清| 三级经典国产精品| 亚洲欧美精品专区久久| 亚洲国产欧美人成| 亚洲精品日本国产第一区| videos熟女内射| 插逼视频在线观看| 国产精品女同一区二区软件| 亚洲不卡免费看| 亚洲国产高清在线一区二区三| 2018国产大陆天天弄谢| 成人二区视频| 全区人妻精品视频| 青青草视频在线视频观看| 国产91av在线免费观看| 国内少妇人妻偷人精品xxx网站| 噜噜噜噜噜久久久久久91| 晚上一个人看的免费电影| 精品熟女少妇av免费看| 天美传媒精品一区二区| 国产免费又黄又爽又色| 国产一区二区在线观看日韩| 性色avwww在线观看| 欧美潮喷喷水| 99热网站在线观看| 免费看av在线观看网站| 成年版毛片免费区| av一本久久久久| 亚洲av电影不卡..在线观看| 91久久精品电影网| 嫩草影院入口| 小蜜桃在线观看免费完整版高清| 日本午夜av视频| 好男人视频免费观看在线| 一级爰片在线观看| av免费观看日本| 一级毛片我不卡| 亚洲av中文字字幕乱码综合| 成人国产麻豆网| 禁无遮挡网站| 在线播放无遮挡| 国内揄拍国产精品人妻在线| 在现免费观看毛片| 精品酒店卫生间| 在线免费观看的www视频| 亚洲成人久久爱视频| 亚洲,欧美,日韩| 高清日韩中文字幕在线| 青春草国产在线视频| 国产高清不卡午夜福利| 男女国产视频网站| 国产大屁股一区二区在线视频| 欧美精品一区二区大全| 免费观看无遮挡的男女| 精品久久久久久久人妻蜜臀av| 在线观看一区二区三区| 麻豆乱淫一区二区| 永久网站在线| 啦啦啦中文免费视频观看日本| 午夜久久久久精精品| 日韩一本色道免费dvd| 日本爱情动作片www.在线观看| 国产综合懂色| 91av网一区二区| 免费观看的影片在线观看| 亚洲精品一二三| 日本wwww免费看| 狂野欧美白嫩少妇大欣赏| 国产精品.久久久| 久久久国产一区二区| 18禁动态无遮挡网站| 1000部很黄的大片| 午夜老司机福利剧场| 亚洲精品一二三| 一级毛片 在线播放| 国产亚洲一区二区精品| 国产永久视频网站| 亚洲va在线va天堂va国产| 久久久欧美国产精品| 菩萨蛮人人尽说江南好唐韦庄| 秋霞在线观看毛片| 日本黄大片高清| 日日摸夜夜添夜夜爱| 国产欧美日韩精品一区二区| 最近最新中文字幕免费大全7| 麻豆精品久久久久久蜜桃| 高清午夜精品一区二区三区| 国产精品精品国产色婷婷| 韩国高清视频一区二区三区| 欧美97在线视频| 精品国产一区二区三区久久久樱花 | 美女大奶头视频| 久久久久久久久久黄片| 精品久久久精品久久久| 晚上一个人看的免费电影| 久久久久久久久久人人人人人人| 亚洲欧美日韩无卡精品| 亚洲av电影在线观看一区二区三区 | 美女大奶头视频| 亚洲最大成人av| 午夜激情福利司机影院| 97超碰精品成人国产| 国产av在哪里看| 噜噜噜噜噜久久久久久91| 99热这里只有是精品在线观看| 日日摸夜夜添夜夜添av毛片| 2021天堂中文幕一二区在线观| 国产综合精华液| 亚洲av不卡在线观看| 久久久久久久久久成人| 男女下面进入的视频免费午夜| 亚洲精品影视一区二区三区av| 成人亚洲精品av一区二区| 国产成人freesex在线| 男人舔女人下体高潮全视频| 久久99热这里只频精品6学生| 免费看av在线观看网站| 久久久久国产网址| 久久99热这里只有精品18| 性色avwww在线观看| 免费人成在线观看视频色| 亚洲av中文av极速乱| 91久久精品国产一区二区三区| 中文乱码字字幕精品一区二区三区 | 欧美三级亚洲精品| 国产视频首页在线观看| 欧美丝袜亚洲另类| 日韩成人伦理影院| 91aial.com中文字幕在线观看| 国产精品精品国产色婷婷| 人妻系列 视频| 欧美潮喷喷水| 午夜福利高清视频| 午夜激情久久久久久久| 亚洲婷婷狠狠爱综合网| 欧美97在线视频| 亚洲精品日韩在线中文字幕| 国产高清国产精品国产三级 | 亚洲欧美成人综合另类久久久| 噜噜噜噜噜久久久久久91| 好男人在线观看高清免费视频| 国产色爽女视频免费观看| 国产免费福利视频在线观看| 高清av免费在线| 美女高潮的动态| 国产白丝娇喘喷水9色精品| 国产不卡一卡二| 午夜老司机福利剧场| 日日啪夜夜爽| 少妇高潮的动态图| 日韩制服骚丝袜av| 久久久色成人| 一级毛片aaaaaa免费看小| 亚洲精品久久久久久婷婷小说| 亚洲精品成人久久久久久| 久久6这里有精品| 观看免费一级毛片| 高清日韩中文字幕在线| 尤物成人国产欧美一区二区三区| 亚洲伊人久久精品综合| 国产在线一区二区三区精| 精品久久久久久久久亚洲| 99热6这里只有精品| 亚洲av日韩在线播放| 一区二区三区免费毛片| 黄色日韩在线| 大片免费播放器 马上看| 欧美人与善性xxx| 精品一区在线观看国产| 赤兔流量卡办理| 又粗又硬又长又爽又黄的视频| 老师上课跳d突然被开到最大视频| eeuss影院久久| 女人被狂操c到高潮| 久久久亚洲精品成人影院| 中文乱码字字幕精品一区二区三区 | 国产亚洲午夜精品一区二区久久 | 国产免费一级a男人的天堂| 97热精品久久久久久| www.av在线官网国产| 夫妻午夜视频| 国产免费又黄又爽又色| 97超视频在线观看视频| 国产一区有黄有色的免费视频 | 蜜桃亚洲精品一区二区三区| 亚洲真实伦在线观看| 最近2019中文字幕mv第一页| 国产爱豆传媒在线观看| 亚洲欧美一区二区三区国产| freevideosex欧美| 青春草国产在线视频| 日韩精品青青久久久久久| 好男人在线观看高清免费视频| 免费观看av网站的网址| videossex国产| 国产成人精品福利久久| 久久韩国三级中文字幕| 国产精品一区二区在线观看99 | 人妻一区二区av| 中国国产av一级| 亚洲人成网站在线观看播放| 搡老乐熟女国产| 看黄色毛片网站| 一边亲一边摸免费视频| 欧美一级a爱片免费观看看| 免费不卡的大黄色大毛片视频在线观看 | 婷婷色麻豆天堂久久| 乱系列少妇在线播放| 午夜福利网站1000一区二区三区| 国产人妻一区二区三区在| 国产一级毛片七仙女欲春2| 亚洲欧美清纯卡通| 国产免费福利视频在线观看| 亚洲国产色片| 久久热精品热| 亚洲精品成人av观看孕妇| 久久久午夜欧美精品| 熟女人妻精品中文字幕| 国产永久视频网站| 99热全是精品| 亚洲乱码一区二区免费版| 欧美3d第一页| 欧美日韩精品成人综合77777| 国产精品蜜桃在线观看| 亚洲国产精品sss在线观看| 99热这里只有是精品在线观看| 国产av在哪里看| 国产精品一二三区在线看| 人人妻人人澡欧美一区二区| 成年免费大片在线观看| 亚洲自拍偷在线| 成年免费大片在线观看| av免费观看日本| 18禁动态无遮挡网站| 日韩伦理黄色片| 99热这里只有精品一区| 男女下面进入的视频免费午夜| 午夜精品国产一区二区电影 | 亚洲自偷自拍三级| 欧美97在线视频| 国产精品三级大全| 亚洲欧美成人精品一区二区| 综合色丁香网| 久久精品综合一区二区三区| 中文字幕久久专区| 丰满乱子伦码专区| 亚洲无线观看免费| 欧美激情在线99| 国产精品一区二区在线观看99 | 少妇熟女aⅴ在线视频| av在线播放精品| 免费看光身美女| 日韩成人av中文字幕在线观看| 人妻制服诱惑在线中文字幕| 午夜福利视频精品| 国产av码专区亚洲av| 婷婷色综合www| 国产一级毛片七仙女欲春2| 日韩亚洲欧美综合| 日韩欧美 国产精品| 最近2019中文字幕mv第一页| 国产极品天堂在线| 欧美成人精品欧美一级黄| 国产不卡一卡二| 日日啪夜夜爽| 2018国产大陆天天弄谢| 欧美日本视频| 日日摸夜夜添夜夜爱| 一个人看的www免费观看视频| 日韩欧美精品免费久久| 亚洲av二区三区四区| 亚洲精品国产av成人精品| 夜夜看夜夜爽夜夜摸| 国产片特级美女逼逼视频| 久久久亚洲精品成人影院| 麻豆av噜噜一区二区三区| 亚洲精品成人久久久久久| 别揉我奶头 嗯啊视频| 26uuu在线亚洲综合色| 久久精品国产鲁丝片午夜精品| 日韩三级伦理在线观看| a级一级毛片免费在线观看| 一级二级三级毛片免费看| 日本熟妇午夜| 国模一区二区三区四区视频| 国内精品美女久久久久久| 久99久视频精品免费| 汤姆久久久久久久影院中文字幕 | 神马国产精品三级电影在线观看| 啦啦啦啦在线视频资源| 日韩精品有码人妻一区| 又黄又爽又刺激的免费视频.| 又粗又硬又长又爽又黄的视频| 80岁老熟妇乱子伦牲交| 一个人免费在线观看电影| 成年版毛片免费区| 日本欧美国产在线视频| 国产av在哪里看| 特大巨黑吊av在线直播| 国产成人免费观看mmmm| 欧美97在线视频| 淫秽高清视频在线观看| 九草在线视频观看| 午夜福利视频1000在线观看| 午夜福利网站1000一区二区三区| 亚洲国产精品成人综合色| 91狼人影院| 亚洲国产欧美在线一区| 欧美另类一区| 又爽又黄无遮挡网站| 2022亚洲国产成人精品| 麻豆成人午夜福利视频| 日本免费在线观看一区| 亚洲国产精品成人综合色| 一个人看视频在线观看www免费| 听说在线观看完整版免费高清| 联通29元200g的流量卡| 亚洲av免费在线观看| 别揉我奶头 嗯啊视频| 少妇被粗大猛烈的视频| 日日啪夜夜爽| 久久精品综合一区二区三区| 天天一区二区日本电影三级| 久久久久九九精品影院| 久久久亚洲精品成人影院| 亚洲成人一二三区av| 美女国产视频在线观看| 一级毛片aaaaaa免费看小| 美女xxoo啪啪120秒动态图| 99久久九九国产精品国产免费| 插阴视频在线观看视频| 2022亚洲国产成人精品| 丝瓜视频免费看黄片| 午夜激情久久久久久久| 不卡视频在线观看欧美| 男插女下体视频免费在线播放| 男女啪啪激烈高潮av片| 久热久热在线精品观看| 在线免费观看的www视频| 人人妻人人看人人澡| 女人十人毛片免费观看3o分钟| 国产午夜福利久久久久久| 秋霞在线观看毛片| 草草在线视频免费看| 成年女人在线观看亚洲视频 | 久久久久性生活片| 亚洲欧洲国产日韩| 国产淫语在线视频| 久久精品久久精品一区二区三区| 欧美日韩一区二区视频在线观看视频在线 | 69av精品久久久久久| 肉色欧美久久久久久久蜜桃 | 中国美白少妇内射xxxbb| 久久97久久精品| 全区人妻精品视频| 日本黄色片子视频| 日韩制服骚丝袜av| 中文字幕久久专区| 久久精品久久精品一区二区三区| 国内精品美女久久久久久| 久久精品国产亚洲网站| eeuss影院久久| 成人综合一区亚洲| 国产综合精华液| 国产男女超爽视频在线观看| 午夜精品在线福利| 欧美日韩在线观看h| 丝袜喷水一区| 国产视频首页在线观看| 亚洲欧美日韩东京热| 春色校园在线视频观看| 久久久午夜欧美精品| 狠狠精品人妻久久久久久综合| 七月丁香在线播放| 日日摸夜夜添夜夜添av毛片| 一本久久精品| 亚洲av国产av综合av卡| 亚洲精品国产av蜜桃| 一边亲一边摸免费视频| 久久精品国产亚洲av涩爱| videossex国产| 男女边摸边吃奶| 如何舔出高潮| 国产精品一区二区三区四区久久| 久久亚洲国产成人精品v| 国语对白做爰xxxⅹ性视频网站| 亚洲av中文av极速乱| 免费黄网站久久成人精品| 午夜激情久久久久久久| 少妇高潮的动态图| 国产淫片久久久久久久久| 国产av在哪里看| 乱码一卡2卡4卡精品| 18禁在线播放成人免费| 一级毛片黄色毛片免费观看视频| 国产黄色视频一区二区在线观看| 搡女人真爽免费视频火全软件| 天堂av国产一区二区熟女人妻| 一个人免费在线观看电影| 欧美日韩一区二区视频在线观看视频在线 | 一个人观看的视频www高清免费观看| 天堂中文最新版在线下载 | 美女高潮的动态| 日韩欧美三级三区| 伊人久久精品亚洲午夜| 国产片特级美女逼逼视频| 欧美bdsm另类| 可以在线观看毛片的网站| 69av精品久久久久久| 午夜福利高清视频| 伊人久久国产一区二区| 国产精品女同一区二区软件| 精品一区二区三区人妻视频| 狠狠精品人妻久久久久久综合| 色哟哟·www| av天堂中文字幕网| 国产视频内射| 97超视频在线观看视频| 日本熟妇午夜| 亚洲欧美一区二区三区国产| 菩萨蛮人人尽说江南好唐韦庄| 欧美高清成人免费视频www| 午夜免费激情av| 国产一区二区三区av在线| 大又大粗又爽又黄少妇毛片口| 日本爱情动作片www.在线观看| 中文天堂在线官网| 久久久久久久久久久丰满| 国产亚洲91精品色在线| 亚洲人成网站在线观看播放| 视频中文字幕在线观看| 女人久久www免费人成看片| 一区二区三区四区激情视频| 波野结衣二区三区在线| 性色avwww在线观看| 国产成人精品久久久久久| 久久久久精品性色| 亚洲真实伦在线观看| 嘟嘟电影网在线观看| 99久久精品热视频| 十八禁国产超污无遮挡网站| 国产国拍精品亚洲av在线观看| 美女被艹到高潮喷水动态| 久久久久久国产a免费观看| 午夜视频国产福利| 亚洲最大成人av| 久久久久久久久中文| 久久久精品94久久精品| 国产一区二区三区综合在线观看 | 18禁在线播放成人免费| 国产精品99久久久久久久久| 啦啦啦中文免费视频观看日本| 国产精品.久久久| 一本久久精品| 国产精品综合久久久久久久免费| 建设人人有责人人尽责人人享有的 | 男女国产视频网站| 伊人久久精品亚洲午夜| 国语对白做爰xxxⅹ性视频网站| 国产永久视频网站| 婷婷色av中文字幕| 久久久久久伊人网av| 成人欧美大片|