• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Scrapy的微博爬蟲設(shè)計

    2018-02-28 11:25:32張安啟羅批
    電子技術(shù)與軟件工程 2018年13期
    關(guān)鍵詞:爬蟲微博

    張安啟 羅批

    摘要 新浪微博是數(shù)據(jù)的重要發(fā)源地。為實現(xiàn)數(shù)據(jù)快速抓取,本文在研究反爬機(jī)制的基礎(chǔ)上,設(shè)計了基于Scrapy的微博爬蟲,并對各模塊進(jìn)行了詳細(xì)闡述。實驗表明,該爬蟲具有支持關(guān)鍵字匹配、速度快、簡單的特點。為研究者提供了快速、準(zhǔn)確、方便地獲取微博數(shù)據(jù)的途徑。

    【關(guān)鍵詞】Scrapy 爬蟲 微博

    微博自誕生之日起就獲得迅猛發(fā)展。截至2017年9月,新浪微博的活躍用戶高達(dá)3.76億,較之去年同期增長27%。微博作為網(wǎng)民交流互動的平臺,時刻產(chǎn)生著大量的數(shù)據(jù),對于研究具有重要意義。當(dāng)前通過微博開放接口(API)獲取數(shù)據(jù)存在諸多的限制,而且流程復(fù)雜、速度較慢。

    Sctapy是為爬取網(wǎng)絡(luò)結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,具有簡單、模塊清晰的特點。Scrapy框架對于設(shè)計爬取新浪微博數(shù)據(jù)的爬蟲具有十分重要的意義。本文研究了當(dāng)前微博的反爬機(jī)制,并對該機(jī)制制定了相應(yīng)的策略。并依此設(shè)計了基于Scrapy的微博爬蟲。并通過實驗驗證了設(shè)計的爬蟲的有效性。

    1 當(dāng)前的反爬蟲機(jī)制

    當(dāng)前的反爬機(jī)制主要有以下四種:

    (1) IP地址的限制。微博服務(wù)器對登錄網(wǎng)站的IP地址進(jìn)行監(jiān)測,如果某一個IP地址訪問頻率過高或者持續(xù)時間過久,就會判定使用該IP的用戶為爬蟲并對該IP進(jìn)行封鎖。令其無法訪問微博或者通過驗證后方可進(jìn)行訪問。

    (2)瀏覽器的限制。瀏覽器的標(biāo)識存在于headers屬性當(dāng)中。如果檢測到某一個瀏覽器頻繁地訪問,便會封殺該瀏覽器。

    (3)對賬號的限制。因為一個人不可能頻繁大量長時間地訪問微博,因此如果某一賬號頻繁不間斷的訪問微博,該賬號就需要重新驗證方可繼續(xù)訪問。

    (4)對訪問頻率的限制。由于爬蟲瀏覽速率非常快,高于普通人瀏覽網(wǎng)頁的幾十倍甚至上百倍。因此,如果訪問頻率過高,也會將其判定為爬蟲,對其要求進(jìn)行驗證。

    由此可見,當(dāng)前的反爬機(jī)制主要是通過對正常網(wǎng)民行為進(jìn)行識別。當(dāng)某個網(wǎng)民的行為與正常網(wǎng)民的行為不一致的時候,就會判定該網(wǎng)民為爬蟲。因此,為了應(yīng)對反爬蟲機(jī)制,就應(yīng)該讓爬蟲行為與正常用戶行為更為相似。

    2 應(yīng)對反爬蟲的策略

    針對微博的反爬蟲策略,在此制定防止反爬蟲的設(shè)計。

    (1)建立由多個IP地址組成的IP池。每進(jìn)行一次新的頁面訪問,從IP池中隨機(jī)抽取一個IP地址。這樣可以避免某個IP地址被封殺。

    (2)建立多個移動瀏覽器標(biāo)識的客戶端類型池。由于當(dāng)前人們習(xí)慣于使用手機(jī)等移動設(shè)備上網(wǎng),因而使用移動設(shè)備瀏覽器登錄網(wǎng)站理論上講是個較為安全的方式。從移動客戶端類型池中每次隨機(jī)抽取一個客戶端,模擬網(wǎng)民登陸。

    (3)建立多個賬號組成的賬號池。每次訪問新的頁面,從賬號池中隨機(jī)抽取一個賬號,有效降低單個賬號的訪問頻率。

    (4)增大訪問時延。通過增大訪問時延,降低訪問頻率,模擬正常人的訪問,實現(xiàn)對反爬蟲機(jī)制的回避。

    3 基于Scrapy的爬蟲工作原理

    圖1是Scrapy框架圖,現(xiàn)在對其各個模塊以及運(yùn)行流程進(jìn)行介紹。

    3.1 模塊介紹

    引擎( Scrapy Engine):它是整個框架的核心,數(shù)據(jù)在各個模塊的流動都需要通過引擎的牽引來實現(xiàn)。

    調(diào)度器(Schedule)接受引擎模塊發(fā)來的request,并將request壓入隊列。在進(jìn)行微博抓取的時候主要是URL隊列。調(diào)度器對URL隊列進(jìn)行處理,主要是排序與去重。

    下載器(Downloader):從互聯(lián)網(wǎng)上獲取數(shù)據(jù),并將內(nèi)容反饋給爬蟲( Spiders)模塊。

    管道(Pipelines):處理從網(wǎng)頁中抽取的實體(Items),主要功能是驗證實體有效性和清除無意義的信息。頁面被解析后,將會被發(fā)送到管道中進(jìn)行處理。本實驗結(jié)合Mongodb數(shù)據(jù)庫,通過Pipelines將數(shù)據(jù)直接導(dǎo)入Mongodb數(shù)據(jù)庫中。

    中間件(Middlewares):處理兩個模塊之間的信息請求以及進(jìn)行相應(yīng)。

    3.2 運(yùn)行流程

    引擎將調(diào)度器里的URL封裝成請求( Requests),傳送到下載器,下載器從互聯(lián)網(wǎng)上將數(shù)據(jù)下載下來,將其封裝成應(yīng)答包( Responses)并傳送給爬蟲。爬蟲對應(yīng)答包進(jìn)行解析得到實體或URL。如果是實體,則交給管道進(jìn)行進(jìn)一步處理。如果是URL,則將結(jié)果交給調(diào)度器處理。

    4 爬蟲的各個模塊設(shè)計

    4.1 Cookies模塊

    Cookies模塊主要用于在一定時間內(nèi),記錄登錄數(shù)據(jù),在進(jìn)行登錄的時候可以保持登錄的狀態(tài)。在本文設(shè)計的cookies模塊中,記錄的是多個用戶賬號組成的賬號池,用來登陸微博網(wǎng)站時先切換賬號。主要偽代碼如下:

    weib0 =[{num‘:‘1 5022967940,psw:OC3LKP'),……]#建立微博賬號池,賬號池中的賬號越多,被封殺的可能性越低,時延可以設(shè)置越低,爬取速度越快

    def getCookies(、veibo):#獲取Cookies

    cookies =[]

    loginURL= 'https:,//weibo.cn/login/'#微博網(wǎng)站登陸界面

    for elem in weibo:#從微博賬號池中抽取一個賬號進(jìn)行登錄

    account= elem[num]

    password = elem[psw‘]

    try:

    browser= webdriver.PhantomjS(desiredcapabilities=dcap) browser.get(loginURL)

    if出現(xiàn)需要識別的代碼

    人工識別代碼并在界面上輸入代碼

    4.2 Items模塊

    該模塊主要明確抓取數(shù)據(jù)的類型。本文抓取的實驗數(shù)據(jù)類型是用戶的用戶名,用戶粉絲數(shù)、微博內(nèi)容、發(fā)布時間、轉(zhuǎn)發(fā)數(shù)、點贊數(shù)以及評論數(shù)三個指標(biāo)。其主要代碼為:

    from scrapy import Item, Field

    class Informationltem(ltem):#個人信息

    id= Field()#用戶ID

    Fans= Field()#用戶粉絲

    Content= Field()#微博內(nèi)容

    PubTime= Field()#發(fā)表時間

    Transfer= Field()#轉(zhuǎn)發(fā)數(shù)

    Like= Field()#點贊數(shù)

    Comment= Field()#評論數(shù)

    4.3 Middlewares模塊

    該模塊主要實現(xiàn)瀏覽器、IP地址以及登陸賬號(登陸賬號在cookies中)的轉(zhuǎn)換,防止被禁止爬取數(shù)據(jù)。其主要代碼如下:

    import random

    import urlllib.request

    from cookies import cookies

    agents=["Mozilla/5.0 (Linux; U;Android 2.3.6; en-us; Nexus S Build/GRK39F)AppleWebKit/533.1 (KHTML, like Gecko)Version/4.0 Mobile Safari/533.1”,—…]#建立移動瀏覽器池

    ips= [23.25.35.66,….]#建立ip地址池

    class UserAgentIPMiddleware(object): #更換User-Agent與IP

    def process_request(self, request, spider):

    agent= random.choice(agents)#從移動瀏覽器池中隨機(jī)抽取一個移動瀏覽器

    ip= random.choice(ips)#從IP池中隨機(jī)抽取IP

    request.headers["User-Agent"]= agenr##訪問網(wǎng)站的瀏覽器頭設(shè)置為抽取的移動瀏覽器

    ip_support=urllib.requestProxyHandler({ thttp':ip})

    opener= urllib.request.build_opener(ipsupport)

    urllib.request.install_opener(opener)

    class CookiesMiddleware(object):#更 換Cookie

    def process_request(self, request, spider):

    cookie= random.choice(cookies)#從cookies池中隨機(jī)抽取cookie

    request.cookies= cookie

    4.4 Pipelines模塊

    該模塊主要對抓取的數(shù)據(jù)進(jìn)行解析校對,然后傳入Mongodb數(shù)據(jù)庫中。其主要代碼如下:

    import pymongo

    fromltems import Informationltem

    class MongoDBPipleline(object):#初始化設(shè)置MongoDB數(shù)據(jù)庫

    defjnit_(selt):

    clinet= pymongo.MongoClient("localhost",27017)

    db = clinet["Sina"]

    selflnformation= db["Information"]

    def processjtem(selt item, spider):#判斷item的類型,并作相應(yīng)的處理,再入數(shù)據(jù)庫

    ifisinstance(item, Informationltem):

    try:

    self.lnformation.insert(dict(item》

    except Exception:

    pass

    retumltem

    4.5 Settings模塊

    該模塊主要設(shè)置抓取的間隔時間與關(guān)鍵詞等信息。在這設(shè)置抓取間隔為6,關(guān)鍵詞為租賃房。主要代碼如下:

    DOWNLOAD__ DELAY=6井間隔時間

    KEY WORD=‘租賃房#關(guān)鍵詞

    4.6 Spider主程序(引擎模塊)

    該模塊是整個程序的核心,通過該模塊實現(xiàn)數(shù)據(jù)的抓取。主要代碼如下:

    def start_requests(self):#依據(jù)關(guān)鍵詞獲取微博,并將該微博的用戶的地址url

    url={url} ?keyword= {keyword}format(url=self.search_url, keyword=KEYWORD)

    # search url為微博搜索界面

    defparse (self, response):#抓取微博數(shù)據(jù)

    selector= Selector(response)

    rweets=selector.xpath(body/div[@class='c”and@idD

    for tweet in tweets:

    nveetsltems= Tweetsltem()

    id= tweet.xpath(@id').extract_first()#獲取微博ID

    fans= response.xpath(”//div[@class=tip2]/a[contains(text(),‘粉絲[)]/text()”)#獲取粉絲

    content= tweet.xpath(‘div/span[@class=”ctt”]/text()).extract_first()#獲取微博內(nèi)容

    like= re.findall(u\u8d5e\[(\d+)、],tweet.extract(》#獲取點贊數(shù)

    transfer= re.findall(u‘\u8f6c\u53d1、[(\d_)m tweet.extracr(》#獲取轉(zhuǎn)載數(shù)

    comment= re.findall(u‘\u8bc4\u8bba、[(\d+)m tweet.extract(》#獲取評論數(shù)5實驗運(yùn)行平臺

    實驗平臺:聯(lián)想E431電腦

    具體配置:CPU intel i5-4320、8G內(nèi)存、2G顯卡、256G固態(tài)硬盤

    6 實驗分析

    本實驗以群眾最為關(guān)心的租賃房作為關(guān)鍵詞進(jìn)行數(shù)據(jù)的抓取,在爬蟲運(yùn)行的86小時23分鐘內(nèi),共計爬取了9910個用戶的18633554條數(shù)據(jù)。

    圖2是爬取的部分?jǐn)?shù)據(jù)截圖:從左到右為用戶名、粉絲數(shù)、微博內(nèi)容、轉(zhuǎn)發(fā)數(shù)、點贊數(shù)、評論數(shù)及發(fā)布時間。

    依據(jù)粉絲數(shù)多少繪制用戶的累計分布概率進(jìn)行繪制,得到的結(jié)果如圖3所示。

    這說明關(guān)于“租賃房”這一社會熱點話題的參與者的粉絲呈冪率分布,關(guān)心該話題的大部分人為擁有少量粉絲的普通民眾。這也與當(dāng)前社會現(xiàn)實相一致,擁有大量粉絲的網(wǎng)絡(luò)大V占據(jù)極少數(shù),絕大多數(shù)的網(wǎng)民只擁有極少數(shù)的粉絲。

    7 總結(jié)

    通過分析當(dāng)前的反爬機(jī)制,運(yùn)用Scrapy框架簡單、模塊清晰的特點以及python豐富完善的標(biāo)準(zhǔn)庫,設(shè)計了基于Scrapy的網(wǎng)絡(luò)爬蟲。通過實驗證實,該爬蟲能夠?qū)崿F(xiàn)對數(shù)據(jù)的高效爬取,為科研工作者獲取微博數(shù)據(jù)提供了一個較為簡單快捷的工具。在搜索時,只需要將關(guān)鍵詞修改,就可實現(xiàn)該主題數(shù)據(jù)的爬取。

    參考文獻(xiàn)

    [1]新浪微博數(shù)據(jù)中心:2 017微博用戶發(fā)展報告[EB/OL] http://www. useit. com. cn/thread-17562-1-1.html, 2017.

    [2]郭濤,黃銘鈞,社區(qū)網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J],智能計算機(jī)與應(yīng)用,2012,2 (04):65-67.

    [3]廉捷,周欣,曹偉等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報:自然科學(xué)版,2011, 51(10):1300-1305.

    [4]趙本本,殷旭東,王偉.基于Scrapy的GitHub數(shù)據(jù)爬蟲[J],電子技術(shù)與軟件工程,2016,6:199-202.

    [5]陳利婷,大數(shù)據(jù)時代的反爬蟲技術(shù)[J].電腦與信息技術(shù),2016,24 (06): 60-61.

    [6]安子建.基于Scrapy框架的網(wǎng)絡(luò)爬蟲實現(xiàn)與數(shù)據(jù)抓取分析[D].長春:吉林大學(xué),2016.

    [7]陳琳,任芳,基于Python的新浪微博數(shù)據(jù)爬蟲程序設(shè)計[J].信息系統(tǒng)工程,2016 (09):97-99.

    猜你喜歡
    爬蟲微博
    青少年數(shù)字素養(yǎng)的社會與文化內(nèi)涵及其教育啟示
    利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
    基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
    利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
    電子測試(2018年1期)2018-04-18 11:53:04
    大數(shù)據(jù)背景下校園輿情的爬蟲應(yīng)用研究
    電子制作(2018年2期)2018-04-18 07:13:42
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
    電子制作(2017年9期)2017-04-17 03:00:46
    “985工程”高校圖書館閱讀推廣的調(diào)查與分析
    中國市場(2016年38期)2016-11-15 23:47:47
    事實與流言的博弈
    人間(2016年26期)2016-11-03 18:19:04
    基于微博營銷的企業(yè)推廣模式研究
    基于Heritrix的主題爬蟲在互聯(lián)網(wǎng)輿情系統(tǒng)中應(yīng)用
    时尚| 吐鲁番市| 噶尔县| 和平县| 读书| 东兴市| 古交市| 岳阳市| 馆陶县| 湘乡市| 历史| 公主岭市| 都安| 灌云县| 肥西县| 东丰县| 马鞍山市| 石阡县| 郴州市| 呼伦贝尔市| 铁力市| 乌鲁木齐县| 虎林市| 冀州市| 大石桥市| 兖州市| 宁津县| 吴忠市| 正安县| 托里县| 房山区| 北川| 若尔盖县| 望江县| 哈巴河县| 山阴县| 丰台区| 临沧市| 江永县| 湛江市| 阿城市|