• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    微博的熱點數據處理與公眾關注分析

    2021-06-11 23:59:25王坤張益民
    錦繡·下旬刊 2021年2期
    關鍵詞:方差分析熱門話題爬蟲

    王坤 張益民

    摘要:文章在使用爬蟲獲得不同種類的熱點數據后,提取了一些關于用戶和微博間的一些基本相關數據,并用最新的spss分析軟件進行清洗數據和分析軟件中的數據,運用單因素方差分析法,比較不同話題分類樣本和話題樣本對熱門微博下的粉絲數、關注數、轉發(fā)數、評論數、點贊數這些觀測值有沒有產生顯著性影響,從而研究分析出公眾對哪方面的熱門話題更感興趣。

    關鍵詞:微博;爬蟲;方差分析;熱門話題

    0引言

    由于熱門話題內容復雜,普通網民往往缺乏對專業(yè)性較高問題的判斷能力,需要在新浪微博上找到熱點話題,抓取熱點數據,為人們從海量信息中提取有價值的信息節(jié)省時間,正確引導普通網民思考問題的角度和趨勢。對于熱點研究方面角度不同,方法多樣,運用于的領域也不同,本文著重關注某一方面熱點數據,自建合理scrapy框架,運用于微博大量的數據爬取,實現(xiàn)數據的獲取、查找、整理與分析。[2]

    1爬蟲系統(tǒng)設計

    Scrapy框架用于對微博上的熱門數據抓取。當爬蟲程序成功登錄到微博并獲得微博頁面后,可以解析HTML腳本并將其提取到所需的數據中。一篇熱門微博文章的主要數據包括:用戶昵稱、用戶ID、關注數、粉絲數、微博內容、轉發(fā)數等。[1]使用爬蟲爬取數據的主要流程有以下三步。

    1.1微博內容獲取

    在微博登錄方面,我們使用一種簡單的方式:抓取微博登錄cookie[4],然后使用cookie登錄微博。這樣就可以瀏覽某個人的微博內容了,爬取微博正文的代碼如下:

    #-*-coding:utf-8-*-

    fromscrapyimportItem,F(xiàn)ield

    classTweetsItem(Item):

    """微博信息"""

    _id=Field()#微博id

    weibo_url=Field()#微博URL

    created_at=Field()#微博發(fā)表時間

    like_num=Field()#點贊數

    comment_num=Field()#評論數

    content=Field()#微博內容

    user_id=Field()#發(fā)表該微博用戶的id

    crawl_time=Field()#抓取時間戳

    1.2用戶信息獲取

    抓取登錄微博的cookie,使用cookie登錄微博后我們可以看到登錄用戶的個人信息。為了研究熱門話題對公眾的影響,我們需要確定一個微博用戶作為抓取數據的起點,部分代碼如下:

    classInformationItem(Item):

    """個人信息"""

    _id=Field()#用戶ID

    nick_name=Field()#昵稱

    gender=Field()#性別

    province=Field()#所在省

    city=Field()#所在城市

    brief_introduction=Field()#簡介

    birthday=Field()#生日

    tweets_num=Field()#微博數

    1.3用戶關系獲取

    新浪微博用戶之間存在互相關注的情況,為了方便起見,本文只對用戶的粉絲進行了爬行,以了解兩個用戶之間是否存在關注關系。代碼如下:

    classRelationshipsItem(Item):

    """用戶關系,只保留與關注的關系"""

    _id=Field()

    fan_id=Field()#關注者,即粉絲的id

    followed_id=Field()#被關注者的id

    crawl_time=Field()#抓取時間戳

    微博用戶關系數據表共有5列屬性,采集到的用戶關系信息包括:信息爬取的爬行時間、用戶關注對象ID列表、用戶粉絲ID列表等。

    2數據分析結果與解釋

    本文把話題分類作為定類數據,關注數、粉絲數、轉發(fā)數、評論數、點贊數作為定量數據進行方差分析,結果如下[3]:

    (1)分類相比較于關注數呈現(xiàn)出0.01水平顯著性(F=40.25,P=0.00),以及具體對比差異可知,有著較為明顯差異的組別平均值得分對比結果。

    (2)分類相比較粉絲數表現(xiàn)出0.01水平顯著性(F=26.31,P=0.00),由具體對比差異可以知到,有著比較明顯差異的分組平均值得分比較結果。

    (3)分類相比較轉發(fā)數表現(xiàn)出0.01水平顯著性(F=8.18,P=0.00),由具體對比差異可以知到,有著較為明顯差異的分組平均值得分比較結果。

    (4)分類相比較評論數表現(xiàn)出0.01水平顯著性(F=6.36,P=0.00),由具體對比差異可以知到,有著較為明顯差異的分組平均值得分比較結果。

    (5)分類相比較點贊數表現(xiàn)出0.01水平顯著性(F=17.91,P=0.00),由具體對比差異可以知到,有著較為明顯差異的分組平均值得分比較結果。

    總結可知:各種話題樣本對于關注數,粉絲數,轉發(fā)數,評論數,點贊數全部均呈現(xiàn)出顯著性差異。為了檢驗以上分析結果是否準確,本文把話題和話題分類這兩個數據指標做成了詞云圖,通過詞云圖顯示具體哪個話題或者話題分類出現(xiàn)的頻率最高[2,5]。通過對微博熱門話題關注程度的分析,發(fā)現(xiàn)用戶在娛樂的同時也應該多去了解下國家正在發(fā)生的社會事件。

    參考文獻

    [1]王海玲,周志彬.基于Scrapy框架的爬蟲設計[J].軟件導刊,2020,19(04):224-228.

    [2]方潔,龔立群,魏疆.基于利益相關者理論的微博輿情中的用戶分類研究[J].情報科學,2014,32(01):18-22.

    [3]戴金輝.單因素方差分析中異方差的檢驗與修正[J].統(tǒng)計與決策,2017(08):23-26.

    [4]安子建.基于Scrapy框架的網絡爬蟲實現(xiàn)與數據抓取分析[D].吉林大學,2017.

    [5]劉志明,劉魯.微博網絡輿情中的意見領袖識別及分析[J].系統(tǒng)工程,2011,29(06):8-16.

    (遼寧大連東軟信息學院?遼寧?大連?116000)

    猜你喜歡
    方差分析熱門話題爬蟲
    多走幾步
    意林(2024年23期)2024-02-19 00:00:00
    利用網絡爬蟲技術驗證房地產灰犀牛之說
    熱門話題 一季報驚喜不多
    理財周刊(2022年4期)2022-04-30 21:32:54
    基于Python的網絡爬蟲和反爬蟲技術研究
    利用爬蟲技術的Geo-Gnutel la VANET流量采集
    電子測試(2018年1期)2018-04-18 11:53:04
    大數據環(huán)境下基于python的網絡爬蟲技術
    電子制作(2017年9期)2017-04-17 03:00:46
    高校二手書市場細分研究
    應用統(tǒng)計學課堂教學組織實踐與探索
    大學教育(2016年7期)2016-07-27 00:32:08
    金華市大學生幸福感調查研究
    “互聯(lián)網+”時代的出租車資源配置
    科技視界(2016年11期)2016-05-23 11:26:04
    天气| 喜德县| 建瓯市| 波密县| 灵璧县| 梧州市| 衡南县| 泰州市| 罗定市| 金阳县| 来安县| 湖口县| 灯塔市| 会同县| 民勤县| 华容县| 浏阳市| 尚义县| 茂名市| 陆河县| 楚雄市| 海安县| 裕民县| 康定县| 津南区| 潞城市| 余庆县| 浮山县| 天全县| 英德市| 乐陵市| 门源| 平舆县| 长岭县| 甘洛县| 万州区| 洛阳市| 泸水县| 桃园市| 邢台市| 甘德县|