• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用python對新冠肺炎數(shù)據(jù)進(jìn)行收集和分析

    2020-04-30 01:26:56孫佩杰
    關(guān)鍵詞:柱狀圖爬蟲網(wǎng)頁

    孫佩杰 呂 國

    (河北建筑工程學(xué)院,河北 張家口 075000)

    0 引 言

    由于2019年底新冠病毒的來襲,全國各地都陸續(xù)出現(xiàn)新增的確診病例.為了能夠更好的控制疫情,需要了解全國各地的疫情現(xiàn)況,對疫情嚴(yán)重的地區(qū)進(jìn)行嚴(yán)格的管控,并且出行要避開這些疫情爆發(fā)的城市.這時(shí)我們就需要從網(wǎng)上收集各個(gè)地區(qū)的新增確診病例人數(shù).本文介紹采用python實(shí)現(xiàn)對國內(nèi)出現(xiàn)過確診病例城市疫情數(shù)據(jù)的爬取,并存儲成csv文件,將疫情人數(shù)前N名的城市排列出來,并且以柱狀圖展示.

    1 用到的技術(shù)

    1.1 數(shù)據(jù)可視化

    數(shù)據(jù)可視化是數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究,主要是借助圖形化的手段來清晰有效地傳達(dá)與溝通信息[1].數(shù)據(jù)可視化的目的就是要更加直觀的觀測數(shù)據(jù)、分析數(shù)據(jù),突出數(shù)據(jù)的重點(diǎn),挖掘數(shù)據(jù)中隱藏的規(guī)律和趨勢,進(jìn)而預(yù)測和推理.本文采用python的數(shù)據(jù)可視化工具—matplotlib,將全國疫情前N名城市的疫情數(shù)據(jù)以柱狀圖的形式顯示出來,突出疫情較為嚴(yán)重的地區(qū).

    1.2 爬蟲技術(shù)

    網(wǎng)絡(luò)爬蟲能夠自動(dòng)下載網(wǎng)頁信息,主要原理是模仿瀏覽器瀏覽網(wǎng)頁,獲取網(wǎng)頁上所需要的資源[2].爬蟲技術(shù)是一個(gè)可以搜集數(shù)據(jù)、解析數(shù)據(jù),并將這些數(shù)據(jù)進(jìn)行分析的工具.我們可以通過爬蟲技術(shù),從互聯(lián)網(wǎng)上更好地收集我們需要的數(shù)據(jù),從而避免因?yàn)闊o用的數(shù)據(jù)而花費(fèi)時(shí)間,大大地提高了我們的收集效率.

    1.3 爬取的內(nèi)容

    國內(nèi)疫情數(shù)據(jù)有很多的數(shù)據(jù)源,本文采取的是騰訊新聞網(wǎng)站的數(shù)據(jù)源.數(shù)據(jù)源的網(wǎng)址是:https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5,瀏覽器訪問此網(wǎng)址的結(jié)果如圖1所示:

    圖1 網(wǎng)頁原始數(shù)據(jù)部分截圖

    2 實(shí)現(xiàn)流程

    首先獲取給定網(wǎng)址的網(wǎng)頁數(shù)據(jù),將這些數(shù)據(jù)存儲下來.此時(shí)存儲下來的數(shù)據(jù)是混亂的,我們需要將它重新整理,轉(zhuǎn)換成易于觀察的類型,進(jìn)而分析數(shù)據(jù)的內(nèi)容;然后對整理過的數(shù)據(jù)進(jìn)行排序,將排序后的數(shù)據(jù)存儲成csv文件以便查詢;最后用python的matplotlib將前N個(gè)城市繪制成柱狀圖.

    圖2 實(shí)現(xiàn)流程圖

    2.1 爬取數(shù)據(jù)

    根據(jù)指定的網(wǎng)址用requests.get()函數(shù)獲取網(wǎng)頁數(shù)據(jù),將獲取的數(shù)據(jù)轉(zhuǎn)換成json對象,之后用json.loads()函數(shù)把json對象轉(zhuǎn)化為python字典類型,然后用json.dumps()函數(shù)將字典形式的數(shù)據(jù)改為字符串類型,以便于后面進(jìn)行數(shù)據(jù)處理,最后輸出.代碼如下:

    url="https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5"

    resp=requests.get(url)

    html=resp.json()

    data=json.loads(html["data"])

    data_formate=json.dumps(data,sort_keys=False,indent=4,separators=(',', ':'),ensure_ascii=False)

    print(data_formate)

    運(yùn)行結(jié)果如圖3所示:

    圖3 整理后的數(shù)據(jù)

    2.2 查詢需要的數(shù)據(jù)

    首先輸出:最近一次的更新時(shí)間,中國的情況.根據(jù)提示輸入要求(例如:新增確診病例人數(shù)排名前5名城市,需要先輸入today_confirm,然后輸入5).如果數(shù)據(jù)中province名字(省份名字)是4個(gè)直轄市、2個(gè)特別行政區(qū)或者臺灣,那么直接將它的疫情數(shù)據(jù)添加列表中,并且疫情城市的數(shù)量加1.如果不是,那么先判斷它的children(省內(nèi)的城市名)是否為境外輸入,如果是,那么先將它的名字改為所屬省份的境外輸入;如果不是,那么直接將它的children(省內(nèi)的城市)疫情數(shù)據(jù)添加到列表中,疫情城市數(shù)量加1.代碼如下:

    areaTree=data["areaTree"]

    print(f'截至{data["lastUpdateTime"]},中國情況為:')

    da=[]

    i_city=0

    item=input('請輸入查詢項(xiàng)目英文代碼: (新增確診-today_confirm,累計(jì)確診-total_confirm,累計(jì)疑似-total_suspect, 累計(jì)死亡-total_dead,累計(jì)治愈-total_heal,總死亡率-total_deadRate, 總治愈率-total_healRate),例如:total_confirm ')N=input('請輸入想查詢前多少名城市?(300以內(nèi)正整數(shù),例如:20)')

    for province in areaTree[0]["children"]:

    if province["name"]=="北京"or province["name"]=="上海"or

    province["name"]=="天津"or province["name"]=="重慶"or province["name"]=="香港"or province["name"]=="澳門"or province["name"]=="臺灣":

    i_city+=1

    da.append([province["name"],province["today"]["confirm"],province["total"]["confirm"],province["total"]["suspect"],province["total"]["dead"],province["total"]["heal"],povince["total"]["deadRate"],province["total"]["healRate"]])

    else:

    for city in province["children"]:

    i_city+=1

    if city["name"]=="境外輸入":

    city["name"]=province["name"]+"境外輸入"

    da.append([city["name"],city["today"]["confirm"],city["total"]["confirm"],city["total"]["suspect"],city["total"]["dead"],city["total"]["heal"],city["total"]["deadRate"],city["total"]["healRate"]])

    運(yùn)行結(jié)果如圖4所示

    圖4 輸入提示

    2.3 存儲篩選后的數(shù)據(jù)

    首先輸出中國共有多少個(gè)城市出現(xiàn)確診.然后將出現(xiàn)過確診病例城市的疫情數(shù)據(jù)存到表格df中,表格的第1列是城市的名字,第2列是今日新增確診人數(shù),第3列是累計(jì)確診人數(shù),第4列是累計(jì)疑似人數(shù)……等等,然后用to_csv()函數(shù)將表格保存到文件中,文件名為“新冠肺炎各城市數(shù)據(jù)-最近的更新時(shí)間”,代碼如下:

    print(f'中國共{i_city}個(gè)城市出現(xiàn)確診')

    df=pd.DataFrame({})

    df["name"]=[x[0]for x in da]

    df["today_confirm"]=[x[1]for x in da]

    df["total_confirm"]=[x[2]for x in da]

    df["total_suspect"]=[x[3]for x in da]

    df["total_dead"]=[x[4]for x in da ]

    df["total_heal"]=[ x[5]for x in da ]

    df["total_deadRate"]=[x[6]for x in da ]

    df["total_healRate"]=[x[7]for x in da ]

    df.to_csv(f'新冠肺炎各城市數(shù)據(jù){data["lastUpdateTime"][:10]}.csv')

    存儲的內(nèi)容如圖5所示:

    圖5 存儲的數(shù)據(jù)

    2.4 數(shù)據(jù)排序

    將出現(xiàn)過確認(rèn)病例城市的疫情數(shù)據(jù),用sort_values()函數(shù)將表格按照輸入的要求(例如今日新增確診人數(shù)today_confirm)進(jìn)行從大到小排序,用reset_index()重置城市的索引號(例如陜西境外輸入原來是14,重置之后變成了4),將前N個(gè)城市的疫情數(shù)據(jù)按序輸出,代碼如下:

    N=int(N)

    df=df.sort_values(item,ascending=False)

    df=df.reset_index(drop=True)

    df2=df[:N]

    print(df2)

    運(yùn)行結(jié)果如圖6所示:

    圖6 運(yùn)行結(jié)果

    2.5 可視化處理

    繪制柱狀圖.柱狀圖的標(biāo)題設(shè)置成最近一次更新的時(shí)間item(某項(xiàng)疫情數(shù)據(jù)例如今日新增確診人數(shù)today_confirm)排名前N個(gè)城市.x軸的標(biāo)題設(shè)置為城市,刻度值是城市名字.y軸坐標(biāo)設(shè)為默認(rèn),刻度值為數(shù)字.柱狀圖的顏色為橘色,高度值為城市的某項(xiàng)疫情數(shù)據(jù)值,寬度為0.8.代碼如下:

    plt.title(f'截至{data["lastUpdateTime"][:N]}{item}前{N}城市')

    ax1 = plt.gca()

    ax1.set(xlabel='城市',ylabel='')

    plt.xticks(range(len(df2["name"])),df2["name"])

    plt.bar(range(len(df2["name"])),df2[item],width=0.8,color='orange')

    plt.show()

    圖7 運(yùn)行結(jié)果的柱狀圖

    3 結(jié)果分析

    由運(yùn)行結(jié)果可知,今日國內(nèi)新增確診人數(shù)最多的前五個(gè)城市分別為:香港、臺灣、上海、福建境外輸入和陜西境外輸入.其中香港人數(shù)最多,達(dá)到了80人之多,臺灣新增確診人數(shù)達(dá)到16人,其他三個(gè)城市(上海、福建境外輸入和陜西境外輸入)新增確診人數(shù)分別為3,1,1.由此可推測,國內(nèi)疫情控制基本穩(wěn)定,以上這些城市(尤其香港和臺灣)需要加大管控力度,并且建議國內(nèi)人員出行要盡量避開這些高危城市,這樣可以減少感染新冠肺炎的風(fēng)險(xiǎn).

    4 總 結(jié)

    利用爬蟲和可視化技術(shù),我們可以實(shí)現(xiàn)網(wǎng)上數(shù)據(jù)的最大價(jià)值化.在大數(shù)據(jù)時(shí)代的今天,用戶對各類數(shù)據(jù)的需求越來越多,對數(shù)據(jù)進(jìn)行有效的分析,可以為相關(guān)決策提供依據(jù),爬蟲作為一種自動(dòng)收集數(shù)據(jù)的手段,有廣闊的應(yīng)用[3].

    猜你喜歡
    柱狀圖爬蟲網(wǎng)頁
    繪制和閱讀降水量柱狀圖
    利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
    基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
    基于Unity3D 的冒泡排序算法動(dòng)態(tài)可視化設(shè)計(jì)及實(shí)現(xiàn)
    基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
    電子測試(2018年1期)2018-04-18 11:53:04
    基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
    電子制作(2017年9期)2017-04-17 03:00:46
    基于Android平臺的柱狀圖組件的設(shè)計(jì)實(shí)現(xiàn)
    網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
    電子測試(2015年18期)2016-01-14 01:22:58
    麻城市| 来宾市| 京山县| 志丹县| 郴州市| 堆龙德庆县| 龙海市| 宜丰县| 余庆县| 赞皇县| 呼图壁县| 保山市| 南投市| 盖州市| 平阳县| 肥城市| 莱西市| 黄骅市| 古交市| 右玉县| 牡丹江市| 二连浩特市| 福安市| 分宜县| 义乌市| 河北区| 宜川县| 蚌埠市| 嵊州市| 娱乐| 渝北区| 井冈山市| 凤阳县| 天全县| 颍上县| 湄潭县| 肃宁县| 耒阳市| 佛学| 即墨市| 丰顺县|