• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Python的關于Flickr圖片網(wǎng)站的爬蟲

      2019-03-19 01:48:24王金峰李世良王明羅星宇張雪玉
      關鍵詞:多線程網(wǎng)絡爬蟲

      王金峰 李世良 王明 羅星宇 張雪玉

      【摘 要】如今的互聯(lián)網(wǎng)已然進入大數(shù)據(jù)時代,網(wǎng)絡上有數(shù)以百計的圖片,圖片網(wǎng)絡爬蟲可以通過既定的規(guī)則自動地抓取互聯(lián)網(wǎng)上的圖片并下載至本地存儲,通過對國內外各大圖片網(wǎng)站的調查研究,決定以國外網(wǎng)站Flickr為對象通過Python程序設計語言來實現(xiàn)獲取高質量的,準確的,完整的圖片和信息。最終成功實現(xiàn)了對Flickr網(wǎng)站上的圖片按照檢索的字段,批量爬取圖片信息并下載圖片的程序。

      【關鍵詞】Python ;網(wǎng)絡爬蟲 ;Flickr ;多線程;圖片

      【Keywords】Python; web crawler; Flickr; multithreading; picture

      【中圖分類號】X87? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2019)01-0182-02

      1 引言

      隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)具有數(shù)據(jù)體量巨大 (Volume) 、數(shù)據(jù)類型繁多 (Variety) 、價值密度低 (Value) 、處理速度快 (Velocity) 的特點[1]。面對人們越來越多樣的需求[2],可以根據(jù)自己的實際需求, 繼續(xù)修改程序來達到自己的要求[3]。程序按照一個檢索詞列表進行批量爬取,并把圖片信息存入數(shù)據(jù)庫中。本文提供了一個通過Python調用Flickr API實現(xiàn)通過關鍵字檢索獲取圖片信息并批量下載的程序。

      2 相關技術

      2.1 Python

      Python是一種計算機程序設計語言,是一種動態(tài)的、面向對象的腳本語言。Python語言的一大優(yōu)勢就是其語法簡潔清晰,并具有豐富和強大的類庫[5],這為程序的編寫提供了極大的便利使得數(shù)據(jù)抓取工作變得生動有趣[6],從而簡化了程序。

      2.2 Flickr API

      Flickr是雅虎旗下的圖片分享網(wǎng)站,上面有全世界網(wǎng)友分享的大量精彩圖片,被認為是專業(yè)的圖片網(wǎng)站。

      3 爬蟲系統(tǒng)工作

      系統(tǒng)分為兩部分:第一部分即調用Flickr API獲取圖片等數(shù)據(jù),第二部分即根據(jù)數(shù)據(jù)庫中的圖片Url下載圖。獲取圖片信息的流程圖如圖1所示,下載的流程圖如圖2所示。

      4 結語

      本文的爬蟲通過調用Flickr API和Python豐富的第三庫實現(xiàn)了對Flickr網(wǎng)站上的圖片和圖片信息進行批量爬取的程序,為一些追求高質量的,準確的,想要獲取圖片相關信息數(shù)據(jù)的研究者提供了一種方案。通過充分利用Python語言的特點結合Flickr API,能夠方便快捷地獲取大量的圖片和圖片相關信息,并將獲取到的圖片自動存儲到本地,為后續(xù)的機器學習、人工智能奠定了數(shù)據(jù)基礎。

      【參考文獻】

      【1】夏火松,李保國. 基于Python的動態(tài)網(wǎng)頁評價爬蟲算法[J].軟件工程,2016,19(02):43-46.

      【2】賈棋然. 基于Python專用型網(wǎng)絡爬蟲的設計及實現(xiàn)[J].電腦知識與技術,2017,13(12): 47-49.

      【3】劉洪志. 利用Python批量獲取互聯(lián)網(wǎng)中的桌面壁紙[J].電腦編程技巧與維護, 2014 (21) :56-58+74.

      【4】齊亞莉,張磊. 基于Python的圖像搜索系統(tǒng)的設計與實現(xiàn)[J].北京印刷學院學報, 2010,18(02):48-51.

      【5】云洋. 基于Python的圖片爬蟲程序設計[J].電子技術與軟件工程, 2018(17):241-242+244.

      【6】熊暢. 基于Python爬蟲技術的網(wǎng)頁數(shù)據(jù)抓取與分析研究[J].數(shù)字技術與應用,2017(09):35-36.

      猜你喜歡
      多線程網(wǎng)絡爬蟲
      煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設計與實現(xiàn)
      Java并發(fā)工具包對并發(fā)編程的優(yōu)化
      基于多線程文件傳輸關鍵技術研究與實現(xiàn)
      基于社會網(wǎng)絡分析的權威網(wǎng)頁挖掘研究
      主題搜索引擎中網(wǎng)絡爬蟲的實現(xiàn)研究
      網(wǎng)頁爬蟲技術的關鍵技術研究探索
      一種基于多線程的高速磁盤鏡像算法
      淺析如何應對網(wǎng)絡爬蟲流量
      中國市場(2016年23期)2016-07-05 04:35:08
      芦山县| 罗甸县| 成都市| 佛教| 夹江县| 石家庄市| 长宁区| 晋江市| 岳普湖县| 江安县| 潞城市| 金华市| 仁怀市| 专栏| 宁武县| 宝清县| 洛宁县| 延庆县| 五原县| 鄯善县| 台湾省| 隆德县| 疏附县| 庄浪县| 墨竹工卡县| 鄂州市| 上蔡县| 义马市| 宜章县| 夏津县| 清水河县| 安国市| 阿拉尔市| 玉溪市| 民权县| 浮山县| 德令哈市| 聂拉木县| 元氏县| 遵义县| 都匀市|