張建根 于耀祖
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;工程項目;數(shù)據(jù)分析
一、緒論
工程項目建設(shè)是社會經(jīng)濟活動的重要組成部分,反映社會基礎(chǔ)建設(shè)資金投入方向,如果一段時間內(nèi)社會資金集中投向某一行業(yè),說明該行業(yè)處于發(fā)展上升期間,反之,則說明該行業(yè)處于停滯甚至衰退期。因此工程項目建設(shè)是社會行業(yè)發(fā)展的晴雨表,甚至在一定程度上影響未來宏觀經(jīng)濟運行趨勢,所以對擬在建工程項目的統(tǒng)計分析不僅對社會企業(yè)發(fā)展,而且對社會治理都具有十分重要的意義。
中項網(wǎng)(https://www.ecpe360.corn/)依靠健全的信息渠道和強大的信息收集加工能力,經(jīng)驗豐富的強大調(diào)研跟蹤團隊和扎實的團隊作風(fēng),采集一線實際項目投資建設(shè)實況數(shù)據(jù),形成了全面系統(tǒng)、精準(zhǔn)高效的擬在建項目信息匯總發(fā)布平臺。本文通過爬蟲技術(shù)對中項網(wǎng)項目信息進行抓取,并對項目數(shù)據(jù)進行匯總分析,以期對行業(yè)分析、區(qū)域發(fā)展、社會治理提供一定的幫助。
二、相關(guān)技術(shù)介紹
網(wǎng)絡(luò)爬蟲是一種按照提前設(shè)定好的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本。從互聯(lián)網(wǎng)網(wǎng)站抓取公開信息并保存至本地數(shù)據(jù)庫,從而解決難以大量獲取互聯(lián)網(wǎng)數(shù)據(jù)的困難。最初被用于搜索引擎抓取網(wǎng)站數(shù)據(jù)。而在當(dāng)今信息化時代,得數(shù)據(jù)者得天下。因此網(wǎng)絡(luò)爬蟲廣泛用于各種互聯(lián)網(wǎng)應(yīng)用。一方面,網(wǎng)絡(luò)爬蟲使數(shù)據(jù)獲取變得容易;但另一方面,網(wǎng)絡(luò)爬蟲不僅消耗公共網(wǎng)絡(luò)資源,而且損害互聯(lián)網(wǎng)服務(wù)站點,被爬取的服務(wù)站點需要消耗大量的物理資源應(yīng)對網(wǎng)絡(luò)爬蟲,甚至發(fā)生宕機事故。因此一些網(wǎng)站采取措施防止被網(wǎng)絡(luò)爬蟲,比如驗證碼、IP限制、用戶行為檢測、JS渲染等。網(wǎng)絡(luò)爬蟲技術(shù)在數(shù)據(jù)量爆發(fā)式增長的機遇和反爬蟲制約的挑戰(zhàn)雙重環(huán)境下不斷發(fā)展,促生了大量應(yīng)用框架的誕生。
Python是一個高層次腳本語言,具有解釋性、編譯性、互動性和面向?qū)ο蟆⒖缙脚_等特點,已經(jīng)成為一種非常流行的計算機程序設(shè)計語言。因其開源、簡單、易學(xué)、可移植、可擴展、易維護的特點,催生了多種網(wǎng)絡(luò)爬蟲框架,例如:Scrapy、Crawley、Portia、Newspaper、Python-goose。其中,最為流行的開源框架是Scrapy,可以快速、簡單、高效的爬取Web頁面并提取出結(jié)構(gòu)化數(shù)據(jù),已經(jīng)被廣泛用于各類應(yīng)用。
三、工程項目信息爬取
本文爬取的項目信息為中項網(wǎng)項目信息(https://www.ccpc360.com/xiangmu/),上述頁面采用表格方式展現(xiàn)項目的基本信息,包括項目名稱、領(lǐng)域類型、地區(qū)、投資金額(萬元)、進展階段、行業(yè)/類型、發(fā)布時間等內(nèi)容。由于項目信息條數(shù)太多,不利于在單一頁面展現(xiàn),該頁面采用了分頁技術(shù)。項目信息爬取是指由程序自動獲取項目信息的過程,其流程圖如圖1所示:
四、工程項目信息分析
本文爬取2019年7月至2020年12月18個月內(nèi)中項網(wǎng)發(fā)布的項目信息(如圖2所示),共17061項條,去除848項境外項目,剩余169769項國內(nèi)項目,分別處于土建施工、施工圖設(shè)計、施工招標(biāo)、設(shè)計招標(biāo)、暫停、取消等共27個進展階段,其中處于取消階段項目535項,處于暫停階段項目476項,去除以上兩項無效階段項目,國內(nèi)有效項目共168758項。項目屬地覆蓋東北、華北、華東、華南、華中、西北、西南七大區(qū)域;項目分屬輕工紡織食品、石油化學(xué)工程、機械電子電器、電力、環(huán)保、能源工業(yè)、制藥工程、倉儲物流、建筑房地產(chǎn)、建材、市政、冶金礦產(chǎn)、農(nóng)林水利、交通設(shè)施等20個行業(yè)分類;涉及碼頭港口、水庫、鐵路、醫(yī)院、食品、設(shè)備制造風(fēng)力發(fā)電、污水等243個領(lǐng)域。
(一)項目區(qū)域分析
18個月內(nèi)東北、華北、華東、華南、華中、西北、西南七大區(qū)域項目數(shù)分別為:8604項、24846項、55812項、17113項、27852項、13133項和21398項。可以看出華東擬在建項目數(shù)最多,這與華東地區(qū)經(jīng)濟發(fā)達,市場活動活躍有直接關(guān)系;東北地區(qū)擬在建項目數(shù)最少,這與東北地區(qū)近年來經(jīng)濟發(fā)展速度較慢,市場經(jīng)濟活動較少相關(guān)。
從圖3可以看出,各地區(qū)在2020年上半年擬在建項目數(shù)量均有不同程度下降。2020年下半年經(jīng)濟復(fù)蘇,市場行為開始活躍,因此擬在建項目數(shù)量開始增加。明顯可以看出華東地區(qū)在擬在建項目基數(shù)較大的情況下,仍實現(xiàn)了最快的增長率,反映出華東地區(qū)經(jīng)濟基礎(chǔ)好,市場成熟度高,經(jīng)營主體活躍等特點。
(二)項目行業(yè)分析
18個月內(nèi)環(huán)保、輕工紡織食品、石油化工工程、電力、機械電子電器五類行業(yè)位居擬在建項目的前五位,分別達到24692、20372、18938、18447、16973項,占項目總數(shù)的58.91%,詳見圖4。
從圖4可以看出環(huán)保在項目建設(shè)中占據(jù)了首要位置,充分體現(xiàn)了綠色發(fā)展、持續(xù)發(fā)展的理念;建筑房地產(chǎn)項目雖然也占據(jù)了較為靠前的位置,但其整體比例并不高,體現(xiàn)了“住房不炒”的理念;但是農(nóng)林水利方面的項目數(shù)量明顯偏少,與鄉(xiāng)村振興戰(zhàn)略地位明顯不符。
(三)項目領(lǐng)域分析
18個月內(nèi)化學(xué)制品、生活污水、醫(yī)院、食品、設(shè)備制造5個領(lǐng)域位居擬在建項目的前5位,分別達11237、7795、7573、6988、6516項,占總數(shù)的23.8%,且前20個領(lǐng)域內(nèi)的項目建設(shè)已超過全部項目的50%,詳見圖5。
從圖5可以看出生活污水、環(huán)境綜合治理、污水、太陽能發(fā)電、風(fēng)力發(fā)電、垃圾處理等于環(huán)保相關(guān)領(lǐng)域項目建設(shè)占據(jù)較大比例,說明社會發(fā)展在環(huán)保領(lǐng)域的持續(xù)發(fā)力。充電樁(680項)、5G建設(shè)(458項)、工業(yè)互聯(lián)網(wǎng)(257項)、大數(shù)據(jù)中心(184項)等新興領(lǐng)域則顯得投入不足。
五、結(jié)語
針對中項網(wǎng)項目發(fā)布信息,利用爬蟲技術(shù)設(shè)計了項目數(shù)據(jù)采集程序。分析采集到的2019年7月至2020年12月共18個月內(nèi)項目信息顯示,2020年下半年,我國項目建設(shè)活動較2020年上半年有較大幅度增加,說明我國經(jīng)濟發(fā)展具有堅實的基礎(chǔ)和頑強的韌勁;同時也應(yīng)注意到當(dāng)前項目建設(shè)投資動向與國家發(fā)展方向大致相同,但是在一些行業(yè)和領(lǐng)域仍需政府機構(gòu)加強宏觀調(diào)控和政策引導(dǎo)。