劉瑾 張仲
摘要:隨著大數(shù)據(jù)技術(shù)的發(fā)展和數(shù)字鄉(xiāng)村政策的推進(jìn),鄉(xiāng)村大數(shù)據(jù)源將更加豐富。本文對(duì)數(shù)據(jù)質(zhì)量、數(shù)據(jù)持續(xù)性、數(shù)據(jù)可得性和數(shù)據(jù)可解釋性等作出要求,篩選出鄉(xiāng)村自然地理?xiàng)l件數(shù)據(jù)源、統(tǒng)計(jì)年鑒數(shù)據(jù)源、農(nóng)業(yè)普查數(shù)據(jù)源、政府部門公開數(shù)據(jù)源、政策稱號(hào)數(shù)據(jù)源、農(nóng)業(yè)企業(yè)數(shù)據(jù)源、農(nóng)業(yè)專利數(shù)據(jù)源以及農(nóng)村電子商務(wù)數(shù)據(jù)源等8類鄉(xiāng)村數(shù)據(jù)源,在傳統(tǒng)數(shù)據(jù)源基礎(chǔ)上挖掘時(shí)效性更強(qiáng)、維度更多的非傳統(tǒng)數(shù)據(jù)源,為“三農(nóng)”問題研究和促進(jìn)鄉(xiāng)村大數(shù)據(jù)發(fā)展提供了更多數(shù)據(jù)支撐。
關(guān)鍵詞:鄉(xiāng)村大數(shù)據(jù) 數(shù)據(jù)源研究
互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的發(fā)展為鄉(xiāng)村大數(shù)據(jù)應(yīng)用創(chuàng)造了條件。相比金融大數(shù)據(jù)、城市大數(shù)據(jù),鄉(xiāng)村大數(shù)據(jù)的發(fā)展較為緩慢,促進(jìn)鄉(xiāng)村大數(shù)據(jù)發(fā)展已經(jīng)成為政府面臨的重大挑戰(zhàn)。本文將農(nóng)業(yè)、農(nóng)村和農(nóng)民相關(guān)的數(shù)據(jù)源統(tǒng)稱為鄉(xiāng)村大數(shù)據(jù)源,重點(diǎn)梳理農(nóng)村和農(nóng)民方面的數(shù)據(jù),從數(shù)據(jù)內(nèi)容、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、數(shù)據(jù)頻率等方面對(duì)數(shù)據(jù)源進(jìn)行詳細(xì)介紹,以期為我國農(nóng)業(yè)大數(shù)據(jù)資源建沒和共享提供參考。
一、鄉(xiāng)村大數(shù)據(jù)研究的現(xiàn)實(shí)意義
隨著大數(shù)據(jù)技術(shù)發(fā)展,大數(shù)據(jù)已經(jīng)逐漸滲透到金融、醫(yī)療、城市規(guī)劃等國民經(jīng)濟(jì)的各個(gè)領(lǐng)域。當(dāng)前,大數(shù)據(jù)與云計(jì)算、人工智能等技術(shù)一起,正快速發(fā)展為發(fā)現(xiàn)新知識(shí)、創(chuàng)造新動(dòng)能的新一代信息技術(shù)業(yè)態(tài),成為推動(dòng)經(jīng)濟(jì)創(chuàng)新發(fā)展、促進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的重要驅(qū)動(dòng)力。
農(nóng)業(yè)農(nóng)村是大數(shù)據(jù)生產(chǎn)和應(yīng)用的重要領(lǐng)域,農(nóng)業(yè)農(nóng)村大數(shù)據(jù)是我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的基礎(chǔ)之一。2015年8月,國務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,明確提出要建設(shè)國家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺(tái),逐步實(shí)現(xiàn)農(nóng)業(yè)、金融、環(huán)境等領(lǐng)域政府?dāng)?shù)據(jù)集向社會(huì)開放,發(fā)展農(nóng)業(yè)農(nóng)村大數(shù)據(jù),構(gòu)建面向鄉(xiāng)村的綜合信息服務(wù)平臺(tái)。為進(jìn)一步推動(dòng)農(nóng)業(yè)農(nóng)村大數(shù)據(jù)的發(fā)展,同年12月,農(nóng)業(yè)農(nóng)村部發(fā)布《關(guān)于推進(jìn)農(nóng)業(yè)農(nóng)村大數(shù)據(jù)發(fā)展的實(shí)施意見》,提出建設(shè)國家農(nóng)業(yè)數(shù)據(jù)中心,推進(jìn)數(shù)據(jù)開放共享,支持農(nóng)業(yè)生產(chǎn)智能化等16項(xiàng)措施,要求到2020年底前,實(shí)現(xiàn)農(nóng)業(yè)部和省級(jí)農(nóng)業(yè)主管部門數(shù)據(jù)集向社會(huì)開放。2019年5月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《數(shù)字鄉(xiāng)村發(fā)展戰(zhàn)略綱要》,提出要從加快鄉(xiāng)村信息基礎(chǔ)設(shè)施建設(shè)、發(fā)展農(nóng)村數(shù)字經(jīng)濟(jì)等方面來建設(shè)數(shù)字鄉(xiāng)村,實(shí)現(xiàn)鄉(xiāng)村振興。在多項(xiàng)政策的推動(dòng)下,我國農(nóng)業(yè)大數(shù)據(jù)發(fā)展取得初步成效。
目前,大數(shù)據(jù)技術(shù)在鄉(xiāng)村領(lǐng)域的應(yīng)用多集中在農(nóng)業(yè)領(lǐng)域,如利用大數(shù)據(jù)、物聯(lián)網(wǎng)、衛(wèi)星遙感等技術(shù),實(shí)時(shí)監(jiān)測(cè)農(nóng)作物生產(chǎn)狀況,實(shí)現(xiàn)農(nóng)業(yè)生產(chǎn)智能化;通過與氣象、國土、環(huán)保等部門共享數(shù)據(jù),實(shí)現(xiàn)對(duì)農(nóng)業(yè)資源環(huán)境的精準(zhǔn)監(jiān)測(cè);利用農(nóng)產(chǎn)品大數(shù)據(jù)信息系統(tǒng),實(shí)現(xiàn)農(nóng)產(chǎn)品從生產(chǎn)、加工到銷售全流程信息查詢和可追溯等。但大數(shù)據(jù)技術(shù)在農(nóng)村方面的應(yīng)用較少,究其原因,主要有以下幾個(gè)方面:首先,相比農(nóng)作物和農(nóng)產(chǎn)品,對(duì)農(nóng)民和農(nóng)村各方面情況進(jìn)行監(jiān)測(cè)的難度較大,數(shù)據(jù)搜集耗時(shí)耗力;其次,數(shù)據(jù)的標(biāo)準(zhǔn)化程度較低,包含大量非結(jié)構(gòu)化數(shù)據(jù);最后,數(shù)據(jù)多為國家級(jí)和省級(jí)層面的宏觀數(shù)據(jù),涉及行政村、農(nóng)民個(gè)人的微觀數(shù)據(jù)較少。在此背景下,對(duì)農(nóng)村和農(nóng)民相關(guān)數(shù)據(jù)源進(jìn)行梳理十分必要。對(duì)于政府而言,農(nóng)村、農(nóng)民和農(nóng)業(yè)三者是不可分割的,獲取同農(nóng)民和農(nóng)民相關(guān)的數(shù)據(jù),有助于全面刻畫鄉(xiāng)村面貌,了解鄉(xiāng)村發(fā)展實(shí)際情況,從而制定適合鄉(xiāng)村發(fā)展的政策;對(duì)于研究部門而言,獲取更多維度、多層面的數(shù)據(jù),是構(gòu)建“三農(nóng)”問題相關(guān)模型的基礎(chǔ);對(duì)于商業(yè)機(jī)構(gòu)而言,準(zhǔn)確的信息可以進(jìn)一步消除信息不對(duì)稱,幫助其確定投資對(duì)象,降低投資風(fēng)險(xiǎn)。
二、鄉(xiāng)村大數(shù)據(jù)研究現(xiàn)狀
在中國知網(wǎng)對(duì)“農(nóng)村大數(shù)據(jù)”“鄉(xiāng)村大數(shù)據(jù)”“三農(nóng)大數(shù)據(jù)”等關(guān)鍵詞進(jìn)行檢索,結(jié)果多為利用大數(shù)據(jù)技術(shù)促進(jìn)農(nóng)業(yè)發(fā)展或改善農(nóng)民生活的政策建議型文獻(xiàn),如孫忠富等(2017)、李曉圓和鐘偉(2019)、王巧玲(2019),尚未有文獻(xiàn)對(duì)鄉(xiāng)村數(shù)據(jù)源進(jìn)行闡述。搜索“農(nóng)業(yè)大數(shù)據(jù)”等關(guān)鍵詞,部分文獻(xiàn)對(duì)大數(shù)據(jù)在農(nóng)業(yè)方面的應(yīng)用難點(diǎn)、發(fā)展模式及推進(jìn)路線進(jìn)行分析,如周國民(2019)、崔磊(2019)、李娟和王洪乾(2019)、康春鵬等(2018),此類文獻(xiàn)數(shù)量較多。還有部分文獻(xiàn)對(duì)農(nóng)業(yè)大數(shù)據(jù)平臺(tái)的構(gòu)建方法及實(shí)踐進(jìn)行研究,王麗娟等(2018)分析了農(nóng)業(yè)大數(shù)據(jù)平臺(tái)的系統(tǒng)架構(gòu)、關(guān)鍵技術(shù)以及應(yīng)用實(shí)踐;朱亮等(2019)介紹了湖南省農(nóng)業(yè)氣象大數(shù)據(jù)平臺(tái),該平臺(tái)利用大數(shù)據(jù)技術(shù),實(shí)現(xiàn)了農(nóng)業(yè)氣象數(shù)據(jù)的收集、存儲(chǔ)和智能化應(yīng)用;孟祥寶等(2014)設(shè)計(jì)了農(nóng)業(yè)大數(shù)據(jù)智能分析平臺(tái),并對(duì)其中的重點(diǎn)技術(shù)和主要應(yīng)用方向進(jìn)行介紹。但上述文獻(xiàn)均未提及農(nóng)業(yè)數(shù)據(jù)源。
2019年以來,出現(xiàn)數(shù)篇文獻(xiàn)對(duì)農(nóng)業(yè)數(shù)據(jù)庫和農(nóng)業(yè)大數(shù)據(jù)源進(jìn)行研究。趙瑞雪等( 2019)對(duì)國內(nèi)外農(nóng)業(yè)生產(chǎn)活動(dòng)中長期積累的海量數(shù)據(jù)進(jìn)行梳理,從數(shù)據(jù)源來看,主要有12個(gè)國外數(shù)據(jù)源和30個(gè)國內(nèi)數(shù)據(jù)源(包括6個(gè)地方政府開放數(shù)據(jù)源),從內(nèi)容來看可以分為:自然環(huán)境與自然資源數(shù)據(jù)——?dú)庀髷?shù)據(jù)、資源數(shù)據(jù)、自然災(zāi)害數(shù)據(jù)等,農(nóng)業(yè)生產(chǎn)數(shù)據(jù)——農(nóng)林牧漁生產(chǎn)環(huán)境數(shù)據(jù)、飼料數(shù)據(jù)、宏觀農(nóng)業(yè)經(jīng)濟(jì)數(shù)據(jù)等,生命科學(xué)和物種數(shù)據(jù)——生物物種數(shù)據(jù)、基因數(shù)據(jù)、微生物與病毒數(shù)據(jù)等;姜侯等(2019)總結(jié)了農(nóng)業(yè)大數(shù)據(jù)的獲取途徑,包括農(nóng)業(yè)物聯(lián)網(wǎng)數(shù)據(jù)、農(nóng)業(yè)遙感和無人機(jī)數(shù)據(jù)、農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù)、科研及農(nóng)戶生產(chǎn)經(jīng)驗(yàn)數(shù)據(jù)等;許哲平等(2019)對(duì)國內(nèi)外同農(nóng)業(yè)生物多樣性相關(guān)的大數(shù)據(jù)平臺(tái)進(jìn)行梳理,并將其分為基礎(chǔ)數(shù)據(jù)平臺(tái)、作物數(shù)據(jù)平臺(tái)、家畜數(shù)據(jù)平臺(tái)、林業(yè)數(shù)據(jù)平臺(tái)、漁業(yè)數(shù)據(jù)平臺(tái)等類型。這些文獻(xiàn)的出現(xiàn),說明學(xué)術(shù)界對(duì)農(nóng)業(yè)大數(shù)據(jù)源的關(guān)注度正在提高,但這些文獻(xiàn)缺乏對(duì)農(nóng)民和農(nóng)村方面大數(shù)據(jù)源的研究。當(dāng)前,尚未有文獻(xiàn)對(duì)鄉(xiāng)村大數(shù)據(jù)源進(jìn)行系統(tǒng)性總結(jié),而這一工作是進(jìn)行鄉(xiāng)村大數(shù)據(jù)實(shí)踐的前提,有必要按照一定邏輯結(jié)構(gòu)和篩選條件對(duì)現(xiàn)有鄉(xiāng)村大數(shù)據(jù)源進(jìn)行研究。
三、鄉(xiāng)村大數(shù)據(jù)定義及數(shù)據(jù)篩選原則
大數(shù)據(jù)是一個(gè)囊括了海量數(shù)據(jù)基礎(chǔ)、快速數(shù)據(jù)分析技術(shù)、專業(yè)數(shù)據(jù)處理軟件等在內(nèi)的綜合生態(tài)系統(tǒng),是利用數(shù)據(jù)整合和分析技術(shù)對(duì)復(fù)雜多樣的數(shù)據(jù)進(jìn)行專業(yè)化處理,最終獲取有價(jià)值信息的能力。鄉(xiāng)村大數(shù)據(jù)是大數(shù)據(jù)在鄉(xiāng)村領(lǐng)域的應(yīng)用和實(shí)踐,它是指以大數(shù)據(jù)技術(shù)為手段,運(yùn)用大數(shù)據(jù)理念、模型和方法來搜集、挖掘和分析鄉(xiāng)村領(lǐng)域的海量數(shù)據(jù),從中獲取有用信息,從而為相關(guān)主體進(jìn)行決策和開展生產(chǎn)經(jīng)營活動(dòng)提供數(shù)據(jù)支撐的過程。鄉(xiāng)村大數(shù)據(jù)是從數(shù)據(jù)收集到數(shù)據(jù)分析,再到數(shù)據(jù)應(yīng)用的全流程,本文重點(diǎn)研究鄉(xiāng)村大數(shù)據(jù)的第一步——鄉(xiāng)村大數(shù)據(jù)源,涉及三農(nóng)數(shù)據(jù)的各個(gè)方面,既包括農(nóng)村經(jīng)濟(jì)發(fā)展方面的數(shù)據(jù),也包括農(nóng)村基層管理和基礎(chǔ)設(shè)施建設(shè)方面的數(shù)據(jù);既包括農(nóng)民人口結(jié)構(gòu)和受教育情況等方面的數(shù)據(jù),也包括農(nóng)民生活環(huán)境和生活條件等方面的數(shù)據(jù)。
鄉(xiāng)村大數(shù)據(jù)的數(shù)據(jù)來源主體多,數(shù)據(jù)類型復(fù)雜多樣,本文將根據(jù)按照數(shù)據(jù)質(zhì)量高、數(shù)據(jù)持續(xù)性強(qiáng)、數(shù)據(jù)可得性強(qiáng)、數(shù)據(jù)可解釋性強(qiáng)等原則對(duì)鄉(xiāng)村大數(shù)據(jù)源進(jìn)行篩選。一是數(shù)據(jù)來源可靠,本文將重點(diǎn)梳理政府部門公開數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù),不梳理從互聯(lián)網(wǎng)網(wǎng)頁爬取的數(shù)據(jù)等可信度較差的數(shù)據(jù);數(shù)據(jù)缺失值少,數(shù)據(jù)集較為完整。二是數(shù)據(jù)能夠在保持結(jié)構(gòu)相對(duì)穩(wěn)定的同時(shí),按照一定頻率持續(xù)進(jìn)行更新,從而滿足使用者的長期使用需求。三是盡量采用公開數(shù)據(jù),不采用調(diào)研數(shù)據(jù)或需要通過私人渠道才能獲取的數(shù)據(jù);盡量以較低成本獲取數(shù)據(jù),無需通過購買便可獲取或獲取成本較低。四是對(duì)鄉(xiāng)村大數(shù)據(jù)源進(jìn)行梳理最終是要服務(wù)于鄉(xiāng)村發(fā)展,獲取的數(shù)據(jù)必須具有實(shí)際含義,必須同鄉(xiāng)村某方面具有較強(qiáng)相關(guān)性,能夠?qū)ο嚓P(guān)變化進(jìn)行解釋,從而保證數(shù)據(jù)具有較高的使用價(jià)值。
四、鄉(xiāng)村大數(shù)據(jù)源系統(tǒng)的構(gòu)建
本文將構(gòu)建多立體化、多層次、多維度的鄉(xiāng)村大數(shù)據(jù)源系統(tǒng),通過鄉(xiāng)村的行政區(qū)域、地理位置和自然條件,利用宏觀數(shù)據(jù)與微觀數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)等,對(duì)省、市、縣、鄉(xiāng)不同行政區(qū)劃的鄉(xiāng)村發(fā)展情況進(jìn)行描述。
(一)鄉(xiāng)村行政區(qū)域、地理位置、自然條件數(shù)據(jù)
行政區(qū)劃為鄉(xiāng)村大數(shù)據(jù)源系統(tǒng)提供了基本框架和結(jié)構(gòu),地理位置決定了鄉(xiāng)村之間的空間關(guān)系,自然條件是鄉(xiāng)村發(fā)展的客觀要素,這三項(xiàng)為鄉(xiāng)村方面的研究提供了最為基礎(chǔ)的信息。國家統(tǒng)計(jì)局網(wǎng)站的統(tǒng)計(jì)用區(qū)劃代碼提供了?。ɑ蛑陛犑小⒆灾螀^(qū))、市(或區(qū)、州)、縣(或市轄區(qū)、縣級(jí)市)、鄉(xiāng)(或鎮(zhèn)、街道)、村委會(huì)(或居委員會(huì))的行政區(qū)劃名稱及其代碼信息,利用該信息可以找到每個(gè)行政村的上級(jí)歸屬。
對(duì)于地理位置信息,可以使用百度地圖、高德地圖等公開的地圖軟件進(jìn)行搜索和定位,利用該信息可以確定行政村在全國、全省、全市、全縣、全鄉(xiāng)的絕對(duì)位置以及同其他行政村的相對(duì)位置,還可以確定行政村是否處于省份邊界或國家邊界、是否位于自貿(mào)區(qū)或開發(fā)區(qū)內(nèi)部等等。
自然條件主要包括自然環(huán)境和自然資源等。國家氣象信息中心的中國氣象數(shù)據(jù)網(wǎng)(http://www.nmic.cn/)在農(nóng)氣資料板塊,提供了分省份的農(nóng)作物生長發(fā)育和農(nóng)田土壤濕度旬值數(shù)據(jù)集、農(nóng)作物產(chǎn)量資料旬值數(shù)據(jù)集和農(nóng)業(yè)氣象災(zāi)情旬值數(shù)據(jù)集等3個(gè)數(shù)據(jù)集。此外,網(wǎng)站還提供了地面資料、高空資料、海洋資料、輻射資料、雷達(dá)資料、氣象災(zāi)害等方面的數(shù)據(jù)集,以及實(shí)時(shí)的氣象動(dòng)態(tài)信息。生態(tài)環(huán)境部網(wǎng)站(http://www.mee.gov.cn/)提供了環(huán)境質(zhì)量、污染防治和生態(tài)保護(hù)方面的數(shù)據(jù),其中,秸稈焚燒監(jiān)測(cè)報(bào)告同農(nóng)業(yè)最為相關(guān)。中國科學(xué)院地理科學(xué)與資源研究所的自然資源數(shù)據(jù)平臺(tái)(http://www.data.ac.cn/)是資源大數(shù)據(jù)平臺(tái),其中,自然資源及其開發(fā)利用板塊提供了關(guān)于水資源、土地資源、氣候資源、能源資源、旅游資源、森林資源、漁業(yè)資源、草場資源等229個(gè)數(shù)據(jù)集,生態(tài)環(huán)境數(shù)據(jù)板塊提供了關(guān)于土壤植被和環(huán)境監(jiān)測(cè)等16個(gè)數(shù)據(jù)集。
(二)統(tǒng)計(jì)年鑒數(shù)據(jù)
統(tǒng)計(jì)年鑒是進(jìn)行“三農(nóng)”問題研究中最為常用的數(shù)據(jù)源,數(shù)據(jù)具有權(quán)威性、總體性和滯后性等特點(diǎn)。根據(jù)年鑒的層次和內(nèi)容,可以分別對(duì)年鑒進(jìn)行分類:從年鑒發(fā)布主體來看,可以分為省級(jí)層面和市級(jí)層面?!吨袊r(nóng)村統(tǒng)計(jì)年鑒》《中國農(nóng)業(yè)年鑒》《中國教育統(tǒng)計(jì)年鑒》等國家級(jí)年鑒中,包含的是全國層面和省級(jí)層面數(shù)據(jù);市級(jí)層面的數(shù)據(jù)來源于各省發(fā)布的統(tǒng)計(jì)年鑒、調(diào)查年鑒、經(jīng)濟(jì)年鑒等。如四川省每年都會(huì)編制《四川統(tǒng)計(jì)年鑒》,其中有四川省及其下屬市(州)的農(nóng)業(yè)數(shù)據(jù)。從數(shù)據(jù)內(nèi)容來看,可以分為鄉(xiāng)村數(shù)據(jù)和農(nóng)業(yè)數(shù)據(jù)。鄉(xiāng)村數(shù)據(jù)的主要來源是《中國農(nóng)村統(tǒng)計(jì)年鑒》,其中包含了大量與農(nóng)業(yè)、農(nóng)村和農(nóng)民相關(guān)的數(shù)據(jù)。此外,《中國民政統(tǒng)計(jì)年鑒》《中國人口和就業(yè)統(tǒng)計(jì)年鑒》等也包含部分涉農(nóng)數(shù)據(jù),需要單獨(dú)進(jìn)行提取;農(nóng)業(yè)數(shù)據(jù)的年鑒數(shù)據(jù)源廣泛,《中國農(nóng)業(yè)年鑒》《中國農(nóng)村統(tǒng)計(jì)資料》《中國農(nóng)墾統(tǒng)計(jì)年鑒》等包含了大量農(nóng)業(yè)生產(chǎn)、農(nóng)田水利、農(nóng)產(chǎn)品數(shù)據(jù)。
(三)農(nóng)業(yè)普查資料數(shù)據(jù)
1996年、2006年和2016年,我國共進(jìn)行了三次全國農(nóng)業(yè)普查。農(nóng)業(yè)普查數(shù)據(jù)數(shù)據(jù)具有數(shù)據(jù)全、維度多、頻率低等特點(diǎn)。目前,農(nóng)業(yè)普查數(shù)據(jù)主要有三個(gè)來源:一是各省份政府網(wǎng)站公布的全國農(nóng)業(yè)普查主要數(shù)據(jù)公報(bào)。由于第一次全國農(nóng)業(yè)普查時(shí)間較早,各省份的政府網(wǎng)站尚未建設(shè),因此,政府網(wǎng)站目前只提供了第二次和第三次全國農(nóng)業(yè)普查的主要數(shù)據(jù)公報(bào)。以第三次全國農(nóng)業(yè)普查為例,公報(bào)一般包括農(nóng)業(yè)農(nóng)村農(nóng)民基本情況、農(nóng)業(yè)經(jīng)營主體、農(nóng)業(yè)機(jī)械和設(shè)備、農(nóng)村基礎(chǔ)設(shè)施建設(shè)和基本社會(huì)服務(wù)、農(nóng)民生活條件、農(nóng)業(yè)生產(chǎn)經(jīng)營人員情況五個(gè)部分,少數(shù)地區(qū)會(huì)對(duì)內(nèi)容進(jìn)行補(bǔ)充和調(diào)整,但各省份的結(jié)構(gòu)基本一致。該數(shù)據(jù)源的優(yōu)點(diǎn)是能夠?qū)Ω魇》萼l(xiāng)村發(fā)展數(shù)據(jù)有準(zhǔn)確全面了解,缺點(diǎn)是數(shù)據(jù)需要進(jìn)行提取和整理。二是《全國農(nóng)業(yè)普查綜合資料》。每次普查結(jié)束后,國家統(tǒng)計(jì)局都會(huì)將數(shù)據(jù)編撰匯總為綜合資料書籍出版,并提供Excel格式的數(shù)據(jù)。從第一次普查到第三次普查,數(shù)據(jù)愈加詳細(xì)、層次愈加豐富,以第三次全國農(nóng)業(yè)普查綜合資料為例,分為普查對(duì)象基本情況、農(nóng)業(yè)生產(chǎn)條件和生產(chǎn)狀況、農(nóng)村基礎(chǔ)設(shè)施建設(shè)和基本社會(huì)服務(wù)、農(nóng)民生活質(zhì)量四部分,共199張表。相比主要數(shù)據(jù)公報(bào),綜合資料的數(shù)據(jù)使用更加方便,包含的內(nèi)容也更全面。三是國家統(tǒng)計(jì)局第三次全國農(nóng)業(yè)普查微觀數(shù)據(jù)庫。該數(shù)據(jù)庫中的數(shù)據(jù)來自從第三次農(nóng)業(yè)普查中抽取的部分樣本記錄,包括2萬個(gè)農(nóng)業(yè)經(jīng)營單位的4206萬筆普查數(shù)據(jù)、4萬戶規(guī)模農(nóng)業(yè)經(jīng)營戶的3.2億筆普查數(shù)據(jù)、23萬戶農(nóng)戶的9.6億筆普查數(shù)據(jù)、6萬條村級(jí)單位數(shù)據(jù)和4千條鄉(xiāng)級(jí)單位數(shù)據(jù)。前兩個(gè)數(shù)據(jù)源都是省份層面的數(shù)據(jù),該數(shù)據(jù)源則提供了微觀數(shù)據(jù),但缺點(diǎn)是需要經(jīng)過申請(qǐng)才能獲取數(shù)據(jù)。
(四)政府部門公開數(shù)據(jù)
當(dāng)前,中央政府部門的數(shù)據(jù)開放主要以各部門網(wǎng)站提供的數(shù)據(jù)資源為主。以民政部為例,數(shù)據(jù)資源包含統(tǒng)計(jì)公報(bào)、統(tǒng)計(jì)季報(bào)和統(tǒng)計(jì)月報(bào)。其中,統(tǒng)計(jì)公報(bào)每年提供一次,為文字和圖表形式;統(tǒng)計(jì)季報(bào)分為全國數(shù)據(jù)、省級(jí)數(shù)據(jù)、低保標(biāo)準(zhǔn)和機(jī)構(gòu)情況四部分,為表格形式;統(tǒng)計(jì)月報(bào)分為全國數(shù)據(jù)和省級(jí)數(shù)據(jù),為表格形式。這些資料提供了關(guān)于農(nóng)村最低生活保障人數(shù)、最低生活保障標(biāo)準(zhǔn)等數(shù)據(jù),但需要進(jìn)行整理和提取。 地方政府正著力搭建公共數(shù)據(jù)平臺(tái)來開放數(shù)據(jù)資源,這些平臺(tái)是真正的大數(shù)據(jù)平臺(tái)。據(jù)復(fù)旦大學(xué)發(fā)布的《2019中國開放數(shù)林指數(shù)》研究報(bào)告統(tǒng)計(jì),截至2019年10月末,我國地方政府?dāng)?shù)據(jù)開放平臺(tái)數(shù)量為102個(gè),其中,北京、上海、山東、廣東、浙江、貴州等多個(gè)地區(qū)都已搭建較為完善的平臺(tái)。這些平臺(tái)整合了大部分省級(jí)行政部門的數(shù)據(jù),數(shù)據(jù)規(guī)模大,如山東、福建、廣東等地網(wǎng)站開放數(shù)據(jù)量已經(jīng)過億,使用者不僅可以直接下載數(shù)據(jù),還可以通過開放API(應(yīng)用程序接口)訪問網(wǎng)站。同時(shí),這些平臺(tái)的數(shù)據(jù)資源內(nèi)容極其豐富,包含交通、金融、農(nóng)業(yè)、資源、環(huán)境等多個(gè)領(lǐng)域,為研究區(qū)域發(fā)展提供了大量可用信息。從層級(jí)上看,除省級(jí)政府外,部分市級(jí)政府甚至縣級(jí)政府也在開放數(shù)據(jù)資源。以貴州省為例,貴州省政府開發(fā)了省級(jí)政府?dāng)?shù)據(jù)開放平臺(tái),貴陽、遵義、銅仁、黔西南州等9個(gè)市州開發(fā)了市級(jí)政府?dāng)?shù)據(jù)開放平臺(tái),其中貴陽市政府?dāng)?shù)據(jù)開放平臺(tái)還提供了下屬13個(gè)區(qū)縣的數(shù)據(jù)。在這些數(shù)據(jù)平臺(tái)上可以找到大量三農(nóng)信息,既包括產(chǎn)量、面積等傳統(tǒng)數(shù)據(jù),也包括行政許可、產(chǎn)品質(zhì)量檢查結(jié)果、產(chǎn)品質(zhì)量認(rèn)證等非傳統(tǒng)數(shù)據(jù)- 2019年4月,國務(wù)院發(fā)布新修訂的《政府信息公開條例》,首次明確政府部門要公開農(nóng)田水利工程建設(shè)運(yùn)營、農(nóng)村土地承包經(jīng)營流轉(zhuǎn)、宅基地使用情況審核、土地征收等方面的政府信息。未來,隨著政府信息公開范圍的擴(kuò)大,農(nóng)村農(nóng)業(yè)方面的數(shù)據(jù)源將更加豐富。
除上述數(shù)據(jù)源外,部分地區(qū)政府還開發(fā)了鄉(xiāng)村大數(shù)據(jù)平臺(tái)。云南省的數(shù)字鄉(xiāng)村數(shù)據(jù)統(tǒng)計(jì)查詢系統(tǒng) (http://www.ynszxc.net/tj/tj_s.aspx)是目前國內(nèi)最完善的村級(jí)微觀數(shù)據(jù)開放平臺(tái),平臺(tái)提供了2006年到2018年云南省所有行政村的村情概況、自然資源、基礎(chǔ)設(shè)施、農(nóng)村經(jīng)濟(jì)、特色產(chǎn)業(yè)、人口衛(wèi)生、文化教育、村務(wù)公開和基層組織等9個(gè)方面數(shù)據(jù),數(shù)據(jù)資源十分豐富。貴州省政府開發(fā)的萬村千鄉(xiāng)網(wǎng)站( http://www.gzd-JW.com/wcqx/)提供了每個(gè)行政村的村情村況等介紹類信息,但尚未提供數(shù)據(jù)類信息。
(五)政策稱號(hào)數(shù)據(jù)
傳統(tǒng)的“三農(nóng)”數(shù)據(jù)以定量數(shù)據(jù)為主,但除定量數(shù)據(jù)外,定性數(shù)據(jù)在描述鄉(xiāng)村發(fā)展情況上也可發(fā)揮巨大作用,充分挖掘定性信息,將其轉(zhuǎn)化為定量數(shù)據(jù),對(duì)于刻畫鄉(xiāng)情鄉(xiāng)貌具有重要意義。在同鄉(xiāng)村相關(guān)的定性信息中,政策稱號(hào)類信息最為關(guān)鍵,其主要來源是農(nóng)業(yè)農(nóng)村部、生態(tài)環(huán)境部、住建部、科技部、財(cái)政部等部門網(wǎng)站,利用關(guān)鍵詞“稱號(hào)”“名單”等進(jìn)行搜索,可獲得眾多關(guān)于鄉(xiāng)村的政策稱號(hào)。筆者使用爬蟲系統(tǒng)來爬取相關(guān)信息,目前共獲得74個(gè)政策稱號(hào),如農(nóng)業(yè)高新技術(shù)產(chǎn)業(yè)示范區(qū)、特色農(nóng)產(chǎn)品優(yōu)勢(shì)區(qū)、全國鄉(xiāng)村旅游重點(diǎn)村、中國美麗休閑鄉(xiāng)村等。這些稱號(hào)包含了大量信息,從評(píng)選過程來看,只有滿足一定標(biāo)準(zhǔn)的村、地區(qū)或企業(yè)才能獲得稱號(hào),說明獲得政策稱號(hào)的村在某些方面的發(fā)展較好;從評(píng)選結(jié)果來看,獲得政策稱號(hào)的村往往可以獲得更多的財(cái)政支持,發(fā)展?jié)摿Ω蟆?/p>
政策稱號(hào)可以分為靜態(tài)和動(dòng)態(tài)兩類:對(duì)于靜態(tài)稱號(hào)而言,新批次名單和舊批次名單共同構(gòu)成完整的信息庫;對(duì)于動(dòng)態(tài)稱號(hào)而言,新批次名單會(huì)覆蓋掉舊批次名單。除國家級(jí)政策稱號(hào)外,省級(jí)政府部門也會(huì)公布本省的政策稱號(hào),這些信息需要到各地的農(nóng)業(yè)農(nóng)村廳(局)、財(cái)政廳(局)等網(wǎng)站查詢。在實(shí)際應(yīng)用中,可以對(duì)政策稱號(hào)進(jìn)行量化,如以獲得美麗休閑鄉(xiāng)村稱號(hào)鄉(xiāng)村數(shù)量占全省鄉(xiāng)村數(shù)量的比重來衡量該省美麗鄉(xiāng)村的發(fā)展情況。
(六)農(nóng)業(yè)企業(yè)數(shù)據(jù)
當(dāng)前,研究農(nóng)業(yè)農(nóng)村問題的文獻(xiàn)對(duì)于農(nóng)業(yè)企業(yè)、鄉(xiāng)鎮(zhèn)企業(yè)數(shù)據(jù)的關(guān)注較少。農(nóng)業(yè)企業(yè)是一二三產(chǎn)業(yè)融合的典型模式,發(fā)展農(nóng)業(yè)企業(yè)有助于提高農(nóng)村就業(yè)率,轉(zhuǎn)變鄉(xiāng)村發(fā)展方式。農(nóng)業(yè)企業(yè)數(shù)據(jù)源主要有兩個(gè):一是國家企業(yè)信用信息公示系統(tǒng)(http://www.gsxt.gov.cn),該系統(tǒng)是國家市場監(jiān)督管理總局搭建的企業(yè)信息查詢平臺(tái)??梢酝ㄟ^輸入“農(nóng)業(yè)”“農(nóng)產(chǎn)品”“農(nóng)村”等關(guān)鍵詞進(jìn)行查詢,對(duì)于每一條查詢結(jié)果,平臺(tái)都提供了其基礎(chǔ)信息(如注冊(cè)地、成立時(shí)間、主營業(yè)務(wù)等)、行政許可信息、行政處罰信息、列入經(jīng)營異常名錄信息和列入嚴(yán)重違法失信企業(yè)名單(黑名單)信息。二是Wind數(shù)據(jù)庫、國泰安數(shù)據(jù)庫等經(jīng)濟(jì)數(shù)據(jù)庫,可以獲取上市的農(nóng)業(yè)公司數(shù)據(jù),包括公司的基本資料、財(cái)務(wù)信息等。
(七)農(nóng)業(yè)專利數(shù)據(jù)
農(nóng)業(yè)專利的數(shù)量和質(zhì)量可以很好地衡量地區(qū)農(nóng)業(yè)科技發(fā)展水平。國家知識(shí)產(chǎn)權(quán)局專利檢索系統(tǒng)收錄了1985年以來我國所有公開的專利信息,包括專利號(hào)、名稱、申請(qǐng)日、地址等信息。系統(tǒng)提供了單一和復(fù)合兩種檢索方式,在檢索區(qū)可按照“農(nóng)”“農(nóng)業(yè)”“農(nóng)村”“養(yǎng)殖”“種植”等關(guān)鍵字和關(guān)鍵詞進(jìn)行查找,得到相關(guān)專利的具體信息,該系統(tǒng)提供了專利的免費(fèi)下載服務(wù)。
2010年開始,中國農(nóng)業(yè)科學(xué)院知識(shí)產(chǎn)權(quán)研究中心每年都會(huì)發(fā)布《中國農(nóng)業(yè)知識(shí)產(chǎn)權(quán)創(chuàng)造指數(shù)報(bào)告》,報(bào)告使用的專利數(shù)據(jù)來自于國家知識(shí)產(chǎn)權(quán)局專利數(shù)據(jù)庫,報(bào)告提供了全國農(nóng)業(yè)知識(shí)產(chǎn)權(quán)創(chuàng)造指數(shù)、區(qū)域和單位農(nóng)業(yè)知識(shí)產(chǎn)權(quán)創(chuàng)造指數(shù)、農(nóng)業(yè)知識(shí)產(chǎn)權(quán)密集度指數(shù)等指數(shù)成果和大量農(nóng)業(yè)科技統(tǒng)計(jì)數(shù)據(jù)。
(八)農(nóng)村電子商務(wù)數(shù)據(jù)
2013年,阿里巴巴集團(tuán)舉辦首屆中國淘寶村高峰論壇,公布了19個(gè)淘寶村的名單。此后,每年的高峰論壇都會(huì)發(fā)布《中國淘寶村研究報(bào)告》,到2019年,我國淘寶村數(shù)量超過4300個(gè)。淘寶村的電子商務(wù)發(fā)展水平、物流水平都比普通村莊高。同時(shí),淘寶村的發(fā)展模式也為農(nóng)業(yè)和服務(wù)業(yè)融合提供了一條可行的道路,為農(nóng)村創(chuàng)業(yè)創(chuàng)收提供了更多機(jī)會(huì)。通過研究淘寶村的地域分布,可以獲得不同地區(qū)農(nóng)村電子商務(wù)發(fā)展情況等相關(guān)信息。
Wind數(shù)據(jù)庫的“電商大數(shù)據(jù)”子庫每日采集各家上市公司在天貓、京東等線上電商平臺(tái)開設(shè)的旗艦店、直營店的銷售數(shù)據(jù),數(shù)據(jù)覆蓋193家A股公司、21家港股上市公司、17家全球上市公司及其下屬875個(gè)品牌的線上銷售數(shù)據(jù)。利用該數(shù)據(jù)庫,通過關(guān)鍵詞查詢,可以獲得農(nóng)產(chǎn)品銷售數(shù)據(jù)、上市農(nóng)業(yè)企業(yè)銷售數(shù)據(jù)等信息。
參考文獻(xiàn)
[1]孫忠富,褚金翔,馬浚誠,杜克明,鄭飛翔.大數(shù)據(jù)服務(wù)三農(nóng)的初步分析與探索[J].大數(shù)據(jù),2017,3(03):33-43.
[2]李曉園,鐘偉.大數(shù)據(jù)驅(qū)動(dòng)中國農(nóng)村精準(zhǔn)脫貧的現(xiàn)實(shí)困境與路徑選擇[J].求實(shí),2019(05):78-87+111.
[3]王巧玲.大數(shù)據(jù)背景下我國農(nóng)村經(jīng)濟(jì)與旅游業(yè)結(jié)合發(fā)展探析[J]農(nóng)業(yè)經(jīng)濟(jì),2019(07):39-40.
[4]周國民.我國農(nóng)業(yè)大數(shù)據(jù)應(yīng)用進(jìn)展綜述[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2019,1(01):16-23.
[5]崔磊.農(nóng)業(yè)大數(shù)據(jù)建設(shè)的需求、模式與單品種全產(chǎn)業(yè)鏈推進(jìn)路徑卟大數(shù)據(jù).2019,5(05):100-108.
[6]李娟,王洪乾.鄉(xiāng)村振興背景下大數(shù)據(jù)農(nóng)業(yè)的實(shí)踐經(jīng)驗(yàn)及政策設(shè)計(jì)U]上海大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019,36(03):96-106.
[7]康春鵬,董春巖,王文月,藺彩霞.我國農(nóng)業(yè)農(nóng)村大數(shù)據(jù)發(fā)展應(yīng)用研究[J].中國農(nóng)業(yè)信息,2018,30(06):100-104.
[8]王麗娟,信麗媛,賈寶紅,原少輝.農(nóng)業(yè)大數(shù)據(jù)平臺(tái)的研究進(jìn)展與應(yīng)用現(xiàn)狀卟天津農(nóng)業(yè)科學(xué),2018,24(10):10-12+21.
[9]朱亮,鐘艷雯,賀煒,羅林艷,歐陽計(jì)躍.基于分布式的農(nóng)業(yè)氣象大數(shù)據(jù)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].湖北農(nóng)業(yè)科學(xué),2019,58(06):128-130.
[10]孟祥寶,謝秋波,劉海峰,楊小英.農(nóng)業(yè)大數(shù)據(jù)應(yīng)用體系架構(gòu)和平臺(tái)建設(shè)卟廣東農(nóng)業(yè)科學(xué),2014,41(14):173-178.
[11]趙瑞雪,趙華,朱亮.國內(nèi)外農(nóng)業(yè)科學(xué)大數(shù)據(jù)建設(shè)與共享進(jìn)展卟農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2019,1(01):24-37.
[12]姜侯,楊雅萍,孫九林.農(nóng)業(yè)大數(shù)據(jù)研究與應(yīng)用U].農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2019,1(01):5-15.
[13]許哲平,邵曾婷,朱學(xué)軍,王昉,王媛媛,肖曼,馬克平.農(nóng)業(yè)生物多樣性大數(shù)據(jù)平臺(tái)建設(shè)研究和展望[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2019,1(02):76-87.
Research on the Types of Rural Big Data Sources
Liu Jin , Zhang Zhong
Ahstract: with the development of big data technology and the promotion of digital rural policy, the rural hig datasources will he more ahundant. In this paper, data quality, data continuity, data availahility and data explainahility arerequired, and eight types of rural data sources are selected, including data sources of rural physical geographical condi-tions. data sources of statistical yearbook. data sources of agricultural census, open data sources of govemment depart-ments. data sources of policy titles, data sources of agricultural enterprises, data sources of agricultural patents and datasources of rural e-commerce, mining non-traditional data sources with stronger timeliness and more dimensions on thebasis of traditional data sources. these sources provides more data support for the research on the rural issues and thedevelopment of big data in rural areas.
(作者單位 :國務(wù)院發(fā)展研究中心信息網(wǎng) .中國人經(jīng)濟(jì)學(xué)院 )
責(zé)任編輯 :欣文