吳重言++吳成偉++熊燕玲++陶佩瑩
摘要 近年來,農(nóng)業(yè)數(shù)據(jù)的類型和數(shù)量劇烈增長(zhǎng),給農(nóng)業(yè)大數(shù)據(jù)的獲取、集成、存儲(chǔ)與處理帶來了巨大挑戰(zhàn)。云計(jì)算、大數(shù)據(jù)等重要技術(shù)為農(nóng)業(yè)提供了解決方法。本文從大數(shù)據(jù)引出農(nóng)業(yè)大數(shù)據(jù)的概念與發(fā)展現(xiàn)狀,介紹了農(nóng)業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù),包括采集、集成、存儲(chǔ)與處理技術(shù),詳細(xì)分析了云計(jì)算技術(shù)、MapReduce、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫,并對(duì)農(nóng)業(yè)大數(shù)據(jù)面臨的挑戰(zhàn)與解決方案提出了思考。
關(guān)鍵詞 農(nóng)業(yè)大數(shù)據(jù);云計(jì)算;物聯(lián)網(wǎng);關(guān)鍵技術(shù)
中圖分類號(hào) S126 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1007-5739(2017)17-0290-03
Abstract In recent years,the type and quantity of agricultural data has grown dramatically,which brings great challenge to the agricultural data acquisition,integration,storage and processing.Cloud computing,big data and other important technologies provide a solution to agriculture.This paper drew on the concept and development of agricultural big data from big data,and introduced the key technologies of agricultural big data,including the technology of collection,integration,storage and processing,and analyzed the detail of the cloud computing technology,MapReduce,distributed file system,distributed database. Finally,challenges and solutions to the agricultural big data were put forward.
Key words agricultural big data;cloud computing;Internet of things;key technology
1 大數(shù)據(jù)及農(nóng)業(yè)大數(shù)據(jù)概述
1.1 概念和基本特征
目前,對(duì)于大數(shù)據(jù)的定義還沒有明確的規(guī)定。Gartner公司認(rèn)為大數(shù)據(jù)是需要高效和創(chuàng)新的信息處理方式以增強(qiáng)洞察力和決策能力來適應(yīng)大量,高速和多樣化的信息資產(chǎn)[1]。麥肯錫全球研究所提出,大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件工具捕獲、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集[2]。最初大數(shù)據(jù)有三大特征,分別是規(guī)模化(volume)、多樣性(va-riety)和高速率(velocity)。隨著對(duì)大數(shù)據(jù)了解的不斷深入,國(guó)際數(shù)據(jù)公司IDC認(rèn)為其第四特征為有價(jià)值(value),IBM提出第四特征為真實(shí)性(veriety),也有學(xué)者認(rèn)為第四特征為活力(vitality)。農(nóng)業(yè)大數(shù)據(jù),就是利用大數(shù)據(jù)的理念、技術(shù)和方法,解決農(nóng)業(yè)或涉農(nóng)領(lǐng)域數(shù)據(jù)的采集、存儲(chǔ)、計(jì)算與應(yīng)用等一系列問題,是大數(shù)據(jù)的理論和技術(shù)在農(nóng)業(yè)上的應(yīng)用與實(shí)踐[3]。農(nóng)業(yè)大數(shù)據(jù)除了具備大數(shù)據(jù)的三大特征以外還具備以下特征:農(nóng)業(yè)大數(shù)據(jù)無所不在(泛在性);農(nóng)業(yè)大數(shù)據(jù)規(guī)律性變化(周期性);農(nóng)業(yè)大數(shù)據(jù)地域性變化(地域性);農(nóng)業(yè)大數(shù)據(jù)反映社會(huì)狀態(tài)變化(社會(huì)性);農(nóng)業(yè)大數(shù)據(jù)影響交叉(交叉性);農(nóng)業(yè)大數(shù)據(jù)在不同時(shí)間差異大(多變性);農(nóng)業(yè)大數(shù)據(jù)間相互聯(lián)系,相互作用(綜合性);農(nóng)業(yè)大數(shù)據(jù)組織分散(分散性)。
1.2 研究進(jìn)展
《Nature》雜志[4]及《Science》雜志[5]先后出版大數(shù)據(jù)??砻鞔髷?shù)據(jù)的影響力增加以及為大數(shù)據(jù)的發(fā)展帶來了挑戰(zhàn)與機(jī)會(huì)。同時(shí),國(guó)內(nèi)發(fā)表大數(shù)據(jù)論文[6]、開展大數(shù)據(jù)會(huì)議、成立計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)、發(fā)布大數(shù)據(jù)白皮書,探討了大數(shù)據(jù)核心問題和重大意義。2009年土壤抽樣分析服務(wù)商Solum和2011年云端上的農(nóng)場(chǎng)Farmeron成立,表明大數(shù)據(jù)已經(jīng)應(yīng)用到農(nóng)業(yè)中,對(duì)于挖掘農(nóng)業(yè)價(jià)值,制定生產(chǎn)計(jì)劃和獲取利益最優(yōu)化具有重要意義。國(guó)內(nèi)謝潤(rùn)梅[7]、許世衛(wèi)[8]和黎玲萍[9]等人也發(fā)表農(nóng)業(yè)大數(shù)據(jù)方面的論文,分析了農(nóng)業(yè)大數(shù)據(jù)的機(jī)遇、應(yīng)用并設(shè)計(jì)了智能分析平臺(tái),但是對(duì)農(nóng)業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù)論述不夠完善。本文在此基礎(chǔ)上介紹了農(nóng)業(yè)大數(shù)據(jù)的獲取、集成、存儲(chǔ)與處理技術(shù),并分析了面臨挑戰(zhàn)與解決方案,有利于實(shí)現(xiàn)指導(dǎo)農(nóng)業(yè)實(shí)踐、制定生產(chǎn)計(jì)劃和實(shí)現(xiàn)利益最優(yōu)化。
2 農(nóng)業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù)
農(nóng)業(yè)大數(shù)據(jù)具有泛在性、多樣性、高速率、規(guī)?;忍卣?,傳統(tǒng)的數(shù)據(jù)獲取、集成、存儲(chǔ)與處理技術(shù)無法滿足農(nóng)業(yè)大數(shù)據(jù)的需求。農(nóng)業(yè)大數(shù)據(jù)的出現(xiàn)也必然伴隨著新的關(guān)鍵技術(shù)。
2.1 農(nóng)業(yè)大數(shù)據(jù)獲取
農(nóng)業(yè)大數(shù)據(jù)獲取指的是利用信息技術(shù)對(duì)農(nóng)業(yè)要素進(jìn)行數(shù)據(jù)采集、傳輸?shù)倪^程。農(nóng)業(yè)大數(shù)據(jù)主要包括農(nóng)業(yè)生產(chǎn)環(huán)境數(shù)據(jù)、農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù)、農(nóng)業(yè)市場(chǎng)數(shù)據(jù)和動(dòng)植物生命信息數(shù)據(jù)。針對(duì)不同的數(shù)據(jù)需要不同的采集技術(shù),農(nóng)業(yè)生產(chǎn)環(huán)境數(shù)據(jù),如土壤濕度和溫度、天氣溫度、風(fēng)速,主要依靠傳感器技術(shù)和光譜、核磁共振等先進(jìn)檢測(cè)技術(shù)獲?。晦r(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù),如網(wǎng)站、論壇上的最新資訊,主要采用爬蟲技術(shù)采集,有利于了解農(nóng)業(yè)大體方向;農(nóng)業(yè)市場(chǎng)經(jīng)濟(jì)技術(shù)獲取,如農(nóng)產(chǎn)品價(jià)格、農(nóng)產(chǎn)品流通,主要通過RFID識(shí)別技術(shù)與智能終端、APP等移動(dòng)采集技術(shù)獲??;動(dòng)植物生命信息智能感知,如檢測(cè)動(dòng)物體溫、植物氮元素含量,主要通過光譜技術(shù)、熱紅外線等技術(shù)獲取。
2.2 農(nóng)業(yè)大數(shù)據(jù)集成技術(shù)
農(nóng)業(yè)大數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),為了對(duì)農(nóng)業(yè)大數(shù)據(jù)進(jìn)行后續(xù)存儲(chǔ)與分析處理,由于農(nóng)業(yè)大數(shù)據(jù)的多樣性,人們將多種類型的復(fù)雜數(shù)據(jù)轉(zhuǎn)化為單一的、易于處理的數(shù)據(jù)。因?yàn)檗D(zhuǎn)化得到的數(shù)據(jù)可能不正確、無價(jià)值,甚至包含噪聲和干擾項(xiàng),所以最終需要對(duì)其進(jìn)行過濾。傳統(tǒng)的數(shù)據(jù)集成方法分為數(shù)據(jù)復(fù)制方法和模式映射方法。數(shù)據(jù)復(fù)制方法最常用的是數(shù)據(jù)倉(cāng)庫方法,模式映射方法主要包括聯(lián)邦數(shù)據(jù)庫、中間件集成方法和P2P數(shù)據(jù)集成方法。endprint
隨著農(nóng)業(yè)大數(shù)據(jù)越來越復(fù)雜,新的異構(gòu)數(shù)據(jù)集成技術(shù)涉包括有本體集成技術(shù)[10]、面向?qū)ο蠹夹g(shù)、XML[11]、分布式對(duì)象技術(shù)、網(wǎng)絡(luò)技術(shù)、基于CORBA的異構(gòu)數(shù)據(jù)集成技術(shù)、基于Web Service的異構(gòu)數(shù)據(jù)集成技術(shù)[12]。
2.3 農(nóng)業(yè)大數(shù)據(jù)存儲(chǔ)與處理技術(shù)
2.3.1 云計(jì)算技術(shù)。面對(duì)大數(shù)據(jù)的影響,傳統(tǒng)的數(shù)據(jù)處理平臺(tái)存在可擴(kuò)展性,容錯(cuò)性等方面的限制,無法滿足實(shí)際需求。Google于2006年開創(chuàng)了云計(jì)算的概念。云計(jì)算是分布式計(jì)算,互聯(lián)網(wǎng)技術(shù)和大規(guī)模資源管理技術(shù)的集成和開發(fā),云計(jì)算的提出在學(xué)術(shù)界和行業(yè)中引起了廣泛的關(guān)注。相關(guān)研究[13]給出了云計(jì)算更完整的定義,即云計(jì)算是一個(gè)由規(guī)模經(jīng)濟(jì)驅(qū)動(dòng)的大規(guī)模分布式模型,其計(jì)算資源是抽象的、虛擬的、動(dòng)態(tài)可擴(kuò)展的和可管理的,其計(jì)算資源、存儲(chǔ)、平臺(tái)和服務(wù)通過互聯(lián)網(wǎng)傳遞給外部客戶端。
云計(jì)算是大數(shù)據(jù)分析處理技術(shù)的核心原理,也是大數(shù)據(jù)分析應(yīng)用的基礎(chǔ)平臺(tái)。首先,云計(jì)算靈活,可以根據(jù)負(fù)載動(dòng)態(tài)分配資源,保持負(fù)載均衡。其次,云計(jì)算支持異構(gòu)網(wǎng)絡(luò)資源應(yīng)用,并利用資源池共享資源,以提高資源重用率,降低運(yùn)營(yíng)成本。最后,針對(duì)大數(shù)據(jù)的云計(jì)算服務(wù),強(qiáng)調(diào)可用性和容錯(cuò)性,不再僅僅追求準(zhǔn)確性和一致性。云計(jì)算是大數(shù)據(jù)處理的基礎(chǔ),也是大數(shù)據(jù)分析的支撐技術(shù)[14]。
2.3.2 MapReduce。MapReduce是一種分布式編程模型,它可以支持大型數(shù)據(jù)集的并行和分布式計(jì)算。該模型是在分布式計(jì)算系統(tǒng)上運(yùn)行的并行程序數(shù)據(jù)流的抽象,為用戶提供了2個(gè)功能,為Map和Reduce的接口。用戶通過覆蓋這2個(gè)功能來交互和操縱數(shù)據(jù)流。在MapReduce中,任務(wù)分為幾個(gè)相同大小的子任務(wù)。子節(jié)點(diǎn)執(zhí)行Map功能來處理這些子任務(wù),并生成鍵值對(duì)
MapReduce系統(tǒng)解決了傳統(tǒng)數(shù)據(jù)庫中可擴(kuò)展性這一最大的限制,適合大數(shù)據(jù)處理。但與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)相比,MapReduce系統(tǒng)的執(zhí)行性能和準(zhǔn)確性差距很大。MapReduce還有很大的改進(jìn)空間。
2.3.3 分布式文件系統(tǒng)。分布式文件系統(tǒng)是文件系統(tǒng)中的物理存儲(chǔ)資源,不一定直接連接在本地節(jié)點(diǎn),而是通過計(jì)算機(jī)網(wǎng)絡(luò)連接與節(jié)點(diǎn)相連。Google最早開發(fā)了Google文件系統(tǒng)(GFS)以處理種類復(fù)雜與數(shù)據(jù)量大的數(shù)據(jù)。GFS是基于分布式集群的大規(guī)模分布式文件系統(tǒng),為MapReduce提供了底層數(shù)據(jù)存儲(chǔ)。由于存儲(chǔ)數(shù)據(jù)的計(jì)算機(jī)便宜且不可靠,數(shù)據(jù)故障被認(rèn)為是正常的,所以GFS至少創(chuàng)建3個(gè)副本用于存儲(chǔ)數(shù)據(jù)。副本被分發(fā)到不同的計(jì)算節(jié)點(diǎn)以提高系統(tǒng)的可靠性。當(dāng)節(jié)點(diǎn)發(fā)生故障時(shí),系統(tǒng)將快速調(diào)用副本以提高處理效率。
GFS設(shè)計(jì)之初只有一個(gè)主服務(wù)器用于元數(shù)據(jù)存儲(chǔ),其他節(jié)點(diǎn)將數(shù)據(jù)存儲(chǔ)為塊服務(wù)器。主機(jī)管理文件系統(tǒng)命名空間和鎖定工具。主機(jī)定期與塊服務(wù)器通信,收集管理信息,向服務(wù)器發(fā)送命令,承擔(dān)負(fù)載均衡和故障修復(fù)工作。圖2顯示了GFS的具體配置。
GFS通過一個(gè)主服務(wù)器實(shí)現(xiàn)大數(shù)據(jù)分布式存儲(chǔ),簡(jiǎn)化了系統(tǒng)設(shè)計(jì),可能會(huì)發(fā)生單一服務(wù)器性能瓶頸?;谶@一點(diǎn),Google改進(jìn)了GFS,并提出了Colosuss[15],提出了單點(diǎn)故障問題的有效解決方案。
除了Google提出的GFS和Colosuss,還有Hadoop Distr-ibuted File System(HDFS)[16]、Taobao File System(TFS)、Gen-eral Parallel File System(GPFS)、Parallel File System(PFS)、Taobao File System (TFS)、NFS[17]等,這些分布式文件系統(tǒng)由不同的應(yīng)用需求催生而來,能夠按照不同的應(yīng)用需求提供不同的服務(wù)。
2.3.4 分布式數(shù)據(jù)庫。由于大數(shù)據(jù)時(shí)代下數(shù)據(jù)量大,數(shù)據(jù)種類多,設(shè)立理念的差異,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不再滿足數(shù)據(jù)存儲(chǔ)要求,為了解決這個(gè)問題,Google走在了時(shí)代的前列,提出了BigTable數(shù)據(jù)庫。
BigTable數(shù)據(jù)庫是一個(gè)基于GFS的分布式數(shù)據(jù)庫,用戶可以更方便、高效地訪問數(shù)據(jù)庫。BigTable使用NoSQL(Not Only SQL)模型有效地解決了傳統(tǒng)并行數(shù)據(jù)庫在可擴(kuò)展性方面的缺點(diǎn),并大大提高了數(shù)據(jù)庫系統(tǒng)的可用性和可擴(kuò)展性。在BigTable數(shù)據(jù)庫中,數(shù)據(jù)以多維表的形式存儲(chǔ)在子表服務(wù)器中,可以通過行名,列名和時(shí)間戳索引數(shù)據(jù),以便于用戶查詢。在數(shù)據(jù)庫中,數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)不受限制,因此適用于存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)。Chubby服務(wù)器隨時(shí)監(jiān)控每個(gè)子表服務(wù)器。當(dāng)Chubby發(fā)現(xiàn)子表的故障時(shí),會(huì)及時(shí)向主服務(wù)器報(bào)告故障,主服務(wù)器接收到故障信息后,會(huì)迅速將數(shù)據(jù)傳輸?shù)狡渌颖砩?,以確保正常使用數(shù)據(jù)。主服務(wù)器還可以根據(jù)需要添加或刪除子服務(wù)器。圖3顯示了BigTable的架構(gòu)。
BigTable數(shù)據(jù)庫支持高讀/寫速度,每秒可以執(zhí)行數(shù)百萬次操作。此外,BigTable還可以實(shí)現(xiàn)自我管理,動(dòng)態(tài)添加/刪除子表服務(wù)器,并自動(dòng)調(diào)整負(fù)載平衡。目前,BigTable已經(jīng)在許多項(xiàng)目中使用,例如Google搜索,谷歌地圖等。谷歌在2012年開發(fā)了基于BigTable的Spanner[18]系統(tǒng)。Spanner是最新的Google數(shù)據(jù)庫系統(tǒng),它是實(shí)現(xiàn)全球規(guī)模擴(kuò)張和支持外部一致性的第一個(gè)數(shù)據(jù)庫。
除了BigTable以外,其他的適用于大數(shù)據(jù)存儲(chǔ)的分布式數(shù)據(jù)庫有Yahoo! 的PNUTS和Amazon′s 的Dynamo。
3 農(nóng)業(yè)大數(shù)據(jù)面臨的問題與解決方案
大數(shù)據(jù)技術(shù)面臨諸多挑戰(zhàn),例如異構(gòu)數(shù)據(jù)范圍廣泛、實(shí)時(shí)問題、數(shù)據(jù)不完整、缺乏先驗(yàn)知識(shí)、隱私等。農(nóng)業(yè)大數(shù)據(jù)面臨的問題與大數(shù)據(jù)技術(shù)相一致,但與大數(shù)據(jù)相比,農(nóng)業(yè)大數(shù)據(jù)在安全或隱私問題上并不敏感,農(nóng)業(yè)數(shù)據(jù)挖掘旨在利用結(jié)果指導(dǎo)農(nóng)業(yè)實(shí)踐。因此,農(nóng)業(yè)大數(shù)據(jù)總是面臨以下問題。
3.1 農(nóng)業(yè)大數(shù)據(jù)存儲(chǔ)
3.1.1 異構(gòu)數(shù)據(jù)。農(nóng)業(yè)大數(shù)據(jù)從資源來看,數(shù)據(jù)來自無線電設(shè)備,農(nóng)業(yè)信息網(wǎng)站和各種先進(jìn)的移動(dòng)終端;從內(nèi)容上看,不僅包括統(tǒng)計(jì)資料,還包括與農(nóng)業(yè)相關(guān)的經(jīng)濟(jì)實(shí)體的基本信息、投資信息、進(jìn)出口信息和GIS坐標(biāo)信息;數(shù)據(jù)類型還包括結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。由于對(duì)不同,存儲(chǔ)硬件設(shè)備的處理不同,存儲(chǔ)異構(gòu)數(shù)據(jù)以及讀寫能力將是一個(gè)值得研究的問題。除了采用分布式文件系統(tǒng),創(chuàng)建索引也是一種解決方案。
3.1.2 異構(gòu)硬件。異構(gòu)硬件也是存儲(chǔ)農(nóng)業(yè)大數(shù)據(jù)的問題之一。在數(shù)據(jù)中心的不同機(jī)器之間會(huì)有非常顯著的性能差異,不同的硬件設(shè)備具有不同的識(shí)字和處理能力,將浪費(fèi)大量時(shí)間等待較慢的存儲(chǔ)設(shè)備。在這種情況下,存儲(chǔ)設(shè)備和服務(wù)器的線性增長(zhǎng)不一定會(huì)帶來計(jì)算能力的線性增長(zhǎng),“木桶效應(yīng)”限制了整個(gè)集群的性能。異構(gòu)硬件問題的一般解決方案是在異構(gòu)硬件環(huán)境中的不同方面使用不同的存儲(chǔ)設(shè)備。當(dāng)異構(gòu)環(huán)境的規(guī)模擴(kuò)展到數(shù)千個(gè)群集時(shí),問題將變得非常復(fù)雜。
3.2 農(nóng)業(yè)大數(shù)據(jù)分析
3.2.1 數(shù)據(jù)分析技術(shù)。數(shù)據(jù)分析是農(nóng)業(yè)大數(shù)據(jù)全過程的核心,農(nóng)業(yè)大數(shù)據(jù)的價(jià)值在大數(shù)據(jù)分析過程中產(chǎn)生。目前,糧食安全、土壤管理、有害生物預(yù)報(bào)與預(yù)防、農(nóng)業(yè)消費(fèi)等方面存在諸多問題。原始數(shù)據(jù)來自農(nóng)業(yè)信息的提取和整合,選擇全部或部分?jǐn)?shù)據(jù)利用農(nóng)業(yè)大數(shù)據(jù)分析來解決這些問題。傳統(tǒng)的分析技術(shù)不適用于處理農(nóng)業(yè)大數(shù)據(jù),例如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等技術(shù)。
3.2.2 數(shù)據(jù)挖掘算法。傳統(tǒng)的數(shù)據(jù)挖掘算法,如機(jī)器學(xué)習(xí)等領(lǐng)域,不再適用于農(nóng)業(yè)大數(shù)據(jù)。一方面,挖掘少量數(shù)據(jù)的算法無法直接應(yīng)用于大數(shù)據(jù);另一方面,農(nóng)業(yè)大數(shù)據(jù)具有特殊性,算法的準(zhǔn)確性不再是主要標(biāo)準(zhǔn),在許多情況下,算法需要在時(shí)間和處理精度之間取得平衡。
3.2.3 質(zhì)量分析指標(biāo)。分析結(jié)果質(zhì)量的指標(biāo)也是一個(gè)重大挑戰(zhàn)。大數(shù)據(jù)類型復(fù)雜,導(dǎo)致算法設(shè)計(jì)指標(biāo)的諸多問題。經(jīng)過多年的研究和開發(fā),數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等信息分析已經(jīng)被證明對(duì)小數(shù)據(jù)有顯著的影響。這些算法可以進(jìn)行調(diào)整,以適應(yīng)云計(jì)算系統(tǒng)。但必須注意的是,在這些算法的調(diào)整過程中應(yīng)考慮農(nóng)業(yè)大數(shù)據(jù)實(shí)時(shí)和可預(yù)測(cè)的特征。
3.2.4 算法與結(jié)果評(píng)估。評(píng)估農(nóng)業(yè)大數(shù)據(jù)算法的結(jié)果是很重要和困難的。根據(jù)農(nóng)業(yè)大數(shù)據(jù)的特點(diǎn),利用及時(shí)性作為衡量標(biāo)準(zhǔn),利用先驗(yàn)知識(shí)來測(cè)試算法。它可以在一定程度上評(píng)估算法的質(zhì)量,還可以考查數(shù)據(jù)結(jié)果的可靠性。
3.3 農(nóng)業(yè)大數(shù)據(jù)的及時(shí)性
隨著時(shí)間的推移,數(shù)據(jù)的固有價(jià)值不斷衰減。因此,在分析農(nóng)業(yè)大數(shù)據(jù)時(shí)必須考慮及時(shí)性。不及時(shí)的數(shù)據(jù)分析可能導(dǎo)致農(nóng)業(yè)災(zāi)害的生產(chǎn),特別是在氣象數(shù)據(jù)以及與數(shù)據(jù)分析相關(guān)的環(huán)境條件等方面。例如,低糧價(jià)損害農(nóng)民事件的發(fā)生是管理生產(chǎn)成本和其他信息不及時(shí)導(dǎo)致的結(jié)果。因此,及時(shí)性的特點(diǎn)在農(nóng)業(yè)大數(shù)據(jù)中尤其重要,是農(nóng)業(yè)大數(shù)據(jù)分析的核心需求。大量的研究也圍繞著這一需求而擴(kuò)大,確保及時(shí)性有3種方法。
3.3.1 流處理模式。雖然流式傳輸模式適用于實(shí)時(shí)系統(tǒng),但其應(yīng)用領(lǐng)域相對(duì)有限。流應(yīng)用模型側(cè)重于實(shí)時(shí)統(tǒng)計(jì)系統(tǒng),在線監(jiān)控。
3.3.2 批處理模式。近年來,批量實(shí)時(shí)系統(tǒng)的發(fā)展已成為熱點(diǎn)話題,取得了很大的成就。
3.3.3 流處理與批處理組合模式。主要思想是使用Map-Reduce編程模型實(shí)現(xiàn)流處理。
4 結(jié)語
本文首先介紹了農(nóng)業(yè)大數(shù)據(jù)的定義、特征、大數(shù)據(jù)的國(guó)內(nèi)外發(fā)展現(xiàn)狀、農(nóng)業(yè)大數(shù)據(jù)的國(guó)內(nèi)外發(fā)展現(xiàn)狀。然后討論了農(nóng)業(yè)大數(shù)據(jù)的獲取和集成技術(shù),特別對(duì)云計(jì)算技術(shù)、Map-Reduce、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫等存儲(chǔ)處理技術(shù)進(jìn)行詳細(xì)闡述。最后提出農(nóng)業(yè)大數(shù)據(jù)存儲(chǔ)、農(nóng)業(yè)大數(shù)據(jù)分析和及時(shí)性農(nóng)業(yè)大數(shù)據(jù)的問題與解決方案。農(nóng)業(yè)大數(shù)據(jù)具有數(shù)據(jù)規(guī)模大、數(shù)據(jù)類型多、數(shù)據(jù)流轉(zhuǎn)快等特征。農(nóng)業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù)能夠從復(fù)雜、海量、散亂的數(shù)據(jù)集合中提取出有價(jià)值的信息,在為戶提供生產(chǎn)決策和提高農(nóng)業(yè)生產(chǎn)效率等方面具有重要意義。
5 參考文獻(xiàn)
[1] GANDOMI A,HAIDER M.Beyond the hype:Big data concepts,methods,and analytics[J].International Journal of Information Management,2015, 35(2):137-144.
[2] MANYIKA J,CHUI M,BROWN B,et al.Big Data:The Next Frontier For Innovation,Competition,And Productivity[R].San Francisco:Mckinsey Global Institute,2011.
[3] 孫忠富,杜克明,鄭飛翔,等.大數(shù)據(jù)在智慧農(nóng)業(yè)中研究與應(yīng)用展望[J].中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào),2013(6):63-71.
[4] MITCH W.Big data:Wikiomics[J].Nature,2008,455(7209):22-25.
[5] STAFF S.Dealing with data. Challenges and opportunities.Introduction[J].Science,2011,331(6018):692-693.
[6] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013,36(6):1125-1138.
[7] 謝潤(rùn)梅.農(nóng)業(yè)大數(shù)據(jù)的獲取與利用[J].安徽農(nóng)業(yè)科學(xué),2015(30):383-385.
[8] 許世衛(wèi),王東杰,李哲敏.大數(shù)據(jù)推動(dòng)農(nóng)業(yè)現(xiàn)代化應(yīng)用研究[J].中國(guó)農(nóng)業(yè)科學(xué),2015,48(17):3429-3438.
[9] 黎玲萍,毛克彪,付秀麗,等.國(guó)內(nèi)外農(nóng)業(yè)大數(shù)據(jù)應(yīng)用研究分析[J].高技術(shù)通訊,2016,26(4):414-422.endprint
[10] 潘佳云.基于本體的異構(gòu)數(shù)據(jù)集成技術(shù)研究[D].上海:東華大學(xué),2013.
[11] 薛欣雨.基于XML的出版社業(yè)務(wù)員異構(gòu)數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)及關(guān)鍵技術(shù)研究[D].長(zhǎng)沙:中南大學(xué),2013.
[12] 向寒坤,鐘金宏,李興國(guó).基于Axis2的CORBA/Web Services集成方案[J].計(jì)算機(jī)應(yīng)用與軟件,2010,27(2):108-110.
[13] BERA S,MISRA S,RODRIGUES J J P C. Cloud Computing Applications for Smart Grid:A Survey[J].IEEE Transactions on Parallel & Distributed Systems,2015,26(5):1477-1494.
[14] YANG C,HUANG Q,LI Z,et al.Big Data and cloud computing:innova-tion opportunities and challenges[J].International Journal ot Digital Earth,2016(3):1-41.
[15] MCKUSICK K,QUINLAN S.GFS:evolution on fast-forward[J].Commu-nications of the Acm,2010,53(3):42-49.
[16] SHAFER J,RIXNER S,COW A L.The Hadoop distributed filesystem:Balancing portability and performance[C]//IEEE International Sympos-ium on PERFORMANCE Analysis of Systems & Software.New York: IEEE,2010:122-133.
[17] DAS S.Parallel Network File System with future scope[J].Psycho-Oncologie,2015,4(1):1-4.
[18] COOPER B F.Spanner:Google′s globally-distributed database[J].Acm Transactions on Computer Systems,2012,31(3):251-264.endprint