涂江華
摘 要 隨著農(nóng)業(yè)信息化快速發(fā)展,貴州省建立了農(nóng)經(jīng)云平臺(tái),為更好地對其進(jìn)行管理,在充分分析貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)需求的基礎(chǔ)上,以實(shí)現(xiàn)貴州農(nóng)經(jīng)云大數(shù)據(jù)的聚、通、用為目標(biāo),應(yīng)用大數(shù)據(jù)思維和產(chǎn)品化思路,聚焦貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)建設(shè)中涉及的功能架構(gòu)、應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)等進(jìn)行了詳細(xì)設(shè)計(jì),為貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)建設(shè)提供支撐。
關(guān)鍵詞 農(nóng)經(jīng)云;數(shù)據(jù)管理平臺(tái);設(shè)計(jì);貴州省
中圖分類號(hào):F323.3 文獻(xiàn)標(biāo)志碼:B DOI:10.19415/j.cnki.1673-890x.2019.20.095
1 貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)概述
貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)是基于面向貴州農(nóng)經(jīng)大數(shù)據(jù)聚、通、用一體化的服務(wù)平臺(tái)。其功能需求主要包括平臺(tái)的元數(shù)據(jù)管理、數(shù)據(jù)資源目錄管理、農(nóng)經(jīng)大數(shù)據(jù)基礎(chǔ)庫建設(shè)、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加工、數(shù)據(jù)發(fā)布、數(shù)據(jù)共享服務(wù)和專題數(shù)據(jù)庫配置等[1]。
2 貴州省農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)應(yīng)用架構(gòu)
2.1 基礎(chǔ)設(shè)施層
貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)基于云環(huán)境部署,利用虛擬化技術(shù),建成集約高效的統(tǒng)一資源池,為數(shù)據(jù)環(huán)境與業(yè)務(wù)系統(tǒng)的運(yùn)行奠定基礎(chǔ)。
2.2 數(shù)據(jù)處理與管理層
貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)主要是解決農(nóng)經(jīng)數(shù)據(jù)的采集、存儲(chǔ)、處理、加工、分析以及共享服務(wù)的需要。平臺(tái)要實(shí)現(xiàn)對各類數(shù)據(jù)的統(tǒng)一管理以及數(shù)據(jù)調(diào)用與服務(wù)的統(tǒng)一接口,并借助數(shù)據(jù)庫技術(shù)和分布式文件系統(tǒng)技術(shù)實(shí)現(xiàn)各類數(shù)據(jù)的融合處理、數(shù)據(jù)挖掘與深度學(xué)習(xí)。
2.3 應(yīng)用服務(wù)層
應(yīng)用層部署農(nóng)經(jīng)服務(wù)與產(chǎn)品加工共享系統(tǒng)。加工的產(chǎn)品和提供的服務(wù)主要分為3類:1)適用于農(nóng)經(jīng)部門內(nèi)部;2)為行業(yè)單位服務(wù);3)面向公眾服務(wù)。整個(gè)應(yīng)用層采用“互聯(lián)網(wǎng)+服務(wù)”的模式,同時(shí)提供應(yīng)用下載與應(yīng)用服務(wù),滿足內(nèi)部用戶、農(nóng)經(jīng)政務(wù)應(yīng)用和公眾用戶的農(nóng)經(jīng)信息需求。
2.4 監(jiān)控與管理層
監(jiān)控與管理層主要實(shí)現(xiàn)對平臺(tái)各子系統(tǒng)和模塊進(jìn)行統(tǒng)一監(jiān)控與管理,包括業(yè)務(wù)流程管理、業(yè)務(wù)作業(yè)調(diào)度監(jiān)控和系統(tǒng)管理功能。
3 貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)數(shù)據(jù)架構(gòu)
農(nóng)經(jīng)大數(shù)據(jù)具有海量、復(fù)雜多樣的特點(diǎn)。數(shù)據(jù)從收集到服務(wù)需要經(jīng)過數(shù)據(jù)收集、數(shù)據(jù)解碼、質(zhì)控、統(tǒng)計(jì)加工、入庫、存儲(chǔ)管理、專題加工、共享分發(fā)服務(wù)八個(gè)業(yè)務(wù)應(yīng)用階段,每個(gè)階段處理生成的數(shù)據(jù)均存儲(chǔ)到相應(yīng)的數(shù)據(jù)區(qū),主要包括數(shù)據(jù)收集區(qū)、加工處理區(qū)、業(yè)務(wù)管理與服務(wù)區(qū)。
4 貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)各項(xiàng)標(biāo)準(zhǔn)規(guī)范定義
1)數(shù)據(jù)元標(biāo)準(zhǔn)。參照各類數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范制定數(shù)據(jù)元的建設(shè)標(biāo)準(zhǔn),成立統(tǒng)一的數(shù)據(jù)元格式,數(shù)據(jù)元作為系統(tǒng)的底層數(shù)據(jù)基礎(chǔ),統(tǒng)一規(guī)范有利于數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)。2)結(jié)構(gòu)化數(shù)據(jù)產(chǎn)品的元數(shù)據(jù)表結(jié)構(gòu)標(biāo)準(zhǔn)。按照不同的資源目錄,不同的元數(shù)據(jù)組成結(jié)構(gòu)化數(shù)據(jù)表,規(guī)范邏輯表和數(shù)據(jù)庫表的對應(yīng)關(guān)系。3)非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)品的數(shù)據(jù)格式標(biāo)準(zhǔn)。非結(jié)構(gòu)化產(chǎn)品的數(shù)據(jù)格式標(biāo)準(zhǔn)包括文件名命名格式標(biāo)準(zhǔn)、文件內(nèi)容的格式標(biāo)準(zhǔn)。4)圖形產(chǎn)品標(biāo)準(zhǔn)。圖形產(chǎn)品根據(jù)不同的產(chǎn)品類型、不同的展示方式統(tǒng)一制定標(biāo)準(zhǔn),包括分辨率、文件名、色標(biāo)等標(biāo)準(zhǔn)。5)數(shù)據(jù)產(chǎn)品的分類標(biāo)準(zhǔn)。數(shù)據(jù)產(chǎn)品分類標(biāo)準(zhǔn)按照農(nóng)經(jīng)數(shù)據(jù)分為基礎(chǔ)數(shù)據(jù)產(chǎn)品、業(yè)務(wù)數(shù)據(jù)產(chǎn)品、主題數(shù)據(jù)產(chǎn)品等分類。6)命名標(biāo)準(zhǔn)。命名標(biāo)準(zhǔn)按照業(yè)務(wù)分類+時(shí)間+作用+自定義進(jìn)行命名。7)存儲(chǔ)標(biāo)準(zhǔn)。存儲(chǔ)分為結(jié)構(gòu)化存儲(chǔ)和非結(jié)構(gòu)化存儲(chǔ),二者皆采用分布式搭建存儲(chǔ)環(huán)境,將二者有機(jī)地結(jié)合起來,能夠?qū)崿F(xiàn)對系統(tǒng)整體數(shù)據(jù)的集中統(tǒng)一管理。另外,還包括數(shù)據(jù)匯交規(guī)范和數(shù)據(jù)使用規(guī)范等[2]。
5 貴州農(nóng)經(jīng)云數(shù)據(jù)管理平臺(tái)需求描述
5.1 元數(shù)據(jù)管理
為保證云計(jì)算數(shù)據(jù)的一致性與可用性,要對構(gòu)成農(nóng)經(jīng)要素模型的元素及元數(shù)據(jù)進(jìn)行統(tǒng)一管理。可在可視化操作界面建立元數(shù)據(jù)注冊、審批、管理的流程,實(shí)現(xiàn)元數(shù)據(jù)的規(guī)范化提交、評審、發(fā)布、維護(hù)等功能,以保證數(shù)據(jù)的質(zhì)量。
5.2 數(shù)據(jù)資源目錄管理
要滿足不同業(yè)務(wù)、不同部門、不同類型的數(shù)據(jù)管理,就需要一整套的數(shù)據(jù)資源目錄。因此,要完成云計(jì)算數(shù)據(jù)資源目錄的編制,主要按統(tǒng)一的資源目錄進(jìn)行劃分,可以新增、修改、刪除目錄項(xiàng),支持從地域范圍、數(shù)據(jù)類型、獲取方式等不同維度對數(shù)據(jù)資源進(jìn)行編目。資源目錄的管理可通過以下6點(diǎn)來完成。1)對資源目錄進(jìn)行動(dòng)態(tài)管理,實(shí)現(xiàn)新增、刪除、修改、查詢等資源目錄的編制功能。2)根據(jù)建立的資源目錄創(chuàng)建資料集,根據(jù)業(yè)務(wù)需求填寫資源集相關(guān)信息和選擇資源對應(yīng)的資源目錄和元數(shù)據(jù)要素進(jìn)行保存。3)對建立的資源目錄進(jìn)行提交審核,審核狀態(tài)有審核通過、退回等。4)資料集審核通過后,就是資料集的退回和發(fā)布功能,發(fā)布功能包括發(fā)布資料集和創(chuàng)建物理表。5)對已發(fā)布的資料集相關(guān)信息進(jìn)行維護(hù)。2)對已發(fā)布的資料集信息進(jìn)行多維度的查詢。
5.3 基礎(chǔ)數(shù)據(jù)庫構(gòu)建
將農(nóng)經(jīng)云歷史數(shù)據(jù)按《農(nóng)經(jīng)云數(shù)據(jù)標(biāo)準(zhǔn)》全部清洗入庫,建立農(nóng)經(jīng)云基礎(chǔ)數(shù)據(jù)庫,具體包括資源目錄數(shù)據(jù)庫、農(nóng)經(jīng)云數(shù)據(jù)元庫、地理信息數(shù)據(jù)庫、政務(wù)資訊數(shù)據(jù)庫、農(nóng)產(chǎn)品數(shù)據(jù)庫、市場數(shù)據(jù)庫、氣象數(shù)據(jù)庫、企業(yè)數(shù)據(jù)庫、產(chǎn)業(yè)數(shù)據(jù)庫、農(nóng)村電商數(shù)據(jù)庫、鄉(xiāng)村旅游數(shù)據(jù)庫、農(nóng)業(yè)園區(qū)數(shù)據(jù)庫以及監(jiān)控信息數(shù)據(jù)庫等基礎(chǔ)數(shù)據(jù)庫。
5.4 數(shù)據(jù)收集
數(shù)據(jù)收集模塊需實(shí)現(xiàn)各種數(shù)據(jù)的收集功能,即按照規(guī)定的時(shí)間要求從FTP、數(shù)據(jù)庫、CIMISS等來源的數(shù)據(jù)收集到數(shù)據(jù)中心,清洗入庫,存儲(chǔ)到基礎(chǔ)庫或產(chǎn)品庫,將云計(jì)算數(shù)據(jù)中心歷史數(shù)據(jù)處理、清洗、遷移至新的數(shù)據(jù)中心。
對常規(guī)格式數(shù)據(jù)的收集,包括網(wǎng)絡(luò)爬蟲工具、FTP服務(wù)器下載、Windows共享接入、數(shù)據(jù)目錄收集、數(shù)據(jù)庫讀取配置、人工導(dǎo)入及錄入、http文件接入、HTTP數(shù)據(jù)服務(wù)、API數(shù)據(jù)服務(wù)、http、Web Serverice常規(guī)接口數(shù)據(jù)的收集,以及第三方提供的接口數(shù)據(jù)通過可視化的操作,根據(jù)配置自動(dòng)解析按標(biāo)準(zhǔn)匯聚入庫。
5.5 數(shù)據(jù)存儲(chǔ)
根據(jù)資料種類的不同和數(shù)據(jù)應(yīng)用方式的區(qū)別,云計(jì)算數(shù)據(jù)中心采用數(shù)據(jù)庫管理和文件系統(tǒng)管理相結(jié)合的存儲(chǔ)管理方式,并將二者有機(jī)結(jié)合起來,實(shí)現(xiàn)對系統(tǒng)整體數(shù)據(jù)的集中統(tǒng)一管理。
針對不同類型的農(nóng)經(jīng)數(shù)據(jù)采用不同的存儲(chǔ)方式,分布式關(guān)系型數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),分布式文件系統(tǒng)存儲(chǔ)文件類型數(shù)據(jù)。具體如下:1)關(guān)系型數(shù)據(jù)庫管理方式,對農(nóng)產(chǎn)品、市場數(shù)據(jù)、氣象等查詢方式復(fù)雜而數(shù)據(jù)量相對小的資料采用結(jié)構(gòu)化數(shù)據(jù)庫管理;2)分布式文件管理方式,對那些數(shù)據(jù)量大、查詢方式相對簡單的雷達(dá)、衛(wèi)星數(shù)據(jù)采用分布式文件管理方式,而其相關(guān)的索引信息和元數(shù)據(jù)則納入到數(shù)據(jù)庫管理中,以便于數(shù)據(jù)的查詢檢索和元數(shù)據(jù)的統(tǒng)一管理;3)NoSQL數(shù)據(jù)庫管理方式,作為海量非事務(wù)型數(shù)據(jù)訪問業(yè)務(wù)的存儲(chǔ)載體,為查詢分析計(jì)算提供數(shù)據(jù)存儲(chǔ)支持[3]。
5.6 數(shù)據(jù)管理和加工
數(shù)據(jù)管理和加工是指對數(shù)據(jù)進(jìn)行規(guī)范化、流程化、可視化管理,具備各種數(shù)據(jù)清洗功能,建立業(yè)務(wù)數(shù)據(jù)基礎(chǔ)算法庫,能夠自由新增數(shù)據(jù)算法,根據(jù)算法加工指定數(shù)據(jù),最終生成云計(jì)算數(shù)據(jù)中心所需的質(zhì)量控制后產(chǎn)品、統(tǒng)計(jì)加工產(chǎn)品、圖形產(chǎn)品,以滿足各部門、各行業(yè)、各用戶等方面的數(shù)據(jù)需求。數(shù)據(jù)加工處理算法主要包括3類,即數(shù)據(jù)解碼算法、質(zhì)量控制算法和產(chǎn)品生成算法。
5.7 專題數(shù)據(jù)庫配置
根據(jù)云計(jì)算數(shù)據(jù)中心數(shù)據(jù)元庫以及數(shù)據(jù)元自由配置字段建表、建庫(基礎(chǔ)庫、專題庫),基于云計(jì)算數(shù)據(jù)中心基礎(chǔ)數(shù)據(jù)庫,對基礎(chǔ)數(shù)據(jù)庫中的任意數(shù)據(jù)根據(jù)需求自由配置生成成品庫的功能。
5.8 數(shù)據(jù)共享服務(wù)
提供數(shù)據(jù)共享通道,包括資料分發(fā)、標(biāo)準(zhǔn)化數(shù)據(jù)接口服務(wù)、Web Service數(shù)據(jù)服務(wù)、API數(shù)據(jù)服務(wù)、FTP下載服務(wù)和消息總線分發(fā)多種農(nóng)經(jīng)信息服務(wù)模式,且能夠按需求自由配置底層數(shù)據(jù)和數(shù)據(jù)產(chǎn)品,根據(jù)實(shí)際使用需要選擇常規(guī)數(shù)據(jù)共享通道與第三方共享,第三方用戶根據(jù)權(quán)限獲取共享信息。
參考文獻(xiàn):
[1] 常明,陳堃銶.基于SGML/XML的文件結(jié)構(gòu)化研究與實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2002(2):199-204..
[2] 陳萍.基于語義Web的網(wǎng)絡(luò)資源整合模式研究[J].科學(xué)技術(shù)與工程,2006(12):1726-1728,1741.
[3] 曹彥榮,吳洪橋,畢建濤,等.國家資源與環(huán)境數(shù)據(jù)庫元數(shù)據(jù)管理研究[J].地球信息科學(xué),2002(2):6-10.
(責(zé)任編輯:劉昀)