王小平 張望 姜繼勤
摘? ?要:在家蠶規(guī)?;B(yǎng)殖過程中,投資決策者需要對(duì)家蠶養(yǎng)殖過程中每個(gè)環(huán)節(jié)的情況有所了解,對(duì)市場(chǎng)需求、市場(chǎng)存量、上下游配套關(guān)系等進(jìn)行數(shù)據(jù)分析,才能做到科學(xué)決策。文章利用大數(shù)據(jù)分析手段,從技術(shù)的角度探討了家蠶養(yǎng)殖行業(yè)大數(shù)據(jù)分析系統(tǒng)平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn),對(duì)家蠶養(yǎng)殖產(chǎn)業(yè)具有一定的參考作用。
關(guān)鍵詞:智慧養(yǎng)蠶;生態(tài)鏈;大數(shù)據(jù)
在家蠶養(yǎng)殖的智能化改造升級(jí)過程中[1],研究人員發(fā)現(xiàn)大規(guī)模智能化養(yǎng)蠶將結(jié)束蠶繭行業(yè)散亂差的局面[2],但是迎來的問題也是前所未有的。家蠶養(yǎng)殖涉及的產(chǎn)業(yè)鏈包括桑樹的種植、家蠶養(yǎng)殖、繭絲綢生產(chǎn)銷售、絲綢醫(yī)藥等應(yīng)用環(huán)節(jié)。我國目前蠶繭年產(chǎn)量約60~80萬噸,如果各地規(guī)模性地投資智能化養(yǎng)蠶系統(tǒng),勢(shì)必將對(duì)上下游產(chǎn)業(yè)鏈產(chǎn)生重大影響。引入大數(shù)據(jù)分析技術(shù),可以精準(zhǔn)了解桑葉產(chǎn)能及國際國內(nèi)蠶繭市場(chǎng)行情,方便政府及行業(yè)進(jìn)行戰(zhàn)略決策,以保證整個(gè)產(chǎn)業(yè)生態(tài)鏈健康有序發(fā)展,為企業(yè)投產(chǎn)輔助決策。
1? ? 選型及邊界
調(diào)研智慧家蠶養(yǎng)殖企業(yè),明確了業(yè)主關(guān)心的是對(duì)家蠶蠶繭市場(chǎng)(包括國際國內(nèi))的整體分析,對(duì)家蠶養(yǎng)殖原料(主要是桑葉)的市場(chǎng)行情分析,以及對(duì)養(yǎng)殖過程中的相關(guān)數(shù)據(jù)分析,如圖1所示(數(shù)據(jù)主要來自于網(wǎng)絡(luò))。根據(jù)該應(yīng)用場(chǎng)景對(duì)大數(shù)據(jù)平臺(tái)進(jìn)行技術(shù)選型。
大數(shù)據(jù)平臺(tái)第一個(gè)要素是數(shù)據(jù)源,要處理的數(shù)據(jù)源包括家蠶養(yǎng)殖數(shù)據(jù)、銷售系統(tǒng)數(shù)據(jù)、桑樹種植數(shù)據(jù)、桑葉產(chǎn)量數(shù)據(jù)、各地政策等業(yè)務(wù)數(shù)據(jù);數(shù)據(jù)分析不會(huì)直接對(duì)業(yè)務(wù)的數(shù)據(jù)源進(jìn)行處理,而是先經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ),之后才能進(jìn)行數(shù)據(jù)分析及結(jié)果展現(xiàn)等。完成數(shù)據(jù)工程需要大量的資源,利用監(jiān)控和協(xié)調(diào)分派來控制和協(xié)調(diào)這些資源;部署要更方便、更容易地大規(guī)模的數(shù)據(jù),確認(rèn)是否需要集群,還涉及日志、安全以及與云的結(jié)合,這些在實(shí)際設(shè)計(jì)的時(shí)候需要明確下來。
2? ? 系統(tǒng)設(shè)計(jì)
系統(tǒng)包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)解釋及展現(xiàn)4個(gè)部分,如圖2所示。
(1)數(shù)據(jù)采集是指將來自于RDBMS的結(jié)構(gòu)型數(shù)據(jù)、來源于網(wǎng)絡(luò)Web的半結(jié)構(gòu)型數(shù)據(jù)以及文檔型數(shù)據(jù)進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)整合[3]。
(2)數(shù)據(jù)處理及存儲(chǔ)指將采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、分類、修正,形成可信數(shù)據(jù),最終將相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行存儲(chǔ)。外部數(shù)據(jù)的結(jié)構(gòu)跟企業(yè)內(nèi)部數(shù)據(jù)的結(jié)構(gòu)不一樣,需要進(jìn)行轉(zhuǎn)換,爬蟲爬取的數(shù)據(jù)結(jié)構(gòu)更亂。大數(shù)據(jù)平臺(tái)里需要進(jìn)行數(shù)據(jù)的提取、轉(zhuǎn)換、加載、清洗、去重、去噪。爬蟲爬過來的數(shù)據(jù)往往是非結(jié)構(gòu)性的、文檔型的數(shù)據(jù),還有視頻、音頻,需要去做數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理等工作。
(3)數(shù)據(jù)分析是指運(yùn)用數(shù)據(jù)挖掘、智能算法、云計(jì)算等技術(shù)對(duì)處理并存儲(chǔ)后的數(shù)據(jù)進(jìn)行分析,形成歷史趨勢(shì)分析報(bào)告,并在此基礎(chǔ)上預(yù)測(cè)下一年乃至于幾年蠶桑養(yǎng)殖行業(yè)的發(fā)展趨勢(shì)。
(4)數(shù)據(jù)解釋及展現(xiàn)是將結(jié)果以數(shù)據(jù)、圖表、曲線、模擬等方式展現(xiàn)給用戶,供用戶閱讀和決策參考,是呈現(xiàn)給用戶最終的結(jié)果。
3? ? 系統(tǒng)實(shí)現(xiàn)關(guān)鍵點(diǎn)
3.1? 數(shù)據(jù)采集的實(shí)現(xiàn)
結(jié)構(gòu)型數(shù)據(jù)屬于企業(yè)內(nèi)部數(shù)據(jù),需要與企業(yè)生產(chǎn)系統(tǒng)對(duì)接(如各養(yǎng)殖基地在養(yǎng)殖過程中的產(chǎn)量、原料消耗等數(shù)據(jù));半結(jié)構(gòu)型數(shù)據(jù)(如交易市場(chǎng)蠶繭銷售交易數(shù)據(jù))和文檔型數(shù)據(jù)(如企業(yè)報(bào)告給當(dāng)?shù)卣虅?wù)局的報(bào)表)屬于外部數(shù)據(jù),有兩種處理方法:(1)要獲取的外部數(shù)據(jù)本身提供API,可以調(diào)用API獲取。(2)數(shù)據(jù)本身不提供API,需要通過爬蟲技術(shù)爬取過來。圖3為爬取處理過程。
3.2? 數(shù)據(jù)處理的實(shí)現(xiàn)
通過系統(tǒng)本身的業(yè)務(wù)數(shù)據(jù)、管理員錄入的業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù),通過不同的方式采集后,存入到HDFS[4],HBASE中,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,如圖4所示,包括數(shù)據(jù)清洗、日志解析、分類合并等工作,最后進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析、數(shù)據(jù)展現(xiàn),并存入HIVE數(shù)據(jù)倉庫[5]。
3.3? 數(shù)據(jù)分析及展現(xiàn)的實(shí)現(xiàn)
將處理并存儲(chǔ)后的數(shù)據(jù)運(yùn)用數(shù)據(jù)挖掘、智能算法、云計(jì)算等技術(shù),對(duì)數(shù)據(jù)進(jìn)行分析。本系統(tǒng)需要做3個(gè)方面的數(shù)據(jù)分析:(1)統(tǒng)計(jì)分析,使用MapReduce[6]或Spark。(2)做查詢檢索,同步寫到HDFS的同時(shí)還要考慮寫到ES里。(3)做統(tǒng)計(jì)分析,先建立一個(gè)Cube,然后再進(jìn)入OLAP的場(chǎng)景[7-8]。
數(shù)據(jù)分析后形成歷史趨勢(shì)分析報(bào)告,并在此基礎(chǔ)上預(yù)測(cè)下一年乃至于幾年蠶桑養(yǎng)殖行業(yè)的發(fā)展趨勢(shì)。如圖5所示,通過報(bào)表及報(bào)告的形式展現(xiàn)給不同的用戶。
4? ? 結(jié)語
通過本次大數(shù)據(jù)平臺(tái)系統(tǒng)設(shè)計(jì),本研究搭建了基本大數(shù)據(jù)分析框架,并利用Java語言進(jìn)行了實(shí)現(xiàn),基本滿足了企業(yè)、行業(yè)以及政府部門對(duì)蠶桑養(yǎng)殖行業(yè)上下游產(chǎn)業(yè)鏈的數(shù)據(jù)分析需求。但在功能上還有很多不完善的地方,需要在后續(xù)過程中迭代完善。
[參考文獻(xiàn)]
[1]聶萌瑤,張峙.大數(shù)據(jù)下基于Hadoop的智能物流平臺(tái)架構(gòu)[J].無線互聯(lián)科技,2018(17):15-16,40.
[2]雷軍,葉航軍,武澤勝,等.基于開源生態(tài)系統(tǒng)的大數(shù)據(jù)平臺(tái)研究[J].計(jì)算機(jī)研究與發(fā)展,2017(1):80-93.
[3]董賀,徐凌宇.基于云平臺(tái)的軟件服務(wù)流體系結(jié)構(gòu)[J].上海大學(xué)學(xué)報(bào)(自然科學(xué)版),2013(1):14-20.
[4]曹寧,吳中海,劉宏志,等.HDFS下載效率的優(yōu)化[J].計(jì)算機(jī)應(yīng)用,2010(8):2060-2065,2240.
[5]紀(jì)俊.一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[D].青島:青島大學(xué),2009.
[6]萬至臻.基于MapReduce模型的并行計(jì)算平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].杭州:浙江大學(xué),2008.
[7]梁年貴.家蠶省力化養(yǎng)殖技術(shù)探討[J].南方農(nóng)業(yè),2015(3):144-145.
[8]李建琴.蠶桑產(chǎn)業(yè)轉(zhuǎn)型升級(jí)理論與路徑[J].蠶業(yè)科學(xué),2017(3):361-368.
Analysis on the platform architecture of big data analysis system for
upstream and downstream ecological chain of smart sericulture
Wang Xiaoping, Zhang Wang, Jiang Jiqin
(Chongqing City Management College, Chongqing 401331, China)
Abstract:In the process of large-scale sericulture, as an investment decision-maker, we need to understand the situation of each link in the process of sericulture, and analyze the data of market demand, market stock, upstream and downstream supporting relationship, to make a scientific decision. Using big data analysis method, this paper discusses the design and implementation of big data analysis system platform in sericulture industry from the technical point of view, which has a certain reference role for sericulture industry.
Key words:smart sericulture; ecological chain; big data