李文強(qiáng)
(義烏工商職業(yè)技術(shù)學(xué)院創(chuàng)業(yè)學(xué)院, 浙江 義烏 322000)
電商行業(yè)進(jìn)入相對(duì)成熟發(fā)展階段,其競(jìng)爭(zhēng)日趨激烈。電子商務(wù)從用戶時(shí)代和銷量的時(shí)代,發(fā)展到目前數(shù)據(jù)時(shí)代,數(shù)據(jù)也越來越發(fā)揮出巨大的作用,表現(xiàn)在精準(zhǔn)營銷、信用評(píng)級(jí)、廣告推送及物流配送等方面。電商大數(shù)據(jù)分析主要是指對(duì)電子商務(wù)交易過程中形成的海量數(shù)據(jù)進(jìn)行收集、清洗、整合與分析,實(shí)現(xiàn)基于大數(shù)據(jù)對(duì)運(yùn)營與管理的優(yōu)化。本文以Hadoop為核心框架,提出了基于電商數(shù)據(jù)的數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)可視化的綜合實(shí)訓(xùn)平臺(tái)建設(shè)方案,為電商數(shù)據(jù)分析人才培養(yǎng)提供綜合實(shí)訓(xùn)平臺(tái)。
大部分學(xué)校缺乏相應(yīng)的教學(xué)條件。學(xué)校購買了硬件,卻支付不起或不愿支付較高的實(shí)訓(xùn)軟件費(fèi)用,導(dǎo)致大部分電子商務(wù)專業(yè)開設(shè)的主要實(shí)踐內(nèi)容為辦公軟件應(yīng)用、Web網(wǎng)頁制作、計(jì)算機(jī)應(yīng)用等通用計(jì)算機(jī)技能,實(shí)訓(xùn)內(nèi)容無法滿足電商企業(yè)需求。
大數(shù)據(jù)作為新崛起的海量數(shù)據(jù)分析技術(shù),在當(dāng)前電子商務(wù)教學(xué)中,普遍忽視大數(shù)據(jù)分析的作用[1]。從技術(shù)層面而言,電商能與大數(shù)據(jù)分析進(jìn)行有機(jī)結(jié)合,電商產(chǎn)業(yè)在交易過程中會(huì)產(chǎn)生大量數(shù)據(jù)信息,這些都應(yīng)整合到整個(gè)產(chǎn)業(yè)的業(yè)務(wù)流程。
電子商務(wù)是一門交叉復(fù)合型學(xué)科,其專業(yè)特性要求教師不僅具備電子商務(wù)基本技能,還需具備較強(qiáng)大的數(shù)據(jù)分析能力和實(shí)戰(zhàn)水平。但大多數(shù)電子商務(wù)專業(yè)的教師缺少有關(guān)背景知識(shí)和實(shí)戰(zhàn)經(jīng)驗(yàn)。
由于開源分布式體系,Hadoop可通過Hadoop Common、HDFS、MapReduce等,在技術(shù)層面可進(jìn)行大數(shù)據(jù)相關(guān)運(yùn)算[2],其自身高可靠、高擴(kuò)展、高效和高容錯(cuò)的特性保證能有效解決大數(shù)據(jù)并行計(jì)算、并行存儲(chǔ)、海量數(shù)據(jù)處理等問題。同時(shí),開源的特性使其飛速發(fā)展與進(jìn)化,并被廣泛用于電子商務(wù)等各個(gè)領(lǐng)域。在海量數(shù)據(jù)處理上Hadoop得到了廣泛的認(rèn)可。
本文提出的綜合實(shí)訓(xùn)平臺(tái)由軟硬件基礎(chǔ)層、架構(gòu)層和應(yīng)用層組成。硬件基礎(chǔ)設(shè)施為機(jī)房通用學(xué)生用機(jī)及相關(guān)網(wǎng)絡(luò)設(shè)備,軟件基礎(chǔ)層選用開源的Linux操作系統(tǒng)。架構(gòu)層采用Hadoop為核心,應(yīng)用層分?jǐn)?shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)可視化四個(gè)模塊。
數(shù)據(jù)采集來源主要有兩種,包括實(shí)時(shí)采集及互聯(lián)網(wǎng)數(shù)據(jù)爬蟲。對(duì)于實(shí)時(shí)采集本文采用Kafka分布式消息系統(tǒng),主要用于采集服務(wù)器各種日志,以及記錄web用戶或app用戶的各項(xiàng)活動(dòng)。針對(duì)相關(guān)技術(shù)漏洞,通常可采用Scrapy爬蟲框架,抓取網(wǎng)絡(luò)商城中結(jié)構(gòu)化的數(shù)據(jù)[3]。若合理應(yīng)用,Scrapy可在數(shù)據(jù)挖掘、監(jiān)測(cè)和自動(dòng)化測(cè)試等方面發(fā)揮較好功效。利用Scrapy抓取京東或淘寶上的商品信息及銷售數(shù)據(jù),已有很多成熟的案例。
HDFS是運(yùn)用大規(guī)模廉價(jià)商用機(jī)集群的文件存儲(chǔ)與傳輸系統(tǒng),HDFS將需要存儲(chǔ)的大文件進(jìn)行分塊,形成單元數(shù)據(jù)塊存儲(chǔ)到不同的計(jì)算機(jī)上,從而構(gòu)建了大數(shù)據(jù)的分布式存儲(chǔ)。分布式存儲(chǔ)機(jī)制提高了讀取效率,多主機(jī)讀取比單機(jī)讀取效率要高得多。HDFS可應(yīng)用在普通臺(tái)式機(jī)器上,一個(gè)實(shí)訓(xùn)機(jī)房的幾十臺(tái)學(xué)生用機(jī)可支撐一個(gè)大數(shù)據(jù)集群。
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在當(dāng)前數(shù)據(jù)量爆增的互聯(lián)網(wǎng)時(shí)代已出現(xiàn)性能瓶頸,不適合大數(shù)據(jù)分析的使用場(chǎng)景。而Hbase運(yùn)行于HDFS之上,是一個(gè)非關(guān)系型數(shù)據(jù)庫(NoSQL),在大規(guī)模非結(jié)構(gòu)化存儲(chǔ)上應(yīng)用較為廣泛。Hbase的無關(guān)系特性和并行性,使得數(shù)據(jù)庫結(jié)構(gòu)可以簡(jiǎn)化,因此可以有非常高的讀寫性能和拓展性。
在數(shù)據(jù)分析上,用戶主要采用MapReduce,能實(shí)現(xiàn)計(jì)算機(jī)的并行運(yùn)算,將相關(guān)內(nèi)容概括為Map與Reduce兩個(gè)過程,在技術(shù)層面上可實(shí)現(xiàn)相關(guān)任務(wù)的分解與匯總。MapReduce自動(dòng)完成計(jì)算任務(wù),同時(shí)在后臺(tái)并行化處理,這可在一定程度上減少使用人員的負(fù)擔(dān)。
Hive是一個(gè)數(shù)據(jù)倉庫工具,可對(duì)HDFS上的結(jié)構(gòu)數(shù)據(jù)進(jìn)行整理,通過相關(guān)程序形成數(shù)據(jù)庫表,提供了功能類似SQL語言的查詢語言HiveQL,HiveQL可進(jìn)行簡(jiǎn)單的MapReduce統(tǒng)計(jì),無需編寫特定的MapReduce應(yīng)用,相當(dāng)適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。
數(shù)據(jù)可視化模塊可采用的技術(shù)很多。ECharts是開源的可視化庫,其采用JavaScript作為開發(fā)語言。凡是支持JavaScript的瀏覽器均可運(yùn)行ECharts,從技術(shù)層面上可提供定制化的數(shù)據(jù)圖表?;赑ython的可視化庫,用戶可選擇matplotlib和pyecharts,前者在Python庫中使用頻率較高,后者可借助于Python實(shí)現(xiàn)Echarts相關(guān)技術(shù)功能。
實(shí)訓(xùn)平臺(tái)的建設(shè)技術(shù)上以最流行的開源大數(shù)據(jù)計(jì)算框架Hadoop為基礎(chǔ)框架。Hadoop開源的生態(tài)圈使得軟件成本為零;Hadoop支持分布式存儲(chǔ),可利用機(jī)房普通PC快捷搭建大數(shù)據(jù)集群。平臺(tái)以Python為主要編程語言,減少教師相關(guān)計(jì)算機(jī)知識(shí)的學(xué)習(xí),減輕了對(duì)師資的要求。該平臺(tái)的建設(shè)思路體現(xiàn)了以電子商務(wù)行業(yè)需求為核心,以學(xué)生為本,提升學(xué)生綜合實(shí)踐能力,培養(yǎng)綜合實(shí)踐應(yīng)用型人才的目標(biāo)。在未來的實(shí)踐探索中,還可利用該平臺(tái)建立更完善的商務(wù)數(shù)據(jù)分析實(shí)訓(xùn)教學(xué)內(nèi)容,如市場(chǎng)預(yù)測(cè)、消費(fèi)者行為分析等實(shí)訓(xùn)教學(xué)內(nèi)容。