張海濤 薛 翔
1(云南中煙工業(yè)有限責(zé)任公司 云南 昆明 650231)2(大連達(dá)碩信息技術(shù)有限公司 遼寧 大連 116023)
大數(shù)據(jù)背景下,數(shù)據(jù)驅(qū)動(dòng)煙草業(yè)務(wù)發(fā)展已成為普遍共識(shí)[1-2],大數(shù)據(jù)分析技術(shù)在煙草研發(fā)領(lǐng)域的應(yīng)用已成為研究熱點(diǎn),諸多理論研究成果應(yīng)運(yùn)而生[3-6]。同時(shí),也產(chǎn)生了許多應(yīng)用于煙草領(lǐng)域的數(shù)據(jù)云平臺(tái)的研究與開發(fā)。例如:鄒暾等[7]針對(duì)煙草業(yè)務(wù)特點(diǎn),設(shè)計(jì)靈活可快速部署的煙草企業(yè)云平臺(tái)架構(gòu);陳力等[8]構(gòu)建私有云平臺(tái),整合煙草企業(yè)相關(guān)軟、硬件資源,解決業(yè)務(wù)系統(tǒng)分散獨(dú)立、整合難的問題;張君等[9]借助云平臺(tái),重構(gòu)煙草企業(yè)創(chuàng)新流程;李益文[10]利用云平臺(tái)服務(wù),實(shí)現(xiàn)通省級(jí)煙草基礎(chǔ)資源的多層級(jí)、統(tǒng)一管理調(diào)度。
上述研究是大數(shù)據(jù)分析技術(shù)在煙草領(lǐng)域應(yīng)用的有益探索,但目前行業(yè)內(nèi),整合煙草研發(fā)業(yè)務(wù)多源異構(gòu)數(shù)據(jù)進(jìn)行煙草研發(fā)業(yè)務(wù)分析的成功案例較少。究其原因,煙草研發(fā)業(yè)務(wù)廣泛的特點(diǎn),導(dǎo)致煙草研發(fā)數(shù)據(jù)體量大、類型繁雜、存儲(chǔ)分散的問題,精通卷煙研發(fā)業(yè)務(wù)的行業(yè)專家難以利用上述龐雜的數(shù)據(jù)有效挖掘價(jià)值,最終影響大數(shù)據(jù)分析技術(shù)在研發(fā)體系中的應(yīng)用成效。
針對(duì)煙草研發(fā)體系的業(yè)務(wù)、數(shù)據(jù)、用戶的特點(diǎn),采用分層技術(shù)架構(gòu),構(gòu)建面向用戶的煙草研發(fā)體系大數(shù)據(jù)云平臺(tái),封裝數(shù)據(jù)采集與存儲(chǔ),規(guī)范數(shù)據(jù)管理,簡化數(shù)據(jù)分析流程,讓煙草研發(fā)體系的“非數(shù)據(jù)專家用戶”更專注于煙草研發(fā)業(yè)務(wù)本身,避免用戶直面復(fù)雜的大數(shù)據(jù)分析技術(shù)和龐雜的煙草研發(fā)原始數(shù)據(jù),降低用戶大數(shù)據(jù)分析技術(shù)要求,是讓煙草研發(fā)人員實(shí)現(xiàn)利用數(shù)據(jù)驅(qū)動(dòng)煙草研發(fā)業(yè)務(wù)的重要探索和嘗試。
要實(shí)現(xiàn)讓煙草研發(fā)體系的“非數(shù)據(jù)專家用戶”能夠便捷地使用數(shù)據(jù)驅(qū)動(dòng)煙草研發(fā)業(yè)務(wù),需要大數(shù)據(jù)平臺(tái)向下能夠匯聚、處理繁雜的研發(fā)體系數(shù)據(jù),向上能夠提供簡便的數(shù)據(jù)分析應(yīng)用與接口服務(wù)。因此,平臺(tái)總體采用分層架構(gòu),為頂層“非數(shù)據(jù)專家用戶”提供簡便的數(shù)據(jù)分析應(yīng)用與接口服務(wù),同時(shí)封裝底層的數(shù)據(jù)匯聚、數(shù)據(jù)存儲(chǔ)、主題數(shù)據(jù)服務(wù)等功能模塊以及算法庫與分析服務(wù)。以此,避免用戶直面繁雜的研發(fā)體系數(shù)據(jù),同時(shí)降低用戶對(duì)大數(shù)據(jù)分析的技術(shù)要求。
平臺(tái)分層結(jié)構(gòu)設(shè)計(jì)如圖1所示。
圖1 平臺(tái)總體架構(gòu)圖
平臺(tái)的總體分層架構(gòu)包含如下特征:
1) 基礎(chǔ)資源層采用Hadoop開源分布式架構(gòu),整合煙草企業(yè)現(xiàn)有硬件資產(chǎn)。
2) 中間服務(wù)層包括數(shù)據(jù)自動(dòng)匯聚、數(shù)據(jù)存儲(chǔ)管理、主題數(shù)據(jù)服務(wù)、數(shù)據(jù)分析服務(wù)4大模塊,自動(dòng)采集煙草研發(fā)相關(guān)數(shù)據(jù),實(shí)現(xiàn)繁雜數(shù)據(jù)的存儲(chǔ)管理,梳理數(shù)據(jù)間血緣關(guān)系與提供主題化規(guī)范數(shù)據(jù)服務(wù),提供機(jī)器學(xué)習(xí)算法庫與分析服務(wù)。
3) 應(yīng)用服務(wù)層靈活組合下層數(shù)據(jù)服務(wù)與分析服務(wù),設(shè)計(jì)拖拽式的數(shù)據(jù)分析工具,簡化數(shù)據(jù)分析與挖掘服務(wù);構(gòu)建全面restful接口,提供數(shù)據(jù)支撐和服務(wù)。
4) 平臺(tái)采用分層模式,通過上層應(yīng)用對(duì)底層服務(wù)的封裝,避免用戶直面復(fù)雜的大數(shù)據(jù)分析技術(shù)和繁雜的煙草研發(fā)數(shù)據(jù),降低用戶的大數(shù)據(jù)分析技術(shù)要求。
基于上述分層架構(gòu),實(shí)現(xiàn)面向業(yè)務(wù)用戶的數(shù)據(jù)分析需求。
數(shù)據(jù)自動(dòng)匯聚、主題數(shù)據(jù)服務(wù)與數(shù)據(jù)分析編排器,能夠?qū)崿F(xiàn)數(shù)據(jù)采集自動(dòng)化、數(shù)據(jù)管理規(guī)范化與數(shù)據(jù)分析操作簡便化,是簡化用戶大數(shù)據(jù)分析操作的關(guān)鍵功能。
平臺(tái)管理員可根據(jù)數(shù)據(jù)源、數(shù)據(jù)類型特點(diǎn),選擇全量與增量接入的方式創(chuàng)建數(shù)據(jù)采集任務(wù)。該平臺(tái)的調(diào)度管理服務(wù)會(huì)根據(jù)每個(gè)任務(wù)所設(shè)計(jì)好的處理過程和計(jì)劃時(shí)間按規(guī)則分別進(jìn)行調(diào)度,將數(shù)據(jù)接入平臺(tái)。
數(shù)據(jù)自動(dòng)匯聚功能的技術(shù)架構(gòu)如圖2所示。
圖2 數(shù)據(jù)自動(dòng)采集功能技術(shù)架構(gòu)圖
該平臺(tái)利用Airflow作為整體的流程調(diào)度引擎。任務(wù)通過下發(fā)的方式注冊(cè)到zookeeper上,并由部署在多個(gè)節(jié)點(diǎn)上監(jiān)聽的Spark服務(wù)進(jìn)行實(shí)際的ETL操作。待抽取任務(wù)結(jié)束,Airflow會(huì)再次推送一個(gè)統(tǒng)計(jì)任務(wù)給Spark服務(wù),以供后續(xù)分析和BI直接使用。
其中,Airflow是一款由Airbnb公司開源的,利用Python編寫的可編程、調(diào)度和監(jiān)控的工作流平臺(tái)(http://airflow.apache.org/),同時(shí)其也是Apache基金會(huì)的頂級(jí)項(xiàng)目(Hadoop、Spark、Hive等都在其列)。實(shí)際部署中,平臺(tái)針對(duì)云南中煙技術(shù)中心的實(shí)際需求,對(duì)Airflow進(jìn)行了定制化開發(fā),即進(jìn)行了漢化和本地時(shí)區(qū)轉(zhuǎn)化,新增了部分適配服務(wù)以便能更好地和數(shù)據(jù)中心進(jìn)行整合。
數(shù)據(jù)抽取的過程支持全量同步和增量更新。利用Spark的資源優(yōu)勢和針對(duì)不同數(shù)據(jù)源的自適配,該平臺(tái)可以高效地進(jìn)行數(shù)據(jù)的抽取工作。依據(jù)所開發(fā)的統(tǒng)一且可配置的抽取流程邏輯,平臺(tái)可以簡便地配置一個(gè)或批量新增多個(gè)接入流程。
數(shù)據(jù)抽取規(guī)則如下:
當(dāng)全量接入時(shí),平臺(tái)從內(nèi)部自行進(jìn)行當(dāng)前數(shù)據(jù)和已有數(shù)據(jù)的比對(duì),從而獲取本次抽取數(shù)據(jù)的增量情況。同時(shí),增量數(shù)據(jù)并入已有的數(shù)據(jù)集。全量抽取規(guī)則流程如圖3所示。
圖3 全量抽取規(guī)則
當(dāng)增量接入時(shí),根據(jù)原始數(shù)據(jù)的時(shí)間戳/序列號(hào)獲取新數(shù)據(jù),并接入到當(dāng)前數(shù)據(jù)集內(nèi)。增量抽取規(guī)則流程如圖4所示。
圖4 增量抽取規(guī)則
數(shù)據(jù)抽取的結(jié)果以parquet的格式存儲(chǔ)在Hive內(nèi),存儲(chǔ)媒介采用hudi。hudi是由Uber公司開源并在2019年年初成為Apache基金會(huì)孵化項(xiàng)目的一個(gè)SparkHive組件庫(https://hudi.apache.org/)。利用hudi的特性,該平臺(tái)可以針對(duì)存儲(chǔ)在Hive上的數(shù)據(jù)進(jìn)行可靠并且高效的更新、刪除操作。同時(shí)也讓這些數(shù)據(jù)支持了回滾和存儲(chǔ)點(diǎn)等一些關(guān)系型數(shù)據(jù)庫的特性。與此同時(shí),hudi也源生支持SparkSQL,這讓整個(gè)平臺(tái)中數(shù)據(jù)的使用更加便捷。
其中,hudi的存儲(chǔ)采用了名為COPY ON WRITE的模式。它是一種注重讀取效率的數(shù)據(jù)存儲(chǔ)模式,其具體的實(shí)現(xiàn)機(jī)理是針對(duì)存儲(chǔ)在HDFS上的每個(gè)Parquet文件以“文件名_順序號(hào)_時(shí)間戳.parquet”的形式命名。數(shù)據(jù)在存儲(chǔ)時(shí)已排好序,當(dāng)新數(shù)據(jù)到來時(shí)會(huì)先檢索文件的位置,之后復(fù)制原始文件的數(shù)據(jù)并與新數(shù)據(jù)做整合,生成的新文件的文件名一致,時(shí)間戳更新為當(dāng)前時(shí)間,這樣便保留了更新前數(shù)據(jù)的快照和更新后的新文件。讀取數(shù)據(jù)的時(shí)候,hudi會(huì)根據(jù)指定的時(shí)間來篩選過濾所需要的文件,從而達(dá)到獲取指定時(shí)間數(shù)據(jù)快照的目的。
通過上述設(shè)計(jì)和技術(shù)實(shí)現(xiàn),能夠便捷地設(shè)置采集任務(wù),定制化地設(shè)置采集方式和采集計(jì)劃,同時(shí),也可通過不同時(shí)間的數(shù)據(jù)快照實(shí)現(xiàn)數(shù)據(jù)比對(duì)功能,從而能夠?qū)崟r(shí)查看數(shù)據(jù)采集情況。對(duì)于云南中煙研發(fā)數(shù)據(jù)多源異構(gòu)、來源繁雜的特點(diǎn),可以通過上述功能實(shí)時(shí)查看不同來源的數(shù)據(jù)采集情況,從而定制化地設(shè)定采集任務(wù)。
除進(jìn)行比對(duì)外,還可以通過統(tǒng)計(jì)任務(wù)對(duì)抽取數(shù)據(jù)的結(jié)果增量進(jìn)行多維度的統(tǒng)計(jì),包括數(shù)據(jù)的增量情況、空值率(每個(gè)空值行數(shù)占當(dāng)前列總行數(shù)的比率)、健康度(所有列非空值率的)、字段飽和比(一個(gè)表列都有值的個(gè)數(shù)/所有列的個(gè)數(shù))、數(shù)據(jù)集中度(總數(shù)排名前20的表的總數(shù)占總體的比率)等。
相應(yīng)的統(tǒng)計(jì)數(shù)據(jù)可提供到云南中煙其他業(yè)務(wù)系統(tǒng)中進(jìn)行展現(xiàn),如圖5和圖6所示。
圖5 統(tǒng)計(jì)數(shù)據(jù)展現(xiàn)示例一
圖6 統(tǒng)計(jì)數(shù)據(jù)展現(xiàn)示例二
主題數(shù)據(jù)服務(wù)功能可自動(dòng)梳理不同源數(shù)據(jù)間血緣,挖掘原始數(shù)據(jù)至主題數(shù)據(jù)的映射關(guān)系,避免“業(yè)務(wù)專家”用戶直面繁雜的原始數(shù)據(jù),便于用戶理解、使用和管理繁雜的煙草研發(fā)數(shù)據(jù)。
主題數(shù)據(jù)服務(wù)功能技術(shù)架構(gòu)如圖7所示。
圖7 主題數(shù)據(jù)管理功能技術(shù)架構(gòu)圖
血緣梳理模塊根據(jù)用戶選定主題,基于數(shù)據(jù)表字段信息,從數(shù)據(jù)庫和數(shù)據(jù)表兩個(gè)層次梳理不同源數(shù)據(jù)間血緣關(guān)系,構(gòu)建分層數(shù)據(jù)血緣關(guān)系拓?fù)鋱D。
邏輯映射模塊根據(jù)數(shù)據(jù)血緣關(guān)系,將繁雜的煙草研發(fā)體系原始數(shù)據(jù)映射至緊扣主題、關(guān)系清晰的主題數(shù)據(jù),將原始數(shù)據(jù)權(quán)限規(guī)則轉(zhuǎn)換為主題數(shù)據(jù)權(quán)限規(guī)則。
在數(shù)據(jù)權(quán)限上,該平臺(tái)引用了Ranger(https://ranger.apache.org/)作為整個(gè)大數(shù)據(jù)平臺(tái)的權(quán)限管理服務(wù)。在平臺(tái)的構(gòu)建過程中, Hive數(shù)據(jù)庫與平臺(tái)的用戶體系(認(rèn)證)掛鉤,利用Ranger的數(shù)據(jù)權(quán)限的功能(可針對(duì)到庫、表、字段甚至行一級(jí)別),管理者可以很好地控制平臺(tái)用戶的數(shù)據(jù)使用權(quán)限,對(duì)應(yīng)用戶只能看到被分配的數(shù)據(jù),并且可對(duì)敏感數(shù)據(jù)進(jìn)行加密或者去除,保障了數(shù)據(jù)資產(chǎn)的安全性。
通過數(shù)據(jù)主題服務(wù),能夠?qū)煵菅邪l(fā)業(yè)務(wù)中的如原料、配方、材輔料等某一主題相關(guān)的數(shù)據(jù)從來源繁雜、多源異構(gòu)的狀態(tài),轉(zhuǎn)化為標(biāo)準(zhǔn)、統(tǒng)一的主題數(shù)據(jù),從而便于“非數(shù)據(jù)專家用戶”理解及使用。
平臺(tái)提供了可視化的數(shù)據(jù)編排工具,用戶可以根據(jù)自己的需求以及邏輯使用編排器提供的組件自由組合和處理數(shù)據(jù)。這樣的設(shè)計(jì)可以有效地降低用戶對(duì)大數(shù)據(jù)分析技術(shù)的要求,簡化大數(shù)據(jù)分析過程的操作,使得“非數(shù)據(jù)專家用戶”也能便捷地使用該服務(wù)。
圖8為通過編排器生成的一個(gè)主題數(shù)據(jù)的流程圖。編排器上的每個(gè)節(jié)點(diǎn)為針對(duì)數(shù)據(jù)進(jìn)行的一個(gè)細(xì)粒度的操作,編排器在執(zhí)行時(shí)會(huì)將這些節(jié)點(diǎn)組合起來形成一個(gè)有向無環(huán)的流程圖,并發(fā)送給Spark成為各自的算子。在編排器的任務(wù)執(zhí)行時(shí),Spark會(huì)調(diào)用相應(yīng)數(shù)據(jù)與分析算法運(yùn)行數(shù)據(jù)分析處理邏輯,返回分析處理結(jié)果在可視化編輯層展示。
圖8 數(shù)據(jù)編排器示例圖
經(jīng)過分析處理后的結(jié)果會(huì)以Parquet的形式回存到數(shù)據(jù)平臺(tái)內(nèi)部,并可以在前臺(tái)構(gòu)建成為數(shù)據(jù)緩存或者可視化組件的數(shù)據(jù)源,用以提供后續(xù)再編排或者實(shí)際用戶的分析使用。
數(shù)據(jù)分析編排器整體技術(shù)框架如圖9所示。
圖9 數(shù)據(jù)分析編排器整體技術(shù)框架
數(shù)據(jù)編排器與前置的功能緊密結(jié)合,同時(shí),構(gòu)建編排來源的輸入節(jié)點(diǎn)與來源數(shù)據(jù)的變化直接掛鉤。除了可以自己制定任務(wù)編排的執(zhí)行計(jì)劃時(shí)間以外,當(dāng)某個(gè)數(shù)據(jù)匯聚的任務(wù)結(jié)束或者已有的主題數(shù)據(jù)重新生成的時(shí)候,平臺(tái)會(huì)對(duì)任何引用了對(duì)應(yīng)數(shù)據(jù)的編排任務(wù)進(jìn)行自動(dòng)更新,并重啟該任務(wù)刷新已有的輸出結(jié)果。數(shù)據(jù)分析編排工具的底層在輸出到主題數(shù)據(jù)的同時(shí)也會(huì)自動(dòng)構(gòu)建主題的血緣關(guān)系,以達(dá)到自動(dòng)化構(gòu)建映射關(guān)系的目的。
數(shù)據(jù)分析編排器可讓“非數(shù)據(jù)專家用戶”便捷地實(shí)現(xiàn)數(shù)據(jù)的分析及圖形化編排,對(duì)于云南中煙的研發(fā)數(shù)據(jù)體系,用戶即可對(duì)原料、配方、材輔料等某一主題的數(shù)據(jù)進(jìn)行編排分析,也可實(shí)現(xiàn)對(duì)多個(gè)主題數(shù)據(jù)的交叉編排分析,從而為真正實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)研發(fā)業(yè)務(wù)提供了應(yīng)用基礎(chǔ)。
以云南中煙煙草研發(fā)體系數(shù)據(jù)為例,構(gòu)建滿足上述功能的大數(shù)據(jù)分析云平臺(tái),自動(dòng)匯聚原料綜管、精益研發(fā)、煙葉配方、主數(shù)據(jù)管理等13個(gè)信息系統(tǒng),共計(jì)259億余條數(shù)據(jù),梳理物料管理、實(shí)驗(yàn)室管理等主題業(yè)務(wù)的數(shù)據(jù)血緣關(guān)系并構(gòu)建相應(yīng)主題數(shù)據(jù)庫,完成“實(shí)驗(yàn)室數(shù)據(jù)分析”“物料管理優(yōu)化”“原料庫存結(jié)構(gòu)優(yōu)化”等多個(gè)業(yè)務(wù)場景的大數(shù)據(jù)分析應(yīng)用。
以“實(shí)驗(yàn)室數(shù)據(jù)分析”應(yīng)用為例,對(duì)面向用戶的云南中煙煙草研發(fā)體系大數(shù)據(jù)云平臺(tái)的應(yīng)用流程與應(yīng)用結(jié)果進(jìn)行實(shí)例驗(yàn)證。
“實(shí)驗(yàn)室數(shù)據(jù)分析”應(yīng)用實(shí)例(簡稱“應(yīng)用實(shí)例”),綜合各類型實(shí)驗(yàn)室監(jiān)測數(shù)據(jù)分析,分析卷煙生產(chǎn)質(zhì)量及其監(jiān)控現(xiàn)狀,了解卷煙質(zhì)量監(jiān)控實(shí)際情況,實(shí)時(shí)分析實(shí)驗(yàn)室設(shè)備的使用情況、使用飽和度等,以保障卷煙產(chǎn)品質(zhì)量、風(fēng)格穩(wěn)定,是一個(gè)典型的大數(shù)據(jù)分析應(yīng)用場景。
3.2.1數(shù)據(jù)自動(dòng)匯聚
“實(shí)驗(yàn)室數(shù)據(jù)分析”應(yīng)用實(shí)例的數(shù)據(jù)來源主要為實(shí)驗(yàn)室信息管理系統(tǒng),數(shù)據(jù)自動(dòng)匯聚方案設(shè)計(jì)如表1所示。
表1 實(shí)驗(yàn)室信息管理系統(tǒng)數(shù)據(jù)自動(dòng)匯聚方案
3.2.2血緣關(guān)系分析
卷煙及其原料、香精香料、物料等相關(guān)的理化實(shí)驗(yàn)檢測結(jié)果數(shù)據(jù),均通過實(shí)驗(yàn)分析過程獲取,為此,以“實(shí)驗(yàn)編號(hào)”集合為主題“源”數(shù)據(jù),自動(dòng)梳理應(yīng)用實(shí)例相關(guān)的數(shù)據(jù)后所得到的血緣關(guān)系如圖10所示。
圖10 數(shù)據(jù)血緣關(guān)系拓?fù)涫纠?/p>
3.2.3流程編排運(yùn)行
采用數(shù)據(jù)分析編排器,以拖拽的方式,構(gòu)建如圖8所示的應(yīng)用實(shí)例的數(shù)據(jù)分析處理邏輯。經(jīng)過圖9所示的應(yīng)用實(shí)例中的各項(xiàng)數(shù)據(jù)編排處理后,可通過平臺(tái)內(nèi)可視化組件形成如圖11所示的可視化表達(dá)結(jié)果。具體地,通過可視化呈現(xiàn)了實(shí)驗(yàn)室的各類統(tǒng)計(jì)數(shù)據(jù),如人員統(tǒng)計(jì)、設(shè)備統(tǒng)計(jì)、生產(chǎn)報(bào)告、承接任務(wù)統(tǒng)計(jì)等。另外,可以進(jìn)一步查看實(shí)驗(yàn)室設(shè)備的使用飽和度及貢獻(xiàn)度,同時(shí),對(duì)各項(xiàng)檢測指標(biāo)進(jìn)行分析,可以得到各卷煙廠產(chǎn)品的物理指標(biāo)穩(wěn)定性及化學(xué)指標(biāo)穩(wěn)定性情況。
圖11 可視化分析結(jié)果的展示界面
本文以“實(shí)驗(yàn)室數(shù)據(jù)分析”為實(shí)例,自動(dòng)匯聚LIMS系統(tǒng)中的卷煙原料、香精香料、物料的理化實(shí)驗(yàn)檢測數(shù)據(jù),與實(shí)驗(yàn)相關(guān)的人、機(jī)、物、料、環(huán)管理數(shù)據(jù),以“實(shí)驗(yàn)編號(hào)”集合為主題源數(shù)據(jù),自動(dòng)梳理應(yīng)用實(shí)例相關(guān)數(shù)據(jù)血緣關(guān)系,采用數(shù)據(jù)分析編排器,構(gòu)建并自動(dòng)執(zhí)行應(yīng)用實(shí)例的數(shù)據(jù)分析處理邏輯,得到應(yīng)用實(shí)例的大數(shù)據(jù)分析結(jié)果。
應(yīng)用實(shí)例的分析過程與分析結(jié)果表明,面向用戶的煙草研發(fā)體系大數(shù)據(jù)分析云平臺(tái),采用分層架構(gòu),實(shí)現(xiàn)上層應(yīng)用對(duì)底層服務(wù)的封裝。其中,上層應(yīng)用使用拖拽式數(shù)據(jù)分析處理流程編排,封裝復(fù)雜的大數(shù)據(jù)分析算法技術(shù)和繁雜的煙草研發(fā)體系數(shù)據(jù),降低用戶使用大數(shù)據(jù)分析技術(shù)驅(qū)動(dòng)煙草研發(fā)業(yè)務(wù)發(fā)展的技術(shù)要求。底層服務(wù)的數(shù)據(jù)自動(dòng)匯聚方案根據(jù)預(yù)設(shè)數(shù)據(jù)采集模式,自動(dòng)匯聚煙草研發(fā)原始數(shù)據(jù),無須用戶主動(dòng)干預(yù);主題數(shù)據(jù)服務(wù)根據(jù)用戶指定主題,自動(dòng)梳理主題數(shù)據(jù)血緣關(guān)系,構(gòu)建主題數(shù)據(jù)庫,為用戶提供規(guī)范化的數(shù)據(jù)管理與應(yīng)用服務(wù)。
煙草研發(fā)業(yè)務(wù)環(huán)節(jié)眾多,涵蓋配方、原料、煙用材料、調(diào)香、工藝、消費(fèi)行為等方面,各業(yè)務(wù)平臺(tái)系統(tǒng)復(fù)雜多樣,數(shù)據(jù)異構(gòu)異質(zhì)。如何梳理研發(fā)業(yè)務(wù)中所產(chǎn)生的海量數(shù)據(jù),盤活數(shù)據(jù)資產(chǎn),是行業(yè)內(nèi)目前面臨的一個(gè)課題。
本文所構(gòu)建的面向煙草行業(yè)研發(fā)應(yīng)用的大數(shù)據(jù)分析平臺(tái),采用了分層架構(gòu)體系以及下層服務(wù)對(duì)上層應(yīng)用透明機(jī)制。概括來說,本文所述大數(shù)據(jù)分析平臺(tái)的構(gòu)建,具有幾個(gè)方面的典型特點(diǎn),即數(shù)據(jù)自動(dòng)采集功能可屏蔽業(yè)務(wù)數(shù)據(jù)來源、數(shù)據(jù)類型的復(fù)雜性,面向業(yè)務(wù)的
主題數(shù)據(jù)管理功能可簡化對(duì)海量復(fù)雜數(shù)據(jù)的管理,可視化數(shù)據(jù)分析編排器則能夠封裝各類型復(fù)雜數(shù)據(jù)分析算法及其數(shù)據(jù)分析應(yīng)用。
通過上述體系及機(jī)制,可讓用戶在基于該平臺(tái)進(jìn)行煙草研發(fā)數(shù)據(jù)的分析挖掘時(shí),更專注于研發(fā)業(yè)務(wù)本身,有利于大數(shù)據(jù)分析技術(shù)在煙草研發(fā)體系中的推廣應(yīng)用,為煙草研發(fā)體系業(yè)務(wù)的發(fā)展提供了可落地應(yīng)用的手段和方法。與此同時(shí),本文所提出的大數(shù)據(jù)平臺(tái)的構(gòu)建和實(shí)施機(jī)制為類似的大數(shù)據(jù)業(yè)務(wù)場景提供了參考和借鑒。