張曉霞,李首濱,蘇上海,李 昊
(煤炭科學(xué)研究總院有限公司 礦山大數(shù)據(jù)研究院,北京 100013)
物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能、云計算是智慧煤礦的三大支撐[1],隨著煤炭行業(yè)工業(yè)化和信息化的逐步深度融合,采用先進的信息化技術(shù)解決煤炭行業(yè)在智能化、智慧化轉(zhuǎn)型中的問題成為迫切需求。智慧煤礦物聯(lián)網(wǎng)技術(shù)與裝備是智慧煤礦關(guān)鍵核心技術(shù)之一[2],隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展和快速應(yīng)用,現(xiàn)有煤礦各類監(jiān)控系統(tǒng)已經(jīng)實現(xiàn)了對于煤礦生產(chǎn)關(guān)鍵信息的基本感知,并通過綜采工作面自動化系統(tǒng)的應(yīng)用大幅促進了智能化開采技術(shù)的創(chuàng)新發(fā)展[3]。然而不同廠家的產(chǎn)品基于本企業(yè)標(biāo)準生產(chǎn),其數(shù)據(jù)接口與平臺各異,數(shù)據(jù)獨立進行處理,相互之間缺乏通信與融合,數(shù)據(jù)孤島與數(shù)據(jù)碎片化現(xiàn)象嚴重,因而難以形成有效的數(shù)據(jù)分析模型與算法,分析結(jié)果也就缺乏準確性,難以指導(dǎo)生產(chǎn)[2]。
針對智慧煤礦建設(shè)中面臨的上述挑戰(zhàn),行業(yè)專家和學(xué)者指出,需要研究通過邊緣計算和云計算服務(wù)實現(xiàn)設(shè)備數(shù)據(jù)互聯(lián)[3]。同時基于分布式計算技術(shù),通過大數(shù)據(jù)計算框架構(gòu)建智慧礦山多源異構(gòu)信息大數(shù)據(jù)服務(wù)平臺,對井下各類通信協(xié)議進行轉(zhuǎn)換、對各類傳感器采集的信息進行數(shù)據(jù)格式統(tǒng)一、數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換與校驗、數(shù)據(jù)建模、數(shù)據(jù)挖掘與深度融合,并通過建立統(tǒng)一的數(shù)據(jù)服務(wù)接口,為上層應(yīng)用提供統(tǒng)一的數(shù)據(jù)服務(wù),實現(xiàn)數(shù)據(jù)的共享[4]。
首先闡述了工業(yè)互聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)平臺、邊緣計算和邊緣云平臺的基本概念和技術(shù)體系,研究不同層級煤炭工業(yè)互聯(lián)網(wǎng)平臺的功能和定位,然后運用工業(yè)互聯(lián)網(wǎng)平臺體系架構(gòu)和技術(shù),借鑒工業(yè)互聯(lián)網(wǎng)平臺在其他行業(yè)的落地經(jīng)驗,進行了解決方案設(shè)計、相關(guān)技術(shù)研究和試驗驗證,提出了礦井工業(yè)互聯(lián)網(wǎng)平臺設(shè)計方案,以及礦井工業(yè)互聯(lián)網(wǎng)PaaS平臺的核心支撐大數(shù)據(jù)平臺技術(shù)實現(xiàn)方案。為智慧礦山建設(shè)提供大數(shù)據(jù)基礎(chǔ)平臺能力、數(shù)據(jù)管理和分析能力、數(shù)據(jù)建模和應(yīng)用支撐能力。
工業(yè)互聯(lián)網(wǎng)是新一代信息技術(shù)與制造業(yè)深度融合的產(chǎn)物,通過實現(xiàn)人、機、物的全面互聯(lián),構(gòu)建全要素、全產(chǎn)業(yè)鏈、全價值鏈全面連接的新型工業(yè)生產(chǎn)制造和服務(wù)體系,成為支撐第四次工業(yè)革命的基礎(chǔ)設(shè)施[5]。工業(yè)互聯(lián)網(wǎng)的核心是通過更大范圍、更深層次的連接實現(xiàn)對工業(yè)系統(tǒng)的全面感知,并通過對獲取的海量工業(yè)數(shù)據(jù)建模分析,形成智能化決策。
可以看出,工業(yè)互聯(lián)網(wǎng)的核心要素是數(shù)據(jù),從感知控制、數(shù)字模型、決策優(yōu)化3個基本層次形成數(shù)據(jù)核心功能,通過自下而上的信息流和自上而下的決策流形成了工業(yè)數(shù)字化應(yīng)用的優(yōu)化閉環(huán)[6]。從體系架構(gòu)發(fā)展上,工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟在2016年8月發(fā)布工業(yè)互聯(lián)網(wǎng)體系架構(gòu)1.0,到2020年4月發(fā)布工業(yè)互聯(lián)網(wǎng)體系架構(gòu)2.0,基本形成平臺、網(wǎng)絡(luò)、安全三大系統(tǒng),網(wǎng)絡(luò)是基礎(chǔ),安全是保障[6],工業(yè)互聯(lián)網(wǎng)平臺是整個工業(yè)互聯(lián)網(wǎng)的核心。通過網(wǎng)絡(luò)、平臺、安全三大功能體系構(gòu)建,全面打通設(shè)備資產(chǎn)、生產(chǎn)系統(tǒng)、管理系統(tǒng)和供應(yīng)鏈條,基于數(shù)據(jù)整合與分析實現(xiàn)IT(Information Technology)與OT (Operation Technology)的融合和三大體系的貫通[6]。
工業(yè)互聯(lián)網(wǎng)平臺是面向制造業(yè)數(shù)字化、網(wǎng)絡(luò)化、智能化需求,構(gòu)建基于海量數(shù)據(jù)采集、匯聚、分析的服務(wù)體系,支撐制造資源泛在連接、彈性供給、高效配置的工業(yè)云平臺[7]。
工業(yè)互聯(lián)網(wǎng)平臺包括邊緣層、平臺層和應(yīng)用層3個關(guān)鍵功能組成部分。邊緣層通過大范圍、深層次的數(shù)據(jù)采集,以及異構(gòu)數(shù)據(jù)的協(xié)議轉(zhuǎn)換與邊緣處理,構(gòu)建工業(yè)互聯(lián)網(wǎng)平臺的數(shù)據(jù)基礎(chǔ)。平臺層包括IaaS層和工業(yè)PaaS層,IaaS層提供云計算基礎(chǔ)設(shè)施,包括服務(wù)器、存儲、網(wǎng)絡(luò)資源和虛擬化,工業(yè)PaaS層基于通用PaaS疊加大數(shù)據(jù)處理、工業(yè)數(shù)據(jù)分析、工業(yè)微服務(wù)等創(chuàng)新功能,構(gòu)建可擴展的開放式云操作系統(tǒng)。應(yīng)用層形成滿足不同行業(yè)、不同場景的工業(yè)SaaS和工業(yè)APP,形成工業(yè)互聯(lián)網(wǎng)平臺的最終價值[7]。
國內(nèi)工業(yè)互聯(lián)網(wǎng)平臺發(fā)展迅速,IT企業(yè)和OT企業(yè)根據(jù)自身的背景和優(yōu)勢從不同的切入點進行發(fā)展,形成了一些典型的工業(yè)互聯(lián)網(wǎng)平臺。目前各類型平臺數(shù)量已有數(shù)百家[5]。由于不同行業(yè)的訴求差異比較大,各行業(yè)的工業(yè)互聯(lián)網(wǎng)平臺側(cè)重點和應(yīng)用場景也各不相同。
相比傳統(tǒng)的工業(yè)運營技術(shù)和信息化技術(shù),工業(yè)互聯(lián)網(wǎng)平臺的復(fù)雜度更高,部署和運營難度更大[5]。工業(yè)互聯(lián)網(wǎng)平臺是一項長期、艱巨、復(fù)雜的系統(tǒng)工程,整體上尚處在發(fā)展初期,技術(shù)水平還不能滿足全部工業(yè)應(yīng)用需求,還需要很長時間才能真正達到成熟發(fā)展階段[5]。
邊緣計算是指在靠近物或數(shù)據(jù)源頭的網(wǎng)絡(luò)邊緣側(cè),融合網(wǎng)絡(luò)、計算、存儲、應(yīng)用核心能力就近提供邊緣智能服務(wù)的開放平臺[8],可以緩解網(wǎng)絡(luò)傳輸、減輕云端壓力。工業(yè)互聯(lián)網(wǎng)邊緣計算從2016年開始研究,發(fā)展迅速,目前已有產(chǎn)業(yè)化應(yīng)用。
邊緣云的概念是相對云計算提出的,是結(jié)合云計算技術(shù)的核心和邊緣計算的能力,構(gòu)筑在邊緣基礎(chǔ)設(shè)施之上的云計算平臺,提供邊緣位置的計算、網(wǎng)絡(luò)、存儲、安全等彈性服務(wù),并與中心云和物聯(lián)網(wǎng)終端形成“云邊端三體協(xié)同”的端到端的技術(shù)架構(gòu)。
邊緣計算目前的探索中,有IT廠商、終端領(lǐng)域廠商和通信領(lǐng)域廠商,由于既有積累和行業(yè)經(jīng)驗的不同,給出的方案各有不同,實現(xiàn)方式上也采用不同的開源框架和底層技術(shù),存在各自的局限性。
智慧礦山建設(shè)中,從技術(shù)層面,煤礦數(shù)據(jù)的獲取利用、智能決策是需要重點突破的方向之一[9]。煤礦數(shù)據(jù)按照數(shù)據(jù)來源可以分為智慧感知、生產(chǎn)執(zhí)行、安全保障、生產(chǎn)經(jīng)營、綜合決策5個業(yè)務(wù)域[10]。按照數(shù)據(jù)特點來看,“非實時、長周期數(shù)據(jù)、業(yè)務(wù)決策型數(shù)據(jù)”主要集中在煤礦的設(shè)計管理、供應(yīng)鏈管理、生產(chǎn)計劃制定、外銷管理、成本分析等經(jīng)營管理領(lǐng)域,而“實時性、短周期數(shù)據(jù)、本地決策數(shù)據(jù)”則主要集中在智能化工作面、智能化掘進工作面和基于視頻識別的聯(lián)動控制等生產(chǎn)系統(tǒng)領(lǐng)域[11]。
根據(jù)上述兩類煤炭業(yè)務(wù)數(shù)據(jù)特點,非常適合采用工業(yè)互聯(lián)網(wǎng)平臺云-邊-端體系架構(gòu)進行一體化設(shè)計和部署。低延時、實時響應(yīng)運算用邊緣計算技術(shù)進行數(shù)據(jù)采集及處理。長周期、運算量大的模型訓(xùn)練、數(shù)據(jù)分析等通過云計算進行集中處理分析。
工業(yè)互聯(lián)網(wǎng)平臺實施框架貫穿設(shè)備、邊緣、企業(yè)和產(chǎn)業(yè)4個層級,通過實現(xiàn)工業(yè)數(shù)據(jù)采集、開展邊緣智能分析、構(gòu)建企業(yè)平臺和打造產(chǎn)業(yè)平臺,形成交互協(xié)同的多層次、體系化建設(shè)方案[6]。在煤炭行業(yè),根據(jù)數(shù)據(jù)特點和礦井、集團、行業(yè)不同層級的業(yè)務(wù)目標(biāo),工業(yè)互聯(lián)網(wǎng)平臺的落地應(yīng)該是多級分布式、混合云的架構(gòu)模式,通過設(shè)備層、邊緣節(jié)點、邊緣云與中心云構(gòu)成端-邊-云一體化協(xié)同平臺。設(shè)備層和邊緣節(jié)點組成邊緣系統(tǒng),在礦井層和集團層構(gòu)建企業(yè)級工業(yè)互聯(lián)網(wǎng)平臺,在全行業(yè)層構(gòu)建煤炭行業(yè)級工業(yè)互聯(lián)網(wǎng)平臺。整體部署層級如圖1所示。
圖1 煤礦工業(yè)互聯(lián)網(wǎng)平臺部署層級Fig.1 Hierarchical view of mine industrial internet platform
設(shè)備層包括礦井采掘運等各類生產(chǎn)運輸設(shè)備,是在物物、物人信息集成中需要被感知的對象,通過部署大量傳感器和攝像頭等感知設(shè)備獲得設(shè)備信息和生產(chǎn)過程信息。
邊緣節(jié)點主要解決煤礦井下各種設(shè)備通信協(xié)議不一致的問題,提供煤礦井下設(shè)備、生產(chǎn)、環(huán)境、人員等數(shù)據(jù)的采集、實時接入,并負責(zé)協(xié)議解析和預(yù)處理。
礦井邊緣云平臺實現(xiàn)生產(chǎn)數(shù)據(jù)的匯聚,通過大數(shù)據(jù)平臺進行數(shù)據(jù)整理加工、分析利用,支撐智能安全生產(chǎn)類應(yīng)用系統(tǒng)。
礦井中心云平臺進一步整合設(shè)計數(shù)據(jù)、運營數(shù)據(jù)、管理數(shù)據(jù)、服務(wù)數(shù)據(jù)等,實現(xiàn)生產(chǎn)數(shù)據(jù)與管理信息化系統(tǒng)數(shù)據(jù)的互聯(lián)互通和深度共享,打通設(shè)計、生產(chǎn)、運營、管理等各個環(huán)節(jié),實現(xiàn)全礦井的安全生產(chǎn)、高效管理。
集團級工業(yè)互聯(lián)網(wǎng)平臺匯聚來自不同礦井的數(shù)據(jù)資源,在更高層級進行數(shù)據(jù)互通,滿足集團級綜合運營、管理、指揮調(diào)度等業(yè)務(wù)需要。
煤炭行業(yè)級工業(yè)互聯(lián)網(wǎng)平臺的主要目的是構(gòu)建產(chǎn)業(yè)工業(yè)互聯(lián)網(wǎng)平臺,打通產(chǎn)業(yè)上下游資源,促進生態(tài)體系建設(shè)。
可以看出礦井邊緣云平臺是整個煤炭工業(yè)互聯(lián)網(wǎng)平臺體系的橋梁,是OT和IT的融合點,通過邊緣云平臺可以實現(xiàn)綜采工作面、掘進工作面等生產(chǎn)過程控制數(shù)據(jù)、環(huán)境、安全監(jiān)測數(shù)據(jù)與已有ERP等運營、管理數(shù)據(jù)之間的打通,充分發(fā)揮煤礦企業(yè)級大數(shù)據(jù)平臺數(shù)據(jù)綜合分析挖掘能力,實現(xiàn)生產(chǎn)效率、經(jīng)營管理能力的提升。從技術(shù)上,通過邊緣云平臺可把大量已有先進IT技術(shù)和平臺軟件應(yīng)用于全礦井。
重點研究礦井級工業(yè)互聯(lián)網(wǎng)平臺,聚焦邊緣云平臺PaaS能力建設(shè),通過大數(shù)據(jù)平臺提供大數(shù)據(jù)存儲計算、數(shù)據(jù)治理、數(shù)據(jù)建模、可視化分析等核心功能。
面向礦井級的工業(yè)互聯(lián)網(wǎng)平臺,設(shè)計上分為井下邊緣側(cè)平臺和地面邊緣云平臺兩級平臺。平臺整體技術(shù)方案如圖2所示。
圖2 礦井工業(yè)互聯(lián)網(wǎng)平臺技術(shù)方案Fig.2 Technical architecture of mine industrial internet platform
井下邊緣側(cè)平臺由邊緣側(cè)數(shù)據(jù)采集平臺和邊緣計算環(huán)境兩部分組成。數(shù)據(jù)采集平臺負責(zé)接入來自綜采工作面、掘進工作面等自動化控制系統(tǒng)的設(shè)備數(shù)據(jù)、生產(chǎn)過程數(shù)據(jù)、通過感知技術(shù)和物聯(lián)網(wǎng)技術(shù)獲取的安全監(jiān)測數(shù)據(jù)、環(huán)境感知數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)、工程數(shù)字化信息如地質(zhì)變化數(shù)據(jù)等全礦井實時數(shù)據(jù),主要功能為設(shè)備接入、協(xié)議解析、邊緣數(shù)據(jù)處理及緩存。邊緣計算環(huán)境負責(zé)支撐數(shù)據(jù)和智能應(yīng)用運行,完成推理決策等智能服務(wù),用于礦井生產(chǎn)現(xiàn)場的實時控制反饋。邊緣側(cè)平臺對采集到的數(shù)據(jù)進行必要的預(yù)處理后同時上傳到邊緣云平臺,用于統(tǒng)一存儲和分析利用。技術(shù)實現(xiàn)上,邊緣側(cè)主要以智能網(wǎng)關(guān)方式來實現(xiàn),在合適的硬件資源和操作系統(tǒng)之上,通過軟件方式實現(xiàn)各種工業(yè)總線協(xié)議的接入和轉(zhuǎn)換,通過容器等技術(shù)提供數(shù)據(jù)和智能應(yīng)用運行環(huán)境,選用開放式邊緣計算框架如KubeEdge提供云邊協(xié)同運行環(huán)境,進行大規(guī)模邊緣設(shè)備的管理等。
地面邊緣云平臺在PaaS層構(gòu)建大數(shù)據(jù)平臺,支持全礦井生產(chǎn)、安全、環(huán)境、地質(zhì)變化等相關(guān)異構(gòu)數(shù)據(jù)接入?yún)R聚和處理分析,是整個生產(chǎn)執(zhí)行系統(tǒng)運行的核心支撐。同時負責(zé)進行模型算法的離線訓(xùn)練和迭代更新,并將更新后的模型算法反饋到邊緣側(cè)。邊緣云平臺的IaaS層根據(jù)實際應(yīng)用場景可選擇傳統(tǒng)的服務(wù)器部署方式,或者采用虛擬化等技術(shù)提供計算、存儲等資源的靈活調(diào)度。
邊緣云平臺向下與邊緣側(cè)平臺構(gòu)建邊緣云端協(xié)同;而它本身已經(jīng)是云平臺,向上可以與礦井中心云平臺構(gòu)建多云/混合云協(xié)同框架,實現(xiàn)與煤礦經(jīng)營管理系統(tǒng)、辦公系統(tǒng)、企業(yè)管理等信息化系統(tǒng)之間的信息互聯(lián)互通。從而進一步與煤炭行業(yè)工業(yè)互聯(lián)網(wǎng)平臺實現(xiàn)數(shù)據(jù)互聯(lián)互通,促進產(chǎn)業(yè)協(xié)同。
大數(shù)據(jù)平臺整體設(shè)計借鑒互聯(lián)網(wǎng)領(lǐng)域及其他行業(yè)建設(shè)數(shù)據(jù)中臺的理念,采用分布式存儲和計算技術(shù),從功能上提供“數(shù)據(jù)+智能”的平臺和能力,實現(xiàn)全礦井多源異構(gòu)數(shù)據(jù)的一體化訪問、處理和管理。整體功能架構(gòu)如圖3所示。
圖3 礦井工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)平臺功能架構(gòu)Fig.3 Functional architecture of mine industrial internet bigdata platform
數(shù)據(jù)采集平臺從數(shù)據(jù)時效性上,提供來自傳感設(shè)備、自動化控制系統(tǒng)的實時數(shù)據(jù)獲取,同時提供井下和地面各種業(yè)務(wù)系統(tǒng)非實時數(shù)據(jù)的接入;從數(shù)據(jù)類型上提供結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)接入;數(shù)據(jù)接口上支持關(guān)系型數(shù)據(jù)庫、NoSql數(shù)據(jù)庫、文件系統(tǒng)、消息隊列等多種接入方式。
數(shù)據(jù)存儲和計算平臺采用分布式存儲和計算,融合數(shù)據(jù)湖和數(shù)據(jù)倉庫技術(shù),提供統(tǒng)一的海量數(shù)據(jù)存儲和管理,并能夠隨著數(shù)據(jù)體量的增長,隨需進行擴展。
數(shù)據(jù)治理平臺負責(zé)數(shù)據(jù)整合和管理,通過系統(tǒng)化的方法體系和相應(yīng)的工具,進行數(shù)據(jù)加工處理,解決數(shù)據(jù)準確性、質(zhì)量、共享、安全等問題,逐步為企業(yè)形成大數(shù)據(jù)資產(chǎn)。
數(shù)據(jù)分析與建模提供數(shù)據(jù)查詢統(tǒng)計分析、算法模型服務(wù),從簡單的統(tǒng)計匯總到利用人工智能技術(shù)進行建模,可逐步形成AI開發(fā)管理能力。
基于Hadoop的大數(shù)據(jù)技術(shù)在全球各大公司及技術(shù)愛好者的支持下,形成非常龐大也非常復(fù)雜的開源體系和生態(tài)。礦井工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)平臺在技術(shù)架構(gòu)設(shè)計和組件選型上主要圍繞煤炭業(yè)務(wù)需求,采用業(yè)界比較成熟穩(wěn)定的開源技術(shù)框架,輔以必要的商用基礎(chǔ)套件,兼顧技術(shù)的成熟度和前瞻性。整體技術(shù)架構(gòu)和組件選型如圖4所示。
圖4 礦井工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)平臺技術(shù)架構(gòu)Fig.4 Technical architecture of mine industrial internet bigdata platform
采集平臺需要覆蓋到各種類型數(shù)據(jù)的接入方式,技術(shù)選型上主要從組件架構(gòu)的合理性、易于二次開發(fā)、應(yīng)用廣泛等方面進行考量。日志和文件采集使用Flume,可以直接寫HDFS并支持壓縮、方便擴展。實時采集使用StreamSets,支持可視化開發(fā),不用編寫代碼即可完成數(shù)據(jù)的采集和ETL。離線數(shù)據(jù)同步使用在性能和資源利用率方面具有優(yōu)勢的DataX或Sqoop。ETL使用簡單實用的開源工具Kettle。
大數(shù)據(jù)基礎(chǔ)平臺的選型,存儲方面考慮到煤炭大數(shù)據(jù)的類型包括表、圖、音頻、視頻、日志等多種形式[18],在HDFS基礎(chǔ)上采用Kudu或HBase滿足低延遲、快速隨機讀寫需求的場景,時序數(shù)據(jù)使用InfluxDB,其高性能和高壓縮比適合工業(yè)環(huán)境傳感器數(shù)據(jù)的存儲,關(guān)系型數(shù)據(jù)使用簡單并易于擴展的MySQL,文檔型數(shù)據(jù)使用查詢性能優(yōu)異、操作方便的MongoDB,key-value型數(shù)據(jù)使用Redis,具有極高的性能并支持豐富的數(shù)據(jù)類型。MPP數(shù)據(jù)倉庫選用GreenPlum,主要基于其強大的并行計算能力和海量數(shù)據(jù)管理能力,非常適合作為OLAP數(shù)據(jù)倉庫。計算方面,離線計算使用核心的MapReduce,流計算使用業(yè)界最前沿且經(jīng)過實踐驗證的Spark、Flink;語音識別使用較常用的開源項目Simon,視頻分析使用性能良好、應(yīng)用廣泛的OpenCV。機器學(xué)習(xí)數(shù)據(jù)建模使用MLFlow、Kubeflow,MLFlow優(yōu)勢在于提供了端到端的機器學(xué)習(xí)生命周期管理,且與具體的機器學(xué)習(xí)庫無關(guān),Kubeflow特點在于原生支持Kubernetes。
圖5 大數(shù)據(jù)平臺試驗驗證系統(tǒng)Fig.5 Experimental verification system of bigdata platform
數(shù)據(jù)治理以Atlas為基礎(chǔ),具有數(shù)據(jù)血緣、集中策略引擎、安全和生命周期管理等核心治理能力,可以基于此進行擴展,增加數(shù)據(jù)資產(chǎn)管理的相關(guān)功能。
數(shù)據(jù)分析平臺的查詢、分析、可視化根據(jù)不同場景選擇不同技術(shù)方案。查詢檢索使用Solr或ElasticSearch,Elastic Search使用全文倒排引擎,檢索速度快,分布式架構(gòu)有很好的擴展性;數(shù)據(jù)分析可選擇Impala、Kylin、Presto,其中Impala兼顧數(shù)據(jù)倉庫、實時和批量等優(yōu)點,適合海量數(shù)據(jù)實時查詢分析;可視化展現(xiàn)使用Redash或Metabase,Redash簡單易用,提供豐富的RESTful API接口,方便二次開發(fā);Metabase界面漂亮友好,圖表可視化選項豐富靈活。
其他無特殊需求采用Hadoop體系框架通用組件,如資源管理器YARN,分布式服務(wù)協(xié)調(diào)Zookeeper,資源隔離和調(diào)度Kubernetes等。
為了對大數(shù)據(jù)平臺所選關(guān)鍵技術(shù)組件進行測試,搭建了如下實驗室技術(shù)驗證系統(tǒng)。
使用已部署至工作面的北京天瑪智控科技股份有限公司的SAM綜采工作面自動化系統(tǒng)(簡稱天瑪公司SAM系統(tǒng))中采集的數(shù)據(jù)為試驗數(shù)據(jù),對大數(shù)據(jù)存儲、計算、查詢能力進行試驗。主要工作內(nèi)容包括設(shè)計標(biāo)準化接口從天瑪公司SAM系統(tǒng)采集數(shù)據(jù)、進行數(shù)據(jù)集成、完成大數(shù)據(jù)平臺入庫存儲、開發(fā)任務(wù)調(diào)度平臺進行大數(shù)據(jù)任務(wù)編排和算法運行、通過數(shù)據(jù)服務(wù)接口供前端應(yīng)用調(diào)用。
數(shù)據(jù)采集入庫、查詢性能測試結(jié)果如圖6所示,平臺選用的技術(shù)組件在數(shù)據(jù)入庫性能、數(shù)據(jù)查詢時間和并發(fā)數(shù)上均優(yōu)于Hadoop傳統(tǒng)的Hive組件,滿足綜采工作面寫入和查詢的場景需求。
圖6 試驗平臺與原生Hadoop性能對比Fig.6 Performance comparison of experimental platform and original Hadoop
平臺計算能力通過乳化液泵油溫異常模式識別模型訓(xùn)練[20]進行測試,結(jié)果如圖7所示。訓(xùn)練過程中原始數(shù)據(jù)為幾萬行,數(shù)據(jù)處理過程中需要對數(shù)據(jù)進行時間維度的“升采樣”,數(shù)據(jù)量會擴大到幾十萬行,對于計算資源以及計算速度要求較高,可用于驗證大數(shù)據(jù)平臺計算支撐能力。從結(jié)果看,模型在訓(xùn)練及計算過程中達到了預(yù)期效果。
圖7 算法模型訓(xùn)練驗證Fig.7 Algorithm model training verification
1)從數(shù)據(jù)角度出發(fā),用工業(yè)互聯(lián)網(wǎng)體系框架設(shè)計了云邊端一體化的煤礦礦井級工業(yè)互聯(lián)網(wǎng)平臺技術(shù)方案。
2)完成了礦井大數(shù)據(jù)平臺架構(gòu)設(shè)計和技術(shù)選型,提供數(shù)據(jù)的采集、治理、分析、挖掘,支撐礦井智能化安全高效生產(chǎn)。
3)以綜采工作面自動化系統(tǒng)數(shù)據(jù)作為試驗數(shù)據(jù)進行技術(shù)驗證,整體方案可行,關(guān)鍵技術(shù)組件性能得到了驗證。
從工業(yè)互聯(lián)網(wǎng)平臺特別是邊緣云計算的架構(gòu)、技術(shù)、應(yīng)用場景來看,各行業(yè)都有適合自身的定制化方案,沒有統(tǒng)一標(biāo)準。雖然針對礦井生產(chǎn)自動化實際應(yīng)用場景從總體框架、功能架構(gòu)、技術(shù)架構(gòu)給出解決方案,但僅僅是起步探索,還沒有達到解決實際現(xiàn)場應(yīng)用復(fù)雜場景的要求。特別是部署架構(gòu),需要結(jié)合現(xiàn)場網(wǎng)絡(luò)條件、礦井已有信息化條件等在部署實施時進行進一步研究并尋找可落地方案。