張 媛,李 海,冷煒鑭,丁 婕,江 濤
(中石油川慶鉆探工程有限公司,成都 610051)
油氣田工程技術(shù)服務(wù)企業(yè)主營(yíng)鉆井工程、錄井、固井、儲(chǔ)層改造、試修井及油氣合作開發(fā)等業(yè)務(wù)。生產(chǎn)經(jīng)營(yíng)業(yè)務(wù)活動(dòng)中涉及工程實(shí)時(shí)監(jiān)控分析、經(jīng)營(yíng)分析、供應(yīng)鏈管理等數(shù)據(jù)應(yīng)用。企業(yè)對(duì)全量數(shù)據(jù)挖掘、全局?jǐn)?shù)據(jù)分析,實(shí)時(shí)數(shù)據(jù)查詢、即席自助分析的需求日益迫切,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)方法已經(jīng)無法滿足更高、更快、更靈活、更個(gè)性的業(yè)務(wù)需要,企業(yè)對(duì)數(shù)據(jù)共享、數(shù)據(jù)價(jià)值的挖掘提出了更高的要求,希望能夠進(jìn)一步打破數(shù)據(jù)的孤島,希望看到更全面的數(shù)據(jù)并能靈活地按需取用數(shù)據(jù)以及更快捷地實(shí)現(xiàn)各領(lǐng)域的業(yè)務(wù)及數(shù)據(jù)的應(yīng)用需求,傳統(tǒng)的建設(shè)方式和技術(shù)手段已經(jīng)無法滿足當(dāng)前的需求。從成本和服務(wù)復(fù)雜度考慮,建設(shè)企業(yè)集中的大數(shù)據(jù)基礎(chǔ)平臺(tái)是滿足需求的必然選擇,能夠?qū)崿F(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新。通過大數(shù)據(jù)基礎(chǔ)平臺(tái)建設(shè)[1],統(tǒng)一規(guī)劃、統(tǒng)一建設(shè),將數(shù)據(jù)復(fù)用能力沉淀下來,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)模型重用,靈活、高效地提供數(shù)據(jù)服務(wù)。包括從數(shù)據(jù)匯聚、存儲(chǔ)、治理、開發(fā)到數(shù)據(jù)服務(wù)的一整套數(shù)據(jù)使用的機(jī)制以及政企的數(shù)據(jù)運(yùn)營(yíng)的能力。
工程技術(shù)服務(wù)企業(yè)存在多個(gè)維度的大數(shù)據(jù)應(yīng)用場(chǎng)景。各個(gè)場(chǎng)景根據(jù)業(yè)務(wù)域的不同劃分為工程實(shí)時(shí)分析、智慧供應(yīng)鏈、項(xiàng)目全生命周期管理、集團(tuán)企業(yè)經(jīng)營(yíng)分析、企業(yè)流程優(yōu)化。
油氣田工程技術(shù)服務(wù)的主營(yíng)業(yè)務(wù)——鉆井工程技術(shù)服務(wù)會(huì)產(chǎn)生大量的工程數(shù)據(jù),以往只用于基礎(chǔ)的日?qǐng)?bào)采集、實(shí)時(shí)監(jiān)測(cè),以后可利用大數(shù)據(jù)技術(shù)進(jìn)行跨系統(tǒng)的數(shù)據(jù)共享、數(shù)據(jù)交互,結(jié)合高性能計(jì)算和數(shù)據(jù)挖掘分析[2],支撐鉆頭優(yōu)選、事故預(yù)測(cè)、事故診斷及處理、鉆進(jìn)軌跡分析、設(shè)備智能診斷等以往需要專業(yè)軟件才能實(shí)現(xiàn)的應(yīng)用場(chǎng)景,利用大數(shù)據(jù)海量存儲(chǔ)和實(shí)時(shí)處理技術(shù),也可以顯示多個(gè)鉆井現(xiàn)場(chǎng)乃至整個(gè)區(qū)域的鉆井?dāng)?shù)據(jù)并實(shí)現(xiàn)交互式實(shí)時(shí)分析,大大提高數(shù)據(jù)分析的精度及準(zhǔn)度。
工程數(shù)據(jù)服務(wù)企業(yè)供應(yīng)鏈包含物資采購、倉儲(chǔ)管理、物流管理三大環(huán)節(jié),但這3 個(gè)環(huán)節(jié)由不同的部門和專業(yè)公司負(fù)責(zé),系統(tǒng)及數(shù)據(jù)相互獨(dú)立,傳統(tǒng)供應(yīng)鏈的敏捷性較低,基于傳統(tǒng)供應(yīng)鏈信息系統(tǒng)如ERP、條碼管理系統(tǒng)在智能化升級(jí)時(shí)也較困難,無法適應(yīng)工程技術(shù)服務(wù)定制化、靈活化的特點(diǎn)。利用大數(shù)據(jù)技術(shù)可以賦予企業(yè)生產(chǎn)供應(yīng)鏈高度的定制化,用于生產(chǎn)計(jì)劃與采購計(jì)劃關(guān)聯(lián)分析、采購及供貨周期方案預(yù)測(cè)、物資庫存物料需求影響因素分析、倉儲(chǔ)共享及自動(dòng)平庫、智慧物流等[3]。
工程技術(shù)服務(wù)企業(yè)業(yè)務(wù)活動(dòng)經(jīng)常采取項(xiàng)目制,項(xiàng)目過程產(chǎn)生海量的結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術(shù)將項(xiàng)目數(shù)據(jù)進(jìn)行整合并提煉,形成項(xiàng)目管理的數(shù)據(jù)平臺(tái),積極地利用云計(jì)算和數(shù)據(jù)挖掘技術(shù)、分析技術(shù)建立各類數(shù)據(jù)之間的關(guān)聯(lián)模型,利用數(shù)據(jù)分析發(fā)現(xiàn)可能存在的問題[4]。用于項(xiàng)目預(yù)算方案編制、過程控制、項(xiàng)目后評(píng)價(jià)分析等。
傳統(tǒng)經(jīng)營(yíng)數(shù)據(jù)分散于ERP、FMIS 等多個(gè)信息系統(tǒng),同時(shí)由各專業(yè)公司分別管理,無法快速地統(tǒng)計(jì)和分析。跨專業(yè)、跨部門的企業(yè)級(jí)經(jīng)營(yíng)分析工作效率比較低。利用大數(shù)據(jù)技術(shù)可以消除跨部門、跨專業(yè)數(shù)據(jù)孤島,構(gòu)建靈活的數(shù)據(jù)統(tǒng)計(jì)共享,實(shí)現(xiàn)場(chǎng)景模擬、可視化規(guī)劃、企業(yè)快速畫像展現(xiàn)等,為企業(yè)領(lǐng)導(dǎo)層制定戰(zhàn)略決策提供支撐,提高輔助決策能力??蓱?yīng)用于全面預(yù)算、規(guī)劃分析、預(yù)警/預(yù)判、可視化決策、戰(zhàn)略情報(bào)分析、市場(chǎng)運(yùn)營(yíng)分析等[5]。
工程技術(shù)服務(wù)企業(yè)重視流程化管理,企業(yè)管理需要實(shí)現(xiàn)多個(gè)流程系統(tǒng)數(shù)據(jù)整合,規(guī)范流程數(shù)據(jù)基礎(chǔ),保證數(shù)據(jù)準(zhǔn)確性。在數(shù)據(jù)整合的基礎(chǔ)上,構(gòu)建流程效率分析、問題診斷、預(yù)警監(jiān)控平臺(tái),實(shí)現(xiàn)對(duì)OA、ERP、BPM 等系統(tǒng)流程數(shù)據(jù)的統(tǒng)計(jì)、分析和預(yù)警,輸出多指標(biāo)多場(chǎng)景分析報(bào)告,消除堵塞流程、冗余流程,實(shí)現(xiàn)業(yè)務(wù)流程常態(tài)化運(yùn)營(yíng)。
大數(shù)據(jù)基礎(chǔ)平臺(tái)需要為工程技術(shù)服務(wù)公司各類應(yīng)用提供海量數(shù)據(jù)整合、存儲(chǔ)、計(jì)算、查詢、分析、展現(xiàn)等基礎(chǔ)性支撐功能[6]。平臺(tái)核心分布式存儲(chǔ)與計(jì)算組件采用Hadoop 技術(shù)體系中分布式存儲(chǔ)(HDFS、HBase、Hive 等)、分布式計(jì)算框架(Spark),結(jié)合數(shù)據(jù)抽?。‥TL)、大數(shù)據(jù)搜索引擎(ElasticSearch)、數(shù)據(jù)挖掘分析(SAS、SPSS 等)、數(shù)據(jù)可視化(BI)等技術(shù),構(gòu)建起企業(yè)大數(shù)據(jù)應(yīng)用服務(wù)生態(tài)。
圖1 大數(shù)據(jù)基礎(chǔ)平臺(tái)架構(gòu)設(shè)計(jì)
大數(shù)據(jù)基礎(chǔ)平臺(tái)系統(tǒng)數(shù)據(jù)主要來源于生產(chǎn)經(jīng)營(yíng)相關(guān)信息系統(tǒng),例如FMIS 系統(tǒng)、電子采購系統(tǒng)、專業(yè)系統(tǒng)等,數(shù)據(jù)庫類型有oracle、mysql、SQLserver 等,針對(duì)不同的數(shù)據(jù)類型,采用不同的數(shù)據(jù)采集策略。通用數(shù)據(jù)采集方式包括OGG、Kafka、ETL工具、離線文件等方式,根據(jù)源系統(tǒng)的特點(diǎn)以及對(duì)外提供的數(shù)據(jù)接口類型選擇合適的方式進(jìn)行數(shù)據(jù)采集,數(shù)據(jù)可按需進(jìn)入HDFS、Hive、Hbase 數(shù)據(jù)庫中進(jìn)行存儲(chǔ)。企業(yè)半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)包括日志文件、XML 文檔、JSON 文檔、Email、報(bào)表、圖像和音頻/視頻信息等文件數(shù)據(jù),這些數(shù)據(jù)分散在不同的系統(tǒng)或硬件設(shè)備之上,可采用抽取工具或者接口進(jìn)行采集,例如Kafka、離線文件、REST api 接口等方式,數(shù)據(jù)采集完成后統(tǒng)一存儲(chǔ)管理。
數(shù)據(jù)存儲(chǔ)設(shè)計(jì)按照數(shù)據(jù)類型分為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),不同的存儲(chǔ)方式對(duì)應(yīng)著大數(shù)據(jù)分析平臺(tái)不同的數(shù)據(jù)區(qū)域,結(jié)構(gòu)化數(shù)據(jù)一般存儲(chǔ)在Hive、Hbase 數(shù)據(jù)庫中,非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在HDFS 文件系統(tǒng)、MongoDB 中。結(jié)構(gòu)化數(shù)據(jù)從業(yè)務(wù)系統(tǒng)采集到大數(shù)據(jù)基礎(chǔ)平臺(tái),統(tǒng)一存儲(chǔ)在貼源數(shù)據(jù)區(qū)中,貼源數(shù)據(jù)與源系統(tǒng)數(shù)據(jù)基本保持一致;主題模型明細(xì)區(qū)數(shù)據(jù)根據(jù)不同的業(yè)務(wù)主題對(duì)數(shù)據(jù)進(jìn)行歸類,主題模型匯總區(qū)按照一定的計(jì)算邏輯進(jìn)行數(shù)據(jù)匯總,通過合并計(jì)算數(shù)據(jù)量大幅降低;數(shù)據(jù)集市區(qū)分為公共類集市和專題類集市,支撐不同的數(shù)據(jù)分析應(yīng)用。非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)需要進(jìn)行數(shù)據(jù)的解析、數(shù)據(jù)識(shí)別及數(shù)據(jù)結(jié)構(gòu)化處理,支持圖處理和自然語言識(shí)別。利用大數(shù)據(jù)分析技術(shù)進(jìn)行圖處理和自然語言的識(shí)別,并對(duì)信息進(jìn)行結(jié)構(gòu)化處理,統(tǒng)一存儲(chǔ)在主題數(shù)據(jù)區(qū)中進(jìn)行分析,也可與結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。
數(shù)據(jù)計(jì)算是數(shù)據(jù)分析的基礎(chǔ),數(shù)據(jù)計(jì)算包括離線計(jì)算、流計(jì)算等。數(shù)據(jù)計(jì)算功能由大數(shù)據(jù)分析平臺(tái)中的軟件工具提供,可作為公用的資源供不同的數(shù)據(jù)分析應(yīng)用使用。開發(fā)過程中,可根據(jù)業(yè)務(wù)場(chǎng)景的不同,選擇不同的數(shù)據(jù)計(jì)算方法進(jìn)行數(shù)據(jù)處理。
大數(shù)據(jù)分析平臺(tái)按照用戶數(shù)據(jù)分析的需求,提供敏捷分析、報(bào)表開發(fā)、智能分析、SQL 查詢能力;支持拖拽式敏捷開發(fā)模式,讓業(yè)務(wù)或數(shù)據(jù)分析人員無須了解代碼,即可構(gòu)建數(shù)據(jù)分析模型,提供多種圖形展示組件;支持普通報(bào)表的開發(fā)能力;支持智能分析模型開發(fā),支持機(jī)器學(xué)習(xí)和深度學(xué)習(xí)框架,提供從數(shù)據(jù)處理、模型訓(xùn)練、服務(wù)部署到預(yù)測(cè)的一站式服務(wù);支持可視化的SQL 開發(fā)、數(shù)據(jù)預(yù)覽、交互式查詢、復(fù)雜分析、探索分析的自助分析能力。
提供一個(gè)圖形化的任務(wù)配置、編排、監(jiān)控平臺(tái),支持開發(fā)人員進(jìn)行工作流設(shè)計(jì)、任務(wù)調(diào)試、調(diào)度和分析;支持Shell 腳本、SQL 節(jié)點(diǎn)(hive、impala、spark、oracle)、存儲(chǔ)過程、JDBC、HTTP、Python 節(jié) 點(diǎn)等任務(wù)類型,可自定義Java 任務(wù);支持任務(wù)狀態(tài)監(jiān)控,提供豐富的分析能力,如依賴關(guān)系、執(zhí)行歷史、甘特圖等,幫助開發(fā)人員診斷工作流的執(zhí)行狀況。
數(shù)據(jù)管理包括數(shù)據(jù)共享、業(yè)務(wù)目錄、技術(shù)目錄、數(shù)據(jù)血緣、質(zhì)量管理以及元數(shù)據(jù)管理。在元數(shù)據(jù)管理中主要針對(duì)大數(shù)據(jù)分析平臺(tái)內(nèi)存儲(chǔ)的數(shù)據(jù)進(jìn)行元數(shù)據(jù)抓取,并實(shí)現(xiàn)元數(shù)據(jù)集中存儲(chǔ),在元數(shù)據(jù)基礎(chǔ)上進(jìn)行血緣分析,依照平臺(tái)內(nèi)各類人員需要在權(quán)限滿足的情況下提供元數(shù)據(jù)應(yīng)用程序編程接口(API)。在業(yè)務(wù)目錄中提升目錄搭建、業(yè)務(wù)對(duì)象管理、表視圖關(guān)聯(lián)便捷度,通過業(yè)務(wù)目錄定位業(yè)務(wù)對(duì)象,支持?jǐn)?shù)據(jù)預(yù)覽、血緣查看,以便進(jìn)一步理解業(yè)務(wù)對(duì)象。在技術(shù)目錄中,按照貼源層、基礎(chǔ)層、通用層、應(yīng)用層定位自動(dòng)實(shí)現(xiàn)各層目錄創(chuàng)建,在權(quán)限允許的情況下可通過技術(shù)目錄查看預(yù)覽數(shù)據(jù)及血緣分析結(jié)果。在質(zhì)量管理中依照數(shù)據(jù)標(biāo)準(zhǔn),對(duì)質(zhì)量管理規(guī)則定義,預(yù)設(shè)檢查點(diǎn),執(zhí)行檢查任務(wù),定期出具檢查報(bào)告。
基礎(chǔ)管理模塊主要是面向大數(shù)據(jù)基礎(chǔ)平臺(tái)的管理和運(yùn)維人員,該模塊是其他模塊運(yùn)行的基礎(chǔ),主要負(fù)責(zé)運(yùn)行環(huán)境支持和安全保障,具體包括用戶管理、權(quán)限管理、流程管理、安全管理、運(yùn)營(yíng)管理等功能模塊。
平臺(tái)門戶為大數(shù)據(jù)基礎(chǔ)平臺(tái)提供了統(tǒng)一的用戶訪問界面,企業(yè)人員可通過門戶訪問大數(shù)據(jù)平臺(tái)的各類數(shù)據(jù)表、應(yīng)用、軟件。平臺(tái)門戶提供桌面PC 端web 瀏覽器訪問和移動(dòng)APP 訪問兩種方式。PC 應(yīng)用門戶提供全面的數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)共享和應(yīng)用、基礎(chǔ)管理等功能,大數(shù)據(jù)分析平臺(tái)開發(fā)及應(yīng)用均可利用PC 端門戶來實(shí)現(xiàn)。移動(dòng)APP 端門戶提供輕量級(jí)的應(yīng)用功能,例如指標(biāo)、報(bào)表、流程審批及查詢等功能支持APP在線查看。
大數(shù)據(jù)分析平臺(tái)應(yīng)用架構(gòu)從用戶視角分四個(gè)層次,分別是平臺(tái)層,應(yīng)用層、交互層、用戶層。其中平臺(tái)層是基礎(chǔ)支撐層,提供應(yīng)用運(yùn)行的核心引擎,采用分布式部署方式。包括大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)計(jì)算引擎、容器云服務(wù)引擎、系統(tǒng)管理控制服務(wù)。應(yīng)用層為各類用戶提供應(yīng)用資源,第一類是企業(yè)管理類應(yīng)用,主要服務(wù)于企業(yè)的管理層用戶;第二類是跨職能業(yè)務(wù)部門、專業(yè)公司業(yè)務(wù)的大數(shù)據(jù)應(yīng)用;第三類服務(wù)于平臺(tái)管理、數(shù)據(jù)管理、應(yīng)用開發(fā)和數(shù)據(jù)產(chǎn)品開發(fā)等人員,用于數(shù)據(jù)匯聚、數(shù)據(jù)分析、數(shù)據(jù)管理、用戶管理、系統(tǒng)管理與監(jiān)控、任務(wù)調(diào)度等數(shù)據(jù)開發(fā)和管理工作。
圖2 大數(shù)據(jù)基礎(chǔ)平臺(tái)應(yīng)用設(shè)計(jì)
油氣田工程技術(shù)服務(wù)企業(yè)大數(shù)據(jù)分析平臺(tái)的建設(shè)有助于提升企業(yè)數(shù)據(jù)應(yīng)用水平,促進(jìn)數(shù)據(jù)應(yīng)用創(chuàng)新與共享,有助于通過輔助管理提升實(shí)現(xiàn)降本增效,同時(shí)為工程技術(shù)服務(wù)企業(yè)實(shí)現(xiàn)數(shù)據(jù)共享和數(shù)據(jù)分析提供強(qiáng)大支持,并可為后續(xù)大數(shù)據(jù)分析與人工智能融合奠定基礎(chǔ)。
同時(shí),企業(yè)大數(shù)據(jù)基礎(chǔ)平臺(tái)建設(shè)是一個(gè)龐大且長(zhǎng)期的工程,既要達(dá)成實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)管理的目標(biāo),又要注意建設(shè)內(nèi)容符合公司業(yè)務(wù)實(shí)際,細(xì)致規(guī)劃。避免大而全、一次性建設(shè)造成投資浪費(fèi)。挑戰(zhàn)與風(fēng)險(xiǎn)并存,建議采用明確場(chǎng)景、結(jié)果導(dǎo)向、小步迭代的建設(shè)策略?;跇I(yè)務(wù)先行,系統(tǒng)支撐的原則,根據(jù)公司特點(diǎn)發(fā)現(xiàn)和實(shí)現(xiàn)價(jià)值。