徐杰 高???吳志強 王玉霞 張正雄
(國家管網(wǎng)集團科學技術(shù)研究總院分公司 河北省廊坊市 065000)
隨著管道業(yè)務(wù)領(lǐng)域信息化和自動化應(yīng)用不斷深入,陸續(xù)建成應(yīng)用了一批涵蓋生產(chǎn)管理、經(jīng)營管理、辦公管理的信息系統(tǒng),目前信息化建設(shè)雖然取得長足進展,但往往各自為政,無法實現(xiàn)有效的融合,數(shù)據(jù)往往并未產(chǎn)生具體的分析價值,成為沉睡的死數(shù)據(jù)。在業(yè)務(wù)驅(qū)動信息化的快速建設(shè)中,隨著數(shù)據(jù)量的增加,數(shù)據(jù)管理方面存在的問題也隨之突顯,如何統(tǒng)籌好各系統(tǒng)之間關(guān)系,形成企業(yè)級公共數(shù)據(jù)標準和接口規(guī)范,避免信息孤島,成為當務(wù)之急[1-3]。
大數(shù)據(jù)技術(shù)的興起為信息系統(tǒng)的融合應(yīng)用提供強有力的技術(shù)創(chuàng)新,啟動數(shù)據(jù)梳理并用數(shù)據(jù)驅(qū)動流程優(yōu)化,進而引導(dǎo)企業(yè)的管理提升和轉(zhuǎn)型。實施數(shù)據(jù)梳理是對信息系統(tǒng)內(nèi)部數(shù)據(jù)進行規(guī)范、為應(yīng)用集成提供基礎(chǔ)保障的必要措施,結(jié)合業(yè)務(wù)實際,應(yīng)用大數(shù)據(jù)技術(shù)對數(shù)據(jù)進行建模和分析,有助于提升精細化管理、油氣調(diào)運等環(huán)節(jié)的智能決策水平和經(jīng)營效率。
大數(shù)據(jù)技術(shù)架構(gòu)主要是針對一個集群而言,通過集群才能體現(xiàn)出大數(shù)據(jù)技術(shù)架構(gòu)的優(yōu)勢,一個大數(shù)據(jù)架構(gòu)平臺是多項新技術(shù)應(yīng)用的組合,技術(shù)比較全面的架構(gòu)平臺(圖1)。
圖1: 管道大數(shù)據(jù)平臺功能架構(gòu)
大數(shù)據(jù)處理架構(gòu)是集數(shù)據(jù)分析、數(shù)據(jù)采集、數(shù)據(jù)存儲與管理、數(shù)據(jù)計算與數(shù)據(jù)可視化以及數(shù)據(jù)安全與隱私保護等功能于一體,為大數(shù)據(jù)分析處理的手段和解決問題提供技術(shù)和平臺支撐。大數(shù)據(jù)分析計算與處理是大數(shù)據(jù)處理平臺的核心,主要是通過分布式計算框架來實現(xiàn),針對數(shù)據(jù)分析計算的分布式計算框架不僅提供高效的計算模型和簡單的編程接口,而且要要有很好的擴展性、容錯能力和高效的可靠的輸入輸出,以滿足大數(shù)據(jù)處理的需求。大數(shù)據(jù)處理架構(gòu)主要由數(shù)據(jù)采集層、存儲層、處理層和服務(wù)封裝層以及數(shù)據(jù)安全與隱私保護等多個部分組成。
大數(shù)據(jù)分析平臺是建設(shè)和實施大數(shù)據(jù)應(yīng)用所必需的基礎(chǔ)設(shè)施,從大數(shù)據(jù)存儲技術(shù)路線上看,最典型的有三種:第一種是采用MPP 架構(gòu)的新型數(shù)據(jù)庫集群,重點面向行業(yè)大數(shù)據(jù),通過列存儲、粗粒度索引等多項大數(shù)據(jù)處理技術(shù),具有高性能和高擴展性的特點,在企業(yè)分析類應(yīng)用領(lǐng)域獲得極其廣泛的應(yīng)用。第二種是基于Hadoop 的技術(shù)擴展和封裝,圍繞Hadoop 衍生出相關(guān)的大數(shù)據(jù)技術(shù),應(yīng)對傳統(tǒng)關(guān)系型數(shù)據(jù)庫較難處理的數(shù)據(jù)和場景,目前最為典型的應(yīng)用場景就是通過擴展和封裝Hadoop 來實現(xiàn)對互聯(lián)網(wǎng)大數(shù)據(jù)存儲、分析的支撐。第三種是大數(shù)據(jù)一體機,由一組集成的服務(wù)器、存儲設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)以及為數(shù)據(jù)查詢、處理、分析用途預(yù)先安裝的軟件組成,高性能大數(shù)據(jù)一體機具有良好的穩(wěn)定性和縱向擴展性。
目前主流大數(shù)據(jù)存儲平臺主要圍繞第二種。Hadoop的發(fā)行版除了社區(qū)的Apache hadoop 外,國內(nèi)外比較主流的大數(shù)據(jù)平臺主要有GE Predix、阿里數(shù)加、星環(huán)科技大數(shù)據(jù)平臺、華為FunsionInsight、昆侖數(shù)據(jù)KMX 平臺、開源平臺Ambari。
結(jié)合管道運行生產(chǎn)中已有的各類數(shù)據(jù)源,研究多源異構(gòu)數(shù)據(jù)采集方法和流程,不同采集周期、不同空間尺度下的多源數(shù)據(jù)清洗、轉(zhuǎn)換、缺失值與異常值處理,形成滿足大數(shù)據(jù)分析的數(shù)據(jù)格式。在實際的管道生產(chǎn)環(huán)境中,面對快速增長的管道數(shù)據(jù)集,選擇特定的模型計算框架,開發(fā)部署大數(shù)據(jù)模型,自動適應(yīng)數(shù)據(jù)量的成倍增長,在滿足模型計算的可靠性和準確性的前提下,確保模型運算的速度[4]。搭建基于Hadoop 的數(shù)據(jù)存儲環(huán)境,實現(xiàn)數(shù)據(jù)的分布式存儲,將管道運行決策模型集成到Hadoop 數(shù)據(jù)環(huán)境下,實現(xiàn)模型的快速計算和可視化展示。
大數(shù)據(jù)平臺將數(shù)據(jù)梳理標準為基礎(chǔ),參照業(yè)務(wù)需求通過數(shù)據(jù)整合及批處理計算引擎,實現(xiàn)與業(yè)務(wù)系統(tǒng)的數(shù)據(jù)同步,將數(shù)據(jù)存儲到大數(shù)據(jù)環(huán)境中,以支持基于大數(shù)據(jù)的實時查詢、數(shù)據(jù)分析、數(shù)據(jù)多維度統(tǒng)計、可視化展示,并支持外部應(yīng)用數(shù)據(jù)接口。平臺硬件采用云租用的方式,平臺軟件采用開源+商業(yè)產(chǎn)品混合的方式,底層存儲采用開源產(chǎn)品,計算框架采用商業(yè)產(chǎn)品,上層數(shù)據(jù)模型、業(yè)務(wù)模型、可視化、數(shù)據(jù)挖掘、數(shù)據(jù)同步。
大數(shù)據(jù)平臺系統(tǒng)硬件架構(gòu)采用分布式架構(gòu),并在云平臺中進行部署,與集中式架構(gòu)相比,數(shù)據(jù)不集中存儲在存儲設(shè)備上,而是分散在多個服務(wù)器的硬盤中。系統(tǒng)物理架構(gòu)設(shè)計為Demo 運行環(huán)境,能夠提供數(shù)據(jù)存儲及系統(tǒng)應(yīng)用服務(wù),在項目建設(shè)過程中,將用于開發(fā)、測試、培訓(xùn)。大數(shù)據(jù)集群中的節(jié)點,分為三個角色:客戶服務(wù)器、管理節(jié)點和計算節(jié)點??蛻舴?wù)器用于外部平臺與Hadoop 進行交互。管理節(jié)點用于集群管理,主要與接口服務(wù)器進行通訊,為接口服務(wù)器分配可用的計算節(jié)點,同時管理節(jié)點會維護計算節(jié)點上報的每個運行參數(shù)。計算節(jié)點是大數(shù)據(jù)平臺中的執(zhí)行者,主要用于數(shù)據(jù)存儲、執(zhí)行并行計算。
結(jié)和大數(shù)據(jù)平臺功能模塊按照分層邏輯,劃分為數(shù)據(jù)同步層、數(shù)據(jù)計算層、數(shù)據(jù)分析層、數(shù)據(jù)應(yīng)用層、平臺管理層及安全監(jiān)控層,功能結(jié)構(gòu)圖見圖2。
圖2: 管道大數(shù)據(jù)平臺功能結(jié)構(gòu)圖
數(shù)據(jù)同步層實現(xiàn)大數(shù)據(jù)平臺與各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)傳輸,包括針對業(yè)務(wù)管理平臺的離線數(shù)據(jù)抽取、針對SCADA 的實時數(shù)據(jù)抽取以及大數(shù)據(jù)平臺對外提供的數(shù)據(jù)訪問接口服務(wù)。
數(shù)據(jù)計算層按照主數(shù)據(jù)要求,對大數(shù)據(jù)平臺數(shù)據(jù)進行統(tǒng)一轉(zhuǎn)換,形成滿足后期數(shù)據(jù)分析、數(shù)據(jù)挖掘及可視化展示的數(shù)據(jù)格式,涉及批量數(shù)據(jù)的離線計算、實時數(shù)據(jù)的在線計算以及即席查詢計算。
數(shù)據(jù)分析層主要用于多維數(shù)據(jù)建模分析及數(shù)據(jù)挖掘,多維數(shù)據(jù)建模分析涉及不同數(shù)據(jù)源的集成,按照多維數(shù)據(jù)分析模型的要求,對齊分割各業(yè)務(wù)數(shù)據(jù),并在此基礎(chǔ)上實現(xiàn)數(shù)據(jù)多維度的鉆取、匯總、切片、旋轉(zhuǎn),數(shù)據(jù)挖掘主要用于各類業(yè)務(wù)場景數(shù)據(jù)計算,包括數(shù)據(jù)清洗轉(zhuǎn)化、模型驗證、挖掘算法支持。
數(shù)據(jù)應(yīng)用層針對天然氣管道運行優(yōu)化、內(nèi)外檢測數(shù)據(jù)綜合應(yīng)用及管網(wǎng)安全綜合預(yù)警3 個領(lǐng)域,實現(xiàn)管網(wǎng)運行工況深度分析、標準歷史工況集、在線預(yù)警、管道外腐蝕速率預(yù)測、管道缺陷修復(fù)及檢測規(guī)劃、管網(wǎng)綜合安全預(yù)警可視化等功能。針對大數(shù)據(jù)平臺分析結(jié)果,包括多維數(shù)據(jù)分析結(jié)果、業(yè)務(wù)模型挖掘結(jié)果、在線監(jiān)測數(shù)據(jù)結(jié)果,實現(xiàn)基于GIS 的管網(wǎng)安全信息可視化、實時預(yù)警信息展示、交叉分析報表等。
平臺管理層具有業(yè)務(wù)、應(yīng)用、平臺、設(shè)備層面全方位的監(jiān)控能力,提供故障的及時發(fā)現(xiàn)、及時告警能力及優(yōu)化診斷能力?;A(chǔ)指標監(jiān)控包括:機器性能指標、集群性能指標。日志管理用于搜集Hadoop 平臺的關(guān)鍵業(yè)務(wù)日志,便于運維和上層研發(fā)人員定位系統(tǒng)問題,提高異常處理速度。通過自動化方式實現(xiàn)大數(shù)據(jù)平臺配置信息快速同步,避免手動修改造成的人為錯誤,提高可靠性,尤其在系統(tǒng)調(diào)優(yōu)的情況下經(jīng)常使用。
安全管理層針對大數(shù)據(jù)平臺的管理權(quán)限進行管理,實現(xiàn)敏感數(shù)據(jù)的加密處理,針對大數(shù)據(jù)平臺重要事件、主要監(jiān)控指標發(fā)送告警信息,提醒運維人員即使進行后續(xù)處理操作。關(guān)注系統(tǒng)自身的安全性,防止來自系統(tǒng)層面的攻擊,同時為更高級安全防御措施提供系統(tǒng)級別的支持,權(quán)限管理、即提供文件、設(shè)備等底層資源的權(quán)限管理能力,防止越權(quán)訪問,操作審計,為更高級的審計提供數(shù)據(jù)和功能支持。
管道大數(shù)據(jù)平臺以現(xiàn)有業(yè)務(wù)系統(tǒng)為數(shù)據(jù)源主體,整合經(jīng)營管理數(shù)據(jù),利用大數(shù)據(jù)挖掘技術(shù),針對管道內(nèi)外檢測綜合分析、天然氣管道運行優(yōu)化、管網(wǎng)安全綜合監(jiān)控可視化3個場景進行應(yīng)用研究,應(yīng)用場景設(shè)計圖見圖3。
圖3: 管道大數(shù)據(jù)平臺應(yīng)用場景設(shè)計
綜合管道內(nèi)外檢測數(shù)據(jù)、風險評價數(shù)據(jù)、在線監(jiān)測運行數(shù)據(jù)、陰極保護數(shù)據(jù),針對管體外腐蝕開展研究:管道外腐蝕速率預(yù)測、管道缺陷修復(fù)計劃、管道再檢測周期。利用天然氣管道內(nèi)檢測信息、外檢測信息,結(jié)合歷史管道缺陷修復(fù)情況、生產(chǎn)計劃、失效記錄等信息,基于大數(shù)據(jù)、概率、隨機模擬等多種算法,針對管體腐蝕速率進行評估,為管體缺陷修復(fù)計劃及再檢測周期提供依據(jù)?;诮y(tǒng)一的規(guī)則,對各平臺的數(shù)據(jù)進行清洗、轉(zhuǎn)換、對齊、標準化處理,以形成滿足數(shù)據(jù)分析的數(shù)據(jù)格式。針對清洗后的數(shù)據(jù)內(nèi)容,分別采用描述性統(tǒng)計、聚類、關(guān)聯(lián)、回歸分析、多目標優(yōu)化、概率等方法進行建模,完成不同維度方向的數(shù)據(jù)分析。基于最優(yōu)模型進行腐蝕速率預(yù)測,并在此基礎(chǔ)上完成缺陷修復(fù)計劃及再檢測計劃的評估。
利用天然氣管道基礎(chǔ)數(shù)據(jù)、站場設(shè)備設(shè)施數(shù)據(jù)、SCADA 監(jiān)控數(shù)據(jù)、生產(chǎn)數(shù)據(jù)等歷史業(yè)務(wù)記錄,基于大數(shù)據(jù)分析模型,建立天然氣管網(wǎng)運行管理模型(數(shù)據(jù)分析規(guī)則),即充分借鑒管道管理人員和運行人員的行業(yè)經(jīng)驗,結(jié)合管道運行實際情況,實現(xiàn)數(shù)據(jù)分析規(guī)則的定制,構(gòu)建具有可執(zhí)行和可操作性的天然氣管道大數(shù)據(jù)運行優(yōu)化模型。與常規(guī)的仿真系統(tǒng)相比,模型的工況參數(shù)分析及優(yōu)化,調(diào)度運行方案方案比選,在線預(yù)測與預(yù)警等功能均是基于管道真實的歷史運行數(shù)據(jù)。
基于大數(shù)據(jù)分析模型,建立天然氣管網(wǎng)運行管理模型,結(jié)合管道運行實際情況,實現(xiàn)數(shù)據(jù)分析規(guī)則的定制,構(gòu)建具有可執(zhí)行和可操作性的天然氣管道大數(shù)據(jù)運行優(yōu)化模型??焖俜治龉艿缹崟r生產(chǎn)信息、運行情況及歷史數(shù)據(jù),增強對天然氣管道的管控能力和需求預(yù)測管理,優(yōu)化提高管道運行平穩(wěn)性和應(yīng)急保供能力。
研究利用已有的生產(chǎn)、經(jīng)營數(shù)據(jù),快速直觀地捕獲敏感數(shù)據(jù),及時準確地把握管網(wǎng)運行狀態(tài),即根據(jù)各類數(shù)據(jù)具有的空間特征、時間特征,建立多維數(shù)據(jù)模型,結(jié)合報表、圖形、地圖等可視化手段,提供基于圖形或圖表的交互操作,利用管道在線監(jiān)測信息、智能數(shù)據(jù)采集信息、檢測信息,結(jié)合管道基礎(chǔ)數(shù)據(jù)、歷史失效數(shù)據(jù)、歷史預(yù)警數(shù)據(jù)、生產(chǎn)計劃、失效記錄等信息,基于大數(shù)據(jù)可視化技術(shù),實現(xiàn)管網(wǎng)安全綜合監(jiān)控實時可視化展示。
本文從大數(shù)據(jù)的業(yè)務(wù)視角、數(shù)據(jù)視角研究與數(shù)據(jù)梳理工作相結(jié)合的大數(shù)據(jù)技術(shù)路線,滿足管道已有的業(yè)務(wù)模型、技術(shù)體系、數(shù)據(jù)資產(chǎn)等。建立一套符合管道現(xiàn)有基礎(chǔ)特點的大數(shù)據(jù)架構(gòu)體系,以管道數(shù)據(jù)梳理成果為基礎(chǔ),結(jié)合多源數(shù)據(jù)采集結(jié)果,利用多種數(shù)據(jù)分析算法進行特定業(yè)務(wù)分析,為管道的大數(shù)據(jù)試點應(yīng)用及落地給出建設(shè)思路。