李 斌
(佳訊飛鴻(北京)智能科技研究院有限公司,北京 100044)
近10年來(lái)鐵路行業(yè)高速發(fā)展,截止到2019年年底,國(guó)內(nèi)鐵路運(yùn)營(yíng)里程達(dá)13.9萬(wàn) km以上,其中高鐵3.5萬(wàn) km。伴隨著鐵路的高速發(fā)展,鐵路行業(yè)的信息基礎(chǔ)設(shè)施— 數(shù)據(jù)中心在中國(guó)國(guó)家鐵路集團(tuán)有限公司(簡(jiǎn)稱(chēng)國(guó)鐵集團(tuán))層面和18個(gè)鐵路局層面,穩(wěn)健有序的推進(jìn)和實(shí)施,為鐵路行業(yè)智能化演進(jìn)提供堅(jiān)實(shí)的基礎(chǔ)支撐。
在數(shù)據(jù)中心建設(shè)和運(yùn)維管理過(guò)程中,面臨著諸多的困難和挑戰(zhàn):IT基礎(chǔ)設(shè)施復(fù)雜度越來(lái)越高,廠商多,擴(kuò)展難,不同廠商產(chǎn)品升級(jí)周期不一,補(bǔ)丁過(guò)程復(fù)雜;數(shù)據(jù)中心多廠商、多產(chǎn)品集成方案成本高,集成、測(cè)試、開(kāi)通、運(yùn)營(yíng)、維護(hù)耗時(shí)耗力;異構(gòu)環(huán)境可用性管理復(fù)雜,在通常的虛擬環(huán)境中,整體可用性難以保證,應(yīng)用可用性更難管理;異構(gòu)的數(shù)據(jù)庫(kù)、Java層、消息層和Web層很難整體調(diào)優(yōu),整體性能難以保證;異構(gòu)環(huán)境增加數(shù)據(jù)中心運(yùn)維管理復(fù)雜度,部分職責(zé)不好界定,問(wèn)題診斷及解決問(wèn)題過(guò)程復(fù)雜;鐵路上層業(yè)務(wù)要求IT基礎(chǔ)設(shè)施可靠和透明,對(duì)于服務(wù)中斷要求和部分鐵路業(yè)務(wù)的性能需求苛刻;運(yùn)維管理過(guò)程中需要多領(lǐng)域?qū)I(yè)人才,人才缺口大,人才儲(chǔ)備不足。
DCIOM是近幾年在數(shù)據(jù)中心運(yùn)營(yíng)維護(hù)管理領(lǐng)域興起的一個(gè)熱點(diǎn)。
Gartner對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)的定義是:通過(guò)工具監(jiān)控、管理和控制數(shù)據(jù)中心所有 IT 相關(guān)設(shè)備(如服務(wù)器、存儲(chǔ)和交換機(jī))和基礎(chǔ)設(shè)施相關(guān)設(shè)備(如 PDU 和精密空調(diào))的使用情況以及能耗水平。451 Group 對(duì) DCIM 的定義是:數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)通過(guò)持續(xù)收集和管理數(shù)據(jù)中心的資產(chǎn)、資源以及各種設(shè)備的運(yùn)行狀態(tài),然后通過(guò)分析、整合提煉成有用的數(shù)據(jù),從而幫助數(shù)據(jù)中心管理者管理數(shù)據(jù)中心并優(yōu)化性能。
這里提出DCIOM,在DCIM的基礎(chǔ)上,增加對(duì)于數(shù)據(jù)中心的運(yùn)營(yíng)功能,試圖從第三方的角度去評(píng)估數(shù)據(jù)中心的運(yùn)營(yíng)情況。綜上所見(jiàn),采用統(tǒng)一的平臺(tái)管理場(chǎng)地基礎(chǔ)設(shè)施(如 UPS、 空調(diào))以及IT 基礎(chǔ)架構(gòu)(如服務(wù)器),并通過(guò)數(shù)據(jù)的分析和聚合,最大化數(shù)據(jù)中心的運(yùn)營(yíng)效率,提高可靠性,是DCIOM 系統(tǒng)產(chǎn)生的根源及目的。
鐵路DCIOM系統(tǒng)涵蓋較多被監(jiān)控的對(duì)象,覆蓋面較廣,功能復(fù)雜,系統(tǒng)設(shè)計(jì)遵循模塊式開(kāi)發(fā)、部署,系統(tǒng)從底層到最上層的圖形用戶(hù)接口共分為4層,每一層實(shí)現(xiàn)不同的功能,系統(tǒng)整體的架構(gòu)如圖1所示。
圖1 鐵路數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維管理系統(tǒng)整體架構(gòu)Fig.1 Overall architecture of operation and maintenance management system for railway data center infrastructure
鐵路DCIOM 系統(tǒng)是一整套包含硬件設(shè)施、前端傳感器和定制化軟件的運(yùn)維管理平臺(tái)與工具。DCIOM 技術(shù)路徑主要體現(xiàn)為鐵路數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維管理作為一個(gè)專(zhuān)業(yè)的技術(shù)應(yīng)用平臺(tái)與工具,充分應(yīng)用了計(jì)算機(jī)技術(shù)、通信技術(shù)、網(wǎng)絡(luò)技術(shù)、軟件技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、自動(dòng)控制技術(shù)、傳感技術(shù)、可靠性技術(shù)以及系統(tǒng)設(shè)計(jì)開(kāi)發(fā)技術(shù)、系統(tǒng)集成技術(shù)、項(xiàng)目管理技術(shù)等。對(duì)于鐵路DCIOM 系統(tǒng),差異性主要體現(xiàn)在產(chǎn)品功能的聚集度上所涉及的檢測(cè)對(duì)象種類(lèi)、可管理的對(duì)象與范圍、軟件平臺(tái)的功能、數(shù)據(jù)標(biāo)準(zhǔn)與通訊協(xié)議、第三方的銜接和可擴(kuò)展性等。
鐵路數(shù)據(jù)中心是鐵路大數(shù)據(jù)處理和價(jià)值挖掘的的最大物理載體,隨著其規(guī)模和數(shù)量的增加,為提升數(shù)據(jù)中心管理成熟度,智能化設(shè)備和實(shí)時(shí)傳感器大量引入鐵路數(shù)據(jù)中心,使其成為路內(nèi)最大規(guī)模的物聯(lián)網(wǎng)應(yīng)用之一,處理海量運(yùn)維數(shù)據(jù)能力是實(shí)現(xiàn)DCIOM系統(tǒng)實(shí)時(shí)可見(jiàn)性的基礎(chǔ)。
DCIOM 系統(tǒng)作為鐵路數(shù)據(jù)中心日常運(yùn)營(yíng)維護(hù)管理的平臺(tái),需要設(shè)計(jì)為滿(mǎn)足數(shù)據(jù)中心的7×24 h的運(yùn)行條件,為數(shù)據(jù)中心正常運(yùn)營(yíng)提供連續(xù)性的保證。其中對(duì)于大型鐵路局?jǐn)?shù)據(jù)中心(機(jī)架數(shù)量為3千到 1 萬(wàn)個(gè))及超大型國(guó)鐵集團(tuán)數(shù)據(jù)中心(機(jī)架數(shù)量為1萬(wàn)個(gè)以上)而言,DCIOM 系統(tǒng)的架構(gòu)設(shè)計(jì),尤其是存儲(chǔ)架構(gòu)設(shè)計(jì)尤為重要。
從數(shù)據(jù)量來(lái)看,國(guó)鐵集團(tuán)數(shù)據(jù)中心每次進(jìn)行數(shù)據(jù)采集時(shí)需要讀取并存儲(chǔ)的基礎(chǔ)設(shè)施的測(cè)點(diǎn)數(shù)據(jù)基本在百萬(wàn)級(jí)別,并且每日數(shù)據(jù)處理量將高達(dá)上億級(jí)規(guī)模。從數(shù)據(jù)復(fù)雜性來(lái)看,除了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)能夠存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)以外,還需要處理并存儲(chǔ)例如設(shè)備圖片、維護(hù)文檔、操作手冊(cè)、維保合同等非結(jié)構(gòu)化數(shù)據(jù),以及海量實(shí)時(shí)控制和監(jiān)測(cè)檢測(cè)數(shù)據(jù)。
DCIOM系統(tǒng)管理的數(shù)據(jù)資源中主要分為兩類(lèi)。一類(lèi)是存儲(chǔ)數(shù)據(jù)中心的資源信息及資源與資源之間關(guān)系的數(shù)據(jù),即設(shè)備屬性、配置關(guān)系等;另一類(lèi)是所有資源的監(jiān)控及運(yùn)維數(shù)據(jù)信息,如一臺(tái) UPS 的功率數(shù)據(jù)、 一臺(tái)空調(diào)的維護(hù)工單等。第一類(lèi)數(shù)據(jù)通常不會(huì)頻繁更新、變動(dòng),這些靜態(tài)數(shù)據(jù)稱(chēng)之為“冷數(shù)據(jù)”。第二類(lèi)數(shù)據(jù)則需要頻繁的進(jìn)行檢索和查詢(xún)、以及更新處理,涉及到大量的查詢(xún)工作。將這些動(dòng)態(tài)的數(shù)據(jù)稱(chēng)之為“熱數(shù)據(jù)”。因此,DCOIM 系統(tǒng)的數(shù)據(jù)庫(kù)設(shè)計(jì)需要采用大數(shù)據(jù)技術(shù)來(lái)進(jìn)行構(gòu)建。
復(fù)雜事件處理(Complex Event Process,CEP)是處理實(shí)時(shí)數(shù)據(jù)流的關(guān)鍵技術(shù),其特點(diǎn)是在內(nèi)存中通過(guò)預(yù)定義規(guī)則處理來(lái)自多種異構(gòu)數(shù)據(jù)源的實(shí)時(shí)數(shù)據(jù)流,并將生成結(jié)果推送給事件訂閱者。復(fù)雜事件處理流程如圖2所示。
圖2 復(fù)雜事件處理流程Fig.2 Complex event processing flowchart
可用成熟功能的 CEP引擎實(shí)現(xiàn)以下功能:可接入多種異構(gòu)數(shù)據(jù)源,通過(guò)適配器轉(zhuǎn)換為統(tǒng)一數(shù)據(jù)格式;在內(nèi)存中實(shí)時(shí)處理數(shù)據(jù)流,相比起傳統(tǒng)事件引擎首先將數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)庫(kù)后再根據(jù)業(yè)務(wù)規(guī)則加載處理的輪詢(xún)方式有更好的性能;支持持續(xù)查詢(xún)語(yǔ)言的規(guī)則數(shù)據(jù)庫(kù),其結(jié)構(gòu)化查詢(xún)語(yǔ)言類(lèi)似 SQL,提供映射、過(guò)濾 、關(guān)聯(lián)、聚合、模式匹配、延時(shí)和時(shí)間窗口等反式(Reactive)處理;支持訂閱/發(fā)布機(jī)制,主動(dòng)推送處理結(jié)果給事件訂閱者。
DCIOM系統(tǒng)所管理的對(duì)象具有數(shù)量眾多、多種通信協(xié)議、不同連接方式和分布地點(diǎn)比較分散的特點(diǎn)。 分布式數(shù)據(jù)處理和監(jiān)控比傳統(tǒng)集中式監(jiān)控模式具有數(shù)據(jù)響應(yīng)時(shí)間更短、占用帶寬更少、故障影響范圍更小和支持系統(tǒng)規(guī)模更大的優(yōu)勢(shì)。
分布式處理監(jiān)控管理應(yīng)具有以下特點(diǎn)。
本地?cái)?shù)據(jù)采集和協(xié)議轉(zhuǎn)換:采集性能高和占用帶寬少;復(fù)雜事件處理:過(guò)濾重復(fù)數(shù)據(jù)和聚合關(guān)聯(lián)事件,快速上報(bào)關(guān)鍵事件;本地告警聯(lián)動(dòng):聯(lián)動(dòng)速度更快,減少網(wǎng)絡(luò)中斷影響更安全可靠;本地?cái)?shù)據(jù)存儲(chǔ):數(shù)據(jù)可靠性更高,減少網(wǎng)絡(luò)依賴(lài);熱備監(jiān)控單元:可部署熱備監(jiān)控單元,減少單一節(jié)點(diǎn)故障;多種傳輸模式:監(jiān)控單元和中心之間可選取多種傳輸方式,減少網(wǎng)絡(luò)依賴(lài);多種采集模式:可支持任意總線和網(wǎng)絡(luò)采集。
分布式處理減少中心系統(tǒng)的數(shù)據(jù)處理工作量,系統(tǒng)規(guī)模擴(kuò)大只需要水平擴(kuò)展增加監(jiān)控單元,是支撐大規(guī)模 DCIOM系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)監(jiān)控的關(guān)鍵技術(shù)。
DCIOM是數(shù)據(jù)中心管理系統(tǒng)的重要組成部分,DCIOM系統(tǒng)必須提供數(shù)據(jù)接口與其他管理系統(tǒng)進(jìn)行互聯(lián)和集成。
3.4.1 智能設(shè)備協(xié)議
數(shù)據(jù)中心的設(shè)備種類(lèi)較多,現(xiàn)實(shí)上每種設(shè)備協(xié)議基本都不相同,在數(shù)據(jù)中心行業(yè)標(biāo)準(zhǔn)制定前無(wú)法強(qiáng)制統(tǒng)一智能設(shè)備協(xié)議,因此DCIOM系統(tǒng)需要從上往下兼容所有智能設(shè)備協(xié)議。DCIOM系統(tǒng)應(yīng)支持組件化設(shè)計(jì), 每一種設(shè)備協(xié)議開(kāi)發(fā)成一個(gè)驅(qū)動(dòng),支持動(dòng)態(tài)的加載和卸載。
智能設(shè)備協(xié)議通常包括設(shè)備自動(dòng)發(fā)現(xiàn)、數(shù)據(jù)交互、設(shè)備配置和安全驗(yàn)證等內(nèi)容。如:設(shè)備自動(dòng)發(fā)現(xiàn)指設(shè)備上線后自動(dòng)發(fā)出注冊(cè)命令或響應(yīng)管理系統(tǒng)設(shè)備搜尋命令,能夠使管理系統(tǒng)識(shí)別和把設(shè)備自動(dòng)納入管理的過(guò)程;數(shù)據(jù)交互通常包括實(shí)時(shí)信號(hào)、事件告警和控制命令;設(shè)備配置內(nèi)容應(yīng)包含設(shè)備唯一標(biāo)識(shí)、設(shè)備類(lèi)型、型號(hào)、廠家、協(xié)議和設(shè)備屬性信息;安全驗(yàn)證包括對(duì)通信雙方身份驗(yàn)證、數(shù)據(jù)完整性、可靠傳輸和服務(wù)質(zhì)量的定義。
3.4.2 子系統(tǒng)接入?yún)f(xié)議
DCIOM系統(tǒng)作為數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維管理的統(tǒng)一平臺(tái),應(yīng)支持各種樓宇管理系統(tǒng)、動(dòng)環(huán)監(jiān)控系統(tǒng)、 安防系統(tǒng)和資產(chǎn)管理系統(tǒng)的接入。同樣由于數(shù)據(jù)中心行業(yè)標(biāo)準(zhǔn)缺失,現(xiàn)在并無(wú)統(tǒng)一的子系統(tǒng)接口規(guī)范,但是對(duì)其共性歸納子系統(tǒng)接入?yún)f(xié)議應(yīng)包含如下要求。
開(kāi)放協(xié)議:即各子系統(tǒng)必須開(kāi)放數(shù)據(jù)通信接口,提供規(guī)范的協(xié)議文檔。
系統(tǒng)接口:應(yīng)明確系統(tǒng)數(shù)據(jù)接口和設(shè)備協(xié)議的區(qū)別,通常系統(tǒng)由多個(gè)子設(shè)備組成,因此系統(tǒng)接口應(yīng)支持子設(shè)備配置和數(shù)據(jù)通信協(xié)議,應(yīng)避免采用SNMP或Modbus這種設(shè)備協(xié)議作為系統(tǒng)接口。
Web 服務(wù):傳統(tǒng)系統(tǒng)通常提供基于TCP的自定義接口,其缺點(diǎn)是難以理解和缺乏服務(wù)描述;隨著 Web 技術(shù)的成熟,在運(yùn)維領(lǐng)域 Web 服務(wù)API接口逐漸成為標(biāo)準(zhǔn)。
配置同步:子系統(tǒng)下接設(shè)備類(lèi)型和數(shù)量通常不固定,因此必然要求子系統(tǒng)提供配置服務(wù)接口,當(dāng)子系統(tǒng)配置變化時(shí)及時(shí)同步至DCIOM系統(tǒng)。
訂閱發(fā)布:子系統(tǒng)應(yīng)提供訂閱/發(fā)布機(jī)制,避免數(shù)據(jù)輪詢(xún)主動(dòng)推送告警信息。
數(shù)據(jù)安全:所有子系統(tǒng)都應(yīng)提供數(shù)據(jù)加密傳輸選項(xiàng),并能根據(jù)權(quán)限定義提供有限訪問(wèn),保證數(shù)據(jù)可靠傳輸。
3.4.3 API集成功能
DCIOM系統(tǒng)需要提供API與上層IT服務(wù)管理系統(tǒng)進(jìn)行集成,包括資產(chǎn)配置、資產(chǎn)位置、連接關(guān)系、 容量管理、能效管理、實(shí)時(shí)監(jiān)控、流程管理等服務(wù)。
資產(chǎn)配置:提供資產(chǎn)唯一標(biāo)識(shí)、資產(chǎn)類(lèi)型、型號(hào)、廠商、購(gòu)買(mǎi)時(shí)間、使用年限、資產(chǎn)位置信息等一系列資產(chǎn)屬性信息。可批量導(dǎo)入導(dǎo)出,并與CMDB 配置數(shù)據(jù)庫(kù)同步;RFID自動(dòng)資產(chǎn)管理系統(tǒng)可提供實(shí)時(shí)資產(chǎn)變更事件;支持變更管理和工作流派單閉環(huán)管理,可獲取資產(chǎn)出入庫(kù)記錄和服務(wù)器上下架記錄。
資產(chǎn)位置信息:提供資產(chǎn)位置信息。
連接關(guān)系:提供網(wǎng)絡(luò)連接關(guān)系和電力連接關(guān)系。網(wǎng)絡(luò)連接支持服務(wù)器網(wǎng)口到配線架端口到交換機(jī)端口的連接信息;電力連接關(guān)系支持上下游設(shè)備依賴(lài)和端口連接信息。
容量管理:提供數(shù)據(jù)中心/機(jī)房/樓層/區(qū)域/機(jī)柜等級(jí)別的實(shí)時(shí)和歷史容量信息,包括可用容量和已用容量信息,支持空間容量、供電容量、制冷容量和承重容量類(lèi)型。
能效管理:提供數(shù)據(jù)中心/機(jī)房/樓層/區(qū)域/機(jī)柜等級(jí)別的實(shí)時(shí)和歷史 PUE 信息。
實(shí)時(shí)監(jiān)控:提供實(shí)時(shí)數(shù)據(jù)獲取,事件告警推送和控制命令交互接口。
隨著鐵路行業(yè)數(shù)據(jù)中心規(guī)模和數(shù)量的快速增長(zhǎng),數(shù)據(jù)中心的高效運(yùn)維逐漸成為鐵路行業(yè)數(shù)據(jù)中心領(lǐng)域研究和落地的關(guān)注熱點(diǎn)。DCIOM系統(tǒng)等數(shù)據(jù)中心智能化管理平臺(tái)正加速在鐵路行業(yè)數(shù)據(jù)中心部署應(yīng)用,智能運(yùn)維機(jī)器人或?qū)⑻娲罅總鹘y(tǒng)人工巡檢,逐步形成符合鐵路應(yīng)用實(shí)際的“智能化運(yùn)維管理平臺(tái)+智能機(jī)器人+專(zhuān)業(yè)工程師”三位一體運(yùn)維體系。