程明 劉顯明 洪微明 鄂馳 張俊鋒
摘要:電力信息系統(tǒng)安全穩(wěn)定運行是電力系統(tǒng)正常運行的強力保障。組成信息系統(tǒng)各種軟硬件資源由于其本身固有特性,不可避免的會出現(xiàn)故障,引發(fā)信息系統(tǒng)宕機,甚至影響電力系統(tǒng)運行。針對上述問題本文提出了電力信息系統(tǒng)監(jiān)控分析與應急處置系統(tǒng)(Monitor Analysis and Emergence Disposal System For Electronic Information System, MAEDS)。MAEDS運用大數(shù)據(jù)技術對信息系統(tǒng)運行過程中的狀態(tài)數(shù)據(jù)進行計算,在軟硬件資源出現(xiàn)故障及時告警,從而保證信息系統(tǒng)的高可靠性和可用性。MAEDS建設完成后在國網(wǎng)江西省電力有限公司部分信息系統(tǒng)進行了試點應用,結(jié)果表明,該系統(tǒng)能有效地提高信息系統(tǒng)的可用性。
關鍵詞:電力信息系統(tǒng);故障監(jiān)控;應急處置
中圖分類號:TP315 文獻標識碼:A 文章編號:1007-9416(2018)02-0181-03
電力行業(yè)是國家重要的基礎性行業(yè)。得益于電力技術和信息技術的飛速發(fā)展[1],電力信息化水平也不斷地提高。電力企業(yè)結(jié)合自身需求,紛紛開展信息系統(tǒng)建設,如國家電網(wǎng)公司的智能電網(wǎng)調(diào)度控制系統(tǒng)[2]及南方電網(wǎng)公司的一體化電網(wǎng)運行智能系統(tǒng)[3],隨著電力企業(yè)信息化建設的不斷推進,對信息系統(tǒng)的可靠運行提出了更高的要求[4]。
信息系統(tǒng)的正常運行受制于機房設施、操作系統(tǒng)、網(wǎng)絡、中間件、數(shù)據(jù)庫及信息系統(tǒng)自身等多維度軟硬件資源因素。相關研究表明,信息系統(tǒng)的軟硬件資源因其本身固有的失效性,組成信息系統(tǒng)的軟硬件資源總會出現(xiàn)故障,一旦出現(xiàn)故障,小則影響信息系統(tǒng)部分功能;大則引起信息系統(tǒng)的宕機。
本文研究多維度信息系統(tǒng)監(jiān)控技術以及信息系統(tǒng)故障統(tǒng)計規(guī)律和模式,應用大數(shù)據(jù)技術對信息系統(tǒng)運行過程中監(jiān)測得到的數(shù)據(jù)進行快速計算處理,建立機器學習模型,設計信息系統(tǒng)故障應急可視化處置流程,最后建成了電力信息系統(tǒng)監(jiān)控分析與應急處置系統(tǒng)并在國網(wǎng)江西省電力有限公司部分信息系統(tǒng)進行了試點應用。
本文首先闡述了MAEDS系統(tǒng)的體系架構(gòu),然后詳細闡述了系統(tǒng)設計所涉及到的關鍵技術,接著對系統(tǒng)的應用及應用結(jié)果進行了介紹,最后對本文進行了總結(jié)。
1 體系架構(gòu)
1.1 系統(tǒng)總體架構(gòu)
為了實現(xiàn)系統(tǒng)對多套信息系統(tǒng)進行監(jiān)控,采用智能代理的分布式監(jiān)控管理框架,系統(tǒng)總體架構(gòu)如圖1所示。運維管理人員登錄監(jiān)控分析與應急處置系統(tǒng),即可對被監(jiān)控信息系統(tǒng)進行監(jiān)控。
主監(jiān)控節(jié)點:系統(tǒng)通過主監(jiān)控節(jié)點實現(xiàn)對多臺受監(jiān)控服務器節(jié)點進行資源運行監(jiān)視與調(diào)度控制。為避免單點故障,主監(jiān)控節(jié)點可支持多機高可用集群模式部署。
受監(jiān)控服務器節(jié)點:通過部署于受監(jiān)控信息系統(tǒng)主機服務器(受監(jiān)控節(jié)點)中的智能代理組件采集信息系統(tǒng)的監(jiān)控指標數(shù)據(jù),可分為網(wǎng)絡接口層、服務器層、服務層、應用層等四個層次類別。網(wǎng)絡接口層主要包括主機網(wǎng)絡狀態(tài)數(shù)據(jù),如IP地址、端口、上下行流量等。服務器層主要包括主機BIOS與操作系統(tǒng)狀態(tài)數(shù)據(jù),包括CPU負載、內(nèi)存占用率、磁盤I/O等。服務層主要包括中間件、數(shù)據(jù)庫等平臺軟件的狀態(tài)數(shù)據(jù)。應用層主要針對業(yè)務應用系統(tǒng)的可用性、性能等狀態(tài)數(shù)據(jù)。同時,智能代理組件接收從主監(jiān)控節(jié)點發(fā)送的控制命令和消息,執(zhí)行對受監(jiān)控服務器節(jié)點的應急重啟恢復及其它控制操作。
1.2 系統(tǒng)邏輯架構(gòu)
系統(tǒng)邏輯架構(gòu)如圖2所示,自下而上,分別是采集層、數(shù)據(jù)層、控制層。采集層負責通過SNMP、WMI等協(xié)議實時收集網(wǎng)絡中指定的服務器、受管交換機、路由器等節(jié)點的狀態(tài)數(shù)據(jù)。數(shù)據(jù)層負責對采集層收集的監(jiān)測數(shù)據(jù)進行存儲和進一步處理。控制層負責對數(shù)據(jù)層提供監(jiān)測數(shù)據(jù)及對數(shù)據(jù)的處理結(jié)果進行可視化監(jiān)視、故障應急恢復控制及預測分析。
1.3 系統(tǒng)功能架構(gòu)
監(jiān)控分析與應急處置系統(tǒng)主要包括八大功能模塊,分別是運維視圖、監(jiān)控管理、告警管理、資源管理、數(shù)據(jù)管理、流量分析、報表管理、系統(tǒng)管理。
2 關鍵技術
2.1 監(jiān)測指標集
MAEDS通過對網(wǎng)絡設備、主機服務器、數(shù)據(jù)庫、中間件及應用服務、網(wǎng)絡端口和鏈路、存儲設備及業(yè)務系統(tǒng)等進行監(jiān)測,獲取相應的指標參數(shù),構(gòu)成監(jiān)測指標集。
2.2 智能代理分布監(jiān)控
MAEDS在每臺集群計算機上安裝智能監(jiān)控代理(Smart Monitor Agent,SMA)[5]收集計算機的工作狀態(tài)信息,在監(jiān)控主機上安裝運行監(jiān)控服務端。智能監(jiān)控代理與監(jiān)控服務端之間通過XML格式傳遞監(jiān)控數(shù)據(jù),監(jiān)控服務端采取定期輪巡智能監(jiān)控代理獲取監(jiān)控信息。監(jiān)控主機使用心跳探測,可以發(fā)現(xiàn)集群內(nèi)任意計算機的運行狀態(tài)。
將智能監(jiān)控代理部署于受控主機服務器的操作系統(tǒng)中,智能監(jiān)控代理將通過網(wǎng)絡與監(jiān)控主服務器建立心跳連接,根據(jù)指定的策略對主機(物理機或虛擬機)的運行狀態(tài)進行實時監(jiān)控,當服務器硬件故障、網(wǎng)絡中斷或者關鍵進程(可通過進程名稱或PID進行設定)運行異常等關鍵事件發(fā)生時,智能監(jiān)控代理將執(zhí)行相應的策略動作,策略腳本可根據(jù)實際情況進行靈活定制。監(jiān)控主服務器接收到智能代理發(fā)送的告警或故障消息后,或者智能代理心跳連接超時后,監(jiān)控主服務器將判斷該主機發(fā)生故障。
2.3 支持向量機
Cortes和Vapnik在1995年提出了支持向量機(Support Vector Machines,SVM),支持向量機被廣泛應用于處理多維問題中。MAEDS采用支持向量機對監(jiān)控數(shù)據(jù)進行處理并將信息系統(tǒng)運行狀態(tài)進行分類[6]:首先輸入N組訓練數(shù)據(jù),MAEDS將通過這些數(shù)據(jù)進行自我學習,其中,表示信息系統(tǒng)監(jiān)控值的集合,表示信息系統(tǒng)狀態(tài)類型,學習的目標是要在N維監(jiān)控值的集合空間中找到一個超平面,該超平面能準確劃分信息系統(tǒng)在一組隨機監(jiān)控值集合條件下信息系統(tǒng)會產(chǎn)生的運行狀態(tài)。超平面方程定義為:,其中是超平面的權(quán)值,是偏差。要使超平面劃分的確信度高,那么超平面到數(shù)據(jù)點的間隔也必須越大,也就是需要最小。此時SVM變成一個凸二次規(guī)劃問題,可用二次規(guī)劃法求解出w使其能準確劃分在某一監(jiān)控值的集合條件下,信息系統(tǒng)所屬的狀態(tài)類型。
2.4 故障自動恢復處理技術
實現(xiàn)開放式腳本編程框架,腳本框架為用戶提供可擴展的自定義信息應用管理命令調(diào)用編程環(huán)境,用戶可使用Python語言,通過腳本自定義對應用、服務或操作系統(tǒng)進行控制。腳本發(fā)布后即可參與任務調(diào)度,任務調(diào)度可分解成各子任務分配給各智能代理節(jié)點執(zhí)行,執(zhí)行完成后返回執(zhí)行結(jié)果。
2.5 可視化技術
通過基于業(yè)務視圖的拓撲展示,可以實現(xiàn)整個全局業(yè)務的狀態(tài)監(jiān)控及單個業(yè)務的各關鍵環(huán)節(jié)進行實時監(jiān)控??蔀槿种蛋嗳藛T提供全局業(yè)務的實時狀態(tài),當業(yè)務出現(xiàn)故障時,通過業(yè)務示圖可非常容易的找到業(yè)務組件的故障點,實時展現(xiàn)故障信息,達到快速定位故障的效果。
3 應用分析
基于電力信息系統(tǒng)故障快速處置的MAEDS系統(tǒng)已完成軟件研發(fā)及測試工作,并在國網(wǎng)江西省電力有限公司的部分信息系統(tǒng)投入試運行,如表1所示。
信息系統(tǒng)可用率指標是指信息系統(tǒng)正常運行的時間與其在某一運行周期時間的比值,如式3-1所示:
(3-1)
式中,表示信息系統(tǒng)可用性指標,表示信息系統(tǒng)正常運行時間,表示周期內(nèi)時間,包含兩部分:系統(tǒng)正常運行時間和故障時間,如式3-2所示:
(3-2)
我們在所部署的信息系統(tǒng),選取季度時間作為信息系統(tǒng)周期運行,并取2015年四季度信息系統(tǒng)(未部署MEADS系統(tǒng))出現(xiàn)故障的時間總和及2016年四季度信息系統(tǒng)(已部署MEADS系統(tǒng))出現(xiàn)故障的時間總和,如圖3所示:
由圖6可知,2015年尚未部署MAEDS系統(tǒng)是,四季度的信息系統(tǒng)可用率在97%上下波動。2017年初,MAEDS系統(tǒng)在部分信息系統(tǒng)投入試運行后,四季度的信息系統(tǒng)可用率提高到99.99%左右。
4 結(jié)語
本文深入闡述了電力信息系統(tǒng)監(jiān)控分析與應急處置系統(tǒng)的體系架構(gòu)及監(jiān)測指標、智能代理分布監(jiān)控、支持向量機、故障自動恢復處理、可視化等關鍵技術。系統(tǒng)能同時對多套信息系統(tǒng)運行情況進行監(jiān)控,通過采集信息系統(tǒng)運行過程中的指標數(shù)據(jù)進行建模,獲取信息系統(tǒng)正在運行狀態(tài)及預測信息系統(tǒng)未來運行狀態(tài),從而保證信息系統(tǒng)高可靠運行。目前該系統(tǒng)已在江西省電力公司部分系統(tǒng)中投入試運行,試運行結(jié)果表明,該系統(tǒng)能有效的提高信息系統(tǒng)可用率具有了良好的應用效果。
下一步工作將在保持原有設計思想的前提下,深入研究基于電力信息調(diào)運體系的監(jiān)控分析與應急處置關鍵技術,進一步提升系統(tǒng)的使用價值和運行效果。
參考文獻
[1]梅崢,厲啟鵬,李西太,等.電力消息郵件體系架構(gòu)及關鍵技術[J].電力系統(tǒng)自動化,2016,40(20):126-132.
[2]辛耀中,石俊杰,周京陽,等.智能電網(wǎng)調(diào)度控制系統(tǒng)現(xiàn)狀與技術展望[J].電力系統(tǒng)自動化,2015,39(1):2G8.
[3]汪際峰.南方電網(wǎng)一體化電網(wǎng)運行智能系統(tǒng)建設初探[J].南方電網(wǎng)技術,2012,6(2):1-5.
[4]王建設.電力企業(yè)信息化的建設與管理初探[J].電力信息化,2009(2):18-19.
[5]毛衛(wèi)良,盛煥燁.一個智能代理體系結(jié)構(gòu)模型[J].計算機應用研究,2000,17(4):4-6.
[6]Liang L, Cheng M, Ma Y, et al. Fault Detection with Dynamic Principal Component Analysis and Support Vector Machines[C]//Proceedings of the 2015 International Conference on Network and Information Systems for Computers (ICNISC). IEEE Computer Society,2015:263-265.