黃強(qiáng)
摘 要:數(shù)據(jù)中心日常運(yùn)維會收到大量來自不同監(jiān)控源、不同設(shè)備、不同類型的原始告警。這些原始告警不僅包含原始信息,而且存在大量不需要IT運(yùn)維人員關(guān)注的告警、單一重復(fù)告警、同一系統(tǒng)故障引發(fā)大量關(guān)聯(lián)告警等,不便于運(yùn)維人員快速判斷和處理。因此,需要對原始告警信息進(jìn)行收集、格式化、過濾、壓縮、豐富、根源分析,最終呈現(xiàn)給運(yùn)維人員的是根源告警,并且攜帶有便于運(yùn)維人員后續(xù)處理的告警和配置資源信息,實現(xiàn)故障快速定位和恢復(fù)。本文是結(jié)合貴州電網(wǎng)公司信息中心IT集中監(jiān)控系統(tǒng)規(guī)劃建設(shè)進(jìn)行的分析設(shè)計。
關(guān)鍵詞:告警關(guān)聯(lián)分析模型;原始告警;運(yùn)維人員
1 告警關(guān)聯(lián)分析模型在整體架構(gòu)中的定位
告警管理分析模型處在數(shù)據(jù)處理層,通過內(nèi)存數(shù)據(jù)庫實現(xiàn)。其核心模塊為告警預(yù)處理引擎、告警豐富處理引擎、告警關(guān)聯(lián)性分析引擎和告警后期處理引擎。本模型處理各個監(jiān)控源采集到的原始告警,通過調(diào)用告警知識庫和配置管理庫的規(guī)則和配置信息,實現(xiàn)對告警的收集、格式化編碼、過濾、壓縮、豐富、關(guān)聯(lián)分析等處理,并為業(yè)務(wù)運(yùn)行狀態(tài)評價模型提供告警狀態(tài)。
2 告警關(guān)聯(lián)分析模型引入的意義
貴州電網(wǎng)需要的是針對大型網(wǎng)絡(luò)中基礎(chǔ)架構(gòu)平臺和應(yīng)用的實時故障處理及運(yùn)行管理系統(tǒng),包含各管理子系統(tǒng)的綜合故障管理功能。引入告警關(guān)聯(lián)分析具有重要意義:(1)有效精簡告警數(shù)量,縮短故障定位時間;豐富告警所包含的信息量,提升運(yùn)維人員的故障處理效率;(2)可以將專家支持團(tuán)隊的經(jīng)驗以算法的形式直接應(yīng)用到運(yùn)維實踐中,快速提高團(tuán)隊運(yùn)維能力;(3)提高告警處理的標(biāo)準(zhǔn)化程度。
3 告警關(guān)聯(lián)分析模型研究內(nèi)容
告警關(guān)聯(lián)分析模型主要研究內(nèi)容是如何對系統(tǒng)中大量告警進(jìn)行精簡,只對需要干預(yù)和處理的告警進(jìn)行通知和展示,因此需要將內(nèi)存數(shù)據(jù)庫中的告警在其各個生命周期、使用不同算法進(jìn)行處理。
首先,根據(jù)各個監(jiān)控源的原始告警進(jìn)行格式化處理,格式化處理后形成的告警中攜帶了原始告警的全部信息;告警預(yù)處理引擎內(nèi)置告警處理算法,將告警信息進(jìn)行壓縮、過濾;然后,調(diào)用告警知識庫中的告警表和配置表,對需要進(jìn)一步處理的告警進(jìn)行告警豐富和配置豐富,將告警信息和配置信息豐富到告警內(nèi)存庫中;將業(yè)務(wù)關(guān)聯(lián)信息豐富到告警流水表,發(fā)送給業(yè)務(wù)狀態(tài)評價模型;按照關(guān)聯(lián)算法,消除已恢復(fù)告警和非根源告警;對告警內(nèi)存庫處理后的告警通知到一線運(yùn)維人員、事件管理平臺,并對告警做歸檔存入統(tǒng)一信息庫,以供后續(xù)查詢。
4 告警關(guān)聯(lián)分析模型的重點(diǎn)和難點(diǎn)
4.1 模型研究的重點(diǎn)
告警關(guān)聯(lián)分析模型包含4個子模型:告警預(yù)處理模型、告警豐富模型、告警關(guān)聯(lián)性分析模型和告警后期處理模型。設(shè)計研究重點(diǎn)如下:(1)告警預(yù)處理模型:告警格式化編碼設(shè)計和告警過濾、壓縮是本模型的重點(diǎn)。完備的告警格式化編碼設(shè)計,可以使監(jiān)控源的信息量有效傳遞,也可以為后續(xù)告警處理奠定基礎(chǔ);告警過濾和壓縮屬于源消息處理,有效的過濾和壓縮可以減少告警內(nèi)存庫的告警處理量,大大提高告警后續(xù)處理的性能和效率,降低告警內(nèi)存庫的負(fù)荷。(2)告警豐富模型:本模型研究重點(diǎn)是告警內(nèi)存庫與告警知識庫的接口設(shè)計。原始告警本身只攜帶監(jiān)控源采集到的監(jiān)控指標(biāo)信息,其信息量與后續(xù)干預(yù)、處理還有很大差距,將配置信息、告警知識庫信息以及業(yè)務(wù)關(guān)聯(lián)信息有效豐富到告警中,可以充分利用現(xiàn)有的知識儲備,豐富告警的信息量,提高后續(xù)處理效率,不斷提升告警處理能力。(3)告警關(guān)聯(lián)性分析:本模型研究重點(diǎn)是告警關(guān)聯(lián)性分析算法設(shè)計,建立告警關(guān)系的樹形結(jié)構(gòu)。告警經(jīng)過關(guān)聯(lián)分析引擎后,將直接進(jìn)入告警通知過程,通過展示層呈現(xiàn)給運(yùn)維人員。多個關(guān)聯(lián)告警同時發(fā)生,如何根據(jù)多個告警有效分析出根源告警,將衍生告警吸收;或者多個告警發(fā)生,根據(jù)既有告警推論得出一個新告警的發(fā)生。
4.2 模型研究的難點(diǎn)
告警格式化編碼設(shè)計:不同業(yè)務(wù)、不同系統(tǒng)對各個指標(biāo)參數(shù)的要求不同,告警格式也不盡相同,不同軟件、硬件產(chǎn)品的告警格式也不盡相同,因此,設(shè)計告警編碼格式和規(guī)范,對不同類型原始告警,將其信息正確有效的寫入告警流水表的各個字段,才可以保證信息傳遞不失真;后續(xù)告警處理需要大量調(diào)用管理配置庫和告警知識庫內(nèi)容,格式化告警中需要預(yù)留相應(yīng)的字段,同時需要兼顧告警內(nèi)存庫的資源,因此格式化告警編碼設(shè)計需要合理高效。
與關(guān)鍵應(yīng)用監(jiān)控系統(tǒng)其他子模塊(配置關(guān)聯(lián)模型、告警知識庫)的接口設(shè)計:配置關(guān)聯(lián)數(shù)據(jù)庫和告警知識庫中存儲了大量的配置信息和知識信息,在告警豐富、告警關(guān)聯(lián)性分析等多個過程中,需要通過接口正確調(diào)用和重新組織告警知識庫和配置資源信息。
告警壓縮、過濾算法和告警關(guān)聯(lián)性分析算法:告警處理告警關(guān)聯(lián)分析模型的輸入之一是監(jiān)控告警源,輸出是直接呈現(xiàn)給運(yùn)維人員看到的告警信息,如何過濾無效告警、壓縮重復(fù)告警、正確獲取關(guān)聯(lián)告警中的根源告警,直接關(guān)系到運(yùn)維人員的告警處理效率。需要設(shè)計科學(xué)有效的告警處理算法。算法設(shè)計涵蓋了告警處理流程設(shè)計和告警知識庫關(guān)聯(lián)規(guī)則管理模塊的數(shù)據(jù)結(jié)構(gòu)設(shè)計。
5 告警關(guān)聯(lián)性分析模型設(shè)計
5.1 告警預(yù)處理模型設(shè)計
各監(jiān)控源采集到的原始告警信息進(jìn)入告警總線進(jìn)行處理,需要經(jīng)過壓縮、過濾、關(guān)聯(lián)性分析等過程,從而達(dá)到告警的提煉,使得最終呈現(xiàn)給運(yùn)維人員面前的信息是最關(guān)鍵、最重要的告警。告警格式化、告警過濾、壓縮不涉及告警關(guān)聯(lián)分析模型和告警知識庫模型之間的相互調(diào)用,實現(xiàn)的算法邏輯相對簡單,但是可以過濾絕大部分無關(guān)告警。
5.2 告警豐富模型設(shè)計
根據(jù)用戶的實際管理需要對告警進(jìn)行的豐富,將用戶的資源信息與原始告警進(jìn)行關(guān)聯(lián),使運(yùn)維人員在收到告警的同時,直接可以查看到相關(guān)的內(nèi)容,如聯(lián)系人、聯(lián)系電話、處理方式等,將有價值的數(shù)據(jù)進(jìn)行整合,集中呈現(xiàn)到告警管理平臺,不用進(jìn)行額外的手工查詢工作,提高處理效率。
告警過濾和壓縮過程在告警內(nèi)存庫中進(jìn)行,邏輯相對簡單,處理過程并不需要直接調(diào)用告警知識庫中的數(shù)據(jù)表。在后續(xù)的告警關(guān)聯(lián)性分析以及進(jìn)一步處理過程,僅憑原始告警信息已經(jīng)無法進(jìn)行,需要大量調(diào)用告警知識庫模型的信息。為了提高告警處理效率,需要將告警知識庫和配置管理庫中的關(guān)鍵信息寫入格式化告警的相應(yīng)字段,在告警內(nèi)存庫中處理。
5.3 告警關(guān)聯(lián)性分析模型設(shè)計
告警處理引擎的數(shù)據(jù)來自不同的基礎(chǔ)監(jiān)控系統(tǒng)系統(tǒng),這些數(shù)據(jù)之間是否有關(guān)聯(lián)?如果有,是何種關(guān)聯(lián)關(guān)系?關(guān)聯(lián)關(guān)系的判斷是依賴系統(tǒng)告警本身就可以實現(xiàn),還是需要連接到外部數(shù)據(jù)源,從外部數(shù)據(jù)源獲得信息幫助判斷?這些問題都需要整理和回答,讓系統(tǒng)自動實現(xiàn)關(guān)聯(lián)關(guān)系的分析。通過對這些信息的分析,包括告警信息本身、外部數(shù)據(jù)依賴關(guān)系、告警發(fā)生的時段和頻率甚至外部的問題支持?jǐn)?shù)據(jù)庫等,來告訴管理系統(tǒng),告警的根源是什么,是否已有解決方案,如果是,解決方案是什么,告警的影響情況如何,相關(guān)告警中,是否可以將部分告警抑制等等。這些工作就是在梳理告警之間的關(guān)聯(lián)關(guān)系,本模型中告警關(guān)聯(lián)分析的工作就是利用這些規(guī)則,系統(tǒng)自動發(fā)現(xiàn)多重告警的根源告警,減少人為處理的工作強(qiáng)度,提高運(yùn)維效率。
在實際的監(jiān)控系統(tǒng)中,經(jīng)統(tǒng)計發(fā)現(xiàn)告警在每天不是平均分布的,經(jīng)常是在短時間內(nèi)產(chǎn)生大量的報警。針對以上的場景在處理告警時有可能因為沒有從大量告警中找到最主要告警信息而延誤故障的處理時間。因此針對有關(guān)聯(lián)關(guān)系的報警,需要一套方法來進(jìn)行合并,減少無效報警。為了滿足南方電網(wǎng)告警關(guān)聯(lián)分析的需求,可以使用基于樹形規(guī)則的相關(guān)性分析模型。
很多告警會成對出現(xiàn),例如故障的發(fā)生告警和故障的恢復(fù)告警。告警關(guān)聯(lián)能夠根據(jù)預(yù)定義的特征將這些告警關(guān)聯(lián)在一起并消除相應(yīng)的告警。告警關(guān)聯(lián)具備告警相關(guān)性分析功能,如故障告警發(fā)生在前,故障恢復(fù)告警在后,才自動關(guān)聯(lián)歸并,否則不予關(guān)聯(lián)。支持資源內(nèi)部告警關(guān)聯(lián)(如服務(wù)器Down造成的應(yīng)用、數(shù)據(jù)庫等不可用的告警能夠自動關(guān)聯(lián)定位故障根源為服務(wù)器Down)和跨資源關(guān)聯(lián)(如網(wǎng)絡(luò)端口Down造成服務(wù)器Ping Failure等告警發(fā)生,自動關(guān)聯(lián)定位故障根源為網(wǎng)絡(luò)端口Down)。
5.4 告警后期處理
告警在數(shù)據(jù)處理層經(jīng)過了壓縮、過濾、豐富和關(guān)聯(lián)分析等過程后,形成了最終的通知告警。從告警生命周期來看,還需要通知到告警展示平臺,并提供相應(yīng)的操作接口;從告警的歷史持久化來看,需要進(jìn)行歸檔并提供檢索功能。
6 總結(jié)
通過以上4個模型,可以大幅降低告警量;在告警發(fā)生時也只會報出需要運(yùn)維人員處理的根源告警;對于根源告警,其信息量也足夠豐富,實現(xiàn)快速處理。
參考文獻(xiàn)
[1]張現(xiàn)飛,侯思祖.電力通信網(wǎng)監(jiān)控系統(tǒng)告警關(guān)聯(lián)分析[J].電力系統(tǒng)通信,2009,30(1):47-50.
[2]王旭勇.基于電網(wǎng)IT集中監(jiān)控系統(tǒng)告警關(guān)聯(lián)分析研究[J].中國電子商務(wù),2014,(19):75.
(作者單位:貴州電網(wǎng)有限責(zé)任公司信息中心)