余 錚 馮 浩 查志勇
(國(guó)網(wǎng)湖北省電力有限公司信息通信公司 武漢 430077)
國(guó)網(wǎng)公司內(nèi)部各領(lǐng)域及專業(yè)在信息系統(tǒng)的支撐下高效運(yùn)轉(zhuǎn),信息系統(tǒng)運(yùn)行支撐壓力越來越大,面對(duì)50 余套信息系統(tǒng)以及400 余臺(tái)服務(wù)器的運(yùn)行維護(hù)工作量,運(yùn)維人員少,工作任務(wù)艱巨。現(xiàn)階段的信息運(yùn)維綜合監(jiān)管平臺(tái)集“調(diào)度、運(yùn)行、檢修、客服、三線”于一體,已具備高效的基礎(chǔ)數(shù)據(jù)采集功能和資源監(jiān)測(cè)告警功能。
網(wǎng)絡(luò)和業(yè)務(wù)更新變化快的情況下,快速發(fā)現(xiàn)、定位和處理故障的難題,初步實(shí)現(xiàn)信息系統(tǒng)運(yùn)行態(tài)勢(shì)感知及智慧處理。系統(tǒng)提供了強(qiáng)大的REST API以及方便的Email 集成方式,可將任何支撐系統(tǒng)快速接入到一站式的消息平臺(tái)。當(dāng)告警信息蜂擁而至?xí)r,對(duì)運(yùn)行人員的處理能力提出了更高的要求,同時(shí)大量重復(fù)的告警給準(zhǔn)確及時(shí)的推送帶來了很大的困難,為了應(yīng)對(duì)這些問題,根據(jù)不同的運(yùn)維人員的業(yè)務(wù)水平,該文的主要目的是利用案例推理方法做到精準(zhǔn)的消息推送。
告警信息的可視化方便了工作人員工作的同時(shí),也受到了大量信息,特別是重復(fù)性的告警信息的困擾,陳翔[1]等提出利用規(guī)則庫的方法進(jìn)行告警壓縮,和分階式實(shí)時(shí)綜合故障診斷方法,對(duì)告警實(shí)現(xiàn)自協(xié)化處理。馬游[2]提出設(shè)置重要信息超時(shí)告警來避免值班員錯(cuò)過重要信號(hào),同時(shí)提出對(duì)告警信號(hào)進(jìn)行合并和分級(jí)分類篩選以減少監(jiān)控信號(hào)的數(shù)量的方法。李昊旸等[3]根據(jù)告警特征分為元件級(jí)告警和系統(tǒng)級(jí)告警,類型有單一、串聯(lián)、并發(fā)、組合、靈敏度和梯度告警。趙家慶等[4]提出了多主題電網(wǎng)設(shè)備綜合智能告警技術(shù)框架,以基于設(shè)備單元的告警信息為切入點(diǎn),采用時(shí)間序列數(shù)據(jù)庫高效集成支撐平臺(tái),實(shí)現(xiàn)以告警分析為中心的多維度、多主題綜合分析和預(yù)警功能。王健等[5]提出利用概率統(tǒng)計(jì)方法,計(jì)算出設(shè)備不同告警源下的正確告警和錯(cuò)誤告警的次數(shù)獲得先驗(yàn)概率;再通過貝葉斯網(wǎng)絡(luò)對(duì)不同告警源及其組合的可信度進(jìn)行后驗(yàn)概率的計(jì)算,從而得出在不同告警源告警及組合下的告警可信度,將告警信息以量化的形式更準(zhǔn)確地展現(xiàn)給調(diào)度人員從而降低錯(cuò)誤告警次數(shù),提高調(diào)度效率。肖艷煒等[6]從 SCADA 系統(tǒng)獲取一次系統(tǒng)模型,從保信系統(tǒng)獲取二次系統(tǒng)模型,采用基于溯因圖的故障診斷方法,分析SCA-DA 系統(tǒng)和保信系統(tǒng)提供的開關(guān)變位、保護(hù)動(dòng)作、重合閘等告警,智能推理故障元件和故障類型。朱子坤等[7]基于特征映射的智能告警系統(tǒng),通過獲取電網(wǎng)運(yùn)行告警信息所屬調(diào)度對(duì)象的特征信息,包括空間位置特征量以及其所表征的調(diào)度對(duì)象內(nèi)在運(yùn)行狀態(tài),并建立這些特征信息的虛擬映射邏輯,將自然語言描述的推理規(guī)則映射為計(jì)算機(jī)邏輯表達(dá)式,提高計(jì)算機(jī)處理效率。莊博等[8]從設(shè)備集中監(jiān)控業(yè)務(wù)的基本需求入手,介紹了監(jiān)控智能告警包含的功能,闡述了監(jiān)控智能告警巡視的內(nèi)容和各項(xiàng)功能,闡述了監(jiān)控智能告警展示的功能、數(shù)據(jù)來源并與調(diào)度智能告警進(jìn)行了比較,介紹了告警智能分析推理的功能。張杰明等[9]設(shè)計(jì)了電網(wǎng)運(yùn)行智能告警系統(tǒng)的架構(gòu),分析基于專家知識(shí)庫的智能推理規(guī)則。黃國(guó)政[10]等探討了調(diào)度自動(dòng)化系統(tǒng)告警信號(hào)智能處理的機(jī)制和規(guī)則。為了更好地幫助決策,陳艷[11]等提出了一種改進(jìn)的最近鄰算法進(jìn)行告警類別的判斷。蔡子恒[12]介紹了幾種綜合智能告警技術(shù)。閃鑫[13]等提出面向調(diào)度運(yùn)行模式的綜合告警、設(shè)備故障的在線快速診斷以及多有調(diào)度間的故障實(shí)時(shí)共享方案。王榮[14]等提出了一個(gè)智能告警框架并闡述了具體功能。陳開等[15]提出為了提高風(fēng)險(xiǎn)預(yù)測(cè)能力以及故障分析能力就要積極進(jìn)行故障綜合分析與告警信息系統(tǒng)構(gòu)建,大力開發(fā)告警信息軟件,利用數(shù)據(jù)庫以及模塊來預(yù)測(cè)風(fēng)險(xiǎn)科學(xué),同時(shí)對(duì)故障信息作出分析和處理,從而有效避免電網(wǎng)運(yùn)行中故障問題發(fā)生。
在電網(wǎng)信息系統(tǒng)行期間,系統(tǒng)中的消息感知模塊將會(huì)接入各個(gè)監(jiān)控平臺(tái)的告警與事件。數(shù)據(jù)主要來源于各類型的網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫、應(yīng)用系統(tǒng)及主機(jī)。通過多種協(xié)議如 syslog,SNMP,ssh,telnet,WMI,jdbc。獲取到日起信息后,可以進(jìn)行規(guī)范化,分類,過濾并推送到核心層進(jìn)行分析、存儲(chǔ)。如圖1 所示,整個(gè)消息感知模塊的業(yè)務(wù)功能分為五個(gè)主要步驟。各步之間相互依賴,各步中傳遞數(shù)據(jù)在不斷的發(fā)生變化,最后實(shí)現(xiàn)精準(zhǔn)推送及可視化展示。
圖1 消息感知模塊
基于案例的推理(Case-Based Reasoning,CBR)是人工智能發(fā)展較為成熟的一個(gè)分支,最由早耶魯大學(xué)Schank 教授在1982 年提出的,它是一種基于過去的實(shí)際經(jīng)驗(yàn)或經(jīng)歷的推理,是人工智能領(lǐng)域中一項(xiàng)重要的推理方法。對(duì)基于案例的推理來說,求解一個(gè)問題的結(jié)論是從記憶里或案例庫中找到與當(dāng)前問題最相關(guān)的案例,然后針案例中的解決方案做為解決當(dāng)前新出現(xiàn)的案例或是進(jìn)行必要的改動(dòng)以適合當(dāng)前需解決的問題,此持術(shù)已成功在法律案例分析、輔助工程設(shè)計(jì)等領(lǐng)域取得了實(shí)用性成果。通過對(duì)國(guó)網(wǎng)信息化系統(tǒng)中消息感知模塊的仔細(xì)分析,精準(zhǔn)推送功能起到關(guān)鍵的呈上起下的作用,前面的功能的有效實(shí)現(xiàn)是此功能的重要前提,此功能的實(shí)現(xiàn)也是后續(xù)功能的重要前提。通過對(duì)國(guó)網(wǎng)系統(tǒng)中的數(shù)據(jù)規(guī)范化后,可以清晰地看到告警中信息的重要組成成分:告警數(shù)據(jù)來源,告警信息的詳細(xì)描述,及推送相關(guān)業(yè)務(wù)人員。基于案例推理的框架如圖2所示。
圖2 案例推理流程圖
基于案例推理方法中有三個(gè)重要的實(shí)現(xiàn)步驟:案例表示,案例檢索及案例重用或調(diào)整。
案例表示是案例推理的重要基礎(chǔ),實(shí)際應(yīng)用環(huán)境中它表示為過去曾解決過的問題。在該文的研究工作中,將已處理過的告警信息作為一個(gè)案例,即包括告警信息及對(duì)此條告警的處理方法,從而可以形成案例模板。用形式化的方法可以表示為:告警數(shù)據(jù)來源:{硬件故障,網(wǎng)絡(luò)故障,系統(tǒng)服務(wù)故障…},告警信息:{來源,具體描述},業(yè)務(wù)人員:{專責(zé)人員,系統(tǒng)管理員…},從表1 中可以看到告警信息的案例描述,當(dāng)系統(tǒng)中的這種案例積累起來后,就會(huì)形成一個(gè)案例數(shù)據(jù)庫,此案例庫就可以作為后續(xù)問題的一個(gè)參考庫。
表1 案例庫中的案例模板
表2 新出現(xiàn)的案例模板
相似案例的檢索是基于案例推理中的一個(gè)關(guān)鍵操作,即當(dāng)新的案例出現(xiàn)時(shí),從前面提到的案例庫中去搜索與此新案例最相似的案例,并提取找到的案例中的解決策略作為新案例的解決策略,搜索過程的時(shí)間消耗主要是花在查找過程,提取過程非常迅速。為了更好地實(shí)現(xiàn)查找過程,該文將采用自然語言處理方法對(duì)告警信息進(jìn)行詞法分析,提取重要的相關(guān)詞,將自動(dòng)保存在第4 個(gè)屬性中。然后利用詞向量的方法對(duì)告警信息進(jìn)行相似度計(jì)算,即基于詞匯的重疊利用Jaccard 相似度度量算法完成計(jì)算,具體公式如下:
其中,A為案例庫中的帶有解決方案的案例,B為新出現(xiàn)的問題案例,在該文中,通過詞法分析后獲得案例相似性,將相似閾值設(shè)定為[0.4,1]這樣的范圍表示兩者非常相似或基本等同。同時(shí),隨著系統(tǒng)運(yùn)行時(shí)間的增長(zhǎng),案例庫會(huì)不斷的變大,近而影響到的是搜索時(shí)間的問題,對(duì)于國(guó)網(wǎng)系統(tǒng)的應(yīng)急技術(shù),搜索時(shí)間必須要在合理的限制內(nèi),為此,該文根據(jù)案例模板中的描述,設(shè)計(jì)了各種索引方便進(jìn)行檢索。
在前一步中檢索出來的案例中的解決方案,若確認(rèn)與問題案例有很高的相似性,則可以直接利用它的決策方法來進(jìn)行推送,或相似性不足以讓相關(guān)人員滿意,則可以人為地進(jìn)行調(diào)整,調(diào)整后的決策與新案例將再次存放到案例庫中作為后續(xù)的問題的參考。
基于案例推理的技術(shù)方法中,對(duì)其使用效率的關(guān)鍵影響因素為案例庫的大小,案例的數(shù)量不僅直接影響著決策的質(zhì)量,而且影響著檢索速度,案例庫越大,直接線性檢索就會(huì)很慢,所以,另一個(gè)關(guān)鍵影響因素是檢索技術(shù),根據(jù)國(guó)網(wǎng)數(shù)據(jù)的特點(diǎn),設(shè)計(jì)了不同的索引來提高檢索速度。該文利用系統(tǒng)運(yùn)行數(shù)據(jù)進(jìn)行了一定量的實(shí)驗(yàn),選取了一段時(shí)間內(nèi)大約10000 條告警數(shù)據(jù)進(jìn)行分析,從最初的庫例庫數(shù)量為0 開始運(yùn)行推理過程,一直到8000 條案例,剩余的2000條作為索引設(shè)計(jì)分析的最終測(cè)試用例。
在測(cè)試中可以看出,在庫例庫較小時(shí),能找到的相似案例中的決策個(gè)數(shù)也較小,隨著案例庫中案例增多,決策個(gè)數(shù)的數(shù)量也會(huì)隨之增加,可以保證決策的質(zhì)量。
圖3 案例庫大小影響圖
因測(cè)試用到的數(shù)據(jù)量較小,實(shí)際的運(yùn)行都在毫秒數(shù)量級(jí),差別不是很大,所以,該文在實(shí)際的測(cè)試中采用給定一定的相似值的情況下,利用找到相似案例時(shí)的比較次數(shù)作為參考,比較次數(shù)越多,會(huì)反應(yīng)出運(yùn)行時(shí)間越多。
圖4 索引技術(shù)對(duì)比
為了圖示方便,在圖4 中的橫坐標(biāo)在每個(gè)點(diǎn)上都縮小了400 倍,實(shí)驗(yàn)中設(shè)定的相似值為0.7。從圖4 中可以看出,有索引時(shí)的比較次數(shù)雖然也在隨著案例庫的大小在增長(zhǎng),但是增長(zhǎng)的幅度遠(yuǎn)小于沒有索引技術(shù)的比較次數(shù)。說明,設(shè)計(jì)的索引可以有效的提高檢索速度。
該文針對(duì)國(guó)網(wǎng)信息化系統(tǒng)中的消息感知模塊的實(shí)現(xiàn)給出了一個(gè)基于案例推理的方法實(shí)現(xiàn),詳細(xì)闡述了整個(gè)框架的實(shí)現(xiàn),描述了案例的表示,案例的搜索及案例的重用和修改的具體實(shí)現(xiàn)過程,為了驗(yàn)證方法的有效性,該文也進(jìn)行一定規(guī)模的實(shí)驗(yàn)驗(yàn)證,通過實(shí)驗(yàn)結(jié)果分析,證明了該文提出的方法的有效性。
在今后的工作中,我們將進(jìn)一步分析告警信息,更加全面地設(shè)計(jì)案例模板,同時(shí)再改進(jìn)索引技術(shù),以提高檢索速度,并在更大數(shù)據(jù)集上進(jìn)行測(cè)試。