石云輝
(貴州電網(wǎng)有限責任公司計量中心, 貴州,貴陽 550000)
南方電網(wǎng)大力推進“數(shù)字化”轉(zhuǎn)型,融合新一代數(shù)字技術(shù)在新型經(jīng)濟生態(tài)中的價值延伸。用大數(shù)據(jù)分析和數(shù)學模型,構(gòu)建智能化運維體系。計量采集鏈路上的異常數(shù)量日益激增,根源的異常是運維實際中很迫切需要解決的問題[1],但是計量采集是基于鏈路架構(gòu),單點異常處理缺乏找到根源原因的辦法[2]。近年來,關(guān)于異常定位的研究一直受到國內(nèi)外學者的重視[3-4]。當前,針對計量單環(huán)節(jié)的異常分析,以及通過關(guān)聯(lián)分析找異常根源的算法比較多,具有成熟的研究成果[5-9]。由于缺少從鏈路的整體上定位異常根源,造成待處理的異常較多、根本問題得不到解決等問題。因此,本文引入異常預處理與全鏈路異常定位算法,按權(quán)重面積排序,提供全鏈路異常定位依據(jù),既提升了運維的智能化水平又從業(yè)務前后環(huán)節(jié)的整體角度對異常進行監(jiān)控,提升電力計量運維效率。
目前運維工作主要通過人工巡檢,通過經(jīng)驗排查運行中鏈路和采集裝置的異常原因。存在以下問題:第一,排查單個環(huán)節(jié)異常,運維工作中主要通過人工與系統(tǒng)自動統(tǒng)計方式進行運維,以解決一個環(huán)節(jié)的異常為目的;第二,缺乏鏈路整體定位,電力計量主站運維存在很多離散的監(jiān)控點;第三,整體智能程度不高,異常點存在誤報、漏報現(xiàn)象,大部分需要人工經(jīng)驗排查。
異常定位模型包含信息預處理、異常定位及定位路徑與規(guī)則固化三方面。模型構(gòu)建過程如圖1所示。
電力計量業(yè)務通常被設計為網(wǎng)狀的業(yè)務拓撲結(jié)構(gòu),需要先將網(wǎng)狀拓撲結(jié)構(gòu)進行降維處理,同時過濾冗余異常,使有效異常疊加至鏈路環(huán)節(jié)之上,此過程是對異常信息的預處理。計量主站業(yè)務主要分為數(shù)據(jù)采集與指令下發(fā)2類業(yè)務鏈路,如圖2所示。
業(yè)務拓撲圖中的業(yè)務邏輯、節(jié)點間的相互關(guān)聯(lián)是交叉往復且?guī)в袕碗s的邏輯判斷關(guān)系。通過對鏈路各環(huán)節(jié)間數(shù)據(jù)流轉(zhuǎn)、指令調(diào)用等關(guān)系的分析,將網(wǎng)狀鏈路處理成具有獨立調(diào)用的關(guān)系鏈路,最后形成不同的鏈路結(jié)構(gòu)。將業(yè)務拓撲圖降為單一指令流與數(shù)據(jù)流的多條鏈路,如圖3所示。
圖1 計量全鏈路異常定位建模流程圖
處理后的鏈路中節(jié)點與節(jié)點間的關(guān)系直觀,都將降維拆解出一條獨立的鏈,形成從業(yè)務起點到終點的業(yè)務鏈路。
為實現(xiàn)對非關(guān)注異常的有效過濾,從而提高異常定位的精準度,需要設置時間序列,對異常信息進行切割,鎖定異常定位范圍。計量關(guān)鍵業(yè)務異常項獲取如圖4所示。
(1) 同一時間片內(nèi)節(jié)點異常重復處理。節(jié)點異常內(nèi)容包括時間完全相同,只按第一次判定的異常節(jié)點進行異常鏈標記,其余節(jié)點異常判定為不參與異常鏈標記。
(2) 按時間序列劃歸異常項。確定需定位異常點前后需劃分的時間范圍,設置t為前后時間范圍。設置e為劃歸間隔時間,鏈路數(shù)量m=t/e(t時間范圍以實際情況配置,e間隔時間以實際情況配置)。
圖2 計量全鏈路關(guān)鍵業(yè)務拓撲圖
(3) 同一環(huán)節(jié)持續(xù)或閃退的異常判定處理。對長時間存在的異常,或者在短期內(nèi)自行消除的異常進行標記,通過規(guī)則分析,判斷為冗余的,k天內(nèi)不再參與異常智能診斷(k設置天數(shù)以實際情況配置)。
2.3.1 異常鏈路數(shù)字化處理
結(jié)合業(yè)務信息與時間信息的異常鏈,將調(diào)序后的異常鏈進行抽象化處理,刪減多余的業(yè)務信息和時間信息,用1代表異常節(jié)點,0代表非異常節(jié)點,得到抽象后的01異常鏈,如圖5所示。
2.3.2 特殊倍率賦值
為進一步提高異常鏈路的計算準確性,需對異常權(quán)重算法進行調(diào)整,其規(guī)則如下。
(1) 全鏈僅存在單個異常節(jié)點的單節(jié)點異常鏈:乘因c=1+異常節(jié)點序/總節(jié)點數(shù)。
(2) 存在單個異常密集段且在鏈最后的后置異常鏈:乘因c=整體異常權(quán)重放大10倍。
(3) 全鏈各節(jié)點都異常的全異常鏈:乘因c=整體異常權(quán)重放大10倍。
2.3.3 異常鏈路權(quán)重面積計算
通過鏈路環(huán)節(jié)上的異常數(shù)量和異常密集程度計算鏈路異常關(guān)聯(lián)程度,為異常定位提供參考,具體算法如下。
(1) 異常數(shù)量以寬度表示:如鏈路異常節(jié)點數(shù)N=1,則寬度a=1。如鏈路異常節(jié)點數(shù)N>1,則寬度a=max(相連異常節(jié)點數(shù))。
(2) 異常密集程度以長度表示:如鏈路異常節(jié)點數(shù)N=1,則長度b=1+告警節(jié)點所在鏈路的序號/鏈路總節(jié)點數(shù)。如鏈路異常節(jié)點數(shù)N>1,則長度為
(1)
(3) 異常權(quán)重面積公式:S=a×b×100×c。
圖3 計量關(guān)鍵業(yè)務降維鏈路圖
圖4 計量鏈路冗余異常處理架構(gòu)
(4) 異常鏈路權(quán)重面積計算:評價計算與日志記錄的異常項對應到鏈路的環(huán)節(jié)之上,并且通過時間戳進行顯示。將異常信息數(shù)字化成0和1表示的標準鏈,通過權(quán)重面積算法得出每一條鏈的面積,以此表示不同鏈的異常優(yōu)先級,以實現(xiàn)輔助運維異常排查的目的。
(5) 計量全鏈路根源異常定位:設置鏈路優(yōu)先級,在優(yōu)先級范圍內(nèi)依據(jù)時間戳順序確定根源異常。
將異常置于優(yōu)先級高的鏈路中尋找鏈路上的異常根源,并保留全鏈路徑。同時,從驗證中提取匹配的異常定位規(guī)則,形成規(guī)則庫。
圖5 計量鏈路異常節(jié)點抽象化
以貴州電網(wǎng)公司計量主站2020年4月10日至2020年4月18日期間8條關(guān)鍵數(shù)據(jù)采集上行鏈路為例,環(huán)節(jié)分別為前置通訊、規(guī)約服務、消息隊列、任務觸發(fā)、任務分發(fā)、消息隊列和入庫隊列,對環(huán)節(jié)異常信息進行標識與時間戳,如表1所示。
通過權(quán)重面積算法得出每一條鏈的面積,以此表示不同鏈的異常優(yōu)先級,進而對面積進行排序,得到優(yōu)先級高的鏈路,以實現(xiàn)輔助運維異常排查的目的,如表2所示。
為驗證計量全鏈路關(guān)鍵業(yè)務異常定位的準確性,以2020年4月10日至2020年4月24日的5.32萬條數(shù)據(jù)作為訓練樣本集,建立計量全鏈路關(guān)鍵業(yè)務異常定位驗證數(shù)據(jù)庫,將其與已排查運維工單數(shù)據(jù)進行比較驗證,具體流程如圖6所示。
圖6 驗證流程圖
表1 數(shù)據(jù)采集業(yè)務異常鏈路信息
表2 數(shù)據(jù)采集業(yè)務異常鏈路權(quán)重面積計算
選取15天5類鏈路環(huán)節(jié)中重要程度較高的報錯作為異常信息,對異常信息前后10 min內(nèi)的異常信息,每間隔2 min獲取一次,最終對異常關(guān)聯(lián)度優(yōu)先級設置為排名前3的鏈路進行分析,如表3所示。
表3 異常定位與運維排查準確率對比表
經(jīng)過實際對比驗證,本文提出的權(quán)重面積較大鏈路的異常定位準確率較高,此類鏈路范圍覆蓋根源異常的比例均超過50%,其中5類關(guān)鍵異常的定位準確性高于75%,驗證了本文提出的電力計量全鏈路關(guān)鍵業(yè)務異常定位規(guī)則的準確性和有效性。
本文采用融合業(yè)務拓撲的電力計量全鏈路關(guān)鍵業(yè)務異常定位,為標準化異常信息,繪制計量關(guān)鍵業(yè)務拓撲圖,并通過數(shù)字化將異常信息進行預處理,引入異常權(quán)重面積算法來確定鏈路異常關(guān)聯(lián)程度,通過對鏈路異常關(guān)聯(lián)程度高的鏈路進行異常定位,提高了運維排查并解決鏈路異常的效率,保障電網(wǎng)穩(wěn)定運行。但是計量鏈路異常根源很多,其中非鏈路異常也是主要原因,本文提到的異常定位方法無法完全滿足定位要求。因此,下一步將從鏈路與單點異常定位兩個角度入手,提高異常根源定位能力。