李堯輝,霍龍浩,何境宇
(中國移動通信集團廣東有限公司,廣州 510623)
通信網(wǎng)絡迅猛發(fā)展及網(wǎng)絡規(guī)模日益擴大,使大量通信網(wǎng)元每天產(chǎn)生海量告警信息;同時,在電信行業(yè)網(wǎng)絡管理集中化趨勢下[1,2],大量告警監(jiān)控任務集中在少量監(jiān)控人員上。因此,對從海量告警中快速定位、處理故障的手段和能力提出了更高的要求,特別是通信網(wǎng)絡底層無線、傳輸設備量大以及告警量較上層設備多,手段與能力的提升更顯得尤為迫切。
目前,主要通過告警關聯(lián)[3,4,5]、智能預處理[6]等手段實現(xiàn)海量告警的壓縮和智能化處理,協(xié)助定位故障。文獻[7]提出一種無線故障原因預處理方法,基站退服時通過關聯(lián)分析各類告警,根據(jù)停電、傳輸設備、傳輸線路等原因按優(yōu)先級預處理對故障進行智能定位。文獻[8]中提出一種引起大面積基站退服的傳輸故障定位方法及裝置,針對大面積基站退服場景,通過找出傳輸故障引起的退服基站,分析其與承載這些基站的傳輸電路、傳輸光路的對應關系,從而定位故障光路信息??偟膩碚f,這些方法通過告警關聯(lián)等預處理手段,提升傳輸故障、退服、大面積退服等典型故障場景的定位效率。但這些方法一般側重關聯(lián)規(guī)則挖掘或針對某一特定場景故障定位,并不通用批量退服、批量脫管或停電等無線、傳輸故障場景定位及故障影響面分析;而且基于傳輸電路、傳輸光路與退服基站的對應關系需要有傳輸電路中間段每一跳路由的群路口信息才能實現(xiàn),而現(xiàn)網(wǎng)電路資源信息往往只有首末兩端支路口信息沒有完備中間段路由群口信息,因此實現(xiàn)難度較大。
本文提出一種基于子網(wǎng)拓撲的無線、傳輸故障分析方法,該方法對無線、傳輸告警流關聯(lián)傳輸子網(wǎng),并對告警流進行以同一傳輸子網(wǎng)為單位的渲染分析定位,并提出基于樹圖回溯法的業(yè)務影響面分析,從而提高無線、傳輸故障定位效率,增強故障影響面掌控能力及資源調度能力。
基于子網(wǎng)拓撲的無線、傳輸故障分析方法主要步驟如下:第一,獲取現(xiàn)網(wǎng)退服、市電、LOS等無線、傳輸特定告警流;第二,對獲取的告警流匹配傳輸子網(wǎng),得到每個告警網(wǎng)元關聯(lián)的傳輸子網(wǎng);第三,對告警流進行子網(wǎng)拓撲渲染分析定位故障點,即以傳輸子網(wǎng)為單位渲染呈現(xiàn)無線、傳輸告警流;最后,基于樹圖回溯法分析故障的業(yè)務影響范圍。具體的分析流程圖如圖1所示。
圖1 基于子網(wǎng)拓故障分析方法
其中,獲取特定告警流指獲取指定時間段內、指定區(qū)域、指定設備、指定類別的告警流。一般在告警監(jiān)控、故障分析的場景下,指定區(qū)域是某個地市或者地區(qū);指定設備可以是一個或多個基站或傳輸設備,實際應用場景也可不指定設備;指定類別即指定無線、傳輸?shù)闹匾婢悇e,重要無線告警類別一般包括退服告警、網(wǎng)元斷鏈告警、S1斷鏈告警、市電告警、低壓告警等,重要傳輸告警類別一般包括網(wǎng)元脫管告警、LOS告警等。獲取特定告警流最終目的是從監(jiān)控的告警出發(fā),通過上述各維度選出數(shù)量異常的告警流或與當前故障最為相關的特定告警流用作后續(xù)的分析。
獲取特定告警流后可以根據(jù)不同類別告警流通過不同方法獲取對應的傳輸子網(wǎng),具體如圖2所示。對于傳輸專業(yè)脫管告警、LOS告警等告警可通過告警上報的傳輸網(wǎng)元所屬傳輸子網(wǎng)直接得到關聯(lián)的傳輸子網(wǎng)。對于無線專業(yè)指定告警、退服告警、網(wǎng)元斷鏈告警、S1斷鏈告警可通過基站及端口獲取電路編號,通過電路編號進而獲取電路首末兩端傳輸網(wǎng)元,通過首末兩端傳輸網(wǎng)元所屬傳輸子網(wǎng)得到關聯(lián)的傳輸子網(wǎng);市電、低壓告警可通過基站所屬機房信息獲取所在機房,進而獲取同機房傳輸網(wǎng)元,從該傳輸網(wǎng)元所屬傳輸子網(wǎng)得到關聯(lián)的傳輸子網(wǎng)。
圖2 告警獲取相關傳輸子網(wǎng)流程圖
獲取特定告警流、關聯(lián)傳輸子網(wǎng)后,便可定位告警最為集中的一個或多個傳輸子網(wǎng),進而進行子網(wǎng)拓撲渲染分析、定位故障點。每次選取一個傳輸子網(wǎng)進行渲染分析,通過多次選擇實現(xiàn)多個子網(wǎng)分析。先通過資源信息呈現(xiàn)所選取子網(wǎng)傳輸拓撲,拓撲由該子網(wǎng)各個傳輸網(wǎng)元鏈接形成,并呈現(xiàn)該子網(wǎng)中環(huán)路下帶子環(huán)(呈現(xiàn)子環(huán)下帶網(wǎng)元個數(shù)),如圖3所示。根據(jù)告警流關聯(lián)的傳輸網(wǎng)元信息(告警流關聯(lián)傳輸子網(wǎng)過程均會關聯(lián)對應傳輸網(wǎng)元),將告警渲染到子網(wǎng)拓撲上,通過不同顏色渲染代表不同類別告警。對選定的傳輸子網(wǎng)分無線、傳輸兩個圖層進行渲染分別對應兩個專業(yè)的故障,無線圖層渲染無線告警、傳輸圖層渲染傳輸告警及動環(huán)告警。當一個網(wǎng)元有多個告警時,可渲染優(yōu)先級較高的告警,按告警的重要程度可將優(yōu)先級進行如下設置,無線圖層退服告警>網(wǎng)元斷鏈告警>S1斷鏈告警>低壓告警>市電告警,傳輸圖層脫管告警>LOS告警>低壓告警>市電告警。另外,可在拓撲下方列出傳輸子網(wǎng)的所有指定告警流告警信息,點擊傳輸子網(wǎng)的某個傳輸網(wǎng)元時可列出渲染在該圖層該網(wǎng)元的網(wǎng)元信息及告警信息。由此可較為清晰呈現(xiàn)子網(wǎng)拓撲的告警情況便于發(fā)現(xiàn)故障點,對于無線退服、網(wǎng)元斷鏈、S1斷鏈告警,可以聯(lián)動市電、低壓告警以及傳輸告警在拓撲的分布位置,定位市電、傳輸或設備等原因造成的退服或斷鏈;無線或傳輸市電、低壓告警以及傳輸?shù)腖OS、脫管告警,可通過其在拓撲的位置判斷業(yè)務影響面。
圖3 子網(wǎng)拓撲渲染分析示意圖
根據(jù)上述子網(wǎng)拓撲渲染分析,可較為直觀對批量告警的故障點進行定位,并根據(jù)渲染的子網(wǎng)拓撲定性判斷業(yè)務影響的范圍。在此基礎上,能通過樹圖回溯法進一步定量判斷故障業(yè)務影響范圍。先建立告警網(wǎng)元列表,將獲取指定告警流關聯(lián)的傳輸網(wǎng)元放入告警網(wǎng)元列表;同時建立業(yè)務影響網(wǎng)元列表用以儲存業(yè)務可能受影響的傳輸網(wǎng)元。業(yè)務影響網(wǎng)元列表建立時為空,通過以下方法找出業(yè)務受影響的傳輸網(wǎng)元放入列表:從告警網(wǎng)元列表中選取一個告警網(wǎng)元,并同時將其從告警網(wǎng)元列表剔除,判斷該告警網(wǎng)元是否在業(yè)務影響網(wǎng)元列表內若是則重新選擇(首次判斷時業(yè)務影響網(wǎng)元列表為空可直接進行后續(xù)判斷);若不在則判斷其是否在拓撲的單鏈上、或是否環(huán)路上唯一告警網(wǎng)元,若是上述兩種情況之一則將該網(wǎng)元及其下掛網(wǎng)元列入業(yè)務影響網(wǎng)元列表后重新選擇告警網(wǎng)元,若告警網(wǎng)元是環(huán)路上非唯一告警網(wǎng)元則進一步通過樹圖回溯法找出業(yè)務影響網(wǎng)元列入業(yè)務影響網(wǎng)元列表,重復上述步驟直至告警網(wǎng)元列表為空。最后對業(yè)務影響網(wǎng)元列表中網(wǎng)元去重,得到可能受影響的所有傳輸網(wǎng)元,進而關聯(lián)出下帶的可能受影響的無線網(wǎng)元等數(shù)目。
其中通過樹圖回溯法找出環(huán)路非唯一告警網(wǎng)元的業(yè)務影響網(wǎng)元,如圖4所示。具體以故障網(wǎng)元為根節(jié)點NE,與其相鄰網(wǎng)元作為第1層子節(jié)點,查找并構建第1層子節(jié)點集{子節(jié)點網(wǎng)元1,子節(jié)點網(wǎng)元2,…,子節(jié)點網(wǎng)元N},遍歷第1層子節(jié)點集并以第1層子節(jié)點的相鄰網(wǎng)元(剔除上一層節(jié)點)構建第2層子節(jié)點集{子節(jié)點網(wǎng)元1.1,子節(jié)點網(wǎng)元1.2,…,子節(jié)點網(wǎng)元N.N},如此循環(huán),形成樹狀拓撲。樹狀拓撲的每一條分支以子網(wǎng)上聯(lián)傳輸網(wǎng)元(連接該子網(wǎng)與上一層級子網(wǎng)的傳輸網(wǎng)元)終結或以子節(jié)點除上層網(wǎng)元外沒有其它相鄰網(wǎng)元終止。構建樹圖后,從某一最底層葉子節(jié)點回溯找到第一個帶告警的傳輸網(wǎng)元(此處指帶告警傳輸網(wǎng)元而非在告警網(wǎng)元列表內的網(wǎng)元,部分帶告警傳輸網(wǎng)元可能在尋找影響網(wǎng)元過程中被剔除出告警網(wǎng)元列表中),第一個帶告警的傳輸網(wǎng)元到根節(jié)點間的所有傳輸網(wǎng)元為業(yè)務影響網(wǎng)元列入業(yè)務影響網(wǎng)元列表中。若某一支路只有根節(jié)點一個網(wǎng)元為告警網(wǎng)元,當終止節(jié)點為上聯(lián)網(wǎng)元則該支路只有根節(jié)點列入業(yè)務影響網(wǎng)元列表,當終止節(jié)點為普通傳輸網(wǎng)元則整條支路網(wǎng)元列入業(yè)務影響網(wǎng)元列表。遍歷所有最底層葉子節(jié)點找出該環(huán)路所有影響網(wǎng)元。圖4樹圖回溯法中,若環(huán)路中有套環(huán)情況,需將所套子環(huán)解成單鏈避免進入死循環(huán),即當檢測到某兩條支路有兩個相同網(wǎng)元(根節(jié)點外)時,則將兩條支路合并成一條支路,合并支路的網(wǎng)元取兩條支路的并集。
圖4 樹圖回溯法判定環(huán)路業(yè)務影響面
對樹圖回溯法找環(huán)路非唯一告警網(wǎng)元的業(yè)務影響網(wǎng)元舉例如圖5所示。環(huán)路有A-J10個傳輸網(wǎng)元,其中A和F為告警網(wǎng)元,D為上聯(lián)傳輸網(wǎng)元。以故障網(wǎng)元A為根節(jié)點,第1層網(wǎng)元為子節(jié)點B、H;第2層為G、C;第3層為F、I、D,其中D為上聯(lián)傳輸網(wǎng)元故該支路終止;第4層為J、E,J無其它相鄰網(wǎng)元該支路終止;第5層為D,D為上聯(lián)傳輸網(wǎng)元故該支路終止。形成樹狀拓撲后,從各支路的底層節(jié)點(D、J、D)往上回溯,A-H-G-I-J只有根節(jié)點為告警網(wǎng)元且終止節(jié)點為普通節(jié)點故全部列入受影響網(wǎng)元列表,A-B-C-D只有根節(jié)點為告警網(wǎng)元且終止節(jié)點為上聯(lián)傳輸網(wǎng)元則只有A列入受影響網(wǎng)元列表,A-H-G-F-E-D回溯第一個告警網(wǎng)元為F故A-H-G-F列入受影響網(wǎng)元列表,受影響網(wǎng)元列表去重后又A、H、G、F、I、J 6個網(wǎng)元。
通過上述方法可定量得出故障可能影響的傳輸網(wǎng)元數(shù)目以及下帶的基站數(shù)目,并根據(jù)具體受影響網(wǎng)元列表中的網(wǎng)元重要程度調度資源優(yōu)先恢復重要網(wǎng)元。
本文針對底層無線、傳輸網(wǎng)絡告警量大及故障難以定位的問題,提出一種基于子網(wǎng)拓撲的故障分析方法,該方法可以通過獲取指定告警流,對告警流匹配傳輸子網(wǎng)進行渲染分析故障定位,在子網(wǎng)渲染分析的基礎上進一步通過樹圖回溯法定量分析業(yè)務影響范圍。根據(jù)實際應用測試,對2017年1-2月兩起批量退服故障進行分析,有效協(xié)助監(jiān)控人員10min內定位故障傳輸子環(huán),支撐業(yè)務影響面分析。該方法能有效提高故障定位效率、分析故障業(yè)務影響范圍,根據(jù)業(yè)務影響范圍進行資源調度,提升監(jiān)控及故障處理能力。該方法不局限某一種的特定告警而覆蓋無線、傳輸重要告警,而且依賴簡單的資源信息達到挖掘告警共性的效果,有較好的推廣意義。
圖5 環(huán)路非唯一告警網(wǎng)元案例
[1] 矯秀梅. 推進集中故障管理提升網(wǎng)絡生產(chǎn)效率[J]. 科技與創(chuàng)新, 2014,20:137-138.
[2] 李永強, 張瑞. 面向用戶感知的集中化性能管理模式探索與實踐[J]. 移動通信, 2016,40(14)34-37.
[3] 趙振東, 黃楠, 李紫涵. SDH系統(tǒng)網(wǎng)路故障的告警關聯(lián)分析[J],2012,33(236):63-66.
[4] 徐前方, 闞建杰, 李永春. 一種具有時序特征的告警關聯(lián)規(guī)則挖掘算法[J],2007,24(3):23-26.
[5] 張永華. 基于大數(shù)據(jù)技術的電信網(wǎng)絡告警關聯(lián)分析設計與實現(xiàn)[J], 2016,29(4):18-23.
[6] 張滿盧, 卓君, 馮劍明. 傳輸告警自動預處理方法研究[J],2014,9:102-104.
[7] 柴宗弘, 韓建友, 馬英香. 一種無線網(wǎng)絡故障原因預處理方法及無線網(wǎng)絡故障工單派發(fā)系統(tǒng): 104270779[P]. 2015-01-07.
[8] 魏麗紅, 聶宇田, 王歆波. 一種引起大面積基站退服的傳輸故障定位方法及裝置: 104254095[P]. 2014-12-31.