【摘 要】為了提高大容量網(wǎng)管監(jiān)控系統(tǒng)中告警處理的實時性,對設(shè)備級并行度故障告警處理方法進(jìn)行了研究,并做了相關(guān)應(yīng)用實驗,通過對比實驗數(shù)據(jù)可知,該方法適用于海量設(shè)備監(jiān)控管理系統(tǒng),且能極大地提高告警處理效率。
無線網(wǎng)元管理系統(tǒng) 告警管理 設(shè)備級并行度
1 引言
網(wǎng)元管理系統(tǒng)(EMS,Element Management System)[1]是管理特定類型的一個或多個電信網(wǎng)絡(luò)單元(NE,Network Element)的系統(tǒng),而無線網(wǎng)元管理系統(tǒng)(WEMS,Wireless Element Management System)就是在無線通信環(huán)境中使用的一種網(wǎng)元管理系統(tǒng)。隨著無線通信技術(shù)的發(fā)展,管理網(wǎng)元種類呈現(xiàn)出多樣化的態(tài)勢,網(wǎng)元數(shù)目急劇增加,大容量網(wǎng)管監(jiān)控系統(tǒng)成為一種新的技術(shù)領(lǐng)域。為了保證故障告警處理的實時性,大容量網(wǎng)管系統(tǒng)中告警處理方法的效率保證成為亟待解決的主要問題之一。
以4G設(shè)備為例,其通話質(zhì)量及數(shù)據(jù)通信速率遠(yuǎn)優(yōu)于傳統(tǒng)通信設(shè)備,隨著網(wǎng)絡(luò)結(jié)構(gòu)升級及服務(wù)質(zhì)量要求的提高,運(yùn)營商對設(shè)備狀態(tài)監(jiān)控的實時性提出了更高的要求。當(dāng)大批量設(shè)備集中上報告警且告警較密集時,單一運(yùn)行的故障告警處理模式[1]無法滿足大容量設(shè)備監(jiān)控的要求,如千級、萬級的設(shè)備數(shù)量[2]。按行政區(qū)域劃分進(jìn)行并行處理的方法[3]對告警處理效率有所提高,當(dāng)設(shè)備均衡分布時能達(dá)到最佳配置(即告警處理達(dá)到行政區(qū)域級并行度),但依然無法完全滿足性能要求,尤其當(dāng)設(shè)備區(qū)域分布不均時可能會出現(xiàn)極惡情況(即告警處理效率相當(dāng)于單核串行處理效率),因此需要一種更為高效的并行告警處理方法。
本文將研究一種在大容量的無線網(wǎng)元管理系統(tǒng)中處理大量不同類型設(shè)備集中上報告警的方法,該方法能將設(shè)備告警的處理粒度達(dá)到設(shè)備級并行度,可極大提高網(wǎng)管系統(tǒng)的并行處理效率,保證告警上報處理的高效性與實時性。
2 WEMS告警管理方法
告警管理作為WEMS的一項重要管理功能,能為運(yùn)營商及時地提供詳盡可靠的設(shè)備故障告警數(shù)據(jù),告警業(yè)務(wù)處理單元按照用戶預(yù)配置的過濾規(guī)則處理告警信息,屏蔽不影響業(yè)務(wù)使用的告警,確認(rèn)已知原因的告警,清除正在處理的告警,顯示用戶終端所關(guān)心的告警。這些告警過濾規(guī)則可以幫助用戶集中精力處理關(guān)注業(yè)務(wù)。
為了克服現(xiàn)有技術(shù)存在的問題和不足,提供了一種可實現(xiàn)設(shè)備級并行度的告警處理方法,同時適合于集中式管理和分布式管理系統(tǒng),極大地提高了海量告警處理的效率。該方法的主要思路框架如圖1所示:
(1)建立告警解析池和告警處理池,告警解析池的并行度根據(jù)協(xié)議幀解析例程的個數(shù)進(jìn)行配置,告警處理池的并行度根據(jù)告警處理例程的個數(shù)進(jìn)行配置。
(2)設(shè)備主動告警上報或網(wǎng)管告警同步后,將設(shè)備上報或應(yīng)答的告警加入設(shè)備告警協(xié)議幀隊列。
(3)告警解析池進(jìn)行并行處理,獲取告警協(xié)議幀,解析各類設(shè)備告警,將其加入待處理告警隊列;若主動告警上報,則發(fā)送告警應(yīng)答給設(shè)備。
(4)針對待處理告警隊列,告警處理池以設(shè)備級并行度進(jìn)行并行處理,使用負(fù)載均衡方式分配設(shè)備告警,將告警存儲入庫,上報告警給操作終端。需要注意的是,同一時刻同一設(shè)備僅允許分配一個處理例程處理告警,不同設(shè)備分配到不同處理例程并行處理告警。
其中,告警解析例程按照設(shè)備類型分別進(jìn)行解析,解析成預(yù)定義數(shù)據(jù)結(jié)構(gòu)的待處理告警;告警處理例程按照負(fù)載均衡方法來處理設(shè)備告警,將待處理告警處理成預(yù)定義數(shù)據(jù)結(jié)構(gòu)的告警日志,存儲到數(shù)據(jù)庫并上報操作終端。在實際應(yīng)用過程中,告警解析池的配置根據(jù)設(shè)備告警上報速度設(shè)定,告警處理池的配置根據(jù)設(shè)備數(shù)量級、告警處理速度設(shè)定。
3 WEMS應(yīng)用設(shè)計
設(shè)備級并行度的告警處理方法不僅適合于廣泛使用的集中式網(wǎng)管系統(tǒng),也適合于發(fā)展迅猛的分布式管理系統(tǒng)。設(shè)備級并行度的告警處理方法主要是針對設(shè)備主動告警上報或告警同步的一種并行處理方法,該方法最大并行度可達(dá)設(shè)備級,極大地提高了告警處理效率。WEMS應(yīng)用于集中式管理系統(tǒng)的實施過程如圖2所示,具體操作步驟如下:
系統(tǒng)在具體應(yīng)用時,可采用計算機(jī)軟件技術(shù)在告警業(yè)務(wù)處理單元實現(xiàn)自動處理流程。另外,技術(shù)人員可自行設(shè)置告警屏蔽規(guī)則、告警確認(rèn)規(guī)則、告警清除規(guī)則和告警過濾規(guī)則。當(dāng)進(jìn)行告警屏蔽/確認(rèn)/清除/過濾時,若符合告警屏蔽規(guī)則,則不予入庫且不予上報操作終端,若符合告警確認(rèn)規(guī)則,則更改告警為確認(rèn)狀態(tài),若符合告警清除規(guī)則,則更改告警為清除狀態(tài),若符合在線授權(quán)用戶的告警過濾規(guī)則,則告警入庫且上報操作終端,否則不予上報。
4 試驗結(jié)果與分析
在實際應(yīng)用過程中,不同的服務(wù)器硬件配置會產(chǎn)生不同的處理速度,基于SUN FIRE X4640服務(wù)器進(jìn)行測試,根據(jù)測試結(jié)果分析出最優(yōu)配置。
4.1 告警解析池配置分析
告警解析池的配置取決于設(shè)備的告警上報速度(RR,Report Rate),通過協(xié)議幀解析例程數(shù)目M進(jìn)行配置。協(xié)議解析處理時不區(qū)分設(shè)備,僅區(qū)分設(shè)備類型。目前,WEMS所管理的設(shè)備類型包括宏基站、核心網(wǎng)、Nanocell基站、Nanocell網(wǎng)關(guān)、車載CPE、時鐘服務(wù)器等,根據(jù)先進(jìn)先出(FIFO,F(xiàn)irst In First Out)策略均衡處理。告警解析池配置如表1所示:
4.2 告警處理池配置分析
告警處理池的配置取決于設(shè)備數(shù)量級(DC,Device Count)、告警處理速度(DR,Deal Rate),通過告警處理例程數(shù)目N進(jìn)行配置。進(jìn)行告警處理時需區(qū)分設(shè)備,同一時刻每臺設(shè)備有且僅有一個例程可處理告警,不同設(shè)備可劃分到不同例程中并行處理。告警處理池配置如表2所示。
網(wǎng)元管理系統(tǒng)主要是作為省級網(wǎng)管集中部署,比如湖北省的行政區(qū)域有武漢市、孝感市、荊州市等地級市,行政區(qū)域數(shù)(RC,Region Count)即為該省所有地級市的個數(shù)。根據(jù)早期按行政區(qū)域劃分的并行處理方法[3],配置如表3所示。
表1、表2是設(shè)備級并行度告警處理方法的配置結(jié)果,表3是行政區(qū)域并行度告警處理方法的配置結(jié)果。經(jīng)過對比,行政區(qū)域劃分的并行處理方法告警處理速度最高可達(dá)980 條/s,而設(shè)備級并行度方法的告警處理速度最高可達(dá)3 000 條/s,后者在處理效率上有大幅提升,確保了處理的實時性。
5 結(jié)論
WEMS告警處理采用設(shè)備級并行度的故障告警處理方法,該方法在海量設(shè)備監(jiān)控管理系統(tǒng)中能極大地提高告警處理效率,概括來說具有以下優(yōu)點(diǎn):
(1)在大容量網(wǎng)管系統(tǒng)中,海量設(shè)備以設(shè)備級并行度處理告警,可真正實現(xiàn)高效性;
(2)設(shè)備管理與設(shè)備通信協(xié)議、設(shè)備類型等特征相分離,可同時管理多類設(shè)備,具有管理統(tǒng)一性;
(3)同時適合于集中式管理、分布式管理的EMS系統(tǒng),具備普遍適用性。
由此可見,WEMS告警處理方法可用于所有需要處理網(wǎng)元故障的EMS系統(tǒng),尤其適用于海量設(shè)備管理系統(tǒng)。未來,在分布式應(yīng)用場景下如何提高故障告警處理效率將是該領(lǐng)域研究的一個重要課題。
參考文獻(xiàn):
[1] 門健. 網(wǎng)絡(luò)告警管理系統(tǒng)的設(shè)計與測試[J]. 空軍工程大學(xué)學(xué)報: 自然科學(xué)版, 2004,5(4): 63-66.
[2] 王洋. 集中監(jiān)控模式下的信息通信網(wǎng)絡(luò)故障管理探索與實踐[J]. 電信科學(xué), 2015(1): 164-170.
[3] 劉瑋,吳玲琦,陳高華. 一種網(wǎng)管監(jiān)控系統(tǒng)及其實現(xiàn)并行處理故障告警的方法: 中國, 201010201270.0[P]. 2010-11-03.
[4] 羅明,孟傳偉,黃海量. 基于加權(quán)頻繁模式樹的通信網(wǎng)絡(luò)告警規(guī)則挖掘方法[J]. 計算機(jī)工程, 2016(4): 190-196.
[5] 龍昱磊. 基于SNMP協(xié)議的網(wǎng)絡(luò)管理告警振蕩抵消策略的研究[J]. 廣西通信技術(shù), 2012(3): 11-14.
[6] 蘇醒,張璐. 一種光傳送網(wǎng)告警分級預(yù)警算法[J]. 光通信研究, 2016(3): 16-18.
[7] 孫延濤,楊芳南,王迎春. 端到端的通信網(wǎng)綜合網(wǎng)絡(luò)管理系統(tǒng)[J]. 北京交通大學(xué)學(xué)報: 自然科學(xué)版, 2010(2): 90-94.
[8] 許劭慶,馬彪,安海英. 基于數(shù)據(jù)挖掘的網(wǎng)管告警處理方法研究[J]. 軟件工程, 2016(12): 17-19.
[9] 王燾,張文博,徐繼偉,等. 云環(huán)境下基于統(tǒng)計監(jiān)測的分布式軟件系統(tǒng)故障檢測技術(shù)研究[J]. 計算機(jī)學(xué)報, 2017(2): 397-413.
[10] 傅劍虹. 地鐵專用通信集中告警管理系統(tǒng)的建設(shè)[J]. 城市軌道交通研究, 2014(8): 139-141.