王江東中國鐵通有限公司河北分公司網(wǎng)絡(luò)支撐中心,河北石家莊 050000
提高交換網(wǎng)管告警分析性能
王江東
中國鐵通有限公司河北分公司網(wǎng)絡(luò)支撐中心,河北石家莊050000
摘要本文以解決交換集中網(wǎng)現(xiàn)存問題出發(fā),運(yùn)用PDCA循環(huán)(質(zhì)量環(huán)),通過分析問題根源、確定方案、制定對策、確認(rèn)效果并最終找到卓有成效的解決方法。從而以點(diǎn)帶面,為類似問題的解決帶來了新的方向。
關(guān)鍵詞交換綜合網(wǎng)管;告警分析;告警性能;PDCA循環(huán)
交換綜合網(wǎng)管作為現(xiàn)代交換網(wǎng)管的核心之一,主要負(fù)責(zé)匯聚分散布局的傳統(tǒng)交換網(wǎng)各個(gè)交換局點(diǎn)的告警監(jiān)控及統(tǒng)計(jì)報(bào)表。其收集匯聚各分散局點(diǎn)相關(guān)信息及相關(guān)處理的及時(shí)性和準(zhǔn)確性,是保證系統(tǒng)運(yùn)行效能發(fā)揮的關(guān)鍵因素。
某公司交換綜合網(wǎng)管系統(tǒng)已使用7年,系統(tǒng)軟硬件性能逐漸降低;隨著公司業(yè)務(wù)發(fā)展,系統(tǒng)壓力日漸增高,已經(jīng)對系統(tǒng)運(yùn)行效能造成較大影響,亟待解決。
同時(shí)該系統(tǒng)研發(fā)時(shí),因歷史局限性未能充分分解告警報(bào)中的告警類型,無法及時(shí)呈現(xiàn)網(wǎng)管工作人員重點(diǎn)關(guān)注的告警類別、影響等相關(guān)信息,已影響到告警監(jiān)控效能的發(fā)揮。
為了提高交換網(wǎng)管告警分析的性能,增強(qiáng)告警分析的能力,因此我們選定依托自身力量,以PDCA循環(huán)(質(zhì)量環(huán))為方法逐步剖析,以實(shí)現(xiàn)《提高交換網(wǎng)管告警分析性能》。
影響小型機(jī)性能的因素主要有4個(gè)方面CPU、磁盤I/O、內(nèi)存、網(wǎng)絡(luò)。通過分析小型機(jī)各個(gè)參數(shù)以及節(jié)省投資的目的,確定在內(nèi)存和磁盤兩方面提高小型機(jī)性能。
針對交換網(wǎng)管系統(tǒng)告警報(bào)告分解后告警分類不清晰的問題,采用數(shù)據(jù)庫技術(shù)將交換網(wǎng)管分類后的數(shù)據(jù)進(jìn)行再分類。為了便于告警分析和告警巡視將告警通過WEB頁面顯示。
3.1 制定對策
主要針對提高小型機(jī)性能,由于交換網(wǎng)管監(jiān)控網(wǎng)元較多,告警報(bào)告分解需要長時(shí)間占用內(nèi)存空間。磁盤I/O繁忙和內(nèi)存頁面調(diào)用頻繁造成系統(tǒng)瓶頸,影響小型機(jī)性能。針對小型機(jī)內(nèi)存頁面調(diào)用問題,制定相應(yīng)策略。
3.2 策略實(shí)施
使用 iostat命令查看IO狀態(tài),結(jié)果如圖1所示。
通過分析發(fā)現(xiàn) :hdisk1 活動(dòng)百分比高,而同屬于rootvg的hdisk0 卻基本不活動(dòng),因此首先考慮的是使用reorgvg命令重新組織卷組,結(jié)果是hd6被自動(dòng)轉(zhuǎn)移到了hdisk0,重組過程中觀察iostat,發(fā)現(xiàn)兩塊硬盤速率均可達(dá)到20Mbps,排除硬盤故障。
接下來使用 migratelp hd6/x hdisk1/x 命令,將編號是偶數(shù)的一半卷組從hdisk0轉(zhuǎn)移到hdisk1,發(fā)現(xiàn)兩塊硬盤活動(dòng)百分比都達(dá)到80左右,但是IOwait仍然很高。
最后考慮從更改內(nèi)存參數(shù)入手解決。利用vmo -a命令查詢內(nèi)存參數(shù),發(fā)現(xiàn)lru_file_repage值為默認(rèn)的‘1’,改為‘0’。
3.3 確認(rèn)效果
使用 vmstat命令觀察小型機(jī)內(nèi)存性能,結(jié)果如圖2。
內(nèi)存參數(shù)修改后剛開始時(shí)pi達(dá)到1000左右,po消失,十分鐘后pi也基本消失,顛簸現(xiàn)象基本消除。相應(yīng)的,cpu占用率從平均80峰值99降到30左右,性能優(yōu)化初見成效。
制定對策:主要針交換網(wǎng)管收集報(bào)告過多問題。交換網(wǎng)管系統(tǒng)監(jiān)控100多個(gè)網(wǎng)元,時(shí)刻在接收告警報(bào)告和話務(wù)報(bào)告,但是多為不重要報(bào)告。此次制定的策略主要是通過優(yōu)化交換網(wǎng)管的報(bào)告任務(wù)來提高網(wǎng)管性能。
策略實(shí)施:通過對交換網(wǎng)現(xiàn)網(wǎng)組成的分析,以及日常工作的需要,將監(jiān)控的網(wǎng)元根據(jù)重要性進(jìn)行分類,匯接局、關(guān)口局需要詳細(xì)話務(wù)報(bào)告和告警報(bào)告,端局話務(wù)報(bào)告根據(jù)情況可以刪除。盡量減少交換網(wǎng)管收集報(bào)告的數(shù)量。
確認(rèn)效果:經(jīng)過對全省100多個(gè)網(wǎng)元所有上報(bào)報(bào)告
制定對策:針對交換網(wǎng)管分解告警后,告警分類不夠詳細(xì)的問題。為了將交換網(wǎng)管分解后的告警進(jìn)行再次分類,在此使用數(shù)據(jù)庫技術(shù)。提取分解后的告警數(shù)據(jù),將其存入數(shù)據(jù)庫中,利用數(shù)據(jù)庫技術(shù)進(jìn)行再次分類。同時(shí)再結(jié)合PHP技術(shù)將告警內(nèi)容在WEB頁面上顯示,方便了告警巡視和告警分析。
策略實(shí)施:交換網(wǎng)管告警分解后ETL(數(shù)據(jù)提取、轉(zhuǎn)換和加載)工具SPOON,使用此工具,通過建立數(shù)據(jù)提取任務(wù),自動(dòng)將告警數(shù)據(jù)從交換網(wǎng)管數(shù)據(jù)庫中提取出來,并轉(zhuǎn)存至自建的告警數(shù)據(jù)庫中。再結(jié)合PHP技術(shù)將告警在WEB頁面上實(shí)時(shí)顯示。
確認(rèn)效果:告警監(jiān)控頁面,可以實(shí)時(shí)展現(xiàn)未恢復(fù)的中斷告警,過濾掉一般告警、事件告警等非重要告警。歷史告警頁面,可以查看那些已經(jīng)恢復(fù)的告警內(nèi)容,同時(shí)可以監(jiān)控發(fā)生次數(shù),了解網(wǎng)絡(luò)運(yùn)行質(zhì)量。我們通過WEB頁面彈出同時(shí)伴有彩鈴提示的方式,可以讓我們更加及時(shí)的發(fā)現(xiàn)和處理告警。
經(jīng)過3此PDCA循環(huán),我們通過提高交換網(wǎng)管小型機(jī)的性能、減少交換網(wǎng)管不必要報(bào)告、交換網(wǎng)管告警WEB頁面顯示3個(gè)對策,實(shí)現(xiàn)了提高交換網(wǎng)管性能的目標(biāo)。
此項(xiàng)目中我們利用科學(xué)的PDCA循環(huán)方法,逐步剖析問題,完全依賴自主力量,通過運(yùn)用小型機(jī)技術(shù)、數(shù)據(jù)庫技術(shù)、PHP網(wǎng)頁技術(shù)等多方面知識(shí)成功解決了困擾多時(shí)的交換集中網(wǎng)管分析性能差的問題。
通過本項(xiàng)目的實(shí)施,證明科學(xué)的方法,能夠幫助我們分解復(fù)雜問題,充分挖掘自身潛力,客服重重困難抵達(dá)勝利的彼岸。
參考文獻(xiàn)
[1]李寶山,王蘇東.告警管理系統(tǒng)中的告警同步模塊的設(shè)計(jì)[J].通信技術(shù),2013(4).
[2]高明飛.移動(dòng)綜合網(wǎng)管數(shù)據(jù)缺失原因的分析及處理[J].電信技術(shù),2009(1).
中圖分類號TP3
文獻(xiàn)標(biāo)識(shí)碼A
文章編號1674-6708(2015)139-0154-01