【摘 要】核心網(wǎng),顧名思義,是通信網(wǎng)絡(luò)中最重要的組成部分之一。核心網(wǎng)出現(xiàn)重大故障時,往往會比其他專業(yè)出現(xiàn)故障所造成的影響要大得多。以筆者所在某沿海省份二級城市為例,一個BSC平均下帶10W用戶,如果出現(xiàn)倒局,后果是不堪設(shè)想的。因此,重大故障出現(xiàn)后,故障處理的及時性就顯得極為重要。本文就如何縮短故障發(fā)生到獲知所需故障信息的時間進行討論。
【關(guān)鍵詞】核心網(wǎng)故障,監(jiān)測,OPS
一、故障監(jiān)測現(xiàn)狀
故障的監(jiān)測由監(jiān)控室完全負責(zé),監(jiān)測方式為:通過腳本把故障過濾后顯示在屏幕上,然后由監(jiān)測人員根據(jù)故障重要性來決定派單或是即時通過電話方式通知核心網(wǎng)同事處理。這種方式的不足之處是,監(jiān)測人員對一些故障重要性的理解可能會出現(xiàn)偏差,故而即使能立即電話方式通知,也會存在一定的溝通成本(包括溝通時間,也包括提供的信息不足以準(zhǔn)確判斷故障情況);再一個,部分故障可能很快自動恢復(fù)而并未引起注意,但故障信息本身可能包含重要信息,對系統(tǒng)存在問題進行分析很重要。
二、監(jiān)測指標(biāo)及思路
監(jiān)控室提供的是系統(tǒng)展現(xiàn)的告警內(nèi)容,但其實如果能直接獲取指標(biāo)將更有助于我們判斷故障情況(主要是故障影響的大小和造成故障的原因)。故我們將重點監(jiān)測如下指標(biāo):話務(wù)變化量(每5分鐘變化百分比),鏈路狀態(tài),任務(wù)處理情況(100%處理提交上來的任務(wù)),負荷監(jiān)測,網(wǎng)元連接情況等。
思路:獲取指標(biāo)--記錄異常--發(fā)送到服務(wù)器--發(fā)送到手機
三、實施細則
(一)獲取數(shù)據(jù)并記錄:
當(dāng)?shù)睾诵木W(wǎng)主要為愛立信設(shè)備,愛立信對于自身設(shè)備維護提供了一個名為OPS(operation procedure support)的腳本平臺。通過該平臺可以使用CONNECT指令直接連接到指定設(shè)備,并能和設(shè)備之間直接交互。
此處以獲取話務(wù)變化量為例,第一次運行時將當(dāng)前話務(wù)量記錄到文件,后面每次運行都與前一次的數(shù)據(jù)進行比較,并更新當(dāng)前數(shù)據(jù)到文件中,以下是部分代碼:
......(省略變量初始化定義等)
@SET A=1 !初始化變量(由于BSC同時連接多個MSC,故該變量用于逐個獲取到不同MSC的變量)
STDSP:DETY=RALT2,BSC=ALL; !與設(shè)備交互,請求獲取該BSC話務(wù)量
@SET LINE=SCAN(\"NOCC \",POS) !定位數(shù)據(jù)原坐標(biāo)
@SET CONNUM=TRIM(COPY(REPLY(LINE+{A}),POS,5)) !獲取話務(wù)連接數(shù)
@SET MSC=TRIM(COPY(REPLY(LINE+{A}),POS+36,6)) !獲取對應(yīng)的MSC名稱
@WRITE(NEFILE,MSC,\" \",CONNUM,\" \",BLONUM) !記錄本次信息,便于第二次運行時將讀取本次信息進行比較
......(省略兩次數(shù)值比較的代碼)
(二)記錄異常
當(dāng)發(fā)現(xiàn)指標(biāo)異常時,可按需求寫入定制預(yù)警信息到文本文件。例如,下面會寫入包含變化率和當(dāng)前連接數(shù)的信息提示。
@IF RATE<-50 THEN WRITE(REPORTFILE,{當(dāng)前時間}\" \",{MSC},\"-\",{BSC},\" \",\"話務(wù)變化異常({變化率}) {當(dāng)前連接數(shù)}\") !發(fā)現(xiàn)話務(wù)減少超過50%時寫入REPORT文件。主意:{}內(nèi)為變量
(三)自動發(fā)送數(shù)據(jù)到服務(wù)器(采用SHELL腳本以FTP形式主動發(fā)送包含數(shù)據(jù)的文件到指定服務(wù)器):
open 1.2.3.4(對端服務(wù)器IP)
user abc 123
lcd ./
type ascii
mput BSCREPORT.*
close
(四)通過服務(wù)器側(cè)軟件發(fā)送信息
四、存在問題
(一)網(wǎng)元連接不穩(wěn)定導(dǎo)致數(shù)據(jù)不齊全而無法比較
由于網(wǎng)管網(wǎng)穩(wěn)定性要求低于網(wǎng)元本身,因網(wǎng)管網(wǎng)不穩(wěn)定而出現(xiàn)網(wǎng)元斷連的情況相對常見,而話務(wù)量變化率需要對兩次完整數(shù)據(jù)進行比較,故此時可能會出現(xiàn)誤報。
(二)夜間通話數(shù)極低,變化率很大,容易造成誤報。
凌晨時分,話務(wù)量很低,5分鐘內(nèi)減少2-3個通話可能就會引發(fā)預(yù)警信息,但其實這是正常的數(shù)據(jù)變化。
五、解決方案
(一)連接失敗時選擇重連
網(wǎng)元連接失敗時,可用@DELYASEC(5)延遲5秒,重新執(zhí)行連接,如果仍然連接失敗,則發(fā)送“{網(wǎng)元名稱}連接失敗”。如果單個網(wǎng)元連接失敗則判斷為網(wǎng)元故障,多個網(wǎng)元連接失敗則判斷為網(wǎng)管故障,轉(zhuǎn)而通知網(wǎng)管處理。
(二)提升夜間預(yù)警閥值
夜間話務(wù)極低,但一般不會為0,故01:00-06:00時間段不再計算變化率,而改為監(jiān)測話務(wù)值是否為0,如果為0則發(fā)送“{網(wǎng)元名稱}話務(wù)異?!?/p>
六、總結(jié)及成果
2012年有三次較重大的故障,三次故障都由本專業(yè)維護人員第一時間收到故障信息,并及時作出了最恰當(dāng)?shù)奶幚?。另外,利用本預(yù)警系統(tǒng)記錄信息,對一次故障隱患進行了準(zhǔn)確的定位,從而解決故障。同年,該預(yù)警項目已推廣到廣東肇慶等地市。
參考文獻:
[1] Arnold Robbins Nelson H. F. Beebe,Shell腳本學(xué)習(xí)指南,機械工業(yè)出版社 2011.