[李忠諭 遲景升 李哲 盧斌]
網(wǎng)絡(luò)側(cè)故障與用戶側(cè)故障是不同的維護人員處理,網(wǎng)絡(luò)側(cè)故障是指局方設(shè)備、線路等影響大面積用戶業(yè)務(wù)的群障故障,由網(wǎng)絡(luò)工程師負責搶修;用戶側(cè)故障是用戶網(wǎng)絡(luò)影響單用戶的故障,由客戶工程師負責查障維修?,F(xiàn)網(wǎng)發(fā)生群障故障,網(wǎng)管檢測到告警,通過告警觸發(fā)分析定位故障[1],進而派發(fā)故障單進行搶修,同時建立群障單,發(fā)起群障攔截[2],避免群障故障下單給客戶工程師。
互聯(lián)網(wǎng)時代下客戶感知備受重視,網(wǎng)絡(luò)運營與客戶服務(wù)割裂的現(xiàn)狀已不能滿足要求,需要構(gòu)建群障精細化管理體系,在群障建單、群障攔截、群障恢復(fù)等端到端環(huán)節(jié)串聯(lián)網(wǎng)絡(luò)群障與用戶的關(guān)聯(lián),實現(xiàn)群障信息透明、服務(wù)進度透明,推動群障快速搶修,提升客戶感知。
本文方案是當發(fā)生群障故障時,系統(tǒng)主動通知所在區(qū)域受影響客戶,減少用戶申告;當用戶申告故障時,系統(tǒng)發(fā)起群障攔截,不再下裝維故障單到客戶工程師,減少客戶工程師無效工單;同時及時結(jié)合用戶申告情況向網(wǎng)絡(luò)側(cè)故障單進行催修;在告警恢復(fù)后,系統(tǒng)主動通知群障所在區(qū)域受影響客戶業(yè)務(wù)已恢復(fù)。整體方案設(shè)計示意圖如圖1所示,該方案實現(xiàn)群障故障全程信息透明,服務(wù)進度透明。
圖1 群障管理示意圖
現(xiàn)網(wǎng)發(fā)生網(wǎng)絡(luò)側(cè)故障,網(wǎng)管自動檢測到告警,一方面,該群障告警會派網(wǎng)絡(luò)側(cè)故障單到網(wǎng)絡(luò)工程師進行搶修,根據(jù)群障影響范圍劃分故障等級,不同等級的故障單會有不同的工單考核時限。另一方面,系統(tǒng)通過群障告警對象查詢受影響用戶,建立群障攔截用戶池,群障告警對象主要包括設(shè)備IP、設(shè)備IP+槽位、設(shè)備IP+端口、光路編碼等,網(wǎng)絡(luò)側(cè)故障是指二級分光器以上的故障,包括光路故障、OLT 級別故障以及MSE 級別故障(含板卡及端口故障)等,具體網(wǎng)絡(luò)側(cè)故障定義如表1 所示。對于屬于群障攔截用戶池的業(yè)務(wù),系統(tǒng)主動通過短信/微信公眾號的形式推送消息告知用戶所在區(qū)域發(fā)生大面積網(wǎng)絡(luò)故障,并結(jié)合群障故障單考核時限告知用戶該群障預(yù)計修復(fù)時間。
表1 網(wǎng)絡(luò)側(cè)故障定義
(1)群障攔截
用戶業(yè)務(wù)不可用,會向運營商申告故障,系統(tǒng)接收到用戶申告,則即時查詢該用戶是否在群障攔截用戶池中,判斷該用戶所在區(qū)域是否存在群障,如果在群障攔截池中,則系統(tǒng)查詢網(wǎng)絡(luò)側(cè)故障單搶修進度信息,在用戶申告界面(IVR/微信公眾號)向用戶播報群障搶修進度并進行攔截。
(2)群障催修
系統(tǒng)定期統(tǒng)計該群障攔截的用戶申告記錄,并自動推送消息至群障故障單頁面,將該群障攔截情況及時同步給網(wǎng)絡(luò)工程師,實現(xiàn)網(wǎng)絡(luò)側(cè)故障催修效果。網(wǎng)絡(luò)工程師掌握用戶申告行為,按照群障攔截情況安排工單優(yōu)先級處理,結(jié)合實際影響面有針對性地開展工作。
現(xiàn)場修復(fù)群障,網(wǎng)管推送告警恢復(fù)信息,系統(tǒng)消除群障,該群障影響的客戶將移除出群障攔截用戶池。并分場景進行處理。
(1)對于在群障期間未申告故障的沉默用戶,系統(tǒng)主動推送群障修復(fù)消息給用戶,建議用戶重啟光貓后進行測試業(yè)務(wù)。
(2)對于在群障期間申告過故障的用戶,系統(tǒng)認為用戶ONU 未關(guān)電。因此群障恢復(fù)后,系統(tǒng)查詢ONU 狀態(tài),如果ONU 在線,則系統(tǒng)主動推送群障修復(fù)消息給用戶;如果ONU 不在線,為避免存在用戶側(cè)故障需要用戶二次申告,系統(tǒng)直接派單給客戶工程師上門處理。
受到設(shè)備及網(wǎng)管性能的影響,要提升網(wǎng)管告警有效性[3,4],同時結(jié)合提升實際生產(chǎn)應(yīng)用效果的考慮,對嚴障精細化管理設(shè)置了補充原則。
(1)群障派單規(guī)則
因為網(wǎng)管告警存在瞬告誤告,如果告警即時派單會產(chǎn)生無效工單。所以系統(tǒng)設(shè)置延遲派單規(guī)則,對于延時一定時間還未自動恢復(fù)的告警才派故障單到現(xiàn)場處理。同時考慮到盡量避免受群障影響的用戶申告下單到客戶工程師(客戶工程師無法處理群障),則系統(tǒng)會在接收到告警后即時發(fā)起群障攔截。那么若該群障攔截到用戶申告時,而該告警由于處于延時規(guī)則而未派單,為了加快群障搶修,系統(tǒng)將立即觸發(fā)派出群障故障單,并將關(guān)聯(lián)告警整合到一張故障單派給現(xiàn)場,提升維護效率。
(2)群障恢復(fù)規(guī)則
對于能正常通過告警進行管理的群障,現(xiàn)場發(fā)生群障,網(wǎng)管產(chǎn)生告警,群障修復(fù),網(wǎng)管識別告警恢復(fù)。
現(xiàn)網(wǎng)存在一部分故障不能正常通過網(wǎng)管告警進行管理,需要人工發(fā)現(xiàn)并手工建單,對于這部分群障,同樣建立群障攔截用戶池。系統(tǒng)將定時通過SNMP 的方式直連群障對象關(guān)聯(lián)的OLT 設(shè)備,進行ONU 狀態(tài)的輪詢,結(jié)合資源拓撲信息查詢該群障影響的ONU,當查詢到該群障下有ONU 在線,那么確定該群障恢復(fù)。
(3)故障單回單智能校驗規(guī)則
為了確保群障故障單的故障修復(fù)效果,故障單在維護人員回單時自動觸發(fā)系統(tǒng)校驗群障修復(fù)情況。對于符合群障恢復(fù)規(guī)則的故障單,則系統(tǒng)判定校驗通過,如果不符合群障恢復(fù)規(guī)則的故障單,系統(tǒng)判定校驗不通過,需要網(wǎng)絡(luò)工程師進一步排查。
本文方案是運營智慧化在群障管理方面的具體體現(xiàn),群障精細化管理體系應(yīng)用以來,通過群障服務(wù)透明化,月均主動服務(wù)電信工程師/客戶30 萬次以上,減少用戶疑慮和抱怨,受群障影響的客戶報障量減少了60%,對壓降用戶申告率效果顯著,有效提升了用戶感知。對運營商而言,通過系統(tǒng)建立了群障場景下網(wǎng)絡(luò)側(cè)故障和用戶側(cè)申告的有效關(guān)聯(lián),是發(fā)揮跨域生產(chǎn)數(shù)據(jù)關(guān)聯(lián)應(yīng)用的典型案例。