宗序梅 葉文
在歷經蒸汽時代、電氣時代、信息時代的巨大演進變革之后,當今,已迎來新的歷史拐點:基于ICT 網絡,以大數(shù)據、云計算、人工智能等為代表的數(shù)字化技術被視為第四次技術革命。
未來將是智能化的時代,技術演進和產業(yè)變革日趨加快,實體經濟和數(shù)字經濟深度融合,將極大地改變社會的生產和生活方式。
據預測,到2025年全球聯(lián)接指數(shù)將達1000億,通信網絡作為信息高速公路,網絡故障影響范圍也不斷擴大;5G、物聯(lián)網、工業(yè)數(shù)字化的引入帶來復雜的網絡變化,并且多代技術長期共存,使得網絡故障快速定界、精準定位難度加大;海量的數(shù)字化業(yè)務和各類事件活動,帶來爆發(fā)式流量增長,對網絡安全穩(wěn)定運行帶來巨大挑戰(zhàn)。
提升用戶數(shù)字化業(yè)務體驗
隨著網絡及業(yè)務復雜性的提高,維護難度加大,維護效率亟須提升,傳統(tǒng)“頭痛醫(yī)頭”的粗獷式維護不再適應網絡發(fā)展,放眼全球,網絡運維向基于數(shù)字化技術的智能維護轉型已成為行業(yè)發(fā)展趨勢。
例如,傳統(tǒng)的被動應急式維護R2F(Run-to-Failure)模式下,網絡故障頻發(fā),維護工程師疲于應對,且故障恢復時長因人而異;主動預防性維護PvM(Preventive Maintenance),即例行的巡檢維護,雖然可以一定程度上預防故障發(fā)生,但仍然效率低下。
而大多數(shù)網絡設備的故障均有一個發(fā)展的過程,在設備尚未喪失其功能進入故障狀態(tài)之前有征兆可循,可根據某些物理狀態(tài)或工作參數(shù)的變化來判斷其功能故障的發(fā)生。
而數(shù)字化技術作為運維模式演進的引擎,開啟了新一階段的可預測性維護PdM(Predictive Maintenance),即能夠預測某個設備未來有多大概率發(fā)生故障,然后維護工程師可進行針對性的維護。一方面可以在影響用戶業(yè)務前規(guī)避故障的發(fā)生,另一方面可以通過計劃性例行維護大幅提升維護效率。
鑒于以上思考,中國移動確立了“網絡質量是通信企業(yè)生命線”的大方向和新理念,積極打造下一代智慧網絡。而如何深度挖潛大數(shù)據和AI價值,向智能化維護演進,打造零中斷穩(wěn)健網絡,如何以更低的運維成本,更高的效率,保障更好的網絡質量,提升用戶數(shù)字化業(yè)務體驗,成為江蘇移動新時代運維的迫切訴求。
智能運維演進的五個階段
智能化運維將是一個長期的過程,不可能一蹴而就。江蘇移動將智能運維演進分為五個階段。
第一個階段。通過AI指出“發(fā)生了什么”。將AI引入電信網絡,帶來全新價值“可預測性”。
第二個階段。需要分析“為什么會發(fā)生”。
第三個階段。需要預測“將會發(fā)生什么”。
第四個階段。需要判斷“采取什么措施”,然后經由人工實施操作。
第五個階段。是全面實現(xiàn)網絡的自我控制和自動修復,提升網絡自愈能力。
建立四道防線 構筑穩(wěn)健網絡
正如計算機科學家艾倫·凱所說,預測未來的最好方法就是創(chuàng)造未來。江蘇移動采用“大處著想、小處著手、快速行動”的理念,聯(lián)合華為穩(wěn)健網絡項目組,對智能化維護進行了積極的探索和成功實踐。
江蘇移動以大數(shù)據分析和AI算法為技術手段,深挖網絡運行過程中的海量數(shù)據和運維專家經驗數(shù)據,打造 “預、診、保、評”全流程的智能化運維能力,提升維護效率、降低網絡故障 ,通過建立以下四道防線,構筑穩(wěn)健網絡,為網絡安全“護心”行動保駕護航。
防線一? 實時風險預測
基于VoLTE語音業(yè)務建立實時風險預測,通過對現(xiàn)網的歷史指標樣本數(shù)據的自動采集,針對業(yè)務指標和錯誤碼數(shù)據進行自動分析,并提取數(shù)據的波動、周期性、同比環(huán)比擬合、統(tǒng)計、分布等五大特征,分別匹配不同算法,訓練出不同業(yè)務類型的故障預測模型。然后,利用現(xiàn)網數(shù)據,通過風險預測模型實時對比分析,提前識別漸變類故障。
經過項目驗證,通過智能化風險預測的方法,可提前數(shù)小時識別網絡故障,極大地解決了VoLTE業(yè)務故障靠告警和用戶投訴式的故障發(fā)現(xiàn)慢的維護痛點。
防線二? 故障自動診斷
首先通過信息聚類鉆取,完成話統(tǒng)、告警、操作日志等數(shù)據自動采集,并結合CHR信息,給出故障問題聚類,然后對故障產生的大量CHR、告警/IP數(shù)據在線匯聚分析,快速定位號碼/終端/小區(qū)等9個不同維度問題分布情況,并通過不同網元間的告警匯聚,直接分析定位到故障網元,大幅提升對海量告警、日志數(shù)據的分析效率。
同時,對維護專家經驗進行規(guī)則數(shù)字化,通過將華為全球VoLTE維護歷史經驗、網元10000+內部錯誤碼處理建議等,轉化為工具可執(zhí)行的判斷邏輯和規(guī)則,依托于開源業(yè)務規(guī)則引擎Drools,最終將故障分析由人工向機器智能輔助轉變。
同時,在項目實踐中實現(xiàn)了規(guī)則與軟件代碼的解耦,以便能實現(xiàn)快速迭代更新和維護。
防線三? 網絡割接保障
為保障割接的成功實施,傳統(tǒng)割接項目組通常制定詳細的實施方案和保障計劃,但割接事故仍時常發(fā)生。
而智能化網絡割接保障實踐則主要圍繞網絡割接的操作、驗證、值守三個階段進行創(chuàng)新。
操作階段,通過E2E風險智能檢測,根據對網元有無操作、對業(yè)務有無影響等判斷,實施不同的監(jiān)控策略,以識別操作過程中的錯誤,自動提醒操作人員及時糾偏。
驗證階段,基于網元、場景、專家經驗的指標體系,結合告警/日志/撥測/CHR等自動分析,實現(xiàn)業(yè)務快速、深度驗證。
值守階段,借助智能化輔助值守,實時監(jiān)控用戶投訴,快速識別并通報操作關聯(lián)風險,利用專家經驗實現(xiàn)風險快速閉環(huán),并借助數(shù)字化技術,解決操作過程中的無糾偏、驗證不充分、值守被動等投訴的傳統(tǒng)割接痛點。
防線四? 在線智能評估
針對無法預測的網絡風險,采用傳統(tǒng)的網絡巡檢方式,存在檢測故障隱患效率低下的問題,并且對人員技能要求比較高。而該項目借助智能分析手段,通過基礎評估、高頻在線評估、專項評估、趨勢性評估、自定義評估規(guī)則5大維度,實現(xiàn)對設備靜態(tài)配置的合理性檢查、設備軟硬件的實時運行狀態(tài)檢查、系統(tǒng)運行狀態(tài)的日志深度檢查、軟硬件資源的趨勢性檢查、維護人員自定義規(guī)則檢查等,對設備穩(wěn)健度全方位評估和網絡隱患監(jiān)控。
通過將日常設備例行維護的經驗固化為規(guī)則,然后實時在線采集數(shù)據和智能識別分析,網絡風險評估結果的準確度可達到90%以上。
人工智能將是5G時代和智慧網絡時代的重要技術,今后的無線網、核心網、傳輸網各個層面都離不開人工智能的技術和基礎。
為了迎接網絡新時代的到來,中國移動集團積極打造下一代智慧網絡,而未來3年,江蘇移動和華為會在更多的智能運維領域進行合作,讓智慧網絡與智能運維作為數(shù)字化雙引擎,進一步助力中國移動向智慧運營轉型,把握未來數(shù)字化生態(tài)競爭中的關鍵點。