張勉知,葉曉斌,程亞鋒,馬丹丹,姚麗紅,劉惜吾(中國聯(lián)通廣東分公司,廣東廣州 510627)
近年來,AI技術(shù)蓬勃發(fā)展,5G網(wǎng)絡(luò)建設(shè)不斷推進(jìn),如何利用前瞻技術(shù)協(xié)同各專業(yè)實(shí)現(xiàn)運(yùn)維的智能轉(zhuǎn)型成為運(yùn)營商面臨的重大挑戰(zhàn)之一。面對(duì)復(fù)雜的四代共生網(wǎng)絡(luò)和海量設(shè)備,廣東聯(lián)通致力于推進(jìn)多個(gè)AI創(chuàng)新項(xiàng)目的研究及落地應(yīng)用,成功為市場(chǎng)線提供快速支撐。
本文構(gòu)建了不同的機(jī)器學(xué)習(xí)模型,對(duì)承載網(wǎng)、核心網(wǎng)、無線網(wǎng)、主機(jī)等網(wǎng)絡(luò)的多個(gè)黃金性能指標(biāo)進(jìn)行自學(xué)習(xí)自監(jiān)控,能夠指導(dǎo)運(yùn)維人員提前發(fā)現(xiàn)特大隱患及故障,打破專業(yè)壁壘,并輔助網(wǎng)絡(luò)變更等工作順利開展。本文闡述了廣東聯(lián)通利用機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)性能預(yù)測(cè)中的應(yīng)用進(jìn)展,重點(diǎn)就3 種時(shí)間序列預(yù)測(cè)模型和相應(yīng)的閾值設(shè)定方法進(jìn)行介紹。
傳統(tǒng)的運(yùn)營與維護(hù)手段耗時(shí)耗力,依靠人工分析的模式已無法應(yīng)對(duì)復(fù)雜網(wǎng)絡(luò)和海量設(shè)備的性能監(jiān)控要求。另一方面,網(wǎng)管只能顯示網(wǎng)絡(luò)上的參數(shù)和運(yùn)行異常,并不能告知當(dāng)前的業(yè)務(wù)狀態(tài),一線以及專業(yè)間的溝通壁壘無法打通。隨著業(yè)務(wù)向多樣化、差異化的方向不斷推進(jìn),網(wǎng)絡(luò)擴(kuò)容、設(shè)備入網(wǎng)等場(chǎng)景的網(wǎng)絡(luò)變更需求與日俱增。網(wǎng)絡(luò)性能指標(biāo)的異常監(jiān)控在網(wǎng)絡(luò)、業(yè)務(wù)及新需求的主動(dòng)感知和預(yù)測(cè)中起著越來越重要的作用。如何對(duì)海量網(wǎng)絡(luò)性能指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控、減少人工參與并以更高效率實(shí)現(xiàn)故障的提前發(fā)現(xiàn),是運(yùn)營商應(yīng)對(duì)行業(yè)競(jìng)爭(zhēng)、實(shí)現(xiàn)運(yùn)維轉(zhuǎn)型過程中亟需解決的關(guān)鍵問題。
近年來,機(jī)器學(xué)習(xí)算法的理論基礎(chǔ)已日趨完備。其中,時(shí)間序列預(yù)測(cè)模型受到眾多研究人員的關(guān)注,已被廣泛應(yīng)用于工程技術(shù)、醫(yī)學(xué)工程、經(jīng)濟(jì)學(xué)和網(wǎng)絡(luò)通信等多個(gè)領(lǐng)域中,并取得了不錯(cuò)的成果。傳統(tǒng)的建模方法包括線性回歸[1-2]、差分自回歸移動(dòng)平均模型(ARIMA)[3-4]、三次指數(shù)平滑法(Holt-Winters)和卡爾曼濾波等,這些模型概念清晰,發(fā)展比較成熟,國內(nèi)外已有許多預(yù)測(cè)實(shí)例。隨著人工智能技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)方法得到快速發(fā)展。
網(wǎng)絡(luò)性能指標(biāo)(即時(shí)間序列)具備穩(wěn)定性或規(guī)則性,過去態(tài)勢(shì)會(huì)順延到未來?;谶@一核心思想,為實(shí)現(xiàn)各指標(biāo)的實(shí)時(shí)監(jiān)控,本文綜合考慮數(shù)據(jù)特性、建模復(fù)雜性、預(yù)測(cè)精度及應(yīng)用場(chǎng)景等,構(gòu)建合適的算法框架以挖掘指標(biāo)變化規(guī)律,通過對(duì)歷史數(shù)據(jù)的特征學(xué)習(xí),對(duì)網(wǎng)絡(luò)性能指標(biāo)進(jìn)行精準(zhǔn)預(yù)測(cè),并選取合適的閾值設(shè)定方法,最終實(shí)現(xiàn)異常事件的提前告警?;跈C(jī)器學(xué)習(xí)進(jìn)行網(wǎng)絡(luò)性能預(yù)測(cè)的主要步驟如下。
a)數(shù)據(jù)采集及清洗:實(shí)現(xiàn)各性能指標(biāo)的歷史數(shù)據(jù)采集,并進(jìn)行必要的預(yù)處理操作,如數(shù)據(jù)缺失值、異常值剔除或填補(bǔ)等。
b)模型訓(xùn)練:用歷史數(shù)據(jù)訓(xùn)練時(shí)間序列預(yù)測(cè)模型,實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)擬合。
c)指標(biāo)預(yù)測(cè):利用訓(xùn)練好的模型實(shí)現(xiàn)未來一段時(shí)間的指標(biāo)預(yù)測(cè)。
d)異常告警:選取閾值設(shè)定方法,依據(jù)預(yù)測(cè)值與實(shí)際值的差異,進(jìn)行實(shí)時(shí)的異常告警。
廣東聯(lián)通在多個(gè)AI 創(chuàng)新項(xiàng)目中分別采用經(jīng)典的線性回歸、ARIMA+Boosting 模型及Holt-Winters 算法,并分別選取3σ、動(dòng)態(tài)閾值、靜態(tài)閾值方法,實(shí)現(xiàn)對(duì)現(xiàn)網(wǎng)指標(biāo)的時(shí)間序列預(yù)測(cè)、異常告警功能,取得了不錯(cuò)的應(yīng)用效果。下面對(duì)3套解決方案進(jìn)行詳細(xì)介紹。
隨著業(yè)務(wù)向多樣化、差異化的方向發(fā)展,網(wǎng)絡(luò)變更(割接)已成為運(yùn)營商的日常操作,用于應(yīng)對(duì)中繼擴(kuò)容、設(shè)備入網(wǎng)等多個(gè)場(chǎng)景需求。廣東聯(lián)通現(xiàn)已研發(fā)并推出了AI 網(wǎng)絡(luò)無人駕駛系統(tǒng),解決割接任務(wù)耗時(shí)久、風(fēng)險(xiǎn)高、效率低的問題。本方案采用基于機(jī)器學(xué)習(xí)算法的自學(xué)習(xí)自檢測(cè)模塊判別割接是否成功。本方案采用簡(jiǎn)單線性回歸模型對(duì)過去7 天、5 min 顆粒度的割接設(shè)備上聯(lián)端口流量進(jìn)行擬合,輸出未來一天數(shù)據(jù)的預(yù)測(cè)結(jié)果。
在對(duì)流量異常判定的過程中,本方案采用基于3σ準(zhǔn)則的動(dòng)態(tài)閾值方式實(shí)現(xiàn)告警的觸發(fā)。3σ 準(zhǔn)則又稱為拉依達(dá)準(zhǔn)則,它是先假設(shè)一組檢測(cè)數(shù)據(jù)只含有隨機(jī)誤差,對(duì)其進(jìn)行計(jì)算處理得到標(biāo)準(zhǔn)偏差,按一定概率確定一個(gè)區(qū)間,認(rèn)為凡超過這個(gè)區(qū)間的誤差,就不屬于隨機(jī)誤差而是粗大誤差。定義誤差率Δ=|預(yù)測(cè)值-實(shí)際值|/預(yù)測(cè)值×100%。通過對(duì)歷史流量數(shù)據(jù)誤差率的計(jì)算,得到誤差率的平均值μ 和方差σ,若當(dāng)前時(shí)刻的誤差率Δ 滿足|Δ-μ|≥3σ,則認(rèn)為此時(shí)流量為異常狀態(tài),觸發(fā)割接驗(yàn)證失敗。圖1 為使用線性回歸對(duì)IDC 設(shè)備某客戶業(yè)務(wù)流量的預(yù)測(cè)結(jié)果,并基于3σ準(zhǔn)則進(jìn)行異常觸發(fā),箭頭處發(fā)現(xiàn)流量異常??梢钥闯觯摲椒軌蜉^好地?cái)M合指標(biāo)變化趨勢(shì),并能有效檢測(cè)出異常情況,實(shí)現(xiàn)割接后健康度決策。
圖1 基于線性回歸的IDC設(shè)備業(yè)務(wù)流量預(yù)測(cè)結(jié)果
廣東聯(lián)通通過大數(shù)據(jù)+AI 能力,進(jìn)行流量建模,幫助網(wǎng)絡(luò)部門對(duì)網(wǎng)絡(luò)和業(yè)務(wù)流量進(jìn)行預(yù)測(cè),指導(dǎo)網(wǎng)絡(luò)精準(zhǔn)擴(kuò)容。本文運(yùn)用ARIMA 算法實(shí)現(xiàn)流量數(shù)據(jù)回歸分析,并構(gòu)建Boosting 模型來提高時(shí)間序列的預(yù)測(cè)精度。利用過去一周的歷史數(shù)據(jù)進(jìn)行模型訓(xùn)練,對(duì)未來24 h的流量速率進(jìn)行趨勢(shì)預(yù)測(cè)。預(yù)測(cè)值=0.5×ARIMA 預(yù)測(cè)值+0.5×Boosting 預(yù)測(cè)值。廣東聯(lián)通針對(duì)4 地(市)的移動(dòng)網(wǎng)絡(luò)出口流量進(jìn)行了預(yù)測(cè),表1 對(duì)比了ARIMA 及ARIMA+Boosting 模型的準(zhǔn)確率,從結(jié)果可以看出,Boosting 極大優(yōu)化了預(yù)測(cè)性能,準(zhǔn)確率有近20%的提升。
表1 ARIMA、ARIMA+Boosting預(yù)測(cè)準(zhǔn)確率對(duì)比
本文采用靜態(tài)閾值實(shí)現(xiàn)流量異常告警的邏輯是計(jì)算誤差率,當(dāng)誤差率大于設(shè)定閾值時(shí)發(fā)出告警。誤差率Δ=|預(yù)測(cè)值-實(shí)際值|/預(yù)測(cè)值,設(shè)定當(dāng)誤差率大于一個(gè)固定閾值時(shí)發(fā)出告警。這種告警方法有一個(gè)很大的弊端,即可能出現(xiàn)預(yù)測(cè)曲線波峰區(qū)域?qū)嶋H值與預(yù)測(cè)值偏差大卻未有告警,而波谷區(qū)域?qū)嶋H值與預(yù)測(cè)值偏差較小,卻大量告警的現(xiàn)象。
針對(duì)上述問題,本方案采用一種動(dòng)態(tài)閾值方法實(shí)現(xiàn)異常告警。在采用前一周的歷史數(shù)據(jù)訓(xùn)練模型時(shí),通過統(tǒng)計(jì)計(jì)算數(shù)據(jù)集85 分位(P85)的值,其中85 分位是指將流量數(shù)據(jù)從小到大排序,落在數(shù)據(jù)集長度85%位置的流量速率值。流量異常判斷依據(jù)如下。
誤差率Δ=|預(yù)測(cè)值-實(shí)際值|/H≥ξ,其中H=(P85+預(yù)測(cè)值)/2,ξ為設(shè)定的閾值。
如圖2(a)所示,ARIMA+Boosting 模型能對(duì)周期性變動(dòng)的流量實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè),但是對(duì)于數(shù)據(jù)隨機(jī)波動(dòng)的細(xì)節(jié)部分,擬合效果有待提高。從圖2(b)可以看出,在預(yù)測(cè)曲線波谷區(qū)域,采用改進(jìn)的動(dòng)態(tài)閾值方法的誤差率值比靜態(tài)閾值時(shí)要小,可以減小波谷區(qū)域的誤告警率。
為向一線提供黃金網(wǎng)絡(luò)指標(biāo)輕觸點(diǎn),解決特大隱患、故障定位困難的問題,廣東聯(lián)通開展了大網(wǎng)黃金性能指標(biāo)的監(jiān)控、分析,研發(fā)并推出了“AI 端到端分析指標(biāo)墻”應(yīng)用系統(tǒng)。該系統(tǒng)自2019 年7 月份試用以來,發(fā)現(xiàn)典型網(wǎng)絡(luò)隱患多起,和廣州、深圳、佛山等多個(gè)分公司建立了長期有效的聯(lián)動(dòng)機(jī)制。該系統(tǒng)已完成廣東全省核心網(wǎng)、承載網(wǎng)、傳送網(wǎng)、互聯(lián)網(wǎng)主機(jī)系統(tǒng)的單專業(yè)及跨專業(yè)黃金網(wǎng)絡(luò)指標(biāo)收集及其趨勢(shì)自學(xué)習(xí)自監(jiān)控,并制定了閾值告警規(guī)則觸發(fā)異常告警。目前已上線微信機(jī)器人,實(shí)現(xiàn)業(yè)務(wù)告警的自動(dòng)推送。
具體而言,該系統(tǒng)對(duì)城域網(wǎng)/承載網(wǎng)/物聯(lián)網(wǎng)流量、分組網(wǎng)附著用戶數(shù)及成功率、物聯(lián)網(wǎng)/固網(wǎng)寬帶用戶數(shù)、DNS 請(qǐng)求量等多個(gè)指標(biāo)進(jìn)行歷史數(shù)據(jù)采集。本方案運(yùn)用Holt-Winters 算法,取過去一周的數(shù)據(jù)進(jìn)行模型訓(xùn)練,實(shí)現(xiàn)未來一天的數(shù)據(jù)預(yù)測(cè)。為保證告警的準(zhǔn)確性、有效性,該系統(tǒng)設(shè)定強(qiáng)告警規(guī)則,即當(dāng)預(yù)測(cè)值、實(shí)際值和預(yù)測(cè)值的差值分別大于相應(yīng)閾值才判定為指標(biāo)異常。針對(duì)不同的指標(biāo),各專業(yè)按照告警規(guī)則設(shè)定不同的閾值實(shí)現(xiàn)異常預(yù)警?;贖olt-Winters+靜態(tài)閾值方法的部分性能指標(biāo)預(yù)測(cè)結(jié)果如圖3 所示,曲線圖中紅色部分表明該時(shí)刻檢測(cè)到指標(biāo)異常。由圖3可以看出,該框架能對(duì)多種指標(biāo)進(jìn)行精準(zhǔn)預(yù)測(cè),幫助運(yùn)維人員提前發(fā)現(xiàn)故障。
圖3 跨專業(yè)、多指標(biāo)的Holt-Winters預(yù)測(cè)結(jié)果圖
本文從時(shí)間序列分析這一關(guān)鍵技術(shù)入手,介紹了廣東聯(lián)通針對(duì)現(xiàn)網(wǎng)問題提出的3 套解決方案,方案均取得了較好的賦能結(jié)果并具有泛化、自適應(yīng)能力。本文通過構(gòu)建線性回歸+3σ、ARIMA+Boosting+動(dòng)態(tài)閾值和Holt-Winters+靜態(tài)閾值模型,實(shí)現(xiàn)了網(wǎng)絡(luò)性能指標(biāo)預(yù)測(cè)及異常觸發(fā)。上述3種時(shí)間序列預(yù)測(cè)模型能夠準(zhǔn)確擬合多種指標(biāo),值得一提的是,即使各指標(biāo)呈現(xiàn)出非線性特性,簡(jiǎn)單線性回歸模型也展現(xiàn)了不錯(cuò)的預(yù)測(cè)效果,且具有計(jì)算速度快的優(yōu)勢(shì)。根據(jù)實(shí)際應(yīng)用經(jīng)驗(yàn),對(duì)于有遞增或遞減變化趨勢(shì)的時(shí)間序列,建議采用Holt-Winters 算法。靜態(tài)閾值方法通過制定嚴(yán)格的告警規(guī)則實(shí)現(xiàn)指標(biāo)異常觸發(fā),靈活性差,需人工設(shè)定多個(gè)閾值。而設(shè)定動(dòng)態(tài)閾值具有靈活性好、誤告警率低的優(yōu)點(diǎn)。因此在設(shè)定閾值時(shí),通常建議使用動(dòng)態(tài)閾值實(shí)現(xiàn)異常檢測(cè)。
綜上所述,針對(duì)重要和特大故障提前發(fā)現(xiàn)及網(wǎng)絡(luò)變更等運(yùn)維問題,本文介紹了廣東聯(lián)通網(wǎng)絡(luò)性能指標(biāo)預(yù)測(cè)方案,借助機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)設(shè)備流量、DNS、RADIUS、RRC 等網(wǎng)絡(luò)和業(yè)務(wù)指標(biāo)的現(xiàn)網(wǎng)數(shù)據(jù)分析,切實(shí)解決了傳統(tǒng)運(yùn)維故障、性能看不見的問題,展現(xiàn)出較好的賦能效果。