王亞楠,陳毅敏,李佳袁*
(1.中國移動通信集團(tuán)設(shè)計院有限公司,北京 100080;2.北京市第一中西醫(yī)結(jié)合醫(yī)院,北京 100026)
以5 G為代表的新一代信息通信技術(shù),正成為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的核心引擎。一方面,5 G網(wǎng)絡(luò)自身的發(fā)展雖融入了開放化、智能化等特性,但越來越復(fù)雜的網(wǎng)絡(luò)同樣急需運維模式的革新;另一方面,網(wǎng)絡(luò)智能化的程度也隨著業(yè)務(wù)層面的不斷創(chuàng)新而日益加深[1-3]。
隨著無線通信技術(shù)的快速迭代和網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,用戶對網(wǎng)絡(luò)質(zhì)量的要求越來越高,傳統(tǒng)被動響應(yīng)式的基站告警處理方式已越來越不能滿足運營商對網(wǎng)絡(luò)告警,尤其是影響網(wǎng)絡(luò)質(zhì)量的重要告警的管理需求。
為了減少基站退服事件的發(fā)生,降低基站退服時長,本文提出了一種基于詞向量的退服告警預(yù)測方法,通過對高隱患基站的精準(zhǔn)定位,為基站巡檢和隱患的提前排障做出有力指導(dǎo),從根本上實現(xiàn)了基站退服的主動預(yù)防,提升了網(wǎng)絡(luò)運維的效率和質(zhì)量。
現(xiàn)階段的維護(hù)方式,導(dǎo)致基站或小區(qū)不可避免地在運維實施期間停止服務(wù),極大地影響了客戶的感知和體驗,并有大量投訴隨之產(chǎn)生。
退服處理中最主要的分析依據(jù)就是基站的告警數(shù)據(jù)。告警數(shù)據(jù)能夠及時反映當(dāng)前基站的運行狀態(tài),而重要退服類告警的發(fā)生常常伴隨著次要告警、性能指標(biāo)波動等,現(xiàn)有的分析方法僅依靠經(jīng)驗粗粒度估計大面積退服發(fā)生的風(fēng)險,預(yù)測的準(zhǔn)確性不高,也難以為巡檢隱患排查、運維資源針對性調(diào)度等提供科學(xué)依據(jù)。
如何利用海量的歷史運維數(shù)據(jù)挖掘退服規(guī)律,準(zhǔn)確預(yù)測退服基站,提前進(jìn)行故障隱患排查,已成為減少退服事件發(fā)生率、降低運維成本、實現(xiàn)運維思路從被動處理向主動預(yù)防轉(zhuǎn)變的關(guān)鍵。
針對上述問題,本文提出了一種基于詞向量的退服告警預(yù)測方法。該方法首先利用Word2Vec模型,對基站級別的故障、性能、動環(huán)告警等數(shù)據(jù)進(jìn)行全面分析,重點探究基站歷史發(fā)生的退服告警及退服告警發(fā)生前后基站告警數(shù)據(jù)的變化情況,盡可能地挖掘次要告警和退服告警數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)。
Word2Vec是一種結(jié)構(gòu)特殊的神經(jīng)網(wǎng)絡(luò),其出發(fā)點是考慮了上下文相似的兩個詞,它們的詞向量也應(yīng)該是相似的,一舉解決了傳統(tǒng)的One-Hot編碼無法代表語義且維度過高的問題。Word2Vec有兩大常用模型:以上下文詞匯預(yù)測當(dāng)前詞匯的CBOW(Continuous Bag-of-Word)模型以及以當(dāng)前詞匯預(yù)測其上下文詞匯的Skip-gram模型。模型結(jié)構(gòu)如圖1所示,以上下文窗口為3舉例說明。
圖1 Word2Vec常用模型原理
本文所提出的方法以退服告警序列作為預(yù)測模型的特征輸入,并結(jié)合了兩種方法生成退服告警序列:
(1)對每個基站的所有告警序列按時間排序,以每固定1~n天無任何告警發(fā)生的時間為間隔劃分所有告警序列,生成序列語料庫,再將所有基站的語料庫合并。(2)對每個基站的所有告警序列按時間排序,以每一個退服告警的樣本為中心,取前面n1天的所有告警和后n2天的所有告警,按順序排列,作為一個告警組。將所有的告警組合并,形成告警類型編碼語料庫。
對生成的告警序列語料庫使用Word2Vec模型,訓(xùn)練不同告警的上下文信息編碼模型。其參數(shù)如表1所示。
表1 Word2Vec模型參數(shù)
特征樣本生成主要有以下3個步驟:
1.3.1 特征數(shù)據(jù)生成
在完成Word2Vec模型的訓(xùn)練后,輸入每個告警標(biāo)題,將其與模型訓(xùn)練得到的權(quán)重矩陣W相乘得到的對應(yīng)告警的詞向量。在生成的詞向量空間中,兩個向量夾角間的余弦值可以衡量兩個個體之間差異的大小:
(1)
余弦值接近1,夾角趨于0,表明兩個向量越相似,余弦值接近于0,夾角趨于90°,表明兩個向量越不相似。因此,通過計算非退服告警向量與退服告警向量之間的余弦距離,可以得出其他次要告警i與退服告警j之間的相似度δij,其中負(fù)值統(tǒng)一置成0。最后,將告警i與J類退服類告警之間的相似度相加,得到告警i的編碼:
(2)
1.3.2 標(biāo)簽標(biāo)注
根據(jù)需要預(yù)測的天數(shù)M(如3天),以該天數(shù)M為滾動窗口,遍歷統(tǒng)計告警數(shù)據(jù),計算每個窗口期間基站是否發(fā)生了退服告警。如果發(fā)生退服告警則標(biāo)注為1,如果沒有發(fā)生退服告警則標(biāo)注為0。
1.3.3 樣本生成
將上述過程產(chǎn)生的特征數(shù)據(jù)和標(biāo)簽數(shù)據(jù)按基站與日期相關(guān)聯(lián),生成訓(xùn)練樣本,訓(xùn)練數(shù)據(jù)使用了試點地市1—10月共10個月的歷史告警數(shù)據(jù),并以同樣的方式生成預(yù)測樣本,只含輸入特征數(shù)據(jù),不含標(biāo)簽數(shù)據(jù)。基站退服告警預(yù)測樣本生成流程如圖2所示。
圖2 基站退服告警預(yù)測樣本生成流程
本文使用基于XGBoost算法和LightGBM算法的二分類模型進(jìn)行退服告警預(yù)測,二者都是基于梯度下降樹(Gradient Boosting Decision Tree,GBDT)的提升方法。使用XGBoost和LightGBM的二分類模型進(jìn)行退服告警預(yù)測,具體算法流程如圖3所示。
圖3 基于XGBoost和LightGBM模型的基站退服告警預(yù)測流程
首先對樣本按照其所在周數(shù)進(jìn)行分組,采用Group-Kfold進(jìn)行交叉驗證,將原始樣本分割成K個子樣本集,每一個單獨的子樣本集被保留作為驗證模型的數(shù)據(jù),其他K-1個樣本集用來訓(xùn)練XGBoost和LightGBM模型,且保證同一周的樣本不會同時出現(xiàn)在訓(xùn)練集和測試集上。然后重復(fù)K次,使得每個子樣本集均被驗證一次,同時生成K個模型。Group-Kfold通過避免同一周的樣本出現(xiàn)在訓(xùn)練集和測試集上,提高了模型的泛化能力。
此外,為了解決數(shù)據(jù)集正負(fù)樣本比例嚴(yán)重失衡的問題,采用Focalloss代替?zhèn)鹘y(tǒng)的交叉熵?fù)p失函數(shù)。二分類的交叉熵?fù)p失函數(shù)如下:
(1-yi)log(1-pi)]
(3)
Focalloss通過引入?yún)?shù)α和γ對負(fù)樣本和易分樣本進(jìn)行懲罰,其函數(shù)形式如下:
(4)
其中,γ>0用于減少易分類樣本的損失,使得模型更關(guān)注于困難的、錯分的樣本。例如γ= 2,對于正類樣本而言,預(yù)測結(jié)果為0.95,肯定是簡單樣本,所以(1-0.95)γ就會很小,這時損失函數(shù)值就變得更小。而預(yù)測概率為0.3的樣本其損失相對很大。此外,加入平衡因子α,加大正樣本的權(quán)重,平衡正負(fù)樣本本身的比例不均。
完成K個子模型的訓(xùn)練后,根據(jù)其在驗證集上的精確率,計算各個模型的權(quán)重。預(yù)測時,通過輸入對當(dāng)前基站過去一段時間的歷史告警數(shù)據(jù)、工參數(shù)據(jù),根據(jù)已訓(xùn)練得到的告警編碼、歷史退服特征、基站屬性特征,按時間窗進(jìn)行滑動形成輸入樣本,輸入XGBoost和LightGBM的各個子模型,即可獲取未來一段時間內(nèi)退服告警發(fā)生的概率。最后,根據(jù)計算出的模型權(quán)值,融合子模型上的預(yù)測結(jié)果,得出最終的退服告警概率預(yù)測值,對未來一段時間內(nèi)(通常為1~3天)發(fā)生退服告警的概率進(jìn)行準(zhǔn)確預(yù)測,為隱患提前排查和日常精準(zhǔn)巡檢提供依據(jù),提升基站排查效率,指導(dǎo)運維人員的巡檢工作。
以陜西移動部分基站為例,進(jìn)行基于詞向量的基站退服告警預(yù)測算法應(yīng)用。并通過f1分?jǐn)?shù)(f1-score)、準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)及混淆矩陣(Confusion)5個指標(biāo)對已經(jīng)訓(xùn)練好的退服告警預(yù)測模型,使用獨立的數(shù)據(jù)集做驗證,輸出驗證結(jié)果如表2所示。模型輸出的預(yù)測結(jié)果如表3所示。
表2 退服告警預(yù)測模型輸出結(jié)果驗證
表3 退服告警預(yù)測模型輸出結(jié)果
其中,date為預(yù)測周期的第一天,pred_probability為預(yù)測的退服告警發(fā)生概率,pred_label為是否發(fā)生退服告警(1為發(fā)生退服,0為未發(fā)生退服)。其中,pred_label 通過指定的分類閾值(如表3中取0.5),由pred_probability計算得到。
將訓(xùn)練好的基于詞向量的基站退服告警預(yù)測模型應(yīng)用于陜西省某地市試點基站進(jìn)行退服預(yù)測,得到的試點地市模型輸出結(jié)果驗證如表4所示。
表4 試點地市退服告警預(yù)測模型輸出結(jié)果驗證
可見,在試點地市應(yīng)用基站退服告警預(yù)測模型后,預(yù)測結(jié)果精確率達(dá)到96%,召回率約為12%~13%。本方法已經(jīng)在陜西省移動公司進(jìn)行了試點應(yīng)用,通過對高隱患基站的精準(zhǔn)定位,為基站巡檢和隱患的提前排障做出有力指導(dǎo),10個地市在試點期內(nèi)平均退服基站預(yù)測準(zhǔn)確率大于88%。
基于詞向量的基站退服告警預(yù)測方法,在試點省份預(yù)測基站未來一段時間內(nèi)發(fā)生重要退服告警的概率,準(zhǔn)確率大于88%,可明顯提升基站智能運維的主動性。同時,及時發(fā)現(xiàn)設(shè)備或服務(wù)的相關(guān)告警信息,可以對退服故障進(jìn)行早排查、早修復(fù),從而可以有效地減少因退服故障而帶來的經(jīng)濟(jì)損失。本算法通過系統(tǒng)性引入AI技術(shù),對大量運維數(shù)據(jù)進(jìn)行分析,構(gòu)建面向無線基站的重要故障預(yù)測工具,為網(wǎng)絡(luò)數(shù)智化轉(zhuǎn)型提供新的支持手段。