王 勇,滕祖?zhèn)?,周杰華,肖 波,趙 根(.中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司,北京 00033;.中國聯(lián)通湖北分公司,湖北武漢 43000)
當(dāng)今移動(dòng)網(wǎng)絡(luò)復(fù)雜多變,特別隨著5G和物聯(lián)網(wǎng)的引入,其復(fù)雜性將進(jìn)一步增加。采用深度學(xué)習(xí)算法的人工智能解決方案,可以適應(yīng)復(fù)雜的環(huán)境,在用戶和流量行為不斷變化時(shí),將優(yōu)于任何人工驅(qū)動(dòng)的解決方案。
移動(dòng)網(wǎng)異常小區(qū)問題類型涉及無線覆蓋、干擾、容量等多個(gè)方面,傳統(tǒng)的網(wǎng)絡(luò)優(yōu)化方法是先采集PM和配置等數(shù)據(jù),網(wǎng)優(yōu)工程師再根據(jù)專家知識(shí)和經(jīng)驗(yàn),對(duì)各項(xiàng)指標(biāo)分別設(shè)置閾值,來診斷網(wǎng)元是否存在高負(fù)荷、高干擾、覆蓋差等異常問題。管理增加了網(wǎng)絡(luò)復(fù)雜性,如何在網(wǎng)絡(luò)動(dòng)態(tài)變化的情況下,快速發(fā)現(xiàn)網(wǎng)絡(luò)問題,提升運(yùn)維效率,是目前亟待研究的課題。
基于AI 深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案應(yīng)運(yùn)而生,它實(shí)現(xiàn)了原始數(shù)據(jù)入庫解析自動(dòng)化,問題分類智能化,診斷結(jié)果精準(zhǔn)化,管控流程標(biāo)準(zhǔn)化,顯著提升日常優(yōu)化的生產(chǎn)效率和工作效果,起到了降本增效的作用。
基于AI 深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案由3部分組成,分別是智能建模、深度學(xué)習(xí)以及智能應(yīng)用?;贏I 深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案如圖1所示。
圖1 基于AI深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案
a)智能建模。首先是原始數(shù)據(jù)收集、數(shù)據(jù)準(zhǔn)備和預(yù)處理;然后將預(yù)處理好的小區(qū)性能數(shù)據(jù)輸入異常檢測模塊,將輸出的結(jié)果進(jìn)行降維聚類處理,并安排有經(jīng)驗(yàn)的網(wǎng)優(yōu)工程師對(duì)問題進(jìn)行分類標(biāo)注,固化專家知識(shí)和經(jīng)驗(yàn),從而得到帶標(biāo)簽的異常小區(qū)問題數(shù)據(jù)集。
b)深度學(xué)習(xí)。把帶標(biāo)簽的異常小區(qū)問題數(shù)據(jù)集輸入搭建好的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型進(jìn)行調(diào)優(yōu),經(jīng)過多次迭代和評(píng)估,最終得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型及參數(shù)。
c)智能應(yīng)用。將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型部署到實(shí)際網(wǎng)絡(luò)后,每日自動(dòng)執(zhí)行移動(dòng)網(wǎng)異常小區(qū)問題類型檢測和分類。
智能建模流程分為3個(gè)主要階段:異常小區(qū)檢測、異常小區(qū)分類以及專家分類標(biāo)注。
2.2.1 異常小區(qū)檢測
一般說來,在機(jī)器學(xué)習(xí)領(lǐng)域,不平衡的訓(xùn)練樣本會(huì)導(dǎo)致訓(xùn)練模型側(cè)重樣本數(shù)目較多的類別,而“輕視”樣本數(shù)目較少類別。在異常小區(qū)檢測場景中,普遍存在的現(xiàn)象是正常樣本數(shù)量遠(yuǎn)遠(yuǎn)大于異常樣本數(shù)量,因此,當(dāng)把不平衡的正常樣本和異常樣本都輸入機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練時(shí),就能把異常樣本檢測出來。
變分自編碼器(VAE—variational autoencoder)是一類在半監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)中使用的人工神經(jīng)網(wǎng)絡(luò),其架構(gòu)分為編碼器和解碼器2部分。其中,編碼器神經(jīng)網(wǎng)絡(luò)將輸入數(shù)據(jù)轉(zhuǎn)化為隱含空間中更小更緊湊的編碼表達(dá),而解碼器則將這一編碼表達(dá)重新恢復(fù)為原始輸入數(shù)據(jù)。由于變分自編碼器的隱含空間被設(shè)計(jì)為連續(xù)的分布以便進(jìn)行隨機(jī)采樣和插值,因此可以有類似正則化防止過擬合的作用。
在樣本不平衡的情況下,通過設(shè)定不同的重構(gòu)誤差門限,統(tǒng)計(jì)VAE 所檢測出的異常小區(qū)數(shù),從而驗(yàn)證檢測準(zhǔn)確率,如表1所示。
表1 基于VAE的異常小區(qū)檢測準(zhǔn)確率統(tǒng)計(jì)
2.2.2 異常小區(qū)分類
由于移動(dòng)網(wǎng)小區(qū)數(shù)據(jù)是高維KPI 數(shù)據(jù),而傳統(tǒng)的聚類算法只適用于低維數(shù)據(jù)。因此,需要將檢測出來的高維異常小區(qū)數(shù)據(jù)進(jìn)行降維,然后再利用傳統(tǒng)的已經(jīng)成熟有效的聚類算法對(duì)降維后的低維異常小區(qū)數(shù)據(jù)進(jìn)行聚類,獲得多種不同類型的異常小區(qū)。
綜合考慮算法有效性和性能,采用LLE降維和KMeans 聚類的組合方案。其中,LLE(Locally Linear Embedding)是一種非監(jiān)督的非線性降維方法,它通過組合數(shù)據(jù)點(diǎn)的局部屬性得到數(shù)據(jù)的全局結(jié)構(gòu),而構(gòu)成這個(gè)局部屬性的是數(shù)據(jù)點(diǎn)及它的近鄰點(diǎn)的線性組合。其主要思想是利用線性的局部結(jié)構(gòu)來表示全局的非線性結(jié)構(gòu),通過數(shù)據(jù)點(diǎn)的局部鄰域的相互重疊來近似地表示數(shù)據(jù)的整體的幾何結(jié)構(gòu)。K-Means聚類算法隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心,然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類。每分配一個(gè)樣本,聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過程將不斷重復(fù)直到滿足某個(gè)終止條件。
將采用上述降維聚類算法處理后的異常小區(qū)高維數(shù)據(jù)進(jìn)行2D降維可視化呈現(xiàn),異常小區(qū)分類效果較好,如圖2所示。
2.2.3 專家分類標(biāo)注
圖2 異常小區(qū)分類效果可視化
將聚類后的異常小區(qū)高維KPI 數(shù)據(jù)轉(zhuǎn)換成KPI 熱力圖,其中,橫軸是時(shí)間軸,范圍是0~23 h,共24 個(gè)時(shí)間點(diǎn);縱軸是KPI 指標(biāo)。當(dāng)某個(gè)時(shí)間點(diǎn)的KPI 取值是正常范圍時(shí),對(duì)應(yīng)的小方格顏色是綠色,否則對(duì)應(yīng)的小方格顏色是紅色。如果KPI 取值由正常逐步惡化時(shí),則顏色由綠色逐步變淡,并向紅色慢慢演化。KPI熱力圖如圖3所示。
根據(jù)KPI 熱力圖,由有經(jīng)驗(yàn)的網(wǎng)優(yōu)工程師手工標(biāo)注已區(qū)分開的異常小區(qū)問題類型(例如高負(fù)荷、上行干擾等),從而將專家的大量經(jīng)驗(yàn)進(jìn)行固化,并最終得到帶有標(biāo)簽的移動(dòng)網(wǎng)異常小區(qū)檢測數(shù)據(jù)集。
由于卷積神經(jīng)網(wǎng)絡(luò)(CNN —Convolutional Neural Network)在準(zhǔn)確性和健壯性上的優(yōu)勢(shì),將帶有標(biāo)簽的移動(dòng)網(wǎng)異常小區(qū)檢測集作為訓(xùn)練數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,學(xué)習(xí)正常小區(qū)和異常小區(qū)在容量、干擾、覆蓋上的特征差異,從而得到預(yù)測模型。
具體通過TensorFlow 來搭建卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。首先,設(shè)定好卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(見圖4)。然后,將帶有標(biāo)注的異常小區(qū)檢測數(shù)據(jù)集劃分為訓(xùn)練集和測試集,之后,輸入訓(xùn)練集,對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。當(dāng)模型訓(xùn)練達(dá)到一定的準(zhǔn)確率后,再次利用測試集對(duì)模型進(jìn)行評(píng)估,當(dāng)模型達(dá)到預(yù)期標(biāo)準(zhǔn)則輸出預(yù)測模型。具體的訓(xùn)練和驗(yàn)證階段的準(zhǔn)確度以及損失曲線如圖5所示。
圖3 KPI熱力圖
圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
圖5 訓(xùn)練和驗(yàn)證階段的準(zhǔn)確度以及損失曲線
2.4.1 準(zhǔn)確性驗(yàn)證
采集武漢聯(lián)通2019 年3 月7 日4G 網(wǎng)絡(luò)的KPI 數(shù)據(jù),輸入已調(diào)測完畢的卷積神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行診斷,得 到Cell_load、High_DL_utilization、PUCCH_Interference、DTX_Coverage 等問題類型的診斷概率大于50%的小區(qū),并按各個(gè)問題類型數(shù)量的20%進(jìn)行隨機(jī)采樣驗(yàn)證。
針對(duì)每類問題類型呈現(xiàn)最相關(guān)的2~3 類KPI,通過散點(diǎn)圖分布特征,判斷輸出結(jié)果是否符合日常優(yōu)化經(jīng)驗(yàn)。經(jīng)驗(yàn)證:異常小區(qū)問題檢測分類的準(zhǔn)確率可達(dá)88.37%。異常小區(qū)問題檢測分類的驗(yàn)證準(zhǔn)確率如表2所示。
2.4.2 現(xiàn)網(wǎng)部署
采用Docker 在Kubernetes 上部署深度學(xué)習(xí)模型。由于深度學(xué)習(xí)模型的應(yīng)用組件及所依賴的組件非常多,封裝成容器Docker,可實(shí)現(xiàn)更輕量級(jí)的虛擬化,方便快速部署,從而顯著減少部署的時(shí)間成本和人力成本。AI部署組件圖如圖6所示。
表2 異常小區(qū)問題檢測分類的驗(yàn)證準(zhǔn)確率
Docker集群至少由3臺(tái)服務(wù)器組成。集群的管理工具為Kubernetes。Docker容器化的應(yīng)用組件包括:
a)Coper_core:核心容器,封裝了Kafka、zookeeper、etcd等基礎(chǔ)服務(wù)。運(yùn)行多實(shí)例,組成高可用集群。
b)Coper_proxy:把多個(gè)coper_core 實(shí)例的服務(wù)代理成統(tǒng)一接口,供其他服務(wù)訪問。
c)Fetcher:分布式文件下載組件,用以下載性能指標(biāo)文件,用作數(shù)據(jù)輸入,并提取原始指標(biāo)存入數(shù)據(jù)庫。
d)Timescale DB:時(shí)序數(shù)據(jù)庫,存儲(chǔ)原始指標(biāo)。
e)Coper_model:預(yù)測模塊,用訓(xùn)練模型對(duì)數(shù)據(jù)輸入進(jìn)行處理,輸出預(yù)測分類結(jié)果。
f)grafana:集群性能監(jiān)控。
g)Open LDAP:用戶管理。
圖6 AI部署組件圖
在Docker 部署異常小區(qū)問題檢測分類AI 模塊的基礎(chǔ)上,主動(dòng)對(duì)接運(yùn)維工單系統(tǒng),自動(dòng)觸發(fā)問題工單,串聯(lián)問題定位、問題處理、問題解決等實(shí)施環(huán)節(jié),并通過AI驗(yàn)證優(yōu)化效果,實(shí)現(xiàn)移動(dòng)網(wǎng)異常小區(qū)問題的閉環(huán)管控以及網(wǎng)優(yōu)生產(chǎn)自動(dòng)化、精細(xì)化執(zhí)行。異常小區(qū)問題工單閉環(huán)管控如圖7所示。
圖7 異常小區(qū)問題工單閉環(huán)管控
基于AI 深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案,引入變分自編碼器、卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法,集成在中國聯(lián)通自有大數(shù)據(jù)平臺(tái),并已應(yīng)用到日常網(wǎng)優(yōu)生產(chǎn)工作中。通常15 min 內(nèi)能夠處理10 萬個(gè)以上的小區(qū),至少節(jié)省時(shí)間90%以上,全面提升了中國聯(lián)通網(wǎng)絡(luò)運(yùn)維效率。