AI深度學(xué)習(xí)在移動(dòng)網(wǎng)異常小區(qū)檢測分類中的應(yīng)用

2019-12-10 03:59:04滕祖?zhèn)?/span>周杰華中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司北京00033中國聯(lián)通湖北分公司湖北武漢43000

郵電設(shè)計(jì)技術(shù) 2019年11期

王勇，滕祖?zhèn)?，周杰華，肖波，趙根（.中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司，北京 00033；.中國聯(lián)通湖北分公司，湖北武漢 43000）

1 應(yīng)用背景

當(dāng)今移動(dòng)網(wǎng)絡(luò)復(fù)雜多變，特別隨著5G和物聯(lián)網(wǎng)的引入，其復(fù)雜性將進(jìn)一步增加。采用深度學(xué)習(xí)算法的人工智能解決方案，可以適應(yīng)復(fù)雜的環(huán)境，在用戶和流量行為不斷變化時(shí)，將優(yōu)于任何人工驅(qū)動(dòng)的解決方案。

移動(dòng)網(wǎng)異常小區(qū)問題類型涉及無線覆蓋、干擾、容量等多個(gè)方面，傳統(tǒng)的網(wǎng)絡(luò)優(yōu)化方法是先采集PM和配置等數(shù)據(jù)，網(wǎng)優(yōu)工程師再根據(jù)專家知識(shí)和經(jīng)驗(yàn)，對(duì)各項(xiàng)指標(biāo)分別設(shè)置閾值，來診斷網(wǎng)元是否存在高負(fù)荷、高干擾、覆蓋差等異常問題。管理增加了網(wǎng)絡(luò)復(fù)雜性，如何在網(wǎng)絡(luò)動(dòng)態(tài)變化的情況下，快速發(fā)現(xiàn)網(wǎng)絡(luò)問題，提升運(yùn)維效率，是目前亟待研究的課題。

基于AI 深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案應(yīng)運(yùn)而生，它實(shí)現(xiàn)了原始數(shù)據(jù)入庫解析自動(dòng)化，問題分類智能化，診斷結(jié)果精準(zhǔn)化，管控流程標(biāo)準(zhǔn)化，顯著提升日常優(yōu)化的生產(chǎn)效率和工作效果，起到了降本增效的作用。

2 基于AI深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類

2.1 總體方案

基于AI 深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案由3部分組成，分別是智能建模、深度學(xué)習(xí)以及智能應(yīng)用?；贏I 深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案如圖1所示。

圖1 基于AI深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案

a）智能建模。首先是原始數(shù)據(jù)收集、數(shù)據(jù)準(zhǔn)備和預(yù)處理；然后將預(yù)處理好的小區(qū)性能數(shù)據(jù)輸入異常檢測模塊，將輸出的結(jié)果進(jìn)行降維聚類處理，并安排有經(jīng)驗(yàn)的網(wǎng)優(yōu)工程師對(duì)問題進(jìn)行分類標(biāo)注，固化專家知識(shí)和經(jīng)驗(yàn)，從而得到帶標(biāo)簽的異常小區(qū)問題數(shù)據(jù)集。

b）深度學(xué)習(xí)。把帶標(biāo)簽的異常小區(qū)問題數(shù)據(jù)集輸入搭建好的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型進(jìn)行調(diào)優(yōu)，經(jīng)過多次迭代和評(píng)估，最終得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型及參數(shù)。

c）智能應(yīng)用。將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型部署到實(shí)際網(wǎng)絡(luò)后，每日自動(dòng)執(zhí)行移動(dòng)網(wǎng)異常小區(qū)問題類型檢測和分類。

2.2 智能建模

智能建模流程分為3個(gè)主要階段：異常小區(qū)檢測、異常小區(qū)分類以及專家分類標(biāo)注。

2.2.1 異常小區(qū)檢測

一般說來，在機(jī)器學(xué)習(xí)領(lǐng)域，不平衡的訓(xùn)練樣本會(huì)導(dǎo)致訓(xùn)練模型側(cè)重樣本數(shù)目較多的類別，而“輕視”樣本數(shù)目較少類別。在異常小區(qū)檢測場景中，普遍存在的現(xiàn)象是正常樣本數(shù)量遠(yuǎn)遠(yuǎn)大于異常樣本數(shù)量，因此，當(dāng)把不平衡的正常樣本和異常樣本都輸入機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練時(shí)，就能把異常樣本檢測出來。

變分自編碼器（VAE—variational autoencoder）是一類在半監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)中使用的人工神經(jīng)網(wǎng)絡(luò)，其架構(gòu)分為編碼器和解碼器2部分。其中，編碼器神經(jīng)網(wǎng)絡(luò)將輸入數(shù)據(jù)轉(zhuǎn)化為隱含空間中更小更緊湊的編碼表達(dá)，而解碼器則將這一編碼表達(dá)重新恢復(fù)為原始輸入數(shù)據(jù)。由于變分自編碼器的隱含空間被設(shè)計(jì)為連續(xù)的分布以便進(jìn)行隨機(jī)采樣和插值，因此可以有類似正則化防止過擬合的作用。

在樣本不平衡的情況下，通過設(shè)定不同的重構(gòu)誤差門限，統(tǒng)計(jì)VAE 所檢測出的異常小區(qū)數(shù)，從而驗(yàn)證檢測準(zhǔn)確率，如表1所示。

表1 基于VAE的異常小區(qū)檢測準(zhǔn)確率統(tǒng)計(jì)

2.2.2 異常小區(qū)分類

由于移動(dòng)網(wǎng)小區(qū)數(shù)據(jù)是高維KPI 數(shù)據(jù)，而傳統(tǒng)的聚類算法只適用于低維數(shù)據(jù)。因此，需要將檢測出來的高維異常小區(qū)數(shù)據(jù)進(jìn)行降維，然后再利用傳統(tǒng)的已經(jīng)成熟有效的聚類算法對(duì)降維后的低維異常小區(qū)數(shù)據(jù)進(jìn)行聚類，獲得多種不同類型的異常小區(qū)。

綜合考慮算法有效性和性能，采用LLE降維和KMeans 聚類的組合方案。其中，LLE（Locally Linear Embedding）是一種非監(jiān)督的非線性降維方法，它通過組合數(shù)據(jù)點(diǎn)的局部屬性得到數(shù)據(jù)的全局結(jié)構(gòu)，而構(gòu)成這個(gè)局部屬性的是數(shù)據(jù)點(diǎn)及它的近鄰點(diǎn)的線性組合。其主要思想是利用線性的局部結(jié)構(gòu)來表示全局的非線性結(jié)構(gòu)，通過數(shù)據(jù)點(diǎn)的局部鄰域的相互重疊來近似地表示數(shù)據(jù)的整體的幾何結(jié)構(gòu)。K-Means聚類算法隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心，然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離，把每個(gè)對(duì)象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類。每分配一個(gè)樣本，聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過程將不斷重復(fù)直到滿足某個(gè)終止條件。

將采用上述降維聚類算法處理后的異常小區(qū)高維數(shù)據(jù)進(jìn)行2D降維可視化呈現(xiàn)，異常小區(qū)分類效果較好，如圖2所示。

2.2.3 專家分類標(biāo)注

圖2 異常小區(qū)分類效果可視化

將聚類后的異常小區(qū)高維KPI 數(shù)據(jù)轉(zhuǎn)換成KPI 熱力圖，其中，橫軸是時(shí)間軸，范圍是0～23 h，共24 個(gè)時(shí)間點(diǎn)；縱軸是KPI 指標(biāo)。當(dāng)某個(gè)時(shí)間點(diǎn)的KPI 取值是正常范圍時(shí)，對(duì)應(yīng)的小方格顏色是綠色，否則對(duì)應(yīng)的小方格顏色是紅色。如果KPI 取值由正常逐步惡化時(shí)，則顏色由綠色逐步變淡，并向紅色慢慢演化。KPI熱力圖如圖3所示。

根據(jù)KPI 熱力圖，由有經(jīng)驗(yàn)的網(wǎng)優(yōu)工程師手工標(biāo)注已區(qū)分開的異常小區(qū)問題類型（例如高負(fù)荷、上行干擾等），從而將專家的大量經(jīng)驗(yàn)進(jìn)行固化，并最終得到帶有標(biāo)簽的移動(dòng)網(wǎng)異常小區(qū)檢測數(shù)據(jù)集。

2.3 深度學(xué)習(xí)

由于卷積神經(jīng)網(wǎng)絡(luò)（CNN —Convolutional Neural Network）在準(zhǔn)確性和健壯性上的優(yōu)勢(shì)，將帶有標(biāo)簽的移動(dòng)網(wǎng)異常小區(qū)檢測集作為訓(xùn)練數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，學(xué)習(xí)正常小區(qū)和異常小區(qū)在容量、干擾、覆蓋上的特征差異，從而得到預(yù)測模型。

具體通過TensorFlow 來搭建卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。首先，設(shè)定好卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)（見圖4）。然后，將帶有標(biāo)注的異常小區(qū)檢測數(shù)據(jù)集劃分為訓(xùn)練集和測試集，之后，輸入訓(xùn)練集，對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。當(dāng)模型訓(xùn)練達(dá)到一定的準(zhǔn)確率后，再次利用測試集對(duì)模型進(jìn)行評(píng)估，當(dāng)模型達(dá)到預(yù)期標(biāo)準(zhǔn)則輸出預(yù)測模型。具體的訓(xùn)練和驗(yàn)證階段的準(zhǔn)確度以及損失曲線如圖5所示。

圖3 KPI熱力圖

圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

圖5 訓(xùn)練和驗(yàn)證階段的準(zhǔn)確度以及損失曲線

2.4 智能應(yīng)用

2.4.1 準(zhǔn)確性驗(yàn)證

采集武漢聯(lián)通2019 年3 月7 日4G 網(wǎng)絡(luò)的KPI 數(shù)據(jù)，輸入已調(diào)測完畢的卷積神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行診斷，得到Cell_load、High_DL_utilization、PUCCH_Interference、DTX_Coverage 等問題類型的診斷概率大于50%的小區(qū)，并按各個(gè)問題類型數(shù)量的20%進(jìn)行隨機(jī)采樣驗(yàn)證。

針對(duì)每類問題類型呈現(xiàn)最相關(guān)的2～3 類KPI，通過散點(diǎn)圖分布特征，判斷輸出結(jié)果是否符合日常優(yōu)化經(jīng)驗(yàn)。經(jīng)驗(yàn)證：異常小區(qū)問題檢測分類的準(zhǔn)確率可達(dá)88.37%。異常小區(qū)問題檢測分類的驗(yàn)證準(zhǔn)確率如表2所示。

2.4.2 現(xiàn)網(wǎng)部署

采用Docker 在Kubernetes 上部署深度學(xué)習(xí)模型。由于深度學(xué)習(xí)模型的應(yīng)用組件及所依賴的組件非常多，封裝成容器Docker，可實(shí)現(xiàn)更輕量級(jí)的虛擬化，方便快速部署，從而顯著減少部署的時(shí)間成本和人力成本。AI部署組件圖如圖6所示。

表2 異常小區(qū)問題檢測分類的驗(yàn)證準(zhǔn)確率

Docker集群至少由3臺(tái)服務(wù)器組成。集群的管理工具為Kubernetes。Docker容器化的應(yīng)用組件包括：

a）Coper_core：核心容器，封裝了Kafka、zookeeper、etcd等基礎(chǔ)服務(wù)。運(yùn)行多實(shí)例，組成高可用集群。

b）Coper_proxy：把多個(gè)coper_core 實(shí)例的服務(wù)代理成統(tǒng)一接口，供其他服務(wù)訪問。

c）Fetcher：分布式文件下載組件，用以下載性能指標(biāo)文件，用作數(shù)據(jù)輸入，并提取原始指標(biāo)存入數(shù)據(jù)庫。

d）Timescale DB：時(shí)序數(shù)據(jù)庫，存儲(chǔ)原始指標(biāo)。

e）Coper_model：預(yù)測模塊，用訓(xùn)練模型對(duì)數(shù)據(jù)輸入進(jìn)行處理，輸出預(yù)測分類結(jié)果。

f）grafana：集群性能監(jiān)控。

g）Open LDAP：用戶管理。

3 應(yīng)用成效

圖6 AI部署組件圖

在Docker 部署異常小區(qū)問題檢測分類AI 模塊的基礎(chǔ)上，主動(dòng)對(duì)接運(yùn)維工單系統(tǒng)，自動(dòng)觸發(fā)問題工單，串聯(lián)問題定位、問題處理、問題解決等實(shí)施環(huán)節(jié)，并通過AI驗(yàn)證優(yōu)化效果，實(shí)現(xiàn)移動(dòng)網(wǎng)異常小區(qū)問題的閉環(huán)管控以及網(wǎng)優(yōu)生產(chǎn)自動(dòng)化、精細(xì)化執(zhí)行。異常小區(qū)問題工單閉環(huán)管控如圖7所示。

圖7 異常小區(qū)問題工單閉環(huán)管控

基于AI 深度學(xué)習(xí)的移動(dòng)網(wǎng)異常小區(qū)檢測分類方案，引入變分自編碼器、卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法，集成在中國聯(lián)通自有大數(shù)據(jù)平臺(tái)，并已應(yīng)用到日常網(wǎng)優(yōu)生產(chǎn)工作中。通常15 min 內(nèi)能夠處理10 萬個(gè)以上的小區(qū)，至少節(jié)省時(shí)間90%以上，全面提升了中國聯(lián)通網(wǎng)絡(luò)運(yùn)維效率。