朱曉榮,張佩佩
(南京郵電大學(xué)江蘇省無線通信重點(diǎn)實驗室,江蘇 南京 210003)
未來移動網(wǎng)絡(luò)的發(fā)展不再是某一技術(shù)或某一網(wǎng)絡(luò)的單一存在,而是各種無線接入技術(shù)的共存、互補(bǔ)和共同發(fā)展,從而更好地滿足用戶的需求。在這種網(wǎng)絡(luò)異構(gòu)化、密集化的發(fā)展趨勢下,如何對網(wǎng)絡(luò)故障進(jìn)行高效的診斷和預(yù)測成為一個巨大挑戰(zhàn)[1],很多學(xué)者對這一方面進(jìn)行了研究。
Szilagyi 等[2]提出了一個完整的故障診斷框架,故障檢測過程主要是監(jiān)視無線電測量數(shù)據(jù),并與配置文件捕獲的正常行為進(jìn)行比較。該框架對根本原因的診斷依賴于先前記錄的故障案例,并了解其對關(guān)鍵性能指標(biāo)(KPI,key performance indicator)的影響,考慮了信道質(zhì)量、通話中斷和切換時間提前3 個KPI。在監(jiān)督學(xué)習(xí)的背景下,文獻(xiàn)[3-5]考慮貝葉斯分類,建立了GSM(global system for mobile communication)和UMTS(universal mobile telecommunication system)網(wǎng)絡(luò)故障和根本原因之間的關(guān)系。Barco 等[3]通過對故障診斷的關(guān)鍵性能指標(biāo)的連續(xù)分析,確定在故障歷史數(shù)據(jù)和故障根源充足的情況下,采用連續(xù)的KPI 進(jìn)行故障診斷是有益的。事實上,只有當(dāng)訓(xùn)練數(shù)據(jù)集足夠大時,才可以獲得更好的性能。Khanafer 等[4]和Barco 等[5]使用離散的KPI,文獻(xiàn)[4]綜合使用了模擬數(shù)據(jù)和實際數(shù)據(jù)進(jìn)行驗證,但錯誤小區(qū)的識別僅依賴于一個KPI,即掉話率;文獻(xiàn)[5]側(cè)重于數(shù)據(jù)驅(qū)動的模型參數(shù)學(xué)習(xí),避免了典型的依賴專家意見的貝葉斯方法。Khatib 等[6]提出了一種基于監(jiān)督遺傳模糊算法的診斷方法,基于一個模擬數(shù)據(jù)集和一個包含72 條記錄的真實數(shù)據(jù)集,故障診斷過程中考慮了4 個KPI 和4 個故障原因,利用遺傳算法學(xué)習(xí)模糊規(guī)則庫,其準(zhǔn)確率依賴于標(biāo)記訓(xùn)練集。
目前,很多專家對5G 異構(gòu)無線網(wǎng)絡(luò)中網(wǎng)絡(luò)故障的診斷和預(yù)測進(jìn)行了研究。網(wǎng)絡(luò)切片技術(shù)被認(rèn)為是電信運(yùn)營商即將采用的5G 中的一項關(guān)鍵技術(shù),大多數(shù)網(wǎng)絡(luò)切片方法都遵循下一代移動網(wǎng)絡(luò)(NGMN,next generation mobile network)[7]所描述的概念,ETSI(European telecommunications standard institute)網(wǎng)絡(luò)功能虛擬化(NFV,network function virtualization)框架[8]是網(wǎng)絡(luò)切片的關(guān)鍵推動者。Kukliński 等[9]針對與網(wǎng)絡(luò)切片技術(shù)相關(guān)的KPI 仍然沒有定義的問題,定義了5G 網(wǎng)絡(luò)切片的KPI,為后續(xù)的5G 網(wǎng)絡(luò)的研究提供了參考。Mfula 等[10]針對5G 復(fù)雜的網(wǎng)絡(luò)環(huán)境,提出了一種自適應(yīng)根源分析(ARCA,adaptive root cause analysis)自動故障檢測和診斷解決方案,該方案使用測量數(shù)據(jù)和其他網(wǎng)絡(luò)數(shù)據(jù),并結(jié)合貝葉斯網(wǎng)絡(luò)理論進(jìn)行自適應(yīng)根源分析,只需要更少人力或不需要人工操作,并通過自適應(yīng)學(xué)習(xí)期間的知識來提高效率。
由上述對網(wǎng)絡(luò)故障診斷方法的研究可知,傳統(tǒng)的網(wǎng)絡(luò)故障診斷方法需要大量的人工標(biāo)注的訓(xùn)練數(shù)據(jù)集,十分耗時耗力。另外,上述文獻(xiàn)僅考慮了幾類故障,并且故障識別過程僅依賴少量KPI 指標(biāo),但在復(fù)雜的異構(gòu)無線網(wǎng)絡(luò)環(huán)境下,一方面,網(wǎng)絡(luò)故障更加多樣化,網(wǎng)絡(luò)故障的識別也會依賴更多的KPI;另一方面,需要考慮在這種復(fù)雜的網(wǎng)絡(luò)環(huán)境下,如何獲得大量可靠的數(shù)據(jù)集,該數(shù)據(jù)集可通過監(jiān)督學(xué)習(xí)獲得故障診斷策略。目前常見做法是從已令人滿意地解決的且已知故障的已存儲案例(即標(biāo)記案例)中提取信息。然而,由于專家不傾向于收集KPI 和與它們解決的故障相關(guān)的標(biāo)簽,所以可用的歷史記錄很少。特別是,實際網(wǎng)絡(luò)中沒有太多的故障,對于每個特定的故障,沒有很多標(biāo)記的案例。因此,從真實網(wǎng)絡(luò)獲得的歷史數(shù)據(jù)不夠豐富,利用監(jiān)督技術(shù)來構(gòu)建診斷系統(tǒng)所達(dá)到的效果并不理想。而利用生成對抗網(wǎng)絡(luò)(GAN,generative adversarial network)的思想可以解決歷史數(shù)據(jù)不豐富的問題。
近幾年來,GAN 作為實現(xiàn)人工智能的典型方法,在計算機(jī)視覺、圖像識別和自然語言處理領(lǐng)域取得了廣泛的成功,在處理復(fù)雜問題方面表現(xiàn)出很好的能力。GAN 包括2 個獨(dú)立的深層網(wǎng)絡(luò)[11],即生成器和判別器。生成器接收一個服從gp分布的隨機(jī)變量,用來捕捉數(shù)據(jù)的分布。判別器分別輸出1和0 來區(qū)分真實樣本和生成的樣本。GAN 在訓(xùn)練過程中,利用生成器和判別器分別對樣本進(jìn)行生成和分類,對抗性地提高樣本的性能。文獻(xiàn)[11]利用GAN方法對minist 手寫數(shù)據(jù)集進(jìn)行識別,實驗結(jié)果證明了GAN 方法的潛力。但文獻(xiàn)[11]在實際訓(xùn)練過程中還存在一些問題,如訓(xùn)練困難、生成樣本缺乏多樣性等。文獻(xiàn)[12-13]針對文獻(xiàn)[11]存在的問題,提出了WGAN(Wasserstein GAN),仿真結(jié)果表明,其能夠解決GAN 訓(xùn)練不穩(wěn)定的問題,而且確保了生成樣本的多樣性。Arjovsky 等[12]從理論上解釋了GAN 訓(xùn)練不穩(wěn)定的原因。文獻(xiàn)[13]引入Wasserstein距離代替 JS(Jensen-Shannon)散度和 KL(Kullback-Leibler)散度,并將其作為優(yōu)化目標(biāo)。與原始GAN 中的KL 散度與JS 散度相比,WGAN 解決了原始GAN 存在的梯度消失問題。
本文創(chuàng)新性地提出了將GAN 思想應(yīng)用到網(wǎng)絡(luò)故障診斷與預(yù)測領(lǐng)域中,將GAN 思想與典型的網(wǎng)絡(luò)故障診斷方法結(jié)合。利用GAN 思想,基于少量帶有標(biāo)簽的數(shù)據(jù)集,獲得了大量可靠的帶有標(biāo)簽的數(shù)據(jù)集用于網(wǎng)絡(luò)故障診斷模型的訓(xùn)練,這樣做不僅大大節(jié)省了人工標(biāo)注訓(xùn)練數(shù)據(jù)的時間,而且提高了故障診斷模型的精度。仿真結(jié)果表明,所提方法能夠達(dá)到準(zhǔn)確和高效的網(wǎng)絡(luò)故障診斷與預(yù)測效果。
本文考慮圖1 所示的宏小區(qū)、微小區(qū)和毫微微小區(qū)交叉重疊覆蓋的4G 異構(gòu)無線網(wǎng)絡(luò)場景。在這種場景下,由于網(wǎng)絡(luò)的多樣性,系統(tǒng)更加復(fù)雜,網(wǎng)絡(luò)管理也更加困難。本文考慮此場景下的網(wǎng)絡(luò)故障診斷與預(yù)測,首先分析衡量網(wǎng)絡(luò)性能的KPI 以及常見的網(wǎng)絡(luò)故障,并對其進(jìn)行簡單的關(guān)聯(lián),這部分是構(gòu)建網(wǎng)絡(luò)故障診斷模型的前期工作。
本文所選KPI涵蓋了4G 異構(gòu)網(wǎng)絡(luò)的主要方面,與移動網(wǎng)絡(luò)中的主要類別相關(guān)聯(lián),主要如下:質(zhì)量指標(biāo),如參考信號接收功率、參考信號接收質(zhì)量、分組丟失率;接入性指標(biāo),如無線資源控制連接建立成功率、演進(jìn)的無線接入承載建立成功率;保持性指標(biāo),如掉話率;移動性指標(biāo),如切換成功率、切換時延;業(yè)務(wù)量指標(biāo),如平均吞吐量。本文所選KPI 具體如表1 所示。
圖1 4G 異構(gòu)無線網(wǎng)絡(luò)場景
表1 本文所選KPI
1) 參考信號接收功率,描述下行鏈路中接收的導(dǎo)頻信號的強(qiáng)度。其定義為在考慮的帶寬內(nèi)承載來自服務(wù)小區(qū)的小區(qū)特定參考信號的資源元素上的平均下行鏈路接收功率。
2) 參考信號接收質(zhì)量,描述下行鏈路中接收的導(dǎo)頻信號的質(zhì)量,以dB 為單位。其定義為RSRP與載波帶寬加上熱噪聲時所有基站的寬帶接收信號之間的比例。
3) 分組丟失率,指丟失分組的數(shù)量與發(fā)送的分組總數(shù)的比例。這個度量對于確定網(wǎng)絡(luò)的狀態(tài)非常重要。本文分別考慮上行鏈路分組丟失率(PD_UL)和下行鏈路分組丟失率(PD_DL)。
4) 信噪比,是衡量網(wǎng)絡(luò)性能好壞的重要指標(biāo),信噪比越高,信號中雜波越少,網(wǎng)絡(luò)性能越好;反之,網(wǎng)絡(luò)性能越差。本文分別考慮上行鏈路的信噪比(SNR_UL)和下行鏈路的信噪比(SNR_DL)。
5) 無線資源控制連接建立成功率,RRC 連接建立成功次數(shù)與RRC 連接建立嘗試次數(shù)的比值。只有當(dāng)RRC 連接建立成功,才可以進(jìn)行通信業(yè)務(wù),若連接建立失敗,則用戶與網(wǎng)絡(luò)不能建立正常連接,網(wǎng)絡(luò)業(yè)務(wù)中斷。
6) 演進(jìn)無線接入承載建立成功率,指E-RAB連接建立成功次數(shù)與E-RAB 連接建立嘗試次數(shù)的比值。如果連接建立失敗,則用戶與網(wǎng)絡(luò)不能正常連接,影響網(wǎng)絡(luò)服務(wù)的質(zhì)量。
7) 掉話率,是衡量網(wǎng)絡(luò)性能的重要指標(biāo),也稱通話中斷率,是指移動通信過程中通信意外中斷的概率。小區(qū)存在弱覆蓋區(qū)域或者網(wǎng)絡(luò)間存在干擾等原因都會導(dǎo)致呼叫掉線。
8) 切換成功率,是指成功切換次數(shù)與切換嘗試總數(shù)的比值,描述了網(wǎng)絡(luò)使用戶能夠繼續(xù)接收服務(wù)并在移動過程中保持連接的能力。
9) 平均吞吐量,指單位時間下載或者上傳的數(shù)據(jù)量。平均吞吐量=,對于運(yùn)營商而言是重要的性能指標(biāo)。本文考慮上行、下行平均吞吐量Throughput_UL、Throughput_DL,以及節(jié)點(diǎn)傳出、傳入平均吞吐量LT(out)、LT(in)。
10) 時延,通常指發(fā)送到接收之間的時間間隔,網(wǎng)絡(luò)出現(xiàn)時延的情況時,可以從網(wǎng)絡(luò)拓?fù)?、網(wǎng)絡(luò)中的業(yè)務(wù)模型、傳輸資源等方面考慮問題出現(xiàn)的原因。本文考慮切換時延HO_d。
11) 誤碼率,在一段特定時間內(nèi)數(shù)據(jù)傳輸?shù)臏?zhǔn)確率的度量,如果有誤碼就會有誤碼率。誤碼的產(chǎn)生是由于網(wǎng)絡(luò)傳輸質(zhì)量低導(dǎo)致的。本文考慮鏈路誤碼率LER。
訓(xùn)練網(wǎng)絡(luò)故障診斷模型所需要的數(shù)據(jù)集由不同的網(wǎng)絡(luò)故障組成,每個故障代表一個單元小區(qū)出現(xiàn)的問題,鄰居小區(qū)也會受到這個問題的影響。本文分析了網(wǎng)絡(luò)運(yùn)營過程中的常見網(wǎng)絡(luò)故障[14-15],具體如下。
1) 干擾,一般指進(jìn)入信道或通信系統(tǒng)影響合法信道正常運(yùn)行的信號,移動通信系統(tǒng)的干擾是影響無線網(wǎng)絡(luò)出現(xiàn)掉線、接通失敗等原因的重要因素之一,嚴(yán)重影響了網(wǎng)絡(luò)正常運(yùn)行和服務(wù)質(zhì)量。本文從頻段角度考慮,將干擾分為上行干擾和下行干擾。當(dāng)上行鏈路出現(xiàn)干擾時,所需的用戶信號必須比干擾信號強(qiáng),這樣基站才能與用戶通信,因此,用戶必須更靠近基站,從而減少了基站的覆蓋范圍。下行干擾是指干擾源在移動網(wǎng)絡(luò)下行頻段內(nèi)所發(fā)出的干擾信號。當(dāng)用戶接收到干擾信號時,無法分辨正常的基站信號,使用戶與基站的聯(lián)系中斷,導(dǎo)致通話掉線或無法注冊。
2) 覆蓋,常見的故障為覆蓋漏洞,表示服務(wù)單元與鄰近單元的信號電平平均低于維持服務(wù)所需的強(qiáng)制電平區(qū)域,常由物體障礙造成,例如城市地區(qū)的新建筑和農(nóng)村地區(qū)的丘陵等。在某些情況下,不合適的天線參數(shù)和無線電頻率規(guī)劃也可能造成覆蓋漏洞。該故障的典型表現(xiàn)包括服務(wù)區(qū)域某部分用戶的RSRP 較低,導(dǎo)致頻繁掉線和無線鏈路故障。
3) 硬件故障,通常指基站設(shè)備部件故障,比如基站中部分組件反應(yīng)不靈敏。硬件出現(xiàn)較為嚴(yán)重的故障時會導(dǎo)致小區(qū)服務(wù)中斷,掉話率急劇上升。
4) 鏈路故障,通常指網(wǎng)絡(luò)運(yùn)行中鏈路出現(xiàn)堵塞或者由于其他原因?qū)е骆溌凡荒苷鬏敂?shù)據(jù),網(wǎng)絡(luò)無法正常運(yùn)行。
5) 配置參數(shù)故障,在無線接入端,若僅考慮基站,其自身有很多參數(shù)調(diào)整,如果某些重要的參數(shù)配置錯誤或者更新時出現(xiàn)問題,可能會導(dǎo)致網(wǎng)絡(luò)性能下降。
針對上述的KPI 以及網(wǎng)絡(luò)故障,依照故障排除專家經(jīng)驗進(jìn)行關(guān)聯(lián),如表2 所示。
本文提出了基于GAN 的網(wǎng)絡(luò)故障診斷與預(yù)測模型,如圖2 所示。首先,從異構(gòu)無線網(wǎng)絡(luò)環(huán)境中采集不同網(wǎng)絡(luò)狀態(tài)下的少量KPI 數(shù)據(jù),將不同網(wǎng)絡(luò)狀態(tài)與KPI 數(shù)據(jù)相關(guān)聯(lián)。為方便分析,本文將收集到的小樣本數(shù)據(jù)進(jìn)行歸一化處理,輸入GAN 進(jìn)行不同網(wǎng)絡(luò)狀態(tài)下的數(shù)據(jù)擬合,從而得到不同網(wǎng)絡(luò)狀態(tài)下大量帶有標(biāo)記的模擬數(shù)據(jù)。然后,對GAN 產(chǎn)生的模擬數(shù)據(jù)集與原始數(shù)據(jù)集同時進(jìn)行數(shù)據(jù)處理。本文選擇極端梯度提升(XGBoost,extreme gradient boosting)算法首先對數(shù)據(jù)進(jìn)行降維,去除冗余數(shù)據(jù),選擇故障檢測階段輸入?yún)?shù)的最優(yōu)特征組合。最后,把處理后的數(shù)據(jù)分為訓(xùn)練集和測試集,進(jìn)行XGBoost故障檢測模型的訓(xùn)練,從而得到最優(yōu)的診斷結(jié)果。
表2 故障原因與KPI 的關(guān)聯(lián)
不同的網(wǎng)絡(luò)狀態(tài)有不同的特征,網(wǎng)絡(luò)故障診斷與預(yù)測模型必須確定不同的網(wǎng)絡(luò)狀態(tài)對應(yīng)的癥狀,以便對多個故障進(jìn)行識別。本文定義S=[KPI1,KPI2,KPI3,…,KPIm]表示不同網(wǎng)絡(luò)狀態(tài)的輸入向量,S是含有m個KPI 的向量;定義C={FC1,FC2,FC3,…,FCn}表示網(wǎng)絡(luò)的狀態(tài),如網(wǎng)絡(luò)正常工作或者出現(xiàn)某種故障。
從異構(gòu)無線網(wǎng)絡(luò)環(huán)境中采集的小樣本數(shù)據(jù)組成的輸入數(shù)據(jù)向量由被研究小區(qū)的所有相關(guān)的KPI 組成。根據(jù)診斷流程所需的粒度,可以使用不同的時間聚合級別(如小時、日、周、月等)收集KPI。
若在某段時間T出現(xiàn)網(wǎng)絡(luò)故障FCi,則這段時間的網(wǎng)絡(luò)狀態(tài)表示為
其中,KPIi指歸一化的第i個KPI,max(KPIi)指收集的數(shù)據(jù)中第i個KPI 出現(xiàn)的最大值。式(2)用于轉(zhuǎn)換特定指標(biāo)KPIi的動態(tài)范圍,僅考慮不在區(qū)間[0,1]的KPIi,其目標(biāo)是確保所有的變量都在期望的區(qū)間內(nèi)。
歸一化后的網(wǎng)絡(luò)狀態(tài)為
GAN 框架如圖3 所示,主要基于博弈論中的零和博弈。該框架必須具有2 個相互競爭的網(wǎng)絡(luò),并同時優(yōu)化其目標(biāo)。第一個網(wǎng)絡(luò)為生成器G,它在給定高斯噪聲或均勻噪聲的情況下輸出模擬樣本。第二個網(wǎng)絡(luò)為判別器D,將來自真實分布的樣本或由G生成的樣本輸入判別器D,D嘗試將給定樣本標(biāo)記為0(樣本來自生成器分布)或1(樣本來自真實數(shù)據(jù)分布)。迭代后,這種競爭將使2 個網(wǎng)絡(luò)都更好地完成任務(wù)。特別是生成器G,能夠產(chǎn)生可以欺騙人類的真實樣本。優(yōu)化的目標(biāo)函數(shù)為
圖2 基于GAN 的網(wǎng)絡(luò)故障診斷與預(yù)測模型
其中,pr表示異構(gòu)無線網(wǎng)絡(luò)收集的歸一化的真實數(shù)據(jù)的分布;pz表示輸入噪聲服從的分布;G(Z) 表示數(shù)據(jù)空間的映射;G表示一個由多層感知機(jī)表示的可微函數(shù);為標(biāo)量,表示來自真實數(shù)據(jù)分布而不是pz的概率。
圖3 GAN 框架
通過上述分析可知,GAN 中的G作為生成模型,不像傳統(tǒng)模型那樣需要十分嚴(yán)格的生成數(shù)據(jù)的表達(dá)式,避免了數(shù)據(jù)非常復(fù)雜導(dǎo)致的不可計算;同時,G本身也不需要進(jìn)行計算量龐大的求和計算。GAN 僅需要輸入一個服從一定規(guī)律的噪聲、一些真實數(shù)據(jù)、2 個可以逼近函數(shù)的網(wǎng)絡(luò)。通過生成器與判別器之間的不斷博弈,當(dāng)判別器趨于穩(wěn)定時,生成器獲得趨于真實數(shù)據(jù)分布的不同網(wǎng)絡(luò)狀態(tài)。
經(jīng)典的GAN 算法使真實分布和近似分布之間的JS 散度最小化。然而,JS 散度是不連續(xù)的,梯度在某些地方不可用。為了克服這個缺點(diǎn),Liu 等[13]提出用Wasserstein 距離代替JS 散度,WGAN 保證了梯度的可用性。鑒于Wasserstein 距離方程求解十分困難,WGAN 利用Kantorovich-Rubinstein 對偶性來簡化計算,同時為判別器引入一個基本約束來尋找1-Lipschitz 函數(shù)。在超參數(shù)控制的范圍內(nèi)對判別器的權(quán)值進(jìn)行裁剪以滿足約束條件。此外,Gulrajani 等[16]提出具有梯度懲罰的WGAN 算法,即WGAN-GP(WGAN with gradient penalty),它采用梯度懲罰來執(zhí)行1-Lipschitz 約束,而不是采用權(quán)值裁剪。本文采用WGAN-GP 產(chǎn)生模擬數(shù)據(jù)。優(yōu)化目標(biāo)如下
XGBoost[17]是基于梯度增強(qiáng)決策樹(GBDT,gradient boosting decision tree)[18]的改進(jìn)算法,在計算速度、泛化性能和可擴(kuò)展性等方面都得到了提升。GBDT 算法在訓(xùn)練的每次迭代中,都會在先前模型損失函數(shù)的梯度下降方向上建立新的決策樹模型,在構(gòu)造決策樹后對其進(jìn)行修剪。XGBoost在決策樹的構(gòu)造階段將正則化項加入損失函數(shù),如式(7)所示。
Ij定義為樣本的索引集,其值與葉節(jié)點(diǎn)j相關(guān)聯(lián)。
假設(shè)決策樹的結(jié)構(gòu)已經(jīng)確定,每個葉節(jié)點(diǎn)上的預(yù)測值可以通過使損失函數(shù)的導(dǎo)數(shù)為零得到,即
本文使用XGBoost 框架訓(xùn)練數(shù)據(jù),然后用訓(xùn)練后的模型預(yù)測某時間段的網(wǎng)絡(luò)狀態(tài),即為收集到的其他未知數(shù)據(jù)打上標(biāo)簽。此外,使用XGBoost 的另一個好處是,創(chuàng)建提升樹之后,可以為每個屬性獲得一個重要性評分。一般情況下,重要性評分衡量模型中某屬性的價值,以增強(qiáng)決策樹的構(gòu)建。屬性在模型中用于構(gòu)建決策樹的次數(shù)越多,就越重要。本文利用XGBoost 框架的特征重要性排序功能進(jìn)行數(shù)據(jù)的預(yù)處理,選出影響衡量網(wǎng)絡(luò)狀態(tài)的最相關(guān)的性能指標(biāo)。利用此算法可以對測試集的準(zhǔn)確性和模型復(fù)雜度進(jìn)行權(quán)衡,從而實現(xiàn)高效而可靠的網(wǎng)絡(luò)故障的檢測。
為了說明本文所提方法的有效性,采用OPNET 18.6 搭建仿真實驗環(huán)境,其網(wǎng)絡(luò)仿真參數(shù)設(shè)置如表3 所示。
仿真中主要設(shè)置了11 種網(wǎng)絡(luò)狀態(tài)類別,具體可分為為正常、干擾、覆蓋故障、硬件故障和傳輸故障五大類,其中,正常為{FC1};干擾分為上行干擾和下行干擾,即{FC2,FC3};覆蓋故障為{FC4};硬件故障分為4種不同基站故障,即{FC5,FC6,FC7,FC8};傳輸故障分為 3 種不同的鏈路故障,即{FC9,FC10,FC11} 。網(wǎng)絡(luò)狀態(tài)類別組成的集合C={FC1,FC2,FC3,…,FC11}。然后預(yù)先設(shè)置這些網(wǎng)絡(luò)狀態(tài)的發(fā)生時間以便人工產(chǎn)生數(shù)據(jù)標(biāo)簽,每次仿真時間設(shè)置為2 h,每種網(wǎng)絡(luò)狀態(tài)發(fā)生的時間為20 min。
表3 網(wǎng)絡(luò)仿真參數(shù)
利用本文提出的基于生成對抗網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)故障檢測與診斷的思想,在進(jìn)行數(shù)據(jù)處理以及故障檢測之前,利用WGAN-GP 算法對從異構(gòu)無線網(wǎng)絡(luò)環(huán)境中收集的各個網(wǎng)絡(luò)狀態(tài)下服從一定規(guī)律的小樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),從而得到各個網(wǎng)絡(luò)狀態(tài)下大量帶有標(biāo)記的模擬數(shù)據(jù)。對生成對抗網(wǎng)絡(luò)產(chǎn)生的模擬數(shù)據(jù)集與原始數(shù)據(jù)集同時進(jìn)行數(shù)據(jù)的處理,本文選擇XGBoost 算法首先對數(shù)據(jù)進(jìn)行降維,去除冗余數(shù)據(jù),把處理后的數(shù)據(jù)分為訓(xùn)練集和測試集,進(jìn)行XGBoost 故障檢測模型的訓(xùn)練。
實驗中分別基于原始小樣本數(shù)據(jù)和擴(kuò)充后數(shù)據(jù)集,利用XGBoost 算法進(jìn)行網(wǎng)絡(luò)故障的檢測與診斷,準(zhǔn)確率如圖4 所示。由圖4 可知,本文方法很大程度上提高了網(wǎng)絡(luò)故障診斷的準(zhǔn)確率,隨著迭代次數(shù)的增加,準(zhǔn)確率可達(dá)98.48%。
考慮節(jié)省網(wǎng)絡(luò)故障診斷時間,本文利用XGBoost 模型進(jìn)行特征的篩選,在保證正確率的基礎(chǔ)上,降低數(shù)據(jù)的維度,達(dá)到縮短網(wǎng)絡(luò)故障檢測時間的目的。利用XGBoost 模型對16 個KPI 進(jìn)行重要性排序,結(jié)果如圖5 所示。圖5 反映了16 個KPI在網(wǎng)絡(luò)故障診斷過程中所占的比重。
圖4 網(wǎng)絡(luò)故障診斷準(zhǔn)確率
圖5 特征重要性排序
基于特征重要性的排序進(jìn)行數(shù)據(jù)篩選,故障診斷準(zhǔn)確率如圖6 和表4 所示。結(jié)果表明,訓(xùn)練200次后,若特征全部保留,得到的診斷準(zhǔn)確率最高,為98.48%。對應(yīng)特征分別選取15 個和13 個時,診斷準(zhǔn)確率分別為98.22%和98.18%。這是由于特征選取個數(shù)的減少對診斷準(zhǔn)確率造成了影響,但是節(jié)省了網(wǎng)絡(luò)故障診斷時間,并且診斷準(zhǔn)確率并未隨特征的減少而大幅度降低。對測試集的診斷準(zhǔn)確率和模型復(fù)雜度進(jìn)行權(quán)衡,選取13 個特征時性能最好,根據(jù)圖5 的特征重要性的排序,最終從所有特征里選取RSRP、RSRQ、PD_UL、PD_DL、SNR_UL、SNR_DL、RRC、DCR、HO、HO_d、Throughput_UL、LER、Throughput_DL 進(jìn)行故障檢測與診斷,準(zhǔn)確率為98.18%。
從網(wǎng)絡(luò)故障診斷時間考慮,經(jīng)特征篩選后,訓(xùn)練模型的輸入?yún)?shù)的維度減少,模型的訓(xùn)練時間也相應(yīng)減少。故障診斷時間如圖7 所示,本文提出的經(jīng)特征篩選后進(jìn)行網(wǎng)絡(luò)故障診斷方法的診斷時間比未經(jīng)特征篩選的故障診斷方法短。
圖6 不同特征組合的故障診斷準(zhǔn)確率
表4 訓(xùn)練200 次時故障診斷準(zhǔn)確率
圖7 故障診斷時間
另外,本文基于樸素貝葉斯分類器、K 最近鄰(KNN,K-nearest neighbor)、決策樹、隨機(jī)森林等算法對異構(gòu)無線網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)故障進(jìn)行診斷,當(dāng)訓(xùn)練穩(wěn)定時,與本文算法進(jìn)行比較,從而驗證本文算法的優(yōu)越性。仿真結(jié)果如表5 所示。當(dāng)訓(xùn)練穩(wěn)定時,與其他算法相比,本文算法由于原始小樣本數(shù)據(jù)集得到擴(kuò)充,網(wǎng)絡(luò)故障診斷的準(zhǔn)確率得到提高,而且診斷時間并沒有因為數(shù)據(jù)量的增加而增加過多,與有些算法相比診斷時間更短。
表5 仿真結(jié)果對比
本文提出了一種適用于異構(gòu)無線網(wǎng)絡(luò)的基于生成對抗網(wǎng)絡(luò)的網(wǎng)絡(luò)故障檢測與診斷算法,利用生成對抗網(wǎng)絡(luò)思想,基于小樣本數(shù)據(jù)獲得大量可靠數(shù)據(jù)用于算法的訓(xùn)練,節(jié)省了人工標(biāo)注訓(xùn)練數(shù)據(jù)的時間。仿真結(jié)果表明,本文算法能夠?qū)崿F(xiàn)高效而可靠的網(wǎng)絡(luò)故障診斷,但是需要生成對抗網(wǎng)絡(luò)模型訓(xùn)練得非常好才能實現(xiàn)上述效果,而在訓(xùn)練過程中,誤差不可避免。因此,如何獲得準(zhǔn)確的生成對抗網(wǎng)絡(luò)模型值得進(jìn)一步探究。