曹 旭,曹瑞彤
(中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司 北京100033)
隨著通信技術(shù)的飛速發(fā)展,電信網(wǎng)絡(luò)在人們工作和生活中的作用越來(lái)越大,并從根本上改變了人們工作和生活的方式;同時(shí),隨著電信業(yè)務(wù)的不斷深入發(fā)展,人們對(duì)網(wǎng)絡(luò)的依賴(lài)性也不斷增大。然而,日益增長(zhǎng)的網(wǎng)絡(luò)規(guī)模、不斷更新的網(wǎng)絡(luò)設(shè)備以及不斷出現(xiàn)的新業(yè)務(wù),使得網(wǎng)絡(luò)出現(xiàn)故障的可能性大大增加,這給網(wǎng)絡(luò)管理工作帶來(lái)了全新的挑戰(zhàn)。
網(wǎng)絡(luò)管理的目的是通過(guò)對(duì)網(wǎng)絡(luò)設(shè)備運(yùn)行狀況的連續(xù)監(jiān)測(cè),及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中的異常情況,并對(duì)異常情況及時(shí)報(bào)警,提醒網(wǎng)管人員采取措施保證網(wǎng)絡(luò)正常運(yùn)行。然而,在實(shí)際網(wǎng)絡(luò)中,憑借網(wǎng)絡(luò)管理人員的經(jīng)驗(yàn)來(lái)分析網(wǎng)絡(luò)運(yùn)行狀況的方式已經(jīng)越來(lái)越難以滿(mǎn)足運(yùn)營(yíng)商的需求。隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,網(wǎng)管人員常常需要面對(duì)大量告警而無(wú)法確定網(wǎng)絡(luò)的真實(shí)故障。因此,迫切需要一種能夠?qū)W(wǎng)絡(luò)數(shù)據(jù)進(jìn)行智能處理的技術(shù),即網(wǎng)絡(luò)數(shù)據(jù)剛出現(xiàn)異常時(shí),便能夠自動(dòng)檢測(cè)出來(lái),使故障在真正發(fā)生之前被發(fā)現(xiàn),從而可以大大提升網(wǎng)絡(luò)管理人員的效率和網(wǎng)絡(luò)的總體性能。
在傳統(tǒng)的網(wǎng)絡(luò)管理過(guò)程中,只有當(dāng)網(wǎng)絡(luò)設(shè)備出現(xiàn)異常并上報(bào)告警后,才會(huì)由網(wǎng)絡(luò)管理人員解決問(wèn)題,這顯然是一種“響應(yīng)式”的處理過(guò)程,即“先出現(xiàn)問(wèn)題,再進(jìn)行處理”的網(wǎng)絡(luò)管理方式。然而,由于網(wǎng)絡(luò)管理人員看到告警后,需要一段時(shí)間來(lái)分析確定問(wèn)題才能采取措施,這種長(zhǎng)時(shí)間的故障處理過(guò)程可能給用戶(hù)和企業(yè)造成巨大的損失。
在網(wǎng)絡(luò)運(yùn)營(yíng)的實(shí)踐中,一些網(wǎng)絡(luò)設(shè)備的故障和網(wǎng)絡(luò)性能問(wèn)題在發(fā)生之前就會(huì)在網(wǎng)絡(luò)流量或性能參數(shù)中有所表現(xiàn),但由于這些信息淹沒(méi)在大量的數(shù)據(jù)中而沒(méi)有引起網(wǎng)絡(luò)管理者的重視。因此,通過(guò)大數(shù)據(jù)的方式挖掘和分析網(wǎng)絡(luò)故障先兆,將使得網(wǎng)管人員有更多的時(shí)間分析問(wèn)題、采取措施,避免出現(xiàn)更嚴(yán)重的故障,降低運(yùn)營(yíng)商和用戶(hù)的損失。以此為出發(fā)點(diǎn),提出了一種基于大數(shù)據(jù)思想發(fā)掘網(wǎng)絡(luò)數(shù)據(jù)內(nèi)部細(xì)節(jié)信息的方案,可實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)異常的及時(shí)發(fā)現(xiàn),從而更大程度地提升網(wǎng)絡(luò)可靠性。
網(wǎng)絡(luò)故障監(jiān)測(cè)是網(wǎng)絡(luò)管理的一項(xiàng)基本任務(wù),也是網(wǎng)絡(luò)管理人員的重要職責(zé)。網(wǎng)絡(luò)故障監(jiān)測(cè)的目的是提高網(wǎng)絡(luò)的可靠性,在用戶(hù)報(bào)告問(wèn)題之前診斷或解決網(wǎng)絡(luò)中的問(wèn)題并提供網(wǎng)絡(luò)規(guī)劃和網(wǎng)絡(luò)改造建議等。網(wǎng)絡(luò)故障監(jiān)測(cè)一般通過(guò)對(duì)網(wǎng)絡(luò)流量、設(shè)備性能等網(wǎng)絡(luò)參數(shù)的監(jiān)測(cè)來(lái)判斷網(wǎng)絡(luò)狀態(tài)和網(wǎng)絡(luò)的運(yùn)行情況。由于網(wǎng)絡(luò)故障或網(wǎng)絡(luò)性能問(wèn)題通常會(huì)造成巨大的損失,基于網(wǎng)絡(luò)參數(shù)實(shí)現(xiàn)準(zhǔn)確、可靠的網(wǎng)絡(luò)故障預(yù)測(cè)已經(jīng)成為運(yùn)營(yíng)商迫切希望解決的問(wèn)題。
基于網(wǎng)絡(luò)故障的因果關(guān)系進(jìn)行故障發(fā)現(xiàn)是一種直觀(guān)的分析方法,包括IBM公司在內(nèi)的大量企業(yè)和研究機(jī)構(gòu)都提出了基于這一思路的網(wǎng)絡(luò)故障發(fā)現(xiàn)方案[1,2],但這種方案需要對(duì)網(wǎng)絡(luò)故障成因和傳播模式進(jìn)行深入了解并建立模型。對(duì)于當(dāng)前日益復(fù)雜的網(wǎng)絡(luò),采用這種方案所需的資金和時(shí)間成本都很難讓運(yùn)營(yíng)商接受。
近年來(lái),隨著大數(shù)據(jù)技術(shù)的發(fā)展,大量基于觀(guān)測(cè)數(shù)據(jù)的故障預(yù)測(cè)和分析方法已經(jīng)被廣泛運(yùn)用到產(chǎn)品檢測(cè)、生產(chǎn)過(guò)程控制、質(zhì)量控制等領(lǐng)域,這類(lèi)分析方法無(wú)需事先對(duì)故障的產(chǎn)生和傳播建立復(fù)雜的模型,而只要通過(guò)基于統(tǒng)計(jì)學(xué)的分析就可以比較準(zhǔn)確地發(fā)現(xiàn)故障,本文將這些領(lǐng)域的研究成果引入網(wǎng)絡(luò)管理領(lǐng)域,以更好地提升網(wǎng)絡(luò)故障監(jiān)測(cè)的性能表現(xiàn)。
在基于觀(guān)測(cè)數(shù)據(jù)的網(wǎng)絡(luò)故障方案中,最簡(jiǎn)單和普遍使用的是基于閾值的監(jiān)測(cè)方法,即針對(duì)某個(gè)網(wǎng)絡(luò)參數(shù)預(yù)先設(shè)定一個(gè)閾值,故障監(jiān)測(cè)的任務(wù)就是監(jiān)測(cè)該參數(shù)是否超過(guò)了這一閾值。這種方法簡(jiǎn)單易行,是實(shí)際網(wǎng)絡(luò)管理中應(yīng)用最廣泛的方法,然而這種方法也存在兩個(gè)明顯的問(wèn)題:一方面,閾值的選取是憑借網(wǎng)絡(luò)管理人員的經(jīng)驗(yàn)確定的,其取值缺乏可靠的依據(jù),存在著較大的不確定性;另一方面,由于缺乏對(duì)閾值以下數(shù)據(jù)的處理,忽略了大量和網(wǎng)絡(luò)狀態(tài)有關(guān)的細(xì)節(jié)信息,如圖1所示。
圖1(a)顯示了一種網(wǎng)絡(luò)指標(biāo)平均值上移的異常,這類(lèi)情況的出現(xiàn)表明網(wǎng)絡(luò)中出現(xiàn)了某類(lèi)配置或業(yè)務(wù)異常,此時(shí)雖然網(wǎng)絡(luò)指標(biāo)沒(méi)有超過(guò)閾值,但隨著這一趨勢(shì)的不斷持續(xù),有極大可能引發(fā)網(wǎng)絡(luò)故障,因此應(yīng)該提前進(jìn)行處置。圖1(b)則顯示了一種突發(fā)異常,網(wǎng)絡(luò)參數(shù)突然的大幅度變化預(yù)示了網(wǎng)絡(luò)中的某種異常,如設(shè)備和網(wǎng)絡(luò)過(guò)載、線(xiàn)路異常等情況,這種情況的發(fā)生也需要引起網(wǎng)絡(luò)管理人員的注意。
為了彌補(bǔ)閾值方法的不足,盡可能地利用監(jiān)測(cè)到的網(wǎng)絡(luò)性能數(shù)據(jù)中的重要信息,需要加深對(duì)于網(wǎng)絡(luò)“異?!钡难芯俊T谶@方面,卡耐基梅隆大學(xué)的Maxion R A給出了網(wǎng)絡(luò)狀態(tài)“正常”和“異?!钡亩x。“正?!币馕吨铣R?guī)或典型的模式,而“異?!眲t意味著違反了這種規(guī)律,與期望的情形有一定的偏差。
為了對(duì)網(wǎng)絡(luò)狀態(tài)進(jìn)行定量分析,引入統(tǒng)計(jì)學(xué)理論,通過(guò)網(wǎng)絡(luò)參數(shù)的變化對(duì)網(wǎng)絡(luò)狀態(tài)進(jìn)行分析。與此同時(shí),對(duì)網(wǎng)絡(luò)參數(shù)的變化進(jìn)行如下假設(shè)。
·在一定的時(shí)間范圍內(nèi),所監(jiān)測(cè)到的網(wǎng)絡(luò)參數(shù)是平穩(wěn)的,即時(shí)刻t監(jiān)測(cè)到的網(wǎng)絡(luò)參數(shù)集Xt和時(shí)刻t+1監(jiān)測(cè)到的網(wǎng)絡(luò)參數(shù)集Xt+1有相同的分布。
·網(wǎng)絡(luò)參數(shù)滿(mǎn)足大數(shù)定律,即網(wǎng)絡(luò)參數(shù)每天的監(jiān)測(cè)值收斂于期望值,
基于上述假設(shè),給出網(wǎng)絡(luò)異常的統(tǒng)計(jì)學(xué)描述:網(wǎng)絡(luò)參數(shù)的統(tǒng)計(jì)量出現(xiàn)了“明顯”的偏差,也就是說(shuō),網(wǎng)絡(luò)異常必然會(huì)引起網(wǎng)絡(luò)參數(shù)在統(tǒng)計(jì)量上與正常情況的偏差。因此,發(fā)現(xiàn)異常的關(guān)鍵就是定量地對(duì)網(wǎng)絡(luò)參數(shù)偏差的“顯著性”進(jìn)行分析。在第3節(jié),本文將針對(duì)上述問(wèn)題進(jìn)行更加深入的討論和分析。
如前文所述,當(dāng)前的網(wǎng)絡(luò)管理系統(tǒng)普遍可以收集大量的網(wǎng)絡(luò)信息,而如何從大量的信息中自動(dòng)獲取維護(hù)網(wǎng)絡(luò)正常運(yùn)行的關(guān)鍵信息至關(guān)重要。網(wǎng)絡(luò)參數(shù)異常意味著即將或已經(jīng)發(fā)生某種網(wǎng)絡(luò)或設(shè)備故障。在網(wǎng)絡(luò)管理系統(tǒng)中,網(wǎng)絡(luò)參數(shù)會(huì)根據(jù)時(shí)間的先后順序進(jìn)行存儲(chǔ),形成網(wǎng)絡(luò)參數(shù)的時(shí)間序列,本文基于網(wǎng)絡(luò)管理系統(tǒng)的這一特點(diǎn),通過(guò)引入時(shí)間序列分析的方法展開(kāi)網(wǎng)絡(luò)故障預(yù)測(cè)的研究。
時(shí)間序列分析是一種基于動(dòng)態(tài)數(shù)據(jù)發(fā)掘內(nèi)在規(guī)律的統(tǒng)計(jì)分析方法,屬于統(tǒng)計(jì)學(xué)科的一個(gè)分支。其思想是根據(jù)有限長(zhǎng)度的歷史記錄建立精確反映系統(tǒng)內(nèi)在運(yùn)行規(guī)律的數(shù)學(xué)模型。在監(jiān)測(cè)獲得的網(wǎng)絡(luò)參數(shù)的時(shí)間序列中,可以認(rèn)為某一時(shí)刻t的網(wǎng)絡(luò)參數(shù)集Xt由其之前若干時(shí)刻的數(shù)據(jù)以及隨機(jī)干擾項(xiàng)所確定,即網(wǎng)絡(luò)參數(shù)表現(xiàn)出一定的記憶特性。因此,可以建立p階自回歸AR(p)模型:
其中,et是白噪聲,ω1,ω2,…,ωp表示此前各對(duì)應(yīng)時(shí)刻對(duì)當(dāng)前時(shí)刻的影響強(qiáng)度。式(1)表示的網(wǎng)絡(luò)參數(shù)集帶有p階的記憶性,當(dāng)網(wǎng)絡(luò)狀態(tài)發(fā)生變化或者產(chǎn)生“異?!睍r(shí),上述關(guān)系會(huì)出現(xiàn)較大的偏差,具體體現(xiàn)為et的變化。因此,對(duì)于et的跟蹤和分析是判斷網(wǎng)絡(luò)狀態(tài)、預(yù)測(cè)網(wǎng)絡(luò)異常的關(guān)鍵所在。
上述任務(wù)采用統(tǒng)計(jì)學(xué)方式描述:可以視為一個(gè)假設(shè)檢驗(yàn)的問(wèn)題,即設(shè)e1,e2,…,et服從正態(tài)分布H,其均值和方差為μ、σ2,設(shè)E(et+n)=μ+w,則網(wǎng)絡(luò)異常需要判斷et+n是否與分布H無(wú)差,即w是否為0。e1,e2,…,et的概率密度函數(shù)(PDF)可以寫(xiě)作:
因此,μ、σ2的最大似然估計(jì)是:
若網(wǎng)絡(luò)可能存在異常,則對(duì)于et+n,其μ、σ2應(yīng)該寫(xiě)為:
于是,采用似然比檢驗(yàn)的假設(shè)檢驗(yàn)方式可以計(jì)算網(wǎng)絡(luò)存在異常的似然比,似然比為:
因此,可以通過(guò)不斷對(duì)似然比 進(jìn)行監(jiān)測(cè)獲得對(duì)網(wǎng)絡(luò)狀態(tài)的判斷。該方法的優(yōu)點(diǎn)是所需數(shù)據(jù)量較少,計(jì)算復(fù)雜度較低,可以在保障一定可靠性的情況下快速對(duì)網(wǎng)絡(luò)當(dāng)前的狀況進(jìn)行分析判斷,并對(duì)于網(wǎng)絡(luò)可能出現(xiàn)的故障進(jìn)行預(yù)先判斷?;谠摲椒▽?duì)網(wǎng)絡(luò)管理系統(tǒng)進(jìn)行升級(jí),可以在充分利用運(yùn)營(yíng)商現(xiàn)有系統(tǒng)的前提下大大提升網(wǎng)絡(luò)故障處理的效率。
如前所述,利用對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行時(shí)間序列分析可以更好地提升網(wǎng)絡(luò)管理人員對(duì)于網(wǎng)絡(luò)異常的發(fā)現(xiàn)效率。網(wǎng)絡(luò)異常預(yù)警系統(tǒng)從對(duì)網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)采集開(kāi)始,通過(guò)不斷對(duì)采集到的數(shù)據(jù)進(jìn)行時(shí)間序列分析,就可能在故障發(fā)生前實(shí)現(xiàn)對(duì)故障的提前預(yù)測(cè),網(wǎng)絡(luò)異常預(yù)警系統(tǒng)的系統(tǒng)架構(gòu)如圖2所示。
在對(duì)網(wǎng)絡(luò)進(jìn)行異常預(yù)警時(shí),一個(gè)關(guān)鍵的步驟是確定模型的參數(shù)。以某骨干網(wǎng)絡(luò)節(jié)點(diǎn)的網(wǎng)絡(luò)流量數(shù)據(jù)為例,說(shuō)明系統(tǒng)的實(shí)現(xiàn)原理。網(wǎng)絡(luò)正常情況下在某個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)監(jiān)測(cè)到的網(wǎng)絡(luò)流量數(shù)據(jù)變化情況如圖3所示。網(wǎng)絡(luò)異常預(yù)警系統(tǒng)的任務(wù)就是首先建立網(wǎng)絡(luò)正常情況的模型,發(fā)現(xiàn)網(wǎng)絡(luò)參數(shù)偏離這一模型后,則產(chǎn)生異常報(bào)警。
采用AR模型對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量進(jìn)行建模,本例中擬采用AR(2)模型對(duì)數(shù)據(jù)流量進(jìn)行建模。根據(jù)統(tǒng)計(jì)學(xué)相關(guān)理論,AR(2)模型滿(mǎn)足平穩(wěn)性的要求是:
經(jīng)過(guò)AR(2)模型擬合,對(duì)于上述觀(guān)測(cè)數(shù)據(jù)的AR(2)模擬結(jié)果可以滿(mǎn)足平穩(wěn)性要求。如上文所述,對(duì)觀(guān)測(cè)數(shù)據(jù)采用AR(2)模型擬合后的殘差et是網(wǎng)絡(luò)故障分析的關(guān)鍵,觀(guān)測(cè)數(shù)據(jù)經(jīng)過(guò)處理后的殘差結(jié)果如圖4所示。
為了更進(jìn)一步驗(yàn)證模型的準(zhǔn)確性,采用統(tǒng)計(jì)學(xué)中的Q-Q圖(quintile-quintile plot)對(duì)殘差進(jìn)行分析。若網(wǎng)絡(luò)不存在異常,則采集到的數(shù)據(jù)與模型相符合,計(jì)算出來(lái)的殘差符合正態(tài)分布,此時(shí)殘差結(jié)果在Q-Q圖上呈線(xiàn)性;反之,則不成立。將圖4的結(jié)果用Q-Q圖進(jìn)行呈現(xiàn),如圖5所示。
從圖5中可以看到,樣本經(jīng)過(guò)處理后的殘差呈現(xiàn)出較強(qiáng)的線(xiàn)性特點(diǎn),基本服從正態(tài)分布,因此采樣數(shù)據(jù)不含網(wǎng)絡(luò)異常數(shù)據(jù)。這一結(jié)果也從一個(gè)方面證明了本文所提方法的有效性。與此類(lèi)似,網(wǎng)絡(luò)的異常檢測(cè)則是基于對(duì)采樣數(shù)據(jù)殘差偏離正態(tài)分布的情況實(shí)現(xiàn)的,由于其判別過(guò)程與上述流程類(lèi)似,且異常產(chǎn)生的表現(xiàn)多種多樣,本文不再累述。
實(shí)際上,運(yùn)營(yíng)商對(duì)網(wǎng)絡(luò)異常預(yù)警的需求不僅是盡可能準(zhǔn)確地檢查出網(wǎng)絡(luò)中可能的故障,同時(shí)還要求對(duì)于非故障錯(cuò)誤判斷的虛警率盡可能小。對(duì)于網(wǎng)絡(luò)故障預(yù)警系統(tǒng)的性能判斷也應(yīng)該全面考慮上述兩點(diǎn)需求。本文以某骨干網(wǎng)一周的監(jiān)測(cè)和報(bào)警的歷史數(shù)據(jù)為基礎(chǔ),將歷史數(shù)據(jù)輸入本文所提出的系統(tǒng)來(lái)驗(yàn)證該方案的可行性,其結(jié)果判斷通過(guò)對(duì)比告警處理的工單來(lái)確定。對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)分析,并通過(guò)ROC曲線(xiàn)(receiver operating characteristic curve)進(jìn)行呈現(xiàn),結(jié)果如圖6所示。
從圖6可以看到,本文所提出的故障預(yù)警方案不僅故障判斷總體正確率明顯高于傳統(tǒng)的閾值方案,同時(shí)虛警率的表現(xiàn)也好于傳統(tǒng)的閾值方案。雖然,采用本文所提算法在一定程度上提升了系統(tǒng)的計(jì)算復(fù)雜度,然而試驗(yàn)表明,采用本文所提方案可以將故障檢測(cè)準(zhǔn)確率提升到90%以上。這種性能提升顯示了本文所提方案具有一定的使用價(jià)值,對(duì)該算法進(jìn)行進(jìn)一步改進(jìn)和驗(yàn)證將是筆者未來(lái)工作的重要方向。
隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大和通信技術(shù)的發(fā)展,網(wǎng)絡(luò)管理工作也面臨著越來(lái)越多的挑戰(zhàn)。本文就網(wǎng)絡(luò)故障的預(yù)測(cè)和監(jiān)測(cè)方法進(jìn)行了研究,希望基于大數(shù)據(jù)的思想,充分挖掘蘊(yùn)含在大量網(wǎng)絡(luò)數(shù)據(jù)中的有用信息,并將之用于網(wǎng)絡(luò)故障發(fā)現(xiàn)和預(yù)測(cè)。從本文的結(jié)論可以看到,大數(shù)據(jù)和網(wǎng)絡(luò)管理方法的結(jié)合已經(jīng)顯現(xiàn)出越來(lái)越大的潛力,隨著兩者結(jié)合的不斷深入,必將為未來(lái)網(wǎng)絡(luò)管理的發(fā)展帶來(lái)更多的突破。
1 Hanemann A,Sailer M,Sehmitz D.Towards a framework for it service fault management.Proceedings of the European University Information Systems Conference(EUNIS2005),Manehester,England,2010
2 Steindler M,Sethi A S.Probabilities fault diagnosis in communication systems through incremental hypothesis updating.Computer Networks,2011,45(4):537~562
3 Box E P,Jenkins G M,Reinsel G C.時(shí)間序列分析—預(yù)測(cè)與控制.顧嵐,范金減譯.北京:中國(guó)統(tǒng)計(jì)出版社,2011
4 Basu S,Mukherjee A,Klivansky S.Time series models for internet traffic.http://hdl.handle.net/1853/6696,1996
5 Frost V,Melamed B.Traffic modeling for telecommunications networks.IEEE Communication Magazine,2004,32(3):70~81