◆黃日新 劉沙 邱遠(yuǎn)興 劉信彬
基于大數(shù)據(jù)自動(dòng)學(xué)習(xí)故障預(yù)警及定位分析
◆黃日新 劉沙 邱遠(yuǎn)興 劉信彬
(中國(guó)煙草總公司福建省公司 福建 350001)
運(yùn)用大數(shù)據(jù)分析技術(shù)建立網(wǎng)絡(luò)及應(yīng)用性能分析指標(biāo)集與分析海量告警,結(jié)合傳統(tǒng)的運(yùn)維模式,將性能指標(biāo)與告警通過(guò)算法從時(shí)間、空間、業(yè)務(wù)拓?fù)涞榷鄠€(gè)維度關(guān)聯(lián)起來(lái),對(duì)網(wǎng)絡(luò)及信息化系統(tǒng)服務(wù)質(zhì)量評(píng)估、運(yùn)行狀態(tài)監(jiān)測(cè)、故障預(yù)警、網(wǎng)絡(luò)安全分析與定位已是目前行業(yè)信息化服務(wù)質(zhì)量保障的必然趨勢(shì)。做好對(duì)出入網(wǎng)流量的監(jiān)測(cè)和分析,信息系統(tǒng)服務(wù)質(zhì)量評(píng)估,加強(qiáng)數(shù)據(jù)安全、病毒防范、故障預(yù)警與定位等工作,防患于未然。以提升行業(yè)信息化建設(shè)的實(shí)效性,透析信息化系統(tǒng)運(yùn)行態(tài)勢(shì),保障系統(tǒng)持久常態(tài)化運(yùn)行,提升服務(wù)質(zhì)量與用戶體驗(yàn)。
大數(shù)據(jù)分析;自動(dòng)學(xué)習(xí);故障預(yù)警;定位分析;網(wǎng)絡(luò)監(jiān)測(cè);關(guān)聯(lián)分析
近年,行業(yè)信息化建設(shè)了眾多的業(yè)務(wù)系統(tǒng),有力地支撐了各項(xiàng)業(yè)務(wù)應(yīng)用。同時(shí),信息系統(tǒng)服務(wù)繁多、部署拓?fù)鋸?fù)雜、業(yè)務(wù)關(guān)聯(lián)多,數(shù)據(jù)傳輸共享網(wǎng)絡(luò)傳輸鏈路,存在網(wǎng)絡(luò)業(yè)務(wù)服務(wù)質(zhì)量下滑,故障難以診斷和排查等問(wèn)題。
采用大數(shù)據(jù)自動(dòng)學(xué)習(xí)分析技術(shù)優(yōu)化信息系統(tǒng)業(yè)務(wù)可用性,通過(guò)對(duì)業(yè)務(wù)信息網(wǎng)絡(luò)數(shù)據(jù)流的分析梳理,實(shí)時(shí)檢測(cè)全網(wǎng)各業(yè)務(wù)系統(tǒng)服務(wù)質(zhì)量,及時(shí)發(fā)現(xiàn)業(yè)務(wù)服務(wù)故障,有效診斷各業(yè)務(wù)故障點(diǎn),指導(dǎo)業(yè)務(wù)系統(tǒng)故障的排查,提升對(duì)網(wǎng)絡(luò)中復(fù)雜業(yè)務(wù)問(wèn)題的快速界定,以及故障處理效率。
運(yùn)用被動(dòng)方式對(duì)業(yè)務(wù)應(yīng)用系統(tǒng)網(wǎng)絡(luò)通信數(shù)據(jù)進(jìn)行實(shí)時(shí)采集分析,分析物理層、鏈路層、網(wǎng)絡(luò)層、傳輸層、應(yīng)用層五層網(wǎng)絡(luò)模型中終端用戶訪問(wèn)業(yè)務(wù)應(yīng)用的事務(wù)過(guò)程,通過(guò)硬件對(duì)事務(wù)會(huì)話過(guò)程中的各個(gè)階段打上時(shí)間戳標(biāo)記,統(tǒng)計(jì)記錄事務(wù)過(guò)程中的狀態(tài)信息,并進(jìn)行計(jì)算。從而建立業(yè)務(wù)系統(tǒng)服務(wù)質(zhì)量關(guān)鍵指標(biāo)集,具體包括兩級(jí)指標(biāo),一級(jí)指標(biāo)為基礎(chǔ)指標(biāo),通過(guò)硬件直接對(duì)網(wǎng)絡(luò)業(yè)務(wù)流采集檢測(cè),二級(jí)指標(biāo)是在一級(jí)的基礎(chǔ)上進(jìn)行統(tǒng)計(jì)和自學(xué)習(xí)分析提取的。
一級(jí)指標(biāo)具體包括:
網(wǎng)絡(luò)質(zhì)量關(guān)鍵指標(biāo):初始網(wǎng)絡(luò)延時(shí)(到服務(wù)端)、初始網(wǎng)絡(luò)延時(shí)(到客戶端)、重傳次數(shù)、載荷吞吐量、吞吐量收發(fā)、亂序、各主機(jī)流量占用、網(wǎng)絡(luò)利用率、傳輸延遲、服務(wù)器與主機(jī)之間發(fā)送的數(shù)據(jù)包、丟包率等,并形成對(duì)應(yīng)的趨勢(shì)圖;
應(yīng)用質(zhì)量關(guān)鍵指標(biāo):數(shù)據(jù)傳輸時(shí)間、連接建立時(shí)間、連接請(qǐng)求數(shù)、各個(gè)服務(wù)器的交易時(shí)間、子網(wǎng)組(自定義)響應(yīng)時(shí)間、服務(wù)器響應(yīng)時(shí)間、應(yīng)用響應(yīng)時(shí)間、同一IP連接次數(shù)等,并形成對(duì)應(yīng)的趨勢(shì)圖。
二級(jí)指標(biāo)包括業(yè)務(wù)的故障診斷指標(biāo)、危險(xiǎn)預(yù)警指標(biāo)、安全檢查指標(biāo)。二級(jí)指標(biāo)是在一級(jí)指標(biāo)基礎(chǔ)上進(jìn)行構(gòu)建的,每種二級(jí)指標(biāo)通過(guò)分別對(duì)其相對(duì)應(yīng)的一級(jí)指標(biāo)進(jìn)行聚類,并將聚類后的結(jié)果進(jìn)行關(guān)聯(lián)分析,得出該二級(jí)指標(biāo)是否屬于正?;€標(biāo)準(zhǔn)。
故障診斷指標(biāo):通過(guò)對(duì)該指標(biāo)進(jìn)行分析能夠排查出系統(tǒng)中具體業(yè)務(wù)出現(xiàn)故障的位置,例如某個(gè)業(yè)務(wù)服務(wù)由于載荷過(guò)大而停止工作等,針對(duì)此類問(wèn)題通過(guò)各類業(yè)務(wù)服務(wù)協(xié)議具體分析,建立故障樣本表及故障網(wǎng)絡(luò)模型,形成故障定位規(guī)則集指標(biāo)。該指標(biāo)相對(duì)應(yīng)的一級(jí)指標(biāo)包括具體業(yè)務(wù)分類的丟包率、延遲時(shí)間、載荷吞吐量,最慢應(yīng)用、最慢服務(wù)器、最慢子網(wǎng)組(自定義)、流量占用最大主機(jī)等;
危險(xiǎn)預(yù)警指標(biāo):該指標(biāo)相對(duì)應(yīng)的一級(jí)指標(biāo)大致為基于某業(yè)務(wù)分類的網(wǎng)絡(luò)響應(yīng)時(shí)間、服務(wù)器響應(yīng)時(shí)間、應(yīng)用響應(yīng)時(shí)間、數(shù)據(jù)傳輸時(shí)間、重傳次數(shù)、網(wǎng)絡(luò)利用率、傳輸延遲、丟包率等;
實(shí)時(shí)告警指標(biāo)(也叫安全檢查指標(biāo)):該指標(biāo)可以監(jiān)測(cè)出系統(tǒng)基于某業(yè)務(wù)是否受到攻擊,例如DDoS攻擊、ARP欺騙等,并對(duì)部分攻擊行為進(jìn)行預(yù)警。該指標(biāo)項(xiàng)對(duì)應(yīng)的一級(jí)指標(biāo)大致針對(duì)某業(yè)務(wù)的同一IP請(qǐng)求連接系統(tǒng)次數(shù)、服務(wù)器與主機(jī)之間發(fā)送的數(shù)據(jù)包數(shù)目,以及各主機(jī)流量占用、丟包率、網(wǎng)絡(luò)利用率等。
根據(jù)一級(jí)指標(biāo)集,采用混合流模型來(lái)計(jì)算分析業(yè)務(wù)流,建立通信流量的服務(wù)特征,以更全面地展示復(fù)雜網(wǎng)絡(luò)中的流量特征和預(yù)測(cè)網(wǎng)絡(luò)流量,得到故障診斷指標(biāo)、危險(xiǎn)預(yù)警指標(biāo)、安全檢查指標(biāo)等二級(jí)指標(biāo)集。具體而言,在傳統(tǒng)的數(shù)據(jù)模型基礎(chǔ)上,根據(jù)網(wǎng)絡(luò)流量的多個(gè)表征,提出多模型聚合形成混合流模型來(lái)檢測(cè)業(yè)務(wù)流規(guī)律,結(jié)合多個(gè)模型的優(yōu)點(diǎn),確保對(duì)故障的有效監(jiān)測(cè)。
通過(guò)采集網(wǎng)絡(luò)通信數(shù)據(jù),自動(dòng)分析識(shí)別或自定義業(yè)務(wù)應(yīng)用,并梳理歸類,結(jié)合指標(biāo)規(guī)則生成指標(biāo)級(jí)數(shù)據(jù),采用傳統(tǒng)統(tǒng)計(jì)學(xué),建立基線與趨勢(shì)模型。運(yùn)用大數(shù)據(jù)分析技術(shù)建立傳統(tǒng)分析模型與二級(jí)指標(biāo)模型以及專家知識(shí)形成混合的故障診斷預(yù)警模型,從而排查具體業(yè)務(wù)出現(xiàn)故障的原因與位置。
傳統(tǒng)的關(guān)聯(lián)告警工作分為七個(gè)步驟,如圖1所示。其中前四個(gè)步驟又稱為關(guān)聯(lián)規(guī)則挖掘階段,再引入大數(shù)據(jù)的分析和挖掘,由傳統(tǒng)人工分析告警、制定并驗(yàn)證關(guān)聯(lián)規(guī)則升級(jí)為大數(shù)據(jù)分析挖掘告警間關(guān)聯(lián)關(guān)系并驗(yàn)證,即采用對(duì)告警特征值相關(guān)矢量的設(shè)定,自動(dòng)在海量告警中將符合關(guān)聯(lián)閾值的告警關(guān)聯(lián)呈現(xiàn),縮短故障定位時(shí)間,實(shí)現(xiàn)告警關(guān)聯(lián)的自動(dòng)化、智能化。
采用大數(shù)據(jù)分析算法分析告警間的關(guān)聯(lián)性是告警關(guān)聯(lián)工作的重要組成部分,將告警間的關(guān)系抽象為“距離”,并通過(guò)告警自身特性與參數(shù)將“距離”表示出來(lái),即可知曉告警之間的關(guān)聯(lián)性,并將其分類統(tǒng)計(jì)。通過(guò)某告警與其他同類告警的距離和,可得知其相關(guān)性以及同類告警內(nèi)的根因告警。
圖1 關(guān)聯(lián)告警的七步驟
(1)告警關(guān)聯(lián)分類算法
告警自身的特征性參數(shù)很多,在眾多參數(shù)中最能表征告警特性的為“告警時(shí)間”與“告警網(wǎng)元”,因此可用“時(shí)間”和“網(wǎng)元”兩個(gè)特征參數(shù)來(lái)表征告警之間的“距離”?!熬嚯x”在一定范圍內(nèi)的告警可歸為一類告警。定義告警g1與告警g2之間的距離為d(g1,g2)=?tdt(t1,t2)+?nedne(ne1,ne2)。其中,d(g1,g2)為告警g1與告警g2之間的距離,dt(t1,t2)為告警g1和g2之間的間隔時(shí)間,dne(ne1,ne2)為告警g1和g2之間的網(wǎng)元距離,?t與?ne為關(guān)聯(lián)系數(shù)。定義t為告警g1和g2之間的時(shí)間差,T為經(jīng)過(guò)優(yōu)化設(shè)定的時(shí)間差閾值。當(dāng)t ≤ T時(shí),dt(t1,t2)=0,當(dāng)t>T時(shí),dt(t1,t2)=1。由上述公式可知,“時(shí)間距離”越小,告警g1和g2之間的相關(guān)性越強(qiáng)。同理定義{NE}為一個(gè)網(wǎng)元集,在同一網(wǎng)元集內(nèi)的網(wǎng)元強(qiáng)相關(guān),若ne1和ne2在同一網(wǎng)元集內(nèi),則dne(ne1,ne2)=0,否則dne(ne1,ne2)=1。通過(guò)上述定義可以得到,兩告警發(fā)生時(shí)間間隔越短、在物理或邏輯拓?fù)渖衔恢迷浇?,兩告警之間的“距離”越近。對(duì)于“時(shí)間距離”和“網(wǎng)元距離”在閾值外的告警,若經(jīng)過(guò)專家研判確實(shí)相關(guān),則可通過(guò)調(diào)整關(guān)聯(lián)系數(shù)?t與?ne來(lái)提升公式的準(zhǔn)確性,并反復(fù)驗(yàn)證。
(2)同類告警中根因告警算法
定義一個(gè)具有告警相關(guān)性的告警集合{g}={g1、g2、g3、……gn}。定義gi該集合內(nèi)告警與其他告警的距離和為di(gi,g),則d(gi,g)= Σj n =1{d(gi,gj)}。通過(guò)專家經(jīng)驗(yàn)可知在一個(gè)告警集合內(nèi),若其中一個(gè)告警與其他告警的相關(guān)性最強(qiáng),則該告警應(yīng)為該集合內(nèi)的根告警,即其他告警應(yīng)為該告警導(dǎo)致。因此若:告警gθ為告警集合{g}內(nèi)的根因告警,按照先分類再研判根因的順序,當(dāng)新的告警產(chǎn)生后,先判斷該告警是否可列入到告警集合{g}內(nèi),若符合“告警距離”要求,則再迭代計(jì)算該告警的距離和;若不符合其要求,則與其他告警集合進(jìn)對(duì)比,或?qū)⑵淞袨橐粋€(gè)新的告警集合。
(3)關(guān)聯(lián)結(jié)果呈現(xiàn)及自動(dòng)預(yù)處理
告警關(guān)聯(lián)的意義是將同一類故障告警進(jìn)行匯總并分析根因告警,協(xié)助運(yùn)維人員快速準(zhǔn)確地定位故障并處理,關(guān)聯(lián)結(jié)果的呈現(xiàn)及第一時(shí)間進(jìn)行故障預(yù)處理是重要的一個(gè)部分。預(yù)處理目的是可用指令修復(fù)的告警,對(duì)于不能通過(guò)指令修復(fù)的告警,通過(guò)指令查詢?yōu)檫\(yùn)維人員提供第一輔助信息。通過(guò)上述算法得到根因告警后,利用告警預(yù)處理系統(tǒng)自動(dòng)預(yù)處理。將各專業(yè)不同廠家、網(wǎng)元、告警的處理要求編寫成腳本,根據(jù)不同廠家的告警標(biāo)題匹配相應(yīng)的腳本自動(dòng)預(yù)處理,預(yù)處理后回傳指令執(zhí)行結(jié)果,若需派單可將其展示于工單中。
通過(guò)基于大數(shù)據(jù)的故障診斷模型與智能告警分析方法,形成高效精準(zhǔn)的、區(qū)分業(yè)務(wù)的、服務(wù)質(zhì)量指標(biāo)集的采集及故障診斷預(yù)警模型;提高故障預(yù)警及定位分析能力。
建立標(biāo)準(zhǔn)體系。通過(guò)對(duì)承載業(yè)務(wù)的網(wǎng)絡(luò)流的梳理和統(tǒng)計(jì)分析,建立并標(biāo)準(zhǔn)化行業(yè)相關(guān)業(yè)務(wù)服務(wù)質(zhì)量流檢測(cè)指標(biāo)體系,為各類業(yè)務(wù)的運(yùn)行檢測(cè)、故障發(fā)現(xiàn)及預(yù)警提供指導(dǎo)依據(jù)。
提升業(yè)務(wù)服務(wù)質(zhì)量。通過(guò)對(duì)業(yè)務(wù)服務(wù)可用性的監(jiān)控,為信息資源管理及服務(wù)平臺(tái)提供保障,同時(shí)可以對(duì)后繼信息系統(tǒng)建設(shè)過(guò)程中的業(yè)務(wù)系統(tǒng)合理配置提供指導(dǎo),對(duì)業(yè)務(wù)系統(tǒng)的創(chuàng)建、使用和退出提供指導(dǎo),有助于提升服務(wù)質(zhì)量和客戶滿意度。
提高企業(yè)效益。通過(guò)對(duì)業(yè)務(wù)服務(wù)可用性的提升,可以合理整合網(wǎng)絡(luò)資源的使用,降低信息系統(tǒng)的建設(shè)成本和運(yùn)營(yíng)成本,提高設(shè)備利用率,減少多業(yè)務(wù)系統(tǒng)在接口項(xiàng)目建設(shè)中重復(fù)投資,提高企業(yè)效益。
指導(dǎo)以后項(xiàng)目的建設(shè)。結(jié)合信息系統(tǒng)項(xiàng)目建設(shè),在信息采集、傳輸、交換、存儲(chǔ)、處理和共享等環(huán)節(jié)中,以業(yè)務(wù)可用性為指導(dǎo)進(jìn)行優(yōu)化配置。
[1]李棟.大數(shù)據(jù)分析在網(wǎng)絡(luò)監(jiān)控中的實(shí)現(xiàn)與應(yīng)用[J].通信管理與技術(shù),2020(04):44-46.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年2期