滿都拉
(內(nèi)蒙古電力培訓(xùn)中心,內(nèi)蒙古 呼和浩特 010011)
隨著SDN技術(shù)的快速發(fā)展和應(yīng)用范圍的增加,采用SDN構(gòu)建的通信網(wǎng)越來(lái)越多。采用SDN技術(shù)可以實(shí)現(xiàn)數(shù)據(jù)控制和數(shù)據(jù)轉(zhuǎn)發(fā)功能的分離,并通過(guò)可編程技術(shù)極大地提升網(wǎng)絡(luò)建設(shè)和運(yùn)營(yíng)的效率[1]。SDN技術(shù)給網(wǎng)絡(luò)帶來(lái)資源利用率提升的同時(shí),也給網(wǎng)絡(luò)故障管理帶來(lái)了新的挑戰(zhàn)[2]。為解決故障決策算法性能低的問(wèn)題,Xia等[3]提出采用層次分析法提高網(wǎng)絡(luò)決策的準(zhǔn)確率。Xu等[4]提出采用K均值近鄰算法對(duì)網(wǎng)絡(luò)流量進(jìn)行監(jiān)測(cè),為維護(hù)人員提供決策依據(jù)。Gavrilut等[5]提出采用音視頻流和時(shí)間敏感流的聯(lián)合路由策略,提升網(wǎng)絡(luò)的服務(wù)質(zhì)量。Novaes等[6]提出采用長(zhǎng)短期記憶對(duì)網(wǎng)絡(luò)流量進(jìn)行預(yù)判,提高異常事件的預(yù)測(cè)準(zhǔn)確率。Novaes等[7]提出基于生成對(duì)抗網(wǎng)絡(luò)的網(wǎng)絡(luò)流量檢測(cè)機(jī)制,提升算法對(duì)網(wǎng)絡(luò)環(huán)境的適應(yīng)性。Borgiani等[8]提出采用網(wǎng)絡(luò)劃分的策略,解決大規(guī)模場(chǎng)景中終端監(jiān)測(cè)效率低的問(wèn)題。
通過(guò)對(duì)已有研究分析可知,為提升網(wǎng)絡(luò)服務(wù)質(zhì)量,網(wǎng)絡(luò)故障管理領(lǐng)域已經(jīng)取得較多的研究成果。但是,隨著網(wǎng)絡(luò)攻擊數(shù)量和類型的增加,網(wǎng)絡(luò)故障管理領(lǐng)域存在的問(wèn)題也逐漸增加。為解決網(wǎng)絡(luò)攻擊導(dǎo)致故障決策機(jī)制的安全性低、效率低的問(wèn)題,本文提出了基于網(wǎng)絡(luò)特征的安全高效通信網(wǎng)故障決策機(jī)制。在性能分析環(huán)節(jié),驗(yàn)證了本文提出的故障決策機(jī)制在故障管理決策機(jī)制的安全和效率兩個(gè)維度上具有較好的性能。
為了保證提出的故障決策機(jī)制符合網(wǎng)絡(luò)環(huán)境和適應(yīng)網(wǎng)絡(luò)運(yùn)維需求,本文首先對(duì)SDN環(huán)境下的故障管理平臺(tái)進(jìn)行構(gòu)建。根據(jù)網(wǎng)絡(luò)環(huán)境特點(diǎn),本文構(gòu)建的故障管理平臺(tái)架構(gòu)如圖1所示。該架構(gòu)包括故障決策平臺(tái)、全局控制器、SDN控制器、轉(zhuǎn)發(fā)器4種類型的設(shè)備。其中,故障決策平臺(tái)的設(shè)計(jì)是本文的主要工作。因?yàn)楣收蠜Q策平臺(tái)需要與全局控制器、SDN控制器、轉(zhuǎn)發(fā)器3種類型的設(shè)備進(jìn)行對(duì)接,所以需要滿足特定的功能需要。詳細(xì)的功能需求在決策機(jī)制的設(shè)計(jì)過(guò)程中進(jìn)行描述。故障決策平臺(tái)需要實(shí)現(xiàn)的功能包括故障預(yù)測(cè)、故障定位、故障恢復(fù)。首先,在故障預(yù)測(cè)方面,故障決策平臺(tái)通過(guò)對(duì)網(wǎng)絡(luò)運(yùn)營(yíng)數(shù)據(jù)的分析,實(shí)現(xiàn)故障預(yù)測(cè)。其次,在故障定位方面,故障決策平臺(tái)通過(guò)對(duì)告警數(shù)據(jù)分析,實(shí)現(xiàn)故障定位。最后,在故障恢復(fù)方面,故障決策平臺(tái)根據(jù)故障預(yù)測(cè)和故障定位結(jié)果,實(shí)現(xiàn)故障恢復(fù)。因?yàn)榫W(wǎng)絡(luò)具有分布式架構(gòu)的特點(diǎn),故障決策使用算法的模型需要多方協(xié)作。
圖1 故障管理平臺(tái)架構(gòu)
基于故障管理平臺(tái)的架構(gòu),以保障故障決策機(jī)制的安全性和高效率為目標(biāo),本文設(shè)計(jì)了通信網(wǎng)故障決策機(jī)制,具體流程如圖2所示,主要包括創(chuàng)建安全的數(shù)據(jù)通信通道、監(jiān)測(cè)告警數(shù)據(jù)、監(jiān)測(cè)異常數(shù)據(jù)、啟動(dòng)故障定位和故障預(yù)測(cè)機(jī)制、啟動(dòng)故障恢復(fù)機(jī)制5個(gè)步驟。下面對(duì)各個(gè)步驟進(jìn)行詳細(xì)描述。
圖2 故障決策機(jī)制的流程
故障管理是決定網(wǎng)絡(luò)服務(wù)質(zhì)量的關(guān)鍵工作,因此故障管理中涉及的數(shù)據(jù)安全是故障管理工作的前提和保障。為防止故障管理數(shù)據(jù)被篡改或偽造,本文采用安全通信密鑰的方式,為數(shù)據(jù)通信雙方創(chuàng)建安全的通信通道。
從故障管理平臺(tái)架構(gòu)可知,故障管理相關(guān)的重要管理組件包括故障決策平臺(tái)、全局控制器、SDN控制器3種類型設(shè)備。SDN控制可以獲得自身管轄域內(nèi)轉(zhuǎn)發(fā)器的設(shè)備特征;全局控制器可以對(duì)所有的SDN控制器運(yùn)行數(shù)據(jù)進(jìn)行監(jiān)測(cè);故障決策平臺(tái)可以對(duì)全局控制器的運(yùn)行數(shù)據(jù)進(jìn)行監(jiān)測(cè)。為滿足故障管理對(duì)數(shù)據(jù)的安全要求,本文設(shè)計(jì)的安全數(shù)據(jù)通信密鑰包括故障決策平臺(tái)與全局控制器的通信密鑰、SDN控制器與故障決策平臺(tái)的通信密鑰。通信密鑰的創(chuàng)建和使用屬于成熟技術(shù),可以使用已有技術(shù)進(jìn)行創(chuàng)建。由于SDN控制器與故障決策平臺(tái)的通信需要通過(guò)全局控制器進(jìn)行轉(zhuǎn)發(fā),所以轉(zhuǎn)發(fā)過(guò)程采用VPN技術(shù)或隧道技術(shù)。
監(jiān)測(cè)告警數(shù)據(jù)包括全局控制器、SDN控制器、轉(zhuǎn)發(fā)器3種類型設(shè)備的告警數(shù)據(jù)。全局控制器和SDN控制器的告警數(shù)據(jù)由故障決策平臺(tái)進(jìn)行監(jiān)測(cè),數(shù)據(jù)通信使用安全通信密鑰加密。轉(zhuǎn)發(fā)器設(shè)備的告警數(shù)據(jù)由所在域的SDN控制器進(jìn)行監(jiān)測(cè)。當(dāng)發(fā)現(xiàn)轉(zhuǎn)發(fā)器設(shè)備出現(xiàn)告警時(shí),所在域的SDN控制器將告警數(shù)據(jù)提交給故障決策平臺(tái)進(jìn)行分析。通過(guò)上述分析,故障決策平臺(tái)可以得到全局控制器、SDN控制器、轉(zhuǎn)發(fā)器3種類型設(shè)備的告警數(shù)據(jù),從而為故障定位提供安全和全面的運(yùn)維數(shù)據(jù),為故障管理決策提供數(shù)據(jù)支撐。
監(jiān)測(cè)異常數(shù)據(jù)的過(guò)程與監(jiān)測(cè)告警數(shù)據(jù)的過(guò)程類似,主要區(qū)別是設(shè)備的異常數(shù)據(jù)獲取方式與告警數(shù)據(jù)獲取方式不同。告警數(shù)據(jù)可以通過(guò)網(wǎng)絡(luò)運(yùn)維經(jīng)驗(yàn)和設(shè)備數(shù)據(jù)轉(zhuǎn)發(fā)過(guò)程的閾值設(shè)置獲得,設(shè)備的異常數(shù)據(jù)需要根據(jù)不同的場(chǎng)景進(jìn)行分析。為提升設(shè)備異常數(shù)據(jù)的利用價(jià)值,本文在下一節(jié)提出基于TOPSIS的算法對(duì)異常數(shù)據(jù)進(jìn)行分析。
故障定位機(jī)制的主要功能是根據(jù)告警數(shù)據(jù)的關(guān)聯(lián)性分析,挖掘出產(chǎn)生告警的根本原因,從而確定發(fā)生故障的網(wǎng)絡(luò)設(shè)備或網(wǎng)絡(luò)鏈路位置。故障預(yù)測(cè)機(jī)制的主要功能是根據(jù)異常數(shù)據(jù)的深入分析,確定可能產(chǎn)生故障的設(shè)備或鏈路的位置。相對(duì)于故障定位機(jī)制,故障預(yù)測(cè)機(jī)制的難度較大。已有故障定位和故障預(yù)測(cè)研究成果較多,當(dāng)前的發(fā)展趨勢(shì)是基于人工智能技術(shù)對(duì)問(wèn)題進(jìn)行建模,其難點(diǎn)主要是相關(guān)數(shù)據(jù)收集比較困難。本文的故障決策機(jī)制架構(gòu)可以為人工智能算法提供安全可靠的網(wǎng)絡(luò)運(yùn)維數(shù)據(jù),從而提升故障定位和故障預(yù)測(cè)機(jī)制的性能。
采用故障定位機(jī)制和故障預(yù)測(cè)機(jī)制可以定位疑似故障和潛在故障設(shè)備、鏈路資源。在故障決策平臺(tái)獲得這些信息后,可以通過(guò)故障恢復(fù)機(jī)制對(duì)相關(guān)設(shè)備進(jìn)行恢復(fù),從而減小或避免故障設(shè)備對(duì)網(wǎng)絡(luò)性能的影響。為提升網(wǎng)絡(luò)服務(wù)質(zhì)量,通常將故障預(yù)測(cè)機(jī)制與資源備份機(jī)制進(jìn)行融合,避免或降低潛在故障的發(fā)生對(duì)網(wǎng)絡(luò)服務(wù)質(zhì)量的負(fù)面影響。
從監(jiān)測(cè)異常數(shù)據(jù)步驟分析可知,異常數(shù)據(jù)的準(zhǔn)確性和全面性決定了故障預(yù)測(cè)結(jié)果的準(zhǔn)確性和及時(shí)性。為了提高異常數(shù)據(jù)監(jiān)測(cè)結(jié)果的性能,本節(jié)提出基于TOPSIS的異常數(shù)據(jù)分析方法。
異常數(shù)據(jù)需要從全局控制器、SDN控制器、轉(zhuǎn)發(fā)器3種類型設(shè)備獲取,在獲取異常數(shù)據(jù)時(shí),需要解決獲取哪些類型的數(shù)據(jù)、什么時(shí)候獲取數(shù)據(jù)兩個(gè)關(guān)鍵問(wèn)題。對(duì)于獲取哪些類型數(shù)據(jù)的問(wèn)題,主要考慮數(shù)據(jù)是否可以反映網(wǎng)絡(luò)異常事件的發(fā)生;對(duì)于什么時(shí)候獲取數(shù)據(jù)的問(wèn)題,主要考慮獲取數(shù)據(jù)的觸發(fā)條件,避免過(guò)多或者過(guò)少的獲取數(shù)據(jù)事件的發(fā)生;在獲取數(shù)據(jù)類型方面,基于網(wǎng)絡(luò)運(yùn)維經(jīng)驗(yàn)和故障預(yù)測(cè)機(jī)制的分析,本文以網(wǎng)絡(luò)節(jié)點(diǎn)為研究對(duì)象,將網(wǎng)絡(luò)節(jié)點(diǎn)的抗攻擊能力、轉(zhuǎn)發(fā)數(shù)據(jù)延遲、異步消息數(shù)量、異步消息間隔4個(gè)指標(biāo)作為采集數(shù)據(jù)的類型。
通過(guò)上述分析可知,網(wǎng)絡(luò)節(jié)點(diǎn)的抗攻擊能力、轉(zhuǎn)發(fā)數(shù)據(jù)延遲、異步消息數(shù)量、異步消息間隔4個(gè)指標(biāo)對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的異常識(shí)別都具有較好的參考價(jià)值。隨著運(yùn)維經(jīng)驗(yàn)的積累,能夠反映網(wǎng)絡(luò)節(jié)點(diǎn)異常的指標(biāo)數(shù)量和類型會(huì)逐漸增加。為了充分利用這些分析指標(biāo),需要采用科學(xué)有效的指標(biāo)分析機(jī)制,才能根據(jù)指標(biāo)的重要性對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的異常情況進(jìn)行分析。
首先,將網(wǎng)絡(luò)節(jié)點(diǎn)和其包含的相關(guān)屬性構(gòu)建為屬性矩陣如公式(1)所示。其中,每個(gè)元素aij表示第i個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的第j個(gè)屬性的取值。對(duì)于每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),本文包含4個(gè)屬性,所以j的取值為4個(gè)。
(1)
其次,由于每個(gè)屬性值的取值范圍不同、屬性表示的含義不同,不能對(duì)每個(gè)屬性值進(jìn)行公平的分析。所以,需要使用公式(2)的方法,對(duì)每個(gè)屬性值進(jìn)行歸一化處理,從而便于網(wǎng)絡(luò)節(jié)點(diǎn)的屬性值的重要性分析。
(2)
最后,根據(jù)網(wǎng)絡(luò)運(yùn)維經(jīng)驗(yàn),給每個(gè)屬性值設(shè)置一個(gè)權(quán)重wl,可以對(duì)屬性值進(jìn)行有效分析,如公式(3)所示。此時(shí),每個(gè)節(jié)點(diǎn)是屬性取值之和越大,網(wǎng)絡(luò)節(jié)點(diǎn)發(fā)生異常的概率越大。但是,具體哪些節(jié)點(diǎn)屬于異常節(jié)點(diǎn),缺少一個(gè)好的評(píng)價(jià)標(biāo)準(zhǔn)。通過(guò)對(duì)已有研究成果分析可知,TOPSIS方法是評(píng)價(jià)多指標(biāo)問(wèn)題的常用方法,而且該方法分析的指標(biāo)維度較多。所以,本文采用TOPSIS方法對(duì)指標(biāo)的重要性進(jìn)行分析。
(3)
TOPSIS方法通過(guò)公式(4)和公式(5)計(jì)算正理想點(diǎn)A+和負(fù)理想點(diǎn)A-的取值,并根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)屬性值與理想點(diǎn)的距離來(lái)判斷節(jié)點(diǎn)的異常情況。網(wǎng)絡(luò)節(jié)點(diǎn)屬性值與理想點(diǎn)的距離可以使用公式(6)進(jìn)行計(jì)算。當(dāng)Ci的取值越大時(shí),表明當(dāng)前網(wǎng)絡(luò)節(jié)點(diǎn)發(fā)生異常的可能性越高,需要快速反饋該節(jié)點(diǎn)的異常數(shù)據(jù)。
(4)
(5)
(6)
本文提出的基于網(wǎng)絡(luò)特征的安全高效通信網(wǎng)故障決策機(jī)制,主要解決網(wǎng)絡(luò)攻擊導(dǎo)致故障決策機(jī)制的安全性低、效率低的問(wèn)題。所以,在性能分析時(shí),從故障管理決策機(jī)制的安全和效率兩個(gè)維度進(jìn)行分析。
在故障管理決策機(jī)制的安全性分析方面,從影響決策安全的因素進(jìn)行分析。通過(guò)對(duì)已有研究分析可知,影響決策機(jī)制安全性的因素主要包括節(jié)點(diǎn)數(shù)據(jù)的安全性、數(shù)據(jù)通信的安全性。在節(jié)點(diǎn)數(shù)據(jù)的安全性方面,從異常數(shù)據(jù)、告警數(shù)據(jù)兩個(gè)維度進(jìn)行分析,本文的異常數(shù)據(jù)采用TOPSIS方法進(jìn)行評(píng)價(jià)和觸發(fā),具有較好的科學(xué)性和公平性,能夠保證數(shù)據(jù)的安全性;告警數(shù)據(jù)采用通用的網(wǎng)絡(luò)管理觸發(fā)機(jī)制,已經(jīng)過(guò)多年的實(shí)踐檢驗(yàn),可以保障告警數(shù)據(jù)的安全性。在數(shù)據(jù)通信的安全性方面,本文故障決策平臺(tái)、全局控制器、SDN控制器3種類型設(shè)備在傳輸異常數(shù)據(jù)和告警數(shù)據(jù)時(shí),采用通信密鑰進(jìn)行加密,可以有效解決通信鏈路攻擊帶來(lái)的數(shù)據(jù)篡改問(wèn)題。
在故障管理決策機(jī)制的效率分析方面,主要從各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)效率、整體流程效率兩個(gè)維度分析。在各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)效率方面,本文的網(wǎng)絡(luò)節(jié)點(diǎn)包括故障決策平臺(tái)、全局控制器、SDN控制器、轉(zhuǎn)發(fā)器4種類型的設(shè)備。在故障決策平臺(tái)方面,作為數(shù)據(jù)匯聚和故障分析的主要設(shè)備,可以專注于故障管理的特長(zhǎng),不需要關(guān)心網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)采集過(guò)程。所以,故障決策平臺(tái)效率較高。對(duì)于全局控制器和SDN控制器,采用主從結(jié)構(gòu),可以顯著降低單點(diǎn)控制器導(dǎo)致的擁塞問(wèn)題和單點(diǎn)故障問(wèn)題,從而提升網(wǎng)絡(luò)節(jié)點(diǎn)控制的效率。對(duì)于轉(zhuǎn)發(fā)器,采用分域管理策略,每個(gè)轉(zhuǎn)發(fā)器可以時(shí)刻與其所屬的SDN控制器進(jìn)行交互,顯著提升轉(zhuǎn)發(fā)器和域內(nèi)控制器的執(zhí)行效率。在機(jī)制整體流程效率分析方面,本文將故障預(yù)測(cè)、故障定位、故障恢復(fù)3個(gè)故障管理功能融合到一個(gè)故障管理決策平臺(tái)。該平臺(tái)可以充分共享告警數(shù)據(jù)、異常數(shù)據(jù)。這種整體流程設(shè)計(jì)有效解決了傳統(tǒng)機(jī)制中將故障預(yù)測(cè)、故障定位、故障恢復(fù)作為3個(gè)獨(dú)立系統(tǒng)進(jìn)行設(shè)計(jì)所帶來(lái)的效率低下的問(wèn)題。
綜上所述,本文的故障管理決策機(jī)制在故障管理決策機(jī)制的安全和效率兩個(gè)維度方面,有效解決了傳統(tǒng)故障管理機(jī)制存在的安全性低、效率低的問(wèn)題,具有較好的應(yīng)用價(jià)值。
SDN技術(shù)給網(wǎng)絡(luò)帶來(lái)資源利用率提升的同時(shí),也給網(wǎng)絡(luò)故障管理帶來(lái)了新的挑戰(zhàn)。為解決網(wǎng)絡(luò)攻擊導(dǎo)致故障決策機(jī)制的安全性低、效率低的問(wèn)題,本文提出了基于網(wǎng)絡(luò)特征的安全高效通信網(wǎng)故障決策機(jī)制。根據(jù)網(wǎng)絡(luò)環(huán)境特點(diǎn),本文構(gòu)建了故障管理平臺(tái),并以保障故障決策機(jī)制的安全性和高效率為目標(biāo),設(shè)計(jì)了通信網(wǎng)故障決策機(jī)制。在性能分析環(huán)節(jié),驗(yàn)證了本文提出的故障決策機(jī)制在故障管理決策機(jī)制的安全和效率方面具有較好的性能。在性能分析環(huán)節(jié)可知,故障決策機(jī)制的優(yōu)劣除了較好的決策平臺(tái)架構(gòu),還需要在故障定位、故障預(yù)測(cè)、故障恢復(fù)方面具有較好的算法。下一步工作中,將對(duì)已有的故障定位、故障預(yù)測(cè)、故障恢復(fù)算法進(jìn)行調(diào)研和分析,從而提出不同場(chǎng)景下可選算法的建議和策略,進(jìn)一步提升故障決策機(jī)制的應(yīng)用價(jià)值。