劉紫寒
(武警河南總隊 河南 鄭州 450004)
隨著互聯(lián)網(wǎng)技術(shù)和信息技術(shù)的不斷更新,用戶對互聯(lián)網(wǎng)的實時性、可靠性、高速性提出了更高要求。對于現(xiàn)有網(wǎng)絡(luò)管理技術(shù)而言,已不能滿足用戶的實際使用需求,若不能通過升級原有傳統(tǒng)管理模式達成目的,就需要一種全新的管理協(xié)議及管理方式來實現(xiàn)數(shù)據(jù)可視化、響應(yīng)實時化、控制智能化[1]。
網(wǎng)絡(luò)運維是現(xiàn)代企業(yè)信息化的核心環(huán)節(jié)之一,而實時的網(wǎng)絡(luò)狀態(tài)監(jiān)測和異常預(yù)警則是網(wǎng)絡(luò)運維的重要基礎(chǔ)保障。傳統(tǒng)網(wǎng)絡(luò)運維中,運維人員需要通過手動巡檢和數(shù)據(jù)分析等方式獲取網(wǎng)絡(luò)狀態(tài)信息,這種方式雖然可以監(jiān)測網(wǎng)絡(luò)狀態(tài),但是效率低下,容易受到人為影響,高效的網(wǎng)絡(luò)運維因此無法得到保障。而Telemetry技術(shù)則可以事先監(jiān)測到網(wǎng)絡(luò)狀態(tài)信息,并通過自動化運維的方式對網(wǎng)絡(luò)進行分析和處理,從而有效地提升網(wǎng)絡(luò)的穩(wěn)定性和可靠性。
實際上,Telemetry技術(shù)不算新的發(fā)明,最早實現(xiàn)網(wǎng)絡(luò)流量的采樣和推送的是NetFlow(流量數(shù)據(jù)統(tǒng)計標(biāo)準(zhǔn),由Cisco開發(fā),用于監(jiān)控和記錄進出接口的所有流量)和sFlow(采樣流,基于報文采樣的網(wǎng)絡(luò)流量監(jiān)控技術(shù),主要用于網(wǎng)絡(luò)流量的統(tǒng)計分析),但是NetFlow、SFlow推送的并不是用戶所期望的規(guī)范化數(shù)據(jù)模型,也不能實時傳遞網(wǎng)絡(luò)設(shè)備的 CPU、內(nèi)存、網(wǎng)絡(luò)擁塞信息、網(wǎng)絡(luò)事件的日志信息等。如圖1所示。
圖1 NetFlow、SFlow工作模式
由此可見,無論是哪種工具,也只能完成一定的分析任務(wù),并不能對整個數(shù)據(jù)中心網(wǎng)絡(luò)進行監(jiān)控和分析。
目前,Telemetry技術(shù)已經(jīng)在各個領(lǐng)域被大量使用并取得了一定成果。一是在高速公路智能交通管理系統(tǒng)中得到應(yīng)用。Telemetry技術(shù)在此系統(tǒng)中,可以實現(xiàn)對車輛識別、車道流量、車速等各項數(shù)據(jù)的采集和處理,實時監(jiān)控車輛行駛情況,及時處理異常情況,并且可以自動化巡檢和配置維護,提高運維效率和減少故障概率。二是在電力系統(tǒng)管理中的應(yīng)用。Telemetry技術(shù)可以實現(xiàn)對電力設(shè)備的實時監(jiān)控和性能評估,如電壓、電流、功率等各項指標(biāo)的采集,及時發(fā)現(xiàn)故障和異常情況,并且可以自動化巡檢、配置和告警,提高運維效率和保障電力系統(tǒng)的穩(wěn)定性和安全性。三是在金融服務(wù)平臺中的應(yīng)用。Telemetry技術(shù)可以實現(xiàn)對交易數(shù)據(jù)、用戶操作數(shù)據(jù)等各項數(shù)據(jù)的采集和分析,及時檢測業(yè)務(wù)異常和欺詐行為,保障用戶資金安全和平臺穩(wěn)定性。
以金融行業(yè)為例,網(wǎng)絡(luò)流量監(jiān)測非常重要,任何網(wǎng)絡(luò)錯誤或延遲都會直接影響金融交易的成功率,甚至?xí)斐韶攧?wù)損失和信譽受損。金融領(lǐng)域的網(wǎng)絡(luò)設(shè)備通常需要進行實時監(jiān)測和分析,并進行適當(dāng)?shù)恼{(diào)整和管理,以保證網(wǎng)絡(luò)穩(wěn)定和信息安全。因此,研究網(wǎng)絡(luò)運維中Telemetry技術(shù)的應(yīng)用優(yōu)勢及可行性,對于實現(xiàn)高效、穩(wěn)定、安全的網(wǎng)絡(luò)運維具有重要的意義。
SNMP發(fā)布于1994年,作為TCP/IP協(xié)議簇的一個應(yīng)用層協(xié)議,它隨著網(wǎng)絡(luò)發(fā)展成為既定主流管理協(xié)議。這種網(wǎng)絡(luò)管理技術(shù)形式較為單一,使用也較為簡單,被網(wǎng)絡(luò)用戶廣泛應(yīng)用,但是在網(wǎng)絡(luò)復(fù)雜性較高、構(gòu)造較為繁瑣的網(wǎng)絡(luò)環(huán)境下,管理上存在很大的漏洞,很難保證網(wǎng)絡(luò)安全性與穩(wěn)定性。即便SNMP協(xié)議已經(jīng)從SNMPv1發(fā)展至SNMPv3,但由于自身定位和治理能力的不足,還不能滿足日益龐大、復(fù)雜繁瑣的網(wǎng)絡(luò)管理環(huán)境。另外,SNMP為解決各版本之間不兼容的問題,形成了三者共存的局面,導(dǎo)致管理復(fù)雜化。
CMIP與SNMP協(xié)議具有相同的能力,可以在網(wǎng)絡(luò)管理系統(tǒng)和終端之間傳遞信息,還可以完成SNMP中無法執(zhí)行的訪問控制等任務(wù),對復(fù)雜性較高、構(gòu)造較為煩瑣的網(wǎng)絡(luò)可以進行有效的管理,有效地彌補了SNMP網(wǎng)絡(luò)管理技術(shù)的缺點。雖然CMIP在一定程度上可以保證其網(wǎng)絡(luò)的安全性以及穩(wěn)定性,但是CMIP網(wǎng)絡(luò)管理技術(shù)在設(shè)計與實施的過程中,所需的帶寬是SNMP協(xié)議的10倍左右,成本較高,很難在大量的網(wǎng)絡(luò)管理領(lǐng)域進行應(yīng)用,并且由于它的MIB庫過于復(fù)雜,至今還沒有任何一個符合CMIP的網(wǎng)絡(luò)管理系統(tǒng)出現(xiàn)。
分布式對象網(wǎng)絡(luò)管理技術(shù)主要將要管理的元素看作分布對象,通過分布對象的相互聯(lián)系和相互溝通構(gòu)成,主要解決面向?qū)ο蟮漠悩?gòu)應(yīng)用之間的互操作性,同時解決協(xié)議融合管理問題,它最大的優(yōu)點是能夠屏蔽與底層平臺有關(guān)的細節(jié),可以克服傳統(tǒng)網(wǎng)絡(luò)管理技術(shù)的缺點,在網(wǎng)絡(luò)管理的分布性、可靠性和易用性方面又進了一步。雖然其組織相對簡單,已得到廣泛應(yīng)用,但仍存在一定的不足,例如在管理過程中,中央管理站點可能會產(chǎn)生過大的負載,這對整個網(wǎng)絡(luò)管理技術(shù)的正常應(yīng)用產(chǎn)生了不良影響。
Telemetry技術(shù)實質(zhì)上是一種網(wǎng)絡(luò)監(jiān)測技術(shù),主要包含兩個部分:一是網(wǎng)絡(luò)設(shè)備側(cè)。包括各種傳感器、監(jiān)控裝置等,可以收集環(huán)境參數(shù)、硬件狀態(tài)、性能指標(biāo)等數(shù)據(jù),并將其轉(zhuǎn)換成數(shù)字信號或其他形式的數(shù)據(jù)流,通過協(xié)議進行封裝與壓縮,輸出至物理通道上傳輸給上層應(yīng)用。二是網(wǎng)管系統(tǒng)側(cè)。主要接受來自網(wǎng)絡(luò)設(shè)備的數(shù)據(jù),在解碼之前對其做去重、聚合和過濾等操作以減少冗余信息,通過解碼得出有價值字段,從而提供診斷信息和預(yù)測結(jié)果(例如故障預(yù)警)。與SNMP、CLI、SYSLOG相比較而言,無論是工作模式、采集速度還是結(jié)構(gòu)模型,Telemetry都具有較大的優(yōu)勢。如表1所示。
表1 Telemetry與傳統(tǒng)網(wǎng)絡(luò)管理模式的對比
SNMP和CLI(命令行界面)是需要采集器與設(shè)備之間采取“一問一答”的方式來采集狀態(tài)數(shù)據(jù)和統(tǒng)計數(shù)據(jù),采集器每次下發(fā)查詢請求,設(shè)備都需要進行解析,該模式被形象地稱為“拉模式”,它對網(wǎng)絡(luò)和網(wǎng)絡(luò)設(shè)備的資源消耗較大,性能要求較高。而telemetry則采用“推模式”,它只需要一次訂閱請求和一次解析請求,就可以按照訂閱時指定的采集周期持續(xù)推送數(shù)據(jù)給采集器,從而簡化了查詢應(yīng)用和消息解析的過程,有效減少了資源消耗,提高了效率。
SNMP監(jiān)控數(shù)據(jù)的采集周期為分鐘級,通常約為5 min,采集到的數(shù)據(jù)通過網(wǎng)絡(luò)傳輸后,容易受延遲的影響,可能會錯漏短暫的異常信息,無法及時反映網(wǎng)絡(luò)突發(fā)細節(jié),并且不支持超大規(guī)模網(wǎng)絡(luò)。而telemetry為亞秒級,可以定位捕捉到瞬間發(fā)生的事件和細微變化,并支持大規(guī)模網(wǎng)絡(luò)實時監(jiān)控,不受網(wǎng)絡(luò)傳輸時延影響。采集報文還包含時間戳,能夠提供更高精度的實時數(shù)據(jù),做出快速響應(yīng)并及時調(diào)整[2]。
現(xiàn)有的SNMP模型的MIB由于是平鋪的表,不能區(qū)分配置和狀態(tài),在這種情況下,YANG模型就體現(xiàn)出明顯的優(yōu)勢,YANG模型是一種描述網(wǎng)絡(luò)元素配置及狀態(tài)信息的標(biāo)準(zhǔn)化數(shù)據(jù)建模語言。Telemetry按照YANG模型組織數(shù)據(jù),用大數(shù)據(jù)存儲和交換的開源協(xié)議和開發(fā)庫 (Google Protocol Buffer,GPB)格式編碼,并通過GRPC協(xié)議傳輸數(shù)據(jù)來實現(xiàn)標(biāo)準(zhǔn)化配置和管理。另外,Telemetry支持采集和分析的數(shù)據(jù)范圍很廣,主要包含設(shè)備狀態(tài)信息、網(wǎng)絡(luò)流量和延遲信息、應(yīng)用程序性能指標(biāo)、用戶體驗數(shù)據(jù),以及安全事件和威脅情報等。而傳統(tǒng)的運維管理技術(shù),不僅需要多種工具協(xié)同,還存在監(jiān)控數(shù)據(jù)死角。比如Syslog只能監(jiān)控網(wǎng)絡(luò)事件,其他卻無能為力。由此可見,Telemetry如此標(biāo)準(zhǔn)化的數(shù)據(jù)模型,更有利于網(wǎng)絡(luò)的擴展。
在傳統(tǒng)的網(wǎng)絡(luò)運維中,運維人員只能從網(wǎng)絡(luò)組件中獲得間隔時間快照,一旦發(fā)生網(wǎng)絡(luò)故障,發(fā)現(xiàn)問題變得非常困難,這將耗費大量的時間和精力,現(xiàn)代網(wǎng)絡(luò)管理技術(shù)通常通過將采集的數(shù)據(jù)匯總和集成,實現(xiàn)快速故障排除。以Telemetry 和 SNMP 協(xié)議的集成策略為研究對象,一是Telemetry和SNMP協(xié)議可以兼容使用Telemetry基于TCP的傳輸模式,兼容SNMPv3的協(xié)議。因此,通過使用兼容的代碼,可以將網(wǎng)絡(luò)數(shù)據(jù)從Telemetry監(jiān)測器發(fā)送到基于SNMP協(xié)議的網(wǎng)絡(luò)監(jiān)測解決方案而不產(chǎn)生兼容性問題。這意味著,既可以充分利用 Telemetry 的實時性和靈活性,又可以利用SNMP協(xié)議的擴展性和穩(wěn)定性,從而更好地監(jiān)測網(wǎng)絡(luò)狀態(tài)。二是將Telemetry數(shù)據(jù)放在SNMP協(xié)議的管理信息庫(MIB)中,由于不同的設(shè)備可能會有不同的MIB,將Telemetry收集的數(shù)據(jù)和SNMP報警和通知放在一個位置,更便于采集使用,還可以允許使用經(jīng)典應(yīng)用程序引擎來語義化和管理數(shù)據(jù)。因此,在不同的網(wǎng)絡(luò)設(shè)備中盡可能使用MIB的相同方法[3],對實現(xiàn)Telemetry與其他協(xié)議的兼容起到重要的作用。
近年來,隨著人工智能技術(shù)應(yīng)用的不斷深入,智能化的運維新模式不斷出現(xiàn),并呈現(xiàn)出快速替代傳統(tǒng)運維的趨勢。根據(jù)《中國智能運維市場研究報告(2022)》所示,運維的智能化轉(zhuǎn)型主要體現(xiàn)在監(jiān)控發(fā)現(xiàn)、應(yīng)急處理、變更管理、性能容量管理、演練、運維服務(wù)化、數(shù)據(jù)支撐等七個能力項,這對網(wǎng)絡(luò)運維領(lǐng)域提供了很強的參考意義,結(jié)合華為官方發(fā)布的關(guān)于Telemetry技術(shù)的功能展望可以看出,此技術(shù)已基本具備相關(guān)功能[4],呈現(xiàn)以下趨勢。
傳統(tǒng)網(wǎng)絡(luò)運維管理存在三個方面問題:一是分散化。業(yè)務(wù)、網(wǎng)絡(luò)、IT等系統(tǒng)互相獨立,需要分別維護和部門間互相協(xié)調(diào)配合,容易產(chǎn)生業(yè)務(wù)處理上的沖突;二是不可視化。網(wǎng)絡(luò)結(jié)構(gòu)、配置和拓撲、鏈路狀態(tài)不夠直觀,需要依靠運維人員記憶力和管理能力;三是單一化?;趩卧O(shè)備或單機架構(gòu)管理,在故障排除方面存在許多錯誤和困難,一旦出現(xiàn)配置錯誤和人為失誤,就很容易造成網(wǎng)絡(luò)中斷事故,給網(wǎng)絡(luò)運維留下隱患。由于Telemetry技術(shù)具有數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)采集全面的優(yōu)勢,容易實現(xiàn)大數(shù)據(jù)可視化和智能化,從而降低了人工運維成本,伺機回傳的機制還可有效降低網(wǎng)絡(luò)資源的占用,從而達到網(wǎng)絡(luò)運維管理降本增效的目的[5-6]。
隨著業(yè)務(wù)增加和網(wǎng)絡(luò)規(guī)模的不斷擴大,業(yè)務(wù)系統(tǒng)愈加復(fù)雜,維護效率也越來越低。網(wǎng)絡(luò)運維的高效率來源于監(jiān)控數(shù)據(jù)的采樣周期,Telemetry技術(shù)的亞秒級數(shù)據(jù)采集,可以做到實時、準(zhǔn)確、全面快速地采集到有關(guān)網(wǎng)絡(luò)運行的各類數(shù)據(jù),并加以分析和處理,Telemetry采用二進制的GPB編碼,不僅壓縮方式編/解碼效率高,且占用帶寬小,在整個監(jiān)控過程中,對設(shè)備自身功能和性能產(chǎn)生了極小的影響,有效提高了設(shè)備和網(wǎng)絡(luò)的利用率。基于Telemetry技術(shù)對提升運維效率,加快實現(xiàn)流量調(diào)優(yōu)、端到端的、性能實時監(jiān)控的智能運維管理具有重大的現(xiàn)實意義。
相對于傳統(tǒng)的數(shù)據(jù)采集模式,Telemetry技術(shù)可以根據(jù)場景的不同而增加采集數(shù)據(jù)的維度,具有數(shù)據(jù)采集的豐富性和靈活性,這就為網(wǎng)絡(luò)實際狀態(tài)的感知提供了可靠依據(jù),實時性越高、精度就越高,控制器對網(wǎng)絡(luò)的分析控制、變更調(diào)整也就越準(zhǔn)確。且Telemetry所采集數(shù)據(jù)中的時間戳等精細化設(shè)計,能清晰反映故障節(jié)點,通過故障分析快速進行微突發(fā)流量調(diào)整,進行業(yè)務(wù)上線、流量注入和故障推演仿真,同時提供一鍵智能排障,實現(xiàn)閉環(huán)自愈?;诟吒兄芰閼?yīng)用和用戶提供一體化服務(wù)保障,真正實現(xiàn)業(yè)務(wù)隨需而動。
綜上所述,Telemetry技術(shù)作為一種基于數(shù)據(jù)采集和分析的智能運維管理技術(shù),在網(wǎng)絡(luò)運維管理中具有重要的應(yīng)用價值。隨著網(wǎng)絡(luò)的復(fù)雜性程度逐漸提高,需要對計算機網(wǎng)絡(luò)進行高效管理,基于Telemetry技術(shù)的數(shù)據(jù)采集能力、性能監(jiān)測能力、流量調(diào)優(yōu)能力,為網(wǎng)絡(luò)問題的快速定位、網(wǎng)絡(luò)質(zhì)量優(yōu)化調(diào)整提供了最重要的大數(shù)據(jù)基礎(chǔ),在一定程度上保障了網(wǎng)絡(luò)的安全性以及穩(wěn)定性。只有不斷對智能網(wǎng)絡(luò)運維管理技術(shù)革新與優(yōu)化,才能真正實現(xiàn)集控、維、監(jiān)、管于一體的智能網(wǎng)絡(luò)運維管理體系[7]。