□ 文 尹遠(yuǎn)陽 楊旭如 孫嘉琪
5G移動承載除了傳統(tǒng)的數(shù)據(jù)業(yè)務(wù),語音業(yè)務(wù)外,還引入了2B的專線業(yè)務(wù)、2H的FWA(Fixed Wireless Access)業(yè)務(wù)、2C的VR/AR業(yè)務(wù),未來將引入更多的垂直行業(yè)。不同的業(yè)務(wù)在時延,帶寬,可靠性等方面需求迥異。
1)5G沉浸式的360°全景VR體驗、無處不在的視頻直播和分享、隨時隨地的云接入等應(yīng)用提供支持,要求5G承載網(wǎng)具備大帶寬、低時延特性,才能有效解決超高清尤其是8K及以上視頻內(nèi)容的傳輸以及VR頭顯時間延遲的技術(shù)問題。
2)車聯(lián)網(wǎng)、工業(yè)控制等垂直行業(yè)的應(yīng)用,要求5G承載具備超低時延和高可靠等處理能力,要求具備實時感知網(wǎng)絡(luò)狀態(tài),確保網(wǎng)絡(luò)SLA指標(biāo)。
3)以傳感和數(shù)據(jù)采集為目標(biāo)的物聯(lián)網(wǎng),例如智能水表、電表等應(yīng)用,數(shù)據(jù)傳輸量小,對網(wǎng)絡(luò)等待時間的要求不高;但對于類似穿戴血壓計、心跳計等5G醫(yī)療低時延就會是相當(dāng)重要的特性。
針對無人駕駛、智能電網(wǎng)、工業(yè)控制、遠(yuǎn)程醫(yī)療等場景,網(wǎng)絡(luò)連接的中斷、SLA的劣化,都可能會導(dǎo)致車毀人亡、供電中斷、醫(yī)療事故等嚴(yán)重后果。因此,如何提供業(yè)務(wù)差異化的SLA保證能力、支持業(yè)務(wù)SLA的E2E測量和快速感知、業(yè)務(wù)故障的快速感知和快速自愈等,是5G承載網(wǎng)運維前所未有的挑戰(zhàn)與必須攻破的難題。
主動檢測技術(shù)通過構(gòu)造檢測報文方式獲得網(wǎng)絡(luò)SLA測量,檢測發(fā)送的測試報文會消耗網(wǎng)絡(luò)資源,準(zhǔn)確度與實際網(wǎng)絡(luò)存在一定偏差。
1)NQA(Network Quality Analysis,網(wǎng)絡(luò)質(zhì)量分析)可以用來測量網(wǎng)絡(luò)上運行的各種協(xié)議的性能,如TCP、UDP、DHCP、FT P、HTT P、SN MP、DNS、TRACEROUTE、LSP Ping/Trace route服務(wù)的響應(yīng)。NQA檢測得到的性能指標(biāo)存在精度上的差距,不能直接體現(xiàn)用戶的真實業(yè)務(wù)在網(wǎng)絡(luò)中的運行狀況。同時,NQA不支持多點到多點的組網(wǎng)與跨網(wǎng)絡(luò)層端到端的場景。
2)RFC2544是IETF標(biāo)準(zhǔn)定義的一種網(wǎng)絡(luò)通用流量測試方法,其屏蔽了不同網(wǎng)絡(luò)場景以及檢測報文格式的差異。可以檢測網(wǎng)絡(luò)時延、抖動、丟包率等指標(biāo)外,還可以測試網(wǎng)絡(luò)吞吐量。
3)TWAMP(Two Way Active Measurement Protocol)是RFC5357定義的用于IP性能雙向主動測量的協(xié)議。性能測試時,由TWAMP客戶端發(fā)起測試,普通網(wǎng)元作為服務(wù)器端。服務(wù)器端僅需按照客戶端的要求進(jìn)行報文時間戳處理并反射回去,無需進(jìn)行統(tǒng)計數(shù)據(jù)的記錄和上報。TWAMP可實現(xiàn)在網(wǎng)管能力缺乏或者尚未部署時鐘同步的網(wǎng)絡(luò)中快速實現(xiàn)網(wǎng)絡(luò)性能測量。
被動檢測技術(shù)通過捕獲流經(jīng)測量點的分組來測量網(wǎng)絡(luò)狀態(tài)、流量特征和性能參數(shù)。被動檢測完全基于不干擾或不修改數(shù)據(jù)包的檢測,主要有Netflow/sFlow(網(wǎng)絡(luò)數(shù)據(jù)流統(tǒng)計協(xié)議)、Netstream(數(shù)據(jù)包采樣協(xié)議)、IPFIX(IP流量信息輸出協(xié)議)。
Netflow和Netstrea m、IPFIX實現(xiàn)原理基本相同:對經(jīng)過網(wǎng)絡(luò)接口的報文,根據(jù)報文五元組、TOS、輸入/輸出接口等信息來創(chuàng)建一條流,即對于這些值相同的報文作為一個流進(jìn)行數(shù)據(jù)統(tǒng)計。同時,Netstrea m/Netflow支持將原始信息流再進(jìn)一步的按照一定的規(guī)則進(jìn)行分類、合并后生成信息流(也就是聚合流),避免網(wǎng)絡(luò)流量較大的情況下產(chǎn)生大量的原始流統(tǒng)計信息報文而對網(wǎng)絡(luò)造成影響,輸出時信息格式有:V5、V8、V9等。
sFlow(Sampled Flow)是一種向采集器發(fā)送報告的推送技術(shù)。網(wǎng)絡(luò)設(shè)備僅進(jìn)行報文的采樣工作,不需要對網(wǎng)絡(luò)流進(jìn)行統(tǒng)計和分析,遠(yuǎn)端的采集器可以靈活、按需的配置網(wǎng)絡(luò)流特征進(jìn)行統(tǒng)計分析模型。
混合檢測技術(shù)通過靈活組合主/被動測量方法,或結(jié)合主/被動測量優(yōu)點重新設(shè)計測量機(jī)制的方式,對網(wǎng)絡(luò)進(jìn)行協(xié)同測量,但是不支持逐跳、亂序、負(fù)載分擔(dān)、點到多點場景。
1)Y.1731是根據(jù)IEEE的以太OAM(802.1ag,802.1ah)相關(guān)標(biāo)準(zhǔn)進(jìn)行延伸的ITU-T以太網(wǎng)絡(luò)性能檢測標(biāo)準(zhǔn),主要是通過各種二層報文作為信令,得到二層網(wǎng)絡(luò)的性能和故障信息。Y.1731應(yīng)用局限于二層以太網(wǎng)絡(luò),無法適用三層業(yè)務(wù)的檢測。
2)MPLS-TP/MPLS OAM(Y.1711)在Y.1731標(biāo)準(zhǔn)的基礎(chǔ)上進(jìn)行了網(wǎng)絡(luò)側(cè)OAM的重新定義,為MPLS網(wǎng)絡(luò)提供了一套缺陷檢測的工具及缺陷糾正機(jī)制,通過MPLS OAM及保護(hù)倒換功能,MPLS網(wǎng)絡(luò)可以完成轉(zhuǎn)發(fā)平面的檢測功能,并在缺陷發(fā)生后完成保護(hù)倒換。MPLS-TP OAM是在MPLS-TP中定義的OAM機(jī)制,MPLS-TP OAM兼容現(xiàn)有的MPLS OAM功能,并針對傳送網(wǎng)的特有情況進(jìn)行了相應(yīng)擴(kuò)展,主要體現(xiàn)在Tunnel層與PW層上新增了故障管理、故障定位以及性能測試這三個方面的能力。
3)RFC 6374則是一套基于動態(tài)MPLS的性能監(jiān)控技術(shù),類似于MPLS-TP OAM,包含時延測量和丟包測量,測量的實體是MPLS網(wǎng)絡(luò)的section(接口級)、LSP(隧道級)、PW(業(yè)務(wù)級),技術(shù)上吸收了TWAMP、Y.1731,支持單雙向時延、單雙向丟包、合成丟包統(tǒng)計。
隨流檢測技術(shù)是近幾年興起直接對實際業(yè)務(wù)流進(jìn)行測量的檢測技術(shù),也是實現(xiàn)從“被動式”運維變?yōu)椤邦A(yù)防式”運維重要手段。當(dāng)前比較熱門的隨流檢測技術(shù)主要有:Insitu OAM、INT(In-Band Network Telemetr y)、RFC 8321(報文染色技術(shù))和IFIT(in-band Flow Information Telemetry)。
In-situ OAM和INT主要原理是在原始數(shù)據(jù)報文中增加OAM檢測頭,在業(yè)務(wù)轉(zhuǎn)發(fā)路徑中根據(jù)檢測頭進(jìn)行數(shù)據(jù)采集,再通過集中處理單元計算檢測結(jié)果。In-situ OAM的數(shù)據(jù)包處理流程如下圖1所示(INT的實現(xiàn)原理與In-situ OAM類似):
1)業(yè)務(wù)報文到達(dá)第一個節(jié)點(Ingress節(jié)點,下圖中的RT1)時,Ingress節(jié)點按照預(yù)先設(shè)置的采樣方式匹配并鏡像出該報文,根據(jù)測量任務(wù)的需要對指定業(yè)務(wù)流的報文插入IOAM檢測頭,包含時間戳、node id、接口id、sequence number等信息。
圖 1 In-situ OAM機(jī)制示意圖
2)報文轉(zhuǎn)發(fā)到中間節(jié)點Transit(RT2/RT3/RT4)時,Transit節(jié)點對指定業(yè)務(wù)流的報文插入當(dāng)前節(jié)點的時間戳、node id、接口id。
3)報文轉(zhuǎn)發(fā)到最后一跳Egress(RT5)節(jié)點時,Egress對指定業(yè)務(wù)流的報文插入當(dāng)前節(jié)點的時間戳、node id、接口id。解封裝后,把指定周期內(nèi)的采集數(shù)據(jù)上送分析器。
4)采集分析器對統(tǒng)計周期內(nèi)的報文進(jìn)行解析,上報給上層遙測應(yīng)用程序。
隨流檢測技術(shù)在報文中逐跳增加檢測數(shù)據(jù),轉(zhuǎn)發(fā)面性能影響較大,對業(yè)務(wù)自身轉(zhuǎn)發(fā)性能影響也較大,數(shù)據(jù)傳輸效率降低,上送采集器的數(shù)據(jù)量大,對控制面上送通道及采集器影響大,當(dāng)報文丟棄后采集信息也丟失,無法實現(xiàn)逐跳丟包檢測。
RFC 8321(報文染色技術(shù))是一種基于端到端,主要基于IP包守恒原則:對于穿越網(wǎng)絡(luò)的流量,其進(jìn)入網(wǎng)絡(luò)時的IP包數(shù)目應(yīng)該與出網(wǎng)絡(luò)的IP包數(shù)目一致(無分片情況下)。在網(wǎng)絡(luò)中網(wǎng)元時間同步的情況下,通過在承載網(wǎng)絡(luò)入口和出口分別讀取報文并記錄時戳,計算出報文傳輸?shù)难訒r。該技術(shù)具有部署方便、統(tǒng)計精度高等突出優(yōu)點。
IFIT基本原理與RFC 8321類似,采用染色機(jī)制,對網(wǎng)絡(luò)實際流量進(jìn)行直接測量,主要在用戶報文插入Telemetry指令頭(TIH),用于通知處理節(jié)點按指令處理,TIH還支持?jǐn)y帶可選擴(kuò)展頭,可支持靈活的功能擴(kuò)展。在MPLS/MPLS-SR場景中,為最大程度前向兼容,IFIT檢測頭封裝在MPLS棧底與MPLS凈荷之間,無需深度處理MPLS凈荷,解決了RFC 8321在MPLS/MPLSSR場景的不足。此外,IFIT在每個節(jié)點逐點上報信息,能精準(zhǔn)定位丟包點,實現(xiàn)逐跳丟包檢測,圖2為In-situ OAM和IFIT技術(shù)上報方式對比。
圖 2 In-situ OAM與IFIT對比
通過上述研究分析,對幾種隨流檢測技術(shù)進(jìn)行綜合對比,如表1所示:
表 1 幾種技術(shù)總體對比
表 3 Telemetry與傳統(tǒng)網(wǎng)絡(luò)監(jiān)控方式的對比
通過比較,隨流檢測技術(shù)相比傳統(tǒng)主動測量與被動測量技術(shù),隨流檢測技術(shù)具備更高的測量精度、更簡化的部署運維。同時在隨流檢測技術(shù)中,IFIT技術(shù)相比iOAM/INT技術(shù),具備更小開銷,并實現(xiàn)精準(zhǔn)的定界優(yōu)勢;此外,相比RFC 8321,IFIT更易兼容存量網(wǎng)絡(luò),易于部署,具有更靈活的擴(kuò)展性。同時IFIT在提供IP業(yè)務(wù)流端到端、逐跳SLA(主要包括丟包率、時延、抖動、實時流量)測量時,可快速感知網(wǎng)絡(luò)故障,并進(jìn)行精準(zhǔn)定界、排障,能滿足5G移動承載網(wǎng)絡(luò)精細(xì)化運維的重要手段。
網(wǎng)絡(luò)遙測技術(shù)Telemetry是一項遠(yuǎn)程的從網(wǎng)絡(luò)設(shè)備上高速采集數(shù)據(jù)的技術(shù)。設(shè)備通過推模式(Push Mode)周期性的主動向采集器上送設(shè)備的狀態(tài)(如光模塊質(zhì)量)和性能數(shù)據(jù),提供了更實時、更高速的數(shù)據(jù)采集功能,非常適合IFIT檢測數(shù)據(jù)的采集。
Telemetry基于YANG(Yet Another Next Generation)模型組織采集數(shù)據(jù)。YANG是一種數(shù)據(jù)建模語言,可以作為各種傳輸協(xié)議操作的配置數(shù)據(jù)模型、狀態(tài)數(shù)據(jù)模型、遠(yuǎn)程調(diào)用模型和通知機(jī)制等。YANG數(shù)據(jù)模型定位為一個面向機(jī)器的模型接口,明確定義數(shù)據(jù)結(jié)構(gòu)及其約束,可以更靈活、更完整地進(jìn)行數(shù)據(jù)描述。業(yè)界主流設(shè)備北向接口正逐漸采用YANG數(shù)據(jù)描述規(guī)范,因此Telemetry支持向第三方數(shù)據(jù)分析處理公司開放API,方便設(shè)備與第三方對接。IFIT還需要設(shè)備支持高精度的采樣周期、上送通道帶寬小的北向協(xié)議Telemetry,才能在5G移動承載網(wǎng)中提供大量的基于業(yè)務(wù)流級,實時、高精度、準(zhǔn)確反饋客戶實際流量的性能檢測,從而提升5G時延、丟包率敏感類業(yè)務(wù)的用戶體驗
5G業(yè)務(wù)對時延、帶寬提出了更高要求,網(wǎng)絡(luò)丟包率、時延等SLA是影響傳輸帶寬的關(guān)鍵因素之一??墒?,在5G移動承載場景中,對于網(wǎng)絡(luò)性能劣化類故障(如少量丟包、時延過大等)往往難以快速排障定界,是網(wǎng)絡(luò)運維的一大痛點。為保障5G移動承載網(wǎng)絡(luò)提供高質(zhì)量、穩(wěn)定可靠的網(wǎng)絡(luò)服務(wù),可在5G移動承載網(wǎng)絡(luò)中部署基站粒度N2/N3流量的隨流檢測技術(shù),開啟IFIT逐跳檢測,實現(xiàn)對網(wǎng)絡(luò)故障快速定界,如圖3所示
圖 3 端到端業(yè)務(wù)SLA隨流感知、故障定位
采用IFIT+Telemetry實現(xiàn)全網(wǎng)實時性能數(shù)據(jù)的采集,可構(gòu)建大數(shù)據(jù)智能運維系統(tǒng),對網(wǎng)絡(luò)可能發(fā)生的風(fēng)險進(jìn)行分析評估、調(diào)整優(yōu)化,實現(xiàn)自動化、智能化的運維。在5G移動業(yè)務(wù)承載場景部署IFIT隨流檢測技術(shù),結(jié)合控制系統(tǒng),可實現(xiàn)全網(wǎng)基站7*24小時N2/N3流量監(jiān)控,E2E SLA可視化,實時掌握網(wǎng)絡(luò)健康狀況,在故障發(fā)生前進(jìn)行干預(yù)、調(diào)整,主動運維,降低網(wǎng)絡(luò)故障發(fā)生率。對于網(wǎng)絡(luò)出現(xiàn)異常故障,無法保證業(yè)務(wù)SLA指標(biāo),網(wǎng)絡(luò)可按需開啟隨流IFIT逐跳監(jiān)控,快速排查故障點,進(jìn)一步提升5G承載網(wǎng)SLA感知及網(wǎng)絡(luò)運維效率。
移動網(wǎng)絡(luò)從LT E逐漸演進(jìn)到5G,無線業(yè)務(wù)從帶寬、時延、連接靈活性等多方面提出了更高要求,同時也對IPRAN移動承載網(wǎng)絡(luò)提出了新的要求。相比傳統(tǒng)檢測技術(shù),IFIT基于隨流測量原理,提供更高精度的SLA測量,同時支持雙歸、ECMP/LAG等各種靈活組網(wǎng)場景;另外,IFIT吸收iOAM/INT等隨流檢測技術(shù)優(yōu)勢,提供更好的擴(kuò)展性,同時使用染色機(jī)制降低復(fù)雜度,相比iOAM/INT引入更少的開銷,更適合承載網(wǎng)應(yīng)用場景。IFIT提供IP業(yè)務(wù)級的端到端和逐跳測量,滿足日常運維監(jiān)控及故障快速定界等訴求,是未來5G移動承載的重要運維手段,同時也是運營商降低Opex重要手段?!?/p>