[陳清睿 李瓊麗]
隨著數(shù)字化進(jìn)程在全社會(huì)不斷得到推進(jìn)和深化,大量的視頻流媒體交互以及數(shù)字城市、元宇宙、算力網(wǎng)絡(luò)等新概念在現(xiàn)實(shí)世界中得到應(yīng)用,還有分布式計(jì)算和數(shù)據(jù)上云等新需求,越來(lái)越多的二類運(yùn)營(yíng)商和OTT 企業(yè)對(duì)數(shù)據(jù)跨區(qū)傳輸?shù)男枨笥葹槠惹?,有時(shí)甚至?xí)苯幼庥没A(chǔ)運(yùn)營(yíng)商的10G 或更大帶寬通道自行組網(wǎng),用于疏導(dǎo)其所承載客戶數(shù)據(jù)的跨區(qū)傳送需求。
運(yùn)營(yíng)商通常利用OTN 傳輸系統(tǒng)的波道為大帶寬業(yè)務(wù)提供承載,而且由于涉及到跨省甚至跨國(guó)通信,為了保障業(yè)務(wù)不受沿途網(wǎng)絡(luò)割接活動(dòng)的影響,往往在開(kāi)通的時(shí)候按SNCP 保護(hù)的方式配置電路。
該類大帶寬帶帶保護(hù)業(yè)務(wù)大量交付后,在網(wǎng)維工作中發(fā)現(xiàn)客戶經(jīng)常投訴業(yè)務(wù)存在閃斷(flapping/hits)問(wèn)題,即客戶路由器會(huì)不定期地出現(xiàn)物理端口關(guān)閉或者BGP 中斷數(shù)秒的現(xiàn)象。經(jīng)運(yùn)營(yíng)商排查傳輸網(wǎng)管的事件和告警,發(fā)現(xiàn)客戶申告的故障時(shí)間點(diǎn),往往同時(shí)存在傳輸電路發(fā)生保護(hù)倒換的情況,兩者存在強(qiáng)相關(guān)。大部分的傳輸電路發(fā)生保護(hù)倒換時(shí),倒換動(dòng)作從發(fā)生到結(jié)束基本可以控制在50ms以內(nèi)完成,如此短時(shí)間的電路倒換為什么會(huì)影響到路由器端口而且業(yè)務(wù)受損時(shí)間長(zhǎng)達(dá)數(shù)秒,有必要做進(jìn)一步深入的分析。
路由器的線路端口出現(xiàn)interface down 的原因,和傳輸線路狀態(tài)以及路由器端口的具體參數(shù)設(shè)置有關(guān)[1]。絕大部分高端路由器的高速端口,如果收到線路不穩(wěn)定的告警,例如LOF、SSF、RDI 和AIS 等,為了避免IP 業(yè)務(wù)受到影響,路由器往往會(huì)自行關(guān)閉對(duì)應(yīng)的線路端口,以便流量通過(guò)其他正??捎玫木€路端口進(jìn)行疏導(dǎo)。
除了上述物理端口中斷的故障外,客戶投訴的中斷現(xiàn)象往往還有BGP 協(xié)議中斷這種類型,即物理端口并沒(méi)有中斷但卻出現(xiàn)BGP 協(xié)議中斷的問(wèn)題。眾所周知如果線路流量擁塞情況嚴(yán)重,偶爾會(huì)出現(xiàn)BGP 協(xié)議中斷的情況,這種情況屬于正常現(xiàn)象。但通過(guò)觀察發(fā)現(xiàn),承載路由器組網(wǎng)業(yè)務(wù)的傳輸電路發(fā)生主備用路由倒換時(shí),即使該線路的流量未出現(xiàn)擁塞,有時(shí)仍會(huì)出現(xiàn)BGP 協(xié)議中斷的現(xiàn)象。進(jìn)一步深入分析發(fā)現(xiàn),此類中斷往往受路由器BFD 參數(shù)設(shè)定的影響。有的路由器設(shè)置了將BFD 會(huì)話與上層的BGP 協(xié)議或者物理端口做了關(guān)聯(lián),如果BFD 會(huì)話失敗,則會(huì)連帶關(guān)閉該BFD 所關(guān)聯(lián)的上層BGP 協(xié)議或者物理端口。
BFD 會(huì)話建立流程(如圖1 所示)所涉及的BFD 會(huì)話有4 種狀態(tài):Down、Init、Up 和Admin Down[2]。會(huì)話狀態(tài)的變化通過(guò)BFD 報(bào)文的State 字段傳遞,系統(tǒng)根據(jù)自己本地的會(huì)話狀態(tài)和接收到的對(duì)端BFD 報(bào)文來(lái)驅(qū)動(dòng)狀態(tài)的改變。BFD 狀態(tài)機(jī)的建立和拆除都采用握手機(jī)制,以確保兩端設(shè)備能掌握狀態(tài)的變化。
圖1 BFD 會(huì)話建立流程圖
BFD 故障發(fā)現(xiàn)處理流程見(jiàn)上(如圖2 所示),如果被檢測(cè)鏈路出現(xiàn)故障(1),BFD 快速檢測(cè)到鏈路故障后,此時(shí)BFD 會(huì)話狀態(tài)變?yōu)镈own(2)。接著B(niǎo)FD 會(huì)通知其關(guān)聯(lián)的BGP 進(jìn)程BFD 不可達(dá)(3),于是BGP 進(jìn)程中斷BGP 協(xié)議(4)。同理,如果BFD 協(xié)商機(jī)制關(guān)聯(lián)的是物理端口,則BFD 會(huì)話失敗后將觸發(fā)物理端口的關(guān)閉。
圖2 BFD 故障發(fā)現(xiàn)處理流程圖
在日常處理客戶投訴和網(wǎng)絡(luò)故障工作中發(fā)現(xiàn),客戶申告的路由器閃斷現(xiàn)象,往往可以歸類為上述路由器物理端口中斷和BGP 協(xié)議中斷這兩種類型,根本原因?yàn)槁酚善魇盏絹?lái)自線路側(cè)的告警,或者線路擾動(dòng)導(dǎo)致BFD 會(huì)話機(jī)制失敗這兩種情況。
當(dāng)傳輸網(wǎng)絡(luò)運(yùn)行有問(wèn)題時(shí),往往會(huì)導(dǎo)致告警的產(chǎn)生,告警會(huì)一直下插到下游節(jié)點(diǎn)設(shè)備直至末端的客戶路由器[3]。OTN 網(wǎng)絡(luò)承載的SNCP 電路發(fā)生主備用路由保護(hù)倒換,相當(dāng)于線路側(cè)出現(xiàn)了擾動(dòng),此時(shí)會(huì)導(dǎo)致下游OTN 設(shè)備收到相應(yīng)的告警并一路傳遞到末端的客戶路由器[4]。
根據(jù)G.808.1–保護(hù)倒換時(shí)間模型(如圖3 所示),當(dāng)傳輸電路發(fā)生保護(hù)倒換時(shí),網(wǎng)絡(luò)損傷發(fā)生和流量恢復(fù)正常之間的時(shí)間差,即該電路所承載的受保護(hù)業(yè)務(wù)流量恢復(fù)時(shí)間(Tr)為[5]:
圖3 G.808.1–保護(hù)倒換時(shí)間模型
受OTN 設(shè)備計(jì)時(shí)器設(shè)置和采樣間隔的隨機(jī)影響,網(wǎng)絡(luò)損傷在發(fā)生的第一時(shí)間未必立刻被探測(cè)到,因此即使是同一張網(wǎng)絡(luò)同一個(gè)節(jié)點(diǎn)的故障,上述公式定義的業(yè)務(wù)恢復(fù)時(shí)間也不盡相同,但大部分的行業(yè)標(biāo)準(zhǔn)都主張同一國(guó)家內(nèi)單端倒換完成的時(shí)間需要控制在50 ms 之內(nèi)完成,對(duì)于超長(zhǎng)距跨境段落的倒換時(shí)間則沒(méi)有硬性規(guī)定。
由上可知,線路側(cè)出現(xiàn)擾動(dòng)引發(fā)SNCP 電路發(fā)生保護(hù)倒換,此時(shí)OTN 網(wǎng)絡(luò)會(huì)產(chǎn)生告警并傳遞給下游設(shè)備直至客戶路由器。如果路由器的參數(shù)設(shè)置比較靈敏,路由器有可能會(huì)主動(dòng)關(guān)閉其線路端口。此時(shí)就算OTN 網(wǎng)絡(luò)的電路倒換在幾十毫秒內(nèi)完成,但路由器受設(shè)備性能的限制,線路端口從關(guān)閉(down)到恢復(fù)(up)往往需要長(zhǎng)達(dá)秒級(jí)的時(shí)間。
為了克服這種幾十毫秒級(jí)別的傳輸網(wǎng)絡(luò)擾動(dòng)影響,可以考慮設(shè)置路由器端口的hold time(down)參數(shù),如果線路擾動(dòng)小于設(shè)置的hold time(down)值,則路由器不會(huì)對(duì)該擾動(dòng)做出連鎖反應(yīng)。但在實(shí)際運(yùn)維工作中發(fā)現(xiàn),個(gè)別客戶即使設(shè)置了路由器的hold time 參數(shù),但還是會(huì)出現(xiàn)端口閃斷的情況,此時(shí)有理由懷疑是傳輸電路的保護(hù)倒換動(dòng)作完成時(shí)間過(guò)長(zhǎng),導(dǎo)致業(yè)務(wù)受損時(shí)間(SDT)超出了路由器設(shè)定的hold time(down)或者BFD 參數(shù)值。
為了定位超長(zhǎng)距跨境組網(wǎng)場(chǎng)景下電路保護(hù)倒換對(duì)業(yè)務(wù)的影響程度,搭建了測(cè)試環(huán)境(如圖4 所示)來(lái)做進(jìn)一步的研究。該測(cè)試環(huán)境完全模擬真實(shí)使用場(chǎng)景,例如除了配備跨境傳輸電路和二類運(yùn)營(yíng)商/OTT企業(yè)自身的路由器外,在一側(cè)配備測(cè)試儀模擬客戶設(shè)備的發(fā)包,另一側(cè)配置終端客戶的業(yè)務(wù)路由器。試驗(yàn)中倒換的觸發(fā)條件包含網(wǎng)管強(qiáng)制倒換、關(guān)閉中間站點(diǎn)激光器和長(zhǎng)期觀測(cè)到的自然倒換等。
圖4 測(cè)試環(huán)境示意圖
測(cè)試過(guò)程發(fā)現(xiàn),當(dāng)傳輸電路發(fā)生保護(hù)倒換時(shí),除了檢測(cè)到誤碼(Bit Errors)外,還能檢測(cè)到傳輸網(wǎng)產(chǎn)生的告警會(huì)沿途傳遞并最后到達(dá)客戶路由器,例如Local_Fault,Remote_Fault 和LOF 等(如圖5 所示),此類告警往往會(huì)觸發(fā)路由器做出自動(dòng)關(guān)閉物理端口的動(dòng)作。
在城市化建設(shè)過(guò)程中,政府相關(guān)部門應(yīng)該完善客運(yùn)樞紐體系,將多種交通方式進(jìn)行銜接,充分發(fā)揮出各自的功能,進(jìn)而有效地提升樞紐能級(jí)。為了實(shí)現(xiàn)客運(yùn)樞紐的可持續(xù)性,相關(guān)人員應(yīng)該將功能和規(guī)模作為設(shè)計(jì)的標(biāo)準(zhǔn),不斷優(yōu)化鐵路、軌道交通站點(diǎn)等在城市建設(shè)中的服務(wù)功能,以構(gòu)建完整的客運(yùn)樞紐體系。
圖5 傳輸電路倒換時(shí)下插給客戶設(shè)備的告警
本次測(cè)試使用的電路帶寬為10 Gbit/s,為避免流量擁塞干擾到分析結(jié)果,儀表設(shè)定的業(yè)務(wù)速率為5 Gbit/s,幀長(zhǎng)度為512 字節(jié)。在圖4 所示的HKM 節(jié)點(diǎn)掛測(cè)試儀表模擬客戶設(shè)備的發(fā)包,在另一側(cè)FRA 節(jié)點(diǎn)提供軟環(huán)回。傳輸電路發(fā)生倒換時(shí),從儀表上讀取的STM-64 業(yè)務(wù)和10GE 業(yè)務(wù)受損時(shí)間分別如表1 所示。
從業(yè)務(wù)受損時(shí)間的測(cè)試結(jié)果(如表1 所示)來(lái)看,相同的網(wǎng)絡(luò)倒換STM-64 業(yè)務(wù)和10GE 業(yè)務(wù)受損時(shí)間相差較大,而且觀測(cè)到一次保護(hù)倒換發(fā)生時(shí)測(cè)試儀表會(huì)記錄到10GE 業(yè)務(wù)出現(xiàn)多條SDT 數(shù)據(jù)的情況,初步判斷是因?yàn)?0GE 端口存在緩存,影響到真實(shí)的網(wǎng)絡(luò)倒換數(shù)據(jù)。
表1 測(cè)試儀表直接讀取的業(yè)務(wù)受損時(shí)間表
為了規(guī)避10GE 端口緩存的影響,考慮直接讀取OTN設(shè)備端口記錄的RMON 收發(fā)包數(shù)據(jù),并根據(jù)儀表的發(fā)包速率來(lái)?yè)Q算電路倒換對(duì)業(yè)務(wù)的真實(shí)影響。這種方式需要測(cè)試儀表保持持續(xù)發(fā)包狀態(tài),不能因?yàn)殡娐返箵Q觸發(fā)測(cè)試儀端口關(guān)閉而影響到分析結(jié)果。因此本次測(cè)試在源端HKM節(jié)點(diǎn)的OTN 設(shè)備做了內(nèi)部交叉,將來(lái)自儀表的數(shù)據(jù)包正常轉(zhuǎn)發(fā)給下游節(jié)點(diǎn)的同時(shí),將數(shù)據(jù)流也拷貝并轉(zhuǎn)發(fā)回儀表側(cè),即測(cè)試儀不再接收來(lái)自遠(yuǎn)端環(huán)回的信號(hào),以保證測(cè)試儀表的端口保持持續(xù)發(fā)包狀態(tài)。
正常情況下,儀表的發(fā)包速率=業(yè)務(wù)速率/((包長(zhǎng)+幀間隙)*8),其中幀間隙按照經(jīng)驗(yàn)值取值20 字節(jié)。根據(jù)前述測(cè)試儀表設(shè)定的參數(shù),可以算出本測(cè)試環(huán)境的發(fā)包速率約等于1 174 812 packet/s。
正常情況下如果網(wǎng)絡(luò)運(yùn)行正常,OTN 設(shè)備端口讀取的收發(fā)包數(shù)值應(yīng)該相等,如果發(fā)生保護(hù)倒換事件,則收發(fā)包之差(即丟包數(shù))就是電路倒換造成的實(shí)際影響,根據(jù)丟包數(shù)和前述儀表發(fā)包速率可以折算真實(shí)的業(yè)務(wù)受損時(shí)間。如表2 所示,測(cè)試中發(fā)現(xiàn)如果在FRA 末端節(jié)點(diǎn)的路由器做環(huán)回,統(tǒng)計(jì)中間節(jié)點(diǎn)ERL 的OTN 設(shè)備RMON 數(shù)據(jù)可以算出業(yè)務(wù)受損時(shí)間在100~125 ms 之間。進(jìn)一步摒棄末端FRA 節(jié)點(diǎn)路由器的10GE 端口影響,直接從FRA節(jié)點(diǎn)的OTN 設(shè)備提供環(huán)回,此時(shí)測(cè)試得到的結(jié)果更接近真實(shí)的影響情況,此時(shí)記錄的業(yè)務(wù)受損時(shí)間在200~235 ms之間(如表2 所示)。
表2 通過(guò)RMON 計(jì)數(shù)計(jì)算得到的業(yè)務(wù)受損時(shí)間表
綜上所述,從試驗(yàn)網(wǎng)的測(cè)試結(jié)果來(lái)看,傳輸電路的保護(hù)倒換會(huì)產(chǎn)生告警并下插給客戶路由器,而且在跨國(guó)超長(zhǎng)距串聯(lián)組網(wǎng)這種場(chǎng)景下,電路保護(hù)倒換造成的業(yè)務(wù)受損時(shí)間遠(yuǎn)高于常規(guī)所認(rèn)為的50 ms。
綜合上述設(shè)備工作原理分析以及試驗(yàn)網(wǎng)測(cè)試結(jié)果,可以得出結(jié)論,如果想減少傳輸電路主備路由倒換對(duì)業(yè)務(wù)的影響,需要從傳輸網(wǎng)運(yùn)行的穩(wěn)定性和路由器自身參數(shù)調(diào)優(yōu)兩方面來(lái)解決問(wèn)題。
首先是盡量減少傳輸電路的倒換事件及影響,例如:
(1)減少傳輸網(wǎng)絡(luò)割接的次數(shù),或者將同路由的割接活動(dòng)集中在同一時(shí)間段進(jìn)行,通過(guò)管理手段減少電路發(fā)生保護(hù)倒換的頻次。
(2)如果主備路由時(shí)延相差不大,或者客戶業(yè)務(wù)對(duì)時(shí)延不敏感,可以考慮將保護(hù)倒換方式設(shè)置為非返回式,避免恢復(fù)返回的倒換對(duì)業(yè)務(wù)再次產(chǎn)生影響。
(3)實(shí)際網(wǎng)絡(luò)運(yùn)行中做不到完成杜絕電路的保護(hù)倒換發(fā)生,但可以考慮利用OTN 設(shè)備的特性來(lái)規(guī)避倒換對(duì)業(yè)務(wù)的影響。例如部分廠家的OTN 設(shè)備支持設(shè)置MAC透?jìng)饔成涞姆绞綄?shí)現(xiàn)告警延遲下發(fā)功能(適用于10GE LAN 業(yè)務(wù))。針對(duì)部分對(duì)線路擾動(dòng)比較敏感的IP 組網(wǎng)業(yè)務(wù),在業(yè)務(wù)交付階段可以考慮啟用該功能,避免電路保護(hù)倒換發(fā)生時(shí)下插告警給客戶路由器。
除了上述針對(duì)傳輸網(wǎng)方面的優(yōu)化外,還可以通過(guò)修改客戶路由器參數(shù)配置的方式,進(jìn)一步降低傳輸線路擾動(dòng)對(duì)其IP 業(yè)務(wù)的影響,例如:
(1)客戶路由器的hold time(down)參數(shù)設(shè)置成300 ms,確保傳輸電路保護(hù)倒換產(chǎn)生的毫秒級(jí)擾動(dòng)不影響客戶業(yè)務(wù)。
(2)客戶路由器的BFD 參數(shù)設(shè)置為3×200 ms 甚至3×300 ms,避免傳輸電路倒換時(shí)產(chǎn)生的擾動(dòng)干擾到路由器的BFD 會(huì)話,進(jìn)而減少影響到其所關(guān)聯(lián)的物理端口或BGP 協(xié)議。
針對(duì)大帶寬業(yè)務(wù)的閃斷投訴,本文通過(guò)深入了解客戶路由器閃斷以及OTN 電路倒換的機(jī)理,通過(guò)組建超長(zhǎng)距試驗(yàn)網(wǎng)來(lái)驗(yàn)證分析結(jié)果,充分掌握了造成客戶路由器閃斷的底層根本原因。本文開(kāi)創(chuàng)性地提出了傳輸網(wǎng)絡(luò)和路由器參數(shù)配置的優(yōu)化建議,并在實(shí)際工作中應(yīng)用該配置模板,經(jīng)過(guò)一段時(shí)間實(shí)際運(yùn)行的觀察,發(fā)現(xiàn)上述配置有效降低了客戶對(duì)于業(yè)務(wù)閃斷方面的投訴,本文提出的多項(xiàng)優(yōu)化措施達(dá)到預(yù)期的效果。