關(guān)夢婷,李花順
(1.武漢郵電科學研究院,湖北武漢 430074;2.國網(wǎng)吉林市供電公司,吉林吉林 132001)
業(yè)務(wù)流量幾何式地爆炸增長標志著萬物互聯(lián)時代的到來,在這種情況下,全光網(wǎng)應(yīng)運而生,同時智能光網(wǎng)絡(luò)也向?qū)嵱没哪繕瞬粩喟l(fā)展[1]。在自動交換光網(wǎng)絡(luò)(Automatically Switched Optical Network,ASON)的基礎(chǔ)上,優(yōu)化后最終實現(xiàn)E2E 的智能光網(wǎng)絡(luò)稱為波長交換光網(wǎng)絡(luò)(Wavelength Switched Optical Network,WSON)。WSON 集成了ASON 的傳統(tǒng)功能,此外還具有解決波長智能調(diào)度問題的能力,同時具有自動發(fā)現(xiàn)波長的能力[2]。文中研究光網(wǎng)絡(luò)的生存性,并提出一種新的基于WSON 控制平面的OAOSC(Optical Amplifier-Optical Supervisory Channel)聯(lián)合告警算法,并用烽火通信公司的設(shè)備進行五節(jié)點拓撲實驗,驗證該算法的實現(xiàn)與合理性,總結(jié)該算法的優(yōu)點。
WSON 三大平面包括傳送平面(TP)、管理平面(MP)、控制平面(CP)[3]。三大平面之間通過不同的接口實現(xiàn)交互,NMI-T 為傳送平面與管理平面的接口,NMI-A 為管理平面與控制平面的接口,CCI 為傳送平面與控制平面的接口,具體模型如圖1 所示。傳送平面完成業(yè)務(wù)的傳送,管理平面完成對控制平面和傳送平面的管理,控制平面完成資源的自動發(fā)現(xiàn)和連接的自動化[4]。
圖1 WSON三大平面與三大接口
WSON 三大功能包括資源自動發(fā)現(xiàn)、業(yè)務(wù)自動部署、故障自動恢復。當網(wǎng)絡(luò)故障時,WSON 啟動自動保護與恢復,這是WSON 功能的核心??刂破矫娴娜髤f(xié)議為鏈路管理協(xié)議(LMP)、信令協(xié)議即資源預(yù)留協(xié)議(RSVP)、路由協(xié)議即開放式最短路徑優(yōu)先協(xié)議(OSPF)[5]。LMP 完成資源的自動發(fā)現(xiàn)功能;RSVP 完成連接管理功能;OSPF 完成路由泛洪等功能。
是否加載控制平面是智能光網(wǎng)絡(luò)與傳統(tǒng)光網(wǎng)絡(luò)最大的區(qū)別。在傳送平面檢測到業(yè)務(wù)、連接故障之后,即向控制平面發(fā)送告警,控制平面隨即自動啟動保護、恢復等操作,這是網(wǎng)絡(luò)智能化的關(guān)鍵。因此,WSON 具有很強的智能性和生存性。WSON 與ASON在控制平面的主要區(qū)別為WSON 更多地集中于光層。控制平面可以對光網(wǎng)絡(luò)中的端到端連接進行動態(tài)控制,實現(xiàn)連接的動態(tài)建立、拆除及網(wǎng)絡(luò)資源的自動發(fā)現(xiàn)與動態(tài)分配[5]??刂破矫鎱f(xié)議及接口模型圖如圖2 所示。
圖2 控制平面協(xié)議及接口模型圖
光網(wǎng)絡(luò)的生存性是網(wǎng)絡(luò)抵制故障干擾的能力,具體表現(xiàn)為當網(wǎng)絡(luò)發(fā)生故障時將業(yè)務(wù)倒換至替代路由或保護路由上,使網(wǎng)絡(luò)恢復或維持在穩(wěn)定的業(yè)務(wù)水平。光網(wǎng)絡(luò)生存性技術(shù)一般可分為兩種:保護和恢復。WSON 中的保護和恢復在光層實現(xiàn),主要特點是高速響應(yīng)以及高速實現(xiàn)[6]。
基于控制平面的保護恢復機制主要包括三種:保護、恢復、保護和恢復相結(jié)合[7]。光層的保護主要可分為光復用段層保護(OMSP)以及光通道層保護(OCP)等。WSON 可兼容傳統(tǒng)OTN 保護機制,能夠抵抗多次光纜故障,從而增強整個網(wǎng)絡(luò)的可靠性。引入WSON 控制平面后,網(wǎng)絡(luò)采用重路由恢復策略,可提高網(wǎng)絡(luò)整體利用率[8]。
WSON 的保護是指在加載業(yè)務(wù)之前預(yù)先計算保護路徑,此時保護路徑資源處于占用狀態(tài),當業(yè)務(wù)原始路徑發(fā)生故障后,業(yè)務(wù)倒換至保護路徑,避免業(yè)務(wù)中斷,保護類的業(yè)務(wù)稱為1+1 保護業(yè)務(wù),例如光層普通1+1 業(yè)務(wù)與光層永久1+1 業(yè)務(wù)。WSON 的恢復是指在故障發(fā)生后,重新計算一條路徑,之后將業(yè)務(wù)倒換至該路徑上,從而保證業(yè)務(wù)不會中斷,這一類故障后才算路的業(yè)務(wù)稱為恢復類業(yè)務(wù),例如重路由,恢復并不需要事先計算保護路徑。恢復方式采用的算路算法與網(wǎng)絡(luò)選路一致,其實質(zhì)都為在網(wǎng)絡(luò)空閑資源中選出一條新的可用路徑。WSON 中的保護恢復是動態(tài)建立的,因此極大提高了網(wǎng)絡(luò)的靈活性。當檢測到業(yè)務(wù)出現(xiàn)故障時,WSON 控制平面收到下游上報的告警報文,在具體分析故障后根據(jù)故障原因發(fā)起保護和恢復,最終在網(wǎng)絡(luò)資源允許的情況下,將發(fā)生故障的業(yè)務(wù)恢復到正常狀態(tài),即實現(xiàn)連接的動態(tài)調(diào)度。通常來說,保護的倒換時間在幾十毫秒以內(nèi),通常為10 ms;恢復的倒換時間一般在400~800 ms 的范圍內(nèi)完成[9]。保護與恢復方式對比表如表1 所示。
表1 保護與恢復方式對比表
光網(wǎng)絡(luò)中可能發(fā)生不同類型的故障,故障的發(fā)生往往會導致業(yè)務(wù)大面積中斷,引起網(wǎng)絡(luò)癱瘓等問題。告警是故障檢測和故障定位的前提,能夠產(chǎn)生告警的功能或模塊可以稱為“檢測點”,每個告警都屬于一個檢測點,且都有告警原因,故此告警可以設(shè)置一個“告警唯一標識”。告警原因、告警檢測點和告警唯一標識三元組共同確定一個告警[10]。當一LSP 或跨距段失效時,其恢復操作可按順序分為以下五步:故障檢測、故障定位、故障通告、網(wǎng)絡(luò)恢復和業(yè)務(wù)復原[11-15]。
當發(fā)生故障產(chǎn)生告警時,網(wǎng)絡(luò)需向上層平面?zhèn)魉透婢?,從而使控制平面能感知到故障,并進行相應(yīng)的保護或恢復動作,實現(xiàn)智能控制。
WSON 中網(wǎng)元節(jié)點間的故障稱為線路側(cè)故障,這類故障由OSC 向控制平面進行通告,進而觸發(fā)保護倒換功能。在DWDM 系統(tǒng)中,OSC 是傳輸通道,其功能為在相鄰節(jié)點間傳送監(jiān)控信息、管理開銷、自動保護倒換等。OSC 告警無法覆蓋實際工程中的某些場景,例如網(wǎng)元節(jié)點內(nèi)部故障及WSS 連纖、上下話、放大器的連纖故障等[16]。
WSON 控制平面通過設(shè)置定時器,在業(yè)務(wù)建立完成并加載保護通道之后,周期性檢測OTU 告警,當檢測到OTU 告警后,觸發(fā)業(yè)務(wù)保護倒換功能。采用OTU 告警能夠增加告警場景,可以有效解決長距離傳輸信號質(zhì)量差、網(wǎng)元節(jié)點架內(nèi)連纖故障等問題[16]。OTU 告警與OSC 告警并不沖突,OSC 檢測線路側(cè)故障,OTU 檢測網(wǎng)元內(nèi)部故障,二者可結(jié)合起來共同用于WSON 業(yè)務(wù)的保護與恢復功能中。
WSON 控制平面在工程上常采用OTU 告警,但目前OTU 告警存在無法具體得知故障節(jié)點的問題,故控制平面在收到告警觸發(fā)業(yè)務(wù)倒換重新算路時無法排除故障節(jié)點,這將會大大浪費業(yè)務(wù)倒換的時間。在此基礎(chǔ)上,文中提出一種新的告警算法,即在傳統(tǒng)OSC 告警之上加入對OA 狀態(tài)的描述,組成OAOSC 聯(lián)合告警算法,目的為向控制平面上報具體故障信息。該算法的提出可有效解決OTU 告警算法的缺陷,節(jié)省業(yè)務(wù)倒換所需時間。該算法的設(shè)計需同時考慮光監(jiān)控信道的狀態(tài)與光通道的狀態(tài),故最終將會出現(xiàn)4 種狀態(tài)信息,如圖3 所示。
圖3 告警字段上報結(jié)果
算法具體實現(xiàn)過程:當光監(jiān)控信道與光通道狀態(tài)發(fā)生變化時,光監(jiān)控信道單元將攜帶光通道和光監(jiān)控信道當前狀態(tài)信息的告警報文發(fā)送到控制平面,控制平面內(nèi)的決策模塊在收到兩者組合狀態(tài)信息的告警報文后,按照規(guī)則判斷是否進行鏈路更新與業(yè)務(wù)倒換。告警與WSON 控制平面交互流程如圖4 所示。以重路由業(yè)務(wù)為例,在節(jié)點A 與節(jié)點B 之間建立帶返回重路由業(yè)務(wù),波長選擇開關(guān)(Wavelength Selective Switch,WSS)打開A-B 開關(guān),此時若斷開A-B 之間的光纜,則光監(jiān)控信道故障,A-B 之間主光道也會發(fā)生故障,上報OSC_FAULT_OA_FAULT 到控制平面,此時,控制平面進行業(yè)務(wù)倒換并將鏈路設(shè)置為不可用,業(yè)務(wù)重路由至A-C-B,此時WSS 端口開關(guān)情況為A-B 保留,但A-B 鏈路不可用。之后對A-B 之間鏈路進行恢復,監(jiān)控信道恢復,光監(jiān)控信道單元向控制平面發(fā)送OSC_OK_OA_FAULT,此時決策模塊對WSS 端口記錄進行檢索,判定之前有業(yè)務(wù)經(jīng)過,成功觸發(fā)返回流程,將鏈路資源恢復為可用,業(yè)務(wù)返回到A-B,當業(yè)務(wù)穩(wěn)定后上報OSC_OK_OA_OK,無動作。
圖4 告警與WSON控制平面交互流程
該算法設(shè)計的控制平面內(nèi)決策模塊的功能有:1)根據(jù)WSS 的歷史記錄判定該鏈路上是否曾有業(yè)務(wù)經(jīng)過,若有則觸發(fā)業(yè)務(wù)返回流程,并將鏈路恢復為可用;若無,則不進行任何操作,將鏈路恢復為可用;2)決策模塊判斷當前業(yè)務(wù)是否為帶返回業(yè)務(wù),若為帶返回業(yè)務(wù),則保留本端與對端之間的WSS 端口配置;若為非返回業(yè)務(wù),則不保留WSS 端口配置,并在業(yè)務(wù)倒換后,刪除本端節(jié)點和對端節(jié)點之間的當前端口配置。
OA-OSC 聯(lián)合告警算法可以根據(jù)鏈路和信道的實時狀態(tài)進行復雜的鏈路和業(yè)務(wù)管理,進一步提高網(wǎng)絡(luò)的穩(wěn)定性。OA-OSC 聯(lián)合告警算法的優(yōu)點為:1)光監(jiān)控信道單元向控制平面發(fā)送的告警信息同時包括光通道和光監(jiān)控信道的當前狀態(tài)信息,可以實現(xiàn)根據(jù)鏈路和業(yè)務(wù)的實時狀態(tài)進行復雜的鏈路和業(yè)務(wù)管理,從而提高網(wǎng)絡(luò)傳輸?shù)姆€(wěn)定性和效率。2)在光監(jiān)控信道版本升級或者光監(jiān)控信道單元更換等情況下,避免由于光監(jiān)控信道告警引起業(yè)務(wù)倒換所造成的業(yè)務(wù)中斷,同時滿足光監(jiān)控信道的維護需要。3)在原有的光監(jiān)控信道告警報文的基礎(chǔ)上,告警報文僅需修改端口狀態(tài)字段的值,從而充分利用光監(jiān)控信道和控制平面之間的現(xiàn)有通信配置,有利于在現(xiàn)有網(wǎng)絡(luò)設(shè)備上實現(xiàn)提出的創(chuàng)新方法[17]??刂破矫媾c光監(jiān)控信道以及光送放大器之間的交互模型如圖5所示。
圖5 控制平面與光監(jiān)控信道以及光送放大器之間的交互模型
利用烽火通信公司的設(shè)備進行對比實驗,以驗證新機制的優(yōu)點。構(gòu)造某個五節(jié)點拓撲,建立源節(jié)點1 到宿節(jié)點3 之間的業(yè)務(wù),此時業(yè)務(wù)在1-2-3 上,如圖6 所示。當節(jié)點1 和節(jié)點2 之間產(chǎn)生故障時,若此時用OTU 告警觸發(fā)業(yè)務(wù)自動倒換,業(yè)務(wù)按照最少路徑路由算法重新算路,OTU 告警無法告知具體哪兩個節(jié)點之間產(chǎn)生故障,所以控制平面自動算路到1-2-5-3 或1-4-5-3 上,若先算通1-2-5-3,倒換至該條路由上,如圖7 所示,經(jīng)過業(yè)務(wù)穩(wěn)定時間(此實驗設(shè)為6 ms)后,業(yè)務(wù)倒換失敗,重新算路后倒換至1-4-5-3,如圖8 所示,再次經(jīng)過一個業(yè)務(wù)穩(wěn)定時間之后,業(yè)務(wù)倒換成功,此時在網(wǎng)管界面上顯示業(yè)務(wù)倒換成功的用時為12 ms。若此時用OA-OSC 聯(lián)合告警算法觸發(fā)業(yè)務(wù)自動倒換,業(yè)務(wù)按照最少路徑路由算法,由于該告警算法可以通告哪兩個節(jié)點之間鏈路不通,故控制平面算路排除1-2 節(jié)點之間的故障路徑,會直接算路到1-4-5-3,如圖9 所示,業(yè)務(wù)倒換成功,此時在網(wǎng)管界面上顯示業(yè)務(wù)倒換成功的用時為6 ms。該實驗驗證采用OA-OSC 告警算法能告知控制平面哪些鏈路不可用,在算路時排除故障節(jié)點,提高算路成功的概率,如此可減少業(yè)務(wù)倒換時間,有利于業(yè)務(wù)恢復,進一步提高控制平面的效率。
圖6 路由1
圖7 路由2
圖8 路由3
圖9 路由4
隨著網(wǎng)絡(luò)業(yè)務(wù)流量的增長,光網(wǎng)絡(luò)各方面技術(shù)在不斷提高,對網(wǎng)絡(luò)的生存性技術(shù)要求也越來越高。增加告警類型能覆蓋更多告警場景,從而處理更多的網(wǎng)絡(luò)故障情況。告警是保護與恢復機制實現(xiàn)的前提,文中提出的OA-OSC 聯(lián)合告警算法在實際工程應(yīng)用中可進一步節(jié)省業(yè)務(wù)倒換時間,進而提高網(wǎng)絡(luò)效率和穩(wěn)定性,同時進一步完善網(wǎng)絡(luò)生存性。但目前告警機制可檢測到的網(wǎng)絡(luò)故障場景仍然有限,仍需繼續(xù)研究不斷完善。