王文清 劉才華
摘 要:在全球能源互聯(lián)網(wǎng)背景下,安全穩(wěn)定的電力系統(tǒng)是生產(chǎn)力發(fā)展的重要保障,而電力系統(tǒng)調(diào)度和信息數(shù)據(jù)是電網(wǎng)自動化的基礎(chǔ),數(shù)據(jù)的重要性不言而喻。電力數(shù)據(jù)網(wǎng)絡(luò)系統(tǒng)的可靠性要求極高,我們?nèi)绾尾拍鼙U喜⒉粩嗵岣唠娏?shù)據(jù)網(wǎng)的可靠性,本文詳細(xì)闡述了數(shù)據(jù)網(wǎng)絡(luò)五個(gè)層次可靠性的設(shè)計(jì)方法和技巧,同時(shí)從三個(gè)方面介紹了常用可靠性技術(shù)。
關(guān)鍵詞:電力系統(tǒng);數(shù)據(jù)網(wǎng)絡(luò);可靠性
電力數(shù)據(jù)通信網(wǎng)是綜合性的廣域網(wǎng)絡(luò)傳輸平臺,是電力系統(tǒng)內(nèi)各種計(jì)算機(jī)應(yīng)用系統(tǒng)實(shí)現(xiàn)互聯(lián)的基礎(chǔ),是電力信息基礎(chǔ)設(shè)施的重要組成部分。眾所周知,安全穩(wěn)定的電力系統(tǒng)是生產(chǎn)力發(fā)展的重要保障,而電力系統(tǒng)的調(diào)度和信息數(shù)據(jù)是電網(wǎng)自動化的基礎(chǔ),其數(shù)據(jù)的重要性不言而喻。電力數(shù)據(jù)網(wǎng)絡(luò)系統(tǒng)的可靠性要求極高,達(dá)到電信級承載網(wǎng)的要求。隨著電力市場化的進(jìn)一步發(fā)展,采用自頂向下的網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)方法,在各個(gè)層次中從不同方面選取適合的可靠性保障機(jī)制,并綜合統(tǒng)一是電力數(shù)據(jù)網(wǎng)絡(luò)建設(shè)的必然趨勢。
1 數(shù)據(jù)網(wǎng)絡(luò)可靠性
1.1 電力數(shù)據(jù)網(wǎng)絡(luò)可靠性標(biāo)準(zhǔn)
可靠性較為公認(rèn)的定義是元件、產(chǎn)品、系統(tǒng)在一定時(shí)間內(nèi)、在一定條件下無故障地執(zhí)行指定功能的能力或可能性。理論上衡量一套數(shù)據(jù)網(wǎng)絡(luò)系統(tǒng)優(yōu)良與否的指標(biāo)主要包括功能指標(biāo)和性能指標(biāo),性能指標(biāo)包括可用性、可靠性、可維護(hù)性和安全性。在現(xiàn)實(shí)實(shí)現(xiàn)中,運(yùn)營商在開展通信業(yè)務(wù)時(shí),最關(guān)心的三個(gè)因素是網(wǎng)絡(luò)的可靠性、網(wǎng)絡(luò)的可用性和網(wǎng)絡(luò)故障的處理能力,這三個(gè)因素都屬于可靠性范疇。
電力系統(tǒng)是國家經(jīng)濟(jì)發(fā)展的推進(jìn)器,其數(shù)據(jù)的重要性不言而喻。電力網(wǎng)絡(luò)系統(tǒng)的可靠性不僅是技術(shù)指標(biāo),也是質(zhì)量管理的一貫要求,其遵循了6σ的標(biāo)準(zhǔn),網(wǎng)絡(luò)設(shè)備的可用性要求達(dá)到99.999%,大致相當(dāng)于設(shè)備在一年的連續(xù)運(yùn)行中因各種可能原因造成停機(jī)維護(hù)的時(shí)間少于5分鐘,顯而易見超過了普通的民用網(wǎng)絡(luò),達(dá)到電信級承載網(wǎng)的要求。作為業(yè)務(wù)承載主體的基礎(chǔ)網(wǎng)絡(luò),其可靠性也因此成為日益關(guān)注的焦點(diǎn)。
1.2 可靠性技術(shù)矩陣
按照設(shè)備級、節(jié)點(diǎn)級、鏈路級、網(wǎng)絡(luò)級和網(wǎng)間級五個(gè)保障級別分別闡述。技術(shù)方面,分為備份保護(hù)技術(shù)、冗余保護(hù)技術(shù)和檢測技術(shù)三個(gè)方面。其中備份保護(hù)技術(shù)定義為被動的保護(hù)技術(shù),在平時(shí)系統(tǒng)處于正常狀態(tài)時(shí),將不起作用;冗余保護(hù)技術(shù)定義為主動的保護(hù)技術(shù),不僅具備故障時(shí)的備份能力,在正常狀態(tài)時(shí)還可進(jìn)行負(fù)載分擔(dān)等工作;故障檢測技術(shù)則是為保護(hù)技術(shù)的啟動服務(wù)的故障發(fā)現(xiàn)和報(bào)告技術(shù)。依此劃分原則,形成可靠性技術(shù)矩陣(見表一)。
通常來說,冗余保護(hù)技術(shù)因?yàn)榧劝Wo(hù)功能,又具備負(fù)載均衡能力,比備份保護(hù)技術(shù)更為先進(jìn),但冗余保護(hù)有時(shí)會帶來額外的投資,或某些技術(shù)僅限于某個(gè)廠家擁有,因此實(shí)際設(shè)計(jì)中是采用備份保護(hù)還是冗余保護(hù),需要視情況而定。對于網(wǎng)絡(luò)系統(tǒng)中的某些關(guān)鍵部分,采用備份保護(hù)往往簡潔而有效。
2 層次化可靠性設(shè)計(jì)
要實(shí)現(xiàn)電信級IP運(yùn)營,就必須在保證高帶寬、低時(shí)延、低丟包率等服務(wù)質(zhì)量的同時(shí),解決IP承載網(wǎng)的可靠性問題。這涉及到從設(shè)備級可靠性保證,到局部網(wǎng)絡(luò)級可靠性保證,再到全網(wǎng)級可靠性保證的每一個(gè)環(huán)節(jié)。
本章節(jié)將從設(shè)備、節(jié)點(diǎn)、鏈路、網(wǎng)絡(luò)和網(wǎng)間五個(gè)從小到大,從局部到全局的層次順序,對如何選用可靠性技術(shù)進(jìn)行設(shè)計(jì)加以闡述。
2.1 設(shè)備的可靠性
網(wǎng)絡(luò)設(shè)備是組成多業(yè)務(wù)IP承載網(wǎng)的基本節(jié)點(diǎn),其可靠性是整網(wǎng)可靠性的基礎(chǔ),因此設(shè)備的可靠性成為整個(gè)系統(tǒng)可靠性的基礎(chǔ)。
各網(wǎng)絡(luò)設(shè)備的生產(chǎn)廠家對于設(shè)備可靠性的追求一直不遺余力,從最早的使用CPU作為運(yùn)算器的設(shè)備設(shè)計(jì),進(jìn)化到如今主流的NP+ASIC搭配,采用數(shù)據(jù)轉(zhuǎn)發(fā)平面、控制平面和系統(tǒng)管理平面的分立設(shè)計(jì),路由引擎(Routing Engine)和管理引擎(Management Engine)相分離,分布式硬件線速轉(zhuǎn)發(fā)技術(shù),在提高數(shù)據(jù)設(shè)備性能的同時(shí),也從根本上改進(jìn)了設(shè)備板件級的可靠性。
在此基礎(chǔ)上,主流網(wǎng)絡(luò)設(shè)備的關(guān)鍵部件,包括主控單元、交換單元、電源、制冷系統(tǒng)等,都可采用熱備份設(shè)計(jì),這是保證電信級IP承載網(wǎng)可靠性的最基本要求。
在網(wǎng)絡(luò)運(yùn)營過程中,即使主控單元采用了冗余備份技術(shù),在主控單元倒換期間,由于相鄰的網(wǎng)絡(luò)設(shè)備會中斷原有的連接關(guān)系,導(dǎo)致數(shù)據(jù)包無法繼續(xù)轉(zhuǎn)發(fā),從而引起業(yè)務(wù)中斷。
于是出現(xiàn)了HA、GR和NSR等技術(shù)力圖在主控單元倒換期間,繼續(xù)維持鄰居連接狀態(tài)和報(bào)文轉(zhuǎn)發(fā),進(jìn)而保持業(yè)務(wù)轉(zhuǎn)發(fā)不中斷。同時(shí)注意在業(yè)務(wù)板件進(jìn)行冗余設(shè)計(jì)的同時(shí),將上下聯(lián)鏈路分配于不同的業(yè)務(wù)板卡上。
2.2 節(jié)點(diǎn)的可靠性
節(jié)點(diǎn)可靠性是設(shè)備可靠性的進(jìn)一步發(fā)展。如何使節(jié)點(diǎn)失效幾率更小,穩(wěn)定性提高,主要的設(shè)計(jì)思路是采用雙設(shè)備或設(shè)備組進(jìn)行互備,以保證在其中一臺或幾臺設(shè)備失去工作能力的情況下不至于導(dǎo)致此節(jié)點(diǎn)從整個(gè)網(wǎng)絡(luò)系統(tǒng)中脫離。
VRRP和HSRP技術(shù)可用于將兩臺以上設(shè)備組成設(shè)備組并選舉出一臺設(shè)備作為主設(shè)備,利用其自帶的檢測機(jī)制,在檢測到主設(shè)備故障的時(shí)候從容將備設(shè)備推至前臺,代替主設(shè)備進(jìn)行業(yè)務(wù)轉(zhuǎn)發(fā)。而GLBP不僅可以支持備份,更能夠提供負(fù)載分擔(dān),實(shí)現(xiàn)冗余功能。
但對于可靠性的要求是永遠(yuǎn)沒有止境的,于是在數(shù)通設(shè)備上出現(xiàn)了虛擬化技術(shù),二層設(shè)備可以使用堆疊(Stack)技術(shù)使若干臺交換機(jī)作為一臺來使用和管理,而思科則率先推出了VSS技術(shù),眾多安全設(shè)備廠家則多用設(shè)備間HA來進(jìn)入這一層次。節(jié)點(diǎn)的可靠性設(shè)計(jì)中還可以考慮使用更加敏感的BFD和OAM等檢測手段,配合VRRP等備份和冗余協(xié)議,進(jìn)一步細(xì)化節(jié)點(diǎn)故障檢測的粒度,使中斷時(shí)間能夠達(dá)到50ms級別。(下轉(zhuǎn)第154頁)(上接第152頁)
對于設(shè)備組的上下行路由,均要進(jìn)行相應(yīng)的雙歸設(shè)計(jì)。
2.3 鏈路的可靠性
設(shè)計(jì)的目的在于保證節(jié)點(diǎn)間端到端的可靠數(shù)據(jù)傳輸。鏈路可靠性由兩個(gè)層次決定,首先是通信信道的可靠性保障能力,其次是數(shù)據(jù)鏈路的可靠性設(shè)計(jì)。
通信信道的可靠性可以通過SDH/SONET或PON技術(shù)自帶的保護(hù)倒換功能提供,這種保護(hù)雖然只能提供備份,但在故障的反應(yīng)速度方面具有很大優(yōu)勢,因此現(xiàn)在的大多數(shù)數(shù)據(jù)中心內(nèi)部組網(wǎng)方案也推崇使用POS口進(jìn)行Full Mesh全連接的方式進(jìn)行鏈路保障。
接口備份是比較早的用于數(shù)據(jù)鏈路可靠性保障的技術(shù),但幾乎已被之后出現(xiàn)的各種具有冗余能力的保障技術(shù)所淘汰。如PPP協(xié)議可以通過MP-GROUP和Virtual-Template兩種方式創(chuàng)建MP,對于Ethernet,可以使用Aggregation進(jìn)行聚合,使多條物理鏈路正常時(shí)能夠全部在用。
同時(shí)聚合技術(shù)還可以用于三層鏈路。鏈路的檢測一般使用BFD和Track等技術(shù)進(jìn)行快速檢測,有些廠家設(shè)備還支持NQA與Track等協(xié)議的聯(lián)動,對鏈路出現(xiàn)的問題進(jìn)行快速檢測,提高鏈路可靠性。
2.4 網(wǎng)絡(luò)的可靠性
網(wǎng)絡(luò)的可靠性可理解為在網(wǎng)絡(luò)局部出現(xiàn)停擺故障時(shí)整個(gè)網(wǎng)絡(luò)的自愈能力。網(wǎng)絡(luò)級可靠性的技術(shù)運(yùn)用的非常成熟了,如較大的二層網(wǎng)絡(luò)主要通過STP/PVST或RSTP等協(xié)議,在避免環(huán)路的同時(shí)也對網(wǎng)絡(luò)進(jìn)行備份保護(hù)。
而使用MSTP可以通過將不同VLAN的流量進(jìn)行分別部署,可以達(dá)到冗余的目標(biāo)。三層網(wǎng)絡(luò)使用動態(tài)路由協(xié)議進(jìn)行選路和備份,對于關(guān)鍵路徑可人工部署FRR進(jìn)行備份保護(hù)。
雖然TE目前只實(shí)現(xiàn)了部分功能,還無法實(shí)現(xiàn)RFC中設(shè)計(jì)的流量負(fù)載均衡的冗余級保護(hù),但相信終有一天會有所突破,到時(shí)也會成為MPLS網(wǎng)絡(luò)核心匯聚層實(shí)現(xiàn)高可靠性的另一利器。
另有一些有助于可靠性提升的技巧可以用在多AS網(wǎng)絡(luò)的設(shè)計(jì)中,例如往往在AS或AREA邊界使用路由策略來過濾和聚合路由,以在AS或AREA邊界隔離路由震蕩。在部署路由反射器(RR)的BGP域中,常常設(shè)置若干RR形成RR組進(jìn)行反射器的備份。而在故障檢測方面,除了各IGP自有的鄰接關(guān)系保持機(jī)制外,F(xiàn)RR通常需要BFD、Track、OAM等檢測手段才能有效且高效地工作。而SNMP實(shí)際也是一種檢測手段,雖然目前無法與其它保護(hù)技術(shù)聯(lián)動,但其Trap信息可將故障反映到網(wǎng)管上,方便網(wǎng)絡(luò)管理員處理。
2.5 網(wǎng)間的可靠性
很少有網(wǎng)絡(luò)能夠運(yùn)用到網(wǎng)間級的可靠性設(shè)計(jì),除非那些超大型的網(wǎng)絡(luò)且有非常高的可靠性要求。網(wǎng)間的可靠性是立于網(wǎng)絡(luò)級可靠性之上,更進(jìn)一步的要求。
這種要求的設(shè)計(jì)實(shí)現(xiàn)很難通過某些具體技術(shù)能夠?qū)崿F(xiàn),而是要從整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)來考慮,通過AS間的結(jié)構(gòu)和業(yè)務(wù)流向的設(shè)計(jì),在下向?qū)哟瓮ㄟ^各種保護(hù)技術(shù)取得的可靠性基礎(chǔ)之上獲得更高層次的保障。
網(wǎng)間可靠性設(shè)計(jì)的總體思路是通過將各AS分級,形成不同作用級別的AS,利用AS對AS進(jìn)行備份保護(hù)。在某些關(guān)鍵層次,還可以建設(shè)雙平面AS,力圖達(dá)到網(wǎng)間冗余。
3 結(jié)論
隨著“全球能源互聯(lián)網(wǎng)”構(gòu)想成為提升為國家戰(zhàn)略,信息技術(shù)的支撐作用越發(fā)重要,其中數(shù)據(jù)網(wǎng)絡(luò)作為關(guān)鍵基礎(chǔ)設(shè)施,其可靠性要求將會越來越高。
近年來業(yè)內(nèi)提出了很多新的可靠性技術(shù),但都未脫離以上可靠性層次框架。電力信息化從業(yè)人員宜首先掌握可靠性的層次化設(shè)計(jì)思路,分析網(wǎng)絡(luò)層級和業(yè)務(wù)需求,在投入有限的情況下,優(yōu)先考慮增加層次,避免在同一層次中堆砌多項(xiàng)技術(shù)而忽視了其它層次,提高資金利用率,獲得更好的可靠性收益。
參考文獻(xiàn):
[1] 劉冬.IP承載的可靠性準(zhǔn)則.華為技術(shù),2007,1.
[2] 錢君霞,沈泓,霍雪松.江蘇電網(wǎng)110、35kV變電站電力調(diào)度數(shù)據(jù)網(wǎng)絡(luò)的建設(shè)與實(shí)施.中國電力,2008.10.
[3] 高雪生,陳冰.如何提高電力調(diào)度數(shù)據(jù)網(wǎng)承載業(yè)務(wù)可靠性.中國信息化(學(xué)術(shù)版),2013,06.
作者簡介:
王文清(1984-),女,本科,主要從事科研及管理工作,安徽繼遠(yuǎn)軟件有限公司;劉才華(1983-),男,本科,主要從事信息通信技術(shù)研究和管理工作,安徽繼遠(yuǎn)軟件有限公司。