摘 要 對于一個實時數(shù)據(jù)處理系統(tǒng)而言,具有一個穩(wěn)定、可靠的網(wǎng)絡(luò)系統(tǒng)是其首要的基礎(chǔ)性前提。本文在設(shè)備級可靠性、鏈路層保護、網(wǎng)絡(luò)層保護三方面,分別采用雙主控主備機制、Trunk鏈路聚合技術(shù)、BFD雙向轉(zhuǎn)發(fā)檢測等技術(shù)對網(wǎng)絡(luò)可靠性進行了分析與設(shè)計,并對關(guān)鍵節(jié)點進行了實際測試,各項指標(biāo)均能夠滿足實時數(shù)據(jù)處理系統(tǒng)要求。
【關(guān)鍵詞】網(wǎng)絡(luò)可靠性 設(shè)備級可靠性 鏈路層保護 網(wǎng)絡(luò)層保護
1 引言
實時數(shù)據(jù)處理系統(tǒng)作為一個大系統(tǒng)的數(shù)據(jù)中心,通常要與外部進行大量的信息匯集分發(fā),在內(nèi)部進行信息處理與交換等業(yè)務(wù),信息被準(zhǔn)確快速的傳遞就需要一個高穩(wěn)定、高可靠的網(wǎng)絡(luò)系作為其有效支撐,否則實時數(shù)據(jù)處理系統(tǒng)將無法發(fā)揮其應(yīng)有的作用。
影響網(wǎng)絡(luò)系統(tǒng)可靠性的主要因素包括:硬件設(shè)備、鏈路、供電、網(wǎng)絡(luò)設(shè)計等,網(wǎng)絡(luò)出現(xiàn)故障后,將導(dǎo)致系統(tǒng)無法對外提供正常服務(wù)。對于這些故障的一般解決方式就是簡單的冗余設(shè)計,通過對設(shè)備、鏈路、供電等提供備份。但是冗余設(shè)計只是整個網(wǎng)絡(luò)可靠性設(shè)計的一個方面,單純的進行冗余備份反而會降低可用性,從而減小冗余所帶來的優(yōu)點,因為單純的冗余備份也會引入一些缺點:
(1)提高網(wǎng)絡(luò)復(fù)雜度;
(2)加重網(wǎng)絡(luò)負擔(dān);
(3)增加配置和管理的復(fù)雜度。
網(wǎng)絡(luò)的高可靠設(shè)計是在提高網(wǎng)絡(luò)的冗余性的同時,還需要加強網(wǎng)絡(luò)構(gòu)架的優(yōu)化,從而實現(xiàn)真正的高可用。本文針對工程實際使用案例,對所需的網(wǎng)絡(luò)系統(tǒng)進行了分析與設(shè)計,并對關(guān)鍵節(jié)點進行了實際測試,結(jié)果表明,該網(wǎng)路系統(tǒng)設(shè)計合理、可靠性較高,能夠滿足實際使用需求。
2 設(shè)備級可靠性設(shè)計
通過熱備技術(shù)、靈活配置恢復(fù)以及關(guān)鍵部件冗余使設(shè)備級可靠性增強,將設(shè)備故障對系統(tǒng)整體的沖擊減到最小。對系統(tǒng)中處于核心部位的設(shè)備采用以下三方面的可靠性技術(shù):
2.1 主控板熱備
核心交換機均配置兩塊控制板,本別稱為主用控制板和備用控制板。其中,主用控制板對外完成系統(tǒng)的工作,進行對外通信;備用控制板作為主用控制板的備份,處于熱備狀態(tài),但不對外進行通信。當(dāng)主用控制板故障時,系統(tǒng)進行自動切換,由備用控制板作為主用控制板進行對外通信。
2.2 靈活配置恢復(fù)
核心設(shè)備具備板卡、磁盤等部件的熱插拔能力,能在不關(guān)閉系統(tǒng)、不切斷電源的情況下,實現(xiàn)對故障部件的熱添加和熱替換。使得故障部件在更換或重啟業(yè)務(wù)后,用戶配置能夠自動恢復(fù),在盡可能短的時間內(nèi)恢復(fù)正常業(yè)務(wù),提高設(shè)備可靠性、擴展性和靈活性。
2.3 設(shè)備關(guān)鍵部件冗余
對設(shè)備關(guān)鍵部件進行冗余配置,當(dāng)系統(tǒng)發(fā)生故障時,冗余配置的部件接替故障部件的工作,保證設(shè)備正常運行。供電系統(tǒng)采用雙電源冗余配置,兩個電源工作時實現(xiàn)負載均衡,當(dāng)一個電源出現(xiàn)故障時,另一個電源就承擔(dān)所有的負載。散熱系統(tǒng)采用雙風(fēng)扇冗余配置,并且提供自動調(diào)速功能。存儲系統(tǒng)采用磁盤陣列實現(xiàn)數(shù)據(jù)備份存儲能力。
3 鏈路層保護
對核心層交換機、接入層交換機、服務(wù)器、重要終端全采用雙歸屬連接,實現(xiàn)全網(wǎng)的冗余備份負載均衡,保障系統(tǒng)的高效性和高可靠性。
3.1 雙網(wǎng)卡綁定
對于系統(tǒng)中運行的核心服務(wù)器而言,即使網(wǎng)絡(luò)可靠性程度很高,但如果服務(wù)器采用一條線路接入,網(wǎng)絡(luò)依然會出現(xiàn)單點故障。解決方法是在服務(wù)器上安裝雙網(wǎng)卡。
對雙網(wǎng)卡進行綁定,虛擬成一塊網(wǎng)卡,使用一個IP地址,使用起來就像是一個網(wǎng)卡。數(shù)據(jù)在其中一條鏈路上進行傳輸,當(dāng)使用的鏈路故障時,會自動切換到另一條鏈路上繼續(xù)工作。經(jīng)實際測試,系統(tǒng)網(wǎng)卡備份容錯技術(shù)故障切換時間約400ms。
3.2 鏈路聚合
Trunk鏈路聚合也稱捆綁技術(shù),鏈路聚合后,就是把兩臺設(shè)備間的多條鏈路看成一個整體的一條鏈路,提高了鏈路帶寬,理論上其最大帶寬等于各成員帶寬之和。聚合的鏈路間是會自動進行負載均衡,提高了鏈路的可用性,如果其中一條鏈路斷掉,那么它的流量會自動分擔(dān)到其它剩余的鏈路上,起到了鏈路備份的作用。
系統(tǒng)核心交換機與核心交換機之間、核心交換機與匯聚交換機間、匯聚交換機與匯聚交換機間部署業(yè)務(wù)板內(nèi)、業(yè)務(wù)板間Trunk聚合技術(shù),提供單播業(yè)務(wù)的負載均衡,組播業(yè)務(wù)的500ms以內(nèi)的備份容錯保護能力。
3.3 鏈路快速切換
Smart Link技術(shù)實現(xiàn)了主備鏈路的冗余備份。主備鏈路擁有兩個端口,一般情況下,主鏈路端口處于工作狀態(tài),備鏈路端口被阻塞,處于待命狀態(tài)。當(dāng)主鏈路端口故障時,備鏈路端口切換為工作狀態(tài),進行業(yè)務(wù)轉(zhuǎn)發(fā),實現(xiàn)了設(shè)備的雙歸屬連接及快速切換。
組網(wǎng)的接入交換機通過Smart Link技術(shù)接入?yún)R聚交換機,同時在匯聚交換機部署Monitor Link技術(shù)提供對上行鏈路的監(jiān)控功能,避免了由于無法及時感知上行鏈路故障而引起的業(yè)務(wù)中斷。
4 網(wǎng)絡(luò)層保護
4.1 BFD雙向轉(zhuǎn)發(fā)檢測
BFD(Bidirectional Forwarding Detection,雙向轉(zhuǎn)發(fā)檢測)是一個用于檢測兩個轉(zhuǎn)發(fā)點之間故障的網(wǎng)絡(luò)協(xié)議,可以實現(xiàn)鏈路的快速檢測,監(jiān)控網(wǎng)絡(luò)中路由的轉(zhuǎn)發(fā)連通情況。BFD依靠上層協(xié)議在兩個節(jié)點之間的每條鏈路上都建立一個會話,并在鏈路上進行會話檢測,如果發(fā)現(xiàn)鏈路故障就拆除BFD鄰居,并立刻通知上層協(xié)議。建立會話時,兩個節(jié)點至少有一方要運行在主動模式下,即建立BFD會話前不管是否收到對端發(fā)來的BFD控制報文,都會主動發(fā)送BFD控制報文。會話建立后如果在檢測時間內(nèi)沒有收到對端的BFD控制報文則認為發(fā)生故障。
通過部署B(yǎng)FD技術(shù),OSPF[9]路由收斂、VRRP狀態(tài)切換、PIM DR切換時間可以減少到50ms以內(nèi),大大提高了網(wǎng)絡(luò)整體容錯性、可用性。
4.2 VRRP
VRRP(Virtual Router Redundancy Protocol,虛擬路由冗余協(xié)議)是一種容錯協(xié)議,可將多個路由器組織在一起,形成由主路由和備份路由組成的路由器組,成為一個虛擬路由器,這個虛擬路由器擁有一個虛擬的IP地址,網(wǎng)絡(luò)上的設(shè)備通過這個虛擬的地址即可實現(xiàn)對外通信,而不需要知道主路由器及備份路由器的真實地址,實現(xiàn)在主路由故障時,由備份路由來及時代替工作,實現(xiàn)通信不間斷。
VRRP能夠通過檢測報文來監(jiān)控主路由的工作狀態(tài),但不具備監(jiān)控主路由上行鏈路的能力,會導(dǎo)致主設(shè)備運轉(zhuǎn)正常,但由于鏈路中斷無法提供對外業(yè)務(wù)的情況發(fā)生。在此基礎(chǔ)上實現(xiàn)對上行鏈路的監(jiān)控,可進一步提高系統(tǒng)的可靠性。
在網(wǎng)絡(luò)核心交換機、匯聚交換機、匯集分發(fā)交換機部署基于VRRP技術(shù)的雙機熱備系統(tǒng),并加入VRRP自動偵測、直接監(jiān)控三層接口狀態(tài)、與BFD狀態(tài)綁定三種監(jiān)控上行鏈路的方式,避免上述情況的發(fā)生。當(dāng)主交換機故障后,備份交換機能在150ms以內(nèi)自動切換為主交換機繼續(xù)保證網(wǎng)絡(luò)通信系統(tǒng)整體可用性。
4.3 路由快速收斂
4.3.1 OSPF路由快速收斂
對于IGP路由,收斂速度是衡量其優(yōu)劣的一個重要指標(biāo)。對于OSPF,縮短hello報文時間間隔可以有效加快故障檢測速度;縮短hello報文時間間隔也可以提高鄰居關(guān)系的建立。
OSPF默認40多秒的收斂時間不能滿足系統(tǒng)高可用要求。OSPF路由快速收斂技術(shù)就是將BFD狀態(tài)和OSPF協(xié)議相關(guān)聯(lián),OSPF調(diào)用BFD對鏈路故障狀態(tài)的快速感應(yīng)信息,加快OSPF協(xié)議對于網(wǎng)絡(luò)拓撲變化的響應(yīng)。如表1所示。
4.3.2 OSPF路由平滑重啟
OSPF 平滑重啟(GR)技術(shù)是一種在協(xié)議重啟時保證轉(zhuǎn)發(fā)業(yè)務(wù)不中斷的機制。如果不使用平滑重啟技術(shù),當(dāng)重啟協(xié)議時,路由器需要斷開與鄰居的關(guān)系,等OSPF 進程重新啟動后,再與鄰居重新建立關(guān)系,重新計算路由。在這段時間內(nèi),轉(zhuǎn)發(fā)業(yè)務(wù)是中斷的。使用平滑重啟技術(shù),在重啟協(xié)議時,會告訴鄰居不要斷開與自己的關(guān)系并保持穩(wěn)定,協(xié)議重啟完畢后,在盡量短的時間內(nèi)使該設(shè)備恢復(fù)到重啟前的狀態(tài),整個系統(tǒng)可以不間斷地轉(zhuǎn)發(fā)數(shù)據(jù)。
系統(tǒng)在所有交換機上部署OSPF平滑重啟(GR)技術(shù),實現(xiàn)在主備引擎切換、維護、設(shè)備升級時的業(yè)務(wù)不中斷。
5 結(jié)論
影響網(wǎng)絡(luò)系統(tǒng)可靠性的因素很多,提高網(wǎng)絡(luò)系統(tǒng)可靠性的方法和技術(shù)手段也不盡相同。本文設(shè)計的網(wǎng)絡(luò)系統(tǒng),在設(shè)備級通過關(guān)鍵部件冗余設(shè)計;鏈路層采用雙歸屬連接,實現(xiàn)全網(wǎng)的冗余備份負載均衡;網(wǎng)絡(luò)層采用BFD雙向轉(zhuǎn)發(fā)檢測、VRRP虛擬路由冗余備份等技術(shù),對全網(wǎng)可靠性進行綜合分析設(shè)計,測試結(jié)果能夠達到實時數(shù)據(jù)處理系統(tǒng)要求。
參考文獻
[1]尹棟,慕德俊,戴冠中.一種以服務(wù)器為通信節(jié)點的數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計[J].計算機科學(xué),2012,39(03):110-112.
[2]丁健,趙金龍,荊曉娟,宋偉.數(shù)據(jù)中心高可用性網(wǎng)絡(luò)設(shè)計[J].信息技術(shù),2013,2:148-150.
[3]鄧罡,龔正虎,王宏.現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)特征研究[J].計算機研究與發(fā)展,2014,51(02):395-407.
[4]朱桂明,謝向輝,郭得科,陸菲菲,陶志榮.一種高吞吐量、高可擴展數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)[J].軟件學(xué)報,2014,25(06):1339-1351.
[5]黃寧,伍志韜.網(wǎng)絡(luò)可靠性評估模型與算法綜述[J].系統(tǒng)工程與電子技術(shù),2013,35(12):2651-2659.
[6]數(shù)據(jù)中心解決方案高可用技術(shù)白皮書. www.knowsky.com,2010.
[7]王琛,賈山剛,高三紅.冗余鏈路技術(shù)在測控計算機系統(tǒng)中的應(yīng)用[J].飛行器測控學(xué)報,2011,30(02):55-58.
[8]洪嘉捷.數(shù)據(jù)中心中高可用性技術(shù)的應(yīng)用[J].通訊世界,2015,2:1-3.
[9]黃小芳,劉敬彪,鄢能.BFD技術(shù)實現(xiàn)分層VPLS系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2009,2:143-145.
[10]王二平.供電分公司雙核心網(wǎng)絡(luò)改造的研究與設(shè)計[J].山西電力,2008,149(05):50-52.
作者簡介
李鵬(1977-),男,碩士研究生,工程師。研究方向為測控技術(shù)。
作者單位
92941部隊 遼寧省葫蘆島市 125000