◆潘寶春
(1.廣西大學(xué)計算機(jī)與電子信息學(xué)院 廣西 530004;2.右江民族醫(yī)學(xué)院 廣西 533000)
園區(qū)網(wǎng)骨干鏈路負(fù)載均衡優(yōu)化方案的設(shè)計與實現(xiàn)
◆潘寶春1,2
(1.廣西大學(xué)計算機(jī)與電子信息學(xué)院 廣西 530004;2.右江民族醫(yī)學(xué)院 廣西 533000)
本文針對高校網(wǎng)絡(luò)建設(shè)與管理模式逐步集中的情況,通過分析骨干鏈路負(fù)載和運(yùn)行性能確定壓力瓶頸問題。提出鏈路負(fù)載均衡的優(yōu)化方案并結(jié)合現(xiàn)有網(wǎng)絡(luò)架構(gòu)特點設(shè)計建設(shè)一套行為審計集群,最后給出優(yōu)化改造后性能測試數(shù)據(jù)。
負(fù)載均衡;高可用;聚合鏈路;冗余
右江民族醫(yī)學(xué)院校園網(wǎng)規(guī)模化建設(shè)始于2002年,原定位以滿足校區(qū)范圍內(nèi)教學(xué)、行政管理業(yè)務(wù)信息化需求為主。近年來為配合學(xué)校發(fā)展建設(shè),校園網(wǎng)接入環(huán)境經(jīng)過升級改造實現(xiàn)骨干鏈路統(tǒng)一化,信息出口統(tǒng)一匯總至校信息中心。目前已完整覆蓋教學(xué)、行政和師生住宅公寓區(qū)三大區(qū)域,承載信息化教學(xué)、學(xué)術(shù)科研、行政管理及日常互聯(lián)網(wǎng)接入服務(wù),用戶群包括教師、行政人員和學(xué)生在內(nèi),日均在線數(shù)可達(dá)到7000IP。
隨著各方面教學(xué)和管理活動對網(wǎng)絡(luò)依賴程度越來越高,校園網(wǎng)能否保證高效穩(wěn)定運(yùn)轉(zhuǎn),對學(xué)校發(fā)展有非常重要的影響?,F(xiàn)有架構(gòu)方面,本校骨干鏈路主體為兩臺核心交換機(jī)通過IRF虛擬化為單臺邏輯設(shè)備實現(xiàn)硬件資源統(tǒng)一調(diào)度管理,上聯(lián)由行為管理器、防火墻與負(fù)載均衡器負(fù)責(zé)承擔(dān)出口轉(zhuǎn)發(fā)與防護(hù)業(yè)務(wù),鏈路拓?fù)淙鐖D1:
圖1 骨干鏈路拓?fù)浼軜?gòu)現(xiàn)狀
拓?fù)浣Y(jié)構(gòu)中,邊界負(fù)載均衡器、防火墻和行為管理器均為單節(jié)點串行橋接鏈路,設(shè)備均承擔(dān)內(nèi)網(wǎng)所有數(shù)據(jù)轉(zhuǎn)發(fā)業(yè)務(wù)的壓力,可嘗試從帶寬資源利用情況、會話請求數(shù)曲線、節(jié)點設(shè)備負(fù)載峰值期性能參數(shù)三方面對骨干鏈路業(yè)務(wù)運(yùn)行情況進(jìn)行分析。通過對比鏈路設(shè)備業(yè)務(wù)設(shè)計承載容量與實際業(yè)務(wù)運(yùn)行情況,確定骨干鏈路拓?fù)浣Y(jié)構(gòu)中的性能瓶頸。首先基于行為管理器工作于橋接模式對校園網(wǎng)轉(zhuǎn)發(fā)流量及會話請求進(jìn)行實時審計,如圖2、3所示:
圖2 行為管理器全天轉(zhuǎn)發(fā)流量曲線
圖3 行為管理器全天會話數(shù)曲線
可確定每日從22:00至次日01:00為網(wǎng)絡(luò)使用高峰期,選取該時段對各節(jié)點設(shè)備運(yùn)行數(shù)據(jù)進(jìn)行分析可確定設(shè)備業(yè)務(wù)峰值期運(yùn)行性能占比,如表1:
表1 高峰期節(jié)點設(shè)備下行轉(zhuǎn)發(fā)業(yè)務(wù)性能占比
根據(jù)所收集數(shù)據(jù)分析,由負(fù)載均衡器下聯(lián)往行為管理器方向1Gbp/s容量的光釬鏈路處于入口數(shù)據(jù)轉(zhuǎn)發(fā)滿負(fù)荷狀態(tài),由行為管理器下聯(lián)至核心交換機(jī)方向2Gbp/s容量聚合光纖鏈路利用率為47%約等于總?cè)肟跀?shù)據(jù)轉(zhuǎn)發(fā)量。設(shè)備性能利用率方面,除行為管理器外的三個節(jié)點均處于CPU性能值偏低位運(yùn)行,行為管理器在業(yè)務(wù)峰值時段抽取的15分鐘內(nèi)CPU性能均處于高負(fù)載甚至接近滿負(fù)載工作狀態(tài)。
骨干光路缺乏高容量冗余設(shè)計,目前總出口容量設(shè)計為2Gbps對等光纜同時考慮到今后本校信息化建設(shè)的推進(jìn)出口帶寬勢必有所增加,而現(xiàn)有骨干鏈路環(huán)境僅基于單對千兆光路駁接,不能滿足大于2Gbps對等光纜的交換容量需求。并且單對光路由于沒有冗余設(shè)計,在實際生產(chǎn)環(huán)境當(dāng)出現(xiàn)光路故障,數(shù)據(jù)傳輸勢必產(chǎn)生中斷,有可能嚴(yán)重影響教學(xué)工作。
考慮到上述兩方面需求,首先應(yīng)采用基于至少兩對千兆光纖鏈路組建節(jié)點設(shè)備間聚合鏈路組的模式,對接駁介質(zhì)進(jìn)行改造優(yōu)化。在聚合鏈路組技術(shù)支持下交換設(shè)備主動檢測成員物理端口工作狀態(tài),并根據(jù)物理端口負(fù)載情況策略均衡報文轉(zhuǎn)發(fā)端口,可充分利用成員物理端口的轉(zhuǎn)發(fā)性能,標(biāo)準(zhǔn)化協(xié)商協(xié)議同時又能支持設(shè)備在預(yù)定策略下自行管理維護(hù)聚合鏈路[1][2],在面對如成員端口故障等狀況下聚合組發(fā)生變化時仍可自動調(diào)整聚合鏈路業(yè)務(wù)邏輯從而保證數(shù)據(jù)報文轉(zhuǎn)發(fā)不受影響。
另外,骨干鏈路中行為管理節(jié)點承擔(dān)全校最高7000ip上下的審計流控任務(wù),用網(wǎng)高峰期其設(shè)備性能利用率長時間接近飽和值,單一設(shè)備不足以滿足業(yè)務(wù)增長和應(yīng)對可能出現(xiàn)的業(yè)務(wù)波動或泛洪攻擊[3]。基于單鏈路架構(gòu)建設(shè)骨干網(wǎng)絡(luò)一定程度滿足了過渡期的使用需求,但從長期發(fā)展需要和借鑒參考業(yè)內(nèi)園區(qū)網(wǎng)建設(shè)經(jīng)驗來看如文獻(xiàn)[4]文獻(xiàn)[5]文獻(xiàn)[6],需通過采用高可用(HA)[7]及負(fù)載均衡(Load Balance)技術(shù)構(gòu)建行為管理集群架構(gòu)[8][9]提升管理效率。
目前行為管理器采用的是華三H3C ACG-1000E型號設(shè)備,設(shè)計可支持雙設(shè)備主-主工作模式,其通過HA檢測端口發(fā)送心跳檢測(Keepalive)檢測報文判斷設(shè)備工作環(huán)境實現(xiàn)業(yè)務(wù)負(fù)載均衡并與對端共享會話(Session)信息、設(shè)備配置和應(yīng)用特征庫實現(xiàn)行為管理機(jī)制高可用。利用上述設(shè)備特性,通過新增行為管理設(shè)備與原有設(shè)備組建行為管理HA集群,下聯(lián)至核心交換集群方向設(shè)計兩組聚合鏈路組對應(yīng)接駁至兩臺核心交換機(jī)業(yè)務(wù)端口,實施改造后拓?fù)湔{(diào)整如圖4:
圖4 改造后骨干鏈路拓?fù)浼軜?gòu)設(shè)計
根據(jù)設(shè)計,原核心交換集群上聯(lián)至行為管理器ACG-1000E-1端口GE-0、GE-1的聚合光鏈路結(jié)構(gòu)BAAG-1000保留。新增一組基于兩對千兆聚合光鏈路BAGG-1001接駁至行為管理器ACG-1000E-2業(yè)務(wù)端口GE-0、GE-1,用于為兩臺行為管理設(shè)備實現(xiàn)轉(zhuǎn)發(fā)容量均衡提供端口資源。
邊界負(fù)載均衡器下聯(lián)往行為管理器方向節(jié)點設(shè)備間新增聚合鏈路組若干,把改造前物理鏈路劃歸各對應(yīng)位置的聚合鏈路組中,再分別對各聚合鏈路組添加成員光纖鏈路使聚合組介質(zhì)容量擴(kuò)容至≥2Gbps水平。
行為管理集群工作模式沿用改造前的透明橋接模式(Bridging),可通過自動學(xué)習(xí)機(jī)制識別并完善路由信息,在面對其他網(wǎng)絡(luò)主機(jī)時集群對所有數(shù)據(jù)幀做無差別透明轉(zhuǎn)發(fā),其本身加入或退出鏈路的行為對原始三層環(huán)境影響較小,同時又能保證數(shù)據(jù)幀審計和流控的需求。
行為管理集群中,原行為管理器ACG-1000E-1物理端口GE-2、GE-3為上聯(lián)聚合組成員端口,改造過程中將端口GE-3從聚合鏈路組agg2中拆分出,保留聚合組agg2聚合業(yè)務(wù)把新行為管理器ACG-1000E-2的端口GE-2重新加入到聚合組agg2中,形成雙機(jī)端口上聯(lián)聚合鏈路組。
集群內(nèi)設(shè)備均啟用多機(jī)部署功能,各自使用GE-3端口作為通信隧道。通過定時心跳檢測獲取對端設(shè)備HA和LB工作狀態(tài),并同步安全審計策略、系統(tǒng)配置和路由信息等數(shù)據(jù),所有設(shè)備共享統(tǒng)一配置信息從而協(xié)調(diào)實現(xiàn)硬件資源的負(fù)載均衡使用。
對改造后接駁鏈路進(jìn)行監(jiān)測,負(fù)載狀態(tài)如圖5至圖8:
圖5 邊界負(fù)載均衡器至防火墻
圖6 邊界防火墻至行為管理集群
圖7 核心交換至行為管理匯聚組1
圖8 核心交換至行為管理匯聚組2
對改造后行為管理器流量轉(zhuǎn)發(fā)業(yè)務(wù)進(jìn)行監(jiān)測,運(yùn)行狀態(tài)如圖9、圖10:
圖9 ACG-1000E-1轉(zhuǎn)發(fā)流量與CPU利用率一小時取樣
圖10 ACG-1000E-2轉(zhuǎn)發(fā)流量與CPU利用率一小時取樣
根據(jù)圖5至圖8分析,骨干鏈路設(shè)備邊界負(fù)載均衡器-防火墻-行為管理集群間接駁聚合光鏈路已運(yùn)行在2Gbps狀態(tài)下,核心交換往行為管理上聯(lián)方向通過兩組匯聚鏈路接駁,如圖7、8所示兩組聚合組均衡分擔(dān)兩節(jié)點間的轉(zhuǎn)發(fā)數(shù)據(jù)流量負(fù)載,鏈路冗余改造完成。
圖9、10波形曲線對比顯示兩張波形圖CPU性能曲線為互補(bǔ)狀態(tài)。即隨集群內(nèi)兩臺物理設(shè)備各自性能利用率升降,集群轉(zhuǎn)發(fā)業(yè)務(wù)處理壓力自動基于HA/Load Balance機(jī)制在兩臺物理設(shè)備間分?jǐn)偅?dāng)其中一臺設(shè)備性能壓力上升較快時另一臺設(shè)備自動對轉(zhuǎn)發(fā)業(yè)務(wù)進(jìn)行搶占,行為管理集群HA/Load Balance生效。
通過對本校網(wǎng)絡(luò)骨干鏈路升級改造,自改造完成投入使用至今,校園網(wǎng)出口鏈路業(yè)務(wù)穩(wěn)定性得到提升。通過利用鏈路聚合和設(shè)備集群化的思想和技術(shù),原有高負(fù)荷鏈路節(jié)點的業(yè)務(wù)壓力得到緩解,數(shù)據(jù)轉(zhuǎn)發(fā)效率得到提升,改造后鏈路架構(gòu)比原有架構(gòu)更為健壯,校園網(wǎng)在高峰期運(yùn)轉(zhuǎn)環(huán)境下基礎(chǔ)網(wǎng)絡(luò)訪問業(yè)務(wù)可得到有效保障。同時鏈路冗余設(shè)計對提升校園網(wǎng)安全和完善容災(zāi)機(jī)制起到關(guān)鍵作用,也為校園網(wǎng)信息系統(tǒng)安全等級保護(hù)認(rèn)證監(jiān)管工作提供基礎(chǔ)支持,本架構(gòu)在今后一段時間內(nèi)可以很好地承載本校對于信息化建設(shè)的需求。
[1]王兆敏, 潘志鵬, 高婷婷等.論鏈路聚合技術(shù)——網(wǎng)絡(luò)帶寬和可靠性瓶頸解決方法[J].科技尚品, 2015.
[2]蔡惠, 胡嵐.高校校園網(wǎng)雙核心冗余設(shè)計與實現(xiàn)[J].電腦編程技巧與維護(hù), 2016.
[3]耿技, 馬新新.對等網(wǎng)絡(luò)泛洪DDoS攻擊的防御機(jī)制[J].電子科技大學(xué)學(xué)報, 2009.
[4]林駿澎, 譚吉芳.高可用性企業(yè)網(wǎng)絡(luò)的改造設(shè)計與實施[J].科技廣場, 2013.
[5]王東.VRRP協(xié)議實現(xiàn)園區(qū)網(wǎng)絡(luò)的路由冗余和負(fù)載均衡[J].重慶科技學(xué)院學(xué)報:自然科學(xué)版, 2010.
[6]李乃振.構(gòu)建高可用性專網(wǎng)[J].網(wǎng)絡(luò)安全和信息化, 2016.
[7]Gibbs M.High availability and heartbeat[J]. Network World, 2005.
[8]胡章平.集群系統(tǒng)與分布式計算[J].電腦知識與技術(shù):學(xué)術(shù)交流, 2006.
[9]李鵬.高可用集群系統(tǒng)實時控制管理軟件設(shè)計[J].自動化技術(shù)與應(yīng)用, 2016.