朱新義
摘要:本文以數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境為立足點,就組播通信技術(shù)進行介紹與分析。首先對overlay與underlay通信概念進行簡要介紹,并分析大規(guī)模網(wǎng)絡(luò)環(huán)境條件下overlay通信技術(shù)面臨的主要問題及解決方法,介紹主流數(shù)據(jù)中心網(wǎng)絡(luò)下overlay多播流量的轉(zhuǎn)發(fā)模型。
關(guān)鍵詞:數(shù)據(jù)中心網(wǎng)絡(luò);overlay流量;underlay流量;組播通信
一、網(wǎng)絡(luò)邏輯層次分類
1、Underlay
Underlay就是當(dāng)前數(shù)據(jù)中心網(wǎng)路基礎(chǔ)轉(zhuǎn)發(fā)架構(gòu)的網(wǎng)絡(luò),是多學(xué)科相互交融的復(fù)雜系統(tǒng)工程,可以實現(xiàn)互聯(lián)互通的底層網(wǎng)絡(luò)技術(shù)。
2、overlay
Overlay指的是一種網(wǎng)絡(luò)架構(gòu)上疊加的虛擬化技術(shù)模式,其大體框架是在對基礎(chǔ)網(wǎng)絡(luò)不進行大規(guī)模修改的條件下,實現(xiàn)應(yīng)用在網(wǎng)絡(luò)上的承載,并與其它網(wǎng)絡(luò)業(yè)務(wù)分離,是基于IP的網(wǎng)絡(luò)技術(shù)。一個Overlay網(wǎng)絡(luò)主要由三部分組成,1邊緣設(shè)備:是指與虛擬機直接相連的設(shè)備。2控制平面:主要負責(zé)虛擬隧道的建立維護以及主機可達性信息的通告。3轉(zhuǎn)發(fā)平面:承載Overlay報文的物理網(wǎng)絡(luò)。
簡單地說,overlay就是基于底層網(wǎng)絡(luò)互聯(lián)互通的基礎(chǔ)加上隧道技術(shù)去構(gòu)建一個虛擬的網(wǎng)絡(luò)。overlay的核心其實就是隧道(tunnel)技術(shù)。VXLAN(VirtualeXtensibleLAN)技術(shù)是當(dāng)前最為主流的Overlay標(biāo)準(zhǔn)。
二、應(yīng)用場景
通常數(shù)據(jù)中心的多播流量都是通過頭端復(fù)制的方式轉(zhuǎn)發(fā),如果上行流量特別大,就會占用過多的上行帶寬。這時候可以考慮underlay組播復(fù)制的方式,降低上行帶寬壓力。具體實現(xiàn)就是為VNI分配一個Underlay的組播組,所有VTEP都加入這一組播組。對于接收到的多播流量,交換機只發(fā)出一份,這一份報文的目的封裝為基于VNI分配的組播IP。報文發(fā)出后經(jīng)過Underlay的IP組播進行復(fù)制,分別發(fā)給不同的VTEP設(shè)備。在此情況下,組播復(fù)制對上行帶寬的要求為:接收流量本身的帶寬。如果數(shù)據(jù)中心存在較大的密集組播流量,即同一個VNI內(nèi)存在多個主機間發(fā)送接收組播流,采用underlay轉(zhuǎn)發(fā)方案,可以大大降低帶寬壓力。
三、數(shù)據(jù)模型
1)單一網(wǎng)絡(luò)環(huán)境下的業(yè)務(wù)轉(zhuǎn)發(fā)流程,也是最簡單的組網(wǎng)。具體如下圖所示:
這是最簡單的組網(wǎng)環(huán)境,VM1是組播源。組播到達leaf1后,經(jīng)過underlay網(wǎng)絡(luò)通過組播復(fù)制到spine1與spine2及l(fā)eaf2、leaf3,如上圖紅色箭頭所示,然后再通過overlay轉(zhuǎn)發(fā)給其他虛擬終端,參考上圖的綠色箭頭。
2)疊加M-lag的組網(wǎng)場景
a、PIM-SM作為Underlay組播路由協(xié)議,非M-LAG節(jié)點發(fā)送多播,M-LAG節(jié)點接收多播,如下圖:
假設(shè)VM1發(fā)出多播流量;
1Leaf1上(VTEP1,Group)的出接口指向Spine1、Spine2,Leaf1接收VM1的多播流量后封裝成組播VXLAN報文,分別發(fā)送給Spine1、Spine2;
2Spine1作為組播RP結(jié)點,對于(VTEP1,Group)有出接口指向Leaf2,將流量發(fā)送給Leaf2;
3Spine2作為組播RP結(jié)點,對于(VTEP1,Group)有出接口指向Leaf3,將流量發(fā)送給Leaf3;
4Leaf2、Leaf3作為M-LAG,有主備之分,假如Leaf2是主設(shè)備,能轉(zhuǎn)發(fā)組播隧道的報文Leaf3
是備設(shè)備,不能轉(zhuǎn)發(fā)組播隧道的報文,underlay報文只在Leaf2被轉(zhuǎn)發(fā),發(fā)送給VM2、VM3;
5Leaf2通過peerlink的overlay互聯(lián),將報文同步給Leaf3,Leaf3接收后只發(fā)給單歸的VM4。
b、PIM-SM作為Underlay組播路由協(xié)議,M-LAG節(jié)點發(fā)送廣播,其他節(jié)點接收多播報文,
假設(shè)VM3發(fā)出多播流量,流量轉(zhuǎn)發(fā)模型如下;
1 Leaf2上(VTEP2,Group)的出接口指向Spine1(因為Leaf2、Leaf3的VTEP一樣,RP只會向其中一個引流,可能出現(xiàn)兩個RP都向M-LAG同一個節(jié)點引流或分別M-LAG不同的節(jié)點引流),還有一個出接口為經(jīng)過Underlay的PeerLink口;
2 報文發(fā)送給Spine1、Leaf3;Leaf2同時通過peerlink接口同步一份overlay流量,發(fā)送一份給VM4;
3 Leaf3從peerlink口接收的overlay流量發(fā)送給VM4;Leaf3上PeerLink口的Underlay互聯(lián)口為Underlay組播入接口,出接口指向Spine2與PeerLink口,流量只被發(fā)送給Spine2,因為Peerlink鏈路上由于源剪枝不會往回發(fā)送多播流量;
4 Spine1、Spine2各自根據(jù)(VTEP2,Group)將流量發(fā)送給Leaf1、LeafX;
5 Leaf1、LeafX剝掉vxlan封裝后將流量發(fā)送VM1、VM5;
四、結(jié)束語
數(shù)據(jù)中心網(wǎng)絡(luò)分為Underlay和Overlay兩個部分,是數(shù)據(jù)中心虛擬化大背景下的產(chǎn)物,Overlay和Underlay網(wǎng)絡(luò)相互獨立,又密不可分。Overlay網(wǎng)絡(luò)使用Underlay網(wǎng)絡(luò)點對點傳遞報文,而報文如何傳遞完全取決于Underlay網(wǎng)絡(luò)的控制平面和數(shù)據(jù)平面,Overlay網(wǎng)絡(luò)的封裝協(xié)議決定報文網(wǎng)絡(luò)出入節(jié)點的處理。Overlay核心是隧道技術(shù),VXLAN,NVGRE及STT是典型的三種隧道技術(shù),我們在對物理網(wǎng)絡(luò)不做任何改造的情況下,通過隧道技術(shù)在現(xiàn)有的物理網(wǎng)絡(luò)上創(chuàng)建一個或多個邏輯網(wǎng)絡(luò)即虛擬網(wǎng)絡(luò),有效解決了物理數(shù)據(jù)中心,尤其是云數(shù)據(jù)中心的許多問題,實現(xiàn)數(shù)據(jù)中心的智能化和自動化。
參考文獻:
[1]左加闊,楊龍祥.D2D組播通信中的高能效資源分配研究[J].中南大學(xué)學(xué)報(英文版),2019,26(11):3034-3044.
[2]肖海林,吳彬,張中山.C-V2X下車載安全數(shù)據(jù)兩階段組播的中繼選擇與功耗分析[J].電子學(xué)報,2019,47(11):2248-2255.
華為南京研究所 江蘇南京 210000