郭英鵬,翟麗娜(廣東省電信規(guī)劃設計院有限公司,廣東 廣州 510630)
數(shù)據(jù)中心作為企業(yè)計算服務的提供中心,是數(shù)據(jù)運算、交換、存儲的中心。它結合了先進的網(wǎng)絡技術和存儲技術,承載了網(wǎng)絡中大部分的服務請求和數(shù)據(jù)存儲量,為客戶業(yè)務體系的健康運轉提供服務和運行平臺。根據(jù)賽迪顧問預測,到2013年中國數(shù)據(jù)中心市場規(guī)模將超過977億元,2009—2013年的復合增長率將會達到24.5%。
根據(jù)功能,數(shù)據(jù)中心可分為企業(yè)數(shù)據(jù)中心(EDC)、互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)、災備中心(DRC)等。無論是怎樣的數(shù)據(jù)中心,網(wǎng)絡設備、網(wǎng)絡結構、鏈路協(xié)議一般都比較一致。
隨著技術的進步,數(shù)據(jù)中心網(wǎng)絡不斷得到優(yōu)化和調整,特別是近年云計算的出現(xiàn),更加有必要去研究數(shù)據(jù)中心網(wǎng)絡的發(fā)展方向。因此本文主要針對這方面進行闡述。
傳統(tǒng)數(shù)據(jù)中心的網(wǎng)絡常見的設計一般包括4部分,即核心層、匯聚層、接入層和運營管理層(見圖1)。核心層一般采用雙機冗余的路由設備,對外運行EBGP或靜態(tài)路由協(xié)議,對內運行IGP協(xié)議(如OSPF)。核心層連接外部網(wǎng)絡一般采用2條或以上的鏈路連接不同的運營商,以規(guī)避一個運營商鏈路失效時帶來的網(wǎng)絡中斷。匯聚層一般采用雙機冗余的三層交換機。接入層一般采用多臺二/三層交換機。運營管理層一般采用2臺或以上的二/三層交換機,連接服務器設備的對內網(wǎng)絡接口和KVM接口。服務器與磁盤陣列之間采用SCSI、NAS、SAN等方式,較常見的使用FC協(xié)議通過SAN的方式連接。
圖1 傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡結構
數(shù)據(jù)中心未來的發(fā)展,主要有以下幾個方面的變化。
首先,服務器整合的趨勢使得數(shù)據(jù)中心數(shù)量的增長速度低于服務器保有量的增長速度。與過去幾年相比,數(shù)據(jù)中心更傾向于采購高密度的服務器設備(例如刀片服務器),使得目前數(shù)據(jù)中心的平均服務器安裝量幾乎達到了5年前平均安裝量的2倍。同時,很多大中型企業(yè)開始將分布在各地的小型數(shù)據(jù)中心整合成大型數(shù)據(jù)中心,也令數(shù)據(jù)中心的數(shù)量沒有像服務器保有量一樣快速增長。與此同時,云計算服務的推出也使許多中小企業(yè)用戶關閉自己的小型數(shù)據(jù)中心或機房,轉而向云計算服務提供商訂購云計算服務。而這類云服務大多是安裝在主機托管服務提供商所擁有的大型數(shù)據(jù)中心。因此,數(shù)據(jù)中心的規(guī)模將越來越大,并且向更高效和更具備移動性發(fā)展,必然要求網(wǎng)絡帶寬更大,網(wǎng)絡設備具備更高端口密度和低延時。
其次,服務器虛擬化需要實現(xiàn)區(qū)域內資源的動態(tài)調配、遷移,它的實現(xiàn)需要網(wǎng)絡的支持配合。數(shù)據(jù)中心將采用更多的虛擬化技術,將服務器和存儲資源更好地調配使用。目前數(shù)據(jù)中心網(wǎng)絡設備模式必然會逐步發(fā)生變化。
第三,數(shù)據(jù)中心網(wǎng)絡模型也需要修改。傳統(tǒng)的網(wǎng)絡模型是為了解決網(wǎng)絡內部計算機之間的互訪以及對外信息傳遞而建立的,例如它遵循校園流量模型中的20/80規(guī)則[1],80%的流量將穿越本地網(wǎng)絡流向外部網(wǎng)絡。云計算的出現(xiàn)使得信息的來源和終點與地理位置的關系越來越少,或者說需要互訪的服務器、存儲設備之間不再局限于同一個本地網(wǎng)絡。不定向的突發(fā)流量成為下一代數(shù)據(jù)中心的典型特征,這樣導致原有網(wǎng)絡模型需發(fā)生修改。
最后,目前的數(shù)據(jù)中心普遍是使用以太網(wǎng)來實現(xiàn)聯(lián)網(wǎng),使用光纖通道(FC)來實現(xiàn)存儲,部分數(shù)據(jù)中心已使用InfiniBand來實現(xiàn)系統(tǒng)集群。不同的網(wǎng)絡需要不同的協(xié)議、接口、設備以及管理。對于用戶來說,對3種網(wǎng)絡提供支持會增加系統(tǒng)的復雜性和成本。因此,簡化網(wǎng)絡、統(tǒng)一協(xié)議成為了共識。
綜上所述,下一代數(shù)據(jù)中心網(wǎng)絡應該具備以下一些特點。
a)高端口密度、大帶寬、低延時。
b)網(wǎng)絡設備采用虛擬化技術。
c)網(wǎng)絡模型扁平化,提高效率。
d)采用統(tǒng)一的技術手段,使用更多、更大規(guī)模的二層以太網(wǎng)區(qū)域。
從統(tǒng)一協(xié)議出發(fā),IEEE提出了融合增強型以太網(wǎng)(CEE)標準,這種經(jīng)過改造的以太網(wǎng),將發(fā)展成為擁有阻塞管理和流量控制功能的低延遲、不丟包的傳輸技術,從而擁有了以太網(wǎng)的低成本、可擴展和FC的可靠性。也因此,CEE被寄予了新的使命,即把數(shù)據(jù)中心的局域網(wǎng)、存儲局域網(wǎng)和高性能計算互聯(lián)融合為單一的以太網(wǎng)互聯(lián)結構。
目前,CEE在 IEEE中的 DCB TG (Data Center Bridging Task Group)協(xié)調下順利推進,多家設備廠商積極跟進。在這項數(shù)據(jù)中心的技術中,思科稱之為數(shù)據(jù)中心以太網(wǎng) (DCE),Brocade稱之為數(shù)據(jù)中心橋接(DCB)。此外還有增強型以太網(wǎng)(EEDC),這些名稱不同,但核心內容都是大同小異,至少說明以太網(wǎng)技術是未來數(shù)據(jù)中心技術的核心。CEE標準包括基于優(yōu)先級的流控 (IEEE 802.1Qbb)、增強傳輸選擇技術(IEEE 802.1Qaz)、擁塞通告(IEEE 802.1Qau)、鏈路發(fā)現(xiàn)協(xié)議LLDP(IEEE 802.1AB)的擴展數(shù)據(jù)中心橋能力交換協(xié)議等[2]。
基于CEE技術的支持,F(xiàn)C存儲數(shù)據(jù)可以承載在以太網(wǎng)上(FCoE),新一代以太網(wǎng)技術完全可以融合數(shù)據(jù)中心的存儲網(wǎng)絡形成全業(yè)務的統(tǒng)一交換。
同時,隨著CEE等增強型二層標準的出現(xiàn),原有多種二層技術手段也得到了應用,如跨數(shù)據(jù)中心二層互聯(lián)的VPLS、EoMPLS等技術;為克服生成樹協(xié)議的單路徑和收斂慢特點而出現(xiàn)了L2MP協(xié)議;為增強以太網(wǎng)的擴展性和業(yè)務的安全性而出現(xiàn)了MAC-in-MAC技術等。
另一方面,為解決STP/MSTP/RSTP等協(xié)議的生成樹限制在以太網(wǎng)網(wǎng)段內、無法應用于存儲設備等的問題,以及提高鏈路利用率,方便網(wǎng)絡的二層透明環(huán)境部署,IETF正在對多鏈路透明互聯(lián)(TRILL)技術制定標準。它是一個基于最短路徑架構路由的多跳標準以太網(wǎng)絡,數(shù)據(jù)平面運行TRILL協(xié)議,控制平面運行鏈路狀態(tài)路由協(xié)議(如IS-IS),實現(xiàn)在路由網(wǎng)絡下的大規(guī)模二層交換承載。TRILL網(wǎng)絡的鏈路層可以是以太網(wǎng),也可以是PPP鏈路,因此這種新的標準具有很大的適應性,可在數(shù)據(jù)中心內部高速網(wǎng)絡實現(xiàn),也可以用于連接基于PPP鏈路的廣域網(wǎng)絡[3]。
和服務器一樣,網(wǎng)絡設備的虛擬技術也分成2種,第一種是將多臺設備虛擬化成1臺設備,例如路由器、交換機的集群技術。交換機的集群技術業(yè)界常用的有幾種,一種是華為/華三公司采用的智能彈性架構(IRF)[4]技術,一種是思科公司采用的虛擬端口捆綁(VPC )和虛擬交換系統(tǒng)(VSS)技術[5],一種是 Juniper公司的集群交換控制協(xié)議(VCCP)。交換機集群技術是為了解決STP/MSTP/RSTP等鏈路協(xié)議造成鏈路利用率不高的問題出現(xiàn)的。目前的數(shù)據(jù)中心匯聚層和接入層交換機一般運行MSTP+VRRP協(xié)議,MSTP防環(huán)路的設計使得交換機的鏈路只有一半處于工作狀態(tài),一半處于阻塞狀態(tài)。雖然良好的VLAN設計可以盡量使鏈路負載均衡,但前文所述的不定向突發(fā)流量將逐步增大,因此通過VLAN設計來避免還是有很大難度的。引入這種技術后,交換網(wǎng)絡每一層的多臺物理設備形成一個統(tǒng)一的交換架構,減少了邏輯上的設備數(shù)量。由于多臺上級交換機虛擬化成1臺,原有多條鏈路采用跨設備的鏈路捆綁方式成為1條邏輯鏈路,已經(jīng)不需要運行生成樹協(xié)議,因此沒有鏈路阻塞的情況。
第二種是將1臺設備虛擬成多臺設備,例如虛擬防火墻、VSAN(Virtual SAN)、虛擬交換機等技術。例如思科公司在實現(xiàn)虛擬交換機技術采用VDC(Virtual Device Content)的方式[6],可以實現(xiàn)每個模擬的虛擬交換機都擁有它自身的軟件進程、專用硬件資源(接口)和獨立的管理環(huán)境,可以實現(xiàn)獨立的安全管理界限劃分和故障隔離域。虛擬交換機技術有助于將分立網(wǎng)絡整合為一個通用基礎設施,保留物理上獨立的網(wǎng)絡的管理界限劃分和故障隔離特性,并提供單一基礎設施所擁有的多種運營成本優(yōu)勢。虛擬交換機技術在設備數(shù)量和容量不是很大的情況下,采用高性能的設備代替原來多臺設備,并虛擬成原來多臺設備,實現(xiàn)設備靈活配置。
數(shù)據(jù)中心內部網(wǎng)絡結構多采用星形結構,從數(shù)學上來說,就是二叉樹結構。在高性能計算和并行計算的研究領域,為了解決二叉樹網(wǎng)絡出現(xiàn)的根部擁塞,提出了胖樹。胖樹就是通道寬度從根部到葉節(jié)點逐步變窄的二叉樹。在具有同等數(shù)量開關的前提下,k元n樹較之二叉胖樹連接能夠提供更多的連接端口和使用更少的層,可以減少數(shù)據(jù)傳輸時需要經(jīng)過的設備數(shù)目[7]。當前常見的網(wǎng)絡結構已經(jīng)采用胖樹形式,并隨著專門用于數(shù)據(jù)中心的交換機的出現(xiàn),核心-匯聚層的鏈路帶寬已經(jīng)大大提高。但目前的網(wǎng)絡結構(見圖2左側)有以下一些缺點,例如網(wǎng)絡層次較多、時延大,核心層或網(wǎng)絡層網(wǎng)絡設備容量會成為發(fā)展的瓶頸。同時隨著數(shù)據(jù)中心規(guī)模越來越大,網(wǎng)絡結構應如何發(fā)展?為解決這些問題,本文提出數(shù)據(jù)中心可采用扁平化胖樹結構。
首先,由于數(shù)據(jù)中心交換機容量越來越大,性能越來越好,核心層的路由轉發(fā)和防攻擊的功能完全可被匯聚層的交換機實現(xiàn)。因此從減少時延的角度看可采用2層扁平化結構,將核心層和匯聚層合并(見圖2中間)。但橫向擴展設備的同時會造成出口設備數(shù)量多,導致管理復雜。因此為了簡化管理和避免前文提到的STP/MSTP/RSTP等協(xié)議造成帶寬利用率不高的問題,可在原有單純的提高設備性能來增大端口容量的基礎上,采用技術手段將網(wǎng)絡設備集群化(見圖2右側)。這樣將能解決以上提到的問題,或許會成為下一代大型數(shù)據(jù)中心的網(wǎng)絡方案。這種方式有如下優(yōu)點。
圖2 從傳統(tǒng)結構到扁平化胖樹模型
a)減少時延。2層的網(wǎng)絡結構更加簡單,可減少設備轉發(fā)時間,這對云計算來說非常重要。
b)更加安全。根據(jù)網(wǎng)絡的可用性分析,網(wǎng)絡模型可分為串聯(lián)和并聯(lián)模型。串聯(lián)系統(tǒng)的可靠性不大于任一組件的可靠性。并聯(lián)系統(tǒng)的可靠性大于任一設備的可靠性[8]。因此從網(wǎng)絡的可用性考慮,圖3所示的傳統(tǒng)模型相當于在圖3簡化模型中串聯(lián)了2個核心層設備,因此圖3的簡化模型可用性更高。而圖3扁平化胖樹模型采用了4臺核心/匯聚層合一的設備,相當于2個圖3簡化模型并聯(lián),因此圖3扁平化胖樹模型可用度更高。
數(shù)據(jù)中心對外連接可分為以下3種形式。
a)直連運營商的IP骨干網(wǎng)。提供公眾互聯(lián)網(wǎng)信息源的路由。
b)連接MPLS VPN網(wǎng)絡。提供使用MPLS VPN的大客戶、國內VIP用戶訪問數(shù)據(jù)中心內容源的路由。對高質量的ICP以及運營商內部應用,分流至MPLS VPN骨干網(wǎng),實現(xiàn)質量的差異化。
c)數(shù)據(jù)中心間專線互聯(lián)。存儲網(wǎng)絡專線直連,實現(xiàn)異地存儲和異地災備。鏈路上運行FC協(xié)議。重要數(shù)據(jù)的傳遞,適用于同一企業(yè)的數(shù)據(jù)在不同數(shù)據(jù)中心間的復制和交互。
隨著時代的發(fā)展,這3種對外連接方式不會改變,但內涵已經(jīng)改變。根據(jù)目前多個主流云計算廠商的實際產(chǎn)品測試,要實現(xiàn)異地數(shù)據(jù)中心數(shù)據(jù)在線遷移,需要滿足以下幾個條件。
a)兩節(jié)點物理距離建議小于400 km,以保證虛擬機互訪時間在5 ms以內。
b)兩節(jié)點帶寬在622 Mbit/s以上。
c)兩節(jié)點虛擬機在同一個二層網(wǎng)絡下,具備相同的IP子網(wǎng)和廣播域。
為實現(xiàn)跨數(shù)據(jù)中心數(shù)據(jù)遷移,一般采用以下方式。
方式一:專線直連。
方式二:EoMPLS(點對點)或 VPLS(點對多點)。
方式三:廠家提出的私有協(xié)議。如某廠家提出的OTV,但需要增購該廠商的交換機,且協(xié)議還沒標準化,不建議使用。
因此除直連運營商的IP骨干網(wǎng)的原因還保持不變外,數(shù)據(jù)中心連接MPLS VPN網(wǎng)絡將使用EoMPLS或VPLS服務,以實現(xiàn)數(shù)據(jù)中心間的二層互聯(lián),而且不需要額外的專線直連租用費用。數(shù)據(jù)中心的專線直連將從承載FC協(xié)議轉變?yōu)镕CoE或iSCSI協(xié)議,也會承載云計算數(shù)據(jù)所用的二層協(xié)議。由于這2種數(shù)據(jù)流也可由另外2種連接方式承載,因此專線直連的方式可能會逐步消亡,從簡化網(wǎng)絡的角度來說,也不建議采用專線直連的方式。
圖3 數(shù)據(jù)中心網(wǎng)絡可用性比較
數(shù)據(jù)中心的網(wǎng)絡結構隨著應用的變化而不斷發(fā)展,隨著對業(yè)界有重大影響的云計算的出現(xiàn),數(shù)據(jù)中心網(wǎng)絡需求也隨之發(fā)生較大轉變。因此網(wǎng)絡的帶寬、協(xié)議、模型、結構都發(fā)生了不少變化。從內部網(wǎng)絡來說,網(wǎng)絡結構趨向扁平化,使用更多的、演進的二層以太網(wǎng)協(xié)議,使用更多的高密度的可虛擬化的設備和技術,存儲設備逐步需要通過基于以太網(wǎng)協(xié)議進行遠距離的高效互訪。從數(shù)據(jù)中心如何更大規(guī)模發(fā)展的角度出發(fā),可參照本文提出的扁平化胖樹網(wǎng)絡模型。從外部網(wǎng)絡來說,逐步增加到MPLS VPN網(wǎng)絡的連接和跨數(shù)據(jù)中心的二層專線直連。但經(jīng)過一段時間的發(fā)展后,二層專線連接可能會逐步消亡。
[1]北大青鳥管理員.L3路由交換技術應用與發(fā)展的探究[EB/OL].[2011-03-19].http://www.zzbeidaqingniao.com/switch%20and%20ro ut/20091111/1225.html.
[2]IEEE 802.1 working group.Data Center Bridging Task Group[S/OL].[2011-03-19].http://www.ieee802.org/1/pages/dcbridges.html.
[3]TRILL Working Group.RBridges:Base Protocol Specification [EB/OL].[2011-03-19].http://www.ietf.org/id/draft-ietf-trill-rbridgeprotocol-16.txt.
[4]H3C.互聯(lián)網(wǎng)數(shù)據(jù)中心交換網(wǎng)絡的設計 [EB/OL].[2011-03-19].http://www.h3c.com.cn/download.do?id=867400.
[5]Cisco.Cisco Catalyst 6500 VSS and Cisco Nexus 7000 vPC Interoperability and Best Practices[EB/OL].[2011-03-19].http://www.cisco.com/en/US/prod/collateral/switches/ps5718/ps708/white_paper_c11_58 9890.html.
[6]賈平蛙.解析思科數(shù)據(jù)中心虛擬化技術和部署[EB/OL].[2011-03-19].http://storage.it168.com/a2009/1127/816/000000816006.shtml.
[7]王文義,陳薈惠.用胖樹拓撲構建InfiniBand集群系統(tǒng)的分析與研究[J].計算機工程與應用,2007,43(3):119-121.
[8]郭英鵬.通信網(wǎng)絡與機房的可用性計算及規(guī)劃[J].廣東通信技術,2008,28(11):53-58.