文|羅森伯格亞太電子有限公司 周 煒
下一代數(shù)據(jù)中心的Ethernet(40G/100G)的發(fā)展與基礎(chǔ)布線
文|羅森伯格亞太電子有限公司 周 煒
自從2002年IEEE 802.3ae 標(biāo)準(zhǔn)正式出臺(tái)以后,以太網(wǎng)絡(luò)的速度得到了極大的提高,比如阿姆斯特丹和東京互聯(lián)網(wǎng)核心交換節(jié)點(diǎn)的流量已經(jīng)突破600Gbps。盡管10Gbps的傳輸速率已經(jīng)極大地發(fā)揮了普通多模光纖和雙絞線的潛力,但是隨著網(wǎng)絡(luò)應(yīng)用的發(fā)展,特別是隨著當(dāng)前網(wǎng)絡(luò)視頻、手機(jī)智能化等多種業(yè)務(wù)的快速發(fā)展,10GBase已經(jīng)體現(xiàn)出局限性。2009年11月中旬,Intel開(kāi)始發(fā)售10GBase-T網(wǎng)卡。可以預(yù)見(jiàn),隨著IEEE 802.3az標(biāo)準(zhǔn)的成熟以及芯片技術(shù)的進(jìn)步,10GBase-T的功耗會(huì)進(jìn)一步降低,將來(lái)PC服務(wù)器甚至是普通電腦都會(huì)采用10Gbps以太網(wǎng)絡(luò)。
所以在2006年10GBase-T標(biāo)準(zhǔn)出臺(tái)后,IEEE根據(jù)網(wǎng)絡(luò)發(fā)展的趨勢(shì),于當(dāng)年6月就成立了HSSG(Higher Speed Study Group)研究小組,并于2007年12月批準(zhǔn)PAR(Project Authorization Request) 發(fā)展下一代網(wǎng)絡(luò)40G/100G以太網(wǎng)標(biāo)準(zhǔn)。按照計(jì)劃,下一代標(biāo)準(zhǔn)IEEE 802.3ba將于2010年6月份出臺(tái)。目前看來(lái)40G與100G,將來(lái)的應(yīng)用主要集中在數(shù)據(jù)中。當(dāng)服務(wù)器大范圍采用10GBase-T時(shí),核心交換的速度必須隨之進(jìn)行大幅的提升。此外,數(shù)據(jù)中心中的FCOE、iSCSI等技術(shù)使得SAN/LAN網(wǎng)絡(luò)融合成為趨勢(shì),這也對(duì)以太網(wǎng)絡(luò)的速率提出了更高的要求。而且現(xiàn)在以太網(wǎng)還面臨象Infiniband這樣最高可以支持120G傳輸技術(shù)的競(jìng)爭(zhēng)壓力,所以新標(biāo)準(zhǔn)的出臺(tái)已經(jīng)迫在眉睫。
當(dāng)前在核心交換機(jī)市場(chǎng),已經(jīng)有相當(dāng)多的交換機(jī)廠商宣布他們的交換機(jī)背板已經(jīng)支持100G的標(biāo)準(zhǔn),Juniper等廠商已經(jīng)開(kāi)始推廣100G以太網(wǎng)的接口板;在終端市場(chǎng),40G以太網(wǎng)的網(wǎng)卡也已經(jīng)開(kāi)始發(fā)售,如Mellanox于2009年9月推出ConnectX-2 EN 40G PCIe網(wǎng)卡,支持IEEE Draft P802.3ba/D2.0 40GBASE-CR4,-SR等協(xié)議。與Mellanox壟斷infiniband芯片的情況不同,IEEE 802.3ba芯片的競(jìng)爭(zhēng)會(huì)更激烈,將來(lái)產(chǎn)品的價(jià)格優(yōu)勢(shì)會(huì)很明顯。
40G和100G以太網(wǎng)到底是什么?簡(jiǎn)單地說(shuō)就是將以太網(wǎng)的速率提高到40Gbps/100Gbps。其中會(huì)牽涉到MAC參數(shù)、物理層和管理部分的變化。本文主要介紹802.3ba的物理基礎(chǔ)部分,因?yàn)槟壳皹?biāo)準(zhǔn)仍然處在草案(D3.0)階段,沒(méi)有最后定稿,所以本文的介紹可能會(huì)與將來(lái)出臺(tái)的標(biāo)準(zhǔn)有細(xì)微的差別,但是基礎(chǔ)的物理鏈路已經(jīng)不會(huì)有大的變化,所以我們現(xiàn)在新建數(shù)據(jù)中心時(shí),為了考慮將來(lái)的升級(jí)問(wèn)題,就有必要對(duì)下一代網(wǎng)絡(luò)有一個(gè)大致的了解。
通常來(lái)講,我們要提高傳輸速率大致有幾種途徑(如圖1所示):其一是更高效率的編碼方式,其二是更大的傳輸帶寬,其三是多路傳輸(復(fù)用)。
在萬(wàn)兆時(shí)代,OM3 與Cat.6A的應(yīng)用大大增加了傳輸?shù)膸?,再加上芯片技術(shù)的進(jìn)步和DSP處理能力的增強(qiáng)使得編碼能夠更有效率,最終使萬(wàn)兆以太網(wǎng)能夠得以推廣。但是到了萬(wàn)兆之后,介質(zhì)的傳輸帶寬增加不明顯,OM4相比OM3和Cat.7A 相比Cat.6A都只增加了2倍多的帶寬,如果要達(dá)到100G的傳輸速率,就必須在其他方面取得突破。但是靠提高編碼效率的方式來(lái)提高帶寬面臨兩大瓶頸:其一是編碼效率的提高多依賴(lài)于電磁波傳輸,光傳輸?shù)木幋a效率很難大幅提高;其二是編碼效率的提高直接導(dǎo)致處理成本的增加(需增設(shè)昂貴的設(shè)備)。再加上一些其他因素如時(shí)間的緊迫性、防止技術(shù)的壟斷性等多方面的要求,導(dǎo)致了目前主要的研究方向在并行與復(fù)用系統(tǒng)。采用該方案最大的好處就是可以直接借鑒過(guò)去的標(biāo)準(zhǔn),減少新元器件的開(kāi)發(fā)和研制,加速新標(biāo)準(zhǔn)的推出,降低系統(tǒng)的成本。
目前40G/100G 以太網(wǎng)的標(biāo)準(zhǔn)如表1所示。
表1
根據(jù)表1所示,40G/100G的實(shí)現(xiàn)方式可以分成3種,即單模光纖、多模光纖和銅纜/背板。先來(lái)看一下單模的傳輸方式。單模光纖理論上擁有無(wú)限的帶寬,標(biāo)準(zhǔn)研究初期討論過(guò)有兩種基于SMF的實(shí)現(xiàn)方法,即串行、WDM波分復(fù)用。如果采用串行40G方式,成本大約是WDM的6倍,同時(shí)功耗也大大高于WDM,而且部分新元器件需要重新開(kāi)發(fā),這會(huì)極大地阻礙標(biāo)準(zhǔn)的按時(shí)發(fā)布和市場(chǎng)推廣,而WDM已經(jīng)是成熟技術(shù),所以經(jīng)過(guò)委員會(huì)的激烈討論和投票,WDM以微弱優(yōu)勢(shì)勝出(領(lǐng)先2票)。所以目前基于單模光纖的40G/100G采用WDM的波分復(fù)用方式實(shí)現(xiàn),4×10G或者4×25G,如圖2所示。
無(wú)論是現(xiàn)在的波分復(fù)用方式還是將來(lái)可能會(huì)出現(xiàn)的串行方式,都仍然是在一對(duì)單模光纖內(nèi)傳輸雙工系統(tǒng),對(duì)布線系統(tǒng)沒(méi)有特殊的要求,所以目前的單模光纖已經(jīng)能夠滿足將來(lái)的需求。
上面提到的OM4 光纖的EMB為4700MHz·km。雖然多模光纖的EMB最高可以做到9000MHz·km以上,但是仍然不能滿足串行40G和100G的要求,而且器件成本也太高,所以基于多模光纖的40G/100G基本上都采用并行系統(tǒng),就是在多根光纖上部署并行收發(fā)器。出于兼容現(xiàn)有的連接類(lèi)型的考慮,采用單個(gè)連接器12芯光纖的MPO/MTP是最好的選擇。在開(kāi)始討論的時(shí)候曾經(jīng)有過(guò)2×20G和4×25G的方案,基于和串行40G SMF相同的原因,這個(gè)方案最終被放棄。目前IEEE基本確定采用4×10和10×10的方案,40G為單個(gè)MPO連接器上4根收,4根發(fā)(如圖3所示);100G采用2個(gè)MPO連接器(如圖4所示),1個(gè)收,1個(gè)發(fā)。
多模光纖和單模光纖不同,對(duì)帶寬是有限制的。在上一代10GBase-SR標(biāo)準(zhǔn)中OM1與OM2光纖是可以采用的,只是OM1光纖只能支持33m的距離。到了新一代標(biāo)準(zhǔn)中只有OM3和OM4兩種類(lèi)型的光纖可以采用,可支持的傳輸距離分別為100m和125m。設(shè)定這個(gè)距離主要出于兩個(gè)方面的考慮:其一是根據(jù)統(tǒng)計(jì),數(shù)據(jù)中心內(nèi)的骨干光纖鏈路88%小于100m,94%小于125m,100%小于300m,100m已經(jīng)基本夠用;其二是成本和實(shí)現(xiàn)難度較小,方案比較穩(wěn)妥,因?yàn)椴⑿袀鬏攲?duì)傳輸?shù)乃p等指標(biāo)要求較高。但是目前關(guān)于距離這部分的爭(zhēng)議仍然很大,有多家研究機(jī)構(gòu)提出,采用一些方法可以讓OM3支持150m以上,OM4支持250m以上的距離,也許將來(lái)的標(biāo)準(zhǔn)在這方面會(huì)有變化。
所以,如果現(xiàn)在要新建一個(gè)數(shù)據(jù)中心,要考慮升級(jí)到下一代網(wǎng)絡(luò),最好的選擇就是采用OM3或OM4光纜,配合MPO/MTP連接器加預(yù)連接的解決方案,這樣至少在升級(jí)網(wǎng)絡(luò)的時(shí)候,原有的光纖布線系統(tǒng)還能夠繼續(xù)使用。
基于銅纜和背板的傳輸方式,因?yàn)椴辉诰C合布線的范疇內(nèi),所以本文不做詳細(xì)介紹。該方式基本上也都采取多路并行的傳輸方式。另外CR與KR的傳輸距離非常接近,只有在最核心的部分才會(huì)采用。
也許有人會(huì)問(wèn)到基于雙絞線的10GBase-T將來(lái)會(huì)如何再發(fā)展?很遺憾,目前IEEE還沒(méi)有公布相關(guān)的研究結(jié)果,不過(guò)象PAM256這樣的編碼應(yīng)該會(huì)出現(xiàn)在下一代網(wǎng)絡(luò)中。主要的困難在于雙絞線的傳輸速率已經(jīng)達(dá)到一個(gè)相當(dāng)高的水平,再提高就很難了。
我們知道香農(nóng)公式可以用來(lái)描述給定帶寬和信噪比的極限速率。
上式中C為速率,W為帶寬,S/N為信噪比。假設(shè)我們要在4對(duì)雙絞線上運(yùn)行40Gbps的雙工傳輸(10Gbps每線對(duì)),傳輸帶寬1GHz,從公式可以推算出,S/N為1023。也就是說(shuō)要在4對(duì)雙絞線上傳輸40Gbps,信噪比至少要達(dá)到30.1dB,相比10GBase-T18.8dB的極限信噪比,提高了近12dB。這樣的要求只有采用雙屏蔽的7A類(lèi)系統(tǒng)才能達(dá)到,而且功耗會(huì)相當(dāng)高。
考慮到目前IEEE至少要2年以后才會(huì)開(kāi)始研究基于雙絞線的下一代以太網(wǎng),而一個(gè)標(biāo)準(zhǔn)從開(kāi)始研究到成熟至少需要4~5年,從標(biāo)準(zhǔn)成熟到網(wǎng)卡設(shè)備成熟又需要4~5年,所以目前采用6A類(lèi)系統(tǒng)的水平布線,可以說(shuō)已經(jīng)完全能夠滿足現(xiàn)在和將來(lái)相當(dāng)長(zhǎng)一段時(shí)間內(nèi)的需求,基本上在數(shù)據(jù)中心內(nèi)的整個(gè)生命周期里都不會(huì)有升級(jí)的需求。
在考慮使用哪種網(wǎng)絡(luò)的時(shí)候,成本始終都是一個(gè)重要的參與標(biāo)準(zhǔn)。那么40G與100G以太網(wǎng)的成本如何?是否會(huì)上升到無(wú)法接受的地步?一般情況下一個(gè)完整的光鏈路可以大致分為三個(gè)部分:交換機(jī)端口、收發(fā)器、光纖。即兩端的各一組交換機(jī)端口+各一組收發(fā)器+光纖鏈路。經(jīng)過(guò)Intel等公司的研究,40G以太網(wǎng)的費(fèi)用情況大致如圖5所示。
如果把2009年的10G-SR系統(tǒng)的費(fèi)用設(shè)為1,初期40G-SR的費(fèi)用將是3.5/3.6(OM3/OM4),基于單模光纖的40G-LR將是7.1,將來(lái)隨著32nm芯片技術(shù)的成熟,40G-SR系統(tǒng)的費(fèi)用將降低到1.8左右。
100G以太網(wǎng)的費(fèi)用情況如圖6所示。
初期基于多模的100G系統(tǒng)的費(fèi)用在8.4以上,基于單模的還沒(méi)有一個(gè)比較明確的預(yù)估,不過(guò)估計(jì)至少在多模100G的基礎(chǔ)上增加8倍。到2015年,估計(jì)基于多模的100G能夠降低一半的費(fèi)用。
現(xiàn)在電信已經(jīng)開(kāi)始普及光纖到樓甚至光纖到戶。比如到2012年,上海電信的城市光網(wǎng)計(jì)劃將使300萬(wàn)用戶的帶寬達(dá)到100M,用戶對(duì)流量的要求會(huì)比當(dāng)前大大增加。屆時(shí)隨著IEEE 802.3ba標(biāo)準(zhǔn)的成熟,以及設(shè)備成本的降低,40G/100G以太網(wǎng)將會(huì)得到應(yīng)用。布線系統(tǒng)的壽命一般都高于網(wǎng)絡(luò)設(shè)備,所以在系統(tǒng)升級(jí)的時(shí)候需要盡可能地減少布線系統(tǒng)的改動(dòng),以便大大減少升級(jí)的時(shí)間,節(jié)約費(fèi)用。通過(guò)上面的分析,我們建議在數(shù)據(jù)中心內(nèi),超長(zhǎng)鏈路部分仍然采用單模光纖;在中短距離的核心鏈路上,采用高密度MPO-MPO預(yù)連接OM3/OM4 光纜的解決方案,并且預(yù)留部分光纖為升級(jí)備用;水平布線采用Cat.6,甚至Cat.6A類(lèi)系統(tǒng)。這樣既能滿足現(xiàn)在的需求,又能為將來(lái)升級(jí)預(yù)留空間,同時(shí)不會(huì)帶來(lái)明顯的整體成本的增加。