今天,我們正處于一個信息社會,每年產(chǎn)生的信息數(shù)量呈幾何級數(shù)增長,而數(shù)據(jù)的存儲、處理和分析等主要發(fā)生在數(shù)據(jù)中心中,這就對數(shù)據(jù)中心網(wǎng)絡(luò)提出了新的需求和新的挑戰(zhàn),如何滿足需求和解決挑戰(zhàn),是我們面臨的新課題。

云數(shù)據(jù)中心網(wǎng)絡(luò)面臨的新需求和新挑戰(zhàn)
眾所周知,云計算的核心理念是硬件資源池化、軟件全分布化和運行全自動化,這種新的分布式計算架構(gòu)和存儲架構(gòu)的基本需求是跨計算節(jié)點訪問數(shù)據(jù),這使得數(shù)據(jù)中心內(nèi)的東西流量遠(yuǎn)遠(yuǎn)高于數(shù)據(jù)中心與用戶之間的南北流量,有的場景下甚至?xí)叱?0倍,比如搜索等。網(wǎng)絡(luò)無阻塞成為支持云計算的基本要求。而今天的匯聚性CLOS數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)面臨的新挑戰(zhàn),主要包括以下幾個方面。
P級無阻塞交換的容量需求
一般來說,典型云數(shù)據(jù)中心的服務(wù)器規(guī)模為5~10萬臺,這些服務(wù)器既可以是在一個大型數(shù)據(jù)中心基地內(nèi),也可以分布在200公里范圍內(nèi)的多個機(jī)房。以3000~4000臺服務(wù)器組成一個POD集群,集群內(nèi)部實現(xiàn)嚴(yán)格的無阻塞網(wǎng)絡(luò),集群間則最大程度實現(xiàn)無阻塞網(wǎng)絡(luò),以更大規(guī)模地實現(xiàn)計算和存儲的共享,此種情況下,網(wǎng)絡(luò)對交換容量的需求極其巨大。以每個服務(wù)器4個10G接口計算,網(wǎng)絡(luò)容量要達(dá)到2P~4P的能力,即使集群間按照1:4收斂比計算,云數(shù)據(jù)中心網(wǎng)絡(luò)的容量也將達(dá)到P級需求(1P=1000T)。
傳統(tǒng)設(shè)備匯聚的網(wǎng)絡(luò)架構(gòu),其核心交換機(jī)的最大容量當(dāng)前約為50Tbps,如果不改變網(wǎng)絡(luò)架構(gòu),要滿足未來的需求核心交換機(jī)就要達(dá)到100~200Tbps的容量,以電互連為基礎(chǔ)的技術(shù)要提升Serdes速度、提升更大的單機(jī)容量非常困難,而且單點故障的影響將變得越來越巨大,成本也越來越高昂,難以為繼。
網(wǎng)絡(luò)設(shè)備的功耗密度大
數(shù)據(jù)中心的功耗也是巨大的挑戰(zhàn)。數(shù)據(jù)中心設(shè)施中耗電“大戶”眾多,歷來被稱為“電力殺手”;更為關(guān)鍵的是還要實現(xiàn)能量密度的均勻,因為能量密度不均勻?qū)﹄娏ο到y(tǒng)、冷卻系統(tǒng)、數(shù)據(jù)中心空間以及數(shù)據(jù)中心安全等都會帶來巨大的影響。
核心交換機(jī)因其容量巨大,功耗約近3萬瓦。一般來說,老機(jī)房單機(jī)架供電能力是4~5千瓦,新機(jī)房單機(jī)架供電能力是8千瓦到1.2萬瓦。如果單個設(shè)備功耗過大,成為“功耗高地”,設(shè)備前后左右就必須留出足夠的空間來保障為其供電。同時,散熱系統(tǒng)也要嚴(yán)格保證其工作環(huán)境要求,從而使整體機(jī)房空間的密度難以提升,又給供電散熱帶來了很大的挑戰(zhàn),隨著網(wǎng)絡(luò)規(guī)模的不斷增大,功耗和散熱也變得越來越難以為繼。
海量連纖成為數(shù)據(jù)中心運維和規(guī)模擴(kuò)展的瓶頸
傳統(tǒng)三層網(wǎng)絡(luò)設(shè)備的連接,需要通過核心交換機(jī)來轉(zhuǎn)發(fā)TOR的組間流量,即最終需要將光纖匯聚于核心機(jī)房,從而產(chǎn)生了“光纖墻”問題,密密麻麻的光纖會變得像一堵墻一樣,讓運維非常復(fù)雜。
通過大容量端口可以減少光纖,比如40GE或者100GE端口,但出于對光模塊成本的考慮,一般會采用4×10G或者10×10G的多模并行光模塊,40GE需要4對光纖,100GE需要10對光纖,光纖數(shù)量實際上并不會減少,對運維仍將帶來很大的挑戰(zhàn);與此同時,設(shè)計機(jī)房的架頂時,一般的設(shè)計規(guī)格是承受2000束左右的光纖,這樣,核心機(jī)房的連纖數(shù)量也進(jìn)一步限制了全網(wǎng)無阻塞交換的容量,即最大可以達(dá)到約200Tbps(2000×100GE)。
因此,隨著云計算的發(fā)展,云數(shù)據(jù)中心的規(guī)模日益變大、東西流量日益增加,數(shù)據(jù)中心網(wǎng)絡(luò)將面臨新的需求,特別是P級無阻塞交換容量的需求。而傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)面臨著容量、供電、功耗、擴(kuò)展性和運維等一系列難以解決的問題,需要新的架構(gòu)來解決問題。
面向未來,構(gòu)建Scale Out數(shù)據(jù)中心網(wǎng)絡(luò)

MESH網(wǎng)絡(luò)架構(gòu)邏輯圖
MESH網(wǎng)絡(luò)架構(gòu)的關(guān)鍵特征:第一是超級扁平化,全網(wǎng)只有TOR交換機(jī)一層,直接部署在每一個服務(wù)器機(jī)柜上。將數(shù)據(jù)中心網(wǎng)絡(luò)的多層匯聚結(jié)構(gòu)變革為一層物理網(wǎng)絡(luò)結(jié)構(gòu),全網(wǎng)由一種規(guī)格和配置相同的小交換機(jī)連接而成,每臺交換機(jī)都有組內(nèi)MESH和組間MESH連接,不再需要傳統(tǒng)架構(gòu)中的大容量匯聚與核心交換機(jī)。
每個TOR交換機(jī)的端口分為3組:第一組是連接服務(wù)器的本地端口;第二組是連接同一POD內(nèi)其他TOR交換機(jī)的組內(nèi)連接端口,形成組內(nèi)一級MESH連接;第三組是連接不同POD間TOR的組間連接端口,組間連接端口與不同POD間的相同組間平面的TOR相連,形成組間二級MESH連接。標(biāo)準(zhǔn)的二級MESH網(wǎng)絡(luò)由N×N個TOR節(jié)點組成,其中共有N個POD,每個POD有N個TOR節(jié)點。
第二是光網(wǎng)絡(luò)進(jìn)入數(shù)據(jù)中心,采用波分和無源光器件CAWG(Cyclic Array Waveguide Grating,循環(huán)陣列波導(dǎo)光柵)來解決MESH互聯(lián)。無論組內(nèi)還是組間的MESH連接,都需要有光纖與相關(guān)節(jié)點直連。如果網(wǎng)絡(luò)規(guī)模很大,例如共有48×48個節(jié)點的網(wǎng)絡(luò),網(wǎng)絡(luò)的連纖數(shù)量巨大,需要幾十萬對光纖,且每根連纖的節(jié)點方向也不相同。為了解決光纖的MESH連接問題,引入了波分接口和CAWG,交換機(jī)采用WDM接口(可內(nèi)置在交換機(jī)中,也可以獨立部署),TOR交換機(jī)的N個發(fā)送端口經(jīng)合波器合波后,與CAWG的輸入纖相連,利用該光器件,不僅可以將交換機(jī)邏輯上的MESH連接轉(zhuǎn)變成物理上的星形連接,而且解決了大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)的海量連纖問題。
第三是MESH?網(wǎng)絡(luò)的分布式轉(zhuǎn)發(fā)實現(xiàn)了無阻塞交換和智能路由調(diào)度,提高了網(wǎng)絡(luò)吞吐率。MESH網(wǎng)絡(luò)在物理上是一層網(wǎng)絡(luò),在轉(zhuǎn)發(fā)模型上依然是CLOS三級網(wǎng)絡(luò),只不過是分布式的,即TOR交換機(jī)完成TOR、匯聚和核心3層交換機(jī)的功能,把匯聚和核心交換機(jī)的能力分布到每一個TOR交換機(jī)上,從而消除了系統(tǒng)的中心點和瓶頸。并且,相比傳統(tǒng)的CLOS架構(gòu),因為MESH網(wǎng)絡(luò)存在直達(dá)路徑,通過智能的、不等價多路徑的路由調(diào)度算法,數(shù)據(jù)流量在DC內(nèi)的轉(zhuǎn)發(fā)跳數(shù)將會減少,使得MESH網(wǎng)絡(luò)的時延性能和轉(zhuǎn)發(fā)效率都得到顯著提高。
Scale Out架構(gòu)的價值:超大容量、去中心、易維護(hù)、高系統(tǒng)可靠性
Scale Out MESH?網(wǎng)絡(luò)的實質(zhì)是將傳統(tǒng)CLOS三層網(wǎng)絡(luò)的匯聚與核心層節(jié)點的交換能力分配到了TOR上,突破了傳統(tǒng)匯聚架構(gòu)的瓶頸。其核心價值表現(xiàn)在以下幾個方面:
- 第一是全分布式的扁平化架構(gòu)突破了容量的瓶頸,可以構(gòu)建超大容量的網(wǎng)絡(luò)。采用兩級MESH?網(wǎng)絡(luò)組建1Pbps級的無阻塞數(shù)據(jù)中心網(wǎng)絡(luò)(支持5萬臺雙10G接口的服務(wù)器),每個TOR的容量需求為5×48×10G=2.4Tbps,即240個10Gbps接口,或者48個10Gbps接口(連接服務(wù)器)和96個25Gbps接口(TOR之間互聯(lián)),TOR實現(xiàn)這樣的能力是很容易的。相比較而言,如果采用傳統(tǒng)CLOS組網(wǎng)方式,核心交換機(jī)需要200Tbps以上的交換容量,這將是非常巨大的挑戰(zhàn)。
- 第二是去中心的架構(gòu)和光技術(shù)的引入,消除了功耗、散熱、布線和維護(hù)等工程瓶頸。新架構(gòu)下去除了核心交換機(jī)和匯聚交換機(jī)等大型設(shè)備,只有TOR交換機(jī),與一個機(jī)架服務(wù)器一樣,由此消除了系統(tǒng)中的“功耗高地”,使供電、冷卻和安全不再是數(shù)據(jù)中心的棘手問題。同時,波分和CAWG的引入使得全網(wǎng)的光纖連接數(shù)量減少了數(shù)十倍,并且均勻分布在每個機(jī)房模塊,大大簡化了布線和運維等問題,也極大降低了OPEX運維成本。
- 第三是分布式系統(tǒng)的系統(tǒng)可靠性替代了單機(jī)可靠性,消除了單點故障的風(fēng)險。傳統(tǒng)數(shù)據(jù)中心隨著交換容量的增大,匯聚層與核心層節(jié)點的重要性更為突出,尤其在匯聚結(jié)構(gòu)中,核心交換機(jī)的故障對全網(wǎng)流量交換的影響非常重大,運維人員對匯聚與核心節(jié)點的維護(hù)需要倍加小心;而新架構(gòu)下全網(wǎng)只有TOR一層物理網(wǎng)絡(luò)節(jié)點,由于TOR節(jié)點數(shù)量眾多,一臺節(jié)點故障只影響本機(jī)柜服務(wù)器的流量交換,流量影響只占全網(wǎng)的數(shù)千分之一,這就從根本上消除了節(jié)點故障導(dǎo)致大面積網(wǎng)絡(luò)癱瘓的可能性,使網(wǎng)絡(luò)的可靠性大大提升。
Scale Out網(wǎng)絡(luò)的問題和未來發(fā)展
Scale Out網(wǎng)絡(luò)還有兩個不足的地方:一個是CAWG是固定方向的波長交叉,使得靈活組網(wǎng)和平滑擴(kuò)展受到制約;另一個是TOR之間的互聯(lián)接口帶寬都相同,不能靈活升級,而只能整體升級。雖然這些問題可以通過工程方法、工程部署方式或者在實際應(yīng)用中來避免或者優(yōu)化,但還不能徹底解決問題,還需要進(jìn)一步創(chuàng)新來解決,比如靈活的光交叉技術(shù)和可變帶寬光端口等。這些光技術(shù)的發(fā)展也將成為數(shù)據(jù)中心網(wǎng)絡(luò)未來發(fā)展的核心,使光技術(shù)和光網(wǎng)絡(luò)成為數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)。
綜上所述,隨著云計算和云服務(wù)的發(fā)展,海量信息的爆炸和數(shù)據(jù)流量模型的改變正在給數(shù)據(jù)中心網(wǎng)絡(luò)帶來新需求和新挑戰(zhàn),需要用新的思維模型、新的設(shè)計理念以及新的技術(shù)架構(gòu)來重新思考數(shù)據(jù)中心網(wǎng)絡(luò)的發(fā)展方向。Scale Out MESH?架構(gòu)的數(shù)據(jù)中心網(wǎng)絡(luò),采用云計算的理念和思想、借助光網(wǎng)絡(luò)的技術(shù)來構(gòu)建Scale Out網(wǎng)絡(luò)架構(gòu),解決了傳統(tǒng)CLOS數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)難以克服的問題。通過全分布式的一層網(wǎng)絡(luò)架構(gòu)和智能的路由調(diào)度算法,能夠構(gòu)建出Pbps級的超大容量網(wǎng)絡(luò)并實現(xiàn)更高的網(wǎng)絡(luò)效率;通過去中心化來解決功耗、散熱、布線和維護(hù)等工程問題,降低了單點故障的風(fēng)險,不依賴單個設(shè)備構(gòu)建系統(tǒng)的可靠性,是未來云數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展的核心方向。
顏清華和朱廣平/文