數(shù)據(jù)中心大帶寬技術(shù)分析與國(guó)際標(biāo)準(zhǔn)化進(jìn)展

訊石光通訊網(wǎng) 2020/4/29 11:05:10

  1 業(yè)界需求

  隨著AI,大數(shù)據(jù),分布式存儲(chǔ)和計(jì)算等業(yè)務(wù)的飛速發(fā)展,數(shù)據(jù)中心對(duì)高吞吐和大帶寬的要求越發(fā)迫切。思科2018年發(fā)布的GCI指數(shù)顯示,數(shù)據(jù)中心內(nèi)流量保持每年約30%的增長(zhǎng),到2021年將達(dá)到約20 Zettabytes。當(dāng)前100G已在數(shù)據(jù)中心內(nèi)海量使用,400G預(yù)計(jì)在2019 ~2020年開(kāi)始部署。2019年以太網(wǎng)聯(lián)盟發(fā)布的以太網(wǎng)路標(biāo)顯示,2022年后將逐步進(jìn)入800G/1.6T 時(shí)代。

  圖1. Cisco Global Cloud Index, Cisco, 2018

  圖2. Ethernet Roadmap, Ethernet Alliance, 2019

  隨著400G產(chǎn)品的日趨成熟,800G的技術(shù)方向也逐漸明確。

  1) 芯片:博通于2017年發(fā)布了12.8T的Tomahawk 3 芯片, 支持32個(gè)400G端口。預(yù)計(jì)2022年將會(huì)出現(xiàn)50T+的大容量芯片,支持64個(gè)800G端口以及最新的112G SerDes技術(shù)。

  2) 光模塊:2018年起,各大主流模塊廠商陸續(xù)發(fā)布400G模塊產(chǎn)品。當(dāng)前400G模塊支持光口速率單波長(zhǎng)100G(多模除外);后續(xù)當(dāng)SerDes升級(jí)到112G, 光口速率將匹配電口速率,模塊將自然演進(jìn)到8*100G。

  3) 系統(tǒng):2018年,思科、Arista、華為均發(fā)布了基于12.8T芯片的TOR交換機(jī),支持32個(gè)400G端口,采用QSFP-DD或OSFP封裝。這兩種封裝格式都支持后續(xù)演進(jìn)到800G。

  2 技術(shù)趨勢(shì)

  根據(jù)以太網(wǎng)速率和物理層標(biāo)準(zhǔn)的發(fā)展歷史,以及相關(guān)技術(shù)、器件的成熟度,我們預(yù)測(cè),800G第一代將會(huì)以8*100G(單通道100G)為主。以下章節(jié)我們將從模塊、芯片、系統(tǒng)和封裝技術(shù)等方面對(duì)800G互聯(lián)的技術(shù)趨勢(shì)展開(kāi)討論。

  2.1 多模提速

  圖3. 數(shù)據(jù)中心CLOS架構(gòu)和互聯(lián)

  圖3 展示了數(shù)據(jù)中心主流的CLOS組網(wǎng)架構(gòu)和各層設(shè)備間的互聯(lián)關(guān)系。直連電纜(DAC)和有源光纜(AOC)用于Server和TOR交換機(jī)之間的互聯(lián),覆蓋20米以下的距離;AOC一般采用低成本的多模模塊和多模光纖。多模同時(shí)部署在TOR上行和spine交換機(jī)之間,覆蓋100米以下的距離。Spine上行,由于互聯(lián)距離較長(zhǎng),一般使用單模覆蓋,并通過(guò)波分技術(shù)(如CWDM)實(shí)現(xiàn)單纖傳輸,降低互聯(lián)成本。

  由于巨大的成本優(yōu)勢(shì),多模模塊和多模光纖在數(shù)據(jù)中心內(nèi)海量使用。從LightCounting 2018年發(fā)布的光模塊發(fā)貨量趨勢(shì)來(lái)看(圖4),100G多模不斷上升,到2022年達(dá)到頂峰;400G多模100米、單模500米和2km三分天下。

  圖4:100G & 400G光模塊發(fā)貨量預(yù)測(cè),LightCounting,2018

  表1 展示了IEEE定義的400G多模標(biāo)準(zhǔn):400G-SR16,400G-SR8和400G-SR4.2。400G-SR16 基于電口25G-SerDes, 需要16路光電器件,MPO-32連接器以及16對(duì)光纖。由于缺少用戶和模塊廠商的支持,該標(biāo)準(zhǔn)在業(yè)界沒(méi)有被廣泛應(yīng)用。400G-SR8和400G-SR4.2標(biāo)準(zhǔn)基于電口56G-SerDes, 器件和光纖數(shù)減半;而400G-SR4.2采用了短波分復(fù)用技術(shù)(SWDM),實(shí)現(xiàn)了單纖雙向,可以復(fù)用100G時(shí)代的4對(duì)纖部署。隨著大帶寬VCSEL器件的成熟以及DSP技術(shù)的加持,多模有望在800G時(shí)代繼續(xù)演進(jìn)。

  表1:IEEE 400G多模標(biāo)準(zhǔn)

  2.2 封裝格式

  圖5:Intel光電集成路標(biāo):可插拔模塊à在板光模塊à光電合封,Intel, 2018

  隨著電口速率提升到112G,高速信號(hào)在PCB傳輸中的損耗也隨之增大。為了驅(qū)動(dòng)交換芯片到光模塊的PCB走線,滿足信號(hào)完整性,SerDes可能需要使用相對(duì)復(fù)雜的DSP。這將造成芯片整體功耗大幅增加。

  為了解決功耗限制,如圖5所示,業(yè)界普遍的做法是將光模塊不斷向交換芯片靠近,從而縮短芯片和模塊間的走線,即SerDes的驅(qū)動(dòng)距離。在板光模塊和光電合封技術(shù)應(yīng)運(yùn)而生。業(yè)界有觀點(diǎn)認(rèn)為,到2025年,可插拔光模塊和無(wú)源銅纜將逐漸被以上兩種技術(shù)取代。

  圖6:在板光模塊電接口和連接器示意圖

  在板光模塊或者嵌入式光引擎的概念并不新鮮,F(xiàn)inisar的SNAP系列和Avago的POD系列等早在十多年前就已進(jìn)入市場(chǎng)。這些產(chǎn)品均屬于私有或定制化方案,可支持12路VCSEL,并集成在PCB板上,為集群提供高速高密的框內(nèi)互聯(lián)。隨著數(shù)據(jù)中心客戶和業(yè)務(wù)的增長(zhǎng),業(yè)界呼喚標(biāo)準(zhǔn)化方案的出臺(tái)。2013年,微軟提出傳統(tǒng)可插拔模塊面臨功耗和密度問(wèn)題,在后400G時(shí)代將選擇在板光模塊作為技術(shù)方案。同年,微軟聯(lián)合思科、博通、Finisar等14家廠商成立COBO聯(lián)盟,旨在提供標(biāo)準(zhǔn)化的在板光模塊方案;當(dāng)前成員已經(jīng)超過(guò)70家。2018年,COBO發(fā)布技術(shù)規(guī)范(如圖6所示),定義了8路和16路的客戶側(cè)電接口、OBO連接器規(guī)格以及熱參數(shù),支持可插拔的在板光模塊形態(tài)。當(dāng)前標(biāo)準(zhǔn)最高支持800G,未來(lái)可演進(jìn)至1.6T。

  光電合封,將光引擎和交換芯片封裝在一個(gè)襯底上。相比在板光模塊,合封后,SERDES IO和光引擎的距離進(jìn)一步減小到毫米級(jí),交換芯片的功耗大幅減低。合封后的芯片直接扇出光纖,交換機(jī)前面板不再受傳統(tǒng)模塊封裝格式的限制,可以采用尺寸更小的MPO連接器(此處有圖)實(shí)現(xiàn)高密高速互聯(lián)。預(yù)計(jì)單槽位將可支持上百T的容量,是現(xiàn)有可插拔模塊可支持容量的10倍以上。

  圖7 光電合封示意圖

  圖 8.光電合封概念樣機(jī),Luxtera @ OFC 2018

  業(yè)界普遍認(rèn)為光電合封是大帶寬接口形態(tài)的必然趨勢(shì),模塊、系統(tǒng)和線纜廠商也紛紛合作并推出樣機(jī)。2018年OFC,Luxtera展示了51.2T的光電合封樣機(jī)。如圖 8所示,該樣機(jī)采用了4個(gè)外置光源,驅(qū)動(dòng)4個(gè)光電合封引擎,每個(gè)引擎支持12.8T的容量,面板采用MPO連接器扇出光纖。

  2019年3月,微軟和Facebook聯(lián)合成立了Co-Packaged Optics (CPO) 協(xié)作項(xiàng)目。該項(xiàng)目聚焦用戶視角,為光電合封方案提供系統(tǒng)級(jí)需求,并針對(duì)電接口、模塊管理、芯片封裝等制定端到端的開(kāi)放標(biāo)準(zhǔn)。該項(xiàng)目的成立表明了數(shù)據(jù)中心主流用戶對(duì)于光電合封作為下一代互聯(lián)技術(shù)方向的認(rèn)可,以及對(duì)獲得產(chǎn)業(yè)鏈支持的渴望。光電合封涉及到產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié)和不同廠商,需要從接口定義、封裝、測(cè)試等各方面緊密合作和推動(dòng)標(biāo)準(zhǔn)化。

  2.3 大容量芯片

  隨著數(shù)據(jù)中心內(nèi)業(yè)務(wù)的發(fā)展,流量的激增,用戶對(duì)于大帶寬網(wǎng)絡(luò)設(shè)備的需求越來(lái)越迫切。用戶側(cè)和網(wǎng)路側(cè)交換機(jī)的容量在10年間增長(zhǎng)超過(guò)50倍。決定系統(tǒng)容量的主要因素就是芯片容量。在單芯片容量受限的情況下,利用多芯片scale-out的方式可以構(gòu)建大容量的系統(tǒng),傳統(tǒng)框式交換機(jī)便是這樣的思路。如圖9所示,F(xiàn)acebook 2016年發(fā)布的 Backpack框式交換機(jī),利用12片3.2T Tomahawk 芯片(4塊線卡,4塊交換卡),實(shí)現(xiàn)了12.8T的交換容量。隨著12.8T的 Tomahawk 3單芯片的發(fā)布,一個(gè)單槽位(1RU)的盒式交換機(jī)就可以實(shí)現(xiàn)12.8T。相比Backpack, 功耗和成本都降低了80%以上。當(dāng)互聯(lián)速率提升至單通道112G,傳統(tǒng)框式結(jié)構(gòu)面臨功耗散熱等諸多工程工藝的瓶頸,繼續(xù)演進(jìn)面臨巨大挑戰(zhàn)。因此,基于大容量盒式交換機(jī)的scale-out架構(gòu)將成為數(shù)據(jù)中心架構(gòu)和設(shè)備形態(tài)的一大趨勢(shì)。國(guó)內(nèi)外多家數(shù)據(jù)中心用戶已經(jīng)開(kāi)始了 ”盒替換框” 的進(jìn)程。大容量盒子的關(guān)鍵就是大容量芯片。

  圖9: 8U-12.8T-框式交換機(jī) Vs. 1U-12.8T-盒式交換機(jī)

  https://www.nextplatform.com/2018/01/20/flattening-networks-budgets-400g-ethernet/

  大容量芯片在實(shí)現(xiàn)中面臨諸多挑戰(zhàn),其中一個(gè)限制就是芯片Die面積的約束。圖10展示了交換芯片的內(nèi)部架構(gòu)。芯片die size增大導(dǎo)致良率降低、成本上升。減小芯片面積的一個(gè)直接方式是升級(jí)工藝制程。CMOS制程大概每三年更新一代,2019年7nm工藝已經(jīng)成熟,產(chǎn)品陸續(xù)發(fā)布。5nm工藝已在研發(fā)中,未來(lái)將會(huì)向3nm繼續(xù)演進(jìn)。從16nm到5nm的演進(jìn)過(guò)程中,PPA (Performance, Power, Area) 以及成本收益逐漸放緩,新制程在綜合性能上的提升不大。雖然工藝升級(jí)可以給芯片面積帶來(lái)部分收益,但大容量芯片仍然面臨die size受限,單個(gè)die無(wú)法實(shí)現(xiàn)的巨大風(fēng)險(xiǎn)。

  圖10: 交換芯片內(nèi)部架構(gòu)

  圖11:?jiǎn)蜠ie架構(gòu) Vs. Chiplet多Die架構(gòu)

  Chiplet對(duì)芯片進(jìn)行解構(gòu),突破了芯片面積的物理瓶頸,是解決die size問(wèn)題,實(shí)現(xiàn)大容量芯片的一個(gè)重要途徑。Chiplet架構(gòu)將芯片按功能劃分為多個(gè)子芯片,各自獨(dú)立成die。由于每個(gè)die的面積變小,單片晶圓上可擺放的Die數(shù)目增加,良率提升,成本下降。不同die可使用不同工藝,容量升級(jí)時(shí)只需升級(jí)部分模塊/die, 加快了大容量芯片的迭代。同時(shí),Chiplet架構(gòu)下,熱源分散,更利于散熱。Die間互聯(lián)接口、多Die集成封裝是Chiplet架構(gòu)下要解決的關(guān)鍵問(wèn)題。

        (a)                                             (b)                                                      (c)

  圖12: (a) Barefoot Tofino-2 Chiplet架構(gòu); (b) Marvell 12.8T test chip in MCM; (c) Intel EMIB封裝和AIB接口

  Chiplet是未來(lái)大容量芯片架構(gòu)的一個(gè)重要趨勢(shì)。但還有諸多問(wèn)題和挑戰(zhàn)有待業(yè)界共同探討和解決:比如,采用異構(gòu)還是同構(gòu)架構(gòu);同構(gòu)架構(gòu)下,多Die間的負(fù)載分擔(dān),如何保證線速轉(zhuǎn)發(fā);如何進(jìn)一步提高die間互聯(lián)帶寬;多Die間的流量控制和資源配置,如何提高內(nèi)存利用率,實(shí)現(xiàn)無(wú)損不丟包。

  3 國(guó)際標(biāo)準(zhǔn)化進(jìn)展

  2019年,ODCC聯(lián)合了20多家國(guó)內(nèi)光互聯(lián)產(chǎn)業(yè)鏈會(huì)員,成立了下一代數(shù)據(jù)中心互聯(lián)項(xiàng)目(DCCNG),并于2019開(kāi)放數(shù)據(jù)中心峰會(huì)發(fā)布《DCCNG:下一代數(shù)據(jù)中心互聯(lián)白皮書(shū)》,白皮書(shū)旨在牽引我國(guó)數(shù)據(jù)中心下一代互聯(lián)產(chǎn)業(yè)鏈在技術(shù)、規(guī)范和產(chǎn)品各個(gè)方面的探討,一經(jīng)發(fā)布就受到了業(yè)界廣泛關(guān)注。同時(shí),ODCC代表我國(guó)數(shù)據(jù)中心產(chǎn)業(yè)伙伴,將2019開(kāi)放數(shù)據(jù)中心峰會(huì)最新發(fā)布的DCCNG相關(guān)成果帶到IEEE802進(jìn)行了推動(dòng),得到了業(yè)界同行的高度認(rèn)可。DCCNG成果最終被IEEE802.3官方正式采納,對(duì)立項(xiàng)成功起到了重要支撐作用!

  IEEE802.3作為定義物理連接的國(guó)際標(biāo)準(zhǔn)組織,于今年也開(kāi)展了相關(guān)技術(shù)的立項(xiàng)研討。ODCC代表中國(guó)數(shù)據(jù)中心互聯(lián)產(chǎn)業(yè),積極投身參與到國(guó)際標(biāo)準(zhǔn)的立項(xiàng)工作中。ODCC相關(guān)專家聯(lián)合華為等業(yè)界伙伴,針對(duì)多模單波100G互聯(lián)方向,在IEEE802.3進(jìn)行了歷時(shí)數(shù)月的多輪宣講,其對(duì)我國(guó)光互聯(lián)產(chǎn)業(yè)發(fā)展需求的調(diào)研以及相關(guān)技術(shù)的思考,得到了IEEE802.3官方的高度認(rèn)可。本次IEEE802全會(huì)對(duì)該方向進(jìn)行了立項(xiàng)投票,通過(guò)并正式立項(xiàng)。此次立項(xiàng)開(kāi)啟國(guó)際單波100G多模標(biāo)準(zhǔn)的制定工作,牽引和推進(jìn)產(chǎn)業(yè)鏈解決100G PAM4多模傳輸?shù)募夹g(shù)難點(diǎn),催熟相關(guān)芯片研發(fā)和成熟度,支撐下一代基于112G SerDes IO的服務(wù)器100G接入和交換機(jī)互聯(lián)低成本方案。

新聞來(lái)源:數(shù)據(jù)中心熱點(diǎn)技術(shù)剖析

相關(guān)文章