北京時(shí)間 3 月 19 日 (星期三) GTC AI 大會(huì)在美國加州圣何塞舉行,GTC 大會(huì)是探索 AI 真實(shí)用例及其優(yōu)勢的平臺(tái),NVIDIA CEO 黃仁勛分享NVIDIA的加速計(jì)算平臺(tái)如何推動(dòng)人工智能、數(shù)字孿生、云技術(shù)和可持續(xù)計(jì)算的下一波浪潮。大會(huì)提到英偉達(dá)關(guān)于AI工廠的未來路標(biāo),整體架構(gòu)會(huì)從NVL72液冷升級(jí)到NVL576液冷,計(jì)算架構(gòu)從Blackwell升級(jí)到Rubin,而在Scale-Up的NVLink互聯(lián)速率將從1800GB/s提升到未來的3600GB/s,同時(shí)Scale-Out的互聯(lián)方案將從Spectrum5的51T+CX8的800G升級(jí)到Spectrum6 102T的CPO液冷+CX9 1600G。
圖1 NVlDlA為千兆瓦級(jí)人工智能工廠鋪路
隨著整體人工智能工廠能力和功耗的提升,網(wǎng)絡(luò)側(cè)互聯(lián)的光模塊功耗也成為重點(diǎn)關(guān)注對(duì)象,單個(gè)互聯(lián)光模塊最大功耗30瓦特,只是用作數(shù)據(jù)的轉(zhuǎn)發(fā)卻不參與任何計(jì)算。在GTC2025發(fā)布會(huì)上,英偉達(dá)推出了全新的NVIDIA Photonics硅光子技術(shù)。這項(xiàng)技術(shù)通過共封裝光學(xué)(CPO)取代傳統(tǒng)的可插拔光學(xué)收發(fā)器,使光纖直接連接到交換機(jī),大幅減少數(shù)據(jù)中心的功耗。據(jù)英偉達(dá)測算,該技術(shù)可降低40MW的功耗,并提高AI計(jì)算集群的網(wǎng)絡(luò)傳輸效率,為未來超大規(guī)模AI數(shù)據(jù)中心奠定基礎(chǔ)。
圖2 NVlDlA發(fā)布CPO交換機(jī)
作為數(shù)字化解決方案領(lǐng)導(dǎo)廠商,紫光股份旗下新華三集團(tuán)早在2023年便發(fā)布了業(yè)界首款800G硅光交換機(jī)S9827-64EO,通過光電合封CPO、液冷、智能無損等先進(jìn)技術(shù)的融合,旨在解決AIGC對(duì)網(wǎng)絡(luò)高性能、高可靠、低能耗訴求的矛盾,實(shí)現(xiàn)魚與熊掌兼得。
超高吞吐:
引領(lǐng)數(shù)據(jù)中心800G超寬時(shí)代
H3CS9827-64EO是全球首款基于51.2T高性能芯片設(shè)計(jì)的 800G CPO交換機(jī),最大支持64端口800G端口,可擴(kuò)展為128*400G/200G/100G端口,單POD可支持超過8000張400G網(wǎng)卡。
圖3 S9827硅光交換機(jī)前面板實(shí)物圖
如上圖,S9827-64EO上半部分采用32組MDC光纖接口,客戶只需要通過連接不同的光纖,便可實(shí)現(xiàn)64*800G或128*400G的對(duì)外連接能力。相對(duì)于傳統(tǒng)的MPO/LC連接器,MDC采用了獨(dú)有的端面研磨技術(shù),降低了端面連接損耗,在單條鏈路中累計(jì)可降低光鏈路損耗約1.6dB,在高速網(wǎng)絡(luò)中可以保障穩(wěn)定的光信號(hào)傳輸能力。且經(jīng)過測試采用CPO技術(shù)轉(zhuǎn)發(fā)芯片直接出光相比普通插拔模塊時(shí)延更低,轉(zhuǎn)發(fā)時(shí)延同比傳統(tǒng)設(shè)備降低20%以上。
在S9827-64EO主機(jī)的下半部分,采用16個(gè)外置光源集成方案,通過外部獨(dú)立光源模塊提供純凈光信號(hào),將光源耦合到光通路后再耦合至調(diào)制器。
液冷技術(shù):
低碳減排,提升使用體驗(yàn)
在傳統(tǒng)印象中,如果采用了高性能數(shù)據(jù)中心交換機(jī),伴隨而來的一定是高功耗對(duì)機(jī)房供電系統(tǒng)的挑戰(zhàn),以及散熱風(fēng)扇全速運(yùn)轉(zhuǎn)時(shí)喧囂的噪音,對(duì)用戶的使用支出和運(yùn)維體驗(yàn)都造成了負(fù)面影響。而在800G CPO展示產(chǎn)品上,新華三驗(yàn)證并實(shí)現(xiàn)液冷技術(shù),解決了以上難題。
圖4液冷數(shù)據(jù)中心機(jī)房示意圖
端網(wǎng)融合零丟包:
助力智算網(wǎng)絡(luò)應(yīng)用進(jìn)化
雖然高速以太網(wǎng)技術(shù)能夠提供充足的網(wǎng)絡(luò)通道資源,但同時(shí)也意味著同樣時(shí)間的網(wǎng)絡(luò)擁塞,其帶來的丟包數(shù)量和影響也將數(shù)倍于上一代速率標(biāo)準(zhǔn)。因此,新華三在S9827-64EO上,集成了全面的智能無損網(wǎng)絡(luò)特性,包括打造端網(wǎng)融合的負(fù)載均衡,解決從端側(cè)到網(wǎng)側(cè)整體流量負(fù)載不均難題。
同時(shí)結(jié)合AI ECN技術(shù),實(shí)時(shí)監(jiān)測不同隊(duì)列的傳輸時(shí)延、隊(duì)列長度、緩存變化等,自動(dòng)調(diào)整傳輸門限,實(shí)現(xiàn)端到端無損網(wǎng)絡(luò)。并且支持端網(wǎng)融合的路徑導(dǎo)航負(fù)載均衡技術(shù)實(shí)現(xiàn)整網(wǎng)流量無擁塞,提升了AI訓(xùn)練效率。 S9827硅光交換機(jī)支持ns級(jí)硬件自動(dòng)感知能力,能夠快速識(shí)別鏈路切換動(dòng)作極大降低了網(wǎng)絡(luò)故障對(duì)業(yè)務(wù)的影響程度,有力支撐智算網(wǎng)絡(luò)集群穩(wěn)定運(yùn)行。
圖4 S9827-64EO實(shí)物圖
如今S9827-64EO硅光交換機(jī)基于最新的新華三智算網(wǎng)絡(luò)架構(gòu)進(jìn)一步為用戶提供高性能的智算網(wǎng)絡(luò)聯(lián)接(如圖4),以其硅光互聯(lián)技術(shù)為支撐,實(shí)現(xiàn)高吞吐量、低時(shí)延、低能耗等多項(xiàng)特點(diǎn),可與業(yè)界主流的400G GPU實(shí)現(xiàn)互聯(lián),單POD最大可支持超2000個(gè)800G端口或8000個(gè)400G端口規(guī)模。S9827-64EO將在人工智能等數(shù)字化領(lǐng)域繼續(xù)發(fā)揮更加重要的作用,助力各行業(yè)客戶暢享智算新時(shí)代。
2025年,新華三繼續(xù)推動(dòng)光互連技術(shù)的創(chuàng)新落地,即將發(fā)布新一代智算網(wǎng)絡(luò)交換機(jī)產(chǎn)品,敬請(qǐng)期待。