ICC訊(編譯:Nina)近日,LightCounting分享來自GTC 2024的網(wǎng)絡(luò)和互連亮點。
除了首席執(zhí)行官黃仁勛(Jensen Huang),DGX GB200 NVL72也是GTC 2024主題演講的明星。該機架級系統(tǒng)集成了72個下一代Blackwell GPU,通過NVLink連接,形成“1 Giant GPU”。Jensen對NVLink無源銅“背板”的描述在投資者中引起了短暫的恐慌,他們認(rèn)為它會以某種方式取代InfiniBand,但事實并非如此。NVL72代表了下一代人工智能系統(tǒng),但英偉達(NVIDIA)還透露了其部署的Hopper一代集群的新細節(jié)。下一代800G (XDR) InfiniBand要到2025年才能到達客戶手中,因此早期的Blackwell系統(tǒng)將使用400G (NDR) InfiniBand代替。
圖片:GTC 2024,4月4日(來源:英偉達)
Jensen表示,Hopper一代EOS超級計算機剛剛上線。本集群使用608臺64端口的NDR交換機,交換機端口總數(shù)為38912個。該系統(tǒng)將葉交換機放置在排末端的機架中,因此所有InfiniBand鏈路都使用光收發(fā)器。LC估計服務(wù)器為系統(tǒng)總共44032個NDR端口添加了5120個端口。由于英偉達使用所謂的“雙端口OSFP”800G收發(fā)器,每個收發(fā)器服務(wù)兩個NDR端口。因此,LC估計完整的EOS系統(tǒng)使用大約22000個800G光收發(fā)器。
Blackwell一代GPU包括第五代NVLink,其互連帶寬是Hopper的兩倍。它通過將每條通道的速度提高一倍至200Gbps,從而為每個NVLink x2端口提供400Gbps的單向帶寬。每個Blackwell GPU包括18個端口,可提供1.8TB/s(14.4Tbps)的聚合雙向帶寬。為了連接NVL72機架中的72個GPU,英偉達開發(fā)了NVLink5交換機芯片。NVL72機架包括九個NVLink交換機托盤,每個托盤帶有兩個ASIC。交換機使用5184根無源銅(DAC)電纜,在機架內(nèi)提供All-to-all GPU連接。
對于網(wǎng)絡(luò)生態(tài)系統(tǒng)來說,GTC 2024最大的失望可能是800G InfiniBand延遲到2025年。盡管延期,該公司還是公開了Quantum-X800交換機系統(tǒng)和ConnectX-8適配器(NIC)。當(dāng)這些800G InfiniBand產(chǎn)品可用時,每個GPU的帶寬將增加一倍,因為ConnectX-8網(wǎng)卡將一對一地取代ConnectX-7 (400G)網(wǎng)卡。他們應(yīng)該還將率先在電氣(主機)端處理帶有200G通道的光學(xué)器件,從而推動對第二代200G/lambda DSP的早期需求。
備注:GTC大會全稱是GPU Technology Conference,是英偉達主辦的最重要的GPU技術(shù)交流活動,從2019年開始每年舉辦一屆。