阿里巴巴云智能陸睿：AIGC時代對數(shù)據(jù)中心光互聯(lián)的新要求

訊石光通訊網(wǎng) 發(fā)布時間:2023/10/27 17:32:39 編者:iccsz

摘要：在iFOC 2023上，云智能網(wǎng)絡(luò)研發(fā)事業(yè)部光網(wǎng)絡(luò)架構(gòu)師陸睿發(fā)表了《AIGC時代對數(shù)據(jù)中心光互聯(lián)的新要求》的演講。

ICC訊 今年來，生成式AI所需的超算集群開始有云計算服務(wù)的形態(tài)，成為了云基礎(chǔ)設(shè)施和光互聯(lián)產(chǎn)品的新增長引擎。相比通用彈性計算服務(wù)器集群所發(fā)生的變化。AI訓(xùn)練的云基礎(chǔ)設(shè)施也在火熱的建設(shè)中。數(shù)據(jù)中心光互聯(lián)技術(shù)在AIGC時代發(fā)生了什么變化，如何才能更好的適應(yīng)AI數(shù)據(jù)中心基礎(chǔ)設(shè)施的要求。在iFOC 2023上，云智能網(wǎng)絡(luò)研發(fā)事業(yè)部光網(wǎng)絡(luò)架構(gòu)師陸睿發(fā)表了《AIGC時代對數(shù)據(jù)中心光互聯(lián)的新要求》的演講。

服務(wù)器方面，X86為核心的通用計算服務(wù)器升級為以GPU為核心的高性能計算服務(wù)器，功率更高、算力更強(qiáng)、集成度更高。網(wǎng)絡(luò)方面，數(shù)據(jù)中心以太網(wǎng)網(wǎng)絡(luò)基于RoCE的以太網(wǎng)或者IB的高性能網(wǎng)絡(luò)，高吞吐、超低時延和高可靠性。

AI超算網(wǎng)絡(luò)的互聯(lián)架構(gòu)包含以太網(wǎng)、Infiniband、NVLink。陸睿對比了三種互聯(lián)架構(gòu)之間的有點。以太網(wǎng)成本低、供應(yīng)豐富，適合多租戶共享的超算基礎(chǔ)設(shè)施；Infiniband相對封閉，適合單一用戶建立獨享的超算基礎(chǔ)設(shè)施；NVLink用于GPU之間的高速互聯(lián)，開銷更小，帶寬更大，但最大256個節(jié)點。

陸睿表示：AI超算網(wǎng)絡(luò)的光模塊選擇傾向于選擇4通道QSFP光模塊，4通道激光器數(shù)量更少，有利于可靠性、光模塊內(nèi)部面積更寬裕，設(shè)計和制造難度小、光模塊功耗更低，系統(tǒng)散熱設(shè)計更容易。不同數(shù)據(jù)中心客戶根據(jù)自己的網(wǎng)絡(luò)架構(gòu)特點選擇不同的光互聯(lián)技術(shù)方案（Form factor、光電通道數(shù)、通道速率）。技術(shù)本質(zhì)基本一樣：單通道25G/56G/112G/224G。

AI需要更大的互聯(lián)需求量，接入方案已經(jīng)從DAC/AOC線纜變成了光模塊。每GPU卡和對應(yīng)的同帶寬光模塊數(shù)量比例達(dá)到1:4～1:6。在Nvidia的DGX H100和GH200的網(wǎng)絡(luò)架構(gòu)里加入了NVLink switch架構(gòu)，進(jìn)一步提升GPU之間的互聯(lián)帶寬。H100/H800的8卡服務(wù)器的對外NVLink帶寬是14.4T，每卡和光模塊（按400G算）數(shù)量比例達(dá)到1:9。

AI的發(fā)展有更高速率要求，傳統(tǒng)云計算市場在發(fā)生變化，對更高速率光模塊的需求在變緩，基礎(chǔ)設(shè)施投入進(jìn)入精細(xì)化管控階段。目前超算集群性能的瓶頸仍在網(wǎng)絡(luò)帶寬，會成為新一代高速光模塊產(chǎn)品的主要需求推動力。

隨著交換機(jī)Serdes速率和數(shù)量的增加，現(xiàn)今，光模塊功耗占設(shè)備總功耗高達(dá)1/3。低功耗、低時延的光互聯(lián)技術(shù)更適合超算，陸睿對比了LPO/CPO/NPO技術(shù)的對比和選擇，他認(rèn)為LPO優(yōu)點是兼顧可插拔和CPO的優(yōu)點，但系統(tǒng)集成難度大，技術(shù)約束多。CPO/NPO優(yōu)缺點都很明顯，尚待觀察。

光互聯(lián)在超算網(wǎng)絡(luò)中數(shù)量多且物理底層，對網(wǎng)絡(luò)整體穩(wěn)定性有關(guān)鍵性影響。光互聯(lián)如何滿足更高可靠性要求。陸睿提出研發(fā)引入階段：1.加強(qiáng)光芯片的可靠性認(rèn)證測試。2.加強(qiáng)光模塊在研發(fā)和測試引入階段的可靠性認(rèn)證測試。批量部署階段：1.嚴(yán)格執(zhí)行研發(fā)測試——小批量灰度測試——大批量部署的流程；2.加強(qiáng)光模塊在批量生產(chǎn)時的可靠性數(shù)據(jù)監(jiān)控；3.結(jié)合網(wǎng)絡(luò)監(jiān)控數(shù)據(jù)平臺、自動化運維監(jiān)控光模塊的運行情況；4.建立優(yōu)勝劣汰機(jī)制，選擇可靠性更優(yōu)的模塊技術(shù)、型號和廠家。

最后，在持續(xù)優(yōu)化的要求方面，陸睿講到目前IDC機(jī)房供電功率和散熱能力設(shè)計是為傳統(tǒng)云計算X86服務(wù)器設(shè)計的，不滿足GPU服務(wù)器的高密部署，低密度部署導(dǎo)致光纖連接距離變長，需要升級浸沒式液冷技術(shù)或其他效率更高的散熱技術(shù)。另外還提到新型光纖技術(shù)—空芯光纖，空芯光纖可做到3.3ns/m時延，相比普通光纖的5ns/m時延降低了33%，按照3跳交換機(jī)、每段鏈路平均距離50m計算，空芯光纖可縮短約單向0.34us時延，是一個值得期待的技術(shù)。

內(nèi)容來自：訊石光通訊網(wǎng)
本文地址：http://3xchallenge.com//Site/CN/News/2023/10/27/20231027093708928244.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字:
文章標(biāo)題:阿里巴巴云智能陸睿：AIGC時代對數(shù)據(jù)中心光互聯(lián)的新要求

1、凡本網(wǎng)注明“來源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明，凡本網(wǎng)注明“來源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭議和其它問題，請聯(lián)系本網(wǎng)，將第一時間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

阿里巴巴云智能 陸睿：AIGC時代對數(shù)據(jù)中心光互聯(lián)的新要求

相關(guān)新聞

阿里巴巴云智能陸睿：AIGC時代對數(shù)據(jù)中心光互聯(lián)的新要求