用戶名: 密碼: 驗(yàn)證碼:

2024 OCP全球峰會(huì):阿里云為代表的中國企業(yè),引領(lǐng)全球AI網(wǎng)絡(luò)合作和技術(shù)創(chuàng)新

摘要:OCP(Open Compute Project)全球峰會(huì)上,以阿里云為代表的中國企業(yè),展示了他們?cè)贏I網(wǎng)絡(luò)架構(gòu)、液冷技術(shù)、SRv6和廣域網(wǎng)等前沿領(lǐng)域的強(qiáng)大創(chuàng)新能力,持續(xù)引領(lǐng)全球合作與技術(shù)創(chuàng)新。

  ICC訊 OCP(Open Compute Project)全球峰會(huì)匯聚了全球的技術(shù)創(chuàng)新者,共同分享最新的技術(shù)趨勢(shì),展示前沿解決方案,并建立戰(zhàn)略合作伙伴關(guān)系。今年的峰會(huì)于2024年10月14日至17日在美國加州圣何塞舉行,創(chuàng)下了7,000名參會(huì)者的記錄。來自世界各地的技術(shù)精英們齊聚一堂,探討未來的技術(shù)發(fā)展方向。而在這場(chǎng)全球矚目的盛會(huì)上,以阿里云為代表的中國企業(yè),展示了他們?cè)贏I網(wǎng)絡(luò)架構(gòu)、液冷技術(shù)、SRv6和廣域網(wǎng)等前沿領(lǐng)域的強(qiáng)大創(chuàng)新能力,持續(xù)引領(lǐng)全球合作與技術(shù)創(chuàng)新。

  中國企業(yè)的持續(xù)引領(lǐng)

  中國企業(yè)在2024年OCP峰會(huì)上表現(xiàn)尤為突出,尤其是阿里云、字節(jié)跳動(dòng)、Wiwynn、Micas、Edgecore等公司在技術(shù)創(chuàng)新和展示中的表現(xiàn)引人注目。阿里云以4場(chǎng)網(wǎng)絡(luò)架構(gòu)專題演講和一場(chǎng)SONiC項(xiàng)目演示為亮點(diǎn),深入涵蓋了AI網(wǎng)絡(luò)架構(gòu)、SRv6、性能優(yōu)化等熱門技術(shù)領(lǐng)域。而字節(jié)跳動(dòng)貢獻(xiàn)了3場(chǎng)網(wǎng)絡(luò)相關(guān)的演講,進(jìn)一步推動(dòng)了AI訓(xùn)練集群網(wǎng)絡(luò)的技術(shù)發(fā)展。其他中國公司也在液冷技術(shù)、交換機(jī)軟件、CPO交換機(jī)等方面展示了全球領(lǐng)先的技術(shù)成果。

AI高性能網(wǎng)絡(luò)集群和架構(gòu)專題

在高密度AI集群下

51.2Tbps交換機(jī)的液冷/風(fēng)冷方案最佳實(shí)踐

  阿里云基礎(chǔ)設(shè)施硬件架構(gòu)師朱芳波&博通產(chǎn)品經(jīng)理吳溪光聯(lián)合分享的這一演講,詳細(xì)闡述了在高密度AI集群場(chǎng)景下,51.2Tbps以太網(wǎng)交換機(jī)的最佳散熱解決方案。隨著單機(jī)柜的功耗和熱量密度在過去五年中增長了10倍,散熱問題成為AI訓(xùn)練集群中的關(guān)鍵挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),演講提出了四種主要解決方案:采用更高帶寬的交換芯片、使用更長的DAC線纜、部署低功耗的LPO光模塊,以及采用CPO(光電共封裝)交換芯片。

  阿里云在自研51.2Tbps交換機(jī)過程中,探索了兩個(gè)最佳風(fēng)冷方案:一是在控制環(huán)境溫度的基礎(chǔ)上,優(yōu)化散熱設(shè)備的布局,以降低整體散熱成本;二是在高功率密度場(chǎng)景中,通過精密模擬和調(diào)整,進(jìn)一步優(yōu)化芯片的散熱性能。此外,阿里云還展示了其最新的液冷方案,通過單冷板設(shè)計(jì)實(shí)現(xiàn)更有效的散熱,同時(shí)降低物料成本。液冷系統(tǒng)在不大幅增加成本的情況下,將系統(tǒng)功耗節(jié)省了800W以上,大大提升了設(shè)備的穩(wěn)定性和性能。

  阿里巴巴大規(guī)模

計(jì)算集群的網(wǎng)絡(luò)穩(wěn)定性挑戰(zhàn)與實(shí)踐

  阿里云基礎(chǔ)設(shè)施資深技術(shù)專家施學(xué)美&博通杰出工程師Surendra Anubolu則重點(diǎn)介紹了如何提升大規(guī)模計(jì)算集群的網(wǎng)絡(luò)穩(wěn)定性。這一演講針對(duì)阿里巴巴大規(guī)模計(jì)算集群中的網(wǎng)絡(luò)穩(wěn)定性問題進(jìn)行了深度探討。在AI/ML訓(xùn)練過程中,像allreduce、all2all這樣的同步算子使得網(wǎng)絡(luò)的穩(wěn)定性需求極高。阿里云通過全局流量監(jiān)控、高精度流量分析以及A.M.D(交替DSCP標(biāo)記)方案,顯著提升了AI集群中的網(wǎng)絡(luò)可靠性。高精度流量監(jiān)控技術(shù)可以在亞毫秒粒度內(nèi)捕捉網(wǎng)絡(luò)流量變化,識(shí)別網(wǎng)絡(luò)中的細(xì)微擁塞點(diǎn),并通過算法優(yōu)化進(jìn)一步減少數(shù)據(jù)包丟失。此外,A.M.D方案通過在秒級(jí)范圍內(nèi)檢測(cè)數(shù)據(jù)包丟失,確保網(wǎng)絡(luò)中的任何異常都能被快速定位和修復(fù)。

阿里巴巴HPN,

面向大模型訓(xùn)練場(chǎng)景的數(shù)據(jù)中心網(wǎng)絡(luò)

  阿里云基礎(chǔ)設(shè)施高級(jí)技術(shù)專家高佳琦分享阿里巴巴針對(duì)大模型訓(xùn)練場(chǎng)景所設(shè)計(jì)的第七代高性能網(wǎng)絡(luò)架構(gòu)(HPN 7.0)。傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)已經(jīng)無法滿足大模型訓(xùn)練對(duì)網(wǎng)絡(luò)帶寬、穩(wěn)定性和延遲的極高要求。面對(duì)規(guī)模大、流量突發(fā)強(qiáng)、穩(wěn)定性要求高的挑戰(zhàn),阿里巴巴通過創(chuàng)新的“雙上聯(lián)+多軌+雙平面”設(shè)計(jì),打造了一種新型的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)。

  HPN 7.0架構(gòu)結(jié)合最新一代51.2Tbps單芯片以太網(wǎng)交換機(jī)和400G高性能網(wǎng)卡,并自研了Solar-RDMA和ACCL通信庫,實(shí)現(xiàn)了單層千卡、兩層萬卡的高性能互聯(lián)架構(gòu),最大可支持十萬卡規(guī)模。在此基礎(chǔ)上,該架構(gòu)提升了大模型訓(xùn)練的整體性能,使得阿里云大模型訓(xùn)練的性能在典型場(chǎng)景下提升了14.9%。

  HPN 7.0自2023年9月起在阿里云數(shù)據(jù)中心中大規(guī)模部署,大幅提升了AI集群的訓(xùn)練效率和網(wǎng)絡(luò)穩(wěn)定性,為應(yīng)對(duì)未來更大規(guī)模的大模型訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)支持。這一創(chuàng)新架構(gòu)不僅優(yōu)化了網(wǎng)絡(luò)性能,還顯著降低了網(wǎng)絡(luò)的延遲和擁塞問題,進(jìn)一步鞏固了阿里云在AI基礎(chǔ)設(shè)施領(lǐng)域的領(lǐng)先地位。

  大型AI訓(xùn)練集群中的Scheduled Fabric以太網(wǎng)架構(gòu)

  字節(jié)跳動(dòng)資深網(wǎng)絡(luò)架構(gòu)師霍朋飛和博通產(chǎn)品經(jīng)理吳溪光共同分享了其在構(gòu)建大規(guī)模AI訓(xùn)練集群網(wǎng)絡(luò)中的創(chuàng)新成果,特別是在Scheduled Fabric以太網(wǎng)架構(gòu)方面的研究。這一架構(gòu)能夠支持上千臺(tái)服務(wù)器的大型集群,確保了數(shù)據(jù)傳輸?shù)母咝院偷脱舆t。Scheduled Fabric技術(shù)通過時(shí)間調(diào)度和帶寬分配的優(yōu)化,大大提高了網(wǎng)絡(luò)的性能和擴(kuò)展性。在演講中,字節(jié)跳動(dòng)提出了進(jìn)一步標(biāo)準(zhǔn)化該技術(shù)的提案,旨在推動(dòng)整個(gè)行業(yè)在這一領(lǐng)域的合作與發(fā)展。

  多平面拓?fù)渲械淖罴堰x路方案

  字節(jié)跳動(dòng)網(wǎng)絡(luò)研發(fā)工程師Wenda Ni和博通杰出工程師Jai Kumar共同分享了其在多平面拓?fù)浣Y(jié)構(gòu)中的最新研究成果。在多軌道拓?fù)湎拢W(wǎng)絡(luò)流量會(huì)盡量在單一平面內(nèi)流動(dòng),以最大化鏈路利用率。然而,當(dāng)流量必須跨越多個(gè)軌道時(shí),字節(jié)跳動(dòng)通過精密的測(cè)量和遠(yuǎn)程鏈路質(zhì)量的分析,優(yōu)化了跨平面連接的效率,從而實(shí)現(xiàn)了彈性擴(kuò)展和最大吞吐率的平衡。此外,字節(jié)跳動(dòng)還展示了光電共封裝交換芯片(CPO)技術(shù)的進(jìn)展,進(jìn)一步提高了大規(guī)模網(wǎng)絡(luò)中的數(shù)據(jù)傳輸效率。

  未來的廣域網(wǎng)與路由技術(shù) Phoenix Wing計(jì)劃–將SONiC SRv6推向部署

  在廣域網(wǎng)和路由技術(shù)方面,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)資深技術(shù)專家阮弋星介紹阿里云通過Phoenix Wing計(jì)劃展示了其在SRv6部署方面的突破性進(jìn)展。通過這一計(jì)劃,阿里云旨在推動(dòng)SRv6技術(shù)的廣泛應(yīng)用,并號(hào)召社區(qū)參與開發(fā)。阮弋星詳細(xì)介紹了該項(xiàng)目的里程碑、開源計(jì)劃以及核心貢獻(xiàn)廠商(如思科、微軟、浪潮)之間的合作情況。此外,阿里云展示了基于vSONiC虛擬測(cè)試平臺(tái)的創(chuàng)新,進(jìn)一步推動(dòng)了SRv6在廣域網(wǎng)中的落地與應(yīng)用。

展臺(tái):

SONiC demo-Prefix Independent Convergence.

  另外,在大會(huì)展廳的SONiC展臺(tái)上,阿里云與智邦集團(tuán)的工程師們對(duì)SONiC在網(wǎng)絡(luò)故障快速恢復(fù)中的優(yōu)化進(jìn)行了精彩演示。通過代碼優(yōu)化,阿里云成功將網(wǎng)絡(luò)故障恢復(fù)時(shí)的丟包窗口從近一分鐘縮短至2毫秒。這一成果不僅顯著提升了網(wǎng)絡(luò)的穩(wěn)定性,還贏得了參會(huì)者的廣泛關(guān)注和好評(píng)。

  總結(jié)

  此次2024 OCP全球峰會(huì),以阿里云、字節(jié)跳動(dòng)等公司為代表的中國企業(yè)大放異彩,不僅展示了強(qiáng)大的技術(shù)實(shí)力,也通過創(chuàng)新與全球合作,推動(dòng)了AI基礎(chǔ)設(shè)施和網(wǎng)絡(luò)架構(gòu)的進(jìn)步。在未來,中國企業(yè)有望在全球科技舞臺(tái)上扮演越來越重要的角色,為技術(shù)進(jìn)步貢獻(xiàn)更多力量。


內(nèi)容來自:訊石光通訊網(wǎng)
本文地址:http://3xchallenge.com//Site/CN/News/2024/10/25/20241025091328536078.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:2024 OCP全球峰會(huì):阿里云為代表的中國企業(yè),引領(lǐng)全球AI網(wǎng)絡(luò)合作和技術(shù)創(chuàng)新
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭議和其它問題,請(qǐng)聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right