康寧光通信：面向人工智能的光纖連接技術(shù)

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2024/6/17 16:09:47 編者:iccsz

摘要：人工智能在理解我們的問(wèn)題方面取得了重大進(jìn)展，我們將見(jiàn)證其持續(xù)演變。在實(shí)現(xiàn)這一轉(zhuǎn)變的過(guò)程中，尋求能夠支持大規(guī)模GPU集群(無(wú)論是16K還是24KGPU)的布線解決方案是難題的重要組成部分，也是光通信行業(yè)正在迎接的一項(xiàng)挑戰(zhàn)。

提到人工智能(AI)時(shí)，您的腦海中會(huì)浮現(xiàn)什么?對(duì)于我而言，這一切始于去年11月，我的一位老友在領(lǐng)英(LinkedIn)上發(fā)了一篇帖子，表達(dá)他對(duì)ChatGPT的印象有多深刻。然而當(dāng)我也注冊(cè)了OpenAI賬號(hào)后，真正讓我著迷的是ChatGPT能夠像人類(lèi)一樣提供答案，這些答案既符合語(yǔ)境，又具有技術(shù)上的合理性。

當(dāng)然，它的局限性也比較明顯，那就好似我在跟一個(gè)聰明但有點(diǎn)遲鈍的人類(lèi)朋友互動(dòng)。它會(huì)以要點(diǎn)形式給出回答，并不斷提醒我，它其實(shí)是一個(gè)人工智能模型。它督促我對(duì)它的回答保持一絲懷疑。在我看來(lái)，最吸引人的是屏幕輸出答案的方式——每個(gè)字母和詞都緩慢地出現(xiàn)，如同連接在另一端的人在打字輸入一樣。

六個(gè)月時(shí)光飛逝。如今，當(dāng)我在ChatGPT上輸入一個(gè)問(wèn)題時(shí)，它的反應(yīng)快得讓我有點(diǎn)不知所措。在過(guò)去的六個(gè)月時(shí)間里，究竟發(fā)生了什么?ChatGPT的開(kāi)發(fā)者們做了哪些更新調(diào)整?

最有可能的情況是，OpenAI擴(kuò)展了其人工智能集群的推理能力，從而滿足超過(guò)1億用戶的需求。據(jù)報(bào)道，在人工智能芯片制造商中處于領(lǐng)先地位的英偉達(dá)(NVIDIA)已供應(yīng)大約20000顆圖形處理器(GPU)，用于支持ChatGPT的開(kāi)發(fā)，并且有大幅增加圖形處理單元使用的計(jì)劃。據(jù)推測(cè)，即將推出的人工智能模型可能需要多達(dá)1000萬(wàn)個(gè)圖形處理單元。

GPU集群架構(gòu)——生成式人工智能的基礎(chǔ)

現(xiàn)在，讓我們退一步想想。對(duì)我而言，努力去理解20000顆GPU的概念并非難事，但是，通過(guò)1000萬(wàn)顆GPU的光連接來(lái)執(zhí)行智能任務(wù)的想法很有挑戰(zhàn)性。

經(jīng)過(guò)數(shù)小時(shí)的互聯(lián)網(wǎng)搜索，我偶然發(fā)現(xiàn)各種設(shè)計(jì)指南，其中詳細(xì)介紹如何構(gòu)建高性能網(wǎng)絡(luò)，以提供人工智能工作負(fù)載所需的高速連接。

在這里我想探討一下，如何通過(guò)最初配置較小的設(shè)置，然后將其逐漸擴(kuò)大至包含數(shù)千顆GPU，從而創(chuàng)建GPU集群。我們將以英偉達(dá)設(shè)計(jì)指南為例，這些指南源于高性能計(jì)算(HPC)網(wǎng)絡(luò)的傳統(tǒng)。

根據(jù)英偉達(dá)在該組設(shè)計(jì)指南中的建議，此過(guò)程涉及使用多個(gè)具有256顆GPU的pod的較小單元(可擴(kuò)展單元)來(lái)構(gòu)建大量GPU集群。每個(gè)pod包括8個(gè)計(jì)算機(jī)架和2個(gè)位于一排中間位置的網(wǎng)絡(luò)機(jī)架。這些pod內(nèi)部及pod之間的連接通過(guò)InfiniBand(一種高速、低時(shí)延的交換協(xié)議)建立的，采用的是英偉達(dá)的Quantum-2交換機(jī)。

當(dāng)前的InfiniBand交換機(jī)利用800G OSFP端口，采用下一代數(shù)據(jù)速率為400G(NDR)的雙工端口。在該配置中，每個(gè)端口使用8根光纖，因而每臺(tái)交換機(jī)使用64x400G端口。下一代交換機(jī)，無(wú)論其名稱(chēng)如何，將采用極限數(shù)據(jù)速率(XDR)。這意味著，每臺(tái)交換機(jī)使用64x800G端口，每個(gè)端口也使用8根光纖——主要是單模光纖。該4通道(8光纖)模式似乎是InfiniBand路線圖中反復(fù)出現(xiàn)的圖示(如下表所示)，而未來(lái)將使用更快的速度。

*在4X(4通道)以Gb/s為單位表示鏈路速度

就布線方法而言，在高性能計(jì)算(HPC)領(lǐng)域，普遍采用的最佳做法需要采用點(diǎn)對(duì)點(diǎn)有源光纜(AOC)。這些光纜在光纖收發(fā)器之間建立牢固的連接，一根光纜連接兩臺(tái)光纖收發(fā)器。

但是，隨著帶有多芯光纖連接器(MPO)接口的最新800G NDR端口的面世，點(diǎn)對(duì)點(diǎn)連接的情形已從AOC光纜轉(zhuǎn)變?yōu)镸PO-MPO無(wú)源跳線。在考慮單個(gè)具有256個(gè)GPU的pod時(shí)，利用點(diǎn)對(duì)點(diǎn)連接沒(méi)有什么大問(wèn)題。我個(gè)人的做法是選擇MPO跳線，以簡(jiǎn)化裝置。

大規(guī)模運(yùn)行

到目前為止，進(jìn)展仍然相對(duì)順利，但是在追求更大的規(guī)模時(shí)(例如實(shí)現(xiàn)16k GPU將需要將64個(gè)具有256顆GPU的pod互連起來(lái))，挑戰(zhàn)就會(huì)出現(xiàn)，這是因?yàn)檫@些高性能GPU集群使用的計(jì)算結(jié)構(gòu)具有線路優(yōu)化特性。在線路優(yōu)化設(shè)置中，來(lái)自各個(gè)計(jì)算系統(tǒng)的全部主機(jī)通道適配器(HCA)均連接至同一個(gè)葉交換機(jī)(leaf switch)。

據(jù)說(shuō)，該設(shè)置對(duì)于在多任務(wù)(multi-job)環(huán)境中最大限度提高深度學(xué)習(xí)(DL)訓(xùn)練性能至關(guān)重要。一個(gè)標(biāo)準(zhǔn)的H100計(jì)算節(jié)點(diǎn)配備4x雙端口QSFP，轉(zhuǎn)換為8個(gè)上行鏈路端口(每個(gè)GPU一個(gè)獨(dú)立上行鏈路)與8個(gè)不同的葉交換機(jī)連接，由此建立一個(gè)8條線路優(yōu)化結(jié)構(gòu)。

在處理單個(gè)具有256顆GPU的pod時(shí)，該設(shè)計(jì)的工作可實(shí)現(xiàn)無(wú)縫銜接。但是，如果目標(biāo)是構(gòu)建一個(gè)包含16384顆GPU的結(jié)構(gòu)，該怎么辦?在這種場(chǎng)景中，我們有必要增加兩個(gè)交換層。來(lái)自每個(gè)pod的第一個(gè)葉交換機(jī)與脊組一(SG1)中的每個(gè)交換機(jī)連接，每個(gè)pod內(nèi)的第二個(gè)葉交換機(jī)與脊組二(SG2)中的每個(gè)交換機(jī)連接，以此類(lèi)推。為取得完全實(shí)現(xiàn)的胖樹(shù)(fat-tree)拓?fù)浣Y(jié)構(gòu)，則須加入第三層核心交換組(CG)。

讓我們?cè)俅位仡櫼惶状钶d16384顆 GPU集群的一些數(shù)據(jù)。在計(jì)算節(jié)點(diǎn)和葉交換機(jī)(每個(gè)pod有8個(gè)葉交換機(jī))之間建立連接時(shí)需要16384根光纜，意味著每個(gè)pod有256根MPO跳線。在我們開(kāi)始網(wǎng)絡(luò)拓展的過(guò)程時(shí)，建立葉-脊連接和脊-核心連接的任務(wù)變得更具有挑戰(zhàn)性。這涉及首先捆扎多根點(diǎn)對(duì)點(diǎn)MPO跳線，然后將其敷設(shè)跨越50米至500米不等的距離。

有沒(méi)有更高效的運(yùn)作方式?建議之一是采用結(jié)構(gòu)化布線系統(tǒng)，該系統(tǒng)采用兩個(gè)接線板設(shè)計(jì)，利用大芯數(shù)MPO干線，可能采用144根光纖。這樣，我們就能把18根MPO跳線(18x8=144)合并成一根Base-8干線光纜。合并后的光纜可以一次性敷設(shè)和連通數(shù)據(jù)中心場(chǎng)地。通過(guò)在端點(diǎn)使用適合8光纖連接的接線板和MPO適配器面板，我們可將其拆開(kāi)并連接至我們的優(yōu)化線路架構(gòu)。該方法無(wú)需捆綁許多MPO跳線。

為說(shuō)明這一點(diǎn)，讓我們考慮以下場(chǎng)景：對(duì)于一個(gè)非阻塞結(jié)構(gòu)，每個(gè)pod需要256條上行鏈路。我們可選擇自每個(gè)pod拉出15x144根光纖干線，生成15x18=270上行鏈路。值得注意的是，這只需使用15個(gè)電纜護(hù)套即可實(shí)現(xiàn)。另外，該設(shè)置提供270-256=14個(gè)備用連接，這些備用連接可作為備份，或者甚至用于存儲(chǔ)或管理網(wǎng)絡(luò)連接。

最終，人工智能在理解我們的問(wèn)題方面取得了重大進(jìn)展，我們將見(jiàn)證其持續(xù)演變。在實(shí)現(xiàn)這一轉(zhuǎn)變的過(guò)程中，尋求能夠支持大規(guī)模GPU集群(無(wú)論是16K還是24KGPU)的布線解決方案是難題的重要組成部分，也是光通信行業(yè)正在迎接的一項(xiàng)挑戰(zhàn)。

作者：Mustafa Keskin 康寧光通信公司應(yīng)用解決方案經(jīng)理

內(nèi)容來(lái)自：訊石光通訊網(wǎng)
本文地址：http://3xchallenge.com//Site/CN/News/2024/06/17/20240617081740691788.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:康寧光通信：面向人工智能的光纖連接技術(shù)

1、凡本網(wǎng)注明“來(lái)源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明，凡本網(wǎng)注明“來(lái)源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題，請(qǐng)聯(lián)系本網(wǎng)，將第一時(shí)間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

康寧光通信：面向人工智能的光纖連接技術(shù)

相關(guān)新聞