瞄準(zhǔn)五大方向持續(xù)攻關(guān)，構(gòu)建AI網(wǎng)絡(luò)底座

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2024/8/28 17:30:31 編者:iccsz

摘要：AI的概念也可能會(huì)令人產(chǎn)生困惑和誤解。是德科技的這篇文章旨在探討有關(guān)AI網(wǎng)絡(luò)如何工作以及該技術(shù)面臨的獨(dú)特挑戰(zhàn)等五個(gè)方面的基本問(wèn)題。

作者：是德科技產(chǎn)品營(yíng)銷(xiāo)經(jīng)理 Linas Dauksa

如果企業(yè)擁有數(shù)據(jù)中心，需要關(guān)注的是人工智能(AI)技術(shù)可能很快就會(huì)部署到數(shù)據(jù)中心。無(wú)論AI系統(tǒng)是一個(gè)聊天機(jī)器人，還是橫跨多個(gè)系統(tǒng)的自動(dòng)化流程，亦或是對(duì)大型數(shù)據(jù)集的有效分析，這項(xiàng)新技術(shù)都有望加速和改善許多企業(yè)的業(yè)務(wù)模式。然而，AI的概念也可能會(huì)令人產(chǎn)生困惑和誤解。是德科技的這篇文章旨在探討有關(guān)AI網(wǎng)絡(luò)如何工作以及該技術(shù)面臨的獨(dú)特挑戰(zhàn)等五個(gè)方面的基本問(wèn)題。

GPU相當(dāng)于A(yíng)I計(jì)算機(jī)的“大腦”

簡(jiǎn)單來(lái)說(shuō)，AI計(jì)算機(jī)的大腦就是圖形處理器(GPU)。過(guò)去，人們可能聽(tīng)說(shuō)過(guò)中央處理器(CPU)是計(jì)算機(jī)的大腦。GPU 的優(yōu)勢(shì)在于，它是一個(gè)擅長(zhǎng)進(jìn)行數(shù)學(xué)計(jì)算的 CPU。當(dāng)創(chuàng)建AI計(jì)算機(jī)或深度學(xué)習(xí)模型時(shí)，需要對(duì)其進(jìn)行 “訓(xùn)練”，這就要求對(duì)可能包含數(shù)十億個(gè)參數(shù)的數(shù)學(xué)矩陣方程進(jìn)行求解。進(jìn)行此種數(shù)學(xué)運(yùn)算的最快方法是讓多組 GPU 在相同的工作負(fù)載上運(yùn)行，即便如此，訓(xùn)練AI模型也可能需要數(shù)周甚至數(shù)月的時(shí)間。AI模型創(chuàng)建后，會(huì)被遷移到前端計(jì)算機(jī)系統(tǒng)，用戶(hù)可以向模型提問(wèn)，這就是所謂的推理。

AI計(jì)算機(jī)集眾多GPU于一身

用于處理AI工作負(fù)載的最佳架構(gòu)是在一個(gè)機(jī)架中集成一組GPU, 并將其連接到機(jī)架頂部的交換機(jī)中。還可以有更多的 GPU 集成機(jī)架，按照網(wǎng)絡(luò)層次結(jié)構(gòu)連接所有 GPU。隨著所要解決的問(wèn)題的復(fù)雜性增加，對(duì) GPU 的需求也就越大，有些將要部署的解決方案可能會(huì)包含數(shù)千個(gè) GPU 集群。這不難讓人聯(lián)想到數(shù)據(jù)中心里一排又一排密密麻麻的服務(wù)器機(jī)架，這種場(chǎng)景非常常見(jiàn)。

AI集群是一個(gè)小型網(wǎng)絡(luò)

在構(gòu)建AI集群時(shí)，有必要將更多GPU連接起來(lái)，這樣它們才能協(xié)同工作。而GPU之間的連接可以通過(guò)創(chuàng)建微型計(jì)算機(jī)網(wǎng)絡(luò)的方式來(lái)實(shí)現(xiàn)，讓GPU與GPU之間能夠互相發(fā)送和接收數(shù)據(jù)。

圖1：AI集群

圖1展示了一個(gè)AI集群，其中最下方的圓圈代表了GPU在執(zhí)行任務(wù)時(shí)的工作流程。將許多GPU連接到了機(jī)架頂部(ToR)的交換機(jī)。ToR 交換機(jī)還連接到了上圖頂部的骨干網(wǎng)絡(luò)中使用的交換機(jī)，這張圖充分描繪了需要集成眾多GPU時(shí)所采用的清晰網(wǎng)絡(luò)層次結(jié)構(gòu)。

AI部署的瓶頸在于網(wǎng)絡(luò)

去年秋天，在OCP(開(kāi)放計(jì)算項(xiàng)目)全球峰會(huì)上，與會(huì)者重點(diǎn)討論了新一代AI基礎(chǔ)設(shè)施。其中，來(lái)自邁威爾科技的Loi Nguyen充分闡述了由此出現(xiàn)的一個(gè)關(guān)鍵問(wèn)題：網(wǎng)絡(luò)已經(jīng)成為新的瓶頸。

GPU在解決數(shù)學(xué)問(wèn)題或者處理工作負(fù)載方面非常有效。這些系統(tǒng)完成任務(wù)的最快方法是讓所有 GPU并行計(jì)算、協(xié)同工作來(lái)處理相同的工作負(fù)載。要做到這一點(diǎn)，GPU需要獲取它們即將處理的信息，并且它們彼此之間可以互相進(jìn)行通信。如果其中一個(gè)GPU沒(méi)有得到它所需的信息，或者需要更長(zhǎng)的時(shí)間來(lái)輸出結(jié)果，那么所有其他GPU都必須等待，直到能夠一致協(xié)作來(lái)完成任務(wù)。

從技術(shù)角度來(lái)講，擁堵的網(wǎng)絡(luò)造成的數(shù)據(jù)包延遲或者數(shù)據(jù)包丟失可能會(huì)導(dǎo)致系統(tǒng)需要反復(fù)重新傳輸數(shù)據(jù)包，并顯著延長(zhǎng)完成任務(wù)所需的時(shí)間。這意味著，可能會(huì)有價(jià)值數(shù)百萬(wàn)或數(shù)千萬(wàn)美元的 GPU閑置，從而影響最終的結(jié)果，當(dāng)然也可能會(huì)影響希望通過(guò)利用AI技術(shù)獲得商機(jī)的企業(yè)的上市時(shí)間。

測(cè)試是成功運(yùn)行AI網(wǎng)絡(luò)的關(guān)鍵

為了高效運(yùn)行AI集群，用戶(hù)需要確保GPU得到充分利用，這樣才能較早地完成學(xué)習(xí)模型的訓(xùn)練，并將其投入使用，實(shí)現(xiàn)投資回報(bào)最大化。這就需要對(duì)AI集群(圖2)的性能進(jìn)行測(cè)試和基準(zhǔn)測(cè)試。然而，這并不是一件輕而易舉的事兒，因?yàn)镚PU和網(wǎng)絡(luò)架構(gòu)之間有著千絲萬(wàn)縷的聯(lián)系和諸多設(shè)置，它們需要在架構(gòu)上實(shí)現(xiàn)互補(bǔ)，以滿(mǎn)足處理工作負(fù)載的需要。

圖2：AI數(shù)據(jù)中心測(cè)試平臺(tái)及如何測(cè)試AI數(shù)據(jù)中心集群

這給AI網(wǎng)絡(luò)帶來(lái)了諸多挑戰(zhàn)：

- 考慮到成本、設(shè)備的可用性、熟練的網(wǎng)絡(luò) AI 工程師的時(shí)間、空間、功率和熱量等因素的限制，很難在實(shí)驗(yàn)室中復(fù)刻完整的工作網(wǎng)絡(luò)。

- 在工作系統(tǒng)上執(zhí)行測(cè)試會(huì)降低工作系統(tǒng)可用的處理能力。

- 由于工作負(fù)載的類(lèi)型以及數(shù)據(jù)集的規(guī)模大小和范圍可能大不相同，因此所要研究的問(wèn)題也會(huì)難以重現(xiàn)。

- 深入洞察GPU之間的集體通信也頗具挑戰(zhàn)性。

應(yīng)對(duì)上述挑戰(zhàn)的方法之一是，首先在實(shí)驗(yàn)室環(huán)境中對(duì)所提出的設(shè)置的一個(gè)子集執(zhí)行測(cè)試，以便對(duì)JCT、整個(gè)AI集群所能達(dá)到的帶寬等關(guān)鍵參數(shù)進(jìn)行基準(zhǔn)測(cè)試，同時(shí)將這些參數(shù)與Fabric容量利用率以及內(nèi)存緩沖區(qū)消耗情況進(jìn)行比較。這種基準(zhǔn)測(cè)試有助于找到GPU/工作負(fù)載的分布與網(wǎng)絡(luò)設(shè)計(jì)/設(shè)置之間的平衡點(diǎn)。當(dāng)計(jì)算架構(gòu)和網(wǎng)絡(luò)工程師對(duì)結(jié)果比較滿(mǎn)意時(shí)，他們就能夠?qū)⑦@些設(shè)置應(yīng)用到執(zhí)行任務(wù)的工作系統(tǒng)中并且衡量新的結(jié)果是否理想。

小結(jié)

為了充分釋放AI的潛能，需要優(yōu)化AI網(wǎng)絡(luò)的設(shè)備和基礎(chǔ)架構(gòu)。企業(yè)的研究實(shí)驗(yàn)室和學(xué)術(shù)機(jī)構(gòu)致力于對(duì)構(gòu)建和運(yùn)行高效AI網(wǎng)絡(luò)所涉及的各個(gè)層面進(jìn)行分析，以解決在大型網(wǎng)絡(luò)上執(zhí)行任務(wù)所面臨的挑戰(zhàn)。尤其是在當(dāng)前行業(yè)最佳實(shí)踐正不斷發(fā)生變化的情況下，形勢(shì)更是如此。只有采用這種可以反復(fù)驗(yàn)證、高度協(xié)作的方法，業(yè)界才能實(shí)現(xiàn)可重復(fù)的測(cè)試，并靈活地嘗試各種“假設(shè) ”場(chǎng)景，這是優(yōu)化AI網(wǎng)絡(luò)的基礎(chǔ)。

關(guān)于是德科技

是德科技(NYSE：KEYS)啟迪并賦能創(chuàng)新者，助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司，我們提供先進(jìn)的設(shè)計(jì)、仿真和測(cè)試解決方案，旨在幫助工程師在整個(gè)產(chǎn)品生命周期中更快地完成開(kāi)發(fā)和部署，同時(shí)控制好風(fēng)險(xiǎn)。我們的客戶(hù)遍及全球通信、工業(yè)自動(dòng)化、航空航天與國(guó)防、汽車(chē)、半導(dǎo)體和通用電子等市場(chǎng)。我們與客戶(hù)攜手，加速創(chuàng)新，創(chuàng)造一個(gè)安全互聯(lián)的世界。了解更多信息，請(qǐng)?jiān)L問(wèn)是德科技官網(wǎng) www.keysight.com。

內(nèi)容來(lái)自：是德科技
本文地址：http://3xchallenge.com//Site/CN/News/2024/08/28/20240828093705206313.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:瞄準(zhǔn)五大方向持續(xù)攻關(guān)，構(gòu)建AI網(wǎng)絡(luò)底座

1、凡本網(wǎng)注明“來(lái)源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明，凡本網(wǎng)注明“來(lái)源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題，請(qǐng)聯(lián)系本網(wǎng)，將第一時(shí)間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話(huà)：0755-82960080-168 Right

瞄準(zhǔn)五大方向持續(xù)攻關(guān)，構(gòu)建AI網(wǎng)絡(luò)底座

相關(guān)新聞

瞄準(zhǔn)五大方向持續(xù)攻關(guān)，構(gòu)建AI網(wǎng)絡(luò)底座