引言
2023 年是生成式人工智能的一年,對(duì) ChatGPT 等新型大型語(yǔ)言模型(LLM)的興趣大增。眾多公司正在將人工智能整合到自己的服務(wù)中(如微軟Bing、谷歌Bard、Adobe Creative Cloud 等),對(duì)英偉達(dá)今年的股價(jià)產(chǎn)生了重大影響。
在我們展望人工智能的未來(lái)及其面臨的挑戰(zhàn)時(shí),Ayar Labs 的首席技術(shù)官兼聯(lián)合創(chuàng)始人Vladimir Stojanovic提供真知灼見(jiàn),在這次問(wèn)答訪談中就 Ayar Labs 的技術(shù)如何促進(jìn)生成式人工智能的發(fā)展向 Vladimir 提出了十幾個(gè)問(wèn)題。
問(wèn)答訪談
1.從架構(gòu)的角度來(lái)看,在繼續(xù)提高人工智能模型的增長(zhǎng)和性能方面面臨哪些挑戰(zhàn),尤其是在生成式人工智能的背景下?
生成式人工智能模型的關(guān)鍵在于它們非常龐大,需要在許多 GPU 之間進(jìn)行全局通信,這超出了數(shù)據(jù)中心中單個(gè)機(jī)箱或機(jī)架的范圍。即使是推理(即推理和決策),要求也很高,微調(diào)和訓(xùn)練更是如此。大致的規(guī)模是這樣的:一個(gè)機(jī)架用于推理,數(shù)十個(gè)機(jī)架用于微調(diào),數(shù)百個(gè)機(jī)架用于訓(xùn)練。你必須以某種方式將所有這些 GPU 互聯(lián)起來(lái)。
2. GPU 互聯(lián)的關(guān)鍵考慮因素是什么?
在上述生成式人工智能架構(gòu)中,互聯(lián)的作用是在全 GPU I/O 帶寬和低延遲的情況下,提供從每個(gè) GPU 到每個(gè)其他 GPU 或子系統(tǒng)的全局通信,以最大限度地提高處理效率,同時(shí)在功耗、面積和成本方面的影響可以忽略不計(jì)?;旧希狗植际较到y(tǒng)看起來(lái)就像一個(gè)巨大的虛擬 GPU。因此,互聯(lián)必須非??焖?、密集、省電和經(jīng)濟(jì)。這就是 Ayar Labs致力于將光學(xué)輸入/輸出(I/O)商業(yè)化的原因:利用硅基光電子技術(shù)在芯片級(jí)集成光學(xué)連接,直接從 GPU(XPU)封裝中產(chǎn)生最快、最高效的互連。
3. 目前使用的是什么,為什么不是最佳的?
目前,這些系統(tǒng)依賴(lài)于可插拔光連接,這本質(zhì)上是一種光網(wǎng)絡(luò)技術(shù)??刹灏喂饫|非常適合電信等長(zhǎng)距離應(yīng)用,但并不是為板載輸入/輸出而設(shè)計(jì)的。
在帶寬/延遲、功耗、密度和成本這四個(gè)方面,可插拔設(shè)備都無(wú)法滿足 GPU 輸入/輸出的要求?;诓灏问皆O(shè)計(jì)的 GPU 至 GPU 鏈路(或 GPU 至外部交換機(jī)鏈路)每比特消耗約 30 皮焦耳(pJ/b): 從最初的電氣 GPU 到光學(xué)可插拔鏈接需要 5 皮焦耳/比特,光學(xué)可插拔到光學(xué)可插拔鏈接需要 20 皮焦耳/比特,從光學(xué)可插拔轉(zhuǎn)換回電氣 GPU 或交換機(jī)還需要 5 皮焦耳/比特。將這 30pJ/b 與封裝內(nèi)光 I/O 解決方案相比,后者直接連接兩個(gè)封裝,功耗不到 5pJ/b,可節(jié)省近 8 倍功耗。
插拔式模塊也很笨重。與封裝內(nèi)光 I/O 相比,其邊緣帶寬密度低 10 倍以上,面積密度低 100 倍以上。這就限制了從 GPU 卡或機(jī)箱到系統(tǒng)其他部分的帶寬?;旧?,今天我們已經(jīng)到了極限,也許還能再擠出一代,系統(tǒng)就會(huì)完全陷入瓶頸。最后但并非最不重要的是成本。由于插拔式電纜是外部模塊,而不是板載芯片,因此其成本擴(kuò)展性很差,多年來(lái)一直徘徊在 1 至 2 美元/Gbps 之間。要實(shí)現(xiàn)未來(lái)生成式人工智能系統(tǒng)性能擴(kuò)展所需的 GPU-GPU 帶寬擴(kuò)展,成本需要降低約 10 倍。封裝內(nèi)光電 I/O 可以通過(guò)在光電芯片側(cè)和激光側(cè)進(jìn)行集成,幫助實(shí)現(xiàn)上述成本節(jié)約。
4. 您能談?wù)剬?duì)訓(xùn)練和推理的影響嗎?您認(rèn)為光 I/O 在哪些方面能發(fā)揮最大作用?
如上所述,有三種應(yīng)用,每種應(yīng)用都有不同的足跡和數(shù)量。首先,您需要訓(xùn)練一個(gè)人工智能模型,然后對(duì)其進(jìn)行微調(diào)(這可能是持續(xù)性的),最后通過(guò)推理將其投入生產(chǎn)??紤]到模型的擴(kuò)展趨勢(shì)--從目前最大的模型到下一代或兩代模型,推斷將需要 10-100 個(gè) GPU,微調(diào)需要 100-1000 個(gè) GPU,而訓(xùn)練則需要數(shù)千到數(shù)萬(wàn)個(gè) GPU。鑒于一個(gè)機(jī)箱最多可容納 8 個(gè) GPU,而一個(gè)機(jī)架可容納 32 個(gè) GPU,因此即使是推理也會(huì)成為需要光 I/O 的機(jī)架級(jí)操作。
5. 您能否解釋一下系統(tǒng)工程師在設(shè)計(jì)大規(guī)模人工智能工作負(fù)載時(shí)面臨的主要挑戰(zhàn),以及光 I/O 如何應(yīng)對(duì)這些挑戰(zhàn)?
首先,我們要明確我們談?wù)摰氖钦l(shuí)。如果我們指的是機(jī)器學(xué)習(xí)(ML)程序員,那么采用光 I/O 的平臺(tái)將提供具有高吞吐量擴(kuò)展、低延遲性能和低延遲分布的 Fabric 解決方案。這樣一來(lái),整個(gè)分布式計(jì)算操作看起來(lái)就像一個(gè)單一的虛擬 GPU,從而提高了程序員的工作效率,實(shí)現(xiàn)了可擴(kuò)展的 ML 工作負(fù)載。
如果我們談?wù)摰氖怯布O(shè)計(jì)人員,他們需要構(gòu)建能夠?qū)崿F(xiàn)強(qiáng)可擴(kuò)展性分布式計(jì)算的平臺(tái),那么光 I/O 就能實(shí)現(xiàn)物理分解。這是用更小的組件構(gòu)建復(fù)雜、可擴(kuò)展的平臺(tái)的關(guān)鍵所在,而這些組件的成本縮放曲線也更為激進(jìn)??梢韵胂?,未來(lái)的設(shè)計(jì)將圍繞類(lèi)似于一堆物理分解的 GPU 計(jì)算卡或交換卡來(lái)構(gòu)建,而不再需要復(fù)雜而昂貴的多 GPU 機(jī)箱。
6. 在未來(lái)五到十年內(nèi),您如何看待光 I/O 技術(shù)在人工智能模型增長(zhǎng)和能源消耗方面的作用?
光 I/O 的路線圖可實(shí)現(xiàn)超過(guò)十年的持續(xù)帶寬和功耗擴(kuò)展,這反過(guò)來(lái)又可實(shí)現(xiàn)強(qiáng)大的分布式計(jì)算平臺(tái)擴(kuò)展和相應(yīng)的模型增長(zhǎng)。
7. 在生成式人工智能場(chǎng)景中,"全對(duì)全連接 "與統(tǒng)一延遲和總體效率有何關(guān)系?光 I/O 在這方面有何幫助?
在生成式人工智能所需的超大規(guī)模(如數(shù)千個(gè)計(jì)算插槽)中,必須通過(guò)交換結(jié)構(gòu)實(shí)現(xiàn)全對(duì)全連接。這必須分布在所有計(jì)算插座上(如基于 TPU 的系統(tǒng)),或者與計(jì)算插座分開(kāi)(如基于 GPU 的系統(tǒng))。無(wú)論哪種情況,光 I/O 都能以低功耗和低成本提供豐富的帶寬和低每鏈路延遲。這就使得大量對(duì)距離不敏感的光連接可以直接從計(jì)算/交換插座和光纖架構(gòu)拓?fù)洌此^的胖樹(shù)(或折疊克洛斯)設(shè)計(jì))中取出,從而在不影響注入帶寬(節(jié)點(diǎn)向網(wǎng)絡(luò)注入數(shù)據(jù)的速率)或分段帶寬(計(jì)算真正的整體網(wǎng)絡(luò)帶寬)的情況下提供短而均勻的延遲。
目前,現(xiàn)有的 Fabric 設(shè)計(jì)在 Fabric 成本和性能之間折衷的辦法是使用較少的光纖可插拔連接,例如,與胖樹(shù)設(shè)計(jì)中計(jì)算節(jié)點(diǎn)的注入能力相比,降低分段帶寬,或使用其他 Fabric 拓?fù)洌ㄈ?TPU 系統(tǒng)中的環(huán)形結(jié)構(gòu)),這些拓?fù)浣Y(jié)構(gòu)最大限度地減少了機(jī)架和行級(jí)光纖連接的數(shù)量,但帶來(lái)了不均勻的延遲曲線,再次限制了應(yīng)用性能。
8. 您能否詳細(xì)說(shuō)明光 I/O 技術(shù)在可重構(gòu)性方面的作用,特別是在適應(yīng)不斷變化的人工智能模型要求方面,以及這種靈活性如何影響系統(tǒng)級(jí)效率?
封裝內(nèi)光學(xué) I/O 可實(shí)現(xiàn)計(jì)算/交換封裝的高帶寬和大量端口(鏈路),為如何配置結(jié)構(gòu)以滿足不斷變化的模型要求提供了靈活性。例如,系統(tǒng)設(shè)計(jì)可以強(qiáng)調(diào)更高的弧度(更多鏈接),從而根據(jù)需要增加節(jié)點(diǎn)數(shù)量,以更低的延遲支持更大的模型張量并行性。另外,系統(tǒng)設(shè)計(jì)也可以強(qiáng)調(diào)提高每個(gè)鏈路的吞吐量,從而降低流水線并行的傳輸延遲。
9. 考慮到人工智能應(yīng)用向邊緣計(jì)算發(fā)展的趨勢(shì),光 I/O 技術(shù)在為資源受限的邊緣設(shè)備提供高速連接方面有哪些獨(dú)特的挑戰(zhàn)和機(jī)遇?
由于邊緣設(shè)備可利用的資源有限,物理分解是一個(gè)關(guān)鍵考慮因素,也是光 I/O 的主要優(yōu)勢(shì)之一。例如,航空航天公司正在尋求將下一代傳感器從底層計(jì)算中分離出來(lái),以重新平衡關(guān)鍵約束條件(如尺寸、重量和功率),同時(shí)實(shí)現(xiàn)新的傳感配置,解決距離(一米以上)問(wèn)題(如多靜態(tài)雷達(dá)、合成孔徑、協(xié)作多輸入多輸出通信等)。
10. 光 I/O可為人工智能帶來(lái)哪些潛在的性能提升?
我們一直在創(chuàng)建和評(píng)估平臺(tái)開(kāi)發(fā),在機(jī)箱、機(jī)架和系統(tǒng)層面,這些平臺(tái)有可能在下一代產(chǎn)品中將光纖架構(gòu)吞吐量提升 10 倍以上。這樣,互連帶寬就能跟上 GPU 改進(jìn)和人工智能集群擴(kuò)展的趨勢(shì),確保連接性不會(huì)成為未來(lái)人工智能發(fā)展的制約因素。
11. 隨著光 I/O 的成熟,在標(biāo)準(zhǔn)化、互操作性和生態(tài)系統(tǒng)發(fā)展方面有哪些關(guān)鍵考慮因素,以確保其廣泛采用并與各種生成式人工智能硬件和軟件框架兼容?
標(biāo)準(zhǔn)化對(duì)于整個(gè)生態(tài)系統(tǒng)的發(fā)展和繁榮非常重要,而標(biāo)準(zhǔn)化必須將光 I/O 作為核心考慮因素。這里有兩個(gè)要素:物理和軟件。
在物理層,有連接本身和為光學(xué)供電的激光。UCIe(通用芯片互連 Express)是業(yè)界圍繞封裝級(jí)通用互連而制定的標(biāo)準(zhǔn),它將同類(lèi)最佳的芯片到芯片互連與來(lái)自可互操作的多供應(yīng)商生態(tài)系統(tǒng)的協(xié)議連接結(jié)合在一起。
對(duì)于激光器而言,CW-WDM MSA(連續(xù)波分復(fù)用多源協(xié)議)是一項(xiàng)行業(yè)倡議和規(guī)范,旨在為新興的先進(jìn)集成光學(xué)應(yīng)用(如人工智能、高性能計(jì)算和高密度光學(xué))實(shí)現(xiàn) O 波段 WDM CW 光源標(biāo)準(zhǔn)化,這些應(yīng)用預(yù)計(jì)將發(fā)展到 8、16 和 32 波長(zhǎng)。
與其他物理層互連技術(shù)相比,這兩項(xiàng)計(jì)劃都能在性能、效率、成本和帶寬擴(kuò)展方面實(shí)現(xiàn)飛躍。
在軟件層,CXL(Compute Express Link)等協(xié)議是處理器、內(nèi)存和加速器高速緩存相干互連的開(kāi)放標(biāo)準(zhǔn),是未來(lái)的發(fā)展趨勢(shì)。這使得池化或交換式內(nèi)存等先進(jìn)技術(shù)成為可能,為 GPU 利用物理層的高吞吐量和低延遲共享分解內(nèi)存提供了基礎(chǔ)。
12. 在技能組合和專(zhuān)業(yè)知識(shí)方面,進(jìn)入人工智能光 I/O 開(kāi)發(fā)領(lǐng)域的專(zhuān)業(yè)人員需要具備哪些關(guān)鍵資質(zhì)和知識(shí)領(lǐng)域,企業(yè)和教育機(jī)構(gòu)如何為人才隊(duì)伍做好相應(yīng)準(zhǔn)備?
這是一個(gè)具有挑戰(zhàn)性的跨學(xué)科問(wèn)題--從硅基光電子學(xué)和激光物理學(xué)到電路設(shè)計(jì)和計(jì)算機(jī)/網(wǎng)絡(luò)架構(gòu)(再加上制造和封裝),更不用說(shuō)分布式計(jì)算/共享內(nèi)存系統(tǒng)的系統(tǒng)編程/通信堆棧。公司、個(gè)人和教育機(jī)構(gòu)可以通過(guò)認(rèn)識(shí)和強(qiáng)調(diào)這種跨堆棧設(shè)計(jì)方法來(lái)做好最佳準(zhǔn)備。
后記
感謝 Vladimir 先生抽出寶貴時(shí)間分享見(jiàn)解和觀點(diǎn),讓我們了解如何應(yīng)對(duì)企業(yè)在發(fā)展和提高人工智能模型性能時(shí)所面臨的架構(gòu)挑戰(zhàn)。顯而易見(jiàn),光 I/O 在實(shí)現(xiàn)生成式人工智能的未來(lái)方面大有可為。
參考來(lái)源
https://insidebigdata.com/2024/03/13/how-optical-i-o-is-enabling-the-future-of-generative-ai-a-qa-with-ayar-labs-cto-vladimir-stojanovic/?utm_content=288493874&utm_medium=social&utm_source=linkedin&hss_channel=lcp-6627049
新聞來(lái)源:逍遙設(shè)計(jì)自動(dòng)化
相關(guān)文章