ICC訊(編譯:Nina)超級計算大會2023 (SC23)于2023年11月12日至17日在美國科羅拉多州丹佛市舉行,參會人數(shù)超過14000人,創(chuàng)下了新紀錄。
兩大主題主導了今年的會議:其一是光子學日益重要的作用,其二是高性能計算和人工智能超級計算機發(fā)展速度之間的矛盾。
使用光子學,可以通過光纖發(fā)送PCI Express(PCIe)和Compute Express Link(CXL)等協(xié)議,從而實現(xiàn)數(shù)據(jù)中心的系統(tǒng)分解和新型超級計算架構。
Drut Technologies,一家在SC22上嶄露頭角的系統(tǒng)初創(chuàng)公司,利用去年的活動推出了其服務器分解架構。今年,這家初創(chuàng)公司展示了其日益增長的雄心。它正在開發(fā)一種架構,將這一概念擴展到數(shù)據(jù)中心。它的DynamicXcelerator(DX)架構將支持多達4096個使用光交換的加速器,類似于谷歌互連其張量處理器單元(TPU)集群的方式。
其他光子展亮點包括Avicena的光學互連演示,展示了它所聲稱的世界上最小的1Tb/s基于microLED的收發(fā)器。Ayar Labs展示了其嵌入Intel FPGA的光學輸入輸出(I/O)TeraPHY小芯片,而Lightelligence則展示了在光鏈路上使用PCIe/CXL的內(nèi)存分解。
SC23也是最新的500強超級計算機亮相的地方。今年有一臺超級計算機——微軟Azure的Eagle——躋身前三,這是商業(yè)機器第一次獲得如此高的排名,而且是微軟在一周內(nèi)推出的。
Top500突出的一個趨勢是高性能計算正在放緩。直到2013年,高性能計算以每11年1000倍的速度增長,但自那以后,增長速度大幅放緩。Top500委員會認為,計算能力現(xiàn)在以每11年不到10倍的速度增長。相比之下,超大規(guī)模提供商(Hyperscaler)的人工智能計算需求每3到4個月增長一倍,這種情況將在可預見的未來持續(xù)下去。
高性能計算和人工智能超級計算機的增長梯度不同有幾個原因。
高性能計算所需的處理是多種多樣的,要求非常高。由于它處于計算的前沿,因此也是第一個遇到關鍵限制的板塊。相比之下,人工智能和機器學習的計算更加專業(yè)化,且超大規(guī)模提供商在各個方面都做得非常出色,包括在處理器的指令級、浮點數(shù)學表示、核心、芯片和內(nèi)存以及刀片級。
此外,還介紹了如何通過使用先進的網(wǎng)絡技術和拓撲結構來橫向和縱向擴展刀片以組成超級計算系統(tǒng)。反過來,人工智能計算需求的指數(shù)級增長不會無限期地持續(xù)下去,而不會出現(xiàn)瓶頸。與高性能計算一樣,這將需要新的思維。
兩場會議討論了高性能計算和人工智能計算瓶頸的問題:一個論壇討論了光I/O在未來人工智能和高性能計算系統(tǒng)中的作用,以及小芯片(Chiplets)如何使高性能計算和人工智能受益。
超級計算會議的重點是軟件、算法和應用。但硬件——處理器、存儲器和包括光學在內(nèi)的互連——也有突出表現(xiàn)。例如,最新的Compute Express Link(CXL)規(guī)范3.1版在展會上發(fā)布,這是一年多來的首次升級。
英偉達在活動新聞發(fā)布會上發(fā)表的一個令人驚訝的聲明是,NVLink網(wǎng)絡沒有使用任何光學連接。這意味著英偉達部署的光學收發(fā)器和AOC主要用于InfiniBand連接,有些用于以太網(wǎng)。LightCounting將在2024年1月題為“人工智能光學”的報告中討論這一發(fā)展的影響。
新聞來源:訊石光通訊網(wǎng)