高性能計算芯片的架構(gòu)

訊石光通訊網(wǎng) 2024/5/28 9:53:32

  簡介

  亞馬遜、谷歌、Meta、微軟、甲骨文和 Akamai 等世界領(lǐng)先的Hyperscaler云數(shù)據(jù)中心公司正在推動專為云計算設(shè)計的芯片架構(gòu)的快速創(chuàng)新。為了在更小的面積內(nèi)容納更多的計算能力,同時降低冷卻成本,這些公司正在采用針對特定數(shù)據(jù)類型和工作負(fù)載進(jìn)行優(yōu)化的異構(gòu)多核架構(gòu)。

  這一趨勢緊隨移動設(shè)備的腳步,因為移動設(shè)備必須應(yīng)對狹小的占地面積以及嚴(yán)格的功耗和散熱要求。Quadric 市場營銷副總裁 Steve Roddy 指出:"英特爾等行業(yè)巨頭的單片機(jī)幾乎在每個產(chǎn)品代碼中都有人工智能 NPU。當(dāng)然,人工智能先驅(qū)英偉達(dá)(NVIDIA)長期以來一直在其大獲成功的數(shù)據(jù)中心產(chǎn)品中混合使用 CPU、shader(CUDA)內(nèi)核和張量內(nèi)核。未來幾年向芯片組的轉(zhuǎn)變將徹底鞏固這一過渡?!?

  定制架構(gòu)的經(jīng)濟(jì)性

  隨著傳統(tǒng)擴(kuò)展的優(yōu)勢不斷縮小,以及先進(jìn)封裝技術(shù)的成熟(先進(jìn)封裝技術(shù)允許許多以前受限于微粒尺寸的定制功能),每瓦特和每美元性能的競爭已進(jìn)入白熱化階段。這導(dǎo)致針對不同工作負(fù)載進(jìn)行優(yōu)化的定制架構(gòu)激增。

  西門子 EDA IC 市場總監(jiān) Neil Hand 解釋說:"如今,每個人都在構(gòu)建自己的架構(gòu),尤其是數(shù)據(jù)中心的參與者,而處理器架構(gòu)很大程度上取決于工作負(fù)載的外觀。與此同時,這些開發(fā)人員也在詢問加速的最佳途徑是什么”。

  一些公司專注于多核并行,而另一些公司則以提高內(nèi)存帶寬為目標(biāo)。許多公司正在為數(shù)據(jù)處理、矩陣運(yùn)算和壓縮/解壓縮等任務(wù)開發(fā)專用加速器。

  異構(gòu)多核架構(gòu)

  由此產(chǎn)生的芯片架構(gòu)是混合了通用 CPU、GPU 和固定功能加速器的異構(gòu)多核設(shè)計。正如 Synopsys 公司 ASIP 工具產(chǎn)品經(jīng)理 Patrick Verbist 所描述的那樣:

  “它們是異構(gòu)多核架構(gòu),通常是通用 CPU 和 GPU 的混合,具體取決于公司類型,因為它們偏好其中一種。然后是具有固定功能的 RTL 加速器......這些加速器運(yùn)行的應(yīng)用負(fù)載類型一般包括數(shù)據(jù)操作、矩陣乘法引擎、激活函數(shù)、參數(shù)的壓縮/解壓縮、圖形的權(quán)重等。”

  為了支持不斷變化的工作負(fù)載要求,許多公司正在采用特定應(yīng)用指令處理器(ASIP),這種處理器可以定制數(shù)據(jù)通路和指令集。

  “ASIP允許定制運(yùn)算器,因此數(shù)據(jù)路徑和指令集只能以比普通DSP更有效的方式執(zhí)行有限的一組運(yùn)算,”Verbist說?!叭绻憧? GPU,它必須支持各種工作負(fù)載,但不是所有的工作負(fù)載。這就是 ASIP 發(fā)揮作用的地方,它支持靈活性和可編程性。

  適應(yīng)人工智能/ML 工作負(fù)載

  人工智能和機(jī)器學(xué)習(xí)的興起是這種架構(gòu)多樣性的主要驅(qū)動力。Fraunhofer IIS 高效電子學(xué)負(fù)責(zé)人 Andy Heinig 說:"AI/ML 的需求將加速開發(fā)新的特定應(yīng)用架構(gòu)的進(jìn)程。傳統(tǒng)的 CPU 如果能提供更好的內(nèi)存接口來解決內(nèi)存問題,就能成為這場革命的一部分。如果 CPU 能提供這種新的內(nèi)存架構(gòu),那么 AI/ML 加速器就能成為與 CPU 并駕齊驅(qū)的數(shù)據(jù)中心最佳解決方案?!?

  Arm正在與AWS、谷歌和微軟等超大規(guī)模廠商直接合作,優(yōu)化其基于Neoverse的AI/ML和高性能計算解決方案。“Arm 基礎(chǔ)設(shè)施產(chǎn)品線產(chǎn)品管理高級總監(jiān) Brian Jeff 說:”CPU 上推理非常重要,我們看到合作伙伴正在利用我們的 SVE 管道和矩陣數(shù)學(xué)增強(qiáng)功能以及數(shù)據(jù)類型來運(yùn)行推理。

  GPT-3 等大型語言模型所需的巨大模型尺寸也推動了新的架構(gòu)考慮。Synopsys 首席產(chǎn)品經(jīng)理 Priyank Shukla 解釋說:

  “以 GPT-3 為例,它有 1,750 億個參數(shù)。每個參數(shù)的寬度為 2 字節(jié),即 16 位。您需要在 2 個字節(jié)中存儲如此多的信息--1750 億個參數(shù),相當(dāng)于 3500 億字節(jié)的內(nèi)存。這些內(nèi)存需要存儲在共享該模型的所有加速器中,而該模型需要放置在加速器的結(jié)構(gòu)中......你需要一個結(jié)構(gòu),它可以接受這個更大的模型,然后對其進(jìn)行處理?!?

  這些大型模型的某些部分可以在多個芯片或機(jī)架上并行處理,而其他部分則必須通過低延遲訪問完整模型來串行處理。

圖 1 顯示了一個 ML 優(yōu)化服務(wù)器機(jī)架的示例,旨在高效處理此類大型模型。

  多芯片要求

  為了集成所有必要的計算元件(CPU、GPU、定制加速器、高帶寬內(nèi)存等),同時管理電源和散熱,多芯片或基于芯片的方法變得重要。

  “Synopsys 研發(fā)總監(jiān) Sutirtha Kabir 說:”整個行業(yè)正處于一個拐點,你不能再回避這個問題?!拔覀冊诤笈_談?wù)撃柖珊汀甋ysMoore’,但設(shè)計人員必須在 CPU 和 GPU 中增加更多功能,而由于微粒尺寸限制、產(chǎn)量限制等原因,他們根本無法在一個芯片中實現(xiàn)這些功能。多芯片在這里是不可避免的。

  多芯片設(shè)計為分區(qū)、芯片間同步、熱管理和 3D 平面規(guī)劃帶來了新的挑戰(zhàn)?!翱ū葼柦忉屨f:”你要把一棟單層房屋變成三層或四層。卡比爾解釋說,"但還有其他設(shè)計挑戰(zhàn)。你不能再忽視散熱問題了......如果你在平面規(guī)劃時不考慮散熱問題,你的處理器就會燒毀。

  在最近的 ISSCC 會議上,Ansys 產(chǎn)品營銷總監(jiān) Marc Swinnen 說:"這些數(shù)據(jù)中心耗電量巨大。我參加了在舊金山舉行的 ISSCC 會議,我們的展臺就在英偉達(dá)公司旁邊,英偉達(dá)公司正在展示其人工智能訓(xùn)練箱--一個裝有八個芯片、大量風(fēng)扇和散熱片的大箱子。我們問它的耗電量有多大,他們說:'哦,最高時有 1 萬瓦,但平均也有 6000 瓦。'電力真是越來越瘋狂了。

  采用系統(tǒng)方法

  為了應(yīng)對這些多方面的設(shè)計挑戰(zhàn),需要采用一種全面的系統(tǒng)級方法,涵蓋指令集、微架構(gòu)、內(nèi)存子系統(tǒng)、互連等。

  “Arm 的 Jeff 說:”完整的系統(tǒng)方法使我們能夠與合作伙伴合作,根據(jù)現(xiàn)代工作負(fù)載和工藝節(jié)點定制 SoC 設(shè)計,同時利用基于芯片的設(shè)計方法?!斑@種定制芯片設(shè)計方法使數(shù)據(jù)中心運(yùn)營商能夠優(yōu)化其電力成本和計算效率?!?

  西門子的 Hand 還強(qiáng)調(diào)了系統(tǒng)級分析和優(yōu)化的重要性:“應(yīng)用的系統(tǒng)級協(xié)同設(shè)計已經(jīng)變得非常重要,而且由于高性能計算不再像以前那樣容易獲得,因此它變得更加容易獲得。這是一個帶輪子的數(shù)據(jù)中心”。

  未來之路

  這種架構(gòu)演變的方向很難預(yù)測,但很明顯,“高性能計算 ”的定義將繼續(xù)擴(kuò)大。

  “一旦你開始打破馮-諾依曼架構(gòu),開始使用不同的內(nèi)存流,開始研究內(nèi)存計算,它就會變得非???。然后你會說,'高性能計算到底意味著什么?

  集成硅基光電子技術(shù)、跨機(jī)架的統(tǒng)一內(nèi)存架構(gòu)和非馮-諾依曼計算模型等因素可能會從根本上重塑數(shù)據(jù)中心系統(tǒng)拓?fù)浣Y(jié)構(gòu),并重新定義什么是最佳架構(gòu)和性能。

  可以肯定的是,隨著全球最大的科技巨頭繼續(xù)進(jìn)行軍備競賽,為未來呈指數(shù)級增長的人工智能/移動計算和傳統(tǒng)計算工作負(fù)載提供領(lǐng)先的性能、效率和可擴(kuò)展性,云數(shù)據(jù)中心芯片設(shè)計的創(chuàng)新步伐只會加快。

  參考文獻(xiàn)

  [1] B. Smith, "Architecting Chips For High-Performance Computing," Semiconductor Engineering, May 15, 2024. [Online]. Available: https://semiengineering.com/architecting-chips-for-high-performance-computing/. [Accessed: May 23, 2024].

新聞來源:逍遙設(shè)計自動化

相關(guān)文章