ChatGPT背后的算力芯片（二）

訊石光通訊網(wǎng) 發(fā)布時間:2023/5/28 20:43:17 編者:iccsz

摘要：AI大模型領(lǐng)域中，用于訓練和推理的AI服務(wù)器主要用到CPU、GPU、FPGA、ASIC等這幾類芯片，因此本期主要針對該幾類芯片的細分產(chǎn)業(yè)鏈，以及AI服務(wù)器整體市場格局做具體的分析。

ICC訊 AI大模型領(lǐng)域中，用于訓練和推理的AI服務(wù)器主要用到CPU、GPU、FPGA、ASIC等這幾類芯片，因此本期主要針對該幾類芯片的細分產(chǎn)業(yè)鏈，以及AI服務(wù)器整體市場格局做具體的分析。

AI服務(wù)器市場格局

根據(jù)IDC的數(shù)據(jù)，2022年全球服務(wù)器市場規(guī)模1230億美元，同比增長20.0%，預(yù)計到2027年全球服務(wù)器市場規(guī)模將達到1780億美元。中國市場方面，2022年服務(wù)器市場規(guī)模為273.4億美元。

AI服務(wù)器方面，2022年市場規(guī)模202億美元，同比增長29.8%，占服務(wù)器市場規(guī)模的比例為16.4%，同比提升1.2個百分點。在2022年上半年的數(shù)據(jù)中，浪潮、戴爾、惠普、聯(lián)想、新華三分別位居全球AI服務(wù)器市場前五，市場份額分別為15.1%、14.1%、7.7%、5.6%、4.7%。

IDC預(yù)計，到2026年全球AI服務(wù)器市場規(guī)模將達到355億美元，對應(yīng)2022-2026年的復(fù)合年均增長率為15.1%。

不過，2023年以來對于AICG大模型訓練和推理的需求開始進入爆發(fā)期，相關(guān)應(yīng)用對于AI服務(wù)器的部署需求激增，因此AI服務(wù)器占到整個服務(wù)器市場的比例將穩(wěn)步上升，AI服務(wù)器市場規(guī)模在未來幾年的復(fù)合年均增長率將有望突破20%。

在采購端，集邦咨詢數(shù)據(jù)顯示，2022年AI服務(wù)器采購量中，北美四大云端供應(yīng)商Microsoft、Google、Meta、AWS合計占比66.2%;而國內(nèi)廠商方面，字節(jié)跳動采購力度最大，占比達6.2%，其余騰訊、阿里巴巴、百度分別占2.3%、1.5%、1.5%。

從當前生成式AI大模型的進展來看，去年在AI服務(wù)器采購量中排名較前的公司，部分也是在生成式AI大模型上較為領(lǐng)先的。ChatGPT所屬的OpenAI公司正是由微軟獨家提供云計算支持，而谷歌也有自己的PaLM 2、Meta自家的LLaMA等AI大模型，排名第四的亞馬遜則是傳統(tǒng)云計算大廠。

國內(nèi)廠商盡管此前也有布局相關(guān)的AI大模型技術(shù)，不過投入規(guī)模普遍較小，直到今年ChatGPT的爆火，可能才真正帶動國內(nèi)廠商往大規(guī)模落地的方向投入，AI服務(wù)器采購量也將會在今年有明顯增幅。

AI服務(wù)器產(chǎn)業(yè)鏈

我們將AI服務(wù)器產(chǎn)業(yè)鏈分拆成上中下游，上游主要包括三個方面，數(shù)據(jù)處理(CPU、GPU、FPGA、ASIC)、傳輸(光模塊)、存儲(DRAM、NAND Flash);中游主要是服務(wù)器整機供應(yīng)商;下游則是云服務(wù)供應(yīng)商、互聯(lián)網(wǎng)、AI軟件公司等。

上游

CPU：英特爾、AMD、海光、兆芯、亞馬遜、Ampere、平頭哥(阿里巴巴)、海思(華為)、飛騰、谷歌、微軟、高通、英偉達、遇賢微電子、鴻鈞微電子、Ventana Microsystems、北京算能

GPU：英偉達、AMD、英特爾、景嘉微、壁仞、天數(shù)智芯、海光、龍芯中科、摩爾線程、沐曦集成、登臨科技、珠海芯動力

FPGA：Xilinx(AMD)、Altera(英特爾)、Lattice、Microsemi、紫光國微、復(fù)旦微、安路科技、高云半導體

ASIC：谷歌、英特爾、平頭哥、百度、亞馬遜、Meta、寒武紀、海思

光模塊：II-VI、華為、思科、海信、博通、Molex、光迅科技、新易盛、中際旭創(chuàng)、英特爾、華工正源、天孚通信

存儲：三星、海力士、美光、鎧俠、長江存儲、長鑫存儲

中游

服務(wù)器整機供應(yīng)商：浪潮、戴爾、惠普、聯(lián)想、新華三、甲骨文、IBM、思科、富士、超聚變、中科曙光、中興

下游

亞馬遜、谷歌、微軟、Meta、百度、騰訊、阿里巴巴、字節(jié)跳動、

AI服務(wù)器中的主要算力芯片之CPU

服務(wù)器CPU市場現(xiàn)狀

前文提到，在AI大模型領(lǐng)域中包括訓練和推理兩個不同領(lǐng)域，而訓練和推理所需要進行的操作是不同的。在訓練過程中，AI模型需要進行大規(guī)模矩陣運算，在構(gòu)建神經(jīng)網(wǎng)絡(luò)的過程中需要并行計算能力;在推理的過程中，需要對大量已經(jīng)訓練好的模型進行實時推理以及預(yù)測工作，主要用到的是邏輯控制、串行計算能力，并對響應(yīng)速度有較高要求。因此更加適合推理和預(yù)測的CPU，在推理服務(wù)器中的使用量較大。

這從成本分析中也能夠看到，根據(jù)IDC的報告，CPU在推理型服務(wù)器中的成本占比為25%，在訓練型服務(wù)器中的成本占比則僅為9.8%。而在對AI服務(wù)器進行推理和訓練工作的負載比例預(yù)測中，IDC數(shù)據(jù)顯示2021年AI服務(wù)器用于推理和訓練的負載占比分別是40.9%和59.1%，預(yù)測到2025年推理和訓練的比例將變?yōu)?0.8%和39.2%，也就是說隨著AI大模型的成熟，AI服務(wù)器用于推理的比例會越來越高。

那么按照這個數(shù)據(jù)估算，2021年CPU在整體AI服務(wù)器中的成本占比平均約為16%，到2025年這個數(shù)字則會上升至19%左右。因此，在整體AI服務(wù)器市場高速增長的情況下，CPU需求的增長更是較為可觀的。

目前x86依然是服務(wù)器CPU市場的絕對主流，主要的兩家服務(wù)器CPU廠商英特爾和AMD在2021年和2022年分別占據(jù)服務(wù)器CPU市場份額的92.5%和90.6%，不過可以看到隨著Arm架構(gòu)服務(wù)器CPU的崛起，x86架構(gòu)CPU在服務(wù)器市場的份額即將跌破9成。

細分看x86服務(wù)器CPU市場，目前是由英特爾和AMD兩大玩家壟斷，當然國內(nèi)也有海光、兆芯獲得x86永久授權(quán)，目前也有推出x86服務(wù)器CPU，但性能劣勢較大，市場份額可以忽略。

早在2013年左右，市場就有傳聞稱AMD放棄x86服務(wù)器CPU業(yè)務(wù)，AMD的退出，導致英特爾在x86服務(wù)器CPU中出貨量占比一度超過99%。而2017年伴隨Zen架構(gòu)的EPYC CPU推出，AMD重返服務(wù)器CPU市場，并在幾年間快速搶占英特爾原有的市場份額。

Counterpoint數(shù)據(jù)顯示，2021年英特爾在服務(wù)器CPU市場中的份額為80.71%，而到了2022年份額下降至70.77%;另一邊的AMD，2021年在服務(wù)器CPU市場中的份額為11.74%，到了2022年份額幾乎翻倍，逼近20%。

另外Arm架構(gòu)CPU在服務(wù)器市場近年來增長迅速。根據(jù)Counterpoint的調(diào)研，2022年僅亞馬遜以及Ampere兩家的Arm CPU在服務(wù)器市場中已經(jīng)占據(jù)4.7%的市場份額，而2021年這兩家的Arm服務(wù)器CPU僅有2.9%的份額，盡管基數(shù)較小，但同比增速超過60%，顯然未來還有很大增長空間。

目前Arm服務(wù)器CPU的玩家眾多，由于自研Arm 服務(wù)器CPU能夠帶來效率提升，不少云服務(wù)供應(yīng)商也開始自研Arm CPU。除了前面提到的亞馬遜外，阿里巴巴、華為已經(jīng)將自研的Arm服務(wù)器CPU應(yīng)用在自家云服務(wù)器上，谷歌、微軟等也早有傳聞?wù)陂_發(fā)自研Arm服務(wù)器CPU。

芯片廠商方面，Ampere目前是Arm服務(wù)器CPU市場中占比較高的，另外還有英偉達、高通、飛騰等廠商目前推出了Arm服務(wù)器CPU產(chǎn)品，國內(nèi)近年也有遇賢微電子和鴻鈞微電子兩家初創(chuàng)公司正在基于Arm Neoverse N2開發(fā)云原生服務(wù)器CPU。

另外RISC-V架構(gòu)的CPU也正在進軍服務(wù)器領(lǐng)域，芯片初創(chuàng)企業(yè)Ventana Microsystems在2022年12月發(fā)布了全球首款面向服務(wù)器的RISC-V CPU Veyron V1;北京算能在今年平頭哥玄鐵RISC-V生態(tài)大會上發(fā)布了首款64核RISC-V服務(wù)器處理器SOPHON SG2042。

服務(wù)器CPU發(fā)展趨勢

CPU目前的發(fā)展趨勢主要是圍繞微架構(gòu)和制造工藝持續(xù)升級迭代。以x86服務(wù)器CPU的兩大巨頭為例，按照兩家的服務(wù)器產(chǎn)品路線規(guī)劃圖，一般都會以1-2年為周期進行換代升級，從英特爾數(shù)據(jù)中心(DCG)業(yè)務(wù)收入來看，通常新產(chǎn)品上市會帶動相關(guān)業(yè)務(wù)持續(xù)2-3個季度的高增長。

縱觀服務(wù)器CPU的發(fā)展，核心數(shù)量是一個較為明顯的變化。2023年1月英特爾發(fā)布的第四代Xeon服務(wù)器處理器系列中最高定位的W9-3495X配備了56個核心，睿頻為4.8 GHz，L3緩存為105MB，支持112條PCIe通道及八通道DDR5-4800內(nèi)存。

AMD在2022年年11月發(fā)布了最新的第四代EPYC系列服務(wù)器CPU，最高定位的9654P配備了高達96個核心，共192線程，最高頻率3.7GHz，L3緩存高達384MB，支持128條PCIe 5.0通道以及12通道DDR5-4800內(nèi)存。

而在2017年AMD推出第一代EPYC處理器的時候，最多能提供32個核心。不過除了堆核心之外，更重要的是如何實現(xiàn)集成多核心。在第一代EPYC中，AMD就采用了MCM(multi-chip module多芯片模塊)架構(gòu)，由4個相同的die(晶片)構(gòu)成一個CPU，單個die包含8個核心加上緩存、Infinity Fabric總線控制器等，也被稱為CCD(Core Complex Die)。在每個CCD中包含2個由核心和緩存組成的CCX(Core Complex)、2個DDR內(nèi)存控制器、用于CCD間互聯(lián)和CPU間互聯(lián)的Infinity Fabric總線。

這樣設(shè)計的好處是，由于大規(guī)模的芯片面積通過多個CCD來達成，所以與相同核心性能下的大型單一芯片相比，盡管面積要大10%以上，但由于小die良率高，制造測試成本大幅降低。以32核CPU為例，采用多CCD設(shè)計要比大規(guī)模單芯片成本下降40%以上，同時也就更容易做到多核心。

而第二代EPYC中AMD進一步將I/O功能模塊從CCD中剝離出來，單獨做成一個I/O die位于芯片中間，最多可以有8個CCD圍繞I/O die，這也被稱為Chiplet(芯粒)，這種做法讓第二代EPYC的CCD數(shù)量最高相比一代翻倍。

正是由于多核設(shè)計，以及成本上的優(yōu)勢，Chiplet的設(shè)計也成為了當下服務(wù)器CPU的一個大趨勢，英特爾在今年的第四代Xeon服務(wù)器CPU中也采用了Chiplet設(shè)計，按照英特爾的路線圖，未來第五代 Xeon SierraForest更是將會有144個內(nèi)核。

另一方面是，隨著大數(shù)據(jù)時代中AI、邊緣計算等場景下網(wǎng)絡(luò)數(shù)據(jù)更加海量，同時還需要更加實時的處理，所以除了使用CPU資源來進行高速協(xié)議處理和運算之外，還可以將網(wǎng)卡集成到芯片上，比如CPU、FPGA、ASIC等。于是包含CPU、高性能網(wǎng)絡(luò)接口和可編程加速引擎等的芯片被稱為DPU(數(shù)據(jù)處理芯片)。

通?；诙嗪薈PU的DPU是基于Arm架構(gòu)的CPU，目前包括英偉達、博通等廠商都在大力推動DPU在數(shù)據(jù)中心的應(yīng)用。

AI服務(wù)器中的主要算力芯片之 GPU

市場現(xiàn)狀

GPU最初是為了處理計算器圖形或游戲畫面渲染等工作而被開發(fā)出來，但由于其高并行計算的特性和處理大規(guī)模數(shù)據(jù)的能力強，也被拓展用于通用計算等領(lǐng)域。

所有目前GPU主要是分成傳統(tǒng)GPU以及GPGPU(通用GPU)兩個領(lǐng)域，GPU主要是為圖像服務(wù)，因此內(nèi)置了多種模塊，包括視頻編解碼加速核心、2D加速核心等;GPGPU則專為專業(yè)計算領(lǐng)域服務(wù)，相比于傳統(tǒng)GPU，GPGPU削減了圖形處理能力，將其并行計算的能力全部投入到通用計算領(lǐng)域，增加比如專用向量、張量、矩陣運算指令等，著重提升浮點運算的精度和性能，在服務(wù)器中作為加速卡，通過CPU協(xié)調(diào)進行計算，在AI、高性能計算等領(lǐng)域廣泛應(yīng)用。

今年以來由于生成式AI大模型的火爆，AI服務(wù)器中使用到的高端GPGPU產(chǎn)品持續(xù)短缺，有企業(yè)表示AI服務(wù)器價格不到一年時間漲幅近20倍。英偉達A100 GPU市場價格也隨著暴漲，兩個月漲幅高達50%。

在AI服務(wù)器中，GPU的使用量相比其他應(yīng)用的服務(wù)器要更高，比如一般的AI服務(wù)器單臺會配備2顆CPU以及4-8顆GPGPU，部分高端服務(wù)器甚至可以配備16顆GPGPU。而高端GPU的單價較高，因此在AI服務(wù)器中的價值量也較高。電子發(fā)燒友網(wǎng)推算，GPU在訓練型AI服務(wù)器中的成本占比平均超過70%，在推理型服務(wù)器中的占比也有25%左右。

按照2021年AI服務(wù)器用于推理和訓練的負載占比分別是40.9%和59.1%推算，GPU在AI服務(wù)器中的成本占比平均為51.6%，隨著AI大模型訓練的成熟，對訓練服務(wù)器需求下降，到2025年這個比例預(yù)計會降至42.6%。但可能由于整體服務(wù)器規(guī)模的提升，依然保持GPU單位數(shù)量需求的高速增長。

據(jù)Verified Market Research數(shù)據(jù)，2021年，全球GPU市場規(guī)模為334.7億美元，預(yù)計2030年將達到4773.7億美元，2021年到2030年的復(fù)合年均增長率高達34.35%。

3D Center數(shù)據(jù)顯示，英偉達在2022年第二季度獨立GPU市場份額為79%，AMD則占20%的市場份額，合計99%。英特爾則憑借在PC端的優(yōu)勢占據(jù)剩下1% 的市場份額。

而在企業(yè)細分市場，根據(jù)IDC的數(shù)據(jù)，2021年英偉達的市場份額高達91.4%，AMD份額僅為8.5%，英偉達GPU產(chǎn)品幾乎壟斷企業(yè)市場。

國內(nèi)方面，2021年GPU服務(wù)器以91.9%的份額占國內(nèi)加速服務(wù)器市場的主導地位，IDC預(yù)計2024年中國GPU服務(wù)器市場規(guī)模將達到64億美元。

但目前國內(nèi)市場同樣是以英偉達為主導，國內(nèi)GPU廠商普遍營收不高，產(chǎn)品市場化處于起步階段。其中國內(nèi)GPU龍頭景嘉微目前產(chǎn)品主要應(yīng)用在軍用、信創(chuàng)等領(lǐng)域，民用產(chǎn)品與國際領(lǐng)先水平差距較大。同時自2017年起，國內(nèi)開始誕生不少GPU初創(chuàng)企業(yè)，普遍集中于GPGPU賽道，比如天數(shù)智芯、壁仞科技、沐曦集成電路、登臨科技、摩爾線程等，部分產(chǎn)品已經(jīng)量產(chǎn)，并可應(yīng)用于AI服務(wù)器。

比如去年9月浪潮AI服務(wù)器搭載壁仞科技高端通用GPU芯片BR104，在權(quán)威AI基準評測MLPerf V2.1的自然語言處理(BERT)和圖像識別(ResNet50)兩項AI任務(wù)中取得了8卡和4卡整機的全球最佳性能。

總體來看，國內(nèi)GPU廠商在AI服務(wù)器市場目前競爭力還不足，但隨著美國對高端GPU的出口管制，以及ChatGPT帶動的生成式AI大模型熱潮，國產(chǎn)GPGPU或許會迎來新一輪的發(fā)展機會。

AI服務(wù)器GPU發(fā)展趨勢

GPU用于通用計算的概念最早是在2003年SIGGRAPH大會上首次被提出，隨后的幾年里，業(yè)界通過用統(tǒng)一的流處理器取代GPU中原有的不同著色單元的設(shè)計釋放了GPU的計算能力，可編程的GPU也就隨之誕生。

后續(xù)伴隨線性代數(shù)、物理仿真和光線跟蹤等各類算法向GPU芯片移植，GPU由專用圖形顯示向通用計算逐漸轉(zhuǎn)型。2007年，英偉達首次推出通用并行計算架構(gòu)CUDA(Compute Unified Device Architecture，統(tǒng)一計算設(shè)備架構(gòu))，正式令GPU作為通用并行數(shù)據(jù)處理加速器，也就是GPGPU。

CUDA架構(gòu)對于GPGPU而言意義非凡，進行通用計算無需先映射到圖形API中，大大降低了CUDA的開發(fā)門檻，為GPGPU的應(yīng)用起到了巨大的推動作用，這也為英偉達筑建起了高不可及的生態(tài)壁壘。

隨后，GPU的發(fā)展就在架構(gòu)迭代中進行，一般來說，評價一個GPU的性能參數(shù)包括微架構(gòu)、制程、圖形處理器數(shù)量、流處理器數(shù)量、顯存容量/位寬/帶寬/頻率、核心頻率等等，其中微架構(gòu)的設(shè)計是GPU性能提升的關(guān)鍵所在。

GPU微架構(gòu)(Micro Architecture)是兼容特定指令集的物理電路構(gòu)成，由流處理器、紋理映射單元、光柵化處理單元、光線追蹤核心、張量核心、緩存等部件共同組成。圖形渲染過程中的圖形函數(shù)主要用于繪制各種圖形及像素、實現(xiàn)光影處理、3D坐標變換等過程，期間涉及大量同類型數(shù)據(jù)(如圖像矩陣)的密集、獨立的數(shù)值計算，而GPU結(jié)構(gòu)中眾多重復(fù)的計算單元就是為適應(yīng)于此類特點的數(shù)據(jù)運算而設(shè)計的。

微架構(gòu)的設(shè)計對GPU性能的提升發(fā)揮著至關(guān)重要的作用，也是GPU研發(fā)過程中最關(guān)鍵的技術(shù)壁壘。以英偉達為例，其最新的H100GPU相比于A100，1.2倍的性能提升來自于核心數(shù)目的提升，5.2倍的性能提升則來自于微架構(gòu)的設(shè)計。

除此之外，由于海量數(shù)據(jù)的需求，GPU的互聯(lián)以及顯存帶寬都需要持續(xù)提升，包括HBM顯存、英偉達NVLink高速GPU互連技術(shù)等，都在快速迭代中。目前最新的NVLink-C2C可以提供處理器與加速器之間高達900GB/s的高帶寬數(shù)據(jù)傳輸，以及快速同步和高頻更新下的超低延遲性能。最新的HBM 3高帶寬顯存標準則可以提供最高819GB/s的數(shù)據(jù)傳輸速率，目前英偉達H100、AMD Instinct MI300加速卡已經(jīng)采用了HBM3標準的顯存。

內(nèi)容來自：電子發(fā)燒友網(wǎng)
本文地址：http://3xchallenge.com//Site/CN/News/2023/05/28/20230528124824951019.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字: ChatGPT
文章標題:ChatGPT背后的算力芯片（二）

【加入收藏夾】【推薦給好友】

1、凡本網(wǎng)注明“來源：訊石光通訊網(wǎng)”及標有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標注作者信息和本站來源。
2、免責聲明，凡本網(wǎng)注明“來源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭議和其它問題，請聯(lián)系本網(wǎng)，將第一時間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

ChatGPT背后的算力芯片（二）

相關(guān)新聞