4月29日,在中國(guó)移動(dòng)算力網(wǎng)絡(luò)大會(huì)-算力網(wǎng)絡(luò)未來(lái)產(chǎn)業(yè)暨聯(lián)合體創(chuàng)新論壇上,中國(guó)移動(dòng)重磅發(fā)布《面向超萬(wàn)卡集群的新型智算技術(shù)白皮書(shū)》(簡(jiǎn)稱 “白皮書(shū)”),國(guó)務(wù)院國(guó)資委科技創(chuàng)新局副局長(zhǎng)賈興元、中國(guó)移動(dòng)副總經(jīng)理高同慶聯(lián)合華為、中興、新華三、中科曙光、浪潮、超聚變等合作伙伴出席發(fā)布儀式,共同見(jiàn)證新型智算技術(shù)邁向新臺(tái)階。該白皮書(shū)由中國(guó)移動(dòng)研究院專(zhuān)家團(tuán)隊(duì)牽頭撰寫(xiě),凝聚了中國(guó)移動(dòng)和產(chǎn)業(yè)伙伴在超萬(wàn)卡集群建設(shè)方面的技術(shù)攻關(guān)和實(shí)踐經(jīng)驗(yàn),是業(yè)界首部系統(tǒng)性闡述超萬(wàn)卡集群核心設(shè)計(jì)原則和關(guān)鍵技術(shù)的白皮書(shū)。
自ChatGPT發(fā)布以來(lái),科技界掀起了一場(chǎng)大模型的競(jìng)爭(zhēng)熱潮,各行各業(yè)加速?gòu)摹?AI”向“AI+”轉(zhuǎn)變。隨著模型參數(shù)量從千億邁向萬(wàn)億,大模型對(duì)底層算力提出更高要求。當(dāng)前,智算集群的規(guī)模以千卡為主,且多基于英偉達(dá)GPU構(gòu)建,萬(wàn)卡甚至超萬(wàn)卡集群的建設(shè)還處于初級(jí)階段,業(yè)界普遍認(rèn)為萬(wàn)卡集群將有助于進(jìn)一步壓縮大模型訓(xùn)練時(shí)間,實(shí)現(xiàn)模型能力的快速迭代。基于萬(wàn)卡集群實(shí)現(xiàn)大模型高效的訓(xùn)練,并長(zhǎng)期保持訓(xùn)練的穩(wěn)定性,是將大模型訓(xùn)練擴(kuò)展到數(shù)萬(wàn)張GPU卡上所要面臨的雙重挑戰(zhàn)。
中國(guó)工程院鄭緯民院士表示,“基于國(guó)產(chǎn)系統(tǒng)構(gòu)建萬(wàn)卡集群,雖然很難,但很必要”。為了助力國(guó)內(nèi)智算設(shè)施向萬(wàn)卡規(guī)模演進(jìn),本白皮書(shū)提出超萬(wàn)卡集群的五大核心設(shè)計(jì)原則:堅(jiān)持打造極致集群算力、堅(jiān)持構(gòu)建協(xié)同調(diào)優(yōu)系統(tǒng)、堅(jiān)持實(shí)現(xiàn)長(zhǎng)穩(wěn)可靠訓(xùn)練、堅(jiān)持提供靈活算力供給、堅(jiān)持推進(jìn)綠色低碳發(fā)展。此外,白皮書(shū)進(jìn)一步從集群高能效計(jì)算技術(shù)、高性能融合存儲(chǔ)技術(shù)、大規(guī)模服務(wù)器間高可靠網(wǎng)絡(luò)技術(shù)、高容錯(cuò)高能效平臺(tái)技術(shù)和新型智算機(jī)房設(shè)計(jì)等五個(gè)方面全面闡述了超萬(wàn)卡集群建設(shè)的核心技術(shù)要求,為國(guó)內(nèi)智算基礎(chǔ)設(shè)施的建設(shè)提供技術(shù)建議。
面向未來(lái),中國(guó)移動(dòng)正大力推進(jìn)GPU高速卡間互聯(lián)全向智感OISA、遠(yuǎn)距跨集群訓(xùn)練、自動(dòng)化分布式訓(xùn)練框架等技術(shù)的快速成熟,為萬(wàn)卡集群的創(chuàng)新突破打下堅(jiān)實(shí)的基礎(chǔ)。
中國(guó)移動(dòng)踐行央企責(zé)任使命,全面擁抱“AI+”時(shí)代,通過(guò)白皮書(shū)發(fā)布,凝聚產(chǎn)業(yè)共識(shí),與業(yè)界一起應(yīng)對(duì)超萬(wàn)卡集群帶來(lái)的前所未有的挑戰(zhàn),共同牽引AI產(chǎn)業(yè)全面升維,助力新質(zhì)生產(chǎn)力動(dòng)能躍遷。