ICC訊 2024年5月14-15日,由華為海思光電主辦,ICC訊石承辦的“2024芯?光論壇:芯光耀智算 互聯(lián)暢未來(lái)”會(huì)議在武漢光谷皇冠假日酒店圓滿(mǎn)舉辦。本次大會(huì)匯聚了近500位光電子領(lǐng)域?qū)I(yè)人士,共同探討光電技術(shù)的演進(jìn)趨勢(shì),捕捉全球光電子產(chǎn)業(yè)的發(fā)展態(tài)勢(shì)。
其中,5月15日下午分論壇一《AI大模型下短距光互聯(lián)技術(shù)》圍繞AI領(lǐng)域的短距光互聯(lián)需求變化、技術(shù)演進(jìn)和學(xué)術(shù)研究熱點(diǎn)等進(jìn)行討論,探討了短距光互聯(lián)的未來(lái)。來(lái)自中國(guó)信通院、京東、騰訊、快手、銳捷網(wǎng)絡(luò)、華為海思光電、華中科技大學(xué)和北京理工大學(xué)的行業(yè)專(zhuān)家及學(xué)術(shù)大咖進(jìn)行了深度的分析與探討。
趙文玉 中國(guó)信息通信研究院技術(shù)與標(biāo)準(zhǔn)所副所長(zhǎng)
中國(guó)信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所副所長(zhǎng)趙文玉發(fā)表了主題為《AI時(shí)代短距光互聯(lián)發(fā)展態(tài)勢(shì)探討》的演講。AI催生了海量的算力需求,互聯(lián)的瓶頸問(wèn)題也隨即突出。單一的計(jì)算設(shè)備已經(jīng)無(wú)法滿(mǎn)足算力需求,分布式架構(gòu)需要通過(guò)多個(gè)GPU節(jié)點(diǎn)并行訓(xùn)練,但不同節(jié)點(diǎn)之間需頻繁同步模型參數(shù),網(wǎng)絡(luò)通信性能成為制約系統(tǒng)性能的關(guān)健瓶頸。同時(shí),Al與光互聯(lián)雙向賦能,短距光互聯(lián)也在持續(xù)加速演進(jìn)。
趙文玉提到,隨著數(shù)據(jù)中心、AI大模型等創(chuàng)新業(yè)務(wù)與應(yīng)用的蓬勃發(fā)展,驅(qū)動(dòng)短距光互聯(lián)持續(xù)向高速率、低能耗、低時(shí)延、高集成等方向發(fā)展。在產(chǎn)業(yè)化方面,800G已批量部署,1.6T尚處于技術(shù)攻關(guān)和產(chǎn)業(yè)應(yīng)用研究階段,而3.2T因其對(duì)低能耗方案需求更強(qiáng),還處在探索階段。另外在低能耗/低時(shí)延方面,LPO成為關(guān)注熱點(diǎn),1.6T LPO樣品已經(jīng)出現(xiàn)。在高集成方面,硅光在材料體系中占比提升,薄膜鈮酸鋰熱度上升,III-V集成與異質(zhì)集成技術(shù)持續(xù)發(fā)展。
趙文玉還提到IPEC也在持續(xù)推動(dòng)高速光互聯(lián)技術(shù)及標(biāo)準(zhǔn)化工作,并取得了階段性成果。建議產(chǎn)學(xué)研各單位聚焦Al+算力基礎(chǔ)設(shè)施等高質(zhì)量發(fā)展需求,持續(xù)推動(dòng)高速光互聯(lián)技術(shù)產(chǎn)業(yè)創(chuàng)新,支撐我國(guó)新質(zhì)生產(chǎn)力發(fā)展!
陳琤 京東網(wǎng)絡(luò)架構(gòu)師
京東科技信息技術(shù)有限公司網(wǎng)絡(luò)架構(gòu)師陳琤發(fā)表了主題為《高性能計(jì)算網(wǎng)絡(luò)中的光互連》的演講。
陳琤提到,智算網(wǎng)絡(luò)光互連正在往高可擴(kuò)展性、大帶寬、低成本、低功耗、低延時(shí)方向發(fā)展。關(guān)于GPU內(nèi)部連接,連接問(wèn)題不突出,可實(shí)現(xiàn)超高帶寬;而GPU出口現(xiàn)有方案采用PCIe連接,是計(jì)算節(jié)點(diǎn)間互聯(lián)的帶寬瓶頸,并行多路光引擎OIO方案是未來(lái)的方向。GPU的時(shí)延來(lái)自?xún)蓚€(gè)方面——協(xié)議時(shí)延+數(shù)據(jù)鏈路。同時(shí)還提到,現(xiàn)如今硅光有了很好的介入點(diǎn),AI是硅光光模塊發(fā)展的黃金時(shí)期,LPO方案在兼容互通方面還有很長(zhǎng)的路要走。
總結(jié)而言,相較于傳統(tǒng)數(shù)通網(wǎng)絡(luò),智算網(wǎng)絡(luò)帶寬的增長(zhǎng)更迅速。而低成本互聯(lián)非常有賴(lài)于新技術(shù)。不同的模型對(duì)延時(shí)的要求不一樣,優(yōu)化的方向也有所區(qū)別。
胡勝磊 騰訊光系統(tǒng)架構(gòu)師
騰訊控股有限公司光系統(tǒng)架構(gòu)師胡勝磊發(fā)表了主題為《算力網(wǎng)絡(luò)中的光互聯(lián)技術(shù)趨勢(shì)探討》的演講。
胡勝磊提到,光互聯(lián)的“春風(fēng)”正在吹來(lái),由于A(yíng)IGC業(yè)務(wù)的興起,光互聯(lián)已成為數(shù)據(jù)中心網(wǎng)絡(luò)硬件主角。現(xiàn)階段光模塊供不應(yīng)求,光互聯(lián)技術(shù)送代加速,光互聯(lián)已站在“風(fēng)口”。同時(shí)硅光的重要性也凸顯了,可插拔批量占比攀升,CPO上無(wú)可取代;112G/224G有源銅纜(ACC)可支持單柜算力規(guī)模擴(kuò)展。LRO的革新則需要支持互聯(lián)可插拔持續(xù)演進(jìn)到224G。此外,異構(gòu)互通也不可避免,端口問(wèn)題感知明顯,協(xié)同度需要提升。
最后,胡勝磊還提到一些發(fā)散思考:如光芯片考慮集成有利于診斷的功能;選擇弱FEC,提升BER性能,實(shí)現(xiàn)降低網(wǎng)絡(luò)延遲;相比傳統(tǒng)MZ,DFB-RING集成芯片可行性;可插拔形態(tài)演進(jìn)到OSFP-XD的16lane后,更多l(xiāng)ane通道的封裝“單排16,雙排32”如何考慮布局等。
曹世偉 北京快手光網(wǎng)絡(luò)架構(gòu)師
北京快手科技有限公司光網(wǎng)絡(luò)架構(gòu)師曹世偉發(fā)表了主題為《All in AI時(shí)代光互聯(lián)技術(shù)的應(yīng)用探討》的演講。
曹世偉提到,大模型分布式訓(xùn)練對(duì)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)提出了更高的要求,傳統(tǒng)的電交換方案在成本、能耗、時(shí)延等方面存在諸多挑戰(zhàn),基于OCS的光電混合組網(wǎng)方案成為業(yè)界關(guān)注的焦點(diǎn)。
曹世偉還提到,隨著大模型訓(xùn)練對(duì)算力需求的增長(zhǎng),GPU集群也再朝著更大規(guī)模方向演進(jìn)。由于單DC的規(guī)模受供電等諸多因素的限制,因此通過(guò)跨AZ、Region的多集群聯(lián)合訓(xùn)練也將成為必然。IPoDWDM相比于傳統(tǒng)方案,其跨機(jī)房鏈路的轉(zhuǎn)換減少50%,同時(shí)節(jié)省了電層設(shè)備,在時(shí)延、功耗、成本方面收益明顯。
最后總結(jié)提到,AI訓(xùn)練對(duì)網(wǎng)絡(luò)的訴求:超大規(guī)饃超高帶寬、超低時(shí)延、超高穩(wěn)定性;而基于大矩陣OCS的混合光電組網(wǎng)可以擴(kuò)大GPU集群規(guī)模、提升交付效率,小矩陣OCS可以實(shí)現(xiàn)交換機(jī)保護(hù),實(shí)現(xiàn)網(wǎng)絡(luò)故障的快速自動(dòng)恢復(fù);單集群建設(shè)規(guī)模受限,未來(lái)會(huì)期待更多集群聯(lián)合訓(xùn)練模式演進(jìn);距離更短、頻譜效率高、低成本的IPoDWDM方案更具優(yōu)勢(shì);城域全光網(wǎng)及全自研的管控平臺(tái)助力實(shí)現(xiàn)更高效、更穩(wěn)定、更智能化的機(jī)房互聯(lián)。
蘇展 銳捷網(wǎng)絡(luò)光系統(tǒng)工程師
銳捷網(wǎng)絡(luò)股份有限公司光系統(tǒng)工程師蘇展發(fā)表了主題為 《AI場(chǎng)景短距和超短距光互連發(fā)展趨勢(shì)分析和展望》的演講。
蘇展開(kāi)篇介紹了業(yè)內(nèi)通用短/中/長(zhǎng)距光互聯(lián)的情況,即隨波特率送代升級(jí):?jiǎn)文O喔煞桨赶鲁翑D壓?jiǎn)文MDD方案;單模IMDD方案下沉擠壓多模VCSEL短距互聯(lián)應(yīng)用;多模VCSEL光方案下沉擠壓電纜超短距互聯(lián)應(yīng)用;從而總結(jié)出光方案下沉的整體趨勢(shì),并詳細(xì)分析了光電互聯(lián)邊界。
接下來(lái),蘇展提到AI系統(tǒng)對(duì)光互聯(lián)提出低成本、低功耗、低延時(shí)、高可靠性和高密度幾大需求背景下,短距光互聯(lián)的幾大挑戰(zhàn):多模產(chǎn)業(yè)鏈滯后效應(yīng)、多模近封裝系統(tǒng)可靠性、單模共封裝方案面板密度;而且在光電聯(lián)合設(shè)計(jì)的章節(jié)中提到,LPO投入產(chǎn)出比隨速率演進(jìn)下降問(wèn)題和多模及單模WDM的LPO隨速率演進(jìn)傳輸距離壓縮問(wèn)題,最后得出線(xiàn)性架構(gòu)未來(lái)向板內(nèi)發(fā)展的趨勢(shì)性結(jié)論。
最后,蘇展介紹了224G VCSEL Linear 10m超短距傳輸提案和與硅光CPO配合的直通可插拔AOC提案。
侯康 華為海思光電資深產(chǎn)品規(guī)劃經(jīng)理
華為海思光電資深產(chǎn)品規(guī)劃經(jīng)理侯康發(fā)表了主題為《AI場(chǎng)景光互聯(lián)技術(shù)方案選擇與挑戰(zhàn)》的演講。
侯康提到,隨著AI蓬勃發(fā)展,算力網(wǎng)絡(luò)中的高速互聯(lián)成為提升算力的關(guān)鍵,而超大規(guī)模計(jì)算集群互聯(lián)即是AI算力提升的重要方向,也是提升系統(tǒng)集群算力的關(guān)鍵一環(huán)。同時(shí)還提到算力需求引領(lǐng)光互聯(lián)邁向Beyond 400G時(shí)代,國(guó)內(nèi)以400G為主,800G主要需求來(lái)自海外;1.6T還只是在預(yù)熱。另外“更高更快更多通道”是光模塊實(shí)現(xiàn)大帶寬的關(guān)鍵技術(shù)路徑,在低功耗、低時(shí)延上,LPO具備相對(duì)優(yōu)勢(shì),但持續(xù)演進(jìn)仍有待討論。
董建績(jī) 華中科技大學(xué)教授
華中科技大學(xué)教授董建績(jī)發(fā)表了主題為《光電計(jì)算芯片與人工智能應(yīng)用》的演講。
董老師提到,隨著人工智能技術(shù)的飛速發(fā)展和廣泛應(yīng)用,光計(jì)算和光子集成技術(shù)、人工智能技術(shù)相結(jié)合有望解決傳統(tǒng)電學(xué)計(jì)算無(wú)法解決的難題,產(chǎn)生顛覆性和變革性技術(shù)和應(yīng)用。董老師從學(xué)術(shù)界角度聚焦討論可重構(gòu)光子神經(jīng)網(wǎng)絡(luò)芯片,可重構(gòu)MZI光學(xué)矩陣運(yùn)算、可重構(gòu)片上衍射神經(jīng)網(wǎng)絡(luò)、可重構(gòu)微環(huán)陣列光學(xué)矩陣運(yùn)算等三類(lèi)典型的計(jì)算架構(gòu),及其在人工智能領(lǐng)域的應(yīng)用。最后董老師提到光計(jì)算的核心是算力、能耗、精度、集成度、非線(xiàn)性等。
胡善亭 北京理工大學(xué)副研究員
北京理工大學(xué)副研究員胡善亭發(fā)表了主題為《面向算力網(wǎng)絡(luò)Tbit光互連技術(shù)的超高速直接調(diào)制VCSEL研究》的演講。
胡老師提到研究下一代Tbit光互連技術(shù),對(duì)我國(guó)構(gòu)筑高品質(zhì)算力網(wǎng)絡(luò)全光底座、促進(jìn)數(shù)字經(jīng)濟(jì)和智能社會(huì)的持續(xù)發(fā)展具有重要意義。而超高速直接調(diào)制VCSEL技術(shù),是實(shí)現(xiàn)低成本、高能效、大容量光互連的重要解決方案,既是國(guó)內(nèi)外光電子領(lǐng)域的研究熱點(diǎn),也是我國(guó)亟待攻克的關(guān)鍵卡脖子技術(shù)之一。胡老師主要分析了VCSEL因其固有的優(yōu)勢(shì),在數(shù)通領(lǐng)域大放光彩的過(guò)往。并介紹了課題組在VCSEL調(diào)制帶寬及能耗方面取得的研究結(jié)果。
觀(guān)眾提問(wèn)
分論壇1現(xiàn)場(chǎng)
總 結(jié)
AI大規(guī)模集群帶來(lái)更多的光互連需求,面對(duì)下一代短距光互聯(lián)技術(shù),高性能、低時(shí)延、大容量和高密度已成為行業(yè)關(guān)注的共識(shí)。此外,AI訓(xùn)練和推理對(duì)集群存在差異化需求,催化新的基礎(chǔ)設(shè)施建設(shè),光互聯(lián)將迎來(lái)長(zhǎng)期增長(zhǎng)機(jī)遇。