ICC訊(編譯:Nina)LightCounting(LC)對(duì)Photonics West的CPO論壇討論發(fā)表了評(píng)論。在今年參會(huì)者達(dá)到22000人的Photonics West會(huì)議上,光通信并不是討論中心。然而,在參與人數(shù)眾多的共封裝光學(xué)(Co-Packaged Optics,CPO)論壇上,大家提出了一個(gè)重要的問(wèn)題:如果網(wǎng)絡(luò)只占云數(shù)據(jù)中心總功耗的2-3%,我們?yōu)楹我獡?dān)心光模塊功耗不斷增加?
Coherent的Vipur Bhat展示了兩年前發(fā)表在《科學(xué)》(Science)雜志上的一篇文章中的數(shù)據(jù),數(shù)據(jù)顯示,大家對(duì)數(shù)據(jù)中心日益增長(zhǎng)的功耗的擔(dān)憂被高估了。這項(xiàng)研究比較了2010年和2018年所有數(shù)據(jù)中心的功耗,僅增長(zhǎng)了約8%。將這一趨勢(shì)推至2022-2023年,表明由于數(shù)據(jù)中心效率的持續(xù)提高,增長(zhǎng)幅度很小,為2-3%。
這種改善主要有兩個(gè)原因:
1. 將工作負(fù)載從企業(yè)數(shù)據(jù)中心轉(zhuǎn)移到由云公司運(yùn)營(yíng)的大型數(shù)據(jù)中心,這要高效得多。
2. 占90%功耗的服務(wù)器和內(nèi)存的效率穩(wěn)步提高。
2012年,網(wǎng)絡(luò)消耗的電力僅占1%,2018年占2%,到2022年約占3%。我們需要在意它嗎?
下圖展示了LC對(duì)云數(shù)據(jù)中心部署的光模塊功耗的計(jì)算(以年度部署計(jì)算,而不是累積計(jì)算)。請(qǐng)注意,縱坐標(biāo)刻度是對(duì)數(shù)刻度。在對(duì)數(shù)刻度的圖表中,任何直線都該引起重視,因?yàn)樗碇笖?shù)級(jí)增長(zhǎng)。等懷疑論者意識(shí)到這一點(diǎn)之時(shí),解決電力消耗問(wèn)題可能為時(shí)已晚。
根據(jù)這一分析,2018-2022年部署在云數(shù)據(jù)中心中的光模塊的總功率加起來(lái)達(dá)到330MW或1.2TWh,略高于目前云數(shù)據(jù)中心總功耗的1%。問(wèn)題是,到2028年,光學(xué)器件預(yù)計(jì)將占其中的8%以上。該分析說(shuō)明了可插拔光學(xué)器件的功率效率不斷提高:從100G模塊中的35pJ/bit提高到800G收發(fā)器中的20pJ/bit。
到2028年,云數(shù)據(jù)中心的光學(xué)器件將占到總功耗的8%,我們是否應(yīng)該對(duì)此感到擔(dān)憂?是的,我們應(yīng)該。云數(shù)據(jù)中心運(yùn)營(yíng)商在為其設(shè)施提供更多電力方面面臨重大限制。如果光學(xué)器件消耗更多的功率,他們將被迫減少分配給服務(wù)器和內(nèi)存的功率預(yù)算。
一個(gè)更重要的問(wèn)題是,人工智能(AI)集群的設(shè)計(jì)受到光連接的高功率和成本的嚴(yán)重限制。英偉達(dá)聲稱,如果不受功率和成本的限制,他們現(xiàn)在可以多使用32倍的光學(xué)器件。AI模型的執(zhí)行需要大型GPU陣列,如果供應(yīng)商能夠降低其功耗和成本,高帶寬光連接將是最佳解決方案。
Ayar Labs、Broadcom、IBM和Ranovus的下一代CPO設(shè)計(jì)預(yù)計(jì)將達(dá)到2-3pJ/bit的能源效率。Rajeev Ram教授是Photonics West的全體會(huì)議發(fā)言人,也是Ayar Labs的聯(lián)合創(chuàng)始人,他聲稱0.1pJ/bit是現(xiàn)有每通道200G技術(shù)可以達(dá)到的。他在麻省理工學(xué)院的團(tuán)隊(duì)正在研究低壓調(diào)制器和改進(jìn)的探測(cè)器,目標(biāo)是使互連功耗達(dá)到0.001pJ/bit或更低。麻省理工學(xué)院的一些解決方案將使用非常低的數(shù)據(jù)(Mbps)速率來(lái)降低功耗。Ayar Labs的方法也是基于使用較低速度(64Gbps)的NRZ光學(xué)器件來(lái)達(dá)到2pJ/bit。他們能否以112G每通道NRZ使功耗低于1pJ/bit還有待觀察。
我們行業(yè)正處于十字路口。我們可以保持現(xiàn)狀,繼續(xù)使用可插拔光學(xué)器件,并逐步改進(jìn)它們。AI集群的擴(kuò)展速度不會(huì)那么快,但會(huì)有其他方法來(lái)優(yōu)化AI模型,以滿足有限網(wǎng)絡(luò)帶寬的限制。另一種選擇是冒險(xiǎn)開發(fā)新的光學(xué)技術(shù),采用新的封裝和光纖耦合設(shè)計(jì),從根本上改善成本和功率效率。這種方法將極大地促進(jìn)AI的發(fā)展,并將我們的行業(yè)提升到一個(gè)全新的水平。這條道路令人興奮,但懷疑論者認(rèn)為這非常具有挑戰(zhàn)性的。他們也沒(méi)錯(cuò),然而,錯(cuò)過(guò)這個(gè)機(jī)會(huì)將是一個(gè)錯(cuò)誤。
原文:LightCounting :: Our industry is at a crossroads | https://www.lightcounting.com/newsletter/february-2023-our-industry-is-at-a-crossroads-269