LC：人工智能集群對光學的特殊要求

訊石光通訊網(wǎng) 發(fā)布時間:2024/8/14 9:30:02 編者:Nina

摘要：IPEC近期舉行了主題為“AI集群中光學的特殊要求”的網(wǎng)絡(luò)研討會。LightCounting分享了研討會上各位演講嘉賓關(guān)于該話題的觀點。

ICC訊 國際光電委員會（IPEC）繼續(xù)推動人工智能（AI）集群新一代光互連的行業(yè)討論。近期（2024年7月30日），IPEC舉行了主題為“AI集群中光學的特殊要求”（Special requirements for optics in AI Clusters）的網(wǎng)絡(luò)研討會。該活動包括8個演講，吸引了400多名與會者，持續(xù)了整整3個小時，有超過30多位觀眾提問。

Andy Bechtolsheim以對GPU性能的預測拉開了活動的序幕。如下圖所示，隨著CMOS、基板/封裝方法、芯片架構(gòu)和冷卻技術(shù)的進步，預計從2022年到2028年，這一數(shù)字將增加100倍。

Andy的時間表非常激進（和往常一樣）。所有這些新技術(shù)可能需要十年時間才能投入批量生產(chǎn)。關(guān)于英偉達/臺積電用于封裝Blackwell GPU的新CoWoS技術(shù)存在問題的最新傳言表明，將新技術(shù)轉(zhuǎn)化為大規(guī)模生產(chǎn)是多么具有挑戰(zhàn)性。

管理這些非常大的芯片組件的散熱是許多問題之一。在人工智能集群中使用的所有技術(shù)都必須有一個提高能效的路線圖。CMOS確實有5年內(nèi)從5nm到3nm和2nm的路線圖，但光互連仍在尋找更高功率效率的路徑。

Andy介紹了當前設(shè)計的重定時、LRO和LPO 1.6T（8x200G）收發(fā)器的功耗估算，如下圖所示。重定時（DSP）模塊消耗30W，是800G模塊的2倍多。LPO和/或LRO確實為更高的功率效率提供了一條途徑，但目前尚不清楚它們是否以每通道200G的速度工作。Andy評論說，使用干凈的電氣通道224G LPO可以工作，但它還需要Flyover線纜、高性能TIA和線性驅(qū)動器。

Andy還提到，112G LPO MSA的標準即將完成，應(yīng)在9月ECOC之前發(fā)布?；ゲ僮餍訮lug-fest將于8月舉行，到2025年，幾家供應(yīng)商將準備批量交付LPO。

問題是：是否有客戶準備部署LRO或LPO？

字節(jié)跳動是認真考慮8x100G LPO的潛在客戶之一。根據(jù)LightCounting的估計，到2024年，字節(jié)跳動將是中國云計算公司中第二大光模塊消費者，并有可能在2025年排名第一。

字節(jié)跳動的Yinxing Zhang給出了大量的LPO測試結(jié)果，證明了1E-6規(guī)格的Pre-FEC BER測試有助于保證鏈路在全溫度范圍內(nèi)的性能。FEC將為通過Pre-FEC BER測試的收發(fā)器性能增加余量。他還評論說，需要優(yōu)化VCSEL和收發(fā)器/AOC設(shè)計，以提高Pre-FEC BER測試的良率，但他對2025-2026年的8x100G LPO部署持樂觀態(tài)度。字節(jié)跳動并不急于轉(zhuǎn)向每通道200G的速度，至少現(xiàn)在還沒有。

LightCounting預計英偉達將在今年晚些時候測試每通道200G的LRO和LPO，并可能在2025年部署有限的數(shù)量。如果這些都不起作用，CPO將是英偉達可以依賴的另一種選擇。英偉達也在放棄基于VCSEL的SR8收發(fā)器，但字節(jié)跳動和許多其他客戶將在未來許多年內(nèi)部署這些收發(fā)器。

博通的Manish Mehta討論了CPO的進展，并介紹了與云暉合作開發(fā)的SR8 LRO收發(fā)器的最新測試數(shù)據(jù)，如下所示。他還討論了用于人工智能應(yīng)用的SMF雙向收發(fā)器的設(shè)計。該技術(shù)已在FTTx收發(fā)器中使用了20多年。Manish還回顧了博通（Avago/Agilent）30年來收發(fā)器制造的歷史，其中包括10萬億（是的，這是萬億?。﹤€現(xiàn)場裝置時（Device hours），可靠性記錄<1FIT。

Meta的Drew Alduino展示了硬件故障如何減慢AI集群運行的數(shù)據(jù)。單個GPU故障或網(wǎng)絡(luò)鏈路故障會使整個集群的效率降低40%。緩解故障(通過軟件)最多可能需要10分鐘。這樣的故障平均每30-45分鐘發(fā)生一次。對于基于更復雜的GPU和光學的大型集群，這個問題會變得更糟。

他還分享了200G FR4和400G FR4模塊的收發(fā)器故障分析數(shù)據(jù)，如下所示。直接調(diào)制激光器衰減是200G模塊故障的主要原因。與一般的制造問題(PCBA和引線鍵合)相比，400G收發(fā)器中使用的EML性能下降的問題較小。他建議使用更簡單和更集成的設(shè)計將有助于減少這些故障。從這個角度來看，LPO和CPO都是行業(yè)探索的正確方向。不僅可以降低功耗，還可以提高可靠性。

華為的Eric Bernier也討論了提高可靠性的方法。除了優(yōu)化整個收發(fā)器或集成芯片的光電設(shè)計和提高光源效率外，基于激光陣列的更高功率光源也將有所幫助。如果一個激光器性能下降，陣列中的其他激光器可以產(chǎn)生更多的功率，以補償故障的激光器。

其他演講者包括Quintescent的Cris Cole，他提供了關(guān)于硅基量子點激光器可靠性提高100倍的更多數(shù)據(jù)。英特爾的Christian Urricariet分享了關(guān)于異質(zhì)集成激光器極高可靠性（<0.1FIT）的數(shù)據(jù)。Ranovus的Jeff Hutchins認為，只有高度集成的CPO解決方案才能滿足AI集群的可靠性要求。

原文內(nèi)容請參考：https://www.lightcounting.com/resource/53/resourceFile/081324%20Research%20Note%20on%20IPEC%20webinar.pdf

內(nèi)容來自：訊石光通訊網(wǎng)
本文地址：http://3xchallenge.com//Site/CN/News/2024/08/14/20240814013534698445.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字:
文章標題:LC：人工智能集群對光學的特殊要求

1、凡本網(wǎng)注明“來源：訊石光通訊網(wǎng)”及標有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標注作者信息和本站來源。
2、免責聲明，凡本網(wǎng)注明“來源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭議和其它問題，請聯(lián)系本網(wǎng)，將第一時間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

LC：人工智能集群對光學的特殊要求

相關(guān)新聞