光互聯,晶片巨頭再出招
在現代AI 系統中,使用PCIe 將加速器連接在一起已經太慢了。基於這個原因,NVIDIA 和AMD 使用NVLink 和Infinity Fabric 等專用互連,但在這些連結推動的超過900 GB/秒的速度下,銅線只能提供有限的支援。於是,光互連,正成為許多人的新選擇。在博通看來,核心光互連有三種:
垂直腔面發射雷射(VCSEL) 是整個產業光學AI 互連技術的主力。其低功耗和低成本使其成為數據通訊和感測應用的理想選擇。唯一的限制是它在較短的鏈路距離內運行效果最佳。
電吸收調製雷射(EML) 非常適合擴展到更遠距離和數十萬甚至數百萬個單元的AI 系統。該技術在非常高的頻寬下提供更好的效能,並且通常是第一個以下一代資料速率實現大量部署的技術。
共封裝光學元件(CPO)是一種將高速矽光子學異質整合到專用積體電路上的先進技術,旨在解決下一代頻寬和功率挑戰。我們認為這項新技術將為未來幾代人工智慧系統提供功率和成本領先優勢,並支援大規模人工智慧網路的基礎設施。
圍繞著這三個方向,晶片廠商們各出奇招,半導體產業觀察在早前的報道《PCIe,新革命》中們闡述了PCIe產業對光的追求。現在,晶片巨頭更新了更多的光互連新方案,讓我們來看看他們方案有何異同。
博通的光學封裝新嘗試
Broadcom 光學系統部門行銷和營運副總裁Manish Mehta 表示,在高階集群中,銅線只能傳輸約三到五米,訊號就會開始減弱。隨著串列器反序列化器(SerDes) 的速度超過200Gbit/秒,銅線的傳輸距離只會越來越短。
答案正如您所料,就是放棄銅線,轉而採用光纜——儘管這樣做會增加功耗。 NVIDIA 估計,如果在其NVL72 系統中使用光纖電纜而非銅線,則每機架功耗將增加20 千瓦——而目前的額定功耗為120 千瓦。
雖然單一收發器消耗的電量並不多——據Mehta 稱,每個收發器僅消耗13 到15 瓦電能——但當你談論多個交換機,每個交換機有64 或128 個連接埠時,這些電能就會迅速增加。 「如果需要擴大規模以達到更高的覆蓋範圍,從而實現光纖連接,你將需要10 倍的頻寬,而這在這種模式下是無法實現的,」他在本週的Hot Chips 大會上發表演講時解釋道。
相反,博通目前正在嘗試將光學器件直接封裝到GPU 本身中。
共封裝光學(CPO) 是博通多年來一直在探索的東西。在2022 年,這家網路巨頭就展示了其Humboldt 交換機,該交換機提供了50/50 的傳統電氣介面和共封裝光學介面的混合。
2023 年初,博通又展示了第二代CPO 交換機,頻寬是原來的兩倍,達到51.2Tbit/秒,它將八個6.4Tbit/秒的光學引擎連接到Tomahawk 5 ASIC,提供64 個純800Gbit/秒端口。更重要的是,Mehta 聲稱,透過這樣做,博通能夠將每個連接埠的功耗降低到原來的三分之一,即每個連接埠5 瓦。
如前文所說,博通一直是CPO的追隨者,為什麼是CPO?在博通看來,隨著AI 系統的發展,頻寬和組件數量不斷增加。同時,光學器件的成本也不斷上升。我們的解決方案是整合到矽光子學中,這樣我們就可以將更多組件放到單一晶片上。在半導體歷史上,這是降低成本的有效方法。
另一個好處是光學元件可以與核心晶片放在一個通用封裝中。這種佈局消除了ASIC 和光學元件之間複雜的電氣通道。典型的800G 可插拔收發器每條連結消耗約16 瓦。例如博通早期已經商用的Bailly 51.2-Tbps CPO 乙太網路交換器系統將該光鏈路功率降低到5 瓦,比現今典型的部署節省70%。更令人印象深刻的是,當光鏈路遷移到1.6T 時,它可以擴展並提供更好的效率,通常可插拔收發器的功耗為25 瓦,而CPO 的功耗為8 瓦。這對於節能和光學器件來說都是一件大事。
第三個主要好處是可靠性增強。可插拔收發器的故障率約為2%。透過將更多組件整合到晶片中,CPO 可提高可靠性。我們不是將雷射直接整合在矽片上,而是將雷射系統作為系統中可插拔且易於更換的組件。其他一切都建立在具有悠久可靠性歷史的核心矽片技術之上。
基於這個思考,在本週的Hot Chips 大會上,博通披露了其最新嘗試,即將其中一個光學引擎與GPU 封裝在一起,為每個晶片提供大約1.6TB/秒的總互連頻寬(即每個方向6.4Tbit/秒或800GB/秒),同時展示“無錯誤性能”,Mehta 解釋道。這使得它與NVIDIA 的下一代NVLink 結構處於同一水平,後者將與Blackwell 世代同時發布,後者將透過銅線為每個GPU 提供1.8TB/秒的總頻寬。
要先明確的是,目前還沒有一款A100 或MI250X 搭載Broadcom 光學互連晶片。至少我們並不知道有這樣的晶片。 Broadcom 實驗中的GPU 實際上只是一個旨在模擬真實晶片的測試晶片。為此,它使用台積電的晶圓基板晶片(CoWoS) 封裝技術將一對HBM 堆疊黏合到運算晶片上。但是,雖然晶片邏輯和記憶體位於矽中介層上,但Broadcom 的光學引擎實際上位於基板上。
這很重要,因為基本上每個使用HBM 的高端加速器都依賴CoWoS 風格的先進封裝——即使Broadcom 自己的晶片不需要它。
根據Mehta 介紹,這種連接可以在短短8 個機架中支援512 個GPU,充當單一擴展系統。
現在,你可能會想,亞馬遜、Google、Meta 和一大批資料中心營運商不是已經部署了10,000 個或更多GPU 的叢集了嗎?他們當然在部署,但這些叢集屬於橫向擴展類別。工作透過相對較慢的乙太網路或InfiniBand 網路分佈到最多有8 個GPU 的系統。
Mehta 談論的是擴展系統,例如NVIDIA 的NVL72。只不過,該架構不是將72 個GPU 組合成一個大GPU,而是速度夠快,可以擴展到數百個GPU 組成一個巨大的加速器。
除了將光學引擎的速度推至6.4Tbit/秒以上之外,Mehta 還看到了在運算封裝上拼接多個晶片的潛力。
英特爾的光互連新方案
除了博通以外,多年來,英特爾也一直在推進晶片到晶片的光學互連研究。
據介紹,公司長期以來一直處於矽光子學研究的前沿。在他們看來,這是擴大電腦處理器之間通訊頻寬的下一個前沿。該技術將矽積體電路與半導體雷射器結合,以比傳統電子產品更快的速度在更長的距離上傳輸資料。它不僅支援更高頻寬的資料傳輸,還為軟體配置的運算和儲存資源存取鋪平了道路。它還允許軟體定義的基礎設施與分散式資料中心的硬體和軟體資源分離。
英特爾認為,對矽光子學的需求比以往任何時候都更加迫切,因為日益強大的人工智慧模型的需求正在給現有的資料中心基礎設施帶來巨大壓力。隨著人工智慧模型變得越來越強大,它們需要的數據也越來越多,而現有的晶片互連幾乎無法滿足需求。因此,英特爾表示,迫切需要矽光子學來支持人工智慧的發展。
英特爾解釋稱,儘管現有的電氣I/O 技術(目前大多數晶片互連的基礎)可以支援高頻寬密度,但它們只能在1 公尺或更短的極短距離內實現這一目標。雖然可以使用可插拔光收發器模組來擴大這一距離,但這會導致成本過高和能耗過高,無法滿足AI 工作負載的需求。
於是,我們看到了英特爾首款OCI Chiplet。在Hotchips上帶來了他們速度達到4Tbps的光學新方案展示。
其實,該技術最是在2024 年光纖通訊大會(OFC) 上揭露。當時,英特爾整合光子解決方案(IPS) 集團展示了業界最先進、首款全整合式光運算互連(OCI) 晶片,該晶片與英特爾CPU 共同封裝並運行即時資料。
在英特爾看來,該公司的OCI 晶片透過在資料中心和高效能運算(HPC) 應用的新興AI 基礎設施中實現共同封裝的光學輸入/輸出(I/O),代表了高頻寬互連的一次飛躍。
根據英特爾介紹,首款OCI 晶片旨在支援64 個通道,每個通道的資料傳輸速度為32 Gbps,最長可達100 米,有望滿足AI 基礎設施對更高頻寬、更低功耗和更長傳輸距離的日益增長的需求。它支援未來CPU/GPU 叢集連接和新型運算架構的可擴展性,包括一致的記憶體擴展和資源分解。
基於AI 的應用程式在全球範圍內的部署越來越多,大型語言模型(LLM) 和生成式AI 的最新發展正在加速這一趨勢。更大、更有效率的機器學習(ML) 模型將在滿足AI 加速工作負載的新興需求方面發揮關鍵作用。未來AI 運算平台的擴展需求正在推動I/O 頻寬和更長距離的指數級成長,以支援更大的處理單元(CPU/GPU/IPU) 叢集和架構,並實現更有效率的資源利用率,例如xPU 分解和記憶體池化。
電氣I/O(即銅線連接)支援高頻寬密度和低功耗,但僅提供約一公尺或更短的短距離。資料中心和早期AI 叢集中使用的可插拔光收發器模組可以增加覆蓋範圍,但成本和功率等級無法滿足AI 工作負載的擴展要求。同封裝的xPU 光I/O 解決方案可以支援更高的頻寬,同時提高功率效率、降低延遲並增加覆蓋範圍——這正是AI/ML 基礎設施擴展所需要的。
英特爾打了一個比方,幫助說明當今的電氣I/O 互連與其新的OCI 晶片之間的區別。它將用於支援當今AI 應用程式的CPU/GPU 叢集比作「同一街區的房屋」。住在這些房屋的人們可以輕鬆地挨家挨戶地與鄰居交流,但這種交流在街區之外是不可能實現的。
「像英特爾OCI 晶片這樣的光學I/O 解決方案為這些鄰居提供了一輛摩托車,使他們能夠一次運送更多貨物,運送到街區外其他房屋的距離更長,而無需消耗太多能源。 」「這種水準的性能提升正是新興人工智慧擴展所需要的。
完全整合的OCI 晶片組利用英特爾經過現場驗證的矽光子技術,將包含片上雷射和光放大器的矽光子積體電路(PIC) 與電子IC 整合在一起。在OFC 上展示的OCI 晶片組與英特爾CPU 共同封裝,但也可以與下一代CPU、GPU、IPU 和其他系統單晶片(SoC) 整合。
首個OCI 實現支援高達每秒4 兆兆位元(Tbps) 的雙向資料傳輸,與外圍組件互連高速通道(PCIe) Gen5 相容。即時光鏈路示範展示了兩個CPU 平台透過單模光纖(SMF) 跳線之間的發射器(Tx) 和接收器(Rx) 連接。 CPU 產生並測量了光誤碼率(BER),展示了單根光纖上8 個波長間隔為200 千兆赫(GHz) 的Tx 光譜,以及32 Gbps Tx 眼圖,顯示了強大的訊號品質。
目前的晶片組支援64 個32 Gbps 資料通道,每個方向可達100 公尺(但由於飛行時間延遲,實際應用可能僅限於數十公尺),使用八對光纖,每對光纖承載八個密集波分復用(DWDM) 波長。此共封裝解決方案還具有出色的節能效果,每位元僅消耗5 皮焦耳(pJ),而可插拔光收發器模組的能耗約為15 pJ/位元。這種超高效率對於資料中心和高效能運算環境至關重要,有助於解決AI 不可持續的功耗需求。
展望未來,英特爾希望將其擴展到更快的波特率以及更多波長。它還可以透過在未來提供更多光纖來擴展。
寫在最後
除了博通和英特爾之外,許多公司也在光互連上發力,例如在SC23 上,Ayar Labs展示了其TeraPHY 共封裝光學解決方案及其SuperNova 光源的最新進展。該技術允許將光學元件直接插入晶片封裝中,從而擺脫PCB 和長電氣走線的限制。許多其他矽光子學新創公司也承諾提供類似的功能,其中包括LightMatter 和Celestial AI,它們的產品正處於不同的開發和生產階段。
雖然我們目前還不知道AMD 有採用共同封裝光學元件的Instinct GPU 或APU,但今年春天AMD 首席技術長Mark Papermaster 和高級副總裁Sam Naffzigger討論了這種晶片的可能性。 Naffziger 直言,未來,UCIe 等標準可能會讓第三方製造的晶片進入AMD 封裝。他提到矽光子互連(一種可能緩解頻寬瓶頸的技術)有潛力將第三方晶片引入AMD 產品。
Naffziger同時指出,如果沒有低功耗的晶片間互連,這項技術就不可行。
「你需要使用光學元件是因為你需要巨大的頻寬。因此,你需要低能耗才能實現這一點,而封裝晶片是獲得最低能耗介面的方法,」他解釋說,並補充說,他認為向共封裝光學元件的轉變「即將到來」。
參考連結