英偉達更新Blackwell架構路線圖台積電中槍?
根據Tomshardware引述TF International Securities 分析師郭明錤的報道,因為市場對Nvidia(NVDA.US)尖端Blackwell雙晶片設計的需求正在超過Nvidia的低端單晶片設計所以這家市值萬億美元的GPU製造巨頭已經更新了其Blackwell架構路線圖,優先考慮採用CoWoS-L封裝的雙晶片設計。
圖註:英偉達先前公佈的路線圖
報導進一步指出,從今年第一季開始,Nvidia將專注於其200 系列Blackwell GPU。但值得注意的是,這僅包含200 系列的多晶片版本,例如GB200 NVL72 — 200 系列的單晶片版本,例如B200A,已經停產。
同樣,Nvidia 顯然計劃優先考慮利用多晶片的B300系列型號,尤其是GB300 NVL72。由於對多晶片變體的需求較高,僅使用單一晶片的B300 GPU 變體在製造中將處於低優先級。 Nvidia 的高優先級Blackwell GPU 車型使用台積電(TSM.US)更先進的CoWoS-L 技術。已停產的B200A 和單晶片B300 GPU 都使用CoWoS-S。
郭明錤表示,由於這些變化,某些供應商將受到「特別嚴重的打擊」。
英偉達路線圖,變了哪些?
依照先前的介紹,英偉達有採用雙晶片設計200 系列,該系列包括GB200 NVL72 和HGX B200 等系統產品,使用CoWoS-L 製造。
Nvidia 表示,新款 B200 GPU 拥有 2080 亿个晶体管,可提供高达 20 petaflops的 FP4 马力。此外,它表示,将两个 GPU 与单个 Grace CPU 相结合的 GB200 可以为 LLM 推理工作负载提供30倍的性能,同时还可能显著提高效率。据透露,与 H100 相比,它“将成本和能耗降低了25倍。
但郭明錤指出,200 系列不包括先前使用CoWoS-S製程的單晶片版本B200A,因此它們不需要CoWoS-S。
分析機構SemiAnalysis此曾表示,Nvidia 計劃推出一款名為B200A 的新型Blackwell GPU,它將是已延遲發布的B200 GPU 的低階替代品。他們在一份報告中表示,B200A 將包含高達144GB 的HBM3E 內存,並消耗高達1000 瓦的功率,能滿足對低端和中端AI 系統的需求。依照最初規劃,B200A GPU 將用於MGX GB200A NVL36 等伺服器,該伺服器最多支援36 個GPU。這可能會吸引那些希望建立較小AI 模型的超大規模客戶。
值得一提的是,B200A 將基於名為B102 的die,「該die也將用於中國版Blackwell的B20」。
但現在,如郭明錤所說,英偉達的策略改變了。他進一步指出,從2025 年1 季開始,Nvidia 將重點轉向200 系列,同時減少H 系列的供應。這將進一步減少他們對CoWoS-S 的需求。
在郭明錤的分析報告中,也對英偉達未來的B300進行了分析。他表示,該系列原來規劃了雙晶片(CoWoS-L)和單晶片(CoWoS-S)設計,包括GB300 NVL72(雙晶片)和HGX B300 NVL16(單晶片)等系統。
同樣是SemiAnalysis的消息顯示,Nvidia 的B300 系列處理器採用了經過大幅調整的設計,仍將採用台積電的4NP 製造工藝(針對Nvidia 進行優化的4nm 級節點,性能增強),但報告稱,它們的計算效能將比B200 系列處理器高出50%。效能提升的代價是高達1,400W 的TDP,僅比GB200 高200W。 SemiAnalysis 稱,B300 將在B200 上市大約半年後上市。
Nvidia B300 系列的第二個重大改進是使用12-Hi HBM3E 記憶體堆疊,可提供288 GB 記憶體和8 TB/s 頻寬。增強的記憶體容量和更高的運算吞吐量將實現更快的訓練和推理,推理成本最多可降低三倍,因為B300 可以處理更大的批次大小並支援擴展的序列長度,同時解決用戶互動中的延遲問題。
除了更高的運算效能和更大的記憶體外,Nvidia 的第二代Blackwell 機器還可能採用該公司的800G ConnectX-8 NIC。該NIC 的頻寬是目前400G ConnectX-7 的兩倍,並且有48 個PCIe 通道,而其前代產品只有32 個。這將為新伺服器提供顯著的橫向擴展頻寬改進,這對大型叢集來說是一個勝利。
據介紹,B300 和GB300 的另一個重大改進是,與B200 和GB200 相比,Nvidia 據稱將重新設計整個供應鏈。該公司將不再試圖銷售整個參考主機板或整個伺服器機箱。相反,Nvidia 將只銷售搭載SXM Puck 模組、Grace CPU 和Axiado 主機管理控制器(HMC) 的B300。因此,將允許更多公司參與Blackwell 供應鏈,這有望使基於Blackwell 的機器更容易獲得。
借助B300 和GB300,Nvidia 將為其超大規模和OEM 合作夥伴提供更多設計Blackwell 機器的自由,這將影響它們的定價甚至性能。
不過,郭明錤指出,雖然基於B300 的系統計劃於2026 年大規模出貨,但Nvidia 和CSP 目前更青睞使用CoWoS-L封裝的GB300 NVL72 。雖然也使用單晶片、CoWoS-S封裝B300 系統,但GB300 NVL72 將優先考慮。
因此,對CoWoS-L 的需求比對CoWoS-S 的需求更為迫切。
為此,郭明錤指出,產品路線圖的這些轉變將在不同程度上影響Nvidia 及其供應鏈合作夥伴的表現。某些供應商將受到特別嚴重的打擊,導致其股價近期出現大幅回檔。不過,從Nvidia 的角度來看,CoWoS-S 擴張的放緩/減少主要是由產品路線圖的變化而不是需求下滑所致。這項變更也與台積電將其CoWoS-L 技術推廣為主流解決方案的策略計畫相得益彰。
CoWoS-L和CoWoS-S,有何不同?
在上面的介紹中,我們看到了關於CoWoS-L和CoWoS-S的描述。這其實是英偉達CoWoS平台的兩個版本。
據介紹,CoWoS是Chip-on-wafer-on-substrate的簡寫。作為一種先進的封裝技術,CoWoS具有封裝尺寸更大和I/O 連接更多等優勢。它允許2.5D 和3D 組件堆疊,以實現同質和異構整合。先前的系統面臨記憶體限制,而當代資料中心則使用高頻寬記憶體(HBM) 來增強記憶體容量和頻寬。 CoWoS 技術允許在同一IC 平台上異質整合邏輯SoC 和HBM。
傳統上,依照摩爾定律對電晶體進行規模化有助於滿足提高性能的需求。然而,事實證明,這對於高效能運算(HPC)、人工智慧甚至圖形處理單元(GPU) 等現代應用而言是不夠的。 CoWoS 允許在同一基板上堆疊晶片,從而減少同質或異構邏輯SoC 之間以及HBM 之間的互連延遲。
同時,矽中介層和有機中介層的使用大大增強了堆疊積體電路的熱管理能力。這直接提高了整個系統的可靠性和使用壽命,同時最大限度地降低了熱節流的風險。
此外,中介層中的電源/接地網路使用RDL,並結合深槽電容器(DTC),不會損害高速應用和記憶體密集應用的電源完整性。
正因為CoWoS 技術有助於在同一中介層和基板上安裝多個邏輯SoC 和HBM。這與傳統封裝技術形成鮮明對比,傳統封裝技術過去需要將多個邏輯SoC 安裝在印刷電路板(PCB) 上,並在封裝中進行必要的連接。這導致封裝尺寸更大,並增加了材料成本和製造費用。 CoWoS 封裝整體上更小,更具成本效益。
隨著AI的火熱,CoWoS需求大增,這推動台積電大幅擴充CoWoS。根據經濟日報在今年初報道,台積電正積極提高CoWoS 先進封裝產能,預估2025 年產能接近翻倍,達到每月7.5 萬片晶圓,而且因市場需求強勁,會在2026 年繼續提高產能。
具體而言,如下圖所示,CoWoS有以下三個版本,當中就包含了CoWoS-L和CoWoS-S。
台積電介紹說,CoWoS -S(Chip on Wafer on Substrate with silicon interposer)平台為超高效能運算應用(如人工智慧(AI) 和超級運算)提供一流的封裝技術。此晶圓級系統整合平台在大型矽中介層區域上提供高密度互連和深溝槽電容器,以容納各種功能性頂部晶片/晶片,包括邏輯晶片,其上堆疊有高頻寬記憶體(HBM)立方體。目前,高達3.3X 光罩尺寸(或~2700mm²)的中介層已準備好投入生產。
CoWoS -R(Chip on Wafer on Substrate with silicon interposer with fan-out RDL interposer)是CoWoS 先進封裝系列的成員之一,該系列利用再分佈層(RDL) 中介層作為晶片系統(SoC) 和/或高頻寬記憶體(HBM) 之間的互連,以實現異質整合。 RDL 中介層由聚合物和銅線組成,相對靈活。這增強了C4 接頭的完整性,並允許封裝擴展其尺寸以滿足非常複雜的功能需求。
CoWoS -L 則是CoWoS(晶圓上晶片)平台上的晶片最後封裝之一。它結合了CoWoS -S 和InFO(整合扇出)技術的優點,使用中介層和局部矽片互連(LSI) 晶片實現晶片間互連,並使用RDL 層實現電源和訊號傳輸,從而提供最靈活的整合。
CoWoS -L 的主要特點包括:
1、LSI 晶片用於透過多層亞微米銅線實現高佈線密度晶片間互連。 LSI 晶片可以在每個產品中採用各種連接架構,例如係統單晶片(SoC) 到SoC、SoC 到晶片組、SoC 到高頻寬內存,並且可以在多種產品中重複使用。相應的金屬類型、層數和間距與CoWoS -S 的產品一致。
2.基於成型的中介層在正面、背面和傳輸訊號和電源的InFO 通孔(TIV) 上具有較寬的RDL 層間距,可在高速傳輸過程中降低高頻訊號的損耗。
3.能夠在SoC 晶片下方整合獨立嵌入式深溝槽電容器等附加元素,以改善電源管理。
寫在最後
日前,台媒就有消息指出,有大客戶砍掉台積電的CoWoS訂單,郭明錤的消息,讓這個新聞有了另一維度的解析。
郭明錤表示,雖然CoWoS-S 擴張速度正在放緩,但CoWoS-R 產能正在增加。他同時提到,對於台積電來說,從B200 到B300 的過渡涉及相同的FEoL 流程。 BEoL 變更可以透過ECO 進行管理。
因此台積電將它們視為相同的產品,產品過渡的時間對台積電來說並不重要。