芯片功率奔向1000瓦,冷卻成為頭號問題
據anandtech報導,高性能計算(HPC) 領域越來越明顯的一個趨勢是,每個芯片和每個機架單元的功耗不會因空氣冷卻的限製而停止。由於超級計算機和其他高性能係統已經達到——並且在某些情況下超過了這些限制——功率要求和功率密度不斷擴大。根據台積電最近一年一度的技術研討會的消息,隨著台積電為更密集的芯片配置奠定基礎,我們應該期待看到這種趨勢繼續下去。
手頭的問題並不是一個新問題:晶體管功耗的縮小速度幾乎沒有晶體管尺寸那麼快。由於芯片製造商不會放棄性能(並且無法為客戶提供半年增長),因此在HPC 空間中,每個晶體管的功率正在迅速增長。另一個問題是,chiplet正在為構建具有比傳統標線限制更多矽的芯片鋪平道路,這對性能和延遲有好處,但在冷卻方面更成問題。
支持這種矽和功率增長的是台積電CoWoS 和InFO等現代技術,它們允許芯片製造商構建集成的多芯片系統級封裝(SiP),其矽量是台積電的兩倍。受到標線(reticle )限制。到2024 年,台積電CoWoS 封裝技術的進步將使構建更大的多芯片SiP 成為可能,台積電預計將超過四個標線大小的芯片縫合在一起,這將實現巨大的複雜性(每個SiP 有可能超過3000 億個晶體管)台積電及其合作夥伴正在關注)和性能,但自然是以巨大的功耗和發熱為代價的。
NVIDIA 的H100 加速器模塊等旗艦產品已經需要超過700W 的功率才能實現峰值性能。因此,在單個產品上使用多個GH100 大小的chiplet的前景令人大跌眼鏡- 以及功率預算。台積電預計,幾年後將出現功耗約為1000W 甚至更高的多芯片SiP,從而帶來冷卻挑戰。
在700W 時,H100 已經需要液冷;英特爾的基於chiplet的Ponte Vecchio 和AMD的Instinct MI250X 的故事大致相同。但即使是傳統的液體冷卻也有其局限性。當芯片累計達到1 kW 時,台積電設想數據中心將需要為這種極端的AI 和HPC 處理器使用浸入式液體冷卻系統。反過來,浸入式液體冷卻將需要重新構建數據中心本身,這將是設計上的重大變化,也是連續性方面的重大挑戰。
撇開短期挑戰不談,一旦數據中心設置為浸入式液體冷卻,它們將為更熱的芯片做好準備。液浸式冷卻在處理大型冷卻負載方面具有很大潛力,這也是英特爾大力投資這項技術以使其更加主流化的原因之一。
除了浸沒式液體冷卻,還有另一種技術可以用來冷卻超熱芯片——片上水冷。去年,台積電透露它已經嘗試過片上水冷,並表示甚至可以使用這種技術冷卻2.6 kW 的SiP。但當然,片上水冷本身就是一項極其昂貴的技術,它將把那些極端的AI 和HPC 解決方案的成本推到前所未有的水平。
儘管如此,雖然未來不是一成不變的,但似乎它已經用矽鑄造了。台積電的芯片製造客戶有客戶願意為這些超高性能解決方案(想想超大規模雲數據中心的運營商)支付高昂的費用,即使這需要高成本和技術複雜性。讓事情回到我們開始的地方,這就是台積電首先開發CoWoS 和InFO 封裝工藝的原因——因為有客戶準備好並渴望通過chiplet技術打破標線限制。今天,我們已經在Cerebras 的大型晶圓級引擎處理器等產品中看到了其中的一些,並且通過大型小芯片,台積電正準備讓更廣泛的客戶群更容易獲得更小的(但仍然是標線斷裂)設計。
對性能、封裝和冷卻的這種極端要求不僅將半導體、服務器和冷卻系統的生產商推向了極限,而且還需要對雲數據中心進行修改。如果用於AI 和HPC 工作負載的大規模SiP 確實變得普遍,那麼未來幾年雲數據中心將完全不同。