芯片功率奔向1000瓦，冷卻成為頭號問題

2022-06-30 Comments 0 Comment

據anandtech報導，高性能計算(HPC) 領域越來越明顯的一個趨勢是，每個芯片和每個機架單元的功耗不會因空氣冷卻的限製而停止。由於超級計算機和其他高性能係統已經達到——並且在某些情況下超過了這些限制——功率要求和功率密度不斷擴大。根據台積電最近一年一度的技術研討會的消息，隨著台積電為更密集的芯片配置奠定基礎，我們應該期待看到這種趨勢繼續下去。

手頭的問題並不是一個新問題：晶體管功耗的縮小速度幾乎沒有晶體管尺寸那麼快。由於芯片製造商不會放棄性能（並且無法為客戶提供半年增長），因此在HPC 空間中，每個晶體管的功率正在迅速增長。另一個問題是，chiplet正在為構建具有比傳統標線限制更多矽的芯片鋪平道路，這對性能和延遲有好處，但在冷卻方面更成問題。

支持這種矽和功率增長的是台積電CoWoS 和InFO等現代技術，它們允許芯片製造商構建集成的多芯片系統級封裝(SiP)，其矽量是台積電的兩倍。受到標線（reticle ）限制。到2024 年，台積電CoWoS 封裝技術的進步將使構建更大的多芯片SiP 成為可能，台積電預計將超過四個標線大小的芯片縫合在一起，這將實現巨大的複雜性（每個SiP 有可能超過3000 億個晶體管）台積電及其合作夥伴正在關注）和性能，但自然是以巨大的功耗和發熱為代價的。

NVIDIA 的H100 加速器模塊等旗艦產品已經需要超過700W 的功率才能實現峰值性能。因此，在單個產品上使用多個GH100 大小的chiplet的前景令人大跌眼鏡- 以及功率預算。台積電預計，幾年後將出現功耗約為1000W 甚至更高的多芯片SiP，從而帶來冷卻挑戰。

在700W 時，H100 已經需要液冷；英特爾的基於chiplet的Ponte Vecchio 和AMD的Instinct MI250X 的故事大致相同。但即使是傳統的液體冷卻也有其局限性。當芯片累計達到1 kW 時，台積電設想數據中心將需要為這種極端的AI 和HPC 處理器使用浸入式液體冷卻系統。反過來，浸入式液體冷卻將需要重新構建數據中心本身，這將是設計上的重大變化，也是連續性方面的重大挑戰。

撇開短期挑戰不談，一旦數據中心設置為浸入式液體冷卻，它們將為更熱的芯片做好準備。液浸式冷卻在處理大型冷卻負載方面具有很大潛力，這也是英特爾大力投資這項技術以使其更加主流化的原因之一。

除了浸沒式液體冷卻，還有另一種技術可以用來冷卻超熱芯片——片上水冷。去年，台積電透露它已經嘗試過片上水冷，並表示甚至可以使用這種技術冷卻2.6 kW 的SiP。但當然，片上水冷本身就是一項極其昂貴的技術，它將把那些極端的AI 和HPC 解決方案的成本推到前所未有的水平。

儘管如此，雖然未來不是一成不變的，但似乎它已經用矽鑄造了。台積電的芯片製造客戶有客戶願意為這些超高性能解決方案（想想超大規模雲數據中心的運營商）支付高昂的費用，即使這需要高成本和技術複雜性。讓事情回到我們開始的地方，這就是台積電首先開發CoWoS 和InFO 封裝工藝的原因——因為有客戶準備好並渴望通過chiplet技術打破標線限制。今天，我們已經在Cerebras 的大型晶圓級引擎處理器等產品中看到了其中的一些，並且通過大型小芯片，台積電正準備讓更廣泛的客戶群更容易獲得更小的（但仍然是標線斷裂）設計。

對性能、封裝和冷卻的這種極端要求不僅將半導體、服務器和冷卻系統的生產商推向了極限，而且還需要對雲數據中心進行修改。如果用於AI 和HPC 工作負載的大規模SiP 確實變得普遍，那麼未來幾年雲數據中心將完全不同。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

芯片功率奔向1000瓦，冷卻成為頭號問題

2022-06-30 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆