台積電:HPC芯片功率密度推動行業對1kW+散熱系統需求增長
近年來,超算等高性能係統的功率密度,始終保持著高速增長。不過台積電在其年度技術研討會上表示——計算領域的一個明顯趨勢,就是每個芯片和機架單元的功耗,並不會坐等受到傳統風冷散熱的限制。顯然,晶體管功耗的降低,並沒有其尺寸縮減那樣快。由於芯片製造商不會放棄性能上的定期增長,HPC 領域的晶體管功率正在飛漲。
(通過AnandTech)
另一方面,小芯片技術正在為構建更強大的芯片鋪平道路。但在性能與延遲優勢之外,其在散熱方面遇到的問題也不容忽視。
以台積電為例,這家芯片代工巨頭擁有CoWoS 和InFO 等現代技術,允許芯片製造商突破傳統標線限制、構建集成更多芯片的系統級封裝(SiP)。
通過將四個標線大小的芯片結合到一起,其複雜性也會迎來巨大的增長—— 每個SiP 或擁有超過3000 億個晶體管。但在性能增長的同時,台積電及其合作夥伴也付出了功耗與發熱方面的代價。
至於英偉達的H100 加速卡,此類旗艦產品的峰值性能功耗動輒超過700W,所以在單封裝系統裡使用多個GH100 芯片的難度也是可想而知。
如果找不到更好的辦法,未來我們需要為1kW 及以上的多芯片SiP 做好準備,以應對功耗/ 散熱方面的嚴峻挑戰。
除了700W 的英偉達H100,英特爾Ponte Vecchio 和AMD Instinct MI250X 的故事也大致相同,且傳統水冷散熱方案也有其局限性。
當芯片封裝功率邁過1000W 的關口時,台積電設想數據中心需要為此類極端的AI / HPC 處理器使用浸沒式的液冷散熱系統,結果就是需要徹底重新改造數據中心的結構。
儘管面臨著短期和持續性挑戰,英特爾等科技巨頭還是相當看好浸沒式液冷散熱方案,並希望推動這項技術變得更加主流。
此外去年,台積電有透露其已嘗試過片上水冷方案,甚至據說可應對2.6 kW 的SiP 散熱需求。
對於願意為此買單的客戶(比如超大規模雲數據中心的運營商們)來說,其有望推動究極AI / HPC 解決方案的發展,但缺點是技術複雜性和成本都相當高昂。
此前我們已經在Cerebras 的大型“晶圓級”處理器產品上看到過相關演示(需要高功率壓縮機來為芯片散熱),但初期台積電還是會繼續打磨CoWoS 和InFO 等封裝工藝,以突破傳統芯片設計的標線限制。