NVIDIA GB200 CPU+GPU超級晶片功耗2700W 液冷狂歡開始
集邦諮詢發布報告稱,隨著AI伺服器算力、功耗同步與日俱增,尤其是NVIDIA將在年底推出的下一代Blackwell平台功耗急劇增加,液冷散熱方案將逐漸普及,今年底的滲透率可達10%。根據調查,NVIDIA Blackwell要到2025年才會正式大規模放量,取代現在的Hopper平台,成為高階主力,佔整體高階產品的近83%。
Blackwell B200單顆晶片的功耗就高達1000W,一顆Grace CPU和兩顆Blackwell GPU組成的超級晶片GB200更是恐怖的2700W。
回顧歷史,Hopper家族的H100、H200 GPU功耗都是700W,H20只需要400W,Grace+Hopper超級晶片則是1000W。
NVIDIA HGX伺服器每台預載8顆GPU,NVL36、NVL72伺服器每台36顆、72顆GPU,整體功耗將分別達到70千瓦、140千瓦。
據悉,NVL36伺服器2024年底先上市,初期以風冷、液冷並行方案為主;NVL72 2025年跟進,直接優先上液冷,整體設計和散熱都複雜得多。
NVIDIA預計,GB200折算NVL36的出貨量在2025年預計可達6萬台,Blackwell GPU的總出貨量可望達到210-220萬顆。
伺服器液冷主要分為水冷板(Cold Plate)、冷卻分配系統(Coolant Distribution Unit, CDU)、分歧管(Manifold)、快接頭(Quick Disconnect, QD)、風扇背門(Rear Door Heat Exchanger, RDHx)等五大零件。
其中,CDU是最關鍵的部分,負責在整個系統中調節冷夜的流量,確保溫度可控。
針對NVIDIA AI伺服器方案,維諦技術(Vertiv)是主力的CDU供應商,奇鋐、雙鴻、台達電、CoolIT等也正在測試驗證。