微軟Azure的NVIDIA “Blackwell” GB200伺服器將2/3的空間用於冷卻
本週二晚些時候,微軟Azure 在其社交媒體平台X 上分享了一張有趣的圖片,展示了GPU 加速伺服器的巔峰之作–英偉達”Blackwell” GB200 驅動的AI 系統。
微軟是英偉達最大的客戶之一,該公司經常在第一時間收到產品,並將其整合到雲端運算和公司基礎設施中。 甚至英偉達在設計未來產品時也會聽取微軟等公司的回饋意見,尤其是像現已取消的NVL36x2 系統這樣的產品。 下圖顯示的是一個龐大的集群,它將計算區域大致劃分為整個系統的三分之一,並將系統的三分之二用於閉環液體冷卻。
整個系統使用Infiniband 網路連接,這是GPU 加速系統的標準,因為其封包傳輸延遲較低。 雖然系統的細節還不太清楚,但我們可以看到,整合的閉環液體冷卻系統允許GPU 機架採用1U 外形,以提高密度。
鑑於這些系統將進入更廣泛的微軟Azure 資料中心,系統需要易於維護和冷卻。 微軟資料中心能夠處理的功率和熱量輸出有限,因此這些類型的系統通常都符合微軟設計的內部規格。 當然,也有運算密度較高的系統,如英偉達(NVIDIA)的NVL72,但超大規模使用者通常應該選擇符合其資料中心規格的其他客製化解決方案。
最後,微軟指出,我們可以期待在即將於11 月舉行的微軟Ignite 大會上看到更多細節,並了解更多有關GB200 驅動的人工智慧系統的資訊。