英偉達僅用一月時間組裝好全球第七快超算
據外媒報導,英偉達詳細介紹了Selene超級計算機的組裝過程,該計算機此前在6月份成為了世界上速度第七快的超級計算機。在流感大流行期間,僅用了三個半星期的時間,一個跟社會保持距離的六人小組加上一個名為Trip的輕便機器人就把整個東西組裝好了。
Selene是一台相當獨特的超級計算機。它採用的是英偉達商用GPU加速DGX SuperPOD架構,而不是在500強中占主導地位的大量定制CPU設計。另外,這台超算在綠色500最節能超級計算機排行榜上排名第二。
在數量上,Selene使用了560塊AMD Epyc 7742 CPU和2240個英偉達A100 GPU。它的峰值理論性能接近35000萬億次浮點運算。
英偉達之前的超算建造工作都花費了幾個月,並且還很難維護和升級。然而當涉及到Selene的設計時,他們試圖使其盡可能簡單和模塊化。Selene的280個節點都是一個標準化的DGX pod,其包含8個英偉達A100 GPU和2個AMD Epyc CPU。
Selene的同質性使得其能迅速被組裝起來。雖然連接一台超級計算機總是一件棘手的工作–尤其是六英尺的距離,但英偉達通過使用Mellanox的InfiniBand交換機來減少所需的電纜數量,同時還提升了帶寬。
https://player.youku.com/embed/XNDgwMTc1NzEwMA==
Selene是基於SuperPOD冷卻。所有的SuperPOD都住在一個巨大的空調倉庫裡。它們從地面上被升起,下面的風扇將冷空氣推入DGX吊艙。英偉達的小型組裝團隊只需要安裝地板和SuperPOD來控制空氣流動即可。
英偉達很有創意地為Selene設計了監控設備。他們購買了一個叫Trip的小機器人,其可以被遠程控制,還可以通過轉動它來觀察Selene內部的情況。他們還為Slack開發了一個機器人,當硬件出現故障或電纜鬆脫時它會向他們發出通知。
目前,Selene正在進行約1000項任務,主要內容是關於AI開發和神經網絡訓練。它的空閒週期則專門用於新冠病毒研究。