特斯拉披露自研Dojo超算項目新進展測試性能強到一度讓電網跳閘
作為特斯拉自行定制的超算平台,Doji 旨在為該公司的人工智能(AI)/ 機器學習(ML)應用提供支撐。尤其是利用其自動駕駛車隊採集的視頻數據,以展開相關訓練。此前這家電動汽車巨頭已經擁有一台基於NVIDIA GPU 的大型超算,但Dojo 已用上特斯拉的自研芯片和全套基礎設施。
Electrek預計,這台定制超算可提升特斯拉使用視頻數據訓練神經網絡的能力,相關計算機視覺技術可為其自動駕駛工作提供至關重要的支撐。
事實上,早在去年的AI Day 活動期間,特斯拉就已表示在抓緊打造Dojo 超算。在每套芯片+訓練塊的基礎上,該公司還致力於構建一套完整的Dojo 機櫃(或Exapod 集群)。
時隔一年,特斯拉在周五的AI Day 活動期間,公佈了Dojo 項目取得的最新進展。
該公司證實,其現已能夠通過一個Dojo 塊(tile)取代六張GPU、且更具成本優勢。
更確切地說,該公司已成功地從一套“芯片+訓練塊”、發展到了現在的“系統托盤”/ 完整機櫃。
每個托盤包含了六個這樣的計算塊,且性能相當於3~4 個滿載的超算機架。
目前該公司正在將主機接口集成到系統托盤上,以構建一套完整的大型主機組件,以將這些系統托盤安裝到一個Dojo 機櫃中。
不過在將幾個機櫃組合成Dojo Exapod 所需的基礎設施之前,該公司仍需對其展開更多研發測試。
Dojo 首席系統工程師Bill Chang 補充道—— 為應對前所未有的散熱和功率密度,他們必須重新審視數據中心基礎設施的各個方面,以開發定制的高性能散熱與電力系統。
尷尬的是,今年早些時候的基礎設施測試,還對當地電網的變電造成了巨大的衝擊。最終在導致電網跳閘並被政府致電“問候”之前,他們已將功耗推升到超過2 兆瓦。
最後,特斯拉分享了Dojo Exapod 的關鍵規格數據—— 1.1 EFLOP @ BF16 / CPP8 性能、1.3 TB SRAM、以及13 TB 的高帶寬DRAM 。
如果一切順利,該公司計劃在2023 年1 季度擁有首個完整的Exapod 集群(目前計劃在帕羅奧托擁有7 個),同時試圖借助該活動招募到更多人才。