特斯拉D1 AI晶元細節盤點：500億晶體管、400W熱設計功耗

2021-08-23 Comments 0 Comment

近日的特斯拉AI日活動上，特斯拉公佈了最新的AI訓練晶元「D1」，規模龐大，令人稱奇。該晶元採用台積電7nm工藝製造，核心面積達645平方毫米，僅次於NVIDIA Ampere架構的超級計算核心A100（826平方毫米）、AMD CDNA2架構的下代計算核心Arcturus（750平方毫米左右），集成了多達500億個晶體管，相當於Intel Ponte Vecchio計算晶片的一半。

其內部走線，長度超過11英里，也就是大約18公里。

它集成了四個64位超標量CPU核心，擁有多達354個訓練節點，特別用於8×8乘法，支援FP32、BFP64、CFP8、INT16、INT8等各種數據指令格式，都是AI訓練相關的。

特斯拉稱，D1晶元的FP32單精度浮點計算性能達22.6TFlops（每秒22.6萬億次），BF16/CFP8計算性能則可達362TFlops（每秒362萬億次）。

為了支撐AI訓練的擴展性，它的互連頻寬非常驚人，最高可達10TB/s，由多達576個通道組成，每個通道的頻寬都有112Gbps。

而實現這一切，熱設計功耗僅為400W。

特斯拉D1晶元可通過DIP（Dojo介面處理器）進行互連，25顆組成一個訓練單元（Training Tile），而且多個訓練單元可以繼續互連，單個對外頻寬高達36TB/s，每個方向都是9TB/s。

如此龐然大物，耗電量和發熱都是相當可怕的，電流達18000A，覆蓋一個長方體散熱方案，散熱能力高達15kW。

特斯拉展示了實驗室內部的一個訓練單元，運行頻率2GHz，計算性能最高9PFlops（每秒9千萬億次）。

特斯拉還用D1晶元，打造了一台AI超級計算機”ExaPOD”，配備120個訓練單元、3000顆D1晶元、1062000個訓練節點，FP16/CFP8訓練性能峰值1.1EFlops（每秒110億億次計算）。

建成后，它將是世界上最快的AI超算，對比特斯拉現在基於NVIDIA方案的超算，成本差不多，但擁有4倍的性能、1.3倍的能效比、1/5的體積。

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。