英偉達Ampere A100打破16項AI性能紀錄速度是Volta V100的4.2倍
英偉達剛剛公佈了採用Ampere架構的A100 GPU的首份實際性能數據:可知其在特定的AI基準測試項目中一共打破了16項性能紀錄,速度是Volta V100的4.2倍,較主要競爭對手取得了巨大的領先優勢。首先,2018年面世的MLPerf主要側重於機器學習性能。該基準測試套件總共包括了八項測試,但英偉達Ampere A100 GPU的訓練速度已經全面實現了超越。
(來自:Nvidia)
其次,英偉達分享了DGX SuperPOD 系統取得的八項新紀錄。該系統通過HDR InfiniBand 連接到一起,構成了一個龐大的DGX A100 高性能計算系統集群。
DGX SuperPod 由140 個DGX A100 系統組成,共計擁有1120 個NVIDIA Ampere A100 GPU、170 個Mellanox Quantum 200G Infiniband 交換機、4 PB 存儲空間、以及15 公里的光纜。
令人讚嘆的DGX SuperPod 系統中包括大約770 萬個Ampere CUDA 核心,作為DGX V 擴展計劃的一部分,其為該系統增加了近乎700 Petaflops 的算力,目前已部署在加州聖克拉拉市的英偉達公司總部。
通過與上一代Volta V100(以及谷歌第三代TPU和華為 Ascend HPC等新品)進行比較,可知Ampere A100 Tensor Core GPU加速卡的性能增長也是相當驚人。
此外在MLPerf基準測試套件的詳細結果中,還對即將推出的AI加速方案進行了預覽,比如英特爾的Cooper Lake-SP至強處理器、以及谷歌的第四代TPU 。
MLPerf 表示,其基準測試套件可對機器學習(ML)和人工智能(AI)工作負載進行評估,結果發現Ampere A100 性能是Volta V100 的2.5 倍。即便是提升最小的項目,其領先幅度也有近50% 。
相比之下,華為Ascend 芯片只能及時完成一項測試、且性能遠不及Volta V100 。谷歌第三代TPU 也只能及時完成兩項測試,第一項較Volta V100 領先20%,第二項卻又落後10% 。
至於八槽的Cooper Lake-SP 平台,其能夠在1104.53 分鐘內完成圖像分類測試項目,但是英偉達的雙Ampere A100 系統只需33.37 分鐘。至於明年的谷歌第四代TPU,目前尚不知曉其具有多大的優勢。
最後,英偉達展示了其GPU 加速卡在AI Full-Stack Innovations 項目中的表現。上一代Volta V100 平台的MLPerf 0.5 基準測試項目對比,Ampere A100 平台上的的MLPerf 0.7 基準測試有4.2 倍的性能提升。