亞馬遜宣佈基於Trn1機器學習晶元的新EC2實例
近年來,已有越來越多的企業開始選擇為其客戶提供基於定製晶元的服務,比如亞馬遜 AWS 就在 2019 年推出了旨在加速推理學習的 Inferentia 晶片。 去年,這家科技巨頭推出了專為機器學習模型和設計的第二款 Trainium 晶片。 而在之前工作的基礎上,我們現又迎來了最新的 Trn1 機器學習晶片。
在今早於拉斯維加斯舉辦的 AWS re:Invent 主題演講期間,Adam Selipsky 在台上介紹了該公司的最新晶片進展。
今天,我們很高興地向大家宣佈由 Trainium 提供支撐的新 Trn1 實例。 除了在 EC2 上快速運行,我們還希望它能夠為在雲端訓練深度學習模型提供最佳性價比。
此外 Trn1 是首個頻寬高達 800 GB/s 的 EC2 實例,很適合大規模、多節點的分散式訓練用例,比如圖像識別、自然語言處理(NLP)、欺詐檢測、以及預測等。
New Amazon EC2 Trn1 instances – Amazon Web Services(via)
更重要的是,客戶能夠選擇將這些晶元聯網到一起、並放入「超級群」(Ultra Clusters)中,以獲得更強大的性能體驗。
“超級群”包含了數萬個與 PB 級網络互連的訓練加速器,背後有著強大的超算為機器學習用例提供支撐,可快速訓練具有數萬億個參數的最複雜的深度學習模型。
最後,Adam Selipsky 表示該公司計劃與 SAP 等夥伴達成合作,以更好地發揮 Trn1 新晶片的處理能力。