Google發布9 exaflop算力的Cloud TPU v4 Pods集群並進入公開預覽階段
在其I/O開發者大會上,Google今天宣佈公開預覽Google Cloud的Cloud TPU v4 Pods完整集群。Google在去年的I/O大會上推出了其Tensor處理單元的第四次迭代,一個TPU Pod由4096個這樣的芯片組成。每個芯片的峰值性能為275 teraflops,每個pod承諾的綜合計算能力1.1 exaflops。
Google現在在其俄克拉荷馬州的數據中心運營著一個由八個這樣的Pod組成的完整集群,其峰值聚合性能達9 exaflops。Google認為就累積計算能力而言,這是世界上最大的公開可用的ML中心,同時以90%的無碳能源運行。
那些集群是由具有ML(機器學習)能力的超級計算機提供的(意味著它們非常適合ML工作負載,如NLP、推薦模型等。這些超級計算機是使用ML硬件–例如GPU(圖形處理單元)以及CPU和內存構建的。憑藉9 exaflops,我們相信我們擁有最大的公開可用的ML集群。
在2021年的I/O大會上,Google的首席執行官Sundar Pichai說,公司很快就會有”幾十個TPU v4 Pods在我們的數據中心上線,其中許多將以90%或接近90%的無碳能源運行。而我們的TPUv4 Pods將在今年晚些時候提供給我們的雲客戶”。顯然,這比計劃的時間要長一些,但考慮到背景是我們正處於全球芯片短缺的情況下,這些畢竟是定制芯片。
在今天的發布之前,Google與研究人員合作,讓他們接觸這些集群。研究人員回饋稱對TPU v4以其快速的互連和優化的軟件棧提供的性能和可擴展性感到滿意,並喜歡用新的TPU VM架構設置他們自己的互動開發環境的能力,以及使用他們首選框架的靈活性,包括JAX、PyTorch或TensorFlow,
Google表示,用戶將能夠對新的雲TPU v4集群和它的Pod進行切割,以滿足他們的需求,無論是訪問四個芯片(這是TPU虛擬機的最低限度)還是數千個芯片(但也不能太多,因為只有這麼多芯片可以用)。
截至目前,這些集群只在俄克拉荷馬州提供。”我們對各種地點進行了廣泛的分析,並確定俄克拉荷馬州,以其特殊的無碳能源供應,是託管這種集群的最佳地點。我們的客戶幾乎可以從任何地方訪問它,”一位發言人解釋說。