中國最大AI芯片發布，順手拿下四個國內第一，帶Benchmark的那種

2021-07-08 Comments 0 Comment

上回書說到——於是乎，我為了驗證這個猜想是否正確，特此前來上海一探究竟。直接揭曉答案：猜對了！中國最大AI芯片——邃思2.0，正式發布。

而且聽完整場發布會，最直觀的感受便是好多的“第一、首個”：

中國首款支持單精度張量TF32 數據精度的人工智能芯片。

單精度FP32/ 張量TF32 峰值算力，均為國內第一。

中國第一個支持世界最先進存儲HBM2E 和單芯片64 GB 內存的產品。

加上其它產品升級，成為國內首家發布第二代AI 訓練的組合產品。

嗯，看著似乎是有點東西。

中國最大AI 芯片問世

先來聊聊最為核心的這張芯片。

雖然說邃思2.0 是面向AI 雲端訓練，基於第一代的升級，但一個重點是工藝沒有變化。

也就是這張芯片依舊是由格芯的12nm FinFET工藝打造。

尺寸方面，為57.5 毫米× 57.5 毫米，達到了芯片採用的日月光2.5D 封裝的極限。

算力方面：

單精度FP32 算力為40TFLOPS

單精度張量TF32 算力為160TFLOPS

整數精度INT8 算力為320TOPS

堆疊存儲方面，搭載的是HBM2E，據了解，這是目前業界較為領先的存儲方案。

它具備超大存儲容量和訪存帶寬，最高達到64GB 和1.8TB/s，還可以支持眼下爆火的超大規模模型的訓練。

算力擴展方面，由於邃思2.0 擁有300GB/s 的獨立片間互聯通道，因此可以非常靈活。

一個邃思2.0，升級三大產品

而隨著邃思2.0 的到來，燧原科技其他產品也得到了相應地升級。

首先，是雲燧T20 訓練加速卡。

它是面向數據中心的第二代AI 訓練加速卡，官方介紹是這樣的：

具有模型覆蓋面廣、性能強、軟件生態開放等特點，可支持多種人工智能訓練場景。

那麼到底性能能搶到什麼程度？

在現場，燧原科技直接亮出的Benchmark！

不難看出，在圖像識別/分類、NLP、目標檢測、圖像分割和推薦任務中，與友商相比均有明顯的提升。

（至於這個友商，就是很強的那家，你懂的）

或許你覺得數據還不夠直觀，那就直接來效果吧。

下面是友商和雲燧T20 處理圖片的速度對比：

處理圖片更多，速度還更快，有木有！

除此之外，還有云燧T21 訓練OAM 模組。

據了解，它是是基於OCP（開放計算項目）OAM（開放加速模組）標准設計、兼容OCP OAI 標準（開放加速器基礎設施）的AI 訓練加速模組。

所面向的數據中心，可以在互聯網、金融、教育、醫療、工業和政務等場景中使用。

雲燧T21 單精度FP32 算力最高可達40TFLOPS、TF32 算力最高則是160TFLOPS。

與友商的性能對比如下：

最後，燧原科技還升級了它家的馭算TopsRider 軟件平台：

基於算子泛化技術及圖優化策略，支持主流深度學習框架下的各類模型訓練。

利用Horovod 分佈式訓練框架與GCU-LARE 互聯技術相互配合，為超大規模集群的高效運行提供解決方案。

而且編程模型和可擴展算子接口，都是開放的哦。

還搞了一個“大組合”

以為這就完了？

不不不。

燧原科技還把它們搞了個“大組合”——雲燧智算集群（CloudBlazer Matrix 2.0）。

最高單精度算力可以達到1.3E（130000T），足足是上一代的46 倍。

燧原科技COO 張亞林表示：

雲燧的互聯接口在單口速度保持不變的前提下，接口數量從T10 的4 個增加到T20 的6 個，帶寬提升150%。

用雲燧T20 可以打造中國E 級單精度算力集群。

承諾了一個約定

最後的最後，燧原科技還介紹了關於他們接下來的計劃。

雲端訓練計算產品方面，在2023 年，他們準備發布T30/T31。

較一代產品相比，性能要達到14 倍。

雲端推理計算產品方面，也將在2023 年進行迭代，性能提升16 倍。

而且還給出了一個燧原產品定理：

至於到了2023 年，燧原科技能否兌現承諾，就一起拭目以待吧。

WONGCW 網誌

記錄生活經驗與點滴

中國最大AI芯片發布，順手拿下四個國內第一，帶Benchmark的那種

2021-07-08 Comments 0 Comment

相關

發表迴響取消回覆

2021 年 7 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

分享此文：

相關

發表迴響取消回覆