Intel正式發表Gaudi 3 AI加速器:1200W功耗性價比兩倍於NVIDIA H100
早在4月份,Intel就宣布了新一代AI加速器Gaudi 3,現在它終於發布了,詳細的規格參數也已出爐,競爭對手直指NVIDIA H100 GPU加速器,當然後者的Blackwell系列也要上量了。
Gaudi 3的規格提升幅度堪稱跨越式的,製造工藝從台積電7nm來到台積電5nm,MME(矩陣乘法引擎)從2個增加到8個,雖然每個MME內部的TPC(張量處理核心)從12個減少到8個,但是總數從24個大幅增加到了64個,另外媒體解碼器差從8個增加到14個。
內建SRAM快取容量翻倍至96MB,頻寬翻倍至12.8TB/s。
核心效能方面,MME BF16/FP8都是1835 TFlops(每秒1.835億億次),向量BF16則是28.8 TFlops(每秒28.8兆次),分別提升了3.2倍、1.1倍、1.6倍。
HBM2E高頻寬記憶體容量從96GB增加到128GB(八顆),頻寬也順應增加來到驚人的3.7TB/s。
24個200Gb RDMA網路接口,雙向網路互連頻寬1.2TB/s,主機介面峰值雙向頻寬128GB/s,系統匯流排升級為PCIe 5.0 x16。
根據官方說法,Gaudi 3對比NVIDIA H100,LLM大模型推理表現領先50%、訓練時間快40%,性價比則是對手的2倍。
開發方面,無縫相容PyTorch框架、Hugging Face Transformer和擴散模型。
Gaudi 3加速器提供三種部署形態,一是OAM 2.0標準夾層卡,被動散熱峰值功耗900W,液冷散熱峰值功耗1200W,支援48個112Gb PAM4SerDes網路連結。
二是HLB-325通用基板,支援八顆Gaudi 3,具體耗電量未揭露。
三是HL-338擴充卡,PCIe 5.0 x16接口,被動散熱峰值功耗600W,還可以四卡互連。
Intel先前已宣布,IBM將會在其雲端服務中部署Gaudi 3加速器。
另有消息稱,Gaudi 3加速器也有中國特供版,其中OAM模組、PCIe模組的峰值功耗都限制至450W,算力自然也會大打折扣,但暫無更進一步說法。