微軟分享其首款客製化人工智慧晶片Maia 100的更多細節
在2023年Ignite大會期間,微軟首次宣布已開發出名為Maia的自主人工智慧加速器晶片。今年早些時候,在Build開發者大會上,微軟分享了其首個自主研發的人工智慧加速器Azure Maia 100的更多細節。 Maia 100 是台積電5nm 節點上製造的最大處理器之一,專門為部署在Azure 中的大規模AI 工作負載而設計。
昨天,在Hot Chips 2024 大會上,微軟首次分享了Maia 100 的規格,並透露了更多細節。你可以在下面找到它們的摘要。
Maia 100 規格
- 晶片尺寸- 820mm2
- 封裝- 採用COWOS-S 夾層技術的TSMC N5 工藝
- HBM BW/Cap – 1.8TB/s @ 64GB HBM2E
- 峰值密集張量POPS – 6 位元:3,9 位元1.5,BF16:0.8
- L1/L2 – 500MB
- 後端網路BW – 600GB/秒(12X400gbe)
- 主機BW(PCIe)= 32GB/s PCIe Gen5X8
- 最高TDP – 700W
- 額定TDP – 500W
微軟Maia 100 系統採用垂直整合方式,優化成本與效能。它還採用客製化伺服器板,配備專門設計的機架和軟體堆疊,以提高效能。
Maia 100 SoC 架構
- 高速張量單元可為訓練和推理提供高速處理,同時支援多種資料類型。此張量單元採用16xRx16 結構。
- 向量處理器是一個鬆散耦合的超標量引擎,採用客製化指令集架構(ISA),支援包括FP32 和BF16 在內的多種資料類型。
- 直接記憶體存取(DMA)引擎支援不同的張量分片方案。
- 硬體semaphores 支援Maia 系統的非同步程式設計。
- 為提高數據利用率和能源效率,大型L1 和L2 刮痕墊採用軟體管理。
Maia 100 採用基於乙太網路的互聯技術和類似RoCE 的客製化協議,可實現超高頻寬運算。它支援高達4800 Gbps 的全收集和散射降低頻寬,以及1200 Gbps 的全對全頻寬。
在軟體方面,Maia 軟體開發工具包(SDK)允許任何人快速將其PyTorch 和Triton 模型移植到Maia。 Maia SDK 為開發人員提供了多個元件,使他們能夠輕鬆地將模型部署到Azure OpenAI 服務。
開發人員可以選擇兩種程式設計模型來為Maia 系統編程。他們既可以使用Triton(一種用於深度神經網路(DNN) 的流行開源特定領域語言(DSL)),也可以使用Maia API(一種Maia 專用的客製化程式設計模型,可透過更詳細的控制實現最高性能)。此外,Maia 也原生支援PyTorch 模型,開發人員只需更改一行即可執行PyTorch 模型。
憑藉其先進的架構、出色的開發者工具以及與Azure 的深度集成,Maia 100 正在改變微軟管理和執行人工智慧工作負載的方式。微軟是否會像Google對其TPU和亞馬遜對其Trainium和Inferentia晶片那樣向第三方機構開放Maia 100加速器,也值得觀察。
有關Maia 100 的更多信息,請點擊此處查看微軟官方博文。