高通Cloud AI 100平台開始出樣:75W實現400TOPS算力
AnandTech報導稱,高通去年宣布的Cloud AI 100推理芯片平台,現已投產並向客戶出樣,預計2021上半年可實現商業發貨。雖然更偏向於“紙面發布”,且未能披露硬件的更多細節,但藉助其在移動SoC世界的專業知識,這也是該公司首次涉足數據中心AI推理加速器業務、並將之推向企業市場。
隨著芯片開始出樣,高通Cloud AI 100 推理芯片終於從實驗室走向了現實,並且披露了有關其架構設計、性能功耗目標在內的諸多細節。
據悉,高通為商業化部署提供了三種不同的封裝形式,包括成熟的PCIe 4.0 x8 接口(在75W TDP 上實現400 TOPS 算力)、以及DM.2 和DM.2e 接口(25W / 15W TDP) 。
DM.2 的外形類似於彼此相鄰的兩個M.2 連接器,在企業市場上頗受歡迎。DM.2e 則是體型更小,封裝功耗也更低。
從架構的角度來看,該設計借鑒了高通在驍龍移動SoC 上部署的神經處理單元(NPU)的豐富經驗,但仍基於一種完全針對企業工作負載而優化的獨特架構設計。
與當前的通用計算硬件(CPU / GPU / FPGA)相比,專用型AI 設計的最大優勢,在於能夠實現“傳統”平台難以企及的更高的性能和能效目標。
性能數據方面,高通拿目前業內常用的解決方案進行了對比,包括英特爾 Goya和英偉達T4推理加速器(基於砍了一刀的TU104 GPU芯片),每瓦每秒的推理能力為ResNet-50 。
據說Cloud AI 100 在每瓦性能上較競品實現了重大飛越,且高通在另一幅圖表中展示了一個相對公平的比較。
有趣的說法是,其甚至能夠在75W 的PCIe 外形尺寸內擊敗英偉達Ampere 架構的250W A100 加速器。且在功耗降低25% 的情況下,性能還較英特爾Goya 加速器翻了一番。
這樣的性能數據,讓許多人覺得難以置信,不過從Cloud A100 的芯片規格來看,事情其實並不簡單。該芯片包含了16 組AI 內核,和達成400 TOPS 的INT8 推理吞吐量。
輔以4 路@ 64-bit 的LPDDR4X-4200(2100MHz)的內存控制器,每個控制器管著4 個16-bit 通道,總系統帶寬達134 GB/s 。
如果你對當前的AI 加速器設計比較熟悉,就知道它與英偉達A100 和英特爾Goya 等推理加速器競品的帶寬有較大差距,因為後者俱有高帶寬緩存(HBM2)和高達1-1.6 TB/s的帶寬。
即便如此,高通還是設法為Cloud AI 100 平台配備了144MB 的片上SRAM 高速緩存,以達成盡可能高的存儲流量。
高通承認,在工作負載的內存空間佔用超過片上SRAM 的情況下,該架構的性能將有所不同。但對於目標客戶來說,這樣的平衡設計,仍是有意為之。
後續該公司還展望了更大的內核、以及在多個Cloud AI 100 加速器之間橫向擴展。在被問及如何達成15W 至75W 的動態功耗範圍時,高通宣稱其正在調整頻率/ 電壓曲線,以及調製AI 核心的數量。
想像一下,一套完整的400 TOPS 75W 設計,包含了一個工作頻率較高的芯片。而15W TDP 的版本,可能以較低的頻率在運行。與此同時,7nm 的工藝節點,有助於其進一步降低功耗。
精度方面,Cloud AI 100 的架構體系支持INT8 / INT16 和FP16 / FP32 精度,能夠帶來足夠的靈活性。高通還提供了一組SDK,以便為各項行業標準提供交換格式和框架支持。
高通公司目前正在向客戶提供Cloud AI 100 推理加速器的樣品,主要部署目標為工業和商業領域中的邊緣推理工作負載。
為推動生態系統和為軟件開發提供支持,該公司還推出了新的Cloud Edge AI 100 開發套件,其中包括了一個集成該加速器的小型計算設備、驍龍865 SoC、以及用於蜂窩連接的X55 5G調製解調器。