高通Cloud AI 100平台開始出樣：75W實現400TOPS算力

AnandTech報導稱，高通去年宣布的Cloud AI 100推理芯片平台，現已投產並向客戶出樣，預計2021上半年可實現商業發貨。雖然更偏向於“紙面發布”，且未能披露硬件的更多細節，但藉助其在移動SoC世界的專業知識，這也是該公司首次涉足數據中心AI推理加速器業務、並將之推向企業市場。

隨著芯片開始出樣，高通Cloud AI 100 推理芯片終於從實驗室走向了現實，並且披露了有關其架構設計、性能功耗目標在內的諸多細節。

據悉，高通為商業化部署提供了三種不同的封裝形式，包括成熟的PCIe 4.0 x8 接口（在75W TDP 上實現400 TOPS 算力）、以及DM.2 和DM.2e 接口（25W / 15W TDP）。

DM.2 的外形類似於彼此相鄰的兩個M.2 連接器，在企業市場上頗受歡迎。DM.2e 則是體型更小，封裝功耗也更低。

從架構的角度來看，該設計借鑒了高通在驍龍移動SoC 上部署的神經處理單元（NPU）的豐富經驗，但仍基於一種完全針對企業工作負載而優化的獨特架構設計。

與當前的通用計算硬件（CPU / GPU / FPGA）相比，專用型AI 設計的最大優勢，在於能夠實現“傳統”平台難以企及的更高的性能和能效目標。

性能數據方面，高通拿目前業內常用的解決方案進行了對比，包括英特爾 Goya和英偉達T4推理加速器（基於砍了一刀的TU104 GPU芯片），每瓦每秒的推理能力為ResNet-50 。

據說Cloud AI 100 在每瓦性能上較競品實現了重大飛越，且高通在另一幅圖表中展示了一個相對公平的比較。

有趣的說法是，其甚至能夠在75W 的PCIe 外形尺寸內擊敗英偉達Ampere 架構的250W A100 加速器。且在功耗降低25% 的情況下，性能還較英特爾Goya 加速器翻了一番。

這樣的性能數據，讓許多人覺得難以置信，不過從Cloud A100 的芯片規格來看，事情其實並不簡單。該芯片包含了16 組AI 內核，和達成400 TOPS 的INT8 推理吞吐量。

輔以4 路@ 64-bit 的LPDDR4X-4200（2100MHz）的內存控制器，每個控制器管著4 個16-bit 通道，總系統帶寬達134 GB/s 。

如果你對當前的AI 加速器設計比較熟悉，就知道它與英偉達A100 和英特爾Goya 等推理加速器競品的帶寬有較大差距，因為後者俱有高帶寬緩存（HBM2）和高達1-1.6 TB/s的帶寬。

即便如此，高通還是設法為Cloud AI 100 平台配備了144MB 的片上SRAM 高速緩存，以達成盡可能高的存儲流量。

高通承認，在工作負載的內存空間佔用超過片上SRAM 的情況下，該架構的性能將有所不同。但對於目標客戶來說，這樣的平衡設計，仍是有意為之。

後續該公司還展望了更大的內核、以及在多個Cloud AI 100 加速器之間橫向擴展。在被問及如何達成15W 至75W 的動態功耗範圍時，高通宣稱其正在調整頻率/ 電壓曲線，以及調製AI 核心的數量。

想像一下，一套完整的400 TOPS 75W 設計，包含了一個工作頻率較高的芯片。而15W TDP 的版本，可能以較低的頻率在運行。與此同時，7nm 的工藝節點，有助於其進一步降低功耗。

精度方面，Cloud AI 100 的架構體系支持INT8 / INT16 和FP16 / FP32 精度，能夠帶來足夠的靈活性。高通還提供了一組SDK，以便為各項行業標準提供交換格式和框架支持。

高通公司目前正在向客戶提供Cloud AI 100 推理加速器的樣品，主要部署目標為工業和商業領域中的邊緣推理工作負載。

為推動生態系統和為軟件開發提供支持，該公司還推出了新的Cloud Edge AI 100 開發套件，其中包括了一個集成該加速器的小型計算設備、驍龍865 SoC、以及用於蜂窩連接的X55 5G調製解調器。

WONGCW 網誌