阿里含光800 AI處理器高調亮相三大場景落地性能比GPU高4-11倍
2019年杭州雲棲大會上,阿里巴巴集團首席技術官兼阿里雲智能總裁張建鋒簡短的介紹了阿里首款AI芯片含光800,這款當時最強AI推理芯片的一發布就引發了巨大關注,可謂高調亮相。今年的阿里線上雲棲有一個芯片設計發展現狀與未來的論壇,阿里雲異構計算產品研發總監龍欣分享了含光800推出近一年後的最新進展。
他表示:“含光800 NPU實例已經正式對外服務,不需要白名單就可以在阿里雲實例上購買,實例名稱是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G內存,網絡帶寬最高達到30Gbit/s,主要面向數據中心的CNN類型模型推理加速,業務包括城市大腦,圖像視頻審核,拍立淘等。”
更引人關注的是含光800在具體應用中的表現。
含光800未對外發售,性能通過阿里雲輸出
科技巨頭自研芯片是因為有大量數據,在內部的AI需求推動下,希望通過自研芯片來提升效率和性價比。週五的線上分享中,龍欣也表示,阿里巴巴內部有廣闊的AI應用,包括電商應用、視覺應用、語音交互、自然語言理解、機器翻譯等。
一個典型的例子就是拍立淘,兩千多萬的日活用戶在使用這項功能的時候,要透過一張圖片,在4億多的商品中搜索,在30多億張圖片多庫中進行匹配,根據用戶的使用習慣進行個性化推薦,這就需要很強的AI能力。
阿里雲異構計算產品研發總監龍欣
因此,阿里希望通過自研的含光800從硬件到軟件的方案提升性價比。做個簡單的回顧,含光800在硬件方面有三個方面的特色,包括:
深度優化CNN及視覺類算法
- 加速卷積和矩陣乘,支持反捲積、孔洞卷積、3D卷積、插值、ROI等
- 針對ResNet-50、SSD /DSSD、 Faster-RCNN、Mask-RCNN、DeepLab等模型優化
高能效、低延時
- 高密度的計算與存儲,極大減少I/O需求
- 軟硬協同支持權重的稀疏壓縮,計算的量化壓縮
指令集支持可編程模型擴展
除INT8/INT16量化加速外,也覆蓋FP16/BFP16的向量計算除直接加速各種ReLu、 Sigmoid、Tanh等,也可支持未來新型激活函數
也就是說,含光800的硬件特別針對CNN算法模型進行設計,但也保持一定的靈活性,再匹配全棧的軟件支持在特定應用和算法中實現高性價比。去年張建鋒發布含光800時說,“在業界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。”
不過龍欣在昨天的分享中並沒有提及含光800的峰值性能,而是強調其可用性。他表示,“含光800作為並沒有在公開市場發售的芯片,通過阿里雲輸出。”
為了讓含光800能夠開箱即用,阿里雲讓購買實例的用戶可以自動安裝NPU驅動和SDK,系統方面支持公共鏡像CentOS 7.6/7.7和Ubuntu 16.04,還預裝主流深度學習框架,提供TensorFlow、 MXNet示範教程。
龍欣強調,含光800的應用主要是在數據中心和大型端上,以CNN類模型推理加速為主,可擴展到其他DNN模型中。目前在具體的應用中相比GPU有4-11倍性能提升。
含光800在三大AI應用中4-11倍的性能提升
去年含光800發佈時給出的數據是,在城市大腦中實時處理杭州主城區交通視頻,需要40顆傳統GPU,延時為300ms,使用含光800僅需4顆,延時降至150ms。拍立淘商品庫每天新增10億商品圖片,使用傳統GPU算力識別需要1小時,使用含光800後可縮減至5分鐘。
昨天的分享中,龍欣給出的最新數據是,在行人檢測應用中,4核含光800克支持100路視頻,比主流GPU 25路的推理性能提升4倍。在車輛檢測中,同樣是4核含光800,可以支持85路視頻,比主流GPU支持10路推理性能提升了8.5倍。
在直播、短視頻、商品信息流等內容識別應用中的ResNet50 V2模型中,含光800(4核)的幀率可以達到20000 FPS,比主流推理GPU的1800 FPS性能提升11倍,性能加速比11倍。在Inception V4模型中,含光800(4核)的處理幀率達到5000 FPS,比主流推理GPU的460FPS性能加速比高10.8倍。
還有,在直播、點播、短視頻等視頻質量增強中。4核含光800的直播視頻增強性能為500 FPS,對比主流推理GPU的50 FPS,性能加速比是10倍。在點播HDR中,4核含光800多性能是66 FPS。龍欣說:“點播HDR需要用到性能比較強的訓練GPU,比如英偉達A100,但即便如此其性能智能達到10 FPS,我們可以實現6.6倍的性能加速比。”
至於在語音交互、自然語言理解等語言方面的應用實例優勢,龍欣並未在今年的雲棲上給出數據。
小結
相對於含光800在去年雲棲備受關注的亮相,今年雲棲對含光800的關注度並不高,龍欣的介紹也只有15分鐘,還包含了許多去年已經公開的消息。含光800的實際應用優勢,應該是當下許多人關注的,但此次的分享給出的場景還沒有十分豐富,介紹的也比較簡單。這可能是由於目前緊張的貿易關係讓阿里對於芯片相關的話題更加謹慎。
但更應該看到的是,即便有強大的團隊能夠快速設計出一款芯片,但要大規模落地仍然需要很長的時間,這個過程軟件發揮著更加直接的作用,獲得客戶的認可和採用也並非易事。阿里的芯片路,依舊還只是開始階段。
那麼,阿里的下一代AI芯片會在什麼時候推出呢?