ARM下代處理器架構將支持BFloat16指令集AI性能暴增數倍
深度學習、AI人工智能等技術正在成為各大處理器的熱點,雖然目前的主流是通過專用的NPU單元來加速AI指令,但在CPU中集成相應的指令集也會帶來很大的改變, Intel在Cascade Lake及10nm Ice Lake處理器中就加入了BFlota16指令集(簡稱BF16),AI性能達到了前代的2.5倍以上。
ARM今天也宣布了類似的動作,將在下一版ARMv8架構中加入新的Non及SVE指令,以便支持BFloat16運算。
BF16運算還不是IEEE的標準,但與標準的FP32浮點、FP16半精度相比,BF16運算優點多多,它可以輕鬆取代FP32,而且還能保持正確的NN神經網絡操作,這點是FP16做不到的,而且它佔用的內存及帶寬只有FP32一半,所以性能更高,而且不需要復雜的架構改變。
總之,支持BF16運算優點多多,根據ARM做的模擬,不同類型的運算中BF16帶來的性能提升不等,少的有1.6倍性能,多的可達4倍性能,所以在AI方面性能變化是非常大的,是前代的數倍之多。