Google:引領AI推理工作量的是CPU而非GPU
當今的人工智慧基礎設施主要依靠GPU 加速伺服器的擴展來推動,其中的主要玩家Google指出,根據其Google Cloud Services雲端運算體系內部分析的記錄,CPU 仍然是人工智慧/ML 工作負載的主要運算設備。在TechFieldDay 活動期間,Google雲端產品經理Brandon Royal 的演講解釋了CPU 在當今人工智慧遊戲中的地位。
人工智慧的生命週期分為兩個部分:訓練和推理。在訓練過程中,需要大量的運算能力和龐大的記憶體容量,以便將不斷擴大的人工智慧模型裝入記憶體。最新的模型,如GPT-4 和Gemini,包含數十億個參數,需要數千個GPU 或其他加速器並行工作,才能有效率地進行訓練。
另一方面,推理所需的計算強度較低,但仍能從加速中獲益。在推理過程中,會對預先訓練好的模型進行最佳化和部署,以便對新資料進行預測。雖然推理所需的計算量比訓練少,但延遲和吞吐量對即時推理至關重要。Google發現,雖然GPU 是訓練階段的理想選擇,但模型通常在CPU 上進行最佳化和推理。這意味著,有些客戶出於各種原因選擇CPU 作為人工智慧推理的媒介。
這可能是成本和可用性的問題。與高階GPU 或專門的人工智慧加速器相比,CPU 往往更便宜,也更容易取得。對於許多應用而言,CPU 能以較低的成本提供足夠的推理效能。CPU 還具有靈活性。由於大多數系統已經配備了CPU,它們為較小的人工智慧模型提供了便捷的部署路徑。GPU 通常需要專門的庫和驅動程序,而基於CPU 的推理可以利用現有的基礎設施。這使得將人工智慧整合到現有產品和工作流程中變得更加簡單。延遲和吞吐量的權衡也會發揮作用。GPU 擅長大規模平行推理吞吐量。但CPU 通常可以為即時請求提供更低的延遲。對於需要亞秒響應的線上推薦等應用,CPU 推理可能是首選。
此外,CPU 對推理的最佳化進展迅速。在更快的時鐘、更多的核心以及英特爾AVX-512 和AMX 等新指令的推動下,效能不斷提高,僅靠CPU 就能流暢運行人工智慧工作負載,如果伺服器配置了不只一個插槽,意味著有更多的人工智慧引擎存在,伺服器就能高效處理數十億參數大小的人工智慧模型,則效能尤其出色。英特爾指出,一般來說,參數不超過200 億的模型在CPU 上可以正常運行,而更大的模型則必須使用專門的加速器。
像GPT-4、Claude 和Gemini 這樣的人工智慧模型都是龐大的模型,參數規模可達一兆以上。然而,它們是多模式的,也就是說,它們處理文字和視訊。現實世界中的企業工作負載可能是一個人工智慧模型推斷公司的本地文檔,以回答客戶支援問題。對於這種解決方案來說,運行GPT-4 這樣的模型就顯得多餘了。相較之下,像LLAMA 2或Mistral 這樣小得多的模型可以很好地實現類似目的,而不需要第三方API 訪問,只需在本地或雲端伺服器上運行幾個CPU 即可。這就降低了整體擁有成本(TCO),簡化了人工智慧管道。