英特爾宣布針對Llama 3.1進行最佳化以提升所有產品的效能

日前Meta正式發布了Llama 3.1開源大模型，以其龐大的參數量和卓越性能，首次在多項基準測試中擊敗了GPT-4o等業界領先的閉源模型。允許開發者自由地進行微調、蒸餾，甚至在任何地方部署，這種開放性為AI技術的普及和創新提供了無限可能。

Llama 3.1支援128k的上下文長度和多語言能力，無論是在基本常識、可操作性還是數學、工具使用和多語言翻譯方面，都展現出了行業領先的能力。

緊隨其後，晶片巨擘Intel迅速回應，宣布其AI產品組合已全面適配Llama 3.1，並針對Intel AI硬體進行了軟體最佳化。

包含了資料中心、邊緣運算以及客戶端AI產品，確保使用者能夠在Intel平台上獲得最佳的效能體驗。

Intel的適配工作涵蓋了PyTorch及Intel PyTorch擴充包、DeepSpeed、Hugging Face Optimum函式庫和vLLM等，確保了從研發到部署的全流程支援。

目前，Intel AI PC及資料中心AI產品組合及解決方案已面向全新Llama 3.1模型實現最佳化，OPEA（企業AI開放平台）亦在基於Intel至強等產品上全面啟用。

根據基準測試，在第五代Intel至強平台上以1K token輸入和128 token輸出運行80億參數的Llama 3.1模型，可以達到每秒176 token的吞吐量，同時保持下一個token延遲小於50毫秒。

在配備了酷睿Ultra處理器和銳炫顯卡的AI PC上，進行輕量級微調和應用定制比以往更加容易，並且AI工作負載可無縫部署於CPU、GPU以及NPU上，同時實現性能優化。

基於第五代Intel至強可擴展處理器的Llama 3.1推理延遲

在配備內建Intel銳炫顯示卡的Intel酷睿Ultra 7 165H AI PC上，Llama 3.1推理的下一個token延遲

在使用Intel銳炫A770 16GB限量版顯示卡的AI PC上，Llama 3.1推理的下一個token延遲

基於Llama 3.1的端到端RAG流水線，由Intel Gaudi 2加速器和至強處理器提供支援

WONGCW 網誌