英特爾宣布針對Llama 3.1進行最佳化以提升所有產品的效能
日前Meta正式發布了Llama 3.1開源大模型,以其龐大的參數量和卓越性能,首次在多項基準測試中擊敗了GPT-4o等業界領先的閉源模型。允許開發者自由地進行微調、蒸餾,甚至在任何地方部署,這種開放性為AI技術的普及和創新提供了無限可能。
Llama 3.1支援128k的上下文長度和多語言能力,無論是在基本常識、可操作性還是數學、工具使用和多語言翻譯方面,都展現出了行業領先的能力。
緊隨其後,晶片巨擘Intel迅速回應,宣布其AI產品組合已全面適配Llama 3.1,並針對Intel AI硬體進行了軟體最佳化。
包含了資料中心、邊緣運算以及客戶端AI產品,確保使用者能夠在Intel平台上獲得最佳的效能體驗。
Intel的適配工作涵蓋了PyTorch及Intel PyTorch擴充包、DeepSpeed、Hugging Face Optimum函式庫和vLLM等,確保了從研發到部署的全流程支援。
目前,Intel AI PC及資料中心AI產品組合及解決方案已面向全新Llama 3.1模型實現最佳化,OPEA(企業AI開放平台)亦在基於Intel至強等產品上全面啟用。
根據基準測試,在第五代Intel至強平台上以1K token輸入和128 token輸出運行80億參數的Llama 3.1模型,可以達到每秒176 token的吞吐量,同時保持下一個token延遲小於50毫秒。
在配備了酷睿Ultra處理器和銳炫顯卡的AI PC上,進行輕量級微調和應用定制比以往更加容易,並且AI工作負載可無縫部署於CPU、GPU以及NPU上,同時實現性能優化。
基於第五代Intel至強可擴展處理器的Llama 3.1推理延遲
在配備內建Intel銳炫顯示卡的Intel酷睿Ultra 7 165H AI PC上,Llama 3.1推理的下一個token延遲
在使用Intel銳炫A770 16GB限量版顯示卡的AI PC上,Llama 3.1推理的下一個token延遲
基於Llama 3.1的端到端RAG流水線,由Intel Gaudi 2加速器和至強處理器提供支援