Groq LPU人工智慧推理晶片的運算表現可與主流廠商媲美
人工智慧工作負載分為兩個不同的類別:訓練和推理。雖然訓練需要較大的計算和記憶體容量,但存取速度並非主要因素,推理則是另一回事。在推理中,人工智慧模型必須以極快的速度運行,為最終用戶提供盡可能多的詞塊(單字),從而更快地回答用戶的提示。
一家人工智慧晶片新創公司Groq 曾經長期默默無聞,但現在它利用專為大型語言模型(LLM)(如GPT、Llama 和Mistral LLM)設計的語言處理單元(LPU),在提供超快推理速度方面取得了重大進展。
Groq LPU 是基於張量流處理器(TSP)架構的單核心單元,在INT8 時可達到750 TOPS,在FP16 時可達到188 TeraFLOPS,具有320×320 融合點乘矩陣乘法,此外還有5120 個向量ALU。
Groq LPU 擁有80 TB/s 的頻寬,並具有大規模並發能力,其本地SRAM 容量為230 MB。所有這些共同作用,為Groq 提供了出色的性能,在過去幾天的互聯網上掀起了波瀾。
在Mixtral 8x7B 模型中,Groq LPU 的推理速度為每秒480 個令牌,在業界處於領先地位。在Llama 2 70B 等上下文長度為4096 個令牌的模型中,Groq 每秒可提供300 個令牌,而在上下文長度為2048 個令牌的較小Llama 2 7B 中,Groq LPU 每秒可輸出750個令牌。
根據LLMPerf Leaderboard 的數據,Groq LPU 在推斷LLMs Llama 時擊敗了基於GPU 的雲端供應商,其配置參數從70 億到700 億不等。在令牌吞吐量(輸出)和到第一個令牌的時間(延遲)方面,Groq處於領先地位,實現了最高的吞吐量和第二低的延遲。
ChatGPT 採用GPT-3.5 免費版,每秒可輸出約40 個代幣。目前的開源LLM(如Mixtral 8x7B)可以在大多數基準測試中擊敗GPT 3.5,現在這些開源LLM 的運行速度幾乎可以達到500 代幣每秒。隨著像Groq 的LPU 這樣的快速推理晶片開始普及,等待聊天機器人回應的日子似乎開始慢慢消失了。
這家人工智慧新創公司直接威脅到英偉達(NVIDIA)、AMD 和英特爾提供的推理硬件,但業界是否願意採用LPU 仍是個問題,您可以在這裡進行試用: