洩漏的基準測試顯示Meta Llama 3.1 405B模型的性能可能超過OpenAI GPT-4o

2024-07-23 Comments 0 Comment

2024 年4 月，Meta 推出了新一代最先進的開源大型語言模式Llama 3。前兩個模型Llama 3 8B 和Llama 3 70B為同類規模的LLM 樹立了新的基準。然而，在短短三個月內，其他幾個LLM 的性能已經超過了它們。

1721670907_meta_llama_3.1_405b_model.jpg

Meta 已經透露，其最大的Llama 3 型號將擁有超過4000 億個參數，目前仍在訓練中。今天，LocalLLaMA 子論壇洩漏了即將推出的Llama 3.1 8B、70B 和405B 模型的早期基準測試結果。洩漏的數據表明，Meta Llama 3.1 405B 可以在幾個關鍵的人工智慧基準測試中超越目前的領先者OpenAI 的GPT-4o。這對開源人工智慧社群來說是一個重要的里程碑，標誌著開源模型可能首次擊敗目前最先進的閉源LLM 模型。

Meta 在”Llama 3″發表會上表示：

我們致力於開放式人工智慧生態系統的持續成長和發展，以負責任的方式發布我們的模型。我們一直堅信，開放會帶來更好、更安全的產品、更快的創新和更健康的整體市場。這對Meta 有利，對社會也有利。

如基準測試所示，Meta Llama 3.1 在GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和winograd 等多項測試中都優於GPT-4。但是，它在HumanEval 和MMLU-social sciences 方面卻落後於GPT-4。

值得注意的是，這些數據來自Llama 3.1 的基本模型。要充分釋放模型的潛力，對其進行教學調整非常重要。隨著Llama 3.1 模型指令版本的發布，其中許多結果可能會有所改善。

儘管OpenAI 即將推出的GPT-5 預計將具備先進的推理能力，可能會挑戰Llama 3.1 在LLM 領域的潛在領導地位，但Llama 3.1 在GPT-4o 中的強勁表現仍然彰顯了開源人工智慧開發的力量和潛力。這種持續的進步可能會使獲取尖端人工智慧技術的途徑更加民主化，並加速技術產業的創新。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

WONGCW 網誌

記錄生活經驗與點滴

洩漏的基準測試顯示Meta Llama 3.1 405B模型的性能可能超過OpenAI GPT-4o

2024-07-23 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆