洩漏的基準測試顯示Meta Llama 3.1 405B模型的性能可能超過OpenAI GPT-4o
2024 年4 月,Meta 推出了新一代最先進的開源大型語言模式Llama 3。前兩個模型Llama 3 8B 和Llama 3 70B為同類規模的LLM 樹立了新的基準。然而,在短短三個月內,其他幾個LLM 的性能已經超過了它們。
Meta 已經透露,其最大的Llama 3 型號將擁有超過4000 億個參數,目前仍在訓練中。今天,LocalLLaMA 子論壇洩漏了即將推出的Llama 3.1 8B、70B 和405B 模型的早期基準測試結果。洩漏的數據表明,Meta Llama 3.1 405B 可以在幾個關鍵的人工智慧基準測試中超越目前的領先者OpenAI 的GPT-4o。這對開源人工智慧社群來說是一個重要的里程碑,標誌著開源模型可能首次擊敗目前最先進的閉源LLM 模型。
Meta 在”Llama 3″發表會上表示:
我們致力於開放式人工智慧生態系統的持續成長和發展,以負責任的方式發布我們的模型。我們一直堅信,開放會帶來更好、更安全的產品、更快的創新和更健康的整體市場。這對Meta 有利,對社會也有利。
如基準測試所示,Meta Llama 3.1 在GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和winograd 等多項測試中都優於GPT-4。但是,它在HumanEval 和MMLU-social sciences 方面卻落後於GPT-4。
值得注意的是,這些數據來自Llama 3.1 的基本模型。要充分釋放模型的潛力,對其進行教學調整非常重要。隨著Llama 3.1 模型指令版本的發布,其中許多結果可能會有所改善。
儘管OpenAI 即將推出的GPT-5 預計將具備先進的推理能力,可能會挑戰Llama 3.1 在LLM 領域的潛在領導地位,但Llama 3.1 在GPT-4o 中的強勁表現仍然彰顯了開源人工智慧開發的力量和潛力。這種持續的進步可能會使獲取尖端人工智慧技術的途徑更加民主化,並加速技術產業的創新。