Llama 4 是開源模式的全面倒退?
Meta正式推出新一代開源大模型Llama 4,帶來了兩個混合專家(MoE)架構的版本:Scout(109B總參數,17B活躍參數)和Maverick(400B總參數,17B活躍參數)。這一代模型不僅原生支援圖文輸入,還將上下文視窗拓展至驚人的1000萬token,在規格參數上堪稱「頂配開源」。然而,隨著初步評測和對比結果浮出水面,人們發現──它的實際表現,可能沒有我們想像中那麼強。

「Llama 4 是開源模型的全面倒退。」——在Meta發布新一代大模型不到24小時內,這樣的質疑聲音已經出現在多個技術社區。 Llama 4 真的不如前代?還是它只是「看起來拉胯、實則有料」?
本文將基於Artificial Analysis 的獨立評估數據和社群媒體輿情,深入剖析Llama 4 的技術亮點、實際表現與競品差距,並探討這款「爭議中亮相」的新模型究竟是開源未來,還是開源瓶頸的縮影。
Artificial Analysis是一家專注於AI技術創新的公司,致力於提供高效的數據分析和智慧解決方案,旨在加速人類解決問題。其前瞻性技術備受關注。吳恩達評論:“這是一個很棒的網站,測試LLM API速度,幫開發者選模型,補充了其他品質評估,對智慧代理至關重要!”
性能比較:差距不是一點,是一整條街
Artificial Analysis透過其Intelligence Index(涵蓋MMLU-Pro、GPQA Diamond、HumanEval等非推理模型評估)對Llama 4進行了獨立測試,具體結果如下:
1.整體性能(Intelligence Index)

從最新的Artificial Analysis Intelligence Index 綜合榜單來看,Llama 4 的表現讓人大吃一驚。
在這份集通用推理、科學推理、編碼、數學等七項任務為一體的硬核評測中,Google 的Gemini 2.5 Pro、xAI 的Grok 3、以及DeepSeek R1 牢牢佔據前三,綜合得分分別為68、66 和66,實力堪稱天花板級別,屬於開局即封神的選手。
而反觀剛發布的Llama 4 系列:
-Maverick 得分49,不僅被前述三強甩出十幾分的距離,連OpenAI 的GPT-4o和阿里的QwQ-32B都沒打過,未能進入第一梯隊,只能勉強躋身中游。
-Scout 得分僅36,直接與GPT-4o mini 打成平手,甚至被Google 的Gemma 3 27B按在地上摩擦,表現慘不忍睹。
這意味著,無論是旗艦定位的Maverick 還是輕量版的Scout,都未能在關鍵指標上與主流競品拉開差距。特別是Scout,不僅沒展現出「小而強」的性價比,還在多項任務中落後前代產品與同量級模型。
一句話總結:“看起來很強,打起來很虛”,是當前市場對Llama 4 初版表現最真實的反饋。

在非推理任務的對比中,Llama 4 的表現可謂是喜憂參半。 Maverick在開源模型中算是發揮穩定,成功超越部分閉源競品,展現出一定的專業處理能力。然而與頂級模型如DeepSeek V3 和GPT-4o相比,依然存在明顯差距,說明其綜合實力尚未達到第一梯隊的水平。
Scout則較為克制,沒有驚喜也沒有翻車,整體表現與GPT-4o mini相當,雖不具備突破性優勢,但在資源受限場景下仍具備一定實用價值。
整體來看,Llama 4系列雖在非推理能力上具備一定基礎,但距離「強通用、強專業」的開源標桿,還有一段路要走。它們更像是一次架構和方向的試水,而不是一舉超車的終局之作。
2.具體任務表現
Artificial Analysis的評估數據(詳見附圖)涵蓋了通用推理、科學推理、編碼和數學等多個領域,我將相關任務合併分析,聚焦Llama 4(Scout和Maverick)的表現趨勢,並與主要競爭,揭示其優勢與不足。以下簡要補充各指標的意義和重要性,幫助理解評估維度。
1)通用推理:穩中有位,但缺乏突破
通用推理評估模型在廣泛知識和綜合推理能力上的表現,MMLU-Pro涵蓋57個學科的知識廣度,Humanity’s Last Exam則測試複雜推理能力。這類指標對衡量模型在教育、問答等一般場景的適用性至關重要。
Maverick在通用推理任務中表現穩健,在MMLU-Pro中排名靠前,與GPT-4o、Claude 3.7 Sonnet等模型同等,但略遜於DeepSeek V3 V3(Mar 25)。 Scout的表現比較落後,低於Mistral Small 3和GPT-4o mini。

在Humanity’s Last Exam中,Maverick同樣位列前茅,接近DeepSeek V3(Mar 25),優於GPT-4o 和Claude 3.7 Sonnet,Scout則排名中游,略高於Mistral Small 和GPT-4o mini。

結論:在通用推理相關任務中,Maverick 的表現整體可圈可點,尤其在知識廣度和複雜推理方面接近一線閉源模型,雖然略遜於DeepSeek V3,但基本站穩中上游位置。 Scout 則明顯吃力,整體排名不高,甚至落後於部分輕量模型,反映出其在處理廣義知識類任務時的適應能力仍待加強。
2)科學推理:開源難題,Llama 4未解
科學推理透過GPQA Diamond測試模型在生物、物理、化學等領域的專業推理能力,強調多步驟推理和深度理解,對評估模型在學術研究、技術文件處理等專業情境的表現尤其重要。

Maverick在科學推理任務中的表現顯著低於DeepSeek V3和Claude 3.7 Sonnet的水平,排名靠後,未能展現出與頂級模型競爭的能力。 Scout的表現則稍微顯遜色,不僅遠低於GPT-4o mini,甚至低於Meta自己的Llama 3.3 70B,顯示其在專業領域推理上的明顯不足。
結論:面對生物、物理、化學等專業領域的深度推理任務,Llama 4 表現疲軟,尤其是Maverick,雖為高配模型,卻未能在多步驟邏輯和專業理解上展現出預期能力,明顯落後於Claude 和DeepSeek。 Scout 的表現則更加堪憂,不僅輸給GPT-4o mini,甚至被Llama 3.3 70B 反超,顯示其在學術和技術類場景中的適用性非常有限。
3)編碼能力:基礎乏力,高難勉強及格
Maverick在編碼任務中的表現未達預期。在基礎編碼能力(HumanEval)上,Maverick遠低於GPT-4o、Claude 3.7 Sonnet以及DeepSeek V3,僅達到GPT-4o mini的水平,顯示其在基礎代碼生成上的競爭力不足。

在更具挑戰性的競賽級編碼(LiveCodeBench)和科學編碼(SciCode)任務中,Maverick的表現進一步回落,與DeepSeek V3和Claude 3.7 Sonnet的差距不太明顯。

Scout在基礎編碼和科學程式設計任務中表現墊底,排名靠後,遠低於大多數競品。然而,在高難度編碼任務(LiveCodeBench)中,Scout的表現意外接近中位數值,與Claude 3.5 Haiku水準相當,展現了一定的潛力。
結論:Maverick 在程式碼產生任務中並未脫穎而出,基礎程式設計任務的完成度不高,與領先模型有明顯差距。面對競賽級和科學程式設計挑戰時,其表現更為拉胯,難以支撐複雜開發需求。 Scout 則在大部分程式設計任務中墊底,雖在高難度挑戰中偶有亮點,但整體競爭力仍偏弱,不具備「開發者友善」的實用價值。
4)數學:基礎尚可,高階失守
數學任務評估模型的定量推理能力,MATH-500測驗常規數學問題解決能力,AIME 2024則聚焦於高難度競賽級數學推理。這類指標對教育、科學研究和金融建模等需要強大數學能力的場景尤其關鍵。
Maverick在定量推理任務(MATH-500)中表現較為穩健,排名靠前,超越Claude 3.7 Sonnet,但與DeepSeek V3仍存在一定差距,顯示其在常規數學問題解決上的競爭力。 Scout的表現同樣可圈可點,優於GPT-4o mini,並接近Claude 3.7 Sonnet的水平,展現了不錯的基礎數學能力。

然而,在高難度的競賽級數學推理任務(AIME 2024)中,Maverick表現不佳,遠落後DeepSeek V3,僅略高於GPT-4o。

結論:在數學推理方面,Llama 4 兩個版本表現出較明顯的分化。 Maverick 在基礎數學任務中穩健發揮,部分場景甚至可與主流閉源模型媲美,Scout 也展現出一定的定量推理能力,優於部分輕量模型。然而,進入競賽級高難度數學任務後,兩者均顯得力不從心,與DeepSeek V3 等強模型的差距明顯拉大,暴露出複雜推理能力上的短板。
總結:差距不是一點,是一整條街
綜合來看,Llama 4(Maverick 和Scout)在非語言生成的關鍵能力維度上,與DeepSeek V3 之間存在系統性差距。 Maverick雖有部分亮點,但始終處於「差一點」的狀態,在科學推理、編碼和高階數學上幾乎全面落後。 Scout的表現則更為慘烈,不僅被DeepSeek V3 和Claude 系列全面碾壓,甚至在多個維度不敵小模型選手,令人質疑其在專業場景中的實際價值。
Llama 4 所展現的更多是架構層面的潛力,而非實打實的能力躍遷。除非在未來版本中針對專業推理、複雜任務場景進行重點優化,否則很難在真正需要「硬實力」的場合,成為開源替代品的第一選擇。
模型效率

與DeepSeek V3相比,Llama 4 Maverick的活躍參數大約只有其一半(17B對37B),總參數也僅為其60%左右(402B對671B),這表明Maverick以更高的效率實現了其性能表現。此外,Maverick也支援影像輸入,而DeepSeek V3則不具備此功能。
價格

Artificial Analysis追蹤6家服務供應商,並比較評估了Maverick的中位數價格為每百萬輸入/輸出token 0.24美元/0.77美元,而Scout的定價為每百萬輸入/輸出token 0.15美元/0.4美元,其價格不僅低於DeepSeek v3,相比OpenAI資訊領先的更便宜。
最後
那麼,Llama 4到底是不是「開源模型的全面倒退」?從目前的檢驗結果來看,這種說法雖顯極端,卻並非毫無根據。
在多個關鍵任務中,Maverick 勉強追平主流閉源模型的尾巴,而Scout 則在小模型領域表現平平,甚至被自家的Llama 3.3 70B 反超。相較之下,DeepSeek V3 的統治力更像是給所有開源模型潑了一盆冷水。
但退一步看,開源的價值不止於績效指標,更在於長期可控性、社群生態與開放創新的累積潛力。 Llama 4 的多模態架構、超長上下文和低廉定價,仍在為未來鋪路——也許不是現在碾壓閉源的“終極答案”,但可能是通往答案的那一步。
最終,它是倒退還是轉折,要看Meta 和整個開源社區,能否在質疑聲中繼續優化、快速迭代,把短板變成支點。真正的競爭,還遠遠沒有結束。