反擊DeepSeek失敗Llama 4效果不好,Meta承認有問題
今天凌晨1點半,Meta生成式AI領導者Ahmad Al-Dahle在社群平台上發布了一篇長文,對前天剛開源的Llama 4質疑進行了官方回應。 Ahmad表示,Llama 4一開發完就發布了,所以,不同服務中模型品質難免會有一些差異。 Meta很快就會修復這些漏洞提升效能。同時否認在測試集上進行了預訓練。
但Meta在官網發佈時特意點名DeepSeek,說他們新開源的Llama 4 Maverick在代碼能力可以比肩其新開源的V3模型,國內不少知名媒體也以此為噱頭來寫標題。
現在看來Meta首次反擊是失敗了,期待他們後續優化以及正訓練的2萬億參數的教師模型。

以下是Ahmad完整聲明:
我們很高興能開始讓大家都使用Llama 4。我們已經聽說很多人使用這些模型取得了不錯的成果。
話雖如此,我們也聽到了一些關於不同服務中模型品質參差不齊的報告。由於模型一準備好我們就發布了,所以我們預計所有公開的應用實作都需要幾天時間來進行最佳化調整。我們會繼續進行漏洞修復工作,並與合作夥伴完成對接流程。
我們也聽到有人聲稱Llama 4在測試集上進行了訓練,這純屬無稽之談,我們絕對不會這麼做。根據我們的判斷,人們所看到的品質差異是由於需要對應用實現進行穩定化處理所造成的。
我們相信Llama 4 模型是一項重大的技術進步,我們期待與社區合作,充分挖掘其價值。
其實,在Llama 4開源當天就有人質疑其效能。其程式碼能力比Grok 3、DeepSeek V3、Sonnet 3.5/7差很多。

無論是Scout還是Maverick模型,我使用了詳盡的提示詞,在實際編碼方面似乎都幾乎無法使用。
考慮到Meta 公司付出的努力,我很驚訝一個4000億參數的模型(即便它是混合專家模型)表現竟如此糟糕。它與DeepSeekV3」相比差距甚遠。

我們對不同平台提供的Scout和Maverick進行了測試,結果發現這兩款模型表現都不佳,甚至被參數規模更小的模型比下去了。
在基礎程式設計任務之外,它們就會出錯,而且在遵循指令方面能力也很弱。 Maverick的排名接近Google的Gemini 2.5,令人擔憂。它們給人的感覺就像是GPT-3.5 時代的模型。很高興Meta正在採取措施讓情況穩定下來。

能夠提前使用Llama 4 固然很棒,但這裡有個關鍵事實:一個強大的模型,其實際效果取決於它的應用實現情況。
你在實驗室裡測試的效果,並不等於使用者在實際使用上所體驗到的效果。在過度炒作和實際操作之間存在的差距,才是真正需要努力填補的地方。

鑑於許多運行時環境都是開源的,或許未來在發布產品以免陷入如此混亂的局面之前,你們能夠確保那些修復措施已經落實到位? 「是你使用方式不對」 這種說辭可不大好聽。

也有網友質疑Meta刷榜:「品質參差不齊」? ?我看到的每項基準測試中,Llama 4 的表現都糟透了,除非你參考的是LMSYS 的「1417 eon」基準測試結果。
你們向LMSYS 開放了哪個API呢?因為目前LMSYS 那邊的模型清單中的表現也非常差。

Llama 4 就是垃圾,你們在這件事上搞砸得太厲害了。與其誤導大家,不如承認錯誤。不確定在測試集上動手腳這件事是不是真的,但鑑於它在基準測試中的高分以及在現實世界中糟糕的表現,這種可能性似乎很大。

在聊天機器人競技場的大語言模型排行榜上,Meta 公司的Llama 4 Maverick 在程式設計方面排名第一。
然而,幾乎我給的每一個難的程式提示或中等難度的程式提示,它都無法完成。在程式設計方面,它比DeepSeek V3 – 0324、Claude 3.5/3.7 Sonnet 或Gemini 2.0 Pro 差得多。
所以,這位網友也在質疑Meta刷榜的問題。

其實從發布的時間點就能看出來,Meta這次還沒準備好。作為類ChatGPT的開源鼻祖之一,Llama 4這麼重磅的開源模型,居然放在了美國週六的大晚上發布(國內的周日凌晨3點),這太不符合常規了。
按照他們以往發布的Llama系列模型,通常會放在美國週二、週三早上10點左右。所以,在發布Llama 4時他們本身就心虛。
DeepSeek的橫空出世給Meta造成了巨大壓力,其用戶、口碑正在嚴重流失,他們急需一款重磅產品挽回敗局。今年過年DeepSeek瘋狂刷屏那段時間,Meta也刻意組建了「作戰研究室」來研究其模型。但從最終結果來看,依然不是很理想。
此外,由於關稅大戰的原因,Meta的股票遭遇重創,他們也需要一個利好消息來拉升股票,現在適得其反。