Llama 4發布36小時負評如潮匿名員工爆料拒絕署名技術報告
Meta最新基礎模型Llama 4發布36小時後,評論區居然是這個畫風:失望,非常失望,不知道他們後訓練怎麼搞的,總之不太行,在[各種測試]2中失敗…

還被做成表情包調侃,總結起來就是一個「差評如潮」。

具體來看,大家的抱怨主要集中在程式碼能力。
最直覺的要數經典「氛圍編程」小球反彈測試,小球直接穿過牆壁掉下去了。

反映在榜單上,成績也相當割裂。
發佈時的官方測評(LiveCodeBench)分數和在大模型競技場表現明明都很不錯。

但到了各種第三方基準測試中,情況大多直接逆轉,排名最後。

讓人不由得懷疑,這個競技場排名到底是數據過擬合,還是刷票了。

就在Llama 4即將發布前幾天,Meta AI研究主管Joelle Pineau在工作8年後突然宣布離職,總之就是不太妙。

Llama 4怎麼了?
大模型關注者火熱實測吐槽之際,一則有關Llama 4的匿名爆料,突然引起軒然大波:
有網友表示自己已向Meta GenAI部門提交提交辭職,並要求不要署名在Llama 4的技術報告上。

原貼發佈在海外留學求職交流平台一畝三分地,在國內也引起許多討論。

此爆料尚未得到證實,但有人搬出Meta GenAI負責人Ahmad Al-Dahle的帖子,至少能看出在Llama 4大模型競技場裡運行的是特殊版本模型。

還有Meta前員工藉此主題貼出2024年11月的一項研究,指出從Llama 1開始資料外洩的問題就存在了。


不只是程式能力一個方面有問題,在EQBench評測基準的長文章寫作榜中,Llama 4系列也直接墊底。

榜單維護者_sqrkl說明了具體情況。
測驗非常簡單,模型需要先完成一個短篇小說的腦力激盪、反思並修改寫作計劃,最後每輪寫1000字,重複8輪以上。
由Claude-Sonnet 3.7來當裁判,先對每章單獨打分,再對整個作品打分數。
Llama 4的低分數表現在寫到後面開始大段的內容重複,而且寫作非常公式化。

對此結果,有一個猜想是先前的版權訴訟讓Meta刪除了網路和書籍數據,使用了更多的合成數據。

在這場訴訟中,許多作家發現自己的作品可能被用於AI訓練,也到倫敦的Meta辦公室附近發起抗議。

Llama 4發布後的種種,讓人聯想到年初的匿名員工爆,有網友表示當初只是隨便看看,現在卻開始相信了:
在這條爆料中,Deepseek v3出來之後,訓練中的Llama4就顯得落後了,中階管理的薪水都比DeepSeek V3的訓練成本都高,Meta內部陷入恐慌模式。

讓人不由得感嘆,DeepSeel-R1橫空出世僅兩個月時間,卻像過了幾輩子。
