Meta的Maverick AI模型在基準測試中的排名已明顯低於競爭對手
本週早些時候,Meta因使用其Llama 4 Maverick 模型的未發布實驗版本在眾包基準測試LM Arena 上取得高分而陷入困境。此事促使LM Arena 的維護人員道歉,並修改了他們的政策,並使用未經修改的原始Maverick 進行評分。事實證明,它的競爭力並不強。
https://platform.twitter.com/embed/Tweet.html?creatorScreenName=TechCrunch&dnt=false&embedId=twitter-widget-0&features=eyJ0ZndfdGltZWxpbmVfbGlzdCI6eyJidWNrZXQiOltdLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X2ZvbGxvd2VyX2NvdW50X3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9iYWNrZW5kIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19yZWZzcmNfc2Vzc2lvbiI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfZm9zbnJfc29mdF9pbnRlcnZlbnRpb25zX2VuYWJsZWQiOnsiYnVja2V0Ijoib24iLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X21peGVkX21lZGlhXzE1ODk3Ijp7ImJ1Y2tldCI6InRyZWF0bWVudCIsInZlcnNpb24iOm51bGx9LCJ0ZndfZXhwZXJpbWVudHNfY29va2llX2V4cGlyYXRpb24iOnsiYnVja2V0IjoxMjA5NjAwLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X3Nob3dfYmlyZHdhdGNoX3Bpdm90c19lbmFibGVkIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19kdXBsaWNhdGVfc2NyaWJlc190b19zZXR0aW5ncyI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdXNlX3Byb2ZpbGVfaW1hZ2Vfc2hhcGVfZW5hYmxlZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdmlkZW9faGxzX2R5bmFtaWNfbWFuaWZlc3RzXzE1MDgyIjp7ImJ1Y2tldCI6InRydWVfYml0cmF0ZSIsInZlcnNpb24iOm51bGx9LCJ0ZndfbGVnYWN5X3RpbWVsaW5lX3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9mcm9udGVuZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9fQ%3D%3D&frame=false&hideCard=false&hideThread=false&id=1910705956486336586&lang=en&origin=https%3A%2F%2Ftechcrunch.com%2F2025%2F04%2F11%2Fmetas-vanilla-maverick-ai-model-ranks-below-rivals-on-a-popular-chat-benchmark%2F&sessionId=24458f30fd7b2bc367985cb2cd94bcfef474b11e&siteScreenName=TechCrunch&theme=light&widgetsVersion=2615f7e52b7e0%3A1702314776716&width=550px
截至週五,未經修改的Maverick 模型「Llama-4-Maverick-17B-128E-Instruct」的排名低於OpenAI 的GPT-4o、Anthropic 的Claude 3.5 Sonnet 和Google的Gemini 1.5 Pro 等模型。這些模型中有許多甚至都是幾個月前推出的。
為什麼表現不佳? Meta上週六發布的圖表中解釋道,其實驗性的Maverick 模型Llama-4-Maverick-03-26-Experimental 已“針對對話性進行了優化” 。這些優化顯然在LM Arena 中表現出色,因為該平台要求人類評分員比較各個模型的輸出,並選擇他們更傾向於哪個模型。

由於各種原因,LM Arena 從來都不是衡量AI 模型表現的最可靠指標。然而,根據基準定制模型——除了誤導性之外——也使得開發人員難以準確預測模型在不同環境下的表現。
Meta 發言人在聲明中表示,Meta 嘗試了「所有類型的自訂變體」。
「’Llama-4-Maverick-03-26-Experimental’ 是我們測試過的聊天優化版本,在LMArena 上也表現良好,」發言人表示。 “我們現在已經發布了開源版本,並將觀察開發者如何根據自身用例定制Llama 4。我們非常期待看到他們最終的成果,並期待他們持續的反饋。”