OpenAI 的o3 I 模型在基準測試中的表現差於宣傳描述
OpenAI 的o3 AI 模型的第一方和第三方基準測試結果之間的差異引發了人們對該公司透明度和模型測試實踐的質疑。 OpenAI在12 月發布o3時,聲稱模型能夠解答FrontierMath(一組頗具挑戰性的數學問題)中略高於四分之一的題目。這項成績遠遠超出了競爭對手——排名第二的模型也只能正確解答FrontierMath 主題2% 左右。

OpenAI 首席研究官Mark Chen在直播中表示:“目前,所有產品在FrontierMath 上的得分都不到2%。我們內部看到,在激進的測試時間計算設置下,o3 的得分能夠超過25%。”
事實證明,這個數字很可能是一個上限,由o3 的一個版本實現,背後的運算能力比OpenAI 上週公開發布的模型更強。
FrontierMath 背後的研究機構Epoch AI 週五公佈了其對o3 的獨立基準測試結果。 Epoch 發現o3 的得分約為10%,遠低於OpenAI 宣稱的最高得分。
https://platform.twitter.com/embed/Tweet.html?creatorScreenName=TechCrunch&dnt=false&embedId=twitter-widget-0&features=eyJ0ZndfdGltZWxpbmVfbGlzdCI6eyJidWNrZXQiOltdLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X2ZvbGxvd2VyX2NvdW50X3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9iYWNrZW5kIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19yZWZzcmNfc2Vzc2lvbiI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfZm9zbnJfc29mdF9pbnRlcnZlbnRpb25zX2VuYWJsZWQiOnsiYnVja2V0Ijoib24iLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X21peGVkX21lZGlhXzE1ODk3Ijp7ImJ1Y2tldCI6InRyZWF0bWVudCIsInZlcnNpb24iOm51bGx9LCJ0ZndfZXhwZXJpbWVudHNfY29va2llX2V4cGlyYXRpb24iOnsiYnVja2V0IjoxMjA5NjAwLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X3Nob3dfYmlyZHdhdGNoX3Bpdm90c19lbmFibGVkIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19kdXBsaWNhdGVfc2NyaWJlc190b19zZXR0aW5ncyI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdXNlX3Byb2ZpbGVfaW1hZ2Vfc2hhcGVfZW5hYmxlZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdmlkZW9faGxzX2R5bmFtaWNfbWFuaWZlc3RzXzE1MDgyIjp7ImJ1Y2tldCI6InRydWVfYml0cmF0ZSIsInZlcnNpb24iOm51bGx9LCJ0ZndfbGVnYWN5X3RpbWVsaW5lX3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9mcm9udGVuZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9fQ%3D%3D&frame=false&hideCard=false&hideThread=false&id=1913379475468833146&lang=en&origin=https%3A%2F%2Ftechcrunch.com%2F2025%2F04%2F20%2Fopenais-o3-ai-model-scores-lower-on-a-benchmark-than-the-company-initially-implied%2F&sessionId=9246c6100bb9f098bf82c71738049d1ec6495c4e&siteScreenName=TechCrunch&theme=light&widgetsVersion=2615f7e52b7e0%3A1702314776716&width=550px
這並不意味著OpenAI 本身撒了謊。該公司12 月發布的基準測試結果顯示,其得分下限與Epoch 觀察到的得分一致。 Epoch 也指出,其測試設定可能與OpenAI 不同,且其評估使用的是FrontierMath 的更新版本。
Epoch 寫道:「我們的結果與OpenAI 的結果之間的差異可能是由於OpenAI 使用更強大的內部支架進行評估,使用了更多的測試時間[計算],或者因為這些結果是在FrontierMath 的不同子集上運行的(frontiermath-2024-11-26 中的180 個問題與 202-20212-180 個問題與 2-pri 202-202-202-202-202-202-202-20 202-202-202-20 202-202-202-20 202-202-202-202-202-202-202-202-20 202-202-202-20 202-202 的問題-2012-2012-20 2 . 」
根據ARC 獎基金會(一個測試過o3 預發布版本的組織)在X 上的一篇文章,公共o3 模型“是一個針對聊天/產品使用進行調整的不同模型”,證實了Epoch 的報道。
ARC Prize 寫道:「所有已發布的o3 計算層都比我們[基準測試]的版本要小。」 一般來說,更大的計算層有望獲得更好的基準測試分數。
https://platform.twitter.com/embed/Tweet.html?creatorScreenName=TechCrunch&dnt=false&embedId=twitter-widget-1&features=eyJ0ZndfdGltZWxpbmVfbGlzdCI6eyJidWNrZXQiOltdLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X2ZvbGxvd2VyX2NvdW50X3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9iYWNrZW5kIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19yZWZzcmNfc2Vzc2lvbiI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfZm9zbnJfc29mdF9pbnRlcnZlbnRpb25zX2VuYWJsZWQiOnsiYnVja2V0Ijoib24iLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X21peGVkX21lZGlhXzE1ODk3Ijp7ImJ1Y2tldCI6InRyZWF0bWVudCIsInZlcnNpb24iOm51bGx9LCJ0ZndfZXhwZXJpbWVudHNfY29va2llX2V4cGlyYXRpb24iOnsiYnVja2V0IjoxMjA5NjAwLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X3Nob3dfYmlyZHdhdGNoX3Bpdm90c19lbmFibGVkIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19kdXBsaWNhdGVfc2NyaWJlc190b19zZXR0aW5ncyI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdXNlX3Byb2ZpbGVfaW1hZ2Vfc2hhcGVfZW5hYmxlZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdmlkZW9faGxzX2R5bmFtaWNfbWFuaWZlc3RzXzE1MDgyIjp7ImJ1Y2tldCI6InRydWVfYml0cmF0ZSIsInZlcnNpb24iOm51bGx9LCJ0ZndfbGVnYWN5X3RpbWVsaW5lX3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9mcm9udGVuZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9fQ%3D%3D&frame=false&hideCard=false&hideThread=false&id=1912606277257298415&lang=en&origin=https%3A%2F%2Ftechcrunch.com%2F2025%2F04%2F20%2Fopenais-o3-ai-model-scores-lower-on-a-benchmark-than-the-company-initially-implied%2F&sessionId=9246c6100bb9f098bf82c71738049d1ec6495c4e&siteScreenName=TechCrunch&theme=light&widgetsVersion=2615f7e52b7e0%3A1702314776716&width=550px
OpenAI 的技術人員周文達(Wenda Zhou)在上週的直播中表示,與12 月演示的o3 版本相比,生產版o3“針對實際用例進行了更優化”,速度也更快。因此,它可能會表現出基準測試的“差異”,他補充道。
「我們已經做了一些優化,使這個模型更具成本效益,並且總體上更有用,」週說道。 「我們仍然希望——我們仍然認為——這是一個更好的模型[…] 當你需要答案時不必等待太久,而這些[類型的]模型確實做到了這一點。”
誠然,o3 的公開發布未能達到OpenAI 的測試承諾這一事實有點無意義,因為該公司的o3-mini-high 和o4-mini 模型在FrontierMath 上的表現優於o3,而且OpenAI 計劃在未來幾週推出更強大的o3 變體o3-pro。
然而,這再次提醒我們,最好不要只看表面價值來理解人工智慧基準——尤其是當其來源是一家出售服務的公司時。
隨著供應商競相利用新模型吸引眼球並搶佔市場份額,基準測試「爭議」正在成為人工智慧產業的常見現象。今年1 月,Epoch因遲遲未披露OpenAI 的資助而受到批評,直到OpenAI 宣布o3 項目後才披露。許多為FrontierMath 做出貢獻的學者直到OpenAI 公開宣布後才得知此事。
最近,馬斯克的xAI 被指發布了其最新AI 模型Grok 3 的誤導性基準圖表。就在本月,Meta 承認其吹捧的模型版本基準分數與該公司向開發人員提供的版本不同。