Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

OpenAI 的o3 I 模型在基準測試中的表現差於宣傳描述

OpenAI 的o3 I 模型在基準測試中的表現差於宣傳描述

2025-04-22 Comments 0 Comment

OpenAI 的o3 AI 模型的第一方和第三方基準測試結果之間的差異引發了人們對該公司透明度和模型測試實踐的質疑。 OpenAI在12 月發布o3時,聲稱模型能夠解答FrontierMath(一組頗具挑戰性的數學問題)中略高於四分之一的題目。這項成績遠遠超出了競爭對手——排名第二的模型也只能正確解答FrontierMath 主題2% 左右。

Go2vxQ5XYAA9nCQ.jpg

OpenAI 首席研究官Mark Chen在直播中表示:“目前,所有產品在FrontierMath 上的得分都不到2%。我們內部看到,在激進的測試時間計算設置下,o3 的得分能夠超過25%。”

事實證明,這個數字很可能是一個上限,由o3 的一個版本實現,背後的運算能力比OpenAI 上週公開發布的模型更強。

FrontierMath 背後的研究機構Epoch AI 週五公佈了其對o3 的獨立基準測試結果。 Epoch 發現o3 的得分約為10%,遠低於OpenAI 宣稱的最高得分。

https://platform.twitter.com/embed/Tweet.html?creatorScreenName=TechCrunch&dnt=false&embedId=twitter-widget-0&features=eyJ0ZndfdGltZWxpbmVfbGlzdCI6eyJidWNrZXQiOltdLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X2ZvbGxvd2VyX2NvdW50X3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9iYWNrZW5kIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19yZWZzcmNfc2Vzc2lvbiI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfZm9zbnJfc29mdF9pbnRlcnZlbnRpb25zX2VuYWJsZWQiOnsiYnVja2V0Ijoib24iLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X21peGVkX21lZGlhXzE1ODk3Ijp7ImJ1Y2tldCI6InRyZWF0bWVudCIsInZlcnNpb24iOm51bGx9LCJ0ZndfZXhwZXJpbWVudHNfY29va2llX2V4cGlyYXRpb24iOnsiYnVja2V0IjoxMjA5NjAwLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X3Nob3dfYmlyZHdhdGNoX3Bpdm90c19lbmFibGVkIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19kdXBsaWNhdGVfc2NyaWJlc190b19zZXR0aW5ncyI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdXNlX3Byb2ZpbGVfaW1hZ2Vfc2hhcGVfZW5hYmxlZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdmlkZW9faGxzX2R5bmFtaWNfbWFuaWZlc3RzXzE1MDgyIjp7ImJ1Y2tldCI6InRydWVfYml0cmF0ZSIsInZlcnNpb24iOm51bGx9LCJ0ZndfbGVnYWN5X3RpbWVsaW5lX3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9mcm9udGVuZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9fQ%3D%3D&frame=false&hideCard=false&hideThread=false&id=1913379475468833146&lang=en&origin=https%3A%2F%2Ftechcrunch.com%2F2025%2F04%2F20%2Fopenais-o3-ai-model-scores-lower-on-a-benchmark-than-the-company-initially-implied%2F&sessionId=9246c6100bb9f098bf82c71738049d1ec6495c4e&siteScreenName=TechCrunch&theme=light&widgetsVersion=2615f7e52b7e0%3A1702314776716&width=550px

這並不意味著OpenAI 本身撒了謊。該公司12 月發布的基準測試結果顯示,其得分下限與Epoch 觀察到的得分一致。 Epoch 也指出,其測試設定可能與OpenAI 不同,且其評估使用的是FrontierMath 的更新版本。

Epoch 寫道:「我們的結果與OpenAI 的結果之間的差異可能是由於OpenAI 使用更強大的內部支架進行評估,使用了更多的測試時間[計算],或者因為這些結果是在FrontierMath 的不同子集上運行的(frontiermath-2024-11-26 中的180 個問題與 202-20212-180 個問題與 2-pri 202-202-202-202-202-202-202-20 202-202-202-20 202-202-202-20 202-202-202-202-202-202-202-202-20 202-202-202-20 202-202 的問題-2012-2012-20 2 .  」

根據ARC 獎基金會(一個測試過o3 預發布版本的組織)在X 上的一篇文章,公共o3 模型“是一個針對聊天/產品使用進行調整的不同模型”,證實了Epoch 的報道。

ARC Prize 寫道:「所有已發布的o3 計算層都比我們[基準測試]的版本要小。」 一般來說,更大的計算層有望獲得更好的基準測試分數。

https://platform.twitter.com/embed/Tweet.html?creatorScreenName=TechCrunch&dnt=false&embedId=twitter-widget-1&features=eyJ0ZndfdGltZWxpbmVfbGlzdCI6eyJidWNrZXQiOltdLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X2ZvbGxvd2VyX2NvdW50X3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9iYWNrZW5kIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19yZWZzcmNfc2Vzc2lvbiI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfZm9zbnJfc29mdF9pbnRlcnZlbnRpb25zX2VuYWJsZWQiOnsiYnVja2V0Ijoib24iLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X21peGVkX21lZGlhXzE1ODk3Ijp7ImJ1Y2tldCI6InRyZWF0bWVudCIsInZlcnNpb24iOm51bGx9LCJ0ZndfZXhwZXJpbWVudHNfY29va2llX2V4cGlyYXRpb24iOnsiYnVja2V0IjoxMjA5NjAwLCJ2ZXJzaW9uIjpudWxsfSwidGZ3X3Nob3dfYmlyZHdhdGNoX3Bpdm90c19lbmFibGVkIjp7ImJ1Y2tldCI6Im9uIiwidmVyc2lvbiI6bnVsbH0sInRmd19kdXBsaWNhdGVfc2NyaWJlc190b19zZXR0aW5ncyI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdXNlX3Byb2ZpbGVfaW1hZ2Vfc2hhcGVfZW5hYmxlZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9LCJ0ZndfdmlkZW9faGxzX2R5bmFtaWNfbWFuaWZlc3RzXzE1MDgyIjp7ImJ1Y2tldCI6InRydWVfYml0cmF0ZSIsInZlcnNpb24iOm51bGx9LCJ0ZndfbGVnYWN5X3RpbWVsaW5lX3N1bnNldCI6eyJidWNrZXQiOnRydWUsInZlcnNpb24iOm51bGx9LCJ0ZndfdHdlZXRfZWRpdF9mcm9udGVuZCI6eyJidWNrZXQiOiJvbiIsInZlcnNpb24iOm51bGx9fQ%3D%3D&frame=false&hideCard=false&hideThread=false&id=1912606277257298415&lang=en&origin=https%3A%2F%2Ftechcrunch.com%2F2025%2F04%2F20%2Fopenais-o3-ai-model-scores-lower-on-a-benchmark-than-the-company-initially-implied%2F&sessionId=9246c6100bb9f098bf82c71738049d1ec6495c4e&siteScreenName=TechCrunch&theme=light&widgetsVersion=2615f7e52b7e0%3A1702314776716&width=550px

OpenAI 的技術人員周文達(Wenda Zhou)在上週的直播中表示,與12 月演示的o3 版本相比,生產版o3“針對實際用例進行了更優化”,速度也更快。因此,它可能會表現出基準測試的“差異”,他補充道。

「我們已經做了一些優化,使這個模型更具成本效益,並且總體上更有用,」週說道。 「我們仍然希望——我們仍然認為——這是一個更好的模型[…] 當你需要答案時不必等待太久,而這些[類型的]模型確實做到了這一點。”

誠然,o3 的公開發布未能達到OpenAI 的測試承諾這一事實有點無意義,因為該公司的o3-mini-high 和o4-mini 模型在FrontierMath 上的表現優於o3,而且OpenAI 計劃在未來幾週推出更強大的o3 變體o3-pro。

然而,這再次提醒我們,最好不要只看表面價值來理解人工智慧基準——尤其是當其來源是一家出售服務的公司時。

隨著供應商競相利用新模型吸引眼球並搶佔市場份額,基準測試「爭議」正在成為人工智慧產業的常見現象。今年1 月,Epoch因遲遲未披露OpenAI 的資助而受到批評,直到OpenAI 宣布o3 項目後才披露。許多為FrontierMath 做出貢獻的學者直到OpenAI 公開宣布後才得知此事。

最近,馬斯克的xAI 被指發布了其最新AI 模型Grok 3 的誤導性基準圖表。就在本月,Meta 承認其吹捧的模型版本基準分數與該公司向開發人員提供的版本不同。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
洞穴線索揭示早期人類如何穿越地球上環境條件最嚴酷的沙漠
NEXT
已有三家美系車企停止向中國出口

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 4 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
282930  
« 3 月   5 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 哈伯捕捉到傾斜的螺旋星係其中充滿了早期恆星和發光氣體 2025-05-21
  • AMD官宣FSR重大更新帶來機器學習光線追蹤、幀生成等 2025-05-21
  • 兩倍大小,50倍能量天文學家揭示木星的原始歷史 2025-05-21
  • 黃仁勳:無法證明AI晶片違規走私到中國大陸幾乎無法追蹤 2025-05-21
  • Google Chrome 將能夠自動登入網站變更您的弱密碼 2025-05-21
  • 全新蔚來ET5/ET5T官圖發表:5月25日正式上市新增淡紫/月灰銀車漆 2025-05-21
  • 沃爾沃將率先在其車款中安裝Google Gemini 2025-05-21
  • Canalys:自研AP+外掛基帶是小米玄戒SoC發展最佳途徑 2025-05-21
  • 馬斯克再次痛批比爾蓋茲:他和性犯罪者來往密切不放心讓他給我看孩子 2025-05-21
  • 特斯拉車主紛紛安裝DIY拉繩避免事故時被全電動門圍困 2025-05-21

熱門文章與頁面︰

  • 微軟員工再次擾亂Satya Nadella 的主題演講
  • Google製作了專門針對UI設計的AI開發工具
  • 您可以在Windows 11 24H2 中找回WordPad
  • ROG NUC 2025迷你遊戲PC上市:Ultra 9 275HX+RTX 5080首發24999元
  • Red Hat Enterprise Linux 10 正式發布
  • Autodesk AutoCAD 2020.1 正式版-簡體中文/繁體中文/英文
  • 惠普收購Autonomy世紀詐欺案主謀被判無罪
  • 華為nova 14、MateBook Fold等17款新價格總表
  • 揭密蘋果製造工廠:每年的支出可以造兩艘航母
  • 新冠病毒又抬頭了嗎鐘南山發聲:沒必要恐慌預計6月底前結束

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.