OpenAI推出o3和o3 Mini推理模型明年初對外開放

2024-12-22 Comments 0 Comment

在”12 Days of OpenAI”活動的最後一天，OpenAI 今天宣布即將推出o3 系列推理模型。與現有的o1 系列類似，o3 系列將包括o3 和o3 mini 型號。 OpenAI 也分享了o3 型號的一些基準數據。

OpenAI 聲稱，o3 在程式設計基準測試中的表現優於其他推理模型

o3 在ARC-AGI 半私密評估中的得分突破了75.7%。採用高計算配置的o3 在半私密評估中獲得了87.5% 的分數。
在EpochAI 前沿數學基準測試中，o3 解決了25.2% 的問題，而現有模型只解決了2%。
在SWE-Bench Verified 測試中，o3 獲得了71.7 分，比o1 高出22.8 分。
在Codeforces 上，o3 的Elo 評分為2727。
在AIME 2024 中，o3 獲得了96.7% 的分數。相比之下，o1 的得分是83.3。
在GPQA Diamond 中，o3 得分為87.7%。相比之下，o1 的得分為78%。

ARC 獎團隊就OpenAI 的新o3 模型評價如下：

OpenAI 的新o3 模型代表了人工智慧適應新任務能力的重大飛躍。這不僅僅是漸進式的改進，而是真正的突破，標誌著人工智慧的能力與先前的LLM 限制相比發生了質的轉變。 o3 是一個能夠適應從未遇到過的任務的系統，可以說在ARC-AGI 領域中接近人類水準。

o3 Mini模型將為使用者提供在三個推理等級之間進行選擇的選項：高、中、低三個推理等級。低等級速度最快，但準確度較低，而高等級速度最慢，但準確度較高。

近來推理一詞已成為人工智慧產業的常用流行語，但它基本上是指機器將指令分解成更小的任務，從而產生更強的結果。這些模型通常會展示它是如何得出答案的，而不是不加解釋地給出最終答案。該公司還宣布了關於慎重調整的新研究，這要求人工智慧模型逐步處理安全決策。因此，這種模式要求人工智慧模型主動推理使用者的請求是否符合OpenAI 的安全策略，而不是簡單地給出”是/否”規則。該公司聲稱，在對o1 進行測試時，它在遵守安全準則方面比以前的模型（包括GPT-4）要好得多。

OpenAI 尚未發布o3 模型。不過，從今天開始，它已開始共享o3 模型，用於安全測試。有興趣的安全和安保研究人員也可以申請在公開發布之前使用o3 模型。 o3 模型預計於2025 年對外開放。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

WONGCW 網誌

記錄生活經驗與點滴

OpenAI推出o3和o3 Mini推理模型明年初對外開放

2024-12-22 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆