OpenAI推出o3和o3 Mini推理模型明年初對外開放
在”12 Days of OpenAI”活動的最後一天,OpenAI 今天宣布即將推出o3 系列推理模型。 與現有的o1 系列類似,o3 系列將包括o3 和o3 mini 型號。 OpenAI 也分享了o3 型號的一些基準數據。
OpenAI 聲稱,o3 在程式設計基準測試中的表現優於其他推理模型
- o3 在ARC-AGI 半私密評估中的得分突破了75.7%。 採用高計算配置的o3 在半私密評估中獲得了87.5% 的分數。
- 在EpochAI 前沿數學基準測試中,o3 解決了25.2% 的問題,而現有模型只解決了2%。
- 在SWE-Bench Verified 測試中,o3 獲得了71.7 分,比o1 高出22.8 分。
- 在Codeforces 上,o3 的Elo 評分為2727。
- 在AIME 2024 中,o3 獲得了96.7% 的分數。 相比之下,o1 的得分是83.3。
- 在GPQA Diamond 中,o3 得分為87.7%。 相比之下,o1 的得分為78%。
ARC 獎團隊就OpenAI 的新o3 模型評價如下:
OpenAI 的新o3 模型代表了人工智慧適應新任務能力的重大飛躍。 這不僅僅是漸進式的改進,而是真正的突破,標誌著人工智慧的能力與先前的LLM 限制相比發生了質的轉變。 o3 是一個能夠適應從未遇到過的任務的系統,可以說在ARC-AGI 領域中接近人類水準。
o3 Mini模型將為使用者提供在三個推理等級之間進行選擇的選項: 高、中、低三個推理等級。 低等級速度最快,但準確度較低,而高等級速度最慢,但準確度較高。
近來推理一詞已成為人工智慧產業的常用流行語,但它基本上是指機器將指令分解成更小的任務,從而產生更強的結果。 這些模型通常會展示它是如何得出答案的,而不是不加解釋地給出最終答案。 該公司還宣布了關於慎重調整的新研究,這要求人工智慧模型逐步處理安全決策。 因此,這種模式要求人工智慧模型主動推理使用者的請求是否符合OpenAI 的安全策略,而不是簡單地給出”是/否”規則。 該公司聲稱,在對o1 進行測試時,它在遵守安全準則方面比以前的模型(包括GPT-4)要好得多。
OpenAI 尚未發布o3 模型。 不過,從今天開始,它已開始共享o3 模型,用於安全測試。 有興趣的安全和安保研究人員也可以申請在公開發布之前使用o3 模型。 o3 模型預計於2025 年對外開放。