奧特曼率隊深夜血戰DeepSeek o3-mini急上線價格骨折免費用
眼看DeepSeek風頭盡顯,被逼急的OpenAI果然緊急發布了o3-mni。不光免費用戶都能用,每百萬輸入輸出token價格更是瘋狂跳水打骨折價! o3-mini,真的來了。剛剛,OpenAI官宣o3-mini和o3-mini-high兩大版本正式在ChatGPT上線。


誠然奧特曼所言,免費用戶直接打開’Reason’即可體驗,Plus用戶每天會有更多用量,具體來說:
– ChatGPT免費版:首次體驗推理模型
– ChatGPT Plus和團隊版:每天150次對話限制
– ChatGPT Pro:無限制訪問
– ChatGPT Enterprise和ChatGPT Edu:將在一周內可用
– API:開放3-5級開發者(初期暫不支援影像分析功能)
– 輸入1.10美元/百萬token、輸出4.40美元/百萬token
感謝DeepSeek,o3-mini的價格這次算是徹底給打下來了——比OpenAI o1-mini便宜63%,比滿血版o1便宜93%。 (但仍是GPT-4o mini的7倍左右)

訂閱用戶已經在第一時間’告別’了o1-mini,還來不及說再見
OpenAI表示,o3-mini的發布是追求高效能智慧技術道路上的另一個重要里程碑。
透過優化科學(Science)、技術(Technology)、工程(Engineering)和數學(Mathematics)領域的推理能力,同時保持較低的成本,讓高品質AI技術變得更加平易近人。
值得一提的是,在ChatGPT中,o3-mini採用的是’中等推理強度’,在速度和準確性之間取得平衡。所有付費用戶還可以在模型選擇器中選擇o3-mini-high——響應時間略長但智慧水平更高的版本。

目前,由於太過火爆,ChatGPT的專案和自訂GPTs功能都已經被擠崩了。

集成搜索,兩種版本可選
去年12月,十二天直播最後一彈,o3系列首次亮相便驚艷了所有人。相較於上一代o1模型,o3在ARC-AGI等多項基準測試中刷新SOTA。
與o1-mini一樣,o3-mini是最具性價比的推理模型,可謂是突破性能邊界的’小巨人’。
在STEM領域,尤其是科學、數學和程式設計等方面,o3-mini性能表現卓越超越o1,並繼承了上一代低成本和低延遲的優點。

對於開發者來說,o3-mini簡直就是一份’大禮包’,它首次在小型推理模型中支援:包括函數呼叫、結構化輸出和開發者訊息、串流功能。
開發者可以根據需求選擇低、中、高三種推理強度,讓o3-mini在處理複雜問題時進行’深度思考’,靈活平衡速度和準確性。
遺憾地是,o3-mini暫不支援視覺功能。
如前所述,從今天起,o3-mini將透過Chat Completions API,Assistants API和Batch API向3-5級指定開發者開放。
同時,o3-mini也整合了搜尋功能,能夠提供具有相關網路來源連結最新回應。
一起來看看這款’小而美’的o3-mini有什麼過人之處。
快速、強大、專為STEM領域推理優化
與其前身OpenAI o1類似,OpenAI o3-mini專門針對STEM推理進行了最佳化。
採用了中等推理強度的o3-mini,在數學、程式設計和科學領域的表現與o1不相上下,且反應速度更快。

報告地址:https://cdn.openai.com/o3-mini-system-card.pdf
專家測驗評估顯示,o3-mini相比o1-mini能夠產生更準確、更清晰的答案,推理能力更強。
在測試中,o3-mini的反應結果獲得了56%的偏好度,在處理複雜現實問題時的重大錯誤率更是降低了39%。
在中等推理強度設定下,o3-mini在最具挑戰性的推理和智能評估項目(包括AIME和GPQA)中,均達到了與o1相當的水平。
數學競賽(AIME 2024)
在低推理強度下,o3-mini達到了與o1-mini相當的水平;在中等推理強度下,其表現可與o1媲美;而在高推理強度下,o3-mini的表現更是超越了o1- mini和o1。

博士級科學問題(GPQA Diamond)

研究級數學(FrontierMath)
在高推理強度模式下,o3-mini在FrontierMath中的表現優於前代產品。當配合Python工具使用時,高推理強度的o3-mini能夠一次解決超過32%的測試題目,其中包括28%以上的T3級問題。

程式設計競賽(Codeforces)
隨著推理強度的提升,OpenAI o3-mini的Elo得分不斷提高,各層級表現均優於o1-mini。在中等推理強度下,其表現已能與o1相媲美。

軟體工程(SWE-bench Verified)
o3-mini在高推理強度模式下,使用開源Agentless框架能達到39%的成功率,使用內部工具框架可達到61%的成功率。

LiveBench編碼

人類偏好評估
外部專家評測結果顯示,o3-mini較o1-mini表現出更強的推理能力,能夠產生更準確、更清晰的答案,尤其是在STEM領域中。在比較測試中,o3-mini獲得了56%的使用者偏好度,且在處理複雜現實問題時的重大錯誤率降低了39%。

在技術報告中,o3-mini編程性能超越了GPT-4o和o1-preview,與o1不相上下。

模型的速度與性能
o3-mini在保持與o1相當智慧水準的同時,實現了更快的運行速度和更高的運算效率。
除前文提到的STEM評估外,在中等推理強度下,o3-mini在其他數學能力和事實準確度測驗中均取得了顯著優勢。
對照測試(A/B Testing)結果顯示,o3-mini的平均反應時間為7.7秒,較o1-mini的10.16秒提升了24%。
o1-mini和o3-mini(medium)的延遲對比


安全評估
OpenAI在訓練o3-mini確保其安全反應,採用的關鍵技術之一是審慎對齊(deliberative alignment)。
這項技術使模型能夠在響應用戶提示詞前,對人工製定的安全規範進行全面推理。
與o1相似,o3-mini在高難度安全性測試和越獄評估中,明顯優於GPT-4o。
在正式部署前,研究人員採用與o1相同的準備方法,結合外部紅隊測試和安全性評估,對o3-mini的安全風險進行了全面評估。
禁止內容評估

越獄評估

OpenAI急了
去年年底放出o3和o3-mini的預覽時,CEO奧特曼就曾表示,o3-mini將會在1月發布。
隨後,奧特曼又在1月17日預告稱,o3-mini會在幾週內發布。

現在,o3-mini果然如約而至(卡在ddl最後一天),但外面的世界已經是天差地別。
面對快速崛起的DeepSeek-R1,o3-mini存在著一個關鍵問題—『不開源』。
這也意味著,它無法離線使用、無法下載程式碼,也無法以相同的程度進行自訂。對於許多應用過來說,它的吸引力相對於R1明顯大打折扣。
在上下文視窗方面,DeepSeek-R1約為128K/130K token,而o3-mini略勝一籌達到了200K token。其中,每個輸出最多100K token,跟滿血版o1相同。
在價格方面,相較於輸入/輸出token分別為0.14/0.55美元的DeepSeek-R1,o3-mini依然貴出了天際。
但作為一款美國模型,o3-mini在身分上無疑佔盡了好處:應該會是歐美許多企業的首選。

奧特曼親自率隊
這次,最強最新的o3-mini模型訓練,奧特曼本尊下場親自率隊。研究計畫主管分別為Carpus Chang和Kristen Ying。

接下來,如果說OpenAI還藏在什麼殺手鐧,那就是滿血版的o3了。根據12月時的說法,它將在’此後不久’發布。