OpenAI 12天12場直播結束:官宣最新推理模型o3 很強也很貴
OpenAI的12天12場直播收官,離AGI(artificial general intelligence,通用人工智慧)似乎又更近了一步。當地時間12月20日,和網友猜測的一樣,人工智慧(AI)巨頭OpenAI發布最新推理模型o3和o3-mini。前一天,OpenAI公司CEO山姆·奧特曼(Sam Altman)就曾發文提到三個「o」暗示了o3的到來。
為何新模型跳過了o2直接命名o3?奧特曼表示是為了避免和英國電信業者O2衝突,「按邏輯應該稱為o2,但我們起名字的能力實在太糟了,只能把它稱作o3」。
據介紹,在編碼測試SWE-Bench Verified中,o3性能比o1高出22.8%;在Codeforces競技編程中得分為2727分,相當於位列第175名的人類選手,甚至超過了OpenAI的首席科學家( 2655分);在數學競賽AIME 2024和專家級科學問題基準測試GPQA Diamond中成績都明顯提升;而在讓許多AI和數學家都束手無策的最難數學和推理挑戰FrontierMath中,o3解決了25.2%的問題,其他模型均未超過2%。
o3在多個測試中得分都較上一代產品o1得到明顯提升
FrontierMath測試結果
不過,o3和o3-mini並未正式發布,安全研究人員目前可以註冊獲取o3-mini的預覽版,o3預覽版也將在之後的某個時間推出,OpenAI沒有給出具體時間。在直播的一開始,奧特曼也強調了這次並不是發布,只是宣布o3。他表示,計劃在1月底發布o3-mini,然後再發布o3。
根據外媒報道,AI安全測試人員發現,與傳統的「非推理」模型相比,OpenAI先前發布的o1的推理能力使其試圖欺騙人類用戶的比例更高,同樣,Meta、Anthropic和Google的領先模型也是如此。而o3試圖欺騙用戶的比例可能比它的前身更高。
OpenAI在部落格中表示,正在使用一種新技術「慎重對齊」(deliberative alignment),來使o3等模型符合其安全原則。
透過OpenAI所謂的“私人思維鏈”,o3被訓練成在做出反應之前先“思考”。可以對任務進行推理並提前規劃,在較長時間內執行一系列動作,以幫助找出解決方案。
在實踐中,當收到一個提示時,o3會在做出反應之前暫停,考慮一些相關的提示,並沿途「解釋」其推理過程。一段時間後,模型會總結出它認為最準確的答案。 o3 的新功能是「調整」推理時間,可以設定為低、中或高計算量(即思考時間),計算時間越長,執行任務時的表現越好。
與GPT-4o等大模型相比,o1模式在拒絕回答惡意越獄提示和不過度拒絕良性越獄提示方面都較為領先。
ARC-AGI(通用人工智慧抽象與推理語料庫)發起者、Keras(用Python編寫的高級神經網路API)之父弗朗索瓦·肖萊(Francois Chollet)在o3發布後公佈了一篇測試報告。
報告顯示,o3在高計算量模式下獲得了87.5%的分數,在低計算量模式下,性能是o1的三倍。成本方面,低計算量模式下,每個任務需要花費20美元,而在高計算量模式中每個任務需要數千美元。
肖萊表示:“它非常昂貴,但不僅僅是’蠻幹’——這些能力是全新的領域,需要科學界的認真關注。”
弗朗索瓦·肖萊對於o3不同計算模式的測試結果
肖萊認為,雖然o3給人留下了深刻印象,是邁向AGI的一個重要里程碑,但並不就是AGI,仍然有相當多非常簡單的ARC-AGI-1的任務是o3無法解決的,同時還有跡象表明ARC-AGI-2對o3來說仍極具挑戰性,「這表明在不涉及專業知識的情況下,創建對人類來說容易但對人工智慧來說不可能的不飽和、有趣的基準仍然是可行的。當創建這樣的測試變得完全不可能時,我們將擁有AGI」。
當然,ARC-AGI只是AI領域的重要基準之一,對AGI的定義只是其中之一。
肖萊稱,主要需要解決的問題是o3背後技術的擴展瓶頸在哪。如果人類標註的CoT資料(Chain-of-Thought,思維鏈)是一個主要瓶頸,那麼它的能力就會像大模型一樣迅速達到頂峰(直到下一個架構出現)。如果唯一的瓶頸是測試時間搜尋(Test-Time Search),那麼未來我們將看到持續的擴展。
值得一提的是,除了OpenAI,各家AI公司近期也紛紛發布推理模型。
11月16日,月之暗面(Moonshot AI)Kimi推出新一代數學推理模型k0-math;11月20日,DeepSeek發布了首個推理模型DeepSeek-R1-Lite預覽版。 11月28日,阿里雲通義團隊發布全新AI推理模型QwQ-32B-Preview;在當地時間12月19日,Google發布首個推理模型Gemini 2.0 Flash Thinking。
英偉達CEO黃仁勳在10月的一次訪談中曾表達了對於推理的看好。他認為:「現在我們在後訓練和推理階段看到了擴展,預訓練再也不被視為艱難,推理也變得複雜。推理方面即將因推理鏈的出現而大幅增長……這是一場智能生產的革命,推理的增長將達到億倍的規模,這就像上學是為了將來在社會中有所貢獻,訓練模型很重要,但最終的目標是推理」。
月之暗面Kimi創辦人楊植麟也在11月表示,推理的佔比必然會遠超訓練,AI產品包括AI技術接下來的發展,很重要的能力就是更加深度的推理,能夠把現在只是短鏈路的簡單的問答,變成更長鏈路的組合式任務的操作。