OpenAI o3是AGI嗎?
OpenAI公佈了o3,相較於o1實現了一次階躍,在程式設計、數學、科學等一系列基準測試中成為學霸中的學霸。特別是在ARC-AGI的測試中取得了大幅的突破。是否意味著2025年人類可以看到AGI的曙光?我們在這裡編譯了ARC-AGI測試標準的創始人撰寫的o3評估的報告。原標題OpenAI o3 Breakthrough High Score on ARC-AGI-Pub。
正文如下:
OpenAI訓練新o3系統,使用了ARC-AGI-1公共訓練資料集,在我們的公開排行榜上,以$10k的計算成本限制,在半私密評估資料集上取得了突破性的75.7%得分。而高計算配置(172倍計算量)的o3系統則達到了87.5%的得分。
每次任務的成本,來源:ARC Prize
這標誌著AI能力的一次重要的階躍式提升,令人驚訝地展現了先前GPT系列模型從未具備的新型任務適應能力。相較之下,ARC-AGI-1從2020年的GPT-3的0%進步到2024年GPT-4o的5%,花了整整四年。為了o3,我們對AI能力的所有直覺都需要刷新。
ARC獎的使命不僅限於做第一個基準測試:它是通往AGI的北極星。我們很高興明年能繼續與OpenAI團隊以及其他夥伴合作,共同設計下一代、可持續的AGI基準測試。
ARC-AGI-2(相同的測試格式-經過驗證對人類容易但對AI更難)將與2025年ARC獎同步推出。我們承諾將持續運行大獎賽,直到創造出高效的開源解決方案,得分達到85%。
下面請看完整測試報告。
OpenAI o3 ARC-AGI測試結果
我們對o3系統進行了兩組ARC-AGI資料集的測試:
半私密評估:100個私密任務,用於評估過擬合情況
公開評估:400個公開任務
根據OpenAI的指示,我們在兩種計算規模下進行了測試,用了不同的採樣規模:6(高效率)和1024(低效率,計算量為172倍)。
以下是測試結果。
由於推理預算的差異,效率(例如計算成本)現在成為報告績效時的必要指標。我們記錄了總成本和每個任務的成本,作為效率的初步衡量標準。整個產業需要共同探討哪一種指標最能體現效率,但以成本為起點是個不錯的選擇。
在高效率模式下,得分75.7%符合ARC-AGI公共評估的預算規則(成本< $10k),因此在公共排行榜上獲得了第一名!
在低效率模式下,得分87.5%儘管成本高昂,但仍顯示效能在計算資源增加的情況下有所提升(至少到這一水準為止)。
尽管每个任务的成本显著,这些成绩并非仅仅是通过“暴力计算”达成的。OpenAI的新o3模型在AI适应新任务的能力上取得了重大飞跃。这不仅是渐进式的改进,而是一次真正的突破,标志着AI能力相较于之前的大语言模型实现了质的飞跃。o3是一个能够适应前所未见任务的系统,可以说在ARC-AGI领域接近了人类的表现水平。
当然,这种通用性需要付出高昂代价,目前尚未具备经济性:让人类解决ARC-AGI任务的成本大约为每个任务$5(是的,我们试过),而能源消耗仅需几美分。而o3在低计算模式下每个任务需要$17~20。不过,成本性能在未来几个月到几年内可能会显著改善,因此我们应预计这些能力将在较短的时间内与人类劳动竞争。
o3在GPT系列上的改進證明了架構的重要性。即便給GPT-4投入更多運算資源,也無法獲得這樣的結果。僅僅透過從2019年到2023年所採用的方法進行簡單的擴展——例如採用相同架構,訓練更大的版本,使用更多數據——已經不足以推動進一步的進展。未來的突破將仰賴全新的理念。
那麼,o3是AGI嗎?
ARC-AGI是一個關鍵的基準,用於檢測AI的重大突破,特別是在泛化能力方面,這些是其他已經飽和或要求較低的基準無法展示的。然而,需要明確的是,ARC-AGI並不是AGI的“酸性測試”,這一點我們今年已經重複多次。它是一個研究工具,旨在將注意力集中在AI中最具挑戰性的未解決問題上,並在過去五年中很好地履行了這一角色。
透過ARC-AGI並不等於實現AGI。實際上,我認為o3還不是AGI。 o3在一些非常簡單的任務上仍然會失敗,這顯示它與人類智慧有根本性的差異。
此外,早期數據表明,即將推出的ARC-AGI-2基準對o3來說仍將是一個重大挑戰,即使在高計算模式下,其得分可能會降至30%以下(而一個聰明的人類無需訓練仍然可以獲得95%以上的分數)。這表明我們仍然可以創建具有挑戰性、未飽和的基準,而無需依賴專家領域知識。只有當設計那些對普通人類來說簡單但對AI困難的任務變得完全不可能時,你才會知道AGI真正到來了。
o3與舊模型有何不同?
為什麼o3的得分遠高於o1?為什麼o1的得分又遠高於GPT-4o?我認為這一系列結果為AGI的研究提供了寶貴的數據點。
我對LLM的心理模型是,它們像是向量程式的儲存庫。輸入提示後,它們會把提示映射的程式提取出來,並對依據前輸入「執行」該程式。 LLM透過被動接觸人類生成內容來儲存和操作數百萬個有用的小程式。
這種「記憶、提取、應用」範式在適當的訓練資料支援下,可以在任意任務上達到相應水平的技能,但它無法適應新穎性或隨時學習新技能(也就是說,它缺乏流體智慧) 。這點在LLM在ARC-AGI基準上的表現不佳-GPT-3的得分為0,GPT-4接近0,GPT-4o達到5%。即使將這些模型擴展到極限,也無法讓ARC-AGI的得分接近幾年前基本的暴力枚舉法所能達到的50%。
要適應新穎性,需要兩個條件:首先是知識,即一組可重複使用的函數或程序,LLM已經具備足夠的這類知識。其次是能力,能夠在面對新任務時將這些函數重新組合成一個全新的程式——即任務建模。這就是程式合成,而LLM長期以來缺乏這項特性。 o系列模型解決了這個問題。
目前我們只能推測o3的具體工作機制。但核心機制似乎是在token空間的自然語言程式的搜尋和執行:在測試階段,模型會在可能的思維鏈(CoT)空間中搜索,描述解決任務所需的步驟,其方法可能與AlphaZero風格的蒙特卡羅樹搜尋類似。在o3的情況下,這種搜尋似乎由某種評估模型引導。值得注意的是,哈薩比斯(Demis Hassabis)在2023年6月的訪談中曾暗示DeepMind正在研究這個想法──這條研究路線已經醞釀許久。
因此,儘管單一世代的LLM在面對新任務時表現不佳,o3透過產生並執行自己的程式克服了這一障礙,在這裡程式本身(CoT)成為知識重新組合的產物。雖然這並不是測試階段知識重新組合的唯一可行方法(你還可以進行測試階段的訓練,或在潛在空間中搜尋),但根據新的ARC-AGI數據,這代表了當前的最先進水平。
從本質上來說,o3代表了一種基於深度學習引導的程式搜尋形式。該模型在測試時會在「程序空間」(在此案例中是指自然語言程序-描述解決當前任務步驟的思維鏈(CoTs)空間)中進行搜索,這一過程由深度學習先驗(基礎LLM)引導。解決一個ARC-AGI任務之所以可能需要數千萬個tokens並花費數千美元,是因為這個搜尋過程需要探索程式空間中的大量路徑——包括回溯。
然而,這裡發生的事情與我之前描述的「基於深度學習引導的程式搜尋」作為通往AGI的最佳路徑之間存在兩個重要區別。關鍵在於,o3產生的程式是自然語言指令(由LLM「執行」),而不是可執行的符號化程式。這帶來兩個後果:
1. 這些程序無法透過直接執行和任務直接評估與現實接觸——它們只能透過另一個模型來進行適應性評估,但這種評估由於缺乏直接的任務基礎,可能在分佈外操作時出錯。
2. 系統無法自主獲得產生和評估這些程式的能力(不像AlphaZero等系統可以透過自我學習掌握棋類遊戲)。相反,它依賴專家標註的人類生成的CoT數據。
目前尚不清楚這套新系統的具體限制是什麼,以及它的擴展能力有多大。我們需要進一步測試才能得出結論。不過,目前的表現代表了一項非凡的成就,也明確證明了直覺引導的測試時程序空間搜尋是一種強大的範式,能夠建構適應各種任務的AI系統。
接下來是什麼?
首先,透過ARC獎競賽在2025年促進o3的開源復現將是推動研究社群前進的關鍵。需要對o3的優勢和限制進行徹底分析,以理解其擴展行為、潛在瓶頸的性質,並預測未來發展可能解鎖的能力。
此外,ARC-AGI-1現在已經接近飽和——除了o3的新得分,事實上,一個由低計算資源的Kaggle解決方案組成的大型集成體現在都可以在私密評估中達到81%的得分。
我們計劃透過一個新版本提高標準,ARC-AGI-2自2022年開始研發,承諾對目前最先進的技術進行一次重置。我們的目標是透過難度高、訊號強的評估來推動AGI研究的邊界,並突顯AI的當前限制。
ARC-AGI-2的早期測試表明,即使對o3來說,這也將是非常具有挑戰性的。當然,ARC獎的目標是透過大獎賽產生一個高效的開源解決方案。我們目前計劃在2025年ARC獎推出時同步發布ARC-AGI-2(預計在第一季末發布)。
展望未來,ARC獎基金會將繼續創建新的基準測試,以將研究人員的注意力集中在通往AGI的最難解決的問題上。我們已經開始研究第三代基準測試,該測試完全脫離了2019年ARC-AGI的格式,並融入了一些令人興奮的新想法。
作者François Chollet曾在Google從事AI研究9年。 2019年,他發布了通用人工智慧抽象與推理語料庫(ARC-AGI)基準,衡量人工智慧系統解決新穎推理問題的能力。