OpenAI o3是AGI嗎？

2024-12-23 Comments 0 Comment

OpenAI公佈了o3，相較於o1實現了一次階躍，在程式設計、數學、科學等一系列基準測試中成為學霸中的學霸。特別是在ARC-AGI的測試中取得了大幅的突破。是否意味著2025年人類可以看到AGI的曙光？我們在這裡編譯了ARC-AGI測試標準的創始人撰寫的o3評估的報告。原標題OpenAI o3 Breakthrough High Score on ARC-AGI-Pub。

正文如下：

OpenAI訓練新o3系統，使用了ARC-AGI-1公共訓練資料集，在我們的公開排行榜上，以$10k的計算成本限制，在半私密評估資料集上取得了突破性的75.7%得分。而高計算配置（172倍計算量）的o3系統則達到了87.5%的得分。

每次任務的成本，來源：ARC Prize

這標誌著AI能力的一次重要的階躍式提升，令人驚訝地展現了先前GPT系列模型從未具備的新型任務適應能力。相較之下，ARC-AGI-1從2020年的GPT-3的0%進步到2024年GPT-4o的5%，花了整整四年。為了o3，我們對AI能力的所有直覺都需要刷新。

ARC獎的使命不僅限於做第一個基準測試：它是通往AGI的北極星。我們很高興明年能繼續與OpenAI團隊以及其他夥伴合作，共同設計下一代、可持續的AGI基準測試。

ARC-AGI-2（相同的測試格式－經過驗證對人類容易但對AI更難）將與2025年ARC獎同步推出。我們承諾將持續運行大獎賽，直到創造出高效的開源解決方案，得分達到85%。

下面請看完整測試報告。

OpenAI o3 ARC-AGI測試結果

我們對o3系統進行了兩組ARC-AGI資料集的測試：

半私密評估：100個私密任務，用於評估過擬合情況

公開評估：400個公開任務

根據OpenAI的指示，我們在兩種計算規模下進行了測試，用了不同的採樣規模：6（高效率）和1024（低效率，計算量為172倍）。

以下是測試結果。

由於推理預算的差異，效率（例如計算成本）現在成為報告績效時的必要指標。我們記錄了總成本和每個任務的成本，作為效率的初步衡量標準。整個產業需要共同探討哪一種指標最能體現效率，但以成本為起點是個不錯的選擇。

在高效率模式下，得分75.7%符合ARC-AGI公共評估的預算規則（成本< $10k），因此在公共排行榜上獲得了第一名！

在低效率模式下，得分87.5%儘管成本高昂，但仍顯示效能在計算資源增加的情況下有所提升（至少到這一水準為止）。

尽管每个任务的成本显著，这些成绩并非仅仅是通过“暴力计算”达成的。OpenAI的新o3模型在AI适应新任务的能力上取得了重大飞跃。这不仅是渐进式的改进，而是一次真正的突破，标志着AI能力相较于之前的大语言模型实现了质的飞跃。o3是一个能够适应前所未见任务的系统，可以说在ARC-AGI领域接近了人类的表现水平。

当然，这种通用性需要付出高昂代价，目前尚未具备经济性：让人类解决ARC-AGI任务的成本大约为每个任务$5（是的，我们试过），而能源消耗仅需几美分。而o3在低计算模式下每个任务需要$17~20。不过，成本性能在未来几个月到几年内可能会显著改善，因此我们应预计这些能力将在较短的时间内与人类劳动竞争。

o3在GPT系列上的改進證明了架構的重要性。即便給GPT-4投入更多運算資源，也無法獲得這樣的結果。僅僅透過從2019年到2023年所採用的方法進行簡單的擴展——例如採用相同架構，訓練更大的版本，使用更多數據——已經不足以推動進一步的進展。未來的突破將仰賴全新的理念。

那麼，o3是AGI嗎？

ARC-AGI是一個關鍵的基準，用於檢測AI的重大突破，特別是在泛化能力方面，這些是其他已經飽和或要求較低的基準無法展示的。然而，需要明確的是，ARC-AGI並不是AGI的“酸性測試”，這一點我們今年已經重複多次。它是一個研究工具，旨在將注意力集中在AI中最具挑戰性的未解決問題上，並在過去五年中很好地履行了這一角色。

透過ARC-AGI並不等於實現AGI。實際上，我認為o3還不是AGI。 o3在一些非常簡單的任務上仍然會失敗，這顯示它與人類智慧有根本性的差異。

此外，早期數據表明，即將推出的ARC-AGI-2基準對o3來說仍將是一個重大挑戰，即使在高計算模式下，其得分可能會降至30%以下（而一個聰明的人類無需訓練仍然可以獲得95%以上的分數）。這表明我們仍然可以創建具有挑戰性、未飽和的基準，而無需依賴專家領域知識。只有當設計那些對普通人類來說簡單但對AI困難的任務變得完全不可能時，你才會知道AGI真正到來了。

o3與舊模型有何不同？

為什麼o3的得分遠高於o1？為什麼o1的得分又遠高於GPT-4o？我認為這一系列結果為AGI的研究提供了寶貴的數據點。

我對LLM的心理模型是，它們像是向量程式的儲存庫。輸入提示後，它們會把提示映射的程式提取出來，並對依據前輸入「執行」該程式。 LLM透過被動接觸人類生成內容來儲存和操作數百萬個有用的小程式。

這種「記憶、提取、應用」範式在適當的訓練資料支援下，可以在任意任務上達到相應水平的技能，但它無法適應新穎性或隨時學習新技能（也就是說，它缺乏流體智慧）。這點在LLM在ARC-AGI基準上的表現不佳－GPT-3的得分為0，GPT-4接近0，GPT-4o達到5%。即使將這些模型擴展到極限，也無法讓ARC-AGI的得分接近幾年前基本的暴力枚舉法所能達到的50%。

要適應新穎性，需要兩個條件：首先是知識，即一組可重複使用的函數或程序，LLM已經具備足夠的這類知識。其次是能力，能夠在面對新任務時將這些函數重新組合成一個全新的程式——即任務建模。這就是程式合成，而LLM長期以來缺乏這項特性。 o系列模型解決了這個問題。

目前我們只能推測o3的具體工作機制。但核心機制似乎是在token空間的自然語言程式的搜尋和執行：在測試階段，模型會在可能的思維鏈（CoT）空間中搜索，描述解決任務所需的步驟，其方法可能與AlphaZero風格的蒙特卡羅樹搜尋類似。在o3的情況下，這種搜尋似乎由某種評估模型引導。值得注意的是，哈薩比斯（Demis Hassabis）在2023年6月的訪談中曾暗示DeepMind正在研究這個想法──這條研究路線已經醞釀許久。

因此，儘管單一世代的LLM在面對新任務時表現不佳，o3透過產生並執行自己的程式克服了這一障礙，在這裡程式本身（CoT）成為知識重新組合的產物。雖然這並不是測試階段知識重新組合的唯一可行方法（你還可以進行測試階段的訓練，或在潛在空間中搜尋），但根據新的ARC-AGI數據，這代表了當前的最先進水平。

從本質上來說，o3代表了一種基於深度學習引導的程式搜尋形式。該模型在測試時會在「程序空間」（在此案例中是指自然語言程序－描述解決當前任務步驟的思維鏈（CoTs）空間）中進行搜索，這一過程由深度學習先驗（基礎LLM）引導。解決一個ARC-AGI任務之所以可能需要數千萬個tokens並花費數千美元，是因為這個搜尋過程需要探索程式空間中的大量路徑——包括回溯。

然而，這裡發生的事情與我之前描述的「基於深度學習引導的程式搜尋」作為通往AGI的最佳路徑之間存在兩個重要區別。關鍵在於，o3產生的程式是自然語言指令（由LLM「執行」），而不是可執行的符號化程式。這帶來兩個後果：

1. 這些程序無法透過直接執行和任務直接評估與現實接觸——它們只能透過另一個模型來進行適應性評估，但這種評估由於缺乏直接的任務基礎，可能在分佈外操作時出錯。

2. 系統無法自主獲得產生和評估這些程式的能力（不像AlphaZero等系統可以透過自我學習掌握棋類遊戲）。相反，它依賴專家標註的人類生成的CoT數據。

目前尚不清楚這套新系統的具體限制是什麼，以及它的擴展能力有多大。我們需要進一步測試才能得出結論。不過，目前的表現代表了一項非凡的成就，也明確證明了直覺引導的測試時程序空間搜尋是一種強大的範式，能夠建構適應各種任務的AI系統。

接下來是什麼？

首先，透過ARC獎競賽在2025年促進o3的開源復現將是推動研究社群前進的關鍵。需要對o3的優勢和限制進行徹底分析，以理解其擴展行為、潛在瓶頸的性質，並預測未來發展可能解鎖的能力。

此外，ARC-AGI-1現在已經接近飽和——除了o3的新得分，事實上，一個由低計算資源的Kaggle解決方案組成的大型集成體現在都可以在私密評估中達到81%的得分。

我們計劃透過一個新版本提高標準，ARC-AGI-2自2022年開始研發，承諾對目前最先進的技術進行一次重置。我們的目標是透過難度高、訊號強的評估來推動AGI研究的邊界，並突顯AI的當前限制。

ARC-AGI-2的早期測試表明，即使對o3來說，這也將是非常具有挑戰性的。當然，ARC獎的目標是透過大獎賽產生一個高效的開源解決方案。我們目前計劃在2025年ARC獎推出時同步發布ARC-AGI-2（預計在第一季末發布）。

展望未來，ARC獎基金會將繼續創建新的基準測試，以將研究人員的注意力集中在通往AGI的最難解決的問題上。我們已經開始研究第三代基準測試，該測試完全脫離了2019年ARC-AGI的格式，並融入了一些令人興奮的新想法。

作者François Chollet曾在Google從事AI研究9年。 2019年，他發布了通用人工智慧抽象與推理語料庫（ARC-AGI）基準，衡量人工智慧系統解決新穎推理問題的能力。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

WONGCW 網誌

記錄生活經驗與點滴

OpenAI o3是AGI嗎？

2024-12-23 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆