OpenAI o1模式問世背後:五級AGI再突破清北復旦華人立功
就在剛剛,OpenAI最強的o1系列模型忽然上線。毫無預警地,OpenAI就丟出這一聲炸雷。傳說中兩週內就要上線的草莓模型,居然兩天內就來了!從今天開始,o1-preview在ChatGPT中將向所有Plus和Team用戶推出,並且在API中向tier 5開發者推出。
同時,OpenAI也發布了o1-mini——一種經濟高效的推理模型,非常擅長STEM,尤其是數學和編碼。
o1模型仍有缺陷、局限性,它在首次使用時比長期使用,更令人印象深刻
全新的o1系列,在複雜推理上的性能又提升到了一個全新級別,可以說擁有了真正的通用推理能力。
在一系列基準測試中,o1相比GPT-4o再次有了巨大提升,具有了奧數金牌能力,在物理、生物、化學問題的基準測試中,直接超過了人類博士水平!
OpenAI研究員Jason Wei表示,o1-mini是自己過去一年看到的最令人驚訝的研究成果。一個小模型,居然在AIME數學競賽中獲得了高於60%的成績。
不過,從OpenAI文章的附錄來看,這次放出的preview和mini似乎都只是o1的「閹割版」。
推理Scaling新範式開啟
英偉達資深科學家Jim Fan對o1模型背後原理做了進一步解析。
他表示,推理時間Scaling新範式正在大規模普及和部署。正如Sutton在「苦澀的教訓」中所言,只有兩種技術可以無限scaling運算能力:學習和搜尋。
現在,是時候將重點轉向後者了。
1. 進行推理不需要巨大的模型。
2. 大量計算從預訓練/後訓練,轉移到推理服務
3. OpenAI一定很早就發現了推理scaling法則,而學術界最近才開始發現
4. 將o1投入實際應用中,比在學術基準測試中取得好成績困難得多
5. Strawberry很容易成為資料飛輪
以OpenAI先前劃分等級來看,o1已經實現了L2等級的推理能力。
有人測試後發現,o1成功寫出一首非常難的詩,在這過程中,成功完成這項任務所需的計劃和思考是瘋狂的,而且推理時間計算非常酷。
不過,AI大牛Karpathy測試o1-mini後吐槽道,「它一直拒絕為我解決黎曼假說。模型懶惰仍是一個主要問題,真可悲」。
還有NYU助理教授謝賽寧上手測試了「9.11和9.8誰大」的經典問題,沒想到o1-preview依舊答錯了。
「strawberry有多少r」這個經典難題,對o1來說自然是不在話下。
大V Mattew Sabia表示,最可怕的是,GPT-5還要比o1模型更強大69倍。而一般人,根本不懂大象的推理和邏輯能力。
人類真的準備好了嗎?
繞暈人類的邏輯推理難題,o1解決了
我們都知道,邏輯推理對於以往的LLM來說,是很難跨越的高山。
但這一次,o1模型展現出的解決複雜邏輯難題的能力,讓人驚訝。
比如下面這道邏輯題——
公主的年齡等於王子在未來某個時候的年齡,屆時公主的年齡將是王子過去某個時候年齡的兩倍;而在過去那個時候,公主的年齡是他們現在年齡總和的一半。問公主和王子現在各自的年齡是多少?請提供這個問題的所有解。
這題極為拗口,即使對人類來說,想要正確翻譯、理解題義,都會花費好大的功夫。
令人震驚的是,o1模型在經過一些步驟的思索後,竟然給了正確答案!
它透過定義變數、理解問題、解決方程式等步驟,得出:公主的年齡為8k歲,王子的年齡為6k歲,其中k為正整數。
在另一個demo中,Jason Wei向我們展示了,o1是如何根據提示,就編寫了一個視頻遊戲。
可以看到,他把提示複製到了o1模型中。
隨後,模型思考了21秒,將整個思考的步驟展示了出來。
隨後,模型隨後給出了代碼。
運行程式碼後,果然是一個非常流暢的小遊戲!
甚至,我們丟給o1一串亂七八糟不知所雲的韓語句子,要求它翻譯成英語,它竟然也做到了。
因為,雖然句子文法不通,o1卻還是一步一步對它解碼。
最終,o1給了答案,還幽默地表示:地球上沒有翻譯器能做到,但韓國人卻很容易識別,這是一種透過元音和輔音的各種變換,來加密韓語的方法。
而相較之下,GPT-4o完全被繞暈了,無法理解。
可以看出,o1表現出的超強性能,將邏輯推理提高到了一個新的層次。
它是怎麼做到的?
強化學習立功,大模型AlphaGo時刻來臨
o1系列模型與以往不同的是,它在回答問題之前,會花更多時間去“思考問題”,就像人類一樣。
透過訓練,它們學會完善思考過程,嘗試不同策略,並自主辨識錯誤。
這背後,是強悍的「強化學習」演算法立了大功。想當年,AlphaGo戰勝人類棋手,背後就是用的是RL演算法。
它透過高度數據完成了高效的訓練,並教導LLM使用CoT進行富有成效的思考。
提出CoT的背後開發者、OpenAI研究員Jason Wei表示,o1不是純粹地透過提示完成CoT,而是使用RL訓練模型,最終更好地執行鍊式思考。
而且,OpenAI團隊也發現模型中的Scaling Law中的「新定律」。
o1的性能,隨著更多的強化學習(訓練時間計算)和更多的思考時間(測試時間計算)投入,表現不斷提高。
此方法,在Scaling時的限制,和LLM預訓練的限制,大不相同。
o1的表現隨著訓練階段和測試階段計算量的增加而平穩提升
金牌團隊一覽
推理研究
在奠基貢獻者裡,離職創業的Ilya Sutskever赫然在列,但並沒有和Greg Brockman等人被列在執行管理(executive leadership)中,想必是他之前的研究工作為o1奠定了基礎。
Ilya離職之後,OpenAI也翻出了他的不少論文開始發布,例如對GPT-4模型的可解釋性研究。
如今他正在創立的SSI也是蒸蒸日上,連產品都沒有就已經拉到10億美元的融資,估價50億美元了。
Hongyu Ren
Hongyu Ren本科畢業於北大電腦科學專業,並在史丹佛獲得了博士學位,從去年7月起加入OpenAI,此前曾在Google、蘋果、英偉達、微軟等公司有過工作經驗。
Jason Wei
Jason Wei目前擔任OpenAI研究員。他在2020-2023年期間,在Google大腦任職,提出了著名CoT、指令微調,並發表了大模型湧現能力的論文。
Kevin Yu
Kevin Yu現任OpenAI研究員。他曾在2014年和2021年分別獲得了UC伯克利物理學和天文物理學碩士和神經學博士學位。
Shengjia Zhao
Shengjia Zhao本科畢業於清華大學,同樣在史丹佛獲得了博士學位,2022年6月畢業後就加入了OpenAI技術團隊,他也是GPT-4的作者之一。
Wenda Zhou
Wenda Zhou去年加入OpenAI。此前,他曾在紐約大學資料科學中心實驗室,是Moore-Sloan Fellow一員。
他在2015年獲得了劍橋大學碩士學位,2020年取得了哥倫比亞大學統計學博士學位。
Francis Song
Francis Song曾獲哈佛大學物理學學士學位,耶魯大學物理學博士學位。他於2022年加入OpenAI,此前曾任DeepMind的研究科學家,紐約大學助理研究科學家。
Mark Chen
Mark Chen從2018年起加入OpenAI時就開始擔任前沿研究主管,在研究副總裁Bob McGrew領導下負責一個工作小組。
從MIT畢業時,Chen獲得了數學與電腦科學的雙學士學位,大學期間曾在微軟、Trading實習,並在哈佛大學做過訪問學者。
目前,他也擔任美國IOI集訓隊的教練。
The Information曾經推斷,Mark Chen在未來會成為OpenAI領導階層的一員。
此外,領導團隊中還包括接任Ilya的首席科學家Jakub Pachocki和OpenAI僅存的幾名聯創之一Wojciech Zaremba。
推理技術安全
Jieqi Yu
Jieqi Yu本科畢業於復旦大學電子工程專業,曾前往香港科技大學進行交換,之後在普林斯頓大學獲得博士學位。她曾在Facebook工作了12年之久,從軟體工程師轉型為軟體工程經理,並於去年8月加入OpenAI擔任工程經理。
Kai Xiao
Xiao Kai本科和博士都畢業於MIT,本科時還拿到了數學和電腦科學的雙學位,曾前往牛津大學進行學術訪問,在DeepMind、微軟等公司有過實習經歷,於2022年9月加入OpenAI。
Lilian Weng
Lilian Weng現任OpenAI安全系統負責人,主要從事機器學習、深度學習等研究。
她本科畢業於北京大學資訊系統與電腦科學專業,曾前往香港大學進行短期交流,之後在印第安納大學布魯明頓(Indiana University Bloomington)分校獲得博士學位。
和Mark Chen一樣,Lilian也被認為是OpenAI領導階層的後起之秀。
團隊完整名單如下:
生化物理,超越人類博士水平
作為OpenAI開創的新系列模型,o1究竟強在哪?
在競賽程式設計問題(Codeforces)中排名前89%;在美國奧數競賽預選賽(AIME),位列前500名學生之列。
最重要的是,它在物理、生物、化學問題的基準測試中(GPQA),超過了人類博士水平。
在推理常用的MATH、GSM8K等基準測試上,o1和最近很多的前沿模型已經達到了飽和表現,很難有區分度,因此OpenAI主要選擇了AIME評估模型的數學和推理能力,以及其他人類考試和基準測試。
AIME旨在挑戰美國最優秀的高中學生的數學能力,在2024年的AIME考試中,GPT-4o平均僅解決了12%(1.8/15)的題目。
但o1的提升相當顯著,平均解決了74%(11.1/15)的題目,在64個樣本中進行多數投票時達到了83%(12.5/15)。如果使用評分函數並重新排序1000個樣本,準確率甚至達到了93%(13.9/15)。
13.9的得分,意味著o1的水平達到了全國前500名學生之列,並超過了美國數學奧賽的入圍分數。
在Codeforces、GPQA Diamond這種有挑戰性的任務上,o1遠遠超過了GPT-4o。
在具有挑戰性的推理基準測試中,o1大幅超越了GPT-4o
GPQA Diamond測試的是化學、物理和生物學領域的專業知識。為了將模型與人類進行比較,團隊招募了擁有博士學位的專家來回答其中的問題。
結果是,o1的表現(78.0)超過了這些人類專家(69.7),成為第一個在此基準測試中超越人類的模型。
然而,這個結果並不意味著o1在所有方面都強於擁有博士學位的人類,僅僅顯示它能更熟練地解決一些相應程度的問題。
此外,在MATH、MMLU、MathVista等基準測試中,o1也刷新了SOTA。
在啟用視覺感知能力後,o1在MMMU上取得了78.1%的成績,成為第一個能與人類專家競爭的模型,在57個MMLU子類別中,有54個類別超過了GPT-4o。
o1在廣泛的基準測試中優於GPT-4o,包括54/57個MMLU子類
思維鏈
透過強化學習,o1學會了識別並糾正自己的錯誤,並將複雜的步驟分解為更簡單的步驟。
在當前方法不起作用時,它也會嘗試不同的方法。這個過程顯著提高了模型的推理能力。
舉個「密碼學」的例子。
題面是:“Think step by step”經過加密之後對應的是“oyfjdnisdr rtqwainr acxz mynzbhhx”,問“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”的意思是什麼。
可以看到,GPT-4o對這種題目完全是束手無策。
而o1則根據已知資訊推理出了加密計算的方法,最後給出了正確答案——THERE ARE THREE R’S IN STRAWBERRY。
GPT-4o
o1-preview
程式設計
在這項評測中,OpenAI基於o1進一步訓練出了一個程式設計加強版模式。
在2024年國際資訊學奧林匹克競賽(IOI)中,新模型獲得了213分,排名在49%的位置。
過程中,模型有十個小時來解決六個具有挑戰性的演算法問題,每個問題允許提交50次。
而在放寬提交限制的情況下,模型的效能可以獲得顯著提升。當每個問題允許1萬次提交時,模型達到了362.14分——超過了金牌的門檻。
最後,OpenAI也模擬了由Codeforces舉辦的競技程式設計比賽——嚴格遵循規則,並允許10次提交。
GPT-4o的Elo評分為808,位於人類選手11%的位置。而新模型則遠遠超過了GPT-4o和o1,達到了1807的高分,表現優於93%的選手。
在程式設計競賽上進一步微調提升了o1:經過改進的模型在2024年國際資訊學奧林匹克競賽中,在比賽規則下排名在第49百分位
人類偏好評估
除了考試和學術基準測試之外,OpenAI還評估了人類對o1-preview與GPT-4o在廣泛領域內具有挑戰性、開放性提示詞上的偏好。
在這個評估中,人類會看到o1-preview和GPT-4o對提示詞的匿名回應,並投票選擇他們更喜歡哪個回應。
在數據分析、程式設計和數學等重推理的類別中,人們更傾向於選擇o1-preview。但在一些自然語言任務中,GPT-4o更勝一籌。
也就是說,o1-preview目前並不適合所有的使用情境。
在推理能力較重要的領域,人們更傾向於選擇o1-preview
o1-mini性價比極高
為了給開發人員更有效率的解決方案,OpenAI發布了o1-mini——一種更快、更便宜的推理模型。
作為一個較小的模型,o1-mini比o1-preview便宜80%。
這對於需要推理,但不需要通用世界知識的應用程式來說,它是一種功能強大、性價比高的模型。
不過,目前的o1系列依然處在早期,諸如網頁插件、長傳文件、圖片等能力,還未整合。在短期內,GPT-4o仍是最強的實力選手。
參考資料: