超強o1模型智商已超120 1小時寫出NASA博士1年代碼
OpenAI博士級的智能,真的實現了!一位UCI物理學博士實測o1,發現自己用時1年完成的博士論文代碼,竟被AI在1小時之內實現了。 o1模型已經強到,能夠直出博士論文程式碼了!來自加州大學歐文分校(UCI)的物理學博士Kyle Kabasares,實測o1 preview+mini後發現:
自己肝了大約1年的博士代碼,o1竟在1小時內完成了。
他稱,大約6次提示後,o1便創建了一個運行版本的Python程式碼,描述出研究論文「方法」部分的內容。
雖然AI生成的代碼框架,模擬了Kabasares實際代碼功能,但它使用的是“合成數據”,並非真實的天文數據。
論文地址:https://iopscience.iop.org/article/10.3847/1538-4357/ac7a38/meta
不過,o1能夠在這麼短時間輸出複雜程式碼,足以震撼。
影片右下角中,Kabasares連連喊出“oh my god”,各種難以形容的動作表情,被震驚到懷疑人生。
YouTube影片一出,便在全網掀起熱議,網友們紛紛表示太瘋狂了。
好巧不巧的是,o1在最新門薩智商測驗中,IQ水準竟超過了120分。
35個智商題,答對了25道,把其他模型甩出幾條街。
然而,這只是o1模型的preview版本。
OpenAI研究人員David Dohan曾發文暗示,一個月後,o1模型還將有全新的升級版本。
屆時,還不知o1性能,將有多逆天? !
物理學博士論文,AI 1小時直出200行程式碼
2022年,物理學博士Kabasares以第一作者身份,在「天體物理學期刊」發表了這篇關於,透過對天文數據建模來測量黑洞質量的論文。
當然,這篇研究不僅僅是寫程式碼,但實現這段程式碼,是Kabasares博士第一年的關鍵突破。
可以說,在他博士研究的階段的第一年(2018年7月-2019年4月),花費了大量時間,才讓這段程式碼初版正確運作起來。
這也是,為什麼o1能在1小時內,給一個可運作的Python程式碼,讓Kabasares印象深刻。
影片中,看到o1輸出的程式碼後,Kabasares緩了好大一陣兒,才開始接下來的解釋。
他向ChatGPT o1提供了論文中,「方法」部分的內容(即第4節),並提示閱讀我的論文,根據所給信息,寫出一段Python運行代碼。
他多次強調,自己沒有向o1展示自己程式碼。
在於ChatGPT對話頁面中,Kabasares向大家展示,並細數了下o1是在6次提示下,完成200行程式碼。
不過,他也提出警告,實際上還需要我們自己去做一些額外的工作。就像論文中這個曲線圖,還得需要在另一個軟體,像是銀河影像軟體中完成。
當網友詢問到,有沒有可能o1就著你自己的程式碼,完成的訓練?
Kabasares認為,o1輸出的200行程式碼,與自己1100行程式碼有著很大的不同,這是論文程式碼「最簡版本」。
深夜測試,o1挑戰大學、博士物理題
為此,Kabasares又發了第二彈視頻,向所有人解釋o1可能真的沒有接受過數據訓練。
值得一提的是,他從辦公室拿到的私密文件,是由教授親自設計的天文物理學問題。
這些題目,都是Kabasares在博士期間完成的,並沒有發佈到網路上。
他專門為o1出了一個測試集,一共有4道題目。
而在沒有訓練資料的情況下,o1輸出的結果也不用說。甚至,有的題目它只在16秒內,完成了解答。
還記得,OpenAI CTO Mira Murati在受訪時表示,GPT-4之後的新模型將達到博士級的智慧。
o1現在的表現,已經是關鍵的一瞥。
程式設計賽,大師級別
身為OpenAI的研究主管兼現任的IOI美國隊教練,Mark Chen分享了o1模型在Codeforces比賽上的最新進展。
在Codeforces昨天的即時比賽中,一位名為AryanDLuffy的選手使用了o1-mini模型參加比賽,結果相當驚人。
用Mark Chen的話來說,達到了「接近大師等級的表現」。
AryanDLuffy發文表示,自己沒有進行任何提示工程,只是給出問題陳述,並告訴模型用C++解題。
在7題目中,o1-mini僅在B2、D和E2遇到了困難,其中D和E2是不少排名前50的選手也沒能得分的,也是提交人數最少的兩道題目。
最終,o1-mini幫助AryanDLuffy獲得了3922分的總成績,在超過16萬名參賽者中排名277,也就是排名在前0.17%。
這遠遠超過了OpenAI自己做的基準測試結果。 o1模型在他們的模擬Codeforces比賽中還只是超過了89%的人類選手。
277的排名相比AryanDLuffy本人之前的紀錄提高了158位,達到了4年來最大的進步幅度。
對此,Mark Chen和許多網友的想法是,IMO和Codeforces的競賽題也許可以作為新型的LLM基準測試。然而,Codeforces的主辦單位擔心的又是另一件事。
競賽創辦人Mike Mirzayanov為此特地制定了一條新規則:禁止使用GPT、Gemini、Gemma、Llama和Claude等各種模型來解決Codeforces競賽中的程式設計問題。
但這新規並不是要求參賽者完全摒棄AI,他們依舊可以讓模型輔助翻譯問題陳述,或是向Copilot尋求文法協助和次要的編碼建議。
簡言之,競賽問題的核心邏輯、演算法,以及bug的診斷調試,都必須由人類選手獨立完成,CF也會進行作弊偵測。在非競爭性問題中,AI工具的使用則完全不受限制。
但也有用戶指出,作弊偵測實質上很難執行,參賽者簡單修改一下AI產生的程式碼就可以「逃過法眼」。競爭性程式設計競賽的未來,很大程度上決定選手們自己能否守信。
CF也表示,會持續關注AI技術的進展,並根據需要及時調整規則。
在部落格文章中,Mirzayanov將神經網路的進展稱為“技術奇蹟”,因為不久前這些模型還很難完成競賽中最簡單的任務,但現在卻達到了不容忽視的高度。
他表示,“我們有理由相信,這種進步會持續下去,AI可能會在程式設計競賽領域繼續取得新的突破。”
陶哲軒實測後續
除了Codeforces,陶哲軒大神也表示,由於大家對他先前測試的興趣,。
第一個實驗,是找術語。
2010年,我正在尋找「乘法積分」的正確術語,但當時沒有用搜尋引擎找到。於是我轉而在MathOverflow上提出了問題,並從人類專家那裡得到了滿意的答案:
14年後的今天,陶哲軒再次向o1模型提出了相同的問題,問題表述都和MathOverflow上的貼文幾乎一模一樣。
相較於人類專家,o1給的答案更加全面且完美。不僅包含了5個可能的術語,還附上了相應的數學表示、應用領域和參考文獻。
陶哲軒表示,雖然這篇MathOverflow上的貼文可能已經包含在o1的訓練資料中了,但依舊能展現模型在語義搜尋方面的強大功能,而且蒐集、總結出的答案的品質可以與MathOverflow這類專業的問答網站相當。
另一個實驗則更具創造性,與陶哲軒本人的研究直接相關。
作為另一個小實驗,我給了o1我最近的部落格文章的前半部分,其中總結了之前我自己能夠解決的鄂爾多斯問題的進展。
要將先前的部分進展轉換為全面的解決方案,仍缺少一些要素,我要求o1模型找到這些轉換要素,但結果有點令人失望。 本質上,模型提出的策略與部落格中重述的最新研究是相同的,並針對該策略沒有提供任何創造性的改變。 總的來說,我覺得雖然LLM工具有一定的能力,可以隨機產生創意策略,但這方面的LLM工具仍然相當薄弱。
多篇論文闡述o1運作機制,DeepMind上大分
o1模型發布不到一周,我們就已經見證了這麼多驚人的用例,AI技術界對o1背後的機制和原理也是眾說紛紜。
前Google搜尋工程師、Menlo Ventures創投家Deedy Das曾大膽猜測,其主要原理來自DeepMind一篇今年8月發表的論文。
論文網址:https://arxiv.org/abs/2408.03314
論文提出,讓LLM進行更多的「測試時計算」(test-time computation),對於建構能在開放語境下操作、能實現自我提升的agent,是關鍵的一步
而這篇論文就重點研究了擴展「推理期計算」(inference-time computation)這個問題。
研究團隊分析了擴展測試時計算的兩種主要機制:(1)針對密集的、基於過程的驗證器獎勵模型進行搜尋;(2)根據測試時得到的提示詞,自適應更新模型對響應的分佈。
結果顯示,在這兩種情況下,對測驗時計算的不同擴展方法的有效性,很大程度上取決於提示詞的難度。
基於此,研究團隊提出了一種「計算最優」擴展策略——透過為每個提示詞自適應地分配測試時計算,使測試時計算的擴展的效率提高4倍以上。
另外,在FLOPs一致的評估中,對於那些較小的基礎模型已取得一定程度非平凡成功率的問題,測試時計算可以使其超越規模大14倍的模型。
此外,HuggingFace技術主管Philipp Schmid也開列了一份論文清單,包含了o1模型可能的工作原理,主要關於透過訓練/RLHF而非提示工程,提升LLM在複雜任務上的推理表現。
這5篇論文都發表在今年或去年,可以說是代表了細分方向的前沿進展。
第一篇是史丹佛和Notbad在今年3月提出的Quiet-STaR(Self-Taught Reasoner)。
論文網址:https://arxiv.org/abs/2403.09629
論文的想法來自於這樣一個直覺:在寫作和說話時,人們有時會停下來思考,但思考和推理的內容不會顯式地表達出來,而是隱含在書面文本中。
因此,理想情況下,語言模型可以學習推論文本中未闡明的基本原則。
Quiet-STaR是對2022年發表的STaR的推廣,讓模型為每個token產生基本原理來解釋未來的文本,從而提升預測能力。
第二篇同樣是。
論文網址:https://arxiv.org/abs/2408.07199
他們將蒙特卡羅樹搜尋(MCTS)與自我批評機制結合,並使用直接偏好優化(DPO)演算法的off-policy變體對agent的交互進行迭代微調。
這種方法允許LLM agent同時從成功和不成功的軌跡中進行有效學習,從而提高在複雜的多步驟推理任務中的泛化能力。
第三篇則針對數學推理,以期提升模型的問題理解能力與「反思」能力。
論文網址:https://arxiv.org/abs/2406.12050
具體來說,論文提出了一種新穎的「反思增強」方法,將問題的反思嵌入到每個訓練實例,訓練模型考慮其他可能的視角,並進行抽象和類比,透過反思推理促進更全面的理解。
V-STaR這篇文章同樣是STaR框架的推廣,發表於今年2月。
論文網址:https://arxiv.org/abs/2402.06457
論文提出,原有的STaR方法在迭代過程中丟棄了大量不正確的解決方案,可能忽略了其中有價值的資訊。
V-STaR正是要彌補這個缺陷,它同時利用了自我改進過程中產生的正確和錯誤的解決方案,用DPO訓練出一個驗證模型,以判斷生成的解決方案的正確性。此驗證器在推理時使用,從候選解決方案中進行選擇。
實驗發現,運行V-STaR進行多次迭代,可以逐漸訓練出表現較好的推理模型和驗證模型。
Let’s Verify Step by Step這篇論文,便是由AI大牛Ilya帶隊完成。
論文網址:https://arxiv.org/abs/2305.20050
論文中,主要探討了大模型在複雜推理中,如何優化訓練策略的問題,尤其是,如何利用CoT思考。
他們提出了過程監督方法(process supervision),由此訓練的一種全新模型,在解決數學問題上取得了突破。
這項策略的強大之處在於,比起結果監督,在推理過程中逐步獎勵,進而讓模型表現顯著提升。
除了Twitter帖中一開始涉及的5篇,Schimid還在HuggingFace上單開了一個網頁,並持續搜羅相關論文,目前已經涵蓋了7篇。
o1能否實現自我提升
Jim Fan在一篇分析帖中指出,o1模型帶給我們的關鍵見解是這兩條曲線的並進——訓練時的scaling law和推理時的scaling law,而後者才是真正戰勝收益遞減的關鍵因素。
此外,他還cue到了兩篇論文,能夠解決我們關於「o1自我提升能力」的疑問。一篇是Meta和NYU在今年1月提出的「自我獎勵的語言模型」。
論文網址:https://arxiv.org/abs/2401.10020
這篇文章基於一個非常簡單的想法:對同一個LLM進行提示,引導它產生回應並自我獎勵,進行迭代自舉。
論文稱,獎勵建模能力不再屬於一個固定、獨立的模型,而是可以跟隨主模型的步伐提升。但有趣的是,最多3次迭代之後,依舊會出現模型飽和。
對此,Jim Fan的想法是,作為評論者(critic)的獎勵模型,提升速度小於作為行動者(actor)的生成模型,因此儘管二者都在提升,最多3輪迭代後,後者就會追上前者,達到飽和。
另一篇文章是DeepMind去年8月發表的ReST(Reinforced Self-Training),其實驗結果也很類似:在達到收益遞減前,最多進行3輪迭代。
論文網址:https://arxiv.org/abs/2308.08998
這兩篇論文似乎證明了,評論家和行動者之間不存在可持續的能力差距,除非引入外部驅動訊號,例如符號定理驗證、單元測試套件或編譯器回饋。
但這些都是特定領域的高度專業化的內容,要實現我們理想中的LLM的通用自我提升,還需要發掘和探索更多的研究想法。
參考資料: