OpenAI研究員首次提出“AGI時間”進化論o1數學已達“分鐘級AGI”
本月,OpenAI科學家就當前LLM的scaling方法論能否實現AGI話題展開深入辯論,認為將來AI至少與人類平分秋色;LLM scaling目前的問題可以透過後訓練、強化學習、合成數據、智能體協作等方法得到解決;以現在的趨勢估計,明年LLM就能贏得IMO金牌。
隨著AI不斷刷新各項基準測試,關於AI的發展各方也態度不一。
早在本月5日,在「泛化的未知未來」研討會上,許多知名研究員就相關主題展開了一場針鋒相對的辯論。
這次辯題是「當今的LLM沿著既有路線持續發展是否就足以實現真正的AGI」。
辯論分為兩個陣營:「火花派」認為現有技術已經具備或即將具備解決這些難題的能力;「餘燼派」則持懷疑態度,認為需要更多質的改變。
正方辯手Sébastien Bubeck
辯論正方是Sébastien Bubeck,在辯論五週前加入OpenAI,是「Sparks of Artificial General Intelligence」的第一作者。
論文網址:https://arxiv.org/pdf/2303.12712
在過去幾年裡,Sébastien Bubek由於專注於研究大模型的智能湧現問題,所以更加主張隨著大模型的智能湧現,就足以產生解決現存NP難題以及黎曼假設的智能水平。
反方辯手Tom McCoy
反方是Tom McCoy,目前是耶魯大學語言學助理教授,是「Embers of Autoregression」一文的第一作者。
論文網址:https://arxiv.org/pdf/2309.13638
他在約翰霍普金斯大學獲得認知科學博士學位,並在普林斯頓大學作過電腦科學的博士後, 博士後指導教授是Thomas Griffiths。
今年他開始在耶魯大學擔任語言學助理教授,從事計算語言學、認知科學和人工智慧的研究。他對人和機器如何學習以及表示語言結構感興趣。
現有的LLM能夠基於擴充解決重大數學問題嗎?
Sébastien表示過去幾年LLM的進步「簡直是奇蹟」。
重大未決數學猜想是指那些大多數人類專家認為無法用目前證明技術解決的問題,例如P≠NP或黎曼猜想。
例如,在MMLU基準中,最佳模型已超過了90%,已經完全飽和。在醫療診斷領域,GPT-4則達到了90%正確率,而人類醫師達到了75%準確率。
而與辯題相關的高中數學競賽基準很快也會飽和。
Google最新發表的AI數學家,透過微調的Gemini系統,可以拿到2024年國際數學奧林匹克競賽銀牌。
基於這種趨勢, Sébastien認為到明年LLM拿下IMO的金牌不是問題。
隨著各種基準日益飽和,Sébastien表示真正衡量AI進步的尺度應該是「AGI時間」。
Sébastien:擴展AGI時間足以解決
GPT-4目前處於“秒級AGI”,在許多情況下可以快速回應並給出答案,類似於人類可以在極短時間內作出反應。
對於某些程式設計任務,GPT-4可能已經達到了“分鐘級AGI”,即它能像人類一樣花幾分鐘時間編寫程式碼片段。
而o1則可能已經達到了「小時AGI」。
在數學領域,GPT-4仍然停留在AGI秒階段,即便是o1也只是“分鐘級AGI”,因為它無法像人類那樣花費較長時間深入思考複雜的數學問題。
Sébastien表示對於重大開放性問題的解決,類似於黎曼猜想等重大數學問題的證明,那就可能需要AGI能夠持續深入研究問題並堅持數週。
他表示道:“如果你有‘週級AGI’的能力,那麼你就擁有了這一切。”
Tom:依然欠缺創意飛躍
而Tom則對Sébastien的觀點抱持懷疑的態度,他認為僅靠現有方法的擴展是不足以去解決複雜的數學猜想的。
Tom McCoy的核心觀點是證明數學猜想需要某種創造性的飛躍。
「很可能我們還欠缺某種創造性的飛躍,也就是一種全新的證明思路。在有了這種新思路之後,還需要結合長時間的推理與規劃,最後才能形成符合學術標準的可信且完整的證明」。
他表示雖然LLM不僅僅是記憶,但是其泛化能力並不足以解決數學猜想,因為解決數學猜想“需要提出一個全新的想法,而不僅僅是已有想法的組合。”
而且他認為LLM缺乏長期推理和規劃的能力,它們的能力很大程度取決於訓練資料的性質。這也是他們「Embers of Autoregression」論文的主要觀點。
而且至關重要的是,到目前為止的擴展(scaling),並沒有從根本上解決這個問題。
「我們需要的是根本性的變革,因為對於新的證明方法來講,其在訓練資料中的頻率是0。所以無論怎麼去繼續擴展規模,都不會讓LLM能夠接觸到這些新的證明方法,至於繼續從這些新的方法繼續學習也就無從談起了」。
Tom也表示由於LLM幻覺的存在,讓其形成洋洋灑灑數十頁乃至數百頁的可信數學證明是不切實際的。
「問題在於,當需要撰寫的證明很長時,即使我們能大幅降低幻覺出現的機率,但只要這個機率不為零,當證明夠長時,證明中出現錯誤的可能性就幾乎是必然的。而且只要證明中存在一處缺陷,這個證明就無效了」。
所以Tom認為,為了給出可信的嚴謹證明,LLM需要的是質變,而不僅僅是擴大規模所帶來的那種量變收益。
總的來說,Tom認為有兩個關鍵因素阻礙了目前LLM方法實現解決重大數學猜想。
第一是需要實現創造性的飛躍,產生全新性質的想法。第二是能夠在數十頁或數百頁的篇幅中進行持續的長期推理和規劃。
結合與擴展推理
Sébastien:「組合」就足以強大
為了反駁Tom的“模型的泛化能力僅僅是將兩個不同的想法組合”,Sébastien詢問在坐的聽眾:“你覺得你做的比僅僅將現有的想法結合起來更多嗎?”
Sébastien認為將事物互相結合的這個過程本身就附帶了一定的隨機性,類似於在「思維空間裡隨機遊走」。不斷組合現存事物,即可產生突破性的成果。
「至少對我來說,當我回顧自己所做的事時,我覺得大部分都是在做組合的工作,然後添加一點隨機性進去。實際上,我寫過很多論文,在其中我借鑒了別人的成果,然後意識到他們所做的其實也只是在組合已有的東西。
錯誤也可以在多智能體環境被修正
Tom的第二個核心論點是「隨著推理變得越來越長,錯誤是不可避免」。
對此,Sébastien認為問題被誇大了。即便是知名研究員撰寫的論文,如果它們超過了50頁還能保持完全正確的,也是非常非常少。
但這不代表論文的結果是錯誤的,況且錯誤也可以被他人所指正。
「我可以想像一個未來,有一群AI共同工作。那將是一個多智能體的環境,其中一些AI在閱讀其他AI寫的論文,然後指出錯誤並得到修正回饋,等等。這絕對是一個可能的未來」。
後訓練是否可以解決現存問題
Sébastien對於「Embers of Autoregression」一文中提到的問題,即訓練資料表示不充分時會出現更多錯誤。
“當然,這絕對是一個真實的陳述,但它只是針對基礎模型的真實陳述。”
但Sébastien認為這並不代表模型本身就不具備能力,只是因為訓練資料中一些任務表示不夠充分。所以可以透過後訓練來提取對應的能力。
他對Tom講道:“我認為你在Embers of Autoregression論文中提到的只是關於基礎模型的內容。如果你對其進行後訓練,一些結論可能會改變。”
Tom回應:後訓練不行
Tom表示其論點是基於基礎模型的。
他認為這些由預訓練產生的效果在後訓練中仍然持續存在:“我們分析過的模型全都經過後期訓練,但它們依然表現出這種自回歸的痕跡。”
o1表現確實比之前的模型都要好得多,但它仍然在處理字母順序上比逆向字母順序表現出更好的效果,以及其他類似的情況。
“即使這些後訓練方法也不足以改變模型的基本性質,其基於自回歸的根本特性。”
因此猜測“要完全消除這些問題,需要從預訓練階段就明確且直接地對推理進行訓練,因為目前的情況,模型中的推理實際上是在最後拼湊上去的。”
這是一個非常重要的步驟,而且在訓練浮點運算次數等方面,與其他方法相比它要少得多。
“因此,為了達到所需的穩健性,這需要某種質的變化。”
是的,另一個問題是,除了能夠組合現有的想法,找出哪些想法需要被組合起來也很重要。
據他了解,那些令人印象深刻的想法組合,大部分是人類告訴AI模型的:“這裡有兩件事,我們要你把它們組合起來。”
但他認為,“知道哪些東西的組合會產生新的證明技巧, 這是一個更難的問題。”
此外,他完全同意“一些著名證明的想法,確實是通過令人印象深刻的方式將現有想法組合在一起而產生的。”
從新穎性或創意角度來看,有些方法雖然未解決問題但也很成功, 他表示「像費馬大定理這樣的問題,之所以受到盛大的慶祝,是因為它們極具創意,並且以非常新穎的方式使用了舊技術。
Sébastien:人機互動很重要
這次Sébastien表示要稍微偏題一下,那就是“AI自行解決問題之前,它將與所有人進行合作。”
他分享了與AI一起合作做研究的經驗。
“凸函數的梯度流能有多長?”
這個問題當時還是他在Dropbox中的草稿,而且還沒有被刊登。所以可以肯定這沒有被包含在訓練資料中。
他向o1模型問了這個專業問題,沒想到o1將問題與所謂的自縮曲線連結了起來。
但這種關聯並不直觀,而且它解釋了為什麼在這兩者之間建立聯繫是個好主意。並提供了相關文獻。
而Sébastien自己花了三天才找到這個連結。
也就是說,即便只是目前的基礎模型,也足以讓他能夠加快三天的研究進度。
他表示在明年更多的科學家會經歷類似的體驗。
“這和醫療診斷領域發生的一樣。在每個領域都有同樣的故事。AI至少將與我們幾乎平分秋色。”
隨後Tom也認為AI可與人類合作,但這不必然意味著它可以不依賴人類而獨自做出對數學的創新貢獻。
「為了解決某些未解決的數學問題,僅僅和人類一樣好是不夠的,實際上它必須在某種程度上比人類更好,或至少比我們迄今為止所提到的任何人類(比如高斯)都要好”,Tom回應道。
Tom:推理時間擴展面臨指數級成長困境
Tom發起了一個疑問,“在假設有無限的時間和數據的前提下,擴展是否會最終達到目標?”
如果我們把這個問題降到實際層面,即是否有一個數字X,在經過X年後,透過擴展能否達成目標。
他認為首先,人們已經開始擔心現有的網路數據量是否足以支持這種數據規模的持續成長。例如,繼續現有的資料擴展水準。
測試時擴展變得如此令人興奮的原因之一就在於它提供了一種不同的擴展方式,這種擴展不再那麼依賴預訓練資料的規模。
但即使是對於測試時擴展或訓練週期數量的擴展,也存在一個問題:許多已觀察到的scaling law表明,效能改善隨著規模擴大是按對數增長的。
這意味著我們需要更多指數級的數據或推理時間才能繼續看到效能提升。
Tom擔憂「到了某個時候,這種指數型成長可能會變得不可行」。
同時,Tom認為對於AI 系統來說,穩健地用新方式使用那些熟悉的想法也很重要。
“我們也有證據表明,AI系統在以熟悉的方式使用某些概念時,表現得比以新穎方式使用時要好得多。有趣的是,這與人類的情況有點類似。”
比如,给GPT-4一个数字,让它乘以9/5再加上32,其准确率大约为11%。但若同时告诉GPT-4“也就是将数字从华氏度转化到摄氏度”,其准确率提升到了62%。同样的计算,仅仅认识到这是熟悉的场景,就足以显著提高性能。
Tom總結:整體樂觀,但懷疑Scaling不行
Tom在總結時以一個笑話開始。
這個笑話是這樣的:
一群朋友在公園散步時, 遇到了一個男人和他的寵物狗正在下棋。他們走上前說:“哇~,你的狗竟然會下棋!真是太神奇了!”那個男人回答:“哦,其實也沒啥,通常都是它輸了。”
故事的笑點是,這個人對他的狗會下棋習以為常,然而對一隻狗而言,會下棋就已經很神奇了,哪怕它並不擅長下棋。
Tom對大語言模型的批評也是如此:「大語言模型能做這麼多的事情,真是令人驚嘆,即便在很多事情上做得併不完美。所以,大語言模型確實很厲害,但重要的是,不要過度誇大它們的能力。
他認為:“大語言模型的這些能力來源訓練資料。”
透過反覆觀察,他非常清楚地看到大語言模型的能力與訓練資料的頻率緊密相關。
這樣看來,大語言模型擁有如此廣泛且令人印象深刻的能力,可能更反映了訓練資料的多樣性,而不是說其具備深層的泛化能力。
這意味著如果我們希望大語言模型能真正地別開生面,這就需要不同於目前的範式。
只用目前的範式Scaling是不夠的,因為所需的能力並不包含在訓練分佈中。
現在,確實有可能存在一個學習器(learner)能夠做到超出其數據範圍的事情, 因為人類就可以, 畢竟人類過去已經解決了數學中的多個猜想。
但到目前為止,還沒有證據顯示大語言模型能夠達到這種創造力和深度。
他認為“總體上,我對AI能夠幫助我們解決這些未解問題是樂觀的,但我懷疑僅靠擴大規模不能做到這一點。”
他認為需要改進以下關鍵點:
第一點是增強長距離推理和規劃能力,以及更好的長期記憶。
因為僅僅給大語言模型更大的記憶體可能還不夠,還需要找出如何讓它們有效地利用增強的記憶,確保能夠在非常長的記憶背景下識別出重要資訊。
第二點,需要找到解決幻覺和可靠性問題的方法。一種潛在的技術是更流暢地與符號組件(如證明驗證器)整合。
另一個是他之前提到的想法,可能從一開始就優化系統,使其更適合操作思想而不是語言。
大語言模型首先是一種語言模型,它們主要的初始預訓練階段是基於語言預測。
而最近的方法確實包含額外的微調和後訓練階段,但基本模型本質上仍以語言為基礎。
因此,這就導致了這樣一個效果:大語言模型處理概念的能力必須透過語言間接地湧現。
他認為這很可能解釋了為什麼如此多的LLM推理仍然相對脆弱或容易受到機率的影響。
為了繞過這個問題,重要的是讓模型直接優化推理能力,而不是從語言開始優化。
最後的一點是,採取什麼措施來產生創造力,這確實非常令人困惑。
他認為沒有人知道具體需要什麼才能有創造力。
但有幾個因素可能很重要,那就是抽象能力和類比能力,因為抽象和類比將以新的方式看待熟悉的想法,從而建立前所未有的聯繫。
這一切說起來容易做起來難,但他確信點燃AGI星星之火需要持續不斷的富含人類智慧的創新。
Sébastien總結:創意就是模式識別
Sébastien認為「在進入大學階段或剛入大學階段,我們會接觸到很多東西,知識也逐漸擴展。然後進入研究生階段,就開始深入研究了,會花很長時間思考問題。在讀研的第一年,你可能會選擇一篇論文,然後花一個月的時間來鑽研它。
而大語言模型在網路資料上的預訓練也是如此。
它們被訓練地特別針對性地深入地思考某個具體的問題領域。
Sébastien認為第二個非常關鍵的要點是:“一切都是湧現,沒有硬編碼。 ”
不用向AI下達「請檢查答案」「請回溯」「請做XXX」這類指令。
不用向模型傳授任何錦囊妙計。
透過強化學習, LLM能學到這一切。
GPT-4的智慧湧現讓Sébastien感到驚訝不已:「一旦事物開始以這種方式湧現,這種能力的極限到底在哪裡,你怎麼能說得清楚呢?這真的很難說。但這非常重要。 」
然而問題是現在LLM卡在這裡了,即便是o1也是如此。
此路不通,可以另尋他路,其中一個方法當然是合成資料。 Sébastien與微軟團隊一起開發的Phi系列模型,一直在這樣做。
Sébastien的最後一個觀點是關於真正的創造力。
他表示美好的時刻是“審視自己的工作以及那些人所做的工作的時刻”, 真正的創意時刻是“識別出模式的時刻。”
他再次強調,「識別模式有點像組合事物,但它可以在不同的規模上進行組合」。
他感慨到:“這不僅僅是將兩個想法結合在一起。就像你突然發現很多事情以一種非常新穎的方式相互關聯。”
這就是一個好定義的意思。
一個好定義能夠涵蓋可能無限的東西,並將其濃縮成精煉的一句話。
「所以建構那些好定義的過程,全在於辨識模式,全在於抽象化。現在關鍵點是這似乎是一種可以傳授的技能。你可以給一些例子。你可以設計許多關於如何提出一個好的定義的例子。 」
參考資料:
https://simons.berkeley.edu/talks/sebastien-bubeck-open-ai-2024-12-05
來源:申次元