UC伯克利教授:2030年GPT可執行人類180萬年工作一天學2500年知識
GPT-2030會進化到什麼版本?這位UC伯克利教授給出了史上最硬核預測。準備好,前方高能來襲!現在是GPT-4,時間是2023年。7年之後,2030年,那時的GPT會是什麼樣子?UC伯克利的一位機器學習教授Jacob Steinhard發表長文,對2030年的GPT(以下簡稱為GPT 2030)作了預測。
為了更好地進行預測,Jacob查詢了各種來源的信息,包括經驗縮放定律、對未來計算和數據可用性的預測、特定基準的改進速度、當前系統的經驗推理速度,以及未來可能的並行性改進。
概括來看,Jacob認為,GPT 2030會在以下幾個方面超過人類工作者。
1. 編程、黑客任務、數學、蛋白質設計。
2. 工作和思考的速度:預計GPT 2030每分鐘處理的單詞是人類的5倍,而每FLOP都多5倍的話,總共就是125倍。
3. GPT 2030可以進行任意複製,並進行並行運算。算力足夠的話,它足以完成人類需要執行180萬年的工作,結合2中的結論,這些工作只需2.4個月,就能完成。
4. 由於具有相同的模型權重,GPT的副本之間可以共享知識,實現快速的並行學習。因此,GPT可以在1天內學完人類需要學2500年的知識。
5. 除了文本和圖像,GPT還能接受其它模態的訓練,甚至包括各種違反直覺的方式,比如分子結構、網絡流量、低級機器碼、天文圖像和腦部掃描。因此,它可能會對我們經驗有限的領域具有很強的直覺把握,甚至會形成我們沒有的概念。
當然,除了飛躍的性能,Jacob表示,GPT的濫用問題也會更加嚴重,並行化和高速將使模型嚴重威脅網絡安全。
它的快速並行學習還會轉向人類行為,而因為自己已經掌握了“千年”的經驗,它想要操控和誤導人類也會很輕易。
在加速方面,最大的瓶頸是GPT的自主性。
在數學研究這種可以自動檢查工作的領域,Jacob預測,GPT 2030將超過大多數專業數學家。
在機器學習領域,他預測GPT將能獨立完成實驗並生成圖表和論文,但還是需要人類科研者給出具體指導、評估結果。
在這兩種情況下,GPT 2030都將是科研過程中不可或缺的一部分。
Jacob表示,他對GPT 2030特性的預測並不是從今天的系統中直觀得出的,它們可能是錯誤的,因為ML在2030年會是什麼樣子,還存在很大的不確定性。
然而,無論GPT 2030會是什麼樣子,Jacob都相信,它至少是一個更好版本的GPT-4。
所以,我們現在就該為AI可能造成的影響(比如影響1萬億美元、1000萬人的生命,或者對人類社會進程造成重大破壞)做好準備,而不是在7年以後。
01 特定能力
GPT 2030應該會具有超人的編碼、黑客和數學能力。
在閱讀和處理大型語料庫,以獲取模式和見解以及回憶事實的能力方面,它都會能力驚人。
因為AlphaFold和AlphaZero在蛋白質結構預測和遊戲方面都具有超人的能力,GPT 2030顯然也可以,比如讓它在與AlphaFold/AlphaZero模型相似的數據上進行多模態訓練。
編程能力
GPT-4在LeetCode問題上的表現優於訓練截止後的人類基線,並通過了幾家大型科技公司的模擬面試。
他們的進步速度也很快,從GPT-3到GPT-4,直接躍升了19%。
在更具挑戰性的CodeForces競賽中,GPT-4的表現較差,但AlphaCode與CodeForces競爭對手的中值水平相當。
在更難的APPS數據集上,Parcel進一步超越了AlphaCode(7.8%->25.5%)。
展望未來,預測平台Metaculus給出的中位數是2027年,屆時在APPS上將有80%的AI,將超越除了最優秀程序員之外的所有人類。
黑客
Jacob預測,GPT 2030的黑客能力將隨著編程能力的提高而提高,而且,ML模型可以比人類更有規模、更認真地搜索大型代碼庫中的漏洞。
事實上,ChatGPT早已被用於幫助生成漏洞。
ChatGPT生成的網絡釣魚郵件
數學
Minerva在競賽數學基準(MATH)上的準確率達到50%,優於大多數人類競爭對手。
而且,它的進步速度很快(一年內>30%),而且通過自動形式化、減少算法錯誤、改進思維鍊和更好的數據的加持,取得了顯著的成果。
Metaculus預測,到2025年GPT的數學成績將達到92%,AI在國際數學奧賽中獲得金牌的中位數為2028年,能夠比肩全世界成績最拔尖的高中生。
Jacob個人預計,GPT 2030在證明定理方面將優於大多數專業數學家。
信息處理
回憶事實和處理大型語料庫,是語言模型的記憶能力和大型上下文窗口的自然結果。
根據經驗,GPT-4在MMLU上的準確率達到86%,這是一套廣泛的標準化考試,包括律師考試、MCAT以及大學數學、物理、生物化學和哲學;即使考慮到可能存在測試污染,這也超出了任何人類的知識廣度。
關於大型語料庫,有研究人員使用GPT-3構建了一個系統,該系統發現了大型文本數據集中的幾種以前未知的模式,以及某篇工作中的縮放率,這表明模型很快就會成為“超人”。
這兩項工作都利用了LLM的大型上下文窗口,目前該窗口已超過100,000個token,並且還在不斷增長。
更一般地說,機器學習模型具有與人類不同的技能特徵,因為人類和機器學習適應的是非常不同的數據源(前者是通過進化,後者是通過海量的互聯網數據)。
當模型在視頻識別等任務上達到人類水平時,它們在許多其他任務(例如數學、編程和黑客攻擊)上可能會成為超人。
此外,隨著時間的推移,會出現更大的模型和更好的數據,這會讓模型功能變得更為強大,不太可能低於人類水平。
雖然當前的深度學習方法可能在某些領域達不到人類水平,但在數學這類人類進化並不擅長的領域,它們很可能會顯著超越人類。
02 推理速度
為了研究ML模型的速度,研究人員將測量ML模型生成文本的速度,以每分鐘想到380個單詞的人類思維速度為基準。
使用OpenAI的chat completions API,GPT-3.5每分鐘可以生成1200個單詞(wpm),而GPT-4可以生成370wpm,截至2023年4月上旬。
像Pythia-12B這樣的小型開源模型,通過在A100 GPU上使用開箱即用的工具,至少可以生成1350個單詞wpm, ,通過進一步優化,可能還會達到2倍。
因此,如果我們考慮截至4月份的OpenAI模型,它要么大約是人類速度的3倍,要么等於人類速度。因為加速推理存在強大的商業化壓力,未來模型的推理速度還會更快。
事實上,根據Fabien Roger 的跟踪數據,在撰寫本文之前的一周,GPT-4的速度已經提高到約540wpm(12個token/秒);這表明空間仍然很大。
Steinhard的中位數預測是,模型每分鐘生成的單詞數將是人類的5倍(範圍:[0.5x, 20x]),這大致是進一步增加的實際收益會遞減的地方。
重要的是,機器學習模型的速度不是固定的。模型的串行推理速度可以提高k^2,但代價是吞吐量降低k倍(換句話說,模型的$$k^3$$並行副本可以替換為速度快$$k^2$$倍的單個模型)
這可以通過並行平鋪方案來完成,理論上該方案甚至適用於$$k^2$$這樣的大值,可能至少為100,甚至更多。
因此,通過設置k=5,可以將5倍人類速度的模型,加速到125倍的人類速度。
當然,速度並不一定與質量相匹配:GPT 2030將具有與人類
不同的技能特徵,在一些我們認為容易的任務上,它會失敗,而在我們認為困難的任務上,它會表現出色。
因此,我們不應將GPT 2030視為“加速的人類”,而應將其視為有潛力發展出一些違反直覺技能的“超級加速工人”。
儘管如此,加速仍然很有用。
對於提速125倍的語言模型,只要在GPT 2030的技能範圍之內,我們需要一天時間的學會的認知動作,它可能在幾分鐘內就會完成。
運用前面提到的黑客攻擊,機器學習系統可以快速生成漏洞或攻擊,而人類卻生成得很緩慢。
03 吞吐量和並行副本
模型可以根據可用的計算和內存任意複製,因此它們可以快速完成任何可以有效並行的工作。
此外,一旦一個模型被微調到特別有效,更改就可以立即傳播到其他實例。模型還可以針對特定的任務進行蒸餾,從而運行得更快、更便宜。
一旦模型經過訓練,可能會有足夠的資源來運行模型的多個副本。
因為訓練模型就需要運行它的許多並行副本,並且組織在部署時,仍然擁有這些資源。因此,我們可以通過估計訓練成本,來降低副本數量。
比如,訓練GPT-3的成本,足以運行9×10^11次前向傳播。用人類等價的術語來說,人類以每分鐘380個單詞的速度思考,一個單詞平均佔1.33個token,因此9×10^11次前向傳播相當於以人類速度工作約3400年。
因此,該組織可以以人類工作速度運行3400個模型的並行副本一整年,或者以5倍人類速度運行相同數量的副本2.4個月。
接下來,我們可以試著為未來的模型預測同樣的“訓練過剩”(訓練與推理成本的比率)。這個數會更大,主要原因就是這個數值大致與數據集大小成正比,並且數據集會隨著時間的推移而增加。
隨著自然產生的語言數據被耗盡,這一趨勢將會放緩,但新的模式以及合成或自我生成的數據仍將繼續推動這一趨勢。
上面的預測有些保守,因為如果組織購買額外的算力,模型可能會在比訓練時使用的資源更多的資源上運行。
一個大致的估計顯示,GPT-4的訓練佔用了世界上大約0.01%的計算資源,在未來它的訓練和運行將佔用全世界更大比例的算力,因此在訓練後進一步擴展的空間較小。
儘管如此,如果組織有充分的理由這樣做,他們仍然可以將運行的副本數量增加到另一個數量級。
04 知識共享
模型的不同副本可以共享參數更新。
例如,ChatGPT可以部署到數百萬用戶,從每次交互中學習一些東西,然後將梯度更新傳播到中央服務器,隨後應用於模型的所有副本。
通過這種方式,ChatGPT一小時內觀察到的人性就比人類一生(100萬小時= 114年)還要多。並行學習可能是模型最重要的優勢之一,這意味著它們可以快速學習任何缺失的技能。
並行學習的速度取決於模型同時運行副本的數量、獲取數據的速度以及數據是否可以有效地並行利用。
即使是極端的並行化,也不會對學習效率造成太大影響,因為在實踐中,數以百萬計的批大小是很常見的,並且梯度噪聲尺度預測在某個“關鍵批大小”以下,學習性能的降低將是最小的。
因此,我們重點關注並行副本和數據採集。
以下兩個估計表明,可以讓至少~100萬個模型副本以人類速度並行學習。
這相當於人類每天學習2500年,因為100萬天=2500年。
我們首先使用了上文第3節的數字,得出的結論是訓練模型的成本足以模擬模型180萬年的工作(根據人類速度進行調整)。
假設訓練運行本身持續了不到1.2年,這意味著訓練模型的組織擁有足夠的GPU,以人類速度運行150萬個副本。
第二個估算考慮了部署該模型的組織的市場份額。
例如,如果一次有100萬個用戶查詢模型,那麼組織必然有資源來提供100萬個模型副本。
截至2023年5月,ChatGPT擁有1億用戶,截至2023年1月,每天有1300萬活躍用戶。
假設一般用戶請求的是幾分鐘的模型生成文本,因此1月份的數字可能意味著每天大約5萬人的文本。
然而,未來的ChatGPT式模型很可能會是這個數字的20倍,達到每天2.5億活躍用戶或更多,因此每天100萬人的數據,是相當合理的。
作為參考,Facebook每天有20億日活用戶。
05 工具、模態和執行器
過去看,GPT風格的模型主要是在文本和代碼上進行訓練,與外部世界的交互方面,除了通過聊天對話之外能力有限。
然而,現在情況正在迅速改變,因為模型正在接受其他模態(如圖像)的訓練,並且開始與物理執行器進行接口交互。
此外,模型不會局限於文本、自然圖像、視頻和語音等人類中心的模態,它們很可能還將接受對於我們來說陌生的模態的訓練,比如網絡流量、天文圖像或其他大規模數據來源。
工具
最近發布的模型使用了很外部工具,比如ChatGPT插件。
模型已經可以編寫並執行代碼,說服人類採取行動,進行API調用、交易,並潛在地執行網絡攻擊。
這種能力在未來還會進一步發展。
新模態
現在已經有了大規模的開源視覺-語言模型,比如OpenFlamingo,而在商業領域,GPT-4和Flamingo都是在視覺和文本數據上進行訓練的。研究人員還在嘗試更多非傳統的模態配對,例如蛋白質和語言。
由於兩個原因,我們應該預計大規模預訓練模型的模態將繼續擴展。
首先,從經濟上講,將語言與不太熟悉的模態(如蛋白質)配對是有用的,這樣用戶可以從解釋中受益,並高效地進行修改。這意味著在蛋白質、生物醫學數據、CAD模型以及與經濟部門相關的其他模態上進行多模態訓練。
其次,隨著語言數據的耗盡,模型開發者將尋找新型的數據,來繼續從規模效應中受益。
除了傳統的文本和視頻,一些最大的現有數據來源是天文數據(每天將很快達到exabytes級)和基因組數據(每天約0.1exabytes)。這些海量數據源有可能被用於訓練GPT 2030。
使用非傳統模態,意味著GPT 2030可能會具有非直觀的能力。它可能會比我們更好地理解星星和基因,即使它並不具備體力。
這可能會帶來一些意外發現,例如設計新穎的蛋白質。
執行器
現在,大模型還開始使用物理執行器:ChatGPT已經用於機器人控制了,OpenAI正在投資一家人形機器人公司。
然而,與數字領域相比,物理領域的數據收集成本要高得多,而且人類在進化上更適應物理領域(因此,機器學習模型要與我們競爭的門檻更高)。
Steinhard預測,在2030年,AI模型能自主組織一輛法拉利的概率是40%。
06 GPT-2030的影響
當像GPT-2030這樣的AI出現,會對社會意味著什麼?
可以推測,它會顯著加速某些研究領域的發展,也有很大可能被濫用。
優勢
GPT-2030,代表著一支龐大、高適應性和高吞吐量的員工隊伍。
它可以在並行副本中完成180萬年的工作,其中每個副本的運行速度是人類的5倍。
這意味著我們可以(在並行性約束的前提下)在2.4個月內,模擬180萬個智能體工作一年的情況。
我們可以支付5倍的FLOP費用,來獲得額外的25倍加速(達到人類速度的125倍),因此我們還可以在3天內,模擬14000個智能體工作一年的情況。
限制
限制這個數字化勞動力的,主要有三個障礙:技能要求、實驗成本和自主性。
首先,GPT-2030的技能要求與人類不同,使其在某些任務上表現較差)。
其次,模擬的工作者仍然需要與世界接觸以收集數據,這會產生時間和計算成本。
最後,現在的模型在進行一連串思考後,只能生成幾千個token,之後就會“卡住”,進入一個不再產生高質量輸出的狀態。
或許GPT-2030在被重置或通過外部反饋引導之前,能夠連續運行數個相當於人類工作日的時間。
如果模型以5倍的加速運行,這意味著它們每隔幾個小時就需要人類監督。
因此,GPT-2030最有可能影響的任務是:
1. AI相對於人類的強項
2. 只需要能夠方便快速地收集外部經驗數據的任務(而不是昂貴的物理實驗)
3. 可以事先分解為可靠執行的子任務,或具有明確且可自動化的反饋度量,以幫助引導模型的任務
加速!
同時滿足上述三個標準的一個任務,就是是數學研究。
在第一點上,GPT-2030可能具有超人的數學能力。
在第二和第三點上,數學可以純粹通過思考和寫作來完成,而且如果一個定理被證明了,我們會知道。
此外,現在全球並沒有多少數學家(在美國祇有3000名),因此GPT-2030可能會在在幾天內,就模擬出超過所有數學家一年內產出的成果。
機器學習研究也基本滿足上述標準。
GPT-2030將具有超人的編程能力,包括實現和運行實驗。
它在展示和解釋實驗結果方面也會表現相當出色,因為GPT-4能夠以通俗易懂的方式解釋複雜主題,同時市場也對此有很大需求。
因此,機器學習研究可能會簡化為構思好要進行的實驗,然後和高質量(但可能不可靠)的實驗結果報告交互。
到2030年,碩博研究生可能會擁有和今天的教授相同的資源,彷彿手上帶了幾名優秀學生。
社會科學的發展可能也會顯著加速。很多論文的大部分工作是追踪、分類和標記有趣的數據來源,並提取模式。
這滿足了要求3,因為分類和標記可以分解為簡單的子任務;也滿足了要求2,只要數據可以在互聯網上獲得,或者可以通過在線調查收集到。